Python 數據處理，切片，替換，去重

2020 年 1 月 6 日
筆記

一、把下面這組數據進行處理，進行規則排序。

第一版代碼：

#!/usr/local/python3/bin/python3  #定義了一個函數，用來做數據的分隔符轉換，保證數據風格的一致，才能有效排序。  def sanitize(time_string):         if '-' in time_string:              splitter='-'      elif ':' in time_string:          splitter=':'      else:          return(time_string)  #將取到的一段數據，通過判斷中定義的分割符切開為兩組，分別報存到mins，secs變量中。      (mins,secs) = time_string.split(splitter)   #在返回結果的時候，完成字符串合併。      return(mins + '.' + secs)       #使用with open打開文件，和open不同於with open會自動關閉文件，不需要手動關閉。      with open('james') as jam:      data = jam.readline()  #把數據進行首尾去空格，使用，最為分隔符切分。      james1 = data.strip().split(',')  #這裡也可以通過這種方式排序，在最後輸出的時候，直接輸出james2就可以了。  #james2 = sorted(james1)    with open('julie') as jul:      data = jul.readline()  julie1 = data.strip().split(',')  #julie2 = sorted(julie1)    with open('mikey') as mik:      data = mik.readline()  mikey1 = data.strip().split(',')  #mikey2 = sorted(mikey1)    with open('sarah') as sar:      data = sar.readline()  sarah1 = data.strip().split(',')  #sarah2 = sorted(sarah1)    clean_james=[]  clean_julie=[]  clean_mikey=[]  clean_sarah=[]    #通過迭代每組數據，調用sanitize函數，再把轉換好的數據添加到新的列表中，這樣列表中的數據風格就是一致的。  for each_t in james1:      clean_james.append(sanitize(each_t))    for each_t in julie1:      clean_julie.append(sanitize(each_t))  for each_t in mikey1:      clean_mikey.append(sanitize(each_t))  for each_t in sarah1:      clean_sarah.append(sanitize(each_t))    #輸出新列表並排序  print(sorted(clean_james))   print(sorted(clean_julie))  print(sorted(clean_mikey))  print(sorted(clean_sarah))

輸出結果：

這就完成了規則排序。

二、需要給數據去重複，排序，只輸出前三項數據。

第二版代碼：

#!/usr/local/python3/bin/python3  def sanitize(time_string):      if '-' in time_string:          splitter='-'      elif ':' in time_string:          splitter=':'      else:          return(time_string)      (mins,secs) = time_string.split(splitter)      return(mins + '.' + secs)    #定義函數來解決去除重複數據項的問題，此函數接受兩個列表作為參數帶入，當數據不存在新列表中就把數據添加到新列表，如果有存在則不會添加，代替了下面使用每個列表使用for迭代的方式，代碼更簡潔。      def pomoto(old_list,new_list):      for i in old_list:          if i not in new_list:              new_list.append(i)    with open('james') as jam:      data = jam.readline()  james1 = data.strip().split(',')    with open('julie') as jul:      data = jul.readline()  julie1 = data.strip().split(',')    with open('mikey') as mik:      data = mik.readline()  mikey1 = data.strip().split(',')    with open('sarah') as sar:      data = sar.readline()  sarah1 = data.strip().split(',')      unique_james = []  unique_julie = []  unique_sarah = []  unique_mikey = []    #從迭代的方式改為了列表推導的方式  clean_james = sorted([sanitize(each_t) for each_t in james1])  clean_julie = sorted([sanitize(each_t) for each_t in julie1])  clean_mikey = sorted([sanitize(each_t) for each_t in mikey1])  clean_sarah = sorted([sanitize(each_t) for each_t in sarah1])    #調用函數完成去重複  pomoto(clean_james,unique_james)  pomoto(clean_julie,unique_julie)  pomoto(clean_mikey,unique_mikey)  pomoto(clean_sarah,unique_sarah)    #每列表迭代方式的去重複  #for i in clean_james:  #    if i not in unique_james:  #        unique_james.append(i)  #for i in clean_julie:  #    if i not in unique_julie:  #        unique_julie.append(i)  #for i in clean_mikey:  #    if i not in unique_mikey:  #        unique_mikey.append(i)  #for i in clean_sarah:  #    if i not in unique_sarah:  #        unique_sarah.append(i)    #輸出去重複後的唯一新列表，只打印前三項數據  print(unique_james[0:3])  print(unique_julie[0:3])  print(unique_mikey[0:3])  print(unique_sarah[0:3])

輸出結果：

三、使用集合刪除重複項，將重複的with open定義為函數，簡潔代碼，進行逆序排序，輸出前三項。

第三版代碼：

#!/usr/local/python3/bin/python3  def sanitize(time_string):      if '-' in time_string:          splitter='-'      elif ':' in time_string:          splitter=':'      else:          return(time_string)      (mins,secs) = time_string.split(splitter)      return(mins + '.' + secs)        #定義函數打開文件獲取數據返回，並加入了錯誤處理代碼。  def get_file_data(filename):      try:          with open(filename) as f:              data = f.readline()          return(data.strip().split(','))      except IOError as ioerr:          print('File error' + str(ioerr))          return(None)    #調用函數直接得到文件中經過切片後的數據。    james1 = get_file_data('james')  julie1 = get_file_data('julie')  mikey1 = get_file_data('mikey')  sarah1 = get_file_data('sarah')    print(sorted(set([sanitize(i) for i in james1]),reverse=True)[0:3])  print(sorted(set([sanitize(i) for i in julie1]),reverse=True)[0:3])  print(sorted(set([sanitize(i) for i in mikey1]),reverse=True)[0:3])  print(sorted(set([sanitize(i) for i in sarah1]),reverse=True)[0:3])

輸出結果：