Python 數據處理,切片,替換,去重
- 2020 年 1 月 6 日
- 筆記
一、把下面這組數據進行處理,進行規則排序。

第一版代碼:
#!/usr/local/python3/bin/python3 #定義了一個函數,用來做數據的分隔符轉換,保證數據風格的一致,才能有效排序。 def sanitize(time_string): if '-' in time_string: splitter='-' elif ':' in time_string: splitter=':' else: return(time_string) #將取到的一段數據,通過判斷中定義的分割符切開為兩組,分別報存到mins,secs變量中。 (mins,secs) = time_string.split(splitter) #在返回結果的時候,完成字符串合併。 return(mins + '.' + secs) #使用with open打開文件,和open不同於with open會自動關閉文件,不需要手動關閉。 with open('james') as jam: data = jam.readline() #把數據進行首尾去空格,使用,最為分隔符切分。 james1 = data.strip().split(',') #這裡也可以通過這種方式排序,在最後輸出的時候,直接輸出james2就可以了。 #james2 = sorted(james1) with open('julie') as jul: data = jul.readline() julie1 = data.strip().split(',') #julie2 = sorted(julie1) with open('mikey') as mik: data = mik.readline() mikey1 = data.strip().split(',') #mikey2 = sorted(mikey1) with open('sarah') as sar: data = sar.readline() sarah1 = data.strip().split(',') #sarah2 = sorted(sarah1) clean_james=[] clean_julie=[] clean_mikey=[] clean_sarah=[] #通過迭代每組數據,調用sanitize函數,再把轉換好的數據添加到新的列表中,這樣列表中的數據風格就是一致的。 for each_t in james1: clean_james.append(sanitize(each_t)) for each_t in julie1: clean_julie.append(sanitize(each_t)) for each_t in mikey1: clean_mikey.append(sanitize(each_t)) for each_t in sarah1: clean_sarah.append(sanitize(each_t)) #輸出新列表並排序 print(sorted(clean_james)) print(sorted(clean_julie)) print(sorted(clean_mikey)) print(sorted(clean_sarah))
輸出結果:

這就完成了規則排序。
二、需要給數據去重複,排序,只輸出前三項數據。
第二版代碼:
#!/usr/local/python3/bin/python3 def sanitize(time_string): if '-' in time_string: splitter='-' elif ':' in time_string: splitter=':' else: return(time_string) (mins,secs) = time_string.split(splitter) return(mins + '.' + secs) #定義函數來解決去除重複數據項的問題,此函數接受兩個列表作為參數帶入,當數據不存在新列表中就把數據添加到新列表,如果有存在則不會添加,代替了下面使用每個列表使用for迭代的方式,代碼更簡潔。 def pomoto(old_list,new_list): for i in old_list: if i not in new_list: new_list.append(i) with open('james') as jam: data = jam.readline() james1 = data.strip().split(',') with open('julie') as jul: data = jul.readline() julie1 = data.strip().split(',') with open('mikey') as mik: data = mik.readline() mikey1 = data.strip().split(',') with open('sarah') as sar: data = sar.readline() sarah1 = data.strip().split(',') unique_james = [] unique_julie = [] unique_sarah = [] unique_mikey = [] #從迭代的方式改為了列表推導的方式 clean_james = sorted([sanitize(each_t) for each_t in james1]) clean_julie = sorted([sanitize(each_t) for each_t in julie1]) clean_mikey = sorted([sanitize(each_t) for each_t in mikey1]) clean_sarah = sorted([sanitize(each_t) for each_t in sarah1]) #調用函數完成去重複 pomoto(clean_james,unique_james) pomoto(clean_julie,unique_julie) pomoto(clean_mikey,unique_mikey) pomoto(clean_sarah,unique_sarah) #每列表迭代方式的去重複 #for i in clean_james: # if i not in unique_james: # unique_james.append(i) #for i in clean_julie: # if i not in unique_julie: # unique_julie.append(i) #for i in clean_mikey: # if i not in unique_mikey: # unique_mikey.append(i) #for i in clean_sarah: # if i not in unique_sarah: # unique_sarah.append(i) #輸出去重複後的唯一新列表,只打印前三項數據 print(unique_james[0:3]) print(unique_julie[0:3]) print(unique_mikey[0:3]) print(unique_sarah[0:3])
輸出結果:

三、使用集合刪除重複項,將重複的with open定義為函數,簡潔代碼,進行逆序排序,輸出前三項。
第三版代碼:
#!/usr/local/python3/bin/python3 def sanitize(time_string): if '-' in time_string: splitter='-' elif ':' in time_string: splitter=':' else: return(time_string) (mins,secs) = time_string.split(splitter) return(mins + '.' + secs) #定義函數打開文件獲取數據返回,並加入了錯誤處理代碼。 def get_file_data(filename): try: with open(filename) as f: data = f.readline() return(data.strip().split(',')) except IOError as ioerr: print('File error' + str(ioerr)) return(None) #調用函數直接得到文件中經過切片後的數據。 james1 = get_file_data('james') julie1 = get_file_data('julie') mikey1 = get_file_data('mikey') sarah1 = get_file_data('sarah') print(sorted(set([sanitize(i) for i in james1]),reverse=True)[0:3]) print(sorted(set([sanitize(i) for i in julie1]),reverse=True)[0:3]) print(sorted(set([sanitize(i) for i in mikey1]),reverse=True)[0:3]) print(sorted(set([sanitize(i) for i in sarah1]),reverse=True)[0:3])
輸出結果:

定義get_file_data函數代替了,多行的with open,使得代碼簡潔。

Python 集合數據結構:集合中的數據項是無序的,而且不允許重複的,這和我們數學中的集合很像。

最後print輸出代碼:
