利用 Python 進行多 Sheet 表合併、多工作簿合併、一表按列拆分
- 2020 年 2 月 26 日
- 筆記
一、相關知識點講解
1、需要使用的相關庫
1import numpy as np 2import pandas as pd 3import os
2、os.walk(pwd)

舉例如下 ① 先來看看"G:a"文件夾下有哪些東西。

② 代碼操作如下:
1pwd = "G:\a" 2print(os.walk(pwd)) 3for i in os.walk(pwd): 4 print(i) 5for path,dirs,files in os.walk(pwd): 6 print(files)
③ 結果如下:
1<generator object walk at 0x0000029BB5AEAB88> 2('G:\a', [], ['aa.txt', 'bb.xlsx', 'cc.txt', 'dd.docx']) 3['aa.txt', 'bb.xlsx', 'cc.txt', 'dd.docx']
3、os.path.join(path1,path2…)
作用:將多個路徑組合後返回
舉例如下
1path1 = 'G:\a' 2path2 = 'aa.txt' 3print(os.path.join(path1,path2))
結果如下:
1G:aaa.txt
4、案例解析

舉例如下:
1pwd = "G:\a" 2file_path_list = [] 3for path,dirs,files in os.walk(pwd): 4 for file in files: 5 file_path_list.append(os.path.join(pwd,file)) 6print(file_path_list)
結果如下:
1['G:\a\aa.txt','G:\a\bb.xlsx','G:\a\cc.txt','G:\a\dd.docx']
5、怎麼在一個列表中存放多個DataFrame數據。
1# 先使用如下代碼創建兩個DataFrame數據源。 2import numpy as np 3xx = np.arange(15).reshape(5,3) 4yy = np.arange(1,16).reshape(5,3) 5xx = pd.DataFrame(xx,columns=["語文","數學","外語"]) 6yy = pd.DataFrame(yy,columns=["語文","數學","外語"]) 7print(xx) 8print(yy)
結果如下:

怎麼講上述兩個DataFrame拼接在一起?
1concat_list = [] 2concat_list.append(xx) 3concat_list.append(yy) 4# pd.concat(list)中【默認axis=0】默認的是數據的縱向合併。 5# pd.concat(list)括號中傳入的是一個DataFrame列表。 6# ignore_list=True表示忽略原有索引,重新生成一組新的索引。 7z = pd.concat(concat_list,ignore_list=True) 8print(z) 9 10# 或者直接可以寫成z = pd.concat([xx,yy],ignore_list=True)
結果如下:

二、多工作簿合併(一)
1、將多個Excel合併到一個Excel中(每個Excel中只有一個sheet表)

操作如下:
1import pandas as pd 2import os 3pwd = "G:\b" 4df_list = [] 5for path,dirs,files in os.walk(pwd): 6 for file in files: 7 file_path = os.path.join(path,file) 8 df = pd.read_excel(file_path) 9 df_list.append(df) 10result = pd.concat(df_list) 11print(result) 12result.to_excel('G:\b\result.xlsx',index=False)
結果如下:

三、多工作簿合併(二)
1、相關知識點講解
xlsxwrite的用法
11)創建一個"工作簿",此時裏面會默認生成一個名叫"Sheet1"的Sheet表。 2import xlsxwriter 3# 這一步相當於創建了一個新的"工作簿"; 4# "demo.xlsx"文件不存在,表示新建"工作簿"; 5# "demo.xlsx"文件存在,表示新建"工作簿"覆蓋原有的"工作簿"; 6workbook = xlsxwriter.Workbook("demo.xlsx") 7# close是將"工作簿"保存關閉,這一步必須有。否則創建的文件無法顯示出來。 8workbook.close() 92)創建一個"工作簿"並添加一個"工作表",工作表命名為"2018年銷量"。 10import xlsxwriter 11workbook = xlsxwriter.Workbook("cc.xlsx") 12worksheet = workbook.add_worksheet("2018年銷售量") 13workbook.close()
結果如下:

13)給"2018年銷售量"工作表創建一個表頭,向其中插入一條數據。 2import xlsxwriter 3# 創建一個名為【demo.xlsx】工作簿; 4workbook = xlsxwriter.Workbook("demo.xlsx") 5# 創建一個名為【2018年銷售量】工作表; 6worksheet = workbook.add_worksheet("2018年銷售量") 7# 使用write_row方法,為【2018年銷售量】工作表,添加一個表頭; 8headings = ['產品','銷量',"單價"] 9worksheet.write_row('A1',headings) 10# 使用write方法,在【2018年銷售量】工作表中插入一條數據; 11# write語法格式:worksheet.write(行,列,數據) 12data = ["蘋果",500,8.9] 13for i in range(len(headings)): 14 worksheet.write(1,i,data[i]) 15workbook.close()
結果如下:

其他用法可以參考:https://www.cnblogs.com/brightbrother/p/8671077.html
xlrd的用法

11)打開某一個存在的excel文件,返回給我們"xlrd.book.Book"工作簿對象; 2# 這裡所說的"打開"並不是實際意義上的打開,只是將該表加載到內存中打開。 3# 我們並看不到"打開的這個效果" 4# 以打開上述創建的"test.xlsx"文件為例; 5import xlrd 6file = r"G:Jupytertest.xlsx" 7xlrd.open_workbook(file) 8# 結果如下: 9<xlrd.book.Book at 0x29bb8e4eda0> 10 112)sheet_names():獲取所有的sheet表表名,假如有多個sheet表,返回一個列表; 12import xlrd 13file = r"G:Jupytertest.xlsx" 14fh = xlrd.open_workbook(file) 15fh.sheet_names() 16# 結果如下: 17['2018年銷售量', '2019年銷售量'] 18 193)sheets()方法:返回的是sheet表的對象列表。 20# 返回sheet表的對象列表 21fh.sheets() 22# 結果如下: 23[<xlrd.sheet.Sheet at 0x29bb8f07a90>, <xlrd.sheet.Sheet at 0x29bb8ef1390>] 24 25# 可以利用索引,獲取每一個sheet表的對象 26fh.sheets()[0] 27結果是:<xlrd.sheet.Sheet at 0x29bb8f07a90> 28fh.sheets()[1] 29結果是:<xlrd.sheet.Sheet at 0x29bb8ef1390> 30 314)返回每一個sheet表的行數(nrows) 和 列數(ncols); 32# 我們可以利用上述創建的sheet表對象,對每一個sheet表進行操作; 33fh.sheets()[0].nrows # 結果是:4 34fh.sheets()[0].ncols # 結果是:3 35 365)row_values(行數):獲取每一個sheet表中每一行的數據; 37sheet1 = fh.sheets()[0] 38for row in range(fh.sheets()[0].nrows): 39 value = sheet1.row_values(row) 40 print(value)
結果如下:

16)col_values(列數):獲取每一個sheet表中每一列的數據; 2sheet1 = fh.sheets()[0] 3for col in range(fh.sheets()[0].ncols): 4 value = sheet1.col_values(col) 5 print(value)
結果如下:

2、將多個Excel合併到一個Excel中(每個Excel中不只一個sheet表)

1import xlrd 2import xlsxwriter 3import os 4 5# 打開一個Excel文件,創建一個工作簿對象 6def open_xlsx(file): 7 fh=xlrd.open_workbook(file) 8 return fh 9 10# 獲取sheet表的個數 11def get_sheet_num(fh): 12 x = len(fh.sheets()) 13 return x 14 15# 讀取文件內容並返回行內容 16def get_file_content(file,shnum): 17 fh=open_xlsx(file) 18 table=fh.sheets()[shnum] 19 num=table.nrows 20 for row in range(num): 21 rdata=table.row_values(row) 22 datavalue.append(rdata) 23 return datavalue 24 25def get_allxls(pwd): 26 allxls = [] 27 for path,dirs,files in os.walk(pwd): 28 for file in files: 29 allxls.append(os.path.join(path,file)) 30 return allxls 31 32# 存儲所有讀取的結果 33datavalue = [] 34pwd = "G:\d" 35for fl in get_allxls(pwd): 36 fh = open_xlsx(fl) 37 x = get_sheet_num(fh) 38 for shnum in range(x): 39 print("正在讀取文件:"+str(fl)+"的第"+str(shnum)+"個sheet表的內容...") 40 rvalue = get_file_content(fl,shnum) 41 42# 定義最終合併後生成的新文件 43endfile = "G:\d\concat.xlsx" 44wb1=xlsxwriter.Workbook(endfile) 45# 創建一個sheet工作對象 46ws=wb1.add_worksheet() 47for a in range(len(rvalue)): 48 for b in range(len(rvalue[a])): 49 c=rvalue[a][b] 50 ws.write(a,b,c) 51wb1.close() 52print("文件合併完成")
【將上述代碼封裝後如下】
1import xlrd 2import xlsxwriter 3import os 4 5class Xlrd(): 6 def __init__(self,pwd): 7 self.datavalue = [] 8 self.pwd = pwd 9 10 # 打開一個Excel文件,創建一個工作簿對象; 11 def open_xlsx(self,fl): 12 fh=xlrd.open_workbook(fl) 13 return fh 14 15 # 獲取sheet表的個數; 16 def get_sheet_num(self,fh): 17 x = len(fh.sheets()) 18 return x 19 20 # 讀取不同工作簿中每一個sheet中的內容,並返回每行內容組成的列表; 21 def get_file_content(self,file,shnum): 22 fh = self.open_xlsx(file) 23 table=fh.sheets()[shnum] 24 num=table.nrows 25 for row in range(num): 26 rdata=table.row_values(row) 27 # 因為每一個sheet表都有一個表頭; 28 # 這裡的判斷語句,把這個表頭去除掉; 29 # 然後在最後寫入數據的,添加上一個表頭,即可; 30 if rdata == ['姓名','性別','年齡','家庭住址']: 31 pass 32 else: 33 self.datavalue.append(rdata) 34 return self.datavalue 35 36 # 獲取xlsx文件的全路徑; 37 def get_allxls(self): 38 allxls = [] 39 for path,dirs,files in os.walk(self.pwd): 40 for file in files: 41 allxls.append(os.path.join(path,file)) 42 return allxls 43 44 # 返回不同工作簿中,所有的sheet表的內容列表; 45 def return_rvalue(self): 46 for fl in self.get_allxls(): 47 fh = self.open_xlsx(fl) 48 x = self.get_sheet_num(fh) 49 for shnum in range(x): 50 print("正在讀取文件:"+str(fl)+"的第"+str(shnum)+"個sheet表的內容...") 51 rvalue = self.get_file_content(fl,shnum) 52 return rvalue 53 54class Xlsxwriter(): 55 def __init__(self,endfile,rvalue): 56 self.endfile = endfile 57 self.rvalue = rvalue 58 59 def save_data(self): 60 wb1 = xlsxwriter.Workbook(endfile) 61 # 創建一個sheet工作對象; 62 ws = wb1.add_worksheet("一年級(7)班") 63 # 給文件添加表頭; 64 ws = wb1.add_worksheet("2018年銷售量") 65 headings = ['姓名','性別','年齡','家庭住址'] 66 for a in range(len(self.rvalue)): 67 for b in range(len(self.rvalue[a])): 68 c = self.rvalue[a][b] 69 # 因為給文件添加了表頭,因此,數據從下一行開始寫入; 70 ws.write(a+1,b,c) 71 wb1.close() 72 print("文件合併完成") 73 74pwd = "G:\d" 75xl = Xlrd(pwd) 76rvalue = xl.return_rvalue() 77endfile = "G:\d\concat.xlsx" 78write = Xlsxwriter(endfile,rvalue) 79write.save_data();
結果如下:

四、一個工作簿多sheet表合併。
1、將一個Excel表中的多個sheet表合併,並保存到同一個excel。

1import xlrd 2import pandas as pd 3from pandas import DataFrame 4from openpyxl import load_workbook 5 6excel_name = r"D:pp.xlsx" 7wb = xlrd.open_workbook(excel_name) 8sheets = wb.sheet_names() 9 10alldata = DataFrame() 11for i in range(len(sheets)): 12 df = pd.read_excel(excel_name, sheet_name=i, index=False, encoding='utf8') 13 alldata = alldata.append(df) 14 15writer = pd.ExcelWriter(r"C:UsersAdministratorDesktopscore.xlsx",engine='openpyxl') 16book = load_workbook(writer.path) 17writer.book = book 18# 必須要有上面這兩行,假如沒有這兩行,則會刪去其餘的sheet表,只保留最終合併的sheet表 19 20alldata.to_excel(excel_writer=writer,sheet_name="ALLDATA") 21writer.save() 22writer.close()
結果如下:

五、一表拆分(按照表中某一列進行拆分)
1、將一個Excel表,按某一列拆分成多張表。

1import pandas as pd 2import xlsxwriter 3data=pd.read_excel(r"C:UsersAdministratorDesktopchaifen.xlsx",encoding='gbk') 4 5area_list=list(set(data['店鋪'])) 6 7writer=pd.ExcelWriter(r"C:UsersAdministratorDesktop拆好的表1.xlsx",engine='xlsxwriter') 8data.to_excel(writer,sheet_name="總表",index=False) 9 10for j in area_list: 11 df=data[data['店鋪']==j] 12 df.to_excel(writer,sheet_name=j,index=False) 13 14writer.save() #一定要加上這句代碼,「拆好的表」才會顯示出來
結果如下:
