利用 Python 進行多 Sheet 表合併、多工作簿合併、一表按列拆分

2020 年 2 月 26 日
筆記

一、相關知識點講解

1、需要使用的相關庫

1import numpy as np  2import pandas as pd  3import os

2、os.walk(pwd)

舉例如下 ① 先來看看"G:a"文件夾下有哪些東西。

② 代碼操作如下：

1pwd = "G:\a"  2print(os.walk(pwd))  3for i in os.walk(pwd):  4    print(i)  5for path,dirs,files in os.walk(pwd):  6    print(files)

③ 結果如下：

1<generator object walk at 0x0000029BB5AEAB88>  2('G:\a', [], ['aa.txt', 'bb.xlsx', 'cc.txt', 'dd.docx'])  3['aa.txt', 'bb.xlsx', 'cc.txt', 'dd.docx']

3、os.path.join(path1,path2…)

作用：將多個路徑組合後返回

舉例如下

1path1 = 'G:\a'  2path2 = 'aa.txt'  3print(os.path.join(path1,path2))

結果如下：

1G:aaa.txt

4、案例解析

舉例如下：

1pwd = "G:\a"  2file_path_list = []  3for path,dirs,files in os.walk(pwd):  4    for file in files:  5        file_path_list.append(os.path.join(pwd,file))  6print(file_path_list)

結果如下：

1['G:\a\aa.txt','G:\a\bb.xlsx','G:\a\cc.txt','G:\a\dd.docx']

5、怎麼在一個列表中存放多個DataFrame數據。

1# 先使用如下代碼創建兩個DataFrame數據源。  2import numpy as np  3xx = np.arange(15).reshape(5,3)  4yy = np.arange(1,16).reshape(5,3)  5xx = pd.DataFrame(xx,columns=["語文","數學","外語"])  6yy = pd.DataFrame(yy,columns=["語文","數學","外語"])  7print(xx)  8print(yy)

結果如下：

怎麼講上述兩個DataFrame拼接在一起？

 1concat_list = []   2concat_list.append(xx)   3concat_list.append(yy)   4# pd.concat(list)中【默認axis=0】默認的是數據的縱向合併。   5# pd.concat(list)括號中傳入的是一個DataFrame列表。   6# ignore_list=True表示忽略原有索引，重新生成一組新的索引。   7z = pd.concat(concat_list,ignore_list=True)   8print(z)   9  10# 或者直接可以寫成z = pd.concat([xx,yy],ignore_list=True)

結果如下：

二、多工作簿合併（一）

1、將多個Excel合併到一個Excel中（每個Excel中只有一個sheet表）

操作如下：

 1import pandas as pd   2import os   3pwd = "G:\b"   4df_list = []   5for path,dirs,files in os.walk(pwd):   6    for file in files:   7        file_path = os.path.join(path,file)   8        df = pd.read_excel(file_path)   9        df_list.append(df)  10result = pd.concat(df_list)  11print(result)  12result.to_excel('G:\b\result.xlsx',index=False)

結果如下：

三、多工作簿合併（二）

1、相關知識點講解

xlsxwrite的用法

 11）創建一個"工作簿"，此時裏面會默認生成一個名叫"Sheet1"的Sheet表。   2import xlsxwriter   3# 這一步相當於創建了一個新的"工作簿"；   4# "demo.xlsx"文件不存在，表示新建"工作簿"；   5# "demo.xlsx"文件存在，表示新建"工作簿"覆蓋原有的"工作簿"；   6workbook = xlsxwriter.Workbook("demo.xlsx")   7# close是將"工作簿"保存關閉，這一步必須有。否則創建的文件無法顯示出來。   8workbook.close()   92）創建一個"工作簿"並添加一個"工作表"，工作表命名為"2018年銷量"。  10import xlsxwriter  11workbook = xlsxwriter.Workbook("cc.xlsx")  12worksheet = workbook.add_worksheet("2018年銷售量")  13workbook.close()

結果如下：

 13）給"2018年銷售量"工作表創建一個表頭，向其中插入一條數據。   2import xlsxwriter   3# 創建一個名為【demo.xlsx】工作簿；   4workbook = xlsxwriter.Workbook("demo.xlsx")   5# 創建一個名為【2018年銷售量】工作表；   6worksheet = workbook.add_worksheet("2018年銷售量")   7# 使用write_row方法，為【2018年銷售量】工作表，添加一個表頭；   8headings = ['產品','銷量',"單價"]   9worksheet.write_row('A1',headings)  10# 使用write方法，在【2018年銷售量】工作表中插入一條數據；  11# write語法格式：worksheet.write(行,列,數據)  12data = ["蘋果",500,8.9]  13for i in range(len(headings)):  14    worksheet.write(1,i,data[i])  15workbook.close()

結果如下：

其他用法可以參考：https://www.cnblogs.com/brightbrother/p/8671077.html

xlrd的用法

 11）打開某一個存在的excel文件，返回給我們"xlrd.book.Book"工作簿對象；   2# 這裡所說的"打開"並不是實際意義上的打開，只是將該表加載到內存中打開。   3# 我們並看不到"打開的這個效果"   4# 以打開上述創建的"test.xlsx"文件為例；   5import xlrd   6file = r"G:Jupytertest.xlsx"   7xlrd.open_workbook(file)   8# 結果如下：   9<xlrd.book.Book at 0x29bb8e4eda0>  10  112）sheet_names()：獲取所有的sheet表表名，假如有多個sheet表，返回一個列表；  12import xlrd  13file = r"G:Jupytertest.xlsx"  14fh = xlrd.open_workbook(file)  15fh.sheet_names()  16# 結果如下：  17['2018年銷售量', '2019年銷售量']  18  193）sheets()方法：返回的是sheet表的對象列表。  20# 返回sheet表的對象列表  21fh.sheets()  22# 結果如下：  23[<xlrd.sheet.Sheet at 0x29bb8f07a90>, <xlrd.sheet.Sheet at 0x29bb8ef1390>]  24  25# 可以利用索引，獲取每一個sheet表的對象  26fh.sheets()[0]  27結果是：<xlrd.sheet.Sheet at 0x29bb8f07a90>  28fh.sheets()[1]  29結果是：<xlrd.sheet.Sheet at 0x29bb8ef1390>  30  314）返回每一個sheet表的行數(nrows) 和 列數(ncols)；  32# 我們可以利用上述創建的sheet表對象，對每一個sheet表進行操作；  33fh.sheets()[0].nrows  # 結果是：4  34fh.sheets()[0].ncols  # 結果是：3  35  365）row_values(行數)：獲取每一個sheet表中每一行的數據；  37sheet1 = fh.sheets()[0]  38for row in range(fh.sheets()[0].nrows):  39   value = sheet1.row_values(row)  40   print(value)

結果如下：

16）col_values(列數)：獲取每一個sheet表中每一列的數據；  2sheet1 = fh.sheets()[0]  3for col in range(fh.sheets()[0].ncols):  4   value = sheet1.col_values(col)  5   print(value)

結果如下：

2、將多個Excel合併到一個Excel中（每個Excel中不只一個sheet表）

 1import xlrd   2import xlsxwriter   3import os   4   5# 打開一個Excel文件，創建一個工作簿對象   6def open_xlsx(file):   7    fh=xlrd.open_workbook(file)   8    return fh   9  10# 獲取sheet表的個數  11def get_sheet_num(fh):  12    x = len(fh.sheets())  13    return x  14  15# 讀取文件內容並返回行內容  16def get_file_content(file,shnum):  17    fh=open_xlsx(file)  18    table=fh.sheets()[shnum]  19    num=table.nrows  20    for row in range(num):  21        rdata=table.row_values(row)  22        datavalue.append(rdata)  23    return datavalue  24  25def get_allxls(pwd):  26    allxls = []  27    for path,dirs,files in os.walk(pwd):  28        for file in files:  29            allxls.append(os.path.join(path,file))  30    return allxls  31  32# 存儲所有讀取的結果  33datavalue = []  34pwd = "G:\d"  35for fl in get_allxls(pwd):  36    fh = open_xlsx(fl)  37    x = get_sheet_num(fh)  38    for shnum in range(x):  39        print("正在讀取文件："+str(fl)+"的第"+str(shnum)+"個sheet表的內容...")  40        rvalue = get_file_content(fl,shnum)  41  42# 定義最終合併後生成的新文件  43endfile = "G:\d\concat.xlsx"  44wb1=xlsxwriter.Workbook(endfile)  45# 創建一個sheet工作對象  46ws=wb1.add_worksheet()  47for a in range(len(rvalue)):  48    for b in range(len(rvalue[a])):  49        c=rvalue[a][b]  50        ws.write(a,b,c)  51wb1.close()  52print("文件合併完成")

【將上述代碼封裝後如下】

 1import xlrd   2import xlsxwriter   3import os   4   5class Xlrd():   6    def __init__(self,pwd):   7        self.datavalue = []   8        self.pwd = pwd   9  10    # 打開一個Excel文件，創建一個工作簿對象；  11    def open_xlsx(self,fl):  12        fh=xlrd.open_workbook(fl)  13        return fh  14  15    # 獲取sheet表的個數；  16    def get_sheet_num(self,fh):  17        x = len(fh.sheets())  18        return x  19  20    # 讀取不同工作簿中每一個sheet中的內容，並返回每行內容組成的列表；  21    def get_file_content(self,file,shnum):  22        fh = self.open_xlsx(file)  23        table=fh.sheets()[shnum]  24        num=table.nrows  25        for row in range(num):  26            rdata=table.row_values(row)  27            # 因為每一個sheet表都有一個表頭；  28            # 這裡的判斷語句，把這個表頭去除掉；  29            # 然後在最後寫入數據的，添加上一個表頭，即可；  30            if rdata == ['姓名','性別','年齡','家庭住址']:  31                pass  32            else:  33                self.datavalue.append(rdata)  34        return self.datavalue  35  36    # 獲取xlsx文件的全路徑；  37    def get_allxls(self):  38        allxls = []  39        for path,dirs,files in os.walk(self.pwd):  40            for file in files:  41                allxls.append(os.path.join(path,file))  42        return allxls  43  44    # 返回不同工作簿中，所有的sheet表的內容列表；  45    def return_rvalue(self):  46        for fl in self.get_allxls():  47            fh = self.open_xlsx(fl)  48            x = self.get_sheet_num(fh)  49            for shnum in range(x):  50                print("正在讀取文件："+str(fl)+"的第"+str(shnum)+"個sheet表的內容...")  51                rvalue = self.get_file_content(fl,shnum)  52        return rvalue  53  54class Xlsxwriter():  55    def __init__(self,endfile,rvalue):  56        self.endfile = endfile  57        self.rvalue = rvalue  58  59    def save_data(self):  60        wb1 = xlsxwriter.Workbook(endfile)  61        # 創建一個sheet工作對象；  62        ws = wb1.add_worksheet("一年級(7)班")  63        # 給文件添加表頭；  64        ws = wb1.add_worksheet("2018年銷售量")  65        headings = ['姓名','性別','年齡','家庭住址']  66        for a in range(len(self.rvalue)):  67            for b in range(len(self.rvalue[a])):  68                c = self.rvalue[a][b]  69                # 因為給文件添加了表頭，因此，數據從下一行開始寫入；  70                ws.write(a+1,b,c)  71        wb1.close()  72        print("文件合併完成")  73  74pwd = "G:\d"  75xl = Xlrd(pwd)  76rvalue = xl.return_rvalue()  77endfile = "G:\d\concat.xlsx"  78write = Xlsxwriter(endfile,rvalue)  79write.save_data()；

結果如下：

四、一個工作簿多sheet表合併。

1、將一個Excel表中的多個sheet表合併，並保存到同一個excel。

 1import xlrd   2import pandas as pd   3from pandas import DataFrame   4from openpyxl import load_workbook   5   6excel_name = r"D:pp.xlsx"   7wb = xlrd.open_workbook(excel_name)   8sheets = wb.sheet_names()   9  10alldata = DataFrame()  11for i in range(len(sheets)):  12    df = pd.read_excel(excel_name, sheet_name=i, index=False, encoding='utf8')  13    alldata = alldata.append(df)  14  15writer = pd.ExcelWriter(r"C:UsersAdministratorDesktopscore.xlsx",engine='openpyxl')  16book = load_workbook(writer.path)  17writer.book = book  18# 必須要有上面這兩行，假如沒有這兩行，則會刪去其餘的sheet表，只保留最終合併的sheet表  19  20alldata.to_excel(excel_writer=writer,sheet_name="ALLDATA")  21writer.save()  22writer.close()

結果如下：

五、一表拆分(按照表中某一列進行拆分)

1、將一個Excel表，按某一列拆分成多張表。

 1import pandas as pd   2import xlsxwriter   3data=pd.read_excel(r"C:UsersAdministratorDesktopchaifen.xlsx",encoding='gbk')   4   5area_list=list(set(data['店鋪']))   6   7writer=pd.ExcelWriter(r"C:UsersAdministratorDesktop拆好的表1.xlsx",engine='xlsxwriter')   8data.to_excel(writer,sheet_name="總表",index=False)   9  10for j in area_list:  11    df=data[data['店鋪']==j]  12    df.to_excel(writer,sheet_name=j,index=False)  13  14writer.save()  #一定要加上這句代碼，「拆好的表」才會顯示出來

結果如下：

利用 Python 進行多 Sheet 表合併、多工作簿合併、一表按列拆分

一、相關知識點講解

1、需要使用的相關庫

2、os.walk(pwd)

3、os.path.join(path1,path2…)

4、案例解析

5、怎麼在一個列表中存放多個DataFrame數據。

二、多工作簿合併（一）

1、將多個Excel合併到一個Excel中（每個Excel中只有一個sheet表）

三、多工作簿合併（二）

1、相關知識點講解

2、將多個Excel合併到一個Excel中（每個Excel中不只一個sheet表）

四、一個工作簿多sheet表合併。

1、將一個Excel表中的多個sheet表合併，並保存到同一個excel。

五、一表拆分(按照表中某一列進行拆分)

1、將一個Excel表，按某一列拆分成多張表。

VirMach 便宜 VPS

QNews

利用 Python 進行多 Sheet 表合併、多工作簿合併、一表按列拆分

一、相關知識點講解

1、需要使用的相關庫

2、os.walk(pwd)

3、os.path.join(path1,path2…)

4、案例解析

5、怎麼在一個列表中存放多個DataFrame數據。

二、多工作簿合併（一）

1、將多個Excel合併到一個Excel中（每個Excel中只有一個sheet表）

三、多工作簿合併（二）

1、相關知識點講解

2、將多個Excel合併到一個Excel中（每個Excel中不只一個sheet表）

四、一個工作簿多sheet表合併。

1、將一個Excel表中的多個sheet表合併，並保存到同一個excel。

五、一表拆分(按照表中某一列進行拆分)

1、將一個Excel表，按某一列拆分成多張表。

分享此文：

Related Posts

spring cloud微服務快速教程之（十二） 分佈式ID解決方案（mybatis-plus篇）

1. 堪比JMeter的.Net壓測工具 – Crank 入門篇

「React 基礎」組件生命周期函數 shouldComponentUpdate() 介紹

​從 Spark Streaming 到 Apache Flink：bilibili 實時平台的架構與實踐

VirMach 便宜 VPS

QNews

熱門搜尋

spring cloud微服務快速教程之（十二）分佈式ID解決方案（mybatis-plus篇）

從 Spark Streaming 到 Apache Flink：bilibili 實時平台的架構與實踐