[784]python解析PDF表格

2020 年 3 月 28 日
筆記

通过看别人写的博客，发现python里面有关PDF解析的通常有以下四种：

pdfminer，擅长仅仅是文字的解析，本小白试过了，是把表格解析成普通的文本，还经常会伴随一些莫名奇妙的不认识的符号。这个方案pass掉
pdf2html，看例是把pdf解析成html，但是html的标签并没有规律，解析一个还行，但是本小白是许多的pdf文档下小标题的表格，这个方案直接pass掉
tabula，这个是我看过的前辈写的博客中使用最多的，本人用过了。对于简单的表格，也就是单元格中没有换行的，表头表尾形式不复杂的，这个方案的值得推荐。电脑需要有Java的环境。
pdfplumber，这个是看了知乎上的一个大佬的发现，并且自己安装成功之后，发现最小众，但是最符合我的需求的解决方案。前提是是需要安装ImageMagick的

方案1：tabula

import tabula    # Read pdf into DataFrame  df = tabula.read_pdf("./P26.pdf",pages=str(1))  print(df)

这个直接返回的是一个数据帧，所以就直接是结构化的数据啦！

输出结果是这样的：

[    序号               疑似失联私募机构  0    1     中投国美投资基金管理(北京)有限公司  1    2           北京嘉宸投资基金有限公司  2    3     中融国晟投资基金管理(北京)有限公司  3    4     奥尼斯特(北京)投资基金管理有限公司  4    5       北京国信联盟投资基金管理有限公司]

方案2：pdfplumber

import pdfplumber  import pandas as pd    pdf = pdfplumber.open("./P26.pdf")  p0 = pdf.pages[0]#注意此处的pages是一个列表，索引是从0开始的  table = p0.extract_table()  df = pd.DataFrame(table[1:], columns=table[0])  # df = pd.DataFrame(table[2:], columns=table[1])  print(df)

输出结果是这样的：

   序号 NaN NaN               疑似失联私募机构                 NaN   NaN  0       1                             中投国美投资基金管理（北京）有限公司  1       2               北京嘉宸投资基金有限公司                None  None  2       3         中融国晟投资基金管理（北京）有限公司                None  None  3       4         奥尼斯特（北京）投资基金管理有限公司                None  None  4       5           北京国信联盟投资基金管理有限公司                None  None

虽然为了展示对比的方便，这里都是用了同样的一个表格，但是方案2的解决真的要比1好

别问我为啥知道2比1好，你试试用1去解析一些带有文字格式的表格，带有复杂的表头的表格，你就知道啦！我在这里并没有在瞎说，而且还得装的的java的，后者只装一个的ImageMagick的就行，而且ImageMagick的很有用的

pandas.core.frame.DataFrame 切片技巧

import pandas as pd  import numpy as np    df = pd.DataFrame(np.random.randn(6,4), columns=list('ABCD'))  print(df.iloc[3])  # 输出第4行的值 索引以0开头  print(df.iloc[3:5, 0:2])  # 输出4-5行，1到2列  print(df.iloc[[1, 2, 4], [0, 2]])  # 输出不连续行列的树  print(df.iat[1, 1]) # 提取2行2列的数，提取单个数iat效率更高    print('分割线','*'*200)

[784]python解析PDF表格

方案1：tabula

方案2：pdfplumber

pandas.core.frame.DataFrame 切片技巧

VirMach 便宜 VPS

QNews

[784]python解析PDF表格

方案1：tabula

方案2：pdfplumber

pandas.core.frame.DataFrame 切片技巧

分享此文：

Related Posts

.NET性能优化-推荐使用Collections.Pooled

利用python绘制分析路易斯安那州巴吞鲁日市的人口密度格局

让你牛B加身的前端必会Linux命令

[782]AttributeError: module 'tabula' has no attribute 'read_pdf'

VirMach 便宜 VPS

QNews

熱門搜尋