电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

用Python提取PDF表格的方法

瀏覽:3日期:2022-06-22 17:11:09

大家好,從PDF中提取信息是辦公場景中經常需要用到的操作,也是經常又讀者在后臺問的一個操作。

內容少的話我們可以手動復制粘貼,但如果需要批量提取就可以考慮使用Python,之前我也轉載過相關文章,提到主要就是使用pdfplumber庫,今天我們再次舉例講解。

通常PDF里的表格分為圖片型和文本型。文本型又分簡單型和復雜型。本文就針對這三部分舉例講解。

提取簡單型表格 提取較為復雜型表格 提取圖片型表格

用Python提取PDF表格的方法

用到的模塊主要有

pdfplumber pandas Tesseract PIL

文中出現的PDF材料是在巨潮資訊官網下載的公開PDF文件,主題是關于理財的,相關發布信息等信息如下:

用Python提取PDF表格的方法

內容總共有6頁,后文中的例子會有展示。

一、簡單文本類型數據

簡單文本類型表格就是一頁PDF中只有一個表格,并且表格內容完整可復制,例如我們選定內容為PDF中的第四頁,內容如下:

用Python提取PDF表格的方法

可以看到,該頁只有一個表格,下面我們將這個表寫入Excel中,先上代碼

import pdfplumber as primport pandas as pdpdf = pr.open(’關于使用自有資金購買銀行理財產品的進展公告.PDF’)ps = pdf.pagespg = ps[3]tables = pg.extract_tables()table = tables[0]print(table)df = pd.DataFrame(table[1:],columns = table[0])for i in range(len(table)): for j in range(len(table[i])):table[i][j] = table[i][j].replace(’n’,’’)df1 = pd.DataFrame(table[1:],columns = table[0])df1.to_excel(’page2.xlsx’)

得到的結果如下:

用Python提取PDF表格的方法

通過與PDF上原表格對比,在內容上是完全一致的,唯一不同的是由于主營業務內容較多,導致顯示的不全面,現在來說說這段代碼。

首先導入要用到的兩個庫。在pdfplumber中,open()函數是用來打開PDF文件,該代碼用的是相對路徑。.open().pages則是獲取PDF的頁數,打印ps值可以得到如下

用Python提取PDF表格的方法

pg = ps[3]代表的就是我們所選的第三頁。

pg.extract_tables():可輸出頁面中所有表格,并返回一個嵌套列表,其結構層次為table→row→cell。此時,頁面上的整個表格被放入一個大列表中,原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素,得到的便是由原表格同一行元素構成的列表。

與其類似的是pg.extract_table( ):返回多個獨立列表,其結構層次為row→cell。若頁面中存在多個行數相同的表格,則默認輸出頂部表格;否則,僅輸出行數最多的一個表格。此時,表格的每一行都作為一個單獨的列表,列表中每個元素即為原表格的各個單元格內容。

由于該頁面中只有一個表格,我們需要tables集合中的第一個元素。打印table值,如下:

用Python提取PDF表格的方法

可以看到在上述中是存在n這種沒不要的字符,它的作用其實是換行但我們在Excel中是不需要的。所以需要剔除它,用代碼中的for循環與replace函數將控制替換成空格(即刪除n)。觀察table是一個裝有2個元素的列表。

最后df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創建一個數據框,將內容放到對應的行列中。

本代碼只是簡單將數據存入到Excel,如果你需要進一步對樣式進行調整,可以使用openpyxl等模塊進行修改。

二、復雜型表格提取

復雜型表格即表格樣式不統一或一頁中有多個表格,以PDF中的第五頁為例:

用Python提取PDF表格的方法

可以看到本頁中有兩個大的表格,并且細看的話,其實是4個表格,按照簡單型表格類型提取方法,得到的效果如下:

用Python提取PDF表格的方法

可以看到,只是將全部表格文本提取出來,但實際上第一個表格又細分為兩個表,所以需要我們進一步修改,將這張表再次拆分!例如提取上半部分代碼如下:

import pdfplumber as primport pandas as pdpdf = pr.open(’關于使用自有資金購買銀行理財產品的進展公告.PDF’)ps = pdf.pagespg = ps[4]tables = pg.extract_tables()table = tables[0]print(table)df = pd.DataFrame(table[1:],columns = table[0])for i in range(len(table)): for j in range(len(table[i])):table[i][j] = table[i][j].replace(’n’,’’)df1 = pd.DataFrame(table[1:],columns = table[0])df2 = df1.iloc[2:,:]df2 = df2.rename(columns = {'2019年12月31日':'2019年1-12月','2020年9月30日':'2020年1-9月'})df2 = df2.loc[3:,:]df1 = df1.loc[:1,:]with pd.ExcelWriter(’公司影響.xlsx’) as i: df1.to_excel(i,sheet_name=’資產’, index=False, header=True) #放入資產數據 df2.to_excel(i,sheet_name=’營業’,index=False, header=True) #放入營業數據

這段代碼在簡單型表格提取的基礎上進行了修改,第十四行代碼的作用就是提取另外一個表頭的信息,并將他賦值給df2,而后對df2進行重命名操作(用到rename函數)。

打印df2可以看出columns列名和第一行信息重復了,因此我們需要重復剛剛的步驟,利用loc()函數切割數據框。

注意,我們這里用了罕見的pandas.Excelwriter函數套for循環,這個是為了避免直接寫入導致的最后數據覆蓋原數據,感興趣可以嘗試一下不用withopen這種方法后結果。最終得到的效果如下:

用Python提取PDF表格的方法

用Python提取PDF表格的方法

可以看到,現在這個表格就被放在兩個sheet中單獨展示,當然用于對比放在一張表中也是可以的

用Python提取PDF表格的方法

說到底復雜型表格的主觀性是非常大的,需要根據不同情況進行不同處理,想寫出一個一勞永逸的辦法是比較困難的!

三、圖片型表格提取

最后也是最難處理的就是圖片型表格,經常有人會問如何提取圖片型PDF中的表格/文本等信息。

其實本質上就是提取圖片,之后如何對圖片進一步處理提取信息就與Python提取PDF表格這個主題沒有太大關系了!

這里我們也簡單進行介紹,也就是先提取圖片再進行OCR識別提取表格,在Python中可以使用Tesseract庫,首先需要pip安裝

pip install pytesseract

在Python中安裝完這個庫之后我們需要安裝exe文件以在后面代碼用到。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載安裝完即可,注意目前如果按照正常步驟安裝的話是不會識別中文的,所以需要安裝簡體中文語言包,下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata,將其放到Tesseract-OCR的tessdata目錄下即可。

接下來我們使用一個簡單的圖片型pdf如下:

用Python提取PDF表格的方法

第一步,提取圖片,這里使用在GUI辦公自動化系列中的圖片提取軟件來提取PDF中的圖片,得到如下圖片:

用Python提取PDF表格的方法

接著執行下方代碼識別圖片內容

import pytesseractfrom PIL import Imageimport pandas as pdpytesseract.pytesseract.tesseract_cmd = ’C://Program Files (x86)/Tesseract-OCR/tesseract.exe’tiqu = pytesseract.image_to_string(Image.open(’圖片型.jpg’))print(tiqu)tiqu = tiqu.split(’n’)while ’’ in tiqu: #不能使用for tiqu.remove(’’) first = tiqu[:6] second = tiqu[6:12] third = tiqu[12:] df = pd.DataFrame() df[first[0]] = first[1:] df[second[0]] = second[1:] df[third[0]] = third[1:]#df.to_excel(’圖片型表格.xlsx’) #轉為xlsx文件

我們的思路是用Tesseract-OCR來解析圖片,得到一個字符串,接著對字符串運用split函數,把字符串變成列表同時刪除n。

接著可以發現我們的列表里還存在空格,這時我們用while循環來刪除這些空字符,注意,這里不能用for循環,因為每次刪除一個,列表里的元素就會前進一個,這樣會刪不完全。最后就是用pandas把這些變成數據框形式。最終得到的效果如下:

用Python提取PDF表格的方法

可以看到,該圖片型表格內容被完美解析與處理!當然能輕松搞定的原因也與這個表格足夠簡單有關,在真實場景中的圖片可能會有更復雜的干擾因素,而這就需要大家在處理的同時自行找到一個最合適的辦法!

以上就是用Python提取PDF表格的方法的詳細內容,更多關于Python提取PDF表格的資料請關注好吧啦網其它相關文章!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | 三氯异氰尿酸-二氯-三氯-二氯异氰尿酸钠-优氯净-强氯精-消毒片-济南中北_优氯净厂家 | 产业规划_产业园区规划-产业投资选址及规划招商托管一体化服务商-中机院产业园区规划网 | 砖机托板价格|免烧砖托板|空心砖托板厂家_山东宏升砖机托板厂 | 智慧消防-消防物联网系统云平台 智能化的检漏仪_气密性测试仪_流量测试仪_流阻阻力测试仪_呼吸管快速检漏仪_连接器防水测试仪_车载镜头测试仪_奥图自动化科技 | 苹果售后维修点查询,苹果iPhone授权售后维修服务中心 – 修果网 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 丽陂特官网_手机信号屏蔽器_Wifi信号干扰器厂家_学校考场工厂会议室屏蔽仪 | 行业分析:提及郑州火车站附近真有 特殊按摩 ?2025实地踩坑指南 新手如何避坑不踩雷 | 烟雾净化器-滤筒除尘器-防爆除尘器-除尘器厂家-东莞执信环保科技有限公司 | WTB5光栅尺-JIE WILL磁栅尺-B60数显表-常州中崴机电科技有限公司 | Eiafans.com_环评爱好者 环评网|环评论坛|环评报告公示网|竣工环保验收公示网|环保验收报告公示网|环保自主验收公示|环评公示网|环保公示网|注册环评工程师|环境影响评价|环评师|规划环评|环评报告|环评考试网|环评论坛 - Powered by Discuz! | 石家庄救护车出租_重症转院_跨省跨境医疗转送_活动赛事医疗保障_康复出院_放弃治疗_腾康26年医疗护送转诊团队 | 上海诺狮景观规划设计有限公司| 无锡不干胶标签,卷筒标签,无锡瑞彩包装材料有限公司 | 海外仓系统|国际货代系统|退货换标系统|WMS仓储系统|海豚云 | 台式低速离心机-脱泡离心机-菌种摇床-常州市万丰仪器制造有限公司 | 玖容气动液压设备有限公司-气液增压缸_压力机_增压机_铆接机_增压器 | 冷库安装厂家_杭州冷库_保鲜库建设-浙江克冷制冷设备有限公司 | 防勒索软件_数据防泄密_Trellix(原McAfee)核心代理商_Trellix(原Fireeye)售后-广州文智信息科技有限公司 | 吨袋包装机|吨包秤|吨包机|集装袋包装机-烟台华恩科技 | 双能x射线骨密度检测仪_dxa骨密度仪_双能x线骨密度仪_品牌厂家【品源医疗】 | 插针变压器-家用电器变压器-工业空调变压器-CD型电抗器-余姚市中驰电器有限公司 | 生鲜配送系统-蔬菜食材配送管理系统-连锁餐饮订货配送软件-挪挪生鲜供应链管理软件 | 森旺-A级防火板_石英纤维板_不燃抗菌板装饰板_医疗板 | 锂辉石检测仪器,水泥成分快速分析仪-湘潭宇科分析仪器有限公司 | 干培两用箱-细菌恒温培养箱-菲斯福仪器 | 哔咔漫画网页版在线_下载入口访问指引| 中央空调维修、中央空调保养、螺杆压缩机维修-苏州东菱空调 | 翰墨AI智能写作助手官网_人工智能问答在线AI写作免费一键生成 | 地脚螺栓_材质_标准-永年县德联地脚螺栓厂家 | 非小号行情 - 专业的区块链、数字藏品行情APP、金色财经官网 | 真空泵维修保养,普发,阿尔卡特,荏原,卡西亚玛,莱宝,爱德华干式螺杆真空泵维修-东莞比其尔真空机电设备有限公司 | 扒渣机厂家_扒渣机价格_矿用扒渣机_铣挖机_撬毛台车_襄阳永力通扒渣机公司 | 电抗器-能曼电气-电抗器专业制造商 | 影像测量仪_三坐标测量机_一键式二次元_全自动影像测量仪-广东妙机精密科技股份有限公司 | 北京四合院出租,北京四合院出售,北京平房买卖 - 顺益兴四合院 | 泰国试管婴儿_泰国第三代试管婴儿费用|成功率|医院—新生代海外医疗 | 高楼航空障碍灯厂家哪家好_航空障碍灯厂家_广州北斗星障碍灯有限公司 | 爱科技iMobile-专业的科技资讯信息分享网站 | 福州时代广告制作装饰有限公司-福州广告公司广告牌制作,福州展厅文化墙广告设计, | 检验科改造施工_DSA手术室净化_导管室装修_成都特殊科室建设厂家_医疗净化工程公司_四川华锐 |