文章詳情頁

python實現(xiàn)PDF中表格轉(zhuǎn)化為Excel的方法

瀏覽：78日期：2022-07-21 08:53:57

這幾天想統(tǒng)計一下《中國人文社會科學期刊 AMI 綜合評價報告（2018 年）：A 刊評價報告》中的期刊，但是只找到了該報告的PDF版，對于表格的編輯不太方便，于是想到用Python將表格轉(zhuǎn)成Excel格式。

看過別人寫的博客，發(fā)現(xiàn)Python解析PDF有以下四種方式：

-pdfminer:擅長文字的解析，把表格解析成普通的文本，沒有格式；-pdf2html:把pdf解析成html，但html的標簽并沒有規(guī)律，解析一個表格還可以，多個表格的話不太好提取；-tabula:對于簡單的表格，即單元格中沒有換行的，表頭表尾形式不復雜的，使用比較方便。但是單腦需要Java環(huán)境；-pdfplumber:是一個可以處理pdf格式信息的庫。可以查找關(guān)于每個文本字符、矩陣、和行的詳細信息，也可以對表格進行提取并進行可視化調(diào)試。

本文采用pdfplumber庫讀取PDF中的表格，運行環(huán)境：Python3.5.2，Anaconda4.2.0。首先簡單介紹一下pdfplumber庫：

-pdfplumber.pdf中包含了.metadata和.pages兩個屬性：.metadata是一個包含pdf信息的字典。.pages是一個包含頁面信息的列表。

-pdfplumber.page的類中包含的主要的屬性：

.page_number 頁碼。.width 頁面寬度。.height 頁面高度。.objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表，每個列表都包含一個字典，每個字典用于說明頁面中的對象信息，包括直線，字符，方格等位置信息。

-一些常用的方法：

.extract_text() 用來提頁面中的文本，將頁面的所有字符對象整理為的那個字符串。.extract_words() 返回的是所有的單詞及其相關(guān)信息。.extract_tables() 提取頁面的表格。.to_image() 用于可視化調(diào)試時，返回PageImage類的一個實例。

import pdfplumberimport pandas as pdpath = ’test.pdf’pdf = pdfplumber.open(path)i=1#writer=pd.ExcelWriter(’output.xlsx’)df=pd.DataFrame(columns=[’序號’,’刊名’,’主辦單位’,’等級’])sheetname=[’考古文博’,’歷史學’,’馬克思主義理論’,’民族學與文化學’,’文學-外國文學’,’文學-中國文學’,’藝術(shù)學’,’語言學’,’哲學’,’宗教學’,’法學’ ,’管理學’,’環(huán)境科學’,’教育學’,’經(jīng)濟學-財政科學’,’經(jīng)濟學-工業(yè)經(jīng)濟’,’經(jīng)濟學-金融’,’經(jīng)濟學-經(jīng)濟管理’,’經(jīng)濟學-經(jīng)濟綜合’,’經(jīng)濟學-貿(mào)易經(jīng)濟’ ,’經(jīng)濟學-農(nóng)業(yè)經(jīng)濟’,’經(jīng)濟學-世界經(jīng)濟’,’人文地理學’,’社會學’,’體育學’,’統(tǒng)計學’,’圖書館情報與檔案學’,’心理學’,’新聞學與傳播學’ ,’政治學-國際政治’,’政治學-中國政治’,’綜合-高校綜合性學報’,’綜合-綜合性人文社科期刊’] ##由于存在一個表格跨頁的情況，先將所有表格存放在一個DataFrame中，再根據(jù)序號拆分。for page in pdf.pages[17:59]: print (page) # 獲取當前頁面的全部文本信息，包括表格中的文字 # print(page.extract_text()) for table in page.extract_tables(): #print(table) df=df.append(pd.DataFrame(table[1:],columns=table[0]),ignore_index=True)print (df)writer=pd.ExcelWriter(’output3.xlsx’)new_df=pd.DataFrame()j=1index=[]#記錄序號==1的行索引，用于后面的表格拆分for i in range(len(df)): if df.ix[i,0]==’1’: index.append(i) print ('################')index.append(len(df))#print (index)#按行索引將內(nèi)容切片并逐個添加到表中for t in range(len(index)-1): new_df=df.ix[index[t]:index[t+1]-1,:] #print (new_df) new_df.to_excel(writer,sheet_name=sheetname[t],encoding=’gb2312’,index=None)writer.save()pdf.close()print(’finished’)

最終保存為Excel。

python實現(xiàn)PDF中表格轉(zhuǎn)化為Excel的方法

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網(wǎng)。

python

上一條：python模塊如何查看下一條：結(jié)束運行python的方法

相關(guān)文章：

1. IntelliJ IDEA設(shè)置默認瀏覽器的方法2. Python TestSuite生成測試報告過程解析3. python操作數(shù)據(jù)庫獲取結(jié)果之fetchone和fetchall的區(qū)別說明4. 解決python路徑錯誤,運行.py文件,找不到路徑的問題5. docker /var/lib/docker/aufs/mnt 目錄清理方法6. IntelliJ IDEA設(shè)置背景圖片的方法步驟7. 在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法8. Vue作用域插槽實現(xiàn)方法及作用詳解9. 如何清空python的變量10. 解決AJAX返回狀態(tài)200沒有調(diào)用success的問題

排行榜

					
					如何清空python的變量
Vue作用域插槽實現(xiàn)方法及作用詳解
在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法
Python TestSuite生成測試報告過程解析
IntelliJ IDEA設(shè)置背景圖片的方法步驟
IntelliJ IDEA設(shè)置默認瀏覽器的方法
docker /var/lib/docker/aufs/mnt 目錄清理方法
解決python路徑錯誤,運行.py文件,找不到路徑的問題
python操作數(shù)據(jù)庫獲取結(jié)果之fetchone和fetchall的區(qū)別說明
SpringBoot項目優(yōu)雅的全局異常處理方式(全網(wǎng)最新)
深入了解JAVA 虛引用