电脑知识|欧美黑人一区二区三区|软件|欧美黑人一级爽快片淫片高清|系统|欧美黑人狂野猛交老妇|数据库|服务器|编程开发|网络运营|知识问答|技术教程文章 - 好吧啦网

您的位置:首頁技術文章
文章詳情頁

20行Python代碼實現一款永久免費PDF編輯工具的實現

瀏覽:33日期:2022-07-13 08:43:52

PDF(Portable Document Format),中文名稱便攜文檔格式是我們經常會接觸到的一種文件格式,文獻、文檔...很多都是PDF格式。它以格式穩定的優勢,使得我們在打印、分享、傳輸過程中能夠最優的保持原有色彩和格式。

PDF是以PostScript語言圖像模型為基礎的一種文檔格式,它在格式的穩定性方面雖然具有很大優勢。但是,在可編輯性方面卻為使用者引入了另外一個困擾。

20行Python代碼實現一款永久免費PDF編輯工具的實現

例如,在文檔的分割、合并、剪切、轉換、編輯等方面PDF就有些捉襟見肘了。

Adobe Reader、福昕閱讀器、熊貓PDF...經常用到的PDF工具只能用于文檔閱讀,但是免費版都不可以用于文檔編輯。雖然,網頁版PDF工具,例如SmallPDF、I love PDF可以用于PDF的編輯,但是對于文檔大小也有限制。

曾經,為了替換PDF中的一頁,我幾乎試遍了所有市面上主流的PDF工具,最終還是不得不選擇使用付費工具來解決問題。

事后想了想,既然這些商業化軟件不靠譜,為什么不考慮自己動手開發一款工具呢?明明幾十行代碼能夠解決的問題,為什么要費那么多勁去下載、安裝那些沒有節操的軟件呢?

本文就來介紹一下利用Python輕松開發一款PDF編輯工具,可以用于PDF轉TxT、分割、合并、剪切、轉換。

PyPDF2

PyPDF2是一個第三方的python PDF庫,它能夠對PDF文件進行分割、合并、裁剪和轉換頁面。

另外,它還可以對PDF文件添加自定義數據、水印、密碼,也可以從PDF文件中檢索出文本和元數據。

安裝

使用pip直接安裝:

$ pip install PyPDF2

下面就來演示幾項PDF編輯功能,并且會逐行解釋代碼的含義。

刪除PDF頁

先給出實現代碼,

from PyPDF2 import PdfFileWriter, PdfFileReaderoutput = PdfFileWriter() // 1input1 = PdfFileReader(open('example.pdf', 'rb')) // 2def delete_pdf(index): pages = input1.getNumPages() // 3 for i in range(pages): if i+1 in index: continue output.addPage(input1.getPage(i)) // 4 outputStream = open('PyPDF2-output.pdf', 'wb') output.write(outputStream) // 5delete_pdf([2,3,4])

下面來解釋一下代碼中的幾個關鍵點:

聲明一個用于輸出PDF的實例; 讀取本地PDF文件; 獲取PDF文檔的頁數; 讀取PDF的第i頁,添加到輸出output實例中; 把編輯后的文檔保存到本地;

合并PDF

已經實現了刪除PDF頁,接下來就看一下如何把另外一個PDF中的頁面合并到當前PDF中。

方法1:

可以沿著前面刪除PDF頁的方式進行拓展一下,對PDF進行合并。

from PyPDF2 import PdfFileWriter, PdfFileReaderoutput = PdfFileWriter()input1 = PdfFileReader(open('example.pdf', 'rb'))input2 = PdfFileReader(open('simple2.pdf', 'rb')) // 1def merge_pdf(add_index, origin_index): pages = input1.getNumPages() k = 0 for i in range(pages): if i+1 in add_index: output.addPage(input2.getPage(origin_index[k])) // 2 pages += 1 k += 1 output.addPage(input1.getPage(i)) outputStream = open('PyPDF2-output.pdf', 'wb') output.write(outputStream)merge_pdf([2,3,4], [0, 0, 0])

讀取需要合并的源文件;

遍歷到指定頁,合并源PDF的頁面;

方法2:

除了方法1,還有另外一種方法可以合并PDF:

from PyPDF2 import PdfFileMerger // 1merger = PdfFileMerger()input1 = open('document1.pdf', 'rb') // 2input2 = open('document2.pdf', 'rb')input3 = open('document3.pdf', 'rb')merger.append(fileobj = input1, pages = (0,3)) // 3merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4merger.append(input3) // 5output = open('document-output.pdf', 'wb')merger.write(output) 導入PyPDF2合并模塊PdfFileMerger; 讀取需要處理和合并的PDF文檔; 從第一個PDF文檔中取出需要合并的前3頁; 把第二個PDF文檔的第一頁插入到文檔中; 把第三個PDF文檔附到輸出文檔末尾;

除了上述介紹的2項主要功能,PyPDF2也有一些其他小功能:

旋轉

input1.getPage(1).rotateClockwise(90)

使得頁面1旋轉90度。

添加水印

page = input1.getPage(3)watermark = PdfFileReader(open('watermark.pdf', 'rb'))page.mergePage(watermark.getPage(0))

其中,水印存儲在另外一個PDF文檔watermark.pdf中。

加密

password = 'secret'output.encrypt(password)

首先給一個secret密碼,然后使用encrypt對輸出文檔進行加密。

pdfminer

前面介紹的PyPDF2主要擅長于PDF頁面級編輯,而對于文本和源數據級別編輯能力較弱。

所以,這里就來介紹另外一款Python庫來彌補它的不足。

PDFMiner是一個PDF文檔的文本提取工具,它具有如下特性:

能夠準確獲取文本的位置和布局信息; 可以將PDF轉換為HTML/XML等格式; 可以提取目錄; 可以提取標簽內容; 支持各種字體類型(Type1、TrueType、Type3和CID); 支持中、日、韓語言和垂直書寫文本;

安裝

$ pip install pdfminer

PDF轉TxT

pdfminer在GitHub的托管項目中,在目錄tools下給出了一些實用的工具集,例如,PDF轉HTML、PDF轉HTML、PDF轉TXT。我們可以直接通過使用下面命令提出PDF文檔中的文本信息。

$ pdf2txt.py samples/simple1.pdf

總結

通過上述2款Python庫,就可以實現從頁面到文本元數據的編輯,本文只是簡單的介紹了每項的基本用法。關于詳細的用法和函數列表,可以閱讀官方文檔,或者閱讀GitHub上項目源碼進行了解。此外,可以在這些基本的用法基礎上進行發散思維,發掘更多有價值的應用場景,例如,提出文本數據之后調用翻譯API進行文獻翻譯。也可以,對軟件進行封裝,開發成一款通用的PDF編輯工具。

到此這篇關于20行Python代碼實現一款永久免費PDF編輯工具的實現的文章就介紹到這了,更多相關Python 免費PDF編輯工具內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 便携式表面粗糙度仪-彩屏硬度计-分体式粗糙度仪-北京凯达科仪科技有限公司 | 档案密集柜_手动密集柜_智能密集柜_内蒙古档案密集柜-盛隆柜业内蒙古密集柜直销中心 | 【ph计】|在线ph计|工业ph计|ph计厂家|ph计价格|酸度计生产厂家_武汉吉尔德科技有限公司 | EPK超声波测厚仪,德国EPK测厚仪维修-上海树信仪器仪表有限公司 | 杭州网络公司_百度SEO优化-外贸网络推广_抖音小程序开发-杭州乐软科技有限公司 | 重庆网站建设,重庆网站设计,重庆网站制作,重庆seo,重庆做网站,重庆seo,重庆公众号运营,重庆小程序开发 | 电气控制系统集成商-PLC控制柜变频控制柜-非标自动化定制-电气控制柜成套-NIDEC CT变频器-威肯自动化控制 | 制氮设备_PSA制氮机_激光切割制氮机_氮气机生产厂家-苏州西斯气体设备有限公司 | 杭州|上海贴标机-百科 | 手机游戏_热门软件app下载_好玩的安卓游戏下载基地-吾爱下载站 | 净气型药品柜-试剂柜-无管道净气型通风柜-苏州毕恩思 | 济南电缆桥架|山东桥架-济南航丰实业有限公司 | 电磁辐射仪-电磁辐射检测仪-pm2.5检测仪-多功能射线检测仪-上海何亦仪器仪表有限公司 | 流量卡中心-流量卡套餐查询系统_移动电信联通流量卡套餐大全 | 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库-首页-东莞市傲马网络科技有限公司 | 自动售货机_无人售货机_专业的自动售货机运营商_免费投放售货机-广州富宏主官网 | 机构创新组合设计实验台_液压实验台_气动实训台-戴育教仪厂 | 北京网络营销推广_百度SEO搜索引擎优化公司_网站排名优化_谷歌SEO - 北京卓立海创信息技术有限公司 | 耐酸碱泵-自吸耐酸碱泵型号「品牌厂家」立式耐酸碱泵价格-昆山国宝过滤机有限公司首页 | 阻垢剂-反渗透缓蚀阻垢剂厂家-山东鲁东环保科技有限公司 | 智慧钢琴-电钢琴-便携钢琴-数码钢琴-深圳市特伦斯乐器有限公司 | 档案密集架,移动密集架,手摇式密集架,吉林档案密集架-厂家直销★价格公道★质量保证 | 复盛空压机配件-空气压缩机-复盛空压机(华北)总代理 | 通信天线厂家_室分八木天线_对数周期天线_天线加工厂_林创天线源头厂家 | 多功能真空滤油机_润滑油全自动滤油机_高效真空滤油机价格-重庆润华通驰 | 干粉砂浆设备-干粉砂浆生产线-干混-石膏-保温砂浆设备生产线-腻子粉设备厂家-国恒机械 | 上海单片机培训|重庆曙海培训分支机构—CortexM3+uC/OS培训班,北京linux培训,Windows驱动开发培训|上海IC版图设计,西安linux培训,北京汽车电子EMC培训,ARM培训,MTK培训,Android培训 | 商标转让-购买商标专业|放心的商标交易网-蜀易标商标网 | 集装箱标准养护室-集装箱移动式养护室-广州璟业试验仪器有限公司 | 隔爆型防爆端子分线箱_防爆空气开关箱|依客思 | 污水提升器,污水提升泵,地下室排水,增压泵,雨水泵,智能供排水控制器-上海智流泵业有限公司 | 安徽净化工程设计_无尘净化车间工程_合肥净化实验室_安徽创世环境科技有限公司 | 齿轮减速电机一体机_蜗轮蜗杆减速马达-德国BOSERL齿轮减速机带电机生产厂家 | 武汉不干胶印刷_标签设计印刷_不干胶标签印刷厂 - 武汉不干胶标签印刷厂家 | 镀锌角钢_槽钢_扁钢_圆钢_方矩管厂家_镀锌花纹板-海邦钢铁(天津)有限公司 | 塑木弯曲试验机_铜带拉伸强度试验机_拉压力测试台-倾技百科 | 掺铥光纤放大器-C/L波段光纤放大器-小信号光纤放大器-合肥脉锐光电技术有限公司 | 消防设施操作员考试报名时间,报名入口,报考条件 | 定做大型恒温循环水浴槽-工业用不锈钢恒温水箱-大容量低温恒温水槽-常州精达仪器 | 挤奶设备过滤纸,牛奶过滤纸,挤奶机过滤袋-济南蓝贝尔工贸有限公司 | 智慧旅游_智慧景区_微景通-智慧旅游景区解决方案提供商 |