教你20行python代碼實(shí)現(xiàn)編輯永久免費(fèi)pdf工具

89542767 發(fā)布于2022-09-16 16:34 / 656人閱讀

　　小編寫這篇文章的主要目的，主要是給大家介紹一下關(guān)于python代碼實(shí)現(xiàn)pdf編輯免費(fèi)pdf工具相關(guān)知識的解答。

　　PDF是在日常生活中使用范圍還是比較的廣泛的，很多的文檔都是PDF格式。格式穩(wěn)定是他的一個(gè)優(yōu)勢，使得我們在打印、分享、傳輸過程中能夠最優(yōu)的保持原有色彩和格式。

　　PDF各種各樣的的版本是比較的多的，它在格式的穩(wěn)定性方面雖然具有很大優(yōu)勢。但是，在可編輯性方面卻為使用者引入了另外一個(gè)困擾。

　　例如，在文檔的分割、合并、剪切、轉(zhuǎn)換、編輯等方面PDF就有些捉襟見肘了。

　　pdf版本是比較多的，有的是在線版的，有的是APP版本的，它們在優(yōu)勢方面，各自有各自的優(yōu)勢。

　　曾經(jīng)，為了替換PDF中的一頁，我?guī)缀踉嚤榱怂惺忻嫔现髁鞯腜DF工具，最終還是不得不選擇使用付費(fèi)工具來解決問題。

　　事后想了想，既然這些商業(yè)化軟件不靠譜，為什么不考慮自己動手開發(fā)一款工具呢？明明幾十行代碼能夠解決的問題，為什么要費(fèi)那么多勁去下載、安裝那些沒有節(jié)操的軟件呢？

　　本文就來介紹一下利用Python輕松開發(fā)一款PDF編輯工具，可以用于PDF轉(zhuǎn)TxT、分割、合并、剪切、轉(zhuǎn)換。

　　PyPDF2

　　PyPDF2是一個(gè)第三方的python PDF庫，它能夠?qū)DF文件進(jìn)行分割、合并、裁剪和轉(zhuǎn)換頁面。

　　另外，它還可以對PDF文件添加自定義數(shù)據(jù)、水印、密碼，也可以從PDF文件中檢索出文本和元數(shù)據(jù)。

　　安裝

　　使用pip直接安裝：

$pip install PyPDF2

　　下面就來演示幾項(xiàng)PDF編輯功能，并且會逐行解釋代碼的含義。

　　刪除PDF頁

　　先給出實(shí)現(xiàn)代碼，

　　from PyPDF2 import PdfFileWriter,PdfFileReader
　　output=PdfFileWriter()//1
　　input1=PdfFileReader(open("example.pdf","rb"))//2
　　def delete_pdf(index):
　　pages=input1.getNumPages()//3
　　for i in range(pages):
　　if i+1 in index:
　　continue
　　output.addPage(input1.getPage(i))//4
　　outputStream=open("PyPDF2-output.pdf","wb")
　　output.write(outputStream)//5
　　delete_pdf([2,3,4])

　　下面來解釋一下代碼中的幾個(gè)關(guān)鍵點(diǎn)：

　　聲明一個(gè)用于輸出PDF的實(shí)例；

　　讀取本地PDF文件；

　　獲取PDF文檔的頁數(shù)；

　　讀取PDF的第i頁，添加到輸出output實(shí)例中；

　　把編輯后的文檔保存到本地；

　　合并PDF

　　已經(jīng)實(shí)現(xiàn)了刪除PDF頁，接下來就看一下如何把另外一個(gè)PDF中的頁面合并到當(dāng)前PDF中。

　　方法1：

　　可以沿著前面刪除PDF頁的方式進(jìn)行拓展一下，對PDF進(jìn)行合并。

　from PyPDF2 import PdfFileWriter,PdfFileReader
　　output=PdfFileWriter()
　　input1=PdfFileReader(open("example.pdf","rb"))
　　input2=PdfFileReader(open("simple2.pdf","rb"))//1
　　def merge_pdf(add_index,origin_index):
　　pages=input1.getNumPages()
　　k=0
　　for i in range(pages):
　　if i+1 in add_index:
　　output.addPage(input2.getPage(origin_index[k]))//2
　　pages+=1
　　k+=1
　　output.addPage(input1.getPage(i))
　　outputStream=open("PyPDF2-output.pdf","wb")
　　output.write(outputStream)
　　merge_pdf([2,3,4],[0,0,0])

　　讀取需要合并的源文件；

　　遍歷到指定頁，合并源PDF的頁面；

　　方法2：

　　除了方法1，還有另外一種方法可以合并PDF：

　　from PyPDF2 import PdfFileMerger//1

　　merger=PdfFileMerger()

　　input1=open("document1.pdf","rb")//2

　　input2=open("document2.pdf","rb")

　　input3=open("document3.pdf","rb")

　　merger.append(fileobj=input1,pages=(0,3))//3

　　merger.merge(position=2,fileobj=input2,pages=(0,1))//4

　　merger.append(input3)//5

　　output=open("document-output.pdf","wb")

　　merger.write(output)

　　導(dǎo)入PyPDF2合并模塊PdfFileMerger;

　　讀取需要處理和合并的PDF文檔；

　　從第一個(gè)PDF文檔中取出需要合并的前3頁；

　　把第二個(gè)PDF文檔的第一頁插入到文檔中；

　　把第三個(gè)PDF文檔附到輸出文檔末尾；

　　除了上述介紹的2項(xiàng)主要功能，PyPDF2也有一些其他小功能：

　　旋轉(zhuǎn)

input1.getPage(1).rotateClockwise(90)

　　使得頁面1旋轉(zhuǎn)90度。

　　添加水印

　　page=input1.getPage(3)
　　watermark=PdfFileReader(open("watermark.pdf","rb"))
　　page.mergePage(watermark.getPage(0))

　　其中，水印存儲在另外一個(gè)PDF文檔watermark.pdf中。

　　加密

　　password="secret"
　　output.encrypt(password)

　　首先給一個(gè)secret密碼，然后使用encrypt對輸出文檔進(jìn)行加密。

　　pdfminer

　　前面介紹的PyPDF2主要擅長于PDF頁面級編輯，而對于文本和源數(shù)據(jù)級別編輯能力較弱。

　　所以，這里就來介紹另外一款Python庫來彌補(bǔ)它的不足。

　　PDFMiner是一個(gè)PDF文檔的文本提取工具，它具有如下特性：

　　能夠準(zhǔn)確獲取文本的位置和布局信息；

　　可以將PDF轉(zhuǎn)換為HTML/XML等格式；

　　可以提取目錄；

　　可以提取標(biāo)簽內(nèi)容；

　　支持各種字體類型（Type1、TrueType、Type3和CID）;

　　支持中、日、韓語言和垂直書寫文本;

　　安裝

$pip install pdfminer

　　PDF轉(zhuǎn)TxT

　　pdfminer在GitHub的托管項(xiàng)目中，在目錄tools下給出了一些實(shí)用的工具集，例如，PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)TXT。我們可以直接通過使用下面命令提出PDF文檔中的文本信息。

$pdf2txt.py samples/simple1.pdf

　　通過上述2款Python庫，就可以實(shí)現(xiàn)從頁面到文本元數(shù)據(jù)的編輯，本文只是簡單的介紹了每項(xiàng)的基本用法。關(guān)于詳細(xì)的用法和函數(shù)列表，可以閱讀官方文檔，或者閱讀GitHub上項(xiàng)目源碼進(jìn)行了解。此外，可以在這些基本的用法基礎(chǔ)上進(jìn)行發(fā)散思維，發(fā)掘更多有價(jià)值的應(yīng)用場景，例如，提出文本數(shù)據(jù)之后調(diào)用翻譯API進(jìn)行文獻(xiàn)翻譯。也可以，對軟件進(jìn)行封裝，開發(fā)成一款通用的PDF編輯工具。

　　20行Python代碼就輕松解決了困擾很多同學(xué)已久的PDF編輯問題，可見Python的作用和價(jià)值是不可忽視的。

　　綜上所述，相關(guān)知識就為大家解答到這里了，希望可以能給大家?guī)韼椭?/p>

GPU云服務(wù)器云服務(wù)器免費(fèi)代碼編輯器 Python代碼行數(shù)統(tǒng)計(jì) linux命令行編輯代碼20

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/127755.html

發(fā)表評論

登陸后可評論

0條評論

89542767

男|高級講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長詳細(xì)說明

閱讀 1066·2023-01-14 11:38
OpenMV與JSON編碼問題分析

閱讀 1062·2023-01-14 11:04
python中的特性管理模式詳細(xì)說明

閱讀 902·2023-01-14 10:48
Python運(yùn)用fastapi完成上傳圖片

閱讀 2378·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 1147·2023-01-14 10:24
Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫操作

閱讀 1026·2023-01-14 10:18
本文輕輕松松掌握Python中類的繼承

閱讀 654·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 733·2023-01-14 10:02

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

教你20行python代碼實(shí)現(xiàn)編輯永久免費(fèi)pdf工具

相關(guān)文章

**50行Python代碼，教你獲取公眾號全部文章**

[譯]148個(gè)資源讓你成為CSS專家

**[譯]學(xué)習(xí)Python編程的19個(gè)資源**

**學(xué)習(xí)Python編程的書籍Top7**

發(fā)表評論

0條評論

89542767

男|高級講師

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長詳細(xì)說明

OpenMV與JSON編碼問題分析

python中的特性管理模式詳細(xì)說明

Python運(yùn)用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫操作

本文輕輕松松掌握Python中類的繼承

python中wordcloud組裝方式總結(jié)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

教你20行python代碼實(shí)現(xiàn)編輯永久免費(fèi)pdf工具

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！