亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

教你20行python代碼實(shí)現(xiàn)編輯永久免費(fèi)pdf工具

89542767 / 656人閱讀


  小編寫這篇文章的主要目的,主要是給大家介紹一下關(guān)于python代碼實(shí)現(xiàn)pdf編輯免費(fèi)pdf工具相關(guān)知識的解答。


  PDF是在日常生活中使用范圍還是比較的廣泛的,很多的文檔都是PDF格式。格式穩(wěn)定是他的一個(gè)優(yōu)勢,使得我們在打印、分享、傳輸過程中能夠最優(yōu)的保持原有色彩和格式。


  PDF各種各樣的的版本是比較的多的,它在格式的穩(wěn)定性方面雖然具有很大優(yōu)勢。但是,在可編輯性方面卻為使用者引入了另外一個(gè)困擾。


  例如,在文檔的分割、合并、剪切、轉(zhuǎn)換、編輯等方面PDF就有些捉襟見肘了。


  pdf版本是比較多的,有的是在線版的,有的是APP版本的,它們在優(yōu)勢方面,各自有各自的優(yōu)勢。


  曾經(jīng),為了替換PDF中的一頁,我?guī)缀踉嚤榱怂惺忻嫔现髁鞯腜DF工具,最終還是不得不選擇使用付費(fèi)工具來解決問題。


  事后想了想,既然這些商業(yè)化軟件不靠譜,為什么不考慮自己動手開發(fā)一款工具呢?明明幾十行代碼能夠解決的問題,為什么要費(fèi)那么多勁去下載、安裝那些沒有節(jié)操的軟件呢?


  本文就來介紹一下利用Python輕松開發(fā)一款PDF編輯工具,可以用于PDF轉(zhuǎn)TxT、分割、合并、剪切、轉(zhuǎn)換。


  PyPDF2


  PyPDF2是一個(gè)第三方的python PDF庫,它能夠?qū)DF文件進(jìn)行分割、合并、裁剪和轉(zhuǎn)換頁面。


  另外,它還可以對PDF文件添加自定義數(shù)據(jù)、水印、密碼,也可以從PDF文件中檢索出文本和元數(shù)據(jù)。


  安裝


  使用pip直接安裝:


$pip install PyPDF2


  下面就來演示幾項(xiàng)PDF編輯功能,并且會逐行解釋代碼的含義。


  刪除PDF頁


  先給出實(shí)現(xiàn)代碼,


  from PyPDF2 import PdfFileWriter,PdfFileReader
  output=PdfFileWriter()//1
  input1=PdfFileReader(open("example.pdf","rb"))//2
  def delete_pdf(index):
  pages=input1.getNumPages()//3
  for i in range(pages):
  if i+1 in index:
  continue
  output.addPage(input1.getPage(i))//4
  outputStream=open("PyPDF2-output.pdf","wb")
  output.write(outputStream)//5
  delete_pdf([2,3,4])


  下面來解釋一下代碼中的幾個(gè)關(guān)鍵點(diǎn):


  聲明一個(gè)用于輸出PDF的實(shí)例;


  讀取本地PDF文件;


  獲取PDF文檔的頁數(shù);


  讀取PDF的第i頁,添加到輸出output實(shí)例中;


  把編輯后的文檔保存到本地;


  合并PDF


  已經(jīng)實(shí)現(xiàn)了刪除PDF頁,接下來就看一下如何把另外一個(gè)PDF中的頁面合并到當(dāng)前PDF中。


  方法1:


  可以沿著前面刪除PDF頁的方式進(jìn)行拓展一下,對PDF進(jìn)行合并。


 from PyPDF2 import PdfFileWriter,PdfFileReader
  output=PdfFileWriter()
  input1=PdfFileReader(open("example.pdf","rb"))
  input2=PdfFileReader(open("simple2.pdf","rb"))//1
  def merge_pdf(add_index,origin_index):
  pages=input1.getNumPages()
  k=0
  for i in range(pages):
  if i+1 in add_index:
  output.addPage(input2.getPage(origin_index[k]))//2
  pages+=1
  k+=1
  output.addPage(input1.getPage(i))
  outputStream=open("PyPDF2-output.pdf","wb")
  output.write(outputStream)
  merge_pdf([2,3,4],[0,0,0])


  讀取需要合并的源文件;


  遍歷到指定頁,合并源PDF的頁面;


  方法2:


  除了方法1,還有另外一種方法可以合并PDF:


  from PyPDF2 import PdfFileMerger//1


  merger=PdfFileMerger()


  input1=open("document1.pdf","rb")//2


  input2=open("document2.pdf","rb")


  input3=open("document3.pdf","rb")


  merger.append(fileobj=input1,pages=(0,3))//3


  merger.merge(position=2,fileobj=input2,pages=(0,1))//4


  merger.append(input3)//5


  output=open("document-output.pdf","wb")


  merger.write(output)


  導(dǎo)入PyPDF2合并模塊PdfFileMerger;


  讀取需要處理和合并的PDF文檔;


  從第一個(gè)PDF文檔中取出需要合并的前3頁;


  把第二個(gè)PDF文檔的第一頁插入到文檔中;


  把第三個(gè)PDF文檔附到輸出文檔末尾;


  除了上述介紹的2項(xiàng)主要功能,PyPDF2也有一些其他小功能:


  旋轉(zhuǎn)


input1.getPage(1).rotateClockwise(90)


  使得頁面1旋轉(zhuǎn)90度。


  添加水印


  page=input1.getPage(3)
  watermark=PdfFileReader(open("watermark.pdf","rb"))
  page.mergePage(watermark.getPage(0))


  其中,水印存儲在另外一個(gè)PDF文檔watermark.pdf中。


  加密


  password="secret"
  output.encrypt(password)


  首先給一個(gè)secret密碼,然后使用encrypt對輸出文檔進(jìn)行加密。


  pdfminer


  前面介紹的PyPDF2主要擅長于PDF頁面級編輯,而對于文本和源數(shù)據(jù)級別編輯能力較弱。


  所以,這里就來介紹另外一款Python庫來彌補(bǔ)它的不足。


  PDFMiner是一個(gè)PDF文檔的文本提取工具,它具有如下特性:


  能夠準(zhǔn)確獲取文本的位置和布局信息;


  可以將PDF轉(zhuǎn)換為HTML/XML等格式;


  可以提取目錄;


  可以提取標(biāo)簽內(nèi)容;


  支持各種字體類型(Type1、TrueType、Type3和CID);


  支持中、日、韓語言和垂直書寫文本;


  安裝


$pip install pdfminer


  PDF轉(zhuǎn)TxT


  pdfminer在GitHub的托管項(xiàng)目中,在目錄tools下給出了一些實(shí)用的工具集,例如,PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)TXT。我們可以直接通過使用下面命令提出PDF文檔中的文本信息。


$pdf2txt.py samples/simple1.pdf


  通過上述2款Python庫,就可以實(shí)現(xiàn)從頁面到文本元數(shù)據(jù)的編輯,本文只是簡單的介紹了每項(xiàng)的基本用法。關(guān)于詳細(xì)的用法和函數(shù)列表,可以閱讀官方文檔,或者閱讀GitHub上項(xiàng)目源碼進(jìn)行了解。此外,可以在這些基本的用法基礎(chǔ)上進(jìn)行發(fā)散思維,發(fā)掘更多有價(jià)值的應(yīng)用場景,例如,提出文本數(shù)據(jù)之后調(diào)用翻譯API進(jìn)行文獻(xiàn)翻譯。也可以,對軟件進(jìn)行封裝,開發(fā)成一款通用的PDF編輯工具。


  20行Python代碼就輕松解決了困擾很多同學(xué)已久的PDF編輯問題,可見Python的作用和價(jià)值是不可忽視的。


  綜上所述,相關(guān)知識就為大家解答到這里了,希望可以能給大家?guī)韼椭?/p>


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/127755.html

相關(guān)文章

  • 50Python代碼,教你獲取公眾號全部文章

    摘要:今天介紹一種通過抓包端微信的方式去獲取公眾號文章的方法。如上圖,通過抓包工具獲取微信的網(wǎng)絡(luò)信息請求,我們發(fā)現(xiàn)每次下拉刷新文章的時(shí)候都會請求這個(gè)接口。 本文首發(fā)自公眾號:python3xxx 爬取公眾號的方式常見的有兩種 通過搜狗搜索去獲取,缺點(diǎn)是只能獲取最新的十條推送文章 通過微信公眾號的素材管理,獲取公眾號文章。缺點(diǎn)是需要申請自己的公眾號。 showImg(//img.mukew...

    MartinHan 評論0 收藏0
  • [譯]148個(gè)資源讓你成為CSS專家

    摘要:層疊樣式表二修訂版這是對作出的官方說明。速查表兩份表來自一份關(guān)于基礎(chǔ)特性,一份關(guān)于布局。核心第一篇一份來自的基礎(chǔ)參考指南簡寫速查表簡寫形式參考書使用層疊樣式表基礎(chǔ)指南,包含使用的好處介紹個(gè)方法快速寫成高質(zhì)量的寫出高效的一些提示。 迄今為止,我已經(jīng)收集了100多個(gè)精通CSS的資源,它們能讓你更好地掌握CSS技巧,使你的布局設(shè)計(jì)脫穎而出。 CSS3 資源 20個(gè)學(xué)習(xí)CSS3的有用資源 C...

    impig33 評論0 收藏0
  • [譯]學(xué)習(xí)Python編程的19個(gè)資源

    摘要:它需要將近美元才能買到,但是你可以下載免費(fèi)的和版本。在需要花費(fèi)美元來開始你的學(xué)習(xí),將會有超過頁的內(nèi)容和個(gè)多小時(shí)的視頻供你訪問,還包括以后可以免費(fèi)更新。 showImg(https://segmentfault.com/img/bVrJpw); 用Python編寫代碼一點(diǎn)都不難,事實(shí)上它一直被贊譽(yù)為最容易學(xué)的編程語言。如果你準(zhǔn)備學(xué)習(xí)web開發(fā), Python是一個(gè)不錯(cuò)的開始,甚至想做游戲...

    xiguadada 評論0 收藏0
  • 學(xué)習(xí)Python編程的書籍Top7

    摘要:關(guān)于作者是軟件基金會的成員,也是巴西第一個(gè)黑客空間的聯(lián)合創(chuàng)始人。他曾在巴西媒體,銀行和政府部門教授開發(fā),并在,,和上發(fā)表演講。他是一位自學(xué)成才的程序員,也是使用學(xué)習(xí)編程一系列書的作者。 showImg(https://segmentfault.com/img/remote/1460000018926735); 來源 | 愿碼(ChainDesk.CN)內(nèi)容編輯 愿碼Slogan | ...

    ccj659 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<