亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

[新手開源] 爬取韓寒“一個”文章且自動郵件發(fā)送功能

zhkai / 1553人閱讀

摘要:源碼地址準(zhǔn)備一臺云服務(wù)器寫好的腳本效果因?yàn)楝F(xiàn)在一個的客戶端啟動越來越慢,而且很多自己不感興趣的東西我只是想看看文章,所以就寫了這個小爬蟲。因?yàn)橐粋€是每天點(diǎn)會更新,所以自己的服務(wù)器要做一個定時服務(wù),下自帶了定時任務(wù)。

源碼地址:https://github.com/xcc3641/pySendOneToEmail

準(zhǔn)備

一臺云服務(wù)器

寫好的Python腳本

效果

因?yàn)楝F(xiàn)在“一個”的Android客戶端啟動越來越慢,而且很多自己不感興趣的東西(我只是想看看文章),所以就寫了這個小爬蟲。它可以在“一個”更新后把我要的內(nèi)容發(fā)到我的郵箱里。

放在云服務(wù)器里,所以不用擔(dān)心電費(fèi)啊其他問題~

實(shí)踐 云服務(wù)器

自己配置的是阿里云的服務(wù)器,學(xué)生特惠9.9,Ubuntu系統(tǒng)。這個系統(tǒng)自帶了Python2.7環(huán)境,所以不用自己手動去安裝。

本地是用的Window10系統(tǒng),最好安裝下SecureCRSecureFXPortable。遠(yuǎn)程連接自己的服務(wù)器,而且命令行和文件操作會簡便很多。

因?yàn)椤耙粋€”是每天22點(diǎn)會更新,所以自己的服務(wù)器要做一個定時服務(wù),ubuntu下自帶了Crontab定時任務(wù)。

配置Crontab

加入需要執(zhí)行的腳本

crontab -e
1 22 * * * 路徑/python 路徑/xxx.py
保存重啟 /etc/init.d/cron restart

Python最好寫全路徑,這是一個坑

需要在root用戶下進(jìn)行

具體的Crontab可以參考Crontab

Python代碼

這里主要是用到了python自帶的郵件服務(wù)的庫和第三方網(wǎng)絡(luò)解析庫,代碼量不多而且也不難,有編程基礎(chǔ)的很容易學(xué)會。

郵件相關(guān)

郵件類庫

   from email.mime.multipart import MIMEMultipart
   from email.header import Header
   from email.mime.text import MIMEText
   from email.utils import parseaddr, formataddr
   import smtplib

配置郵件&發(fā)送郵件的關(guān)鍵代碼

    msg = MIMEMultipart()

    msg["From"] = _format_addr(u"Xie CC <%s>" % from_addr)
    msg["To"] = _format_addr(u"管理員 <%s>" % to_addr)
    msg["Subject"] = Header(u"The One    " + title, "utf-8").encode()

    msg.attach(MIMEText("


" + text + "






" + story + "", "html", "utf-8")) server = smtplib.SMTP(smtp_server, 25) server.set_debuglevel(1) server.login(from_addr, password) server.sendmail(from_addr, [to_addr], msg.as_string()) server.quit()

這里自己就不詳細(xì)介紹這個庫,具體可以參考這個教程,Python不是很難理解.

爬取信息

類庫

   import requests
   from bs4 import BeautifulSoup

有一次用urllib,urllib2發(fā)現(xiàn)會遇到各種編碼問題需要自己去解決,特別煩人。然后轉(zhuǎn)到了requests這個庫,完全沒有遇到像url那樣惡心的編碼問題,而且很多需求都可以滿足,所以后面爬靜態(tài)網(wǎng)頁都習(xí)慣用這個庫了。

以前還是蠻喜歡用正則的,這次就學(xué)習(xí)了下bs4的用法,感覺還是挺容易上手的。具體的實(shí)現(xiàn)都不難,都是基礎(chǔ)的爬蟲知識,而且“一個”并沒有反爬蟲的設(shè)定,所以蠻適合初學(xué)者的。

用工具方便自己,我覺得這就是自己編程的意義,這讓我很開心。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/37744.html

相關(guān)文章

  • nodeJS實(shí)現(xiàn)基于Promise爬蟲 定時發(fā)送信息到指定郵件

    摘要:也就是說,我的篇文章的請求對應(yīng)個實(shí)例,這些實(shí)例都請求完畢后,執(zhí)行以下邏輯他的目的在于對每一個返回值這個返回值為單篇文章的內(nèi)容,進(jìn)行方法處理。 英國人Robert Pitt曾在Github上公布了他的爬蟲腳本,導(dǎo)致任何人都可以容易地取得Google Plus的大量公開用戶的ID信息。至今大概有2億2千5百萬用戶ID遭曝光。 亮點(diǎn)在于,這是個nodejs腳本,非常短,包括注釋只有71行。 ...

    xuweijian 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<