亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

Python爬蟲(chóng)_爬取豆瓣閱讀提供方列表并寫(xiě)入excel文件中

fish / 3631人閱讀

摘要:爬取豆瓣閱讀提供方代碼中會(huì)有詳細(xì)的注釋關(guān)于也是在看教程和書(shū)以及視頻學(xué)習(xí),純種小白哈士奇的那種用到的庫(kù)爬蟲(chóng)庫(kù)正則模塊寫(xiě)模塊時(shí)間模塊庫(kù)偽裝瀏覽器的固定寫(xiě)法也可以再加加個(gè)代理,也可以不加直接使用自己的地址代理西刺代理通過(guò)正則獲取內(nèi)容菜鳥(niǎo)

爬取豆瓣閱讀提供方 代碼中會(huì)有詳細(xì)的注釋

關(guān)于python也是在看教程和書(shū)以及視頻學(xué)習(xí),純種小白(哈士奇的那種)

用到的庫(kù)

urllib ????-> ?? 爬蟲(chóng)庫(kù)

re ????-> ?? 正則模塊

xlwt ????-> ?? excel寫(xiě)模塊

time ????-> ?? 時(shí)間模塊

urllib庫(kù)偽裝瀏覽器的固定寫(xiě)法(也可以再加)
加個(gè)代理ip,也可以不加直接使用自己的ip地址
代理ip ????-> ?? "123.116.129.176"

西刺代理

通過(guò)正則獲取內(nèi)容

菜鳥(niǎo)教程的re模塊

更加詳細(xì)的用法百度可以找到很多,我就不一一的列出來(lái)了
這里有個(gè)坑,第一個(gè)匹配出來(lái)的url地址不對(duì),原因是網(wǎng)頁(yè)中有個(gè)非列表標(biāo)簽內(nèi)的居然和正則開(kāi)始的匹配(列表標(biāo)簽)是一致的

寫(xiě)入excel的操作

部分代碼

# 創(chuàng)建workbook和sheet對(duì)象
workbook = xlwt.Workbook()
# excel 底部 sheet1
# 覆蓋單元格
sheet1 = workbook.add_sheet("統(tǒng)計(jì)", cell_overwrite_ok=True)
...
for i in content:
  # 在第 row + 1 行第 1 列寫(xiě)入序號(hào)
  sheet1.write(row + 1, 0, row + 1, style)
  # 在第 row + 1 行第 2 列寫(xiě)入出版社_url
  sheet1.write(row + 1, 1, "https://read.douban.com{}".format(str(i[0])), style)
  # 在第 row + 1 行第 3 列寫(xiě)入LOGO_url
  sheet1.write(row + 1, 2, i[1], style)
  # 在第 row + 1 行第 4 列寫(xiě)入出版社名稱(chēng)
  sheet1.write(row + 1, 3, i[2], style)
  # 在第 row + 1 行第 5 列寫(xiě)入在售數(shù)量
  sheet1.write(row + 1, 4, int(i[3]), style)
  # 對(duì)在售數(shù)量求和
  sum += int(i[3])
  row += 1
時(shí)間模塊的用法
獲取當(dāng)前時(shí)間并格式化:time.strftime("%Y%m%d%H%M%S", time.localtime())
將對(duì)一列數(shù)據(jù)(在售數(shù)量)求和以及數(shù)據(jù)保存

需要注意,這里寫(xiě)個(gè)判斷語(yǔ)句要等到基礎(chǔ)數(shù)據(jù)都寫(xiě)入完畢之后在進(jìn)行求和運(yùn)算并寫(xiě)入

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/41244.html

相關(guān)文章

  • 23個(gè)Python爬蟲(chóng)開(kāi)源項(xiàng)目代碼,包含微信、淘寶、豆瓣、知乎、微博等

    摘要:今天為大家整理了個(gè)爬蟲(chóng)項(xiàng)目。地址新浪微博爬蟲(chóng)主要爬取新浪微博用戶(hù)的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。涵蓋鏈家爬蟲(chóng)一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

    jlanglang 評(píng)論0 收藏0
  • SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來(lái)做一些神奇好玩的事情吧

    摘要:學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀,它提供了一些方法用于檢測(cè)形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換,簡(jiǎn)稱(chēng)是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡(jiǎn)明扼要地說(shuō)明的編碼機(jī)制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開(kāi)始之前,我們先來(lái)看這樣一個(gè)提問(wèn): pyth...

    lifesimple 評(píng)論0 收藏0
  • Python爬蟲(chóng) - scrapy - 爬取豆瓣電影TOP250

    摘要:前言新接觸爬蟲(chóng),經(jīng)過(guò)一段時(shí)間的實(shí)踐,寫(xiě)了幾個(gè)簡(jiǎn)單爬蟲(chóng),爬取豆瓣電影的爬蟲(chóng)例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁(yè)面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。 0.前言 新接觸爬蟲(chóng),經(jīng)過(guò)一段時(shí)間的實(shí)踐,寫(xiě)了幾個(gè)簡(jiǎn)單爬蟲(chóng),爬取豆瓣電影的爬蟲(chóng)例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁(yè)面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。所以找了很多實(shí)例和文...

    WalkerXu 評(píng)論0 收藏0
  • 我的豆瓣短評(píng)爬蟲(chóng)的多線(xiàn)程改寫(xiě)

    摘要:對(duì)之前我的那個(gè)豆瓣的短評(píng)的爬蟲(chóng),進(jìn)行了一下架構(gòu)性的改動(dòng)。同時(shí)也添加了多線(xiàn)程的實(shí)現(xiàn)。我的代碼中多線(xiàn)程的核心代碼不多,見(jiàn)下。注意使用多線(xiàn)程時(shí),期間的延時(shí)時(shí)間應(yīng)該設(shè)置的大些,不然會(huì)被網(wǎng)站拒絕訪(fǎng)問(wèn),這時(shí)你還得去豆瓣認(rèn)證下我真的不是機(jī)器人尷尬。 對(duì)之前我的那個(gè)豆瓣的短評(píng)的爬蟲(chóng),進(jìn)行了一下架構(gòu)性的改動(dòng)。盡可能實(shí)現(xiàn)了模塊的分離。但是總是感覺(jué)不完美。暫時(shí)也沒(méi)心情折騰了。 同時(shí)也添加了多線(xiàn)程的實(shí)現(xiàn)。具體...

    antyiwei 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<