摘要:爬取豆瓣閱讀提供方代碼中會(huì)有詳細(xì)的注釋關(guān)于也是在看教程和書(shū)以及視頻學(xué)習(xí),純種小白哈士奇的那種用到的庫(kù)爬蟲(chóng)庫(kù)正則模塊寫(xiě)模塊時(shí)間模塊庫(kù)偽裝瀏覽器的固定寫(xiě)法也可以再加加個(gè)代理,也可以不加直接使用自己的地址代理西刺代理通過(guò)正則獲取內(nèi)容菜鳥(niǎo)
爬取豆瓣閱讀提供方 代碼中會(huì)有詳細(xì)的注釋
關(guān)于python也是在看教程和書(shū)以及視頻學(xué)習(xí),純種小白(哈士奇的那種)
用到的庫(kù)urllib ????-> ?? 爬蟲(chóng)庫(kù)
re ????-> ?? 正則模塊
xlwt ????-> ?? excel寫(xiě)模塊
time ????-> ?? 時(shí)間模塊
urllib庫(kù)偽裝瀏覽器的固定寫(xiě)法(也可以再加)加個(gè)代理ip,也可以不加直接使用自己的ip地址
代理ip ????-> ?? "123.116.129.176"
西刺代理
通過(guò)正則獲取內(nèi)容菜鳥(niǎo)教程的re模塊
更加詳細(xì)的用法百度可以找到很多,我就不一一的列出來(lái)了寫(xiě)入excel的操作
這里有個(gè)坑,第一個(gè)匹配出來(lái)的url地址不對(duì),原因是網(wǎng)頁(yè)中有個(gè)非列表標(biāo)簽內(nèi)的居然和正則開(kāi)始的匹配(列表標(biāo)簽)是一致的
部分代碼
# 創(chuàng)建workbook和sheet對(duì)象 workbook = xlwt.Workbook() # excel 底部 sheet1 # 覆蓋單元格 sheet1 = workbook.add_sheet("統(tǒng)計(jì)", cell_overwrite_ok=True) ... for i in content: # 在第 row + 1 行第 1 列寫(xiě)入序號(hào) sheet1.write(row + 1, 0, row + 1, style) # 在第 row + 1 行第 2 列寫(xiě)入出版社_url sheet1.write(row + 1, 1, "https://read.douban.com{}".format(str(i[0])), style) # 在第 row + 1 行第 3 列寫(xiě)入LOGO_url sheet1.write(row + 1, 2, i[1], style) # 在第 row + 1 行第 4 列寫(xiě)入出版社名稱(chēng) sheet1.write(row + 1, 3, i[2], style) # 在第 row + 1 行第 5 列寫(xiě)入在售數(shù)量 sheet1.write(row + 1, 4, int(i[3]), style) # 對(duì)在售數(shù)量求和 sum += int(i[3]) row += 1
時(shí)間模塊的用法將對(duì)一列數(shù)據(jù)(在售數(shù)量)求和以及數(shù)據(jù)保存
獲取當(dāng)前時(shí)間并格式化:time.strftime("%Y%m%d%H%M%S", time.localtime())
需要注意,這里寫(xiě)個(gè)判斷語(yǔ)句要等到基礎(chǔ)數(shù)據(jù)都寫(xiě)入完畢之后在進(jìn)行求和運(yùn)算并寫(xiě)入
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/41244.html
摘要:今天為大家整理了個(gè)爬蟲(chóng)項(xiàng)目。地址新浪微博爬蟲(chóng)主要爬取新浪微博用戶(hù)的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。涵蓋鏈家爬蟲(chóng)一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀,它提供了一些方法用于檢測(cè)形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換,簡(jiǎn)稱(chēng)是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡(jiǎn)明扼要地說(shuō)明的編碼機(jī)制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開(kāi)始之前,我們先來(lái)看這樣一個(gè)提問(wèn): pyth...
摘要:前言新接觸爬蟲(chóng),經(jīng)過(guò)一段時(shí)間的實(shí)踐,寫(xiě)了幾個(gè)簡(jiǎn)單爬蟲(chóng),爬取豆瓣電影的爬蟲(chóng)例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁(yè)面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。 0.前言 新接觸爬蟲(chóng),經(jīng)過(guò)一段時(shí)間的實(shí)踐,寫(xiě)了幾個(gè)簡(jiǎn)單爬蟲(chóng),爬取豆瓣電影的爬蟲(chóng)例子網(wǎng)上有很多,但都很簡(jiǎn)單,大部分只介紹了請(qǐng)求頁(yè)面和解析部分,對(duì)于新手而言,我希望能夠有一個(gè)比較全面的實(shí)例。所以找了很多實(shí)例和文...
摘要:對(duì)之前我的那個(gè)豆瓣的短評(píng)的爬蟲(chóng),進(jìn)行了一下架構(gòu)性的改動(dòng)。同時(shí)也添加了多線(xiàn)程的實(shí)現(xiàn)。我的代碼中多線(xiàn)程的核心代碼不多,見(jiàn)下。注意使用多線(xiàn)程時(shí),期間的延時(shí)時(shí)間應(yīng)該設(shè)置的大些,不然會(huì)被網(wǎng)站拒絕訪(fǎng)問(wèn),這時(shí)你還得去豆瓣認(rèn)證下我真的不是機(jī)器人尷尬。 對(duì)之前我的那個(gè)豆瓣的短評(píng)的爬蟲(chóng),進(jìn)行了一下架構(gòu)性的改動(dòng)。盡可能實(shí)現(xiàn)了模塊的分離。但是總是感覺(jué)不完美。暫時(shí)也沒(méi)心情折騰了。 同時(shí)也添加了多線(xiàn)程的實(shí)現(xiàn)。具體...
閱讀 2118·2021-09-30 09:47
閱讀 799·2021-09-22 15:43
閱讀 2064·2019-08-30 15:52
閱讀 2516·2019-08-30 15:52
閱讀 2674·2019-08-30 15:44
閱讀 998·2019-08-30 11:10
閱讀 3443·2019-08-29 16:21
閱讀 3377·2019-08-29 12:19