摘要:主要特性前一陣重新組織了一下代碼加了命令行信息用起來(lái)更方便了一些初步實(shí)現(xiàn)了豆瓣小組及用戶(hù)相關(guān)的爬蟲(chóng)和請(qǐng)求基于和沒(méi)有用高階的諸如之類(lèi)的爬蟲(chóng)工具所有的命令行輸出都是標(biāo)準(zhǔn)的格式可以使用操作安裝僅支持使用兩種命令模式客戶(hù)端接口調(diào)用和豆瓣模塊接口
主要特性
前一陣重新組織了一下代碼, 加了命令行help信息, 用起來(lái)更方便了一些
初步實(shí)現(xiàn)了豆瓣小組及用戶(hù)相關(guān)的API爬蟲(chóng)和請(qǐng)求
基于requests和lxml, 沒(méi)有用高階的諸如scrapy之類(lèi)的爬蟲(chóng)工具
所有的命令行輸出都是標(biāo)準(zhǔn)的json格式, 可以使用jq操作
安裝僅支持python3
pip3 install --upgrade dbapi使用
兩種命令模式: 客戶(hù)端接口調(diào)用和豆瓣模塊接口調(diào)用
# 調(diào)用客戶(hù)端自身API, 比如 dbapi usedbapi [options...] # 調(diào)用豆瓣模塊API, 比如 dbapi group list_user_topics dbapi [options...]
查看幫助信息: 可以列出所有的命令及參數(shù)
dbapi --help
用戶(hù)登錄: 有兩種形式, 一種是直接用用戶(hù)名和密碼登錄, 另一種是直接使用cookie, 因?yàn)闆](méi)有做驗(yàn)證碼破解, 所以在頻繁登錄遇到驗(yàn)證碼之后可以通過(guò)Chrome控制臺(tái)拿到cookie之后直接丟給客戶(hù)端登錄
# 用戶(hù)名和密碼登錄, 注意密碼是在命令行里的, 有可能會(huì)在你的歷史記錄里面留下密碼 # 雖然這是用戶(hù)模塊的命令, 但是因?yàn)槭侨忠蕾?lài), 所以就放到客戶(hù)端里面了 dbapi login# 使用cookie登錄, 注意cookie里面關(guān)鍵的session id被設(shè)置了http only, 需要到network tab下面獲取 dbapi use
刷新會(huì)話(huà)信息: 檢查本地保存的會(huì)話(huà)信息是否已經(jīng)過(guò)期, 會(huì)話(huà)信息會(huì)默認(rèn)保存到$HOME/.__cache__dbapi.json中
dbapi flush
命令列表: 目前有用戶(hù)(people)模塊和小組(group)模塊的命令, 具體如下:
# -------- 小組部分 --------# # 創(chuàng)建評(píng)論 dbapi group add_comment源代碼# 創(chuàng)建小組 dbapi group add_group # 創(chuàng)建討論 dbapi group add_topic # 獲取討論信息 dbapi group get_topic # 申請(qǐng)加入小組 dbapi group join_group # 退出小組 dbapi group leave_group # 話(huà)題點(diǎn)贊 dbapi group like_topic # 獲取評(píng)論過(guò)的話(huà)題列表 dbapi group list_commented_topics # 獲取評(píng)論列表 dbapi group list_comments # 獲取加入的小組列表 dbapi group list_joined_groups # 已加入的所有小組的話(huà)題列表 dbapi group list_joined_topics # 獲取點(diǎn)贊的話(huà)題列表 dbapi group list_liked_topics # 獲取推薦的話(huà)題列表 dbapi group list_reced_topics # 獲取小組話(huà)題列表 dbapi group list_topics <_type> # 列出用戶(hù)在話(huà)題下的所有回復(fù) dbapi group list_user_comments # 發(fā)表的話(huà)題 dbapi group list_user_topics # 推薦話(huà)題 dbapi group rec_topic # 刪除評(píng)論 dbapi group remove_comment # 刪除話(huà)題下所有自己的評(píng)論 dbapi group remove_commented_topic # 刪除小組 dbapi group remove_group # 刪除話(huà)題 dbapi group remove_topic # 搜索小組 dbapi group search_groups # 搜索話(huà)題 dbapi group search_topics # 喜歡話(huà)題 dbapi group undo_like_topic # 取消推薦話(huà)題 dbapi group undo_rec_topic # 更新話(huà)題 dbapi group update_topic # -------- 用戶(hù)部分 --------# # 添加相冊(cè) dbapi people add_album # 添加相冊(cè)評(píng)論 dbapi people add_album_comment # 添加照片 dbapi people add_photo # 添加照片評(píng)論 dbapi people add_photo_comment # 添加說(shuō)說(shuō) dbapi people add_status # 獲取相冊(cè) dbapi people get_album # 獲取用戶(hù)信息 dbapi people get_people # 獲取照片 dbapi people get_photo # 喜歡照片 dbapi people like_photo # 喜歡說(shuō)說(shuō) dbapi people like_status # 獲取相冊(cè)列表 dbapi people list_albums # 獲取關(guān)注用戶(hù)列表 dbapi people list_contacts # 獲取照片評(píng)論列表 dbapi people list_photo_comments # 獲取照片喜歡列表 dbapi people list_photo_likes # 獲取照片推薦列表 dbapi people list_photo_recs # 獲取照片列表 dbapi people list_photos # 獲取粉絲列表 dbapi people list_rev_contacts # 獲取說(shuō)說(shuō)評(píng)論列表 dbapi people list_status_comments # 獲取說(shuō)說(shuō)列表 dbapi people list_statuses # 推薦照片 dbapi people rec_photo # 刪除相冊(cè) dbapi people remove_album # 刪除相冊(cè)評(píng)論 dbapi people remove_album_comment # 刪除照片 dbapi people remove_photo # 刪除照片評(píng)論 dbapi people remove_photo_comment # 刪除說(shuō)說(shuō) dbapi people remove_status # 取消喜歡照片 dbapi people undo_like_photo # 取消喜歡說(shuō)說(shuō) dbapi people undo_like_status # 取消推薦照片 dbapi people undo_rec_photo # 更新相冊(cè) dbapi people update_album
GitHub: https://github.com/acrazing/d...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/42176.html
摘要:,引言注釋上一篇爬蟲(chóng)實(shí)戰(zhàn)安居客房產(chǎn)經(jīng)紀(jì)人信息采集,訪(fǎng)問(wèn)的網(wǎng)頁(yè)是靜態(tài)網(wǎng)頁(yè),有朋友模仿那個(gè)實(shí)戰(zhàn)來(lái)采集動(dòng)態(tài)加載豆瓣小組的網(wǎng)頁(yè),結(jié)果不成功。 showImg(https://segmentfault.com/img/bVzdNZ); 1, 引言 注釋?zhuān)荷弦黄禤ython爬蟲(chóng)實(shí)戰(zhàn)(3):安居客房產(chǎn)經(jīng)紀(jì)人信息采集》,訪(fǎng)問(wèn)的網(wǎng)頁(yè)是靜態(tài)網(wǎng)頁(yè),有朋友模仿那個(gè)實(shí)戰(zhàn)來(lái)采集動(dòng)態(tài)加載豆瓣小組的網(wǎng)頁(yè),結(jié)果不成功...
摘要:今天為大家整理了個(gè)爬蟲(chóng)項(xiàng)目。地址新浪微博爬蟲(chóng)主要爬取新浪微博用戶(hù)的個(gè)人信息微博信息粉絲和關(guān)注。代碼獲取新浪微博進(jìn)行登錄,可通過(guò)多賬號(hào)登錄來(lái)防止新浪的反扒。涵蓋鏈家爬蟲(chóng)一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
摘要:這里推薦一本書(shū)源碼剖析源碼剖析豆瓣這本書(shū)把源碼中最核心的部分,給出了詳細(xì)的闡釋?zhuān)贿^(guò)閱讀此書(shū)需要對(duì)語(yǔ)言?xún)?nèi)存模型和指針有著很好的理解。 是否非常想學(xué)好 Python,一方面被瑣事糾纏,一直沒(méi)能動(dòng)手,另一方面,擔(dān)心學(xué)習(xí)成本太高,心里默默敲著退堂鼓? 幸運(yùn)的是,Python 是一門(mén)初學(xué)者友好的編程語(yǔ)言,想要完全掌握它,你不必花上太多的時(shí)間和精力。 Python 的設(shè)計(jì)哲學(xué)之一就是...
摘要:數(shù)目限制應(yīng)該省略的條數(shù)數(shù)目限制排序方式函數(shù)的參數(shù)個(gè)數(shù),必須是個(gè),或者個(gè)。 基本思路 1.通過(guò)node中的 superagent 模擬http請(qǐng)求,去讀取豆瓣小組的信息,對(duì)讀取到的信息通過(guò)cheerio插件進(jìn)行解析格式化以便于獲取body中的信息存儲(chǔ)到mongodb中 2.因?yàn)槎拱陼?huì)ban掉一寫(xiě)爬蟲(chóng)ip,所以爬取過(guò)程中會(huì)使用ip池挑選沒(méi)有使用過(guò)的ip進(jìn)行代理去爬取,并且會(huì)避免并發(fā) 使用m...
摘要:然而,和是有區(qū)別的,即時(shí)網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目?jī)?nèi)容提取器的定義一文的源碼無(wú)法在下使用,本文將發(fā)布一個(gè)的內(nèi)容提取器。 1. 項(xiàng)目背景 showImg(https://segmentfault.com/img/bVz5hX); 在Python即時(shí)網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目啟動(dòng)說(shuō)明中我們討論一個(gè)數(shù)字:程序員浪費(fèi)在調(diào)測(cè)內(nèi)容提取規(guī)則上的時(shí)間太多了(見(jiàn)上圖),從而我們發(fā)起了這個(gè)項(xiàng)目,把程序員從繁瑣的調(diào)測(cè)規(guī)則中解放出來(lái),投...
閱讀 1934·2023-04-25 14:28
閱讀 1958·2021-11-19 09:40
閱讀 2871·2021-11-17 09:33
閱讀 1455·2021-11-02 14:48
閱讀 1777·2019-08-29 16:36
閱讀 3408·2019-08-29 16:09
閱讀 2987·2019-08-29 14:17
閱讀 2460·2019-08-29 14:07