前言
最近無意間在知乎專欄看到有人使用python爬取了mm131的圖片。想著自己也有過爬蟲的開發(fā)經(jīng)驗(yàn)(抱著學(xué)習(xí)的態(tài)度),故使用java也來寫個(gè)小爬蟲,爬蟲框架用的是webmagic,傳送門:https://github.com/code4craft/webmagic
實(shí)現(xiàn)整個(gè)爬蟲項(xiàng)目如下圖,極其精簡,其中主要實(shí)現(xiàn)類是Mm131Spider
啟動(dòng)Mm131Spider后,圖片會(huì)下載到指定的文件夾,如下圖:
其中每個(gè)主類別(如:/chemo)文件夾有一個(gè)urlCheck.txt的文件,主要用于保存已經(jīng)爬取的url,下一次啟動(dòng)的時(shí)候則不會(huì)再去爬取該url,所以任何時(shí)候都可以停止/啟動(dòng)爬取,不會(huì)導(dǎo)致爬取重復(fù)的問題
該項(xiàng)目已push到github,感興趣的朋友可以自行查看源碼,傳送門:https://github.com/5-Ason/spider-mm131
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/71645.html
摘要:爬取百思不得姐首先一步一步來,我們先從爬最簡單的文本開始。將百思不得姐段子保存到中別忘了將管道加到配置文件中。雖然我只是簡單的爬了百思不得姐,不過這些方法可以應(yīng)用到其他方面,爬取更多更有用的數(shù)據(jù)。 前一篇文章介紹了很多關(guān)于scrapy的進(jìn)階知識(shí),不過說歸說,只有在實(shí)際應(yīng)用中才能真正用到這些知識(shí)。所以這篇文章就來嘗試?yán)胹crapy爬取各種網(wǎng)站的數(shù)據(jù)。 爬取百思不得姐 首先一步一步來,我...
摘要:零寫在前面是快速開發(fā)爬蟲的工具,簡單便捷,經(jīng)過大量版本迭代和生產(chǎn)驗(yàn)證,可以適用大多數(shù)網(wǎng)站,歡迎使用。服務(wù)最終處理內(nèi)容,無論成功失敗都會(huì)執(zhí)行的步驟。 零:寫在前面 uncs是java快速開發(fā)爬蟲的工具,簡單便捷,經(jīng)過大量版本迭代和生產(chǎn)驗(yàn)證,可以適用大多數(shù)網(wǎng)站,歡迎使用。 一:基本用法 開發(fā)包獲取目前只能在公司內(nèi)網(wǎng)maven服務(wù)器獲取到 com.cdc ...
摘要:決定送大家一套美圖。美腿可以分為白璧無瑕的大腿美晶瑩剔透的小腿美細(xì)微的美足健康明朗的腿形美。所謂腿健美,是指腿部的線條美。腿的長短與肥瘦是決定腿部美丑的兩大因素。 決定送大家一套美圖。但是授之以魚不如授之以漁,我們就來使用node實(shí)現(xiàn)個(gè)小爬蟲去爬取各種美女 來吧,我們先來看看今天的目標(biāo): mmjpg.com的美腿頻道下的圖片 showImg(https://segmentfault.c...
摘要:為了寫好爬蟲,我們需要準(zhǔn)備一個(gè)火狐瀏覽器,還需要準(zhǔn)備抓包工具,抓包工具,我使用的是自帶的,加上,這兩款軟件的安裝和使用,建議你還是學(xué)習(xí)一下,后面我們應(yīng)該會(huì)用到。 妹子圖網(wǎng)站----前言 從今天開始就要擼起袖子,直接寫Python爬蟲了,學(xué)習(xí)語言最好的辦法就是有目的的進(jìn)行,所以,接下來我將用10+篇的博客,寫爬圖片這一件事情。希望可以做好。 為了寫好爬蟲,我們需要準(zhǔn)備一個(gè)火狐瀏覽器,還需...
閱讀 2743·2021-11-16 11:53
閱讀 2811·2021-07-26 23:38
閱讀 2128·2019-08-30 15:55
閱讀 1836·2019-08-30 13:21
閱讀 3747·2019-08-29 17:26
閱讀 3420·2019-08-29 13:20
閱讀 939·2019-08-29 12:20
閱讀 3262·2019-08-26 10:21