使用php+phantomjs構(gòu)建一只簡單爬蟲的開發(fā)思路

liangdas 發(fā)布于2019-06-28 13:42 / 1711人閱讀

摘要：嘮叨最近頻繁的給客戶做采集功能既然代碼無法公布所以一直想寫個(gè)思路類的文章既然是簡單的爬蟲那么一切自然以簡單為原則能少用的都少用比如和這兩個(gè)神兵利器就被我省略了打造這只蟲子就像是樵夫砍柴一般該磨刀還是要磨刀遠(yuǎn)觀拜拜山頭對象站點(diǎn)國內(nèi)知名電商平臺

嘮叨:

最近頻繁的給客戶做采集功能,既然代碼無法公布,所以一直想寫個(gè)思路類的文章.
既然是簡單的爬蟲,那么一切自然以簡單為原則,能少用的都少用,比如python和Redis這兩個(gè)神兵利器就被我省略了.
打造這只蟲子就像是樵夫砍柴一般,該磨刀還是要磨刀.

遠(yuǎn)觀:

拜拜山頭

對象站點(diǎn):國內(nèi)知名電商平臺如蘑菇街,唯品會等.
實(shí)現(xiàn)需求:站群模式可將對方店鋪或商品采集根據(jù)指定接口分發(fā)數(shù)據(jù),并過濾指定關(guān)鍵字及自定義商品售價(jià)

磨刀:

利刃在手

1.安裝=無頭瀏覽器phantomjs,類似的無頭瀏覽器或者在他們基礎(chǔ)上衍生的東西有很多,但phantomjs基本上可以滿足需求,用法也簡單,所以本次就選用它了.
2.安裝=多線程擴(kuò)展pthreads,由于python和Redis對于一些phper而言增加了學(xué)習(xí)成本(話說現(xiàn)在會php的不懂他兩的應(yīng)該很少了吧),由于phantomjs從加載到渲染是比較慢的,為了提高效率,我們需要用到多線程.

上山:

山里事兒多

1.隨機(jī)代理:因?yàn)椴杉侨詣踊?需要不斷的訪問被爬的站點(diǎn),為了防止被屏蔽,從代理站抓一些IP來掩飾是不錯(cuò)的方法.
2.URL自動增補(bǔ):有些網(wǎng)站頁面的的url用的相對路徑,所以補(bǔ)全是必備的.
3.深度控制:例如采集商品的時(shí)候很容易因?yàn)殛P(guān)聯(lián)商品而陷入無止境的挖掘
4.任務(wù)分布:雖然沒有用到Redis,本次的采集需要將任務(wù)下發(fā)給其余站點(diǎn)
5.內(nèi)容過濾:現(xiàn)在比較頭疼的是一些商城或店鋪有水印,這個(gè)暫時(shí)無解.

砍柴:

由于本次采集在創(chuàng)建任務(wù)時(shí)已經(jīng)預(yù)設(shè)了采集對象,例如按店采集,按商品采集.所以開頭的第一步就省略了.

云服務(wù)器 GPU云服務(wù)器簡單php爬蟲程序簡單的爬蟲簡單的爬蟲程序最簡單的爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/25818.html

相關(guān)文章

精通Python網(wǎng)絡(luò)爬蟲(0):網(wǎng)絡(luò)爬蟲學(xué)習(xí)路線

摘要：以上是如果你想精通網(wǎng)絡(luò)爬蟲的學(xué)習(xí)研究路線，按照這些步驟學(xué)習(xí)下去，可以讓你的爬蟲技術(shù)得到非常大的提升。作者：韋瑋轉(zhuǎn)載請注明出處隨著大數(shù)據(jù)時(shí)代的到來，人們對數(shù)據(jù)資源的需求越來越多，而爬蟲是一種很好的自動采集數(shù)據(jù)的手段。那么，如何才能精通Python網(wǎng)絡(luò)爬蟲呢？學(xué)習(xí)Python網(wǎng)絡(luò)爬蟲的路線應(yīng)該如何進(jìn)行呢？在此為大家具體進(jìn)行介紹。 1、選擇一款合適的編程語言事實(shí)上，Python、P...

spacewander 2019-07-30 14:17 評論0 收藏0
超詳細(xì)的Python實(shí)現(xiàn)新浪微博模擬登陸(小白都能懂)

摘要：可能有的老手覺得我寫得很啰嗦，但其實(shí)很多新手可能都不知道這些細(xì)節(jié)，所以我把我在分析新浪微博模擬登陸的過程全寫了出來。這篇文章于去年4月發(fā)布在我的簡書，現(xiàn)在把它放到這里，主要是為了宣傳自己的分布式微博爬蟲。下面是主要內(nèi)容，希望能幫到有這個(gè)需求的朋友最近由于需要一直在研究微博的爬蟲，第一步便是模擬登陸，從開始摸索到走通模擬登陸這條路其實(shí)還是挺艱難的，需要一定的經(jīng)驗(yàn)，為了讓朋友們以后少...

Aldous 2019-07-31 10:56 評論0 收藏0
【Sasila】一個(gè)簡單易用的爬蟲框架

摘要：所以我模仿這些爬蟲框架的優(yōu)勢，以盡量簡單的原則，搭配實(shí)際上是開發(fā)了這套輕量級爬蟲框架。將下載器，解析器，調(diào)度器，數(shù)據(jù)處理器注入核心成為對象。提供對爬蟲進(jìn)行管理監(jiān)控。每個(gè)腳本被認(rèn)為是一個(gè)，確定一個(gè)任務(wù)。 ??現(xiàn)在有很多爬蟲框架，比如scrapy、webmagic、pyspider都可以在爬蟲工作中使用，也可以直接通過requests+beautifulsoup來寫一些個(gè)性化的小型爬蟲腳本...

yacheng 2019-07-30 14:18 評論0 收藏0
Python網(wǎng)頁信息采集：使用PhantomJS采集淘寶天貓商品內(nèi)容

摘要：，引言最近一直在看爬蟲框架，并嘗試使用框架寫一個(gè)可以實(shí)現(xiàn)網(wǎng)頁信息采集的簡單的小程序。本文主要介紹如何使用結(jié)合采集天貓商品內(nèi)容，文中自定義了一個(gè)，用來采集需要加載的動態(tài)網(wǎng)頁內(nèi)容。 showImg(https://segmentfault.com/img/bVyMnP); 1，引言最近一直在看Scrapy 爬蟲框架，并嘗試使用Scrapy框架寫一個(gè)可以實(shí)現(xiàn)網(wǎng)頁信息采集的簡單的小程序。嘗試...

z2xy 2019-07-25 10:35 評論0 收藏0
本命年一定要記得穿紅褲衩：2015年總結(jié)

摘要：年終總結(jié)結(jié)果到這個(gè)時(shí)間才寫，其實(shí)也是無奈。這一年最重要的事情就是順利從一只學(xué)生狗轉(zhuǎn)職為一只社畜。四月份畢業(yè)之后以前端工程師的職位入職天貓，到現(xiàn)在也差不多工作一年了。年終總結(jié)結(jié)果到這個(gè)時(shí)間才寫，其實(shí)也是無奈。本來計(jì)劃過年寫的，沒想到Steam竟然開了個(gè)農(nóng)歷春節(jié)特惠，然后就被各種游戲打了，辣雞平臺，斂我錢財(cái)，頹我精神，耗我青春，害我單身以下全都是個(gè)人看法，如果有不認(rèn)同的地方，請大吼一聲...

AlienZHOU 2019-08-19 17:38 評論0 收藏0