亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

XXL-CRAWLER v1.2.1 發(fā)布了

keithyau / 898人閱讀

摘要:版本新特性渲染支持渲染方式采集數(shù)據(jù),可參考爬蟲示例抽象并設(shè)計(jì),方便自定義和擴(kuò)展頁面加載邏輯,如渲染等。默認(rèn)提供單機(jī)版爬蟲。渲染通過擴(kuò)展模塊,支持采集動態(tài)渲染數(shù)據(jù)。原生提供快速推薦和較慢渲染兩種實(shí)現(xiàn),支持自由擴(kuò)展其他實(shí)現(xiàn)。

版本新特性

1、JS渲染:支持JS渲染方式采集數(shù)據(jù),可參考 "爬蟲示例6";

2、抽象并設(shè)計(jì)PageLoader,方便自定義和擴(kuò)展頁面加載邏輯,如JS渲染等。底層提供 "JsoupPageLoader(默認(rèn)/推薦)","HtmlUnitPageLoader"兩種實(shí)現(xiàn),可自定義其他類型PageLoader如 "Selenium" 等;

3、修復(fù)Jsoup默認(rèn)加載1M的限制;

4、爬蟲線程中斷處理優(yōu)化;

簡介

XXL-CRAWLER 是一個(gè)面向?qū)ο蟮姆植际脚老x框架。一行代碼開發(fā)一個(gè)分布式爬蟲,擁有"多線程、異步、IP動態(tài)代理、分布式、JS渲染"等特性;

特性

1、簡潔:API直觀簡潔,可快速上手;

2、輕量級:底層實(shí)現(xiàn)僅強(qiáng)依賴jsoup,簡潔高效;

3、模塊化:模塊化的結(jié)構(gòu)設(shè)計(jì),可輕松擴(kuò)展

4、面向?qū)ο螅褐С滞ㄟ^注解,方便的映射頁面數(shù)據(jù)到PageVO對象,底層自動完成PageVO對象的數(shù)據(jù)抽取和封裝返回;單個(gè)頁面支持抽取一個(gè)或多個(gè)PageVO

5、多線程:線程池方式運(yùn)行,提高采集效率;

6、分布式支持:通過擴(kuò)展 "RunData" 模塊,并結(jié)合Redis或DB共享運(yùn)行數(shù)據(jù)可實(shí)現(xiàn)分布式。默認(rèn)提供LocalRunData單機(jī)版爬蟲。

7、JS渲染:通過擴(kuò)展 "PageLoader" 模塊,支持采集JS動態(tài)渲染數(shù)據(jù)。原生提供Jsoup(快速、推薦)和HtmlUnit(較慢、JS渲染)兩種實(shí)現(xiàn),支持自由擴(kuò)展其他實(shí)現(xiàn)。

8、失敗重試:請求失敗后重試,并支持設(shè)置重試次數(shù);

9、代理IP:對抗反采集策略規(guī)則WAF;

10、動態(tài)代理:支持運(yùn)行時(shí)動態(tài)調(diào)整代理池,以及自定義代理池路由策略;

11、異步:支持同步、異步兩種方式運(yùn)行;

12、擴(kuò)散全站:支持以現(xiàn)有URL為起點(diǎn)擴(kuò)散爬取整站;

13、去重:防止重復(fù)爬??;

14、URL白名單:支持設(shè)置頁面白名單正則,過濾URL;

15、自定義請求信息,如:請求參數(shù)、Cookie、Header、UserAgent輪詢、Referrer等;

16、動態(tài)參數(shù):支持運(yùn)行時(shí)動態(tài)調(diào)整請求參數(shù);

17、超時(shí)控制:支持設(shè)置爬蟲請求的超時(shí)時(shí)間;

18、主動停頓:爬蟲線程處理完頁面之后進(jìn)行主動停頓,避免過于頻繁被攔截;

文檔地址

中文文檔

技術(shù)交流

社區(qū)交流

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/70931.html

相關(guān)文章

  • 面向?qū)ο蟮姆植际脚老x框架XXL-CRAWLER

    摘要:面向?qū)ο蟮姆植际脚老x框架一簡介概述是一個(gè)面向?qū)ο蟮姆植际脚老x框架。分布式集群集群方式維護(hù)爬蟲爬蟲運(yùn)行數(shù)據(jù),可通過或定制實(shí)現(xiàn)。 《面向?qū)ο蟮姆植际脚老x框架XXL-CRAWLER》 showImg(https://segmentfault.com/img/remote/1460000011842697);showImg(https://segmentfault.com/img/remote...

    anquan 評論0 收藏0
  • XXL-CRAWLER v1.2.2 發(fā)布,分布式爬蟲框架

    摘要:新特性系統(tǒng)底層重構(gòu),規(guī)范包名采集線程白名單過濾優(yōu)化,避免冗余失敗重試增強(qiáng)渲染方式采集能力,原生新提供,支持以方式采集頁面數(shù)據(jù)支持采集非頁面,如接口等,直接輸出響應(yīng)數(shù)據(jù)選擇即可簡介是一個(gè)分布式爬蟲框架。默認(rèn)提供單機(jī)版爬蟲。 v1.2.2 新特性 1、系統(tǒng)底層重構(gòu),規(guī)范包名; 2、采集線程白名單過濾優(yōu)化,避免冗余失敗重試; 3、增強(qiáng)JS渲染方式采集能力,原生新提供 SeleniumPha...

    zhaofeihao 評論0 收藏0
  • 無人值守時(shí)代,運(yùn)維如何保障發(fā)布質(zhì)量?

    摘要:導(dǎo)讀阿里巴巴千億交易背后,如何盡量避免發(fā)布故障在面對實(shí)際運(yùn)維過程中遇到的問題該如何解決近日,在大會上,阿里巴巴運(yùn)維技術(shù)專家少荃,給我們帶來了解決方案和思路。在阿里,這些屏幕包括監(jiān)控發(fā)布單機(jī)器故障預(yù)警等。 導(dǎo)讀:阿里巴巴千億交易背后,如何盡量避免發(fā)布故障?在面對實(shí)際運(yùn)維過程中遇到的問題該如何解決?近日,在GOPS大會上,阿里巴巴運(yùn)維技術(shù)專家少荃,給我們帶來了解決方案和思路。 showIm...

    Yu_Huang 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<