亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

Beanbun: 簡(jiǎn)單開(kāi)放的 PHP 爬蟲(chóng)框架

mayaohua / 3580人閱讀

摘要:是用編寫(xiě)的多進(jìn)程網(wǎng)絡(luò)爬蟲(chóng)框架,具有良好的開(kāi)放性高可擴(kuò)展性。它要天然支持分布式,支持多進(jìn)程或線程,利用,可以方便的建立起一個(gè)功能強(qiáng)大的爬蟲(chóng)。

Beanbun

Beanbun 是用 PHP 編寫(xiě)的多進(jìn)程網(wǎng)絡(luò)爬蟲(chóng)框架,具有良好的開(kāi)放性、高可擴(kuò)展性。
項(xiàng)目地址:https://github.com/kiddyuchin...
文檔地址:http://beanbun.org

由來(lái)

我希望有這樣一個(gè)爬蟲(chóng)框架:在簡(jiǎn)單需求的情況下,可以用最少的代碼快速建立一個(gè)功能完善的爬蟲(chóng);而且如果你愿意,你可以對(duì)爬蟲(chóng)進(jìn)行你想要的任何修改。它要天然支持分布式,支持多進(jìn)程(或線程),利用 composer,可以方便的建立起一個(gè)功能強(qiáng)大的爬蟲(chóng)。
在對(duì)之前寫(xiě)過(guò)的一個(gè)爬蟲(chóng)的功能不斷的刪減調(diào)整后,就有了目前的 Beanbun,這個(gè)名字來(lái)自于作者家的貓,此貓名叫門(mén)丁,“門(mén)丁”是北方的一種面點(diǎn)。門(mén)丁 -> 豆包 -> bean bun。
我希望在這里能夠拋磚引玉,和大家一起繼續(xù)完善 Beanbun。

特點(diǎn)

支持守護(hù)進(jìn)程與普通兩種模式(守護(hù)進(jìn)程模式只支持 Linux 服務(wù)器)

默認(rèn)使用 Guzzle 進(jìn)行爬取

支持分布式

支持內(nèi)存、Redis 等多種隊(duì)列方式

支持自定義URI過(guò)濾

支持廣度優(yōu)先和深度優(yōu)先兩種爬取方式

遵循 PSR-4 標(biāo)準(zhǔn)

爬取網(wǎng)頁(yè)分為多步,每步均支持自定義動(dòng)作(如添加代理、修改 user-agent 等)

靈活的擴(kuò)展機(jī)制,可方便的為框架制作插件:自定義隊(duì)列、自定義爬取方式...

安裝

Beanbun 可以通過(guò) composer 進(jìn)行安裝。

$ composer require kiddyu/beanbun
一個(gè)簡(jiǎn)單的例子

創(chuàng)建一個(gè)文件 start.php,包含以下內(nèi)容

seed = [
    "http://www.950d.com/",
    "http://www.950d.com/list-1.html",
    "http://www.950d.com/list-2.html",
];
$beanbun->afterDownloadPage = function($beanbun) {
    file_put_contents(__DIR__ . "/" . md5($beanbun->url), $beanbun->page);
};
$beanbun->start();

在命令行中執(zhí)行

$ php start.php

接下來(lái)就可以看到抓取的日志了。

2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/ success.
2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-1.html success.
2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-2.html success.
最后

后邊我會(huì)針對(duì)一些不同類(lèi)型的網(wǎng)站,寫(xiě)一些用 Beanbun 實(shí)現(xiàn)爬蟲(chóng)的小例子,歡迎大家持續(xù)關(guān)注。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/22806.html

相關(guān)文章

  • [PHP] 又是知乎,用 Beanbun 爬取知乎用戶(hù)

    摘要:最近看了很多關(guān)于爬蟲(chóng)入門(mén)的文章,發(fā)現(xiàn)其中大部分都是以知乎為爬取對(duì)象,所以這次我也以知乎為目標(biāo)來(lái)進(jìn)行爬取的演示,用到的爬蟲(chóng)框架為編寫(xiě)的。項(xiàng)目地址這次寫(xiě)的內(nèi)容為爬取知乎的用戶(hù),下面就是詳細(xì)說(shuō)一下寫(xiě)爬蟲(chóng)的過(guò)程了。 最近看了很多關(guān)于爬蟲(chóng)入門(mén)的文章,發(fā)現(xiàn)其中大部分都是以知乎為爬取對(duì)象,所以這次我也以知乎為目標(biāo)來(lái)進(jìn)行爬取的演示,用到的爬蟲(chóng)框架為 PHP 編寫(xiě)的 Beanbun。 項(xiàng)目地址:http...

    tomato 評(píng)論0 收藏0
  • PHP相關(guān)

    摘要:的機(jī)器學(xué)習(xí)庫(kù)的機(jī)器學(xué)習(xí)庫(kù),包括算法交叉驗(yàn)證神經(jīng)網(wǎng)絡(luò)等內(nèi)容。在即將到來(lái)的大會(huì)上,她將和大家分享在機(jī)器學(xué)習(xí)領(lǐng)域的全新可能。入門(mén)總結(jié)入門(mén)相關(guān),如安裝配置基本使用等。 基于 Swoole 開(kāi)發(fā) PHP 擴(kuò)展 Swoole-1.9.7 增加了一個(gè)新特性,可以基于 Swoole 使用 C++ 語(yǔ)言開(kāi)發(fā)擴(kuò)展模塊,在擴(kuò)展模塊中可以注冊(cè) PHP 內(nèi)置函數(shù)和類(lèi)?,F(xiàn)在可以基于 Swoole 來(lái)編寫(xiě) PHP ...

    lewinlee 評(píng)論0 收藏0
  • Pyhton爬蟲(chóng)實(shí)戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗

    摘要:然后準(zhǔn)備再去抓下拉勾網(wǎng)的招聘數(shù)據(jù),這也是個(gè)相對(duì)優(yōu)秀的專(zhuān)業(yè)招聘網(wǎng)站了,數(shù)據(jù)也相當(dāng)多,想當(dāng)初找實(shí)習(xí)找正式工作,都是在這兩個(gè)上找的,其他的網(wǎng)站幾乎都沒(méi)看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲(chóng)實(shí)戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗 零、致謝 感謝BOSS直聘相對(duì)權(quán)威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲(chóng)持續(xù)...

    zhkai 評(píng)論0 收藏0
  • Pyhton爬蟲(chóng)實(shí)戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗

    摘要:然后準(zhǔn)備再去抓下拉勾網(wǎng)的招聘數(shù)據(jù),這也是個(gè)相對(duì)優(yōu)秀的專(zhuān)業(yè)招聘網(wǎng)站了,數(shù)據(jù)也相當(dāng)多,想當(dāng)初找實(shí)習(xí)找正式工作,都是在這兩個(gè)上找的,其他的網(wǎng)站幾乎都沒(méi)看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲(chóng)實(shí)戰(zhàn) - 抓取BOSS直聘職位描述 和 數(shù)據(jù)清洗 零、致謝 感謝BOSS直聘相對(duì)權(quán)威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲(chóng)持續(xù)...

    Ocean 評(píng)論0 收藏0
  • 我在全球最大同性社交平臺(tái)那點(diǎn)事

    摘要:從最大的同性社交平臺(tái)獲取數(shù)據(jù)好了,言歸正傳,回到題目。烏云密布的爬蟲(chóng)百度網(wǎng)盤(pán)這件事,是我不想看到的,這類(lèi)安全問(wèn)題的一個(gè)共同特點(diǎn)用戶(hù)自身確實(shí)存在問(wèn)題。 本文作者:夏之冰雪,i春秋簽約作家 《我在百度網(wǎng)盤(pán)上看到上萬(wàn)條車(chē)主個(gè)人信息,企業(yè)、政府高官信息、各種數(shù)據(jù)庫(kù)和無(wú)窮無(wú)盡的盜版》,一時(shí)間,這篇文章就火了,火爆程度另百度猝不及防。 其實(shí)呢,這事真不能全怪百度,畢竟用戶(hù)分享出去了。之所以引起這么...

    AlphaWatch 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<