亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

nodejs 實(shí)現(xiàn) 磁力鏈接資源搜索 BT磁力鏈接爬蟲(chóng)

fish / 4195人閱讀

摘要:項(xiàng)目簡(jiǎn)介前端站點(diǎn)項(xiàng)目效果預(yù)覽使用實(shí)現(xiàn)磁力鏈接爬蟲(chóng)磁力鏈接解析成種子信息,保存到數(shù)據(jù)庫(kù),利用實(shí)現(xiàn)中文檢索。搭建磁力鏈接搜索引擎源碼地址后端腳本磁力鏈接獲取磁力鏈接解析入庫(kù)定時(shí)同步源碼地址此項(xiàng)目?jī)H用學(xué)習(xí)交流技術(shù)使用不做商業(yè)用途。

項(xiàng)目簡(jiǎn)介

前端站點(diǎn) 項(xiàng)目效果預(yù)覽 http://findcl.com

使用 nodejs 實(shí)現(xiàn)磁力鏈接爬蟲(chóng) 磁力鏈接解析成 torrent種子信息,保存到數(shù)據(jù)庫(kù),利用 Elasticsearch 實(shí)現(xiàn)中文檢索。koa2 搭建磁力鏈接搜索引擎

源碼地址 https://github.com/ssstk/findcl

后端腳本 磁力鏈接獲取 磁力鏈接解析 入庫(kù) Mongodb 定時(shí)同步 Elasticsearch

源碼地址 https://github.com/ssstk/mang...

此項(xiàng)目?jī)H用學(xué)習(xí)交流技術(shù)使用 不做商業(yè)用途。

上線(xiàn)

2018-06-01 網(wǎng)站正式上線(xiàn)。暫時(shí)想不到什么名字 各位大大可以推薦下哦。域名是 http://findcl.com ,

兩臺(tái) VPS (都是某些云做活動(dòng)買(mǎi)的 配置低)

第一臺(tái)部署了 FindCl 站點(diǎn)本身( koa2、nginx )和單個(gè)節(jié)點(diǎn)的 Elasticsearch

第二臺(tái)部署了磁力鏈接爬蟲(chóng) hashinfo 解析 入庫(kù) Mongodb

Mongodb 數(shù)據(jù)庫(kù)在套路云(目前有 300W 數(shù)據(jù)庫(kù),每日新收錄 3W+的數(shù)據(jù))

項(xiàng)目依賴(lài)

Mongodb

mongoose

Elasticsearch

nginx

koa2

vue

DHT BT 資源爬蟲(chóng) 磁力鏈接解析 manget2torrent

crontab 定時(shí)執(zhí)行 Mongodb 與 Elasticsearch 的數(shù)據(jù)同步

...

存在的問(wèn)題 manget2torrent

依賴(lài)的 dhtspider 爬蟲(chóng) 長(zhǎng)時(shí)間使用一個(gè)端口的時(shí),由于 P2P 網(wǎng)絡(luò)的特性,越來(lái)越多的節(jié)點(diǎn)來(lái)訪(fǎng)問(wèn) 會(huì)導(dǎo)致帶寬跑滿(mǎn)(其主要是活動(dòng)買(mǎi)的云主機(jī) 1M 的),如果活力全開(kāi)不做閑置 大概穩(wěn)定在 10M 左右。解決方案就是 每次采集 5000 條不重復(fù)的磁力 hashindo 就暫停爬蟲(chóng),取解析獲取信息。等小于 1000 條時(shí)候,再隨機(jī)端口開(kāi)啟服務(wù)。

解析磁力鏈接緩慢且成功率很低, 失敗的大概在 3 成左右且需要好幾秒

其他

有其他問(wèn)題請(qǐng)新建issue交流。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/19302.html

相關(guān)文章

  • Spring Cloud + Netty 打造分布式可集群部署的 DHT 磁力爬蟲(chóng)(開(kāi)源)

    摘要:閑話(huà)不多說(shuō)了,接下來(lái)談?wù)劸W(wǎng)絡(luò)爬蟲(chóng)吧。根據(jù)中的到指定端口使用擴(kuò)展協(xié)議進(jìn)行數(shù)據(jù)的交換即下載下載成功,解析出種子文件列表信息入庫(kù)。具體實(shí)現(xiàn)請(qǐng)參考我的開(kāi)源項(xiàng)目代碼如有問(wèn)題,歡迎指正,僅供技術(shù)交流,切勿用作非法商業(yè)用途。 演示地址: https://dodder.cc 三年前,照著 Python 版的 DHT 網(wǎng)絡(luò)爬蟲(chóng)用 Java 重寫(xiě)了一遍,當(dāng)時(shí)大學(xué)還未畢業(yè),寫(xiě)出來(lái)的代碼比較雜亂,數(shù)據(jù)跑到 1...

    banana_pi 評(píng)論0 收藏0
  • python爬蟲(chóng):dht磁力源代碼開(kāi)源

    摘要:本人建立個(gè)群作為去轉(zhuǎn)盤(pán)網(wǎng)的官方群,人數(shù)現(xiàn)在也不多,如果有興趣的話(huà)來(lái)逛逛吧,多個(gè)粉絲去轉(zhuǎn)盤(pán)多一份熱鬧,群號(hào) 之前我在寫(xiě)百度網(wǎng)盤(pán)爬蟲(chóng),百度圖片爬蟲(chóng)的時(shí)候答應(yīng)網(wǎng)友說(shuō),抽時(shí)間要把ok搜搜的的源碼公開(kāi),如今是時(shí)候兌現(xiàn)諾言了,下面就是爬蟲(chóng)的所有代碼,完全,徹底的公開(kāi),你會(huì)不會(huì)寫(xiě)程序都可以使用,不過(guò)請(qǐng)先裝個(gè)linux系統(tǒng),具備公網(wǎng)條件,然后運(yùn)行: python startCrawler.py 有必要...

    hizengzeng 評(píng)論0 收藏0
  • 新手的node爬蟲(chóng)初體驗(yàn)

    摘要:后來(lái)在爬取不到讓我一度懷疑人生的時(shí)候巧合下,發(fā)現(xiàn)磁力鏈接有小寫(xiě)字母,有長(zhǎng)度的,有長(zhǎng)度的。。 原文博客: 羞羞的node爬蟲(chóng) 前言 學(xué)了一陣子node,除了用 express 寫(xiě)東西,就沒(méi)怎么做過(guò)東西突然就想寫(xiě)個(gè) 爬蟲(chóng) 來(lái)玩一玩,而且還是爬一些羞羞的東西 使用模塊 SuperAgent 是個(gè) http 方面的庫(kù),可以發(fā)起 get 或 post 請(qǐng)求。 cheerio 大家可以理解成一個(gè) ...

    wemallshop 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<