摘要:具體代碼可參看這里列表頁(yè)是指端的入口,如電影抓取后數(shù)據(jù)如下大毛狗何明翰張璇歷史萬(wàn)次播放
具體代碼可參看Knowsmore
這里列表頁(yè)是指PC端的入口,如電影
抓取后數(shù)據(jù)如下:
{ "link" : "http://v.youku.com/v_show/id_XMzMyMzE2MTMxNg==.html", "thumb_img" : "http://r1.ykimg.com/051600005AD944F0859B5E040E03BD62", "title" : "大毛狗", "tag" : [ "VIP" ], "actors" : [ "何明翰", "張璇" ], "play_times" : " 歷史 2,236萬(wàn)次播放 " }
# -*- coding: utf-8 -*- import scrapy import re import json from scrapy import Selector, Request from knowsmore.items import YoukuListItem from ..common import * from ..model.mongodb import * class YoukuListSpider(scrapy.Spider): name = "youku_list" custom_settings = { "DOWNLOADER_MIDDLEWARES" : { } } start_urls = [ "https://list.youku.com/category/show/c_96_s_1_d_4_p_29.html" ] def parse(self, response): GRID_SELECTOR = ".panel .mr1" for grid in response.css(GRID_SELECTOR): THUMB_IMG_SELECTOR = ".p-thumb img::attr(_src)" LINK_SELECTOR = ".info-list .title a::attr(href)" TITLE_SELECTOR = ".info-list .title a::text" ACTORS_SELECTOR = ".info-list .actor a::text" TAG_SELECTOR = ".p-thumb .p-thumb-tagrt span::text" PLAY_TIMES_SELECTOR = ".info-list li:nth-child(3)::text" item_thumb_img = grid.css( THUMB_IMG_SELECTOR).extract_first() item_link = grid.css( LINK_SELECTOR).extract_first() item_title = grid.css( TITLE_SELECTOR).extract_first() item_actors = grid.css( ACTORS_SELECTOR).extract() item_tag = grid.css( TAG_SELECTOR).extract() item_play_times = grid.css( PLAY_TIMES_SELECTOR).extract_first() # Build Scrapy Item youku_item = YoukuListItem( thumb_img = item_thumb_img, link = item_link, title = item_title, actors = item_actors, play_times = item_play_times, tag = item_tag ) # Send to Pipelines yield youku_item NEXT_PAGE_SELECTOR = ".yk-pages .next a::attr(href)" next_page = response.css(NEXT_PAGE_SELECTOR).extract_first() if next_page is not None: print next_page yield response.follow(next_page)
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/42980.html
摘要:在線體驗(yàn)地址源碼項(xiàng)目預(yù)覽主頁(yè)面登錄頁(yè)面注冊(cè)頁(yè)面會(huì)員中心電影播放頁(yè)面電影彈幕功能視頻網(wǎng)站項(xiàng)目已經(jīng)完功能如下當(dāng)前最新版本增加自動(dòng)抓取功能,網(wǎng)站數(shù)據(jù)定期實(shí)時(shí)更新電影和電視劇數(shù)據(jù)抓取電影數(shù)據(jù)信息前端展現(xiàn)電影頁(yè)面圖片的自動(dòng)抓取下載和展示代碼結(jié)構(gòu)調(diào)整簡(jiǎn) 在線體驗(yàn)地址:http://vip.52tech.tech/ GIthub源碼:https://github.com/xiugangzha......
摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對(duì)象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會(huì)采取一定的爬取策略。介紹是一個(gè)國(guó)人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。 爬蟲 簡(jiǎn)單的說(shuō)網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對(duì)應(yīng)的網(wǎng)頁(yè)上,再把需要的信息鏟下來(lái)。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...
摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對(duì)象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會(huì)采取一定的爬取策略。介紹是一個(gè)國(guó)人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。 爬蟲 簡(jiǎn)單的說(shuō)網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對(duì)應(yīng)的網(wǎng)頁(yè)上,再把需要的信息鏟下來(lái)。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...
摘要:最近看前端都展開了幾場(chǎng)而我大知乎最熱語(yǔ)言還沒有相關(guān)。有關(guān)書籍的介紹,大部分截取自是官方介紹。但從開始,標(biāo)準(zhǔn)庫(kù)為我們提供了模塊,它提供了和兩個(gè)類,實(shí)現(xiàn)了對(duì)和的進(jìn)一步抽象,對(duì)編寫線程池進(jìn)程池提供了直接的支持。 《流暢的python》閱讀筆記 《流暢的python》是一本適合python進(jìn)階的書, 里面介紹的基本都是高級(jí)的python用法. 對(duì)于初學(xué)python的人來(lái)說(shuō), 基礎(chǔ)大概也就夠用了...
閱讀 2193·2021-10-08 10:05
閱讀 2043·2021-09-22 15:31
閱讀 3222·2021-09-22 15:13
閱讀 3753·2021-09-09 09:34
閱讀 2382·2021-09-03 10:46
閱讀 3305·2019-08-30 15:56
閱讀 1839·2019-08-30 15:53
閱讀 2500·2019-08-30 15:44