使用Scrapy抓取優(yōu)酷視頻列表頁(yè)（電影/電視）

leoperfect 發(fā)布于2019-07-30 18:44 / 801人閱讀

摘要：具體代碼可參看這里列表頁(yè)是指端的入口，如電影抓取后數(shù)據(jù)如下大毛狗何明翰張璇歷史萬(wàn)次播放

具體代碼可參看Knowsmore

這里列表頁(yè)是指PC端的入口，如電影

抓取后數(shù)據(jù)如下：

{
    "link" : "http://v.youku.com/v_show/id_XMzMyMzE2MTMxNg==.html",
    "thumb_img" : "http://r1.ykimg.com/051600005AD944F0859B5E040E03BD62",
    "title" : "大毛狗",
    "tag" : [
        "VIP"
    ],
    "actors" : [
        "何明翰",
        "張璇"
    ],
    "play_times" : " 歷史 2,236萬(wàn)次播放 "
}

# -*- coding: utf-8 -*-
import scrapy
import re
import json
from scrapy import Selector, Request
from knowsmore.items import YoukuListItem
from ..common import *
from ..model.mongodb import *

class YoukuListSpider(scrapy.Spider):
    name = "youku_list"

    custom_settings = {
        "DOWNLOADER_MIDDLEWARES" : {
        }
    }

    start_urls = [
        "https://list.youku.com/category/show/c_96_s_1_d_4_p_29.html"
    ]

    def parse(self, response):
        GRID_SELECTOR = ".panel .mr1"        
        for grid in response.css(GRID_SELECTOR):
            THUMB_IMG_SELECTOR = ".p-thumb img::attr(_src)"
            LINK_SELECTOR = ".info-list .title a::attr(href)"
            TITLE_SELECTOR = ".info-list .title a::text"
            ACTORS_SELECTOR = ".info-list .actor a::text"
            TAG_SELECTOR = ".p-thumb .p-thumb-tagrt span::text"
            PLAY_TIMES_SELECTOR = ".info-list li:nth-child(3)::text"

            item_thumb_img = grid.css(
                THUMB_IMG_SELECTOR).extract_first()
            item_link = grid.css(
                LINK_SELECTOR).extract_first()
            item_title = grid.css(
                TITLE_SELECTOR).extract_first()
            item_actors = grid.css(
                ACTORS_SELECTOR).extract()
            item_tag = grid.css(
                TAG_SELECTOR).extract()
            item_play_times = grid.css(
                PLAY_TIMES_SELECTOR).extract_first()

            # Build Scrapy Item
            youku_item = YoukuListItem(
                thumb_img = item_thumb_img,
                link =  item_link,
                title = item_title,
                actors = item_actors,
                play_times = item_play_times,
                tag = item_tag
            )

            # Send to Pipelines
            yield youku_item


        NEXT_PAGE_SELECTOR = ".yk-pages .next a::attr(href)"
        next_page = response.css(NEXT_PAGE_SELECTOR).extract_first()
        if next_page is not None:
            print next_page
            yield response.follow(next_page)

GPU云服務(wù)器云服務(wù)器實(shí)現(xiàn)列表頁(yè) html列表頁(yè)命名 jsp列表頁(yè)css 列表頁(yè)跳轉(zhuǎn) php

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/42980.html

上一篇：Python OOP 面向?qū)ο缶幊?/a>

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

leoperfect

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

自動(dòng)翻譯程序員英語(yǔ)

閱讀 2193·2021-10-08 10:05
共享IP的虛擬主機(jī)怎么運(yùn)行的-關(guān)于虛擬主機(jī)比較正確的做法？

閱讀 2043·2021-09-22 15:31
主機(jī)目錄權(quán)限設(shè)置多少-如何設(shè)置網(wǎng)站根目錄權(quán)限？

閱讀 3222·2021-09-22 15:13
開始學(xué)習(xí)機(jī)器學(xué)習(xí)之前你必須要了解的知識(shí)有哪些？機(jī)器學(xué)習(xí)系列入門篇

閱讀 3753·2021-09-09 09:34
如何批量替換wordpress文章中的文字或域名(3種方法)

閱讀 2382·2021-09-03 10:46
web前端開發(fā)中遇到的問(wèn)題整理記錄——2019-04

閱讀 3305·2019-08-30 15:56
css的居中布局問(wèn)題

閱讀 1839·2019-08-30 15:53
css動(dòng)畫實(shí)現(xiàn)呼吸圓

閱讀 2500·2019-08-30 15:44

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用Scrapy抓取優(yōu)酷視頻列表頁(yè)（電影/電視）

相關(guān)文章

【VIP視頻網(wǎng)站項(xiàng)目v1.0.3】基于Nodejs開發(fā)的VIP視頻網(wǎng)站項(xiàng)目及源碼分享

爬蟲入門

爬蟲入門

Python

發(fā)表評(píng)論

0條評(píng)論

leoperfect

男|高級(jí)講師

TA的文章

自動(dòng)翻譯程序員英語(yǔ)

共享IP的虛擬主機(jī)怎么運(yùn)行的-關(guān)于虛擬主機(jī)比較正確的做法？

主機(jī)目錄權(quán)限設(shè)置多少-如何設(shè)置網(wǎng)站根目錄權(quán)限？

開始學(xué)習(xí)機(jī)器學(xué)習(xí)之前你必須要了解的知識(shí)有哪些？機(jī)器學(xué)習(xí)系列入門篇

如何批量替換wordpress文章中的文字或域名(3種方法)

web前端開發(fā)中遇到的問(wèn)題整理記錄——2019-04

css的居中布局問(wèn)題

css動(dòng)畫實(shí)現(xiàn)呼吸圓

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用Scrapy抓取優(yōu)酷視頻列表頁(yè)（電影/電視）

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！