scrapy簡(jiǎn)單學(xué)習(xí)6—爬取百度貼吧圖片（仿寫向）

trigkit4 發(fā)布于2019-07-24 18:10 / 3106人閱讀

摘要：主要是對(duì)上一篇文章的簡(jiǎn)單仿寫，大家以后想批量下載什么圖片照格式仿寫就好。

主要是對(duì)上一篇文章的簡(jiǎn)單仿寫，大家以后想批量下載什么圖片照格式仿寫就好。由于本人是tfboys的粉絲，所以平常沒事愛逛貼吧欣賞我家三小只的美圖，所以這次就以貼吧[小王的討論樓]為例，批量爬取該樓的圖片[1]

itme.py編寫

import scrapy


class WangyuantuItem(scrapy.Item):
    image_urls=scrapy.Field()#就編寫個(gè)圖片路徑就好

spider的編寫

import scrapy
import requests
import os
from wangyuantu.items import WangyuantuItem

class XiaowangSpider(scrapy.Spider):
    name = "xiaowang"
    allowed_domains = ["tieba.baidu.com/p/3888309273"]
    start_urls = [
        "http://tieba.baidu.com/p/3888309273?pn=%d" % i for i in range(21,45)
        ]
    
    

    def parse(self, response):
        item = WangyuantuItem()
        item["image_urls"]=response.xpath("http://img[@class="BDE_Image"]/@src").extract()
        
        yield item

pipelines編寫：這個(gè)部分都是可以套用的

import requests
from wangyuantu import settings
import os

#圖片下載類
class ImageDownloadPipeline(object):
    def process_item(self, item, spider):
        if "image_urls" in item:#如何‘圖片地址’在項(xiàng)目中
            images = []#定義圖片空集
            
            dir_path = "%s/%s" % (settings.IMAGES_STORE, spider.name)

            if not os.path.exists(dir_path):
                os.makedirs(dir_path)
            for image_url in item["image_urls"]:
                us = image_url.split("/")[3:]
                image_file_name = "_".join(us)
                file_path = "%s/%s" % (dir_path, image_file_name)
                images.append(file_path)
                if os.path.exists(file_path):
                    continue

                with open(file_path, "wb") as handle:
                    response = requests.get(image_url, stream=True)
                    for block in response.iter_content(1024):
                        if not block:
                            break

settings編寫

BOT_NAME = "wangyuantu"

SPIDER_MODULES = ["wangyuantu.spiders"]
NEWSPIDER_MODULE = "wangyuantu.spiders"

ITEM_PIPELINES = {"wangyuantu.pipelines.ImageDownloadPipeline": 1}
#圖片儲(chǔ)存
IMAGES_STORE = "C:UsersLenovoPictures"

結(jié)果

寄語：wili源源小可愛，希望你快快樂樂的長(zhǎng)大

GPU云服務(wù)器云服務(wù)器 scrapy爬取實(shí)例 python爬取網(wǎng)頁圖片仿寫貼吧圖片

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/37632.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

trigkit4

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

CDN加速究竟是怎么加速的？其工作原理是怎樣的？

閱讀 1084·2021-11-22 13:52
【C語言】C語言字符串 | 關(guān)于String | 通過國(guó)外教材講解字符串 | 專欄遺漏知識(shí)點(diǎn)補(bǔ)充

閱讀 1506·2021-11-19 09:40
恒流源設(shè)計(jì)參考方案

閱讀 3351·2021-11-16 11:44
將python項(xiàng)目打包成exe和安裝包

閱讀 1374·2021-11-15 11:39
數(shù)電實(shí)驗(yàn)：密碼保險(xiǎn)箱

閱讀 4046·2021-10-08 10:04
c類網(wǎng)絡(luò)多少可用主機(jī)-一個(gè)c類網(wǎng)絡(luò)中,有多少個(gè)可用的主機(jī)地址？

閱讀 5519·2021-09-22 14:57
Java項(xiàng)目:理財(cái)管理系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)(java+springboot+ssm)

閱讀 3166·2021-09-10 10:50
DeinServerHost：[email protected] EPYC 7443P/4GB內(nèi)存/

閱讀 3260·2021-08-17 10:13

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

scrapy簡(jiǎn)單學(xué)習(xí)6—爬取百度貼吧圖片（仿寫向）

相關(guān)文章

scrapy簡(jiǎn)單學(xué)習(xí)3—簡(jiǎn)單爬取中文網(wǎng)站（仿寫向）

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

**【python爬蟲學(xué)習(xí) 】python3.7 scrapy 安裝，demo實(shí)例，實(shí)踐：爬取百度**

發(fā)表評(píng)論

0條評(píng)論

trigkit4

男|高級(jí)講師

TA的文章

CDN加速究竟是怎么加速的？其工作原理是怎樣的？

【C語言】C語言字符串 | 關(guān)于String | 通過國(guó)外教材講解字符串 | 專欄遺漏知識(shí)點(diǎn)補(bǔ)充

恒流源設(shè)計(jì)參考方案

將python項(xiàng)目打包成exe和安裝包

數(shù)電實(shí)驗(yàn)：密碼保險(xiǎn)箱

c類網(wǎng)絡(luò)多少可用主機(jī)-一個(gè)c類網(wǎng)絡(luò)中,有多少個(gè)可用的主機(jī)地址？

Java項(xiàng)目:理財(cái)管理系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)(java+springboot+ssm)

DeinServerHost：[email protected] EPYC 7443P/4GB內(nèi)存/

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

scrapy簡(jiǎn)單學(xué)習(xí)6—爬取百度貼吧圖片（仿寫向）

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！