亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

18、 Python快速開(kāi)發(fā)分布式搜索引擎Scrapy精講—Scrapy啟動(dòng)文件的配置—xpath表

rubyshen / 1233人閱讀

摘要:百度云搜索,搜各種資料搜網(wǎng)盤(pán),搜各種資料我們自定義一個(gè)來(lái)作為啟動(dòng)文件導(dǎo)入執(zhí)行命令方法給解釋器,添加模塊新路徑將文件所在目錄添加到解釋器執(zhí)行命令爬蟲(chóng)文件表達(dá)式基本使用設(shè)置爬蟲(chóng)起始域名設(shè)置爬蟲(chóng)起始地址默認(rèn)爬蟲(chóng)回調(diào)函數(shù),返

【百度云搜索,搜各種資料:http://www.bdyss.cn】 【搜網(wǎng)盤(pán),搜各種資料:http://www.swpan.cn】

我們自定義一個(gè)main.py來(lái)作為啟動(dòng)文件

main.py

#!/usr/bin/env?python
#?-*-?coding:utf8?-*-

from?scrapy.cmdline?import?execute??#導(dǎo)入執(zhí)行scrapy命令方法
import?sys
import?os

sys.path.append(os.path.join(os.getcwd()))?#給Python解釋器,添加模塊新路徑?,將main.py文件所在目錄添加到Python解釋器

execute(["scrapy",?"crawl",?"pach",?"--nolog"])??#執(zhí)行scrapy命令

爬蟲(chóng)文件

#?-*-?coding:?utf-8?-*-
import?scrapy
from?scrapy.http?import?Request
import?urllib.response
from?lxml?import?etree
import?re

class?PachSpider(scrapy.Spider):
????name?=?"pach"
????allowed_domains?=?["blog.jobbole.com"]
????start_urls?=?["http://blog.jobbole.com/all-posts/"]

????def?parse(self,?response):
????????pass

xpath表達(dá)式

1、

2、

3、

基本使用

allowed_domains設(shè)置爬蟲(chóng)起始域名
start_urls設(shè)置爬蟲(chóng)起始url地址
parse(response)默認(rèn)爬蟲(chóng)回調(diào)函數(shù),response返回的是爬蟲(chóng)獲取到的html信息對(duì)象,里面封裝了一些關(guān)于htnl信息的方法和屬性

responsehtml信息對(duì)象下的方法和屬性
response.url獲取抓取的rul
response.body獲取網(wǎng)頁(yè)內(nèi)容
response.body_as_unicode()獲取網(wǎng)站內(nèi)容unicode編碼
xpath()方法,用xpath表達(dá)式過(guò)濾節(jié)點(diǎn)
extract()方法,獲取過(guò)濾后的數(shù)據(jù),返回列表

#?-*-?coding:?utf-8?-*-
import?scrapy

class?PachSpider(scrapy.Spider):
????name?=?"pach"
????allowed_domains?=?["blog.jobbole.com"]
????start_urls?=?["http://blog.jobbole.com/all-posts/"]

????def?parse(self,?response):
????????leir?=?response.xpath("http://a[@class="archive-title"]/text()").extract()??#獲取指定標(biāo)題
????????leir2?=?response.xpath("http://a[@class="archive-title"]/@href?").extract()?#獲取指定url

????????print(response.url)????#獲取抓取的rul
????????print(response.body)???#獲取網(wǎng)頁(yè)內(nèi)容
????????print(response.body_as_unicode())??#獲取網(wǎng)站內(nèi)容unicode編碼

????????for?i?in?leir:
????????????print(i)
????????for?i?in?leir2:
????????????print(i)

?
【轉(zhuǎn)載自:http://www.lqkweb.com】

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/45080.html

相關(guān)文章

  • 23、 Python快速開(kāi)發(fā)布式搜索引擎Scrapy精講—craw scrapy item lo

    摘要:百度云搜索,搜各種資料搜網(wǎng)盤(pán),搜各種資料用命令創(chuàng)建自動(dòng)爬蟲(chóng)文件創(chuàng)建爬蟲(chóng)文件是根據(jù)的母版來(lái)創(chuàng)建爬蟲(chóng)文件的查看創(chuàng)建爬蟲(chóng)文件可用的母版母版說(shuō)明創(chuàng)建基礎(chǔ)爬蟲(chóng)文件創(chuàng)建自動(dòng)爬蟲(chóng)文件創(chuàng)建爬取數(shù)據(jù)爬蟲(chóng)文件創(chuàng)建爬取數(shù)據(jù)爬蟲(chóng)文件創(chuàng)建一個(gè)基礎(chǔ)母版爬蟲(chóng),其他同理 【百度云搜索,搜各種資料:http://www.bdyss.cn】 【搜網(wǎng)盤(pán),搜各種資料:http://www.swpan.cn】 用命令創(chuàng)建自動(dòng)爬...

    QiuyueZhong 評(píng)論0 收藏0
  • 25、Python快速開(kāi)發(fā)布式搜索引擎Scrapy精講—Requests請(qǐng)求和Response響應(yīng)

    摘要:百度云搜索,搜各種資料搜網(wǎng)盤(pán),搜各種資料請(qǐng)求請(qǐng)求就是我們?cè)谂老x(chóng)文件寫(xiě)的方法,也就是提交一個(gè)請(qǐng)求地址,請(qǐng)求是我們自定義的方法提交一個(gè)請(qǐng)求參數(shù)字符串類(lèi)型地址回調(diào)函數(shù)名稱(chēng)字符串類(lèi)型請(qǐng)求方式,如果字典類(lèi)型的,瀏覽器用戶(hù)代理設(shè)置字典類(lèi)型鍵值對(duì),向回調(diào) 【百度云搜索,搜各種資料:http://www.lqkweb.com】 【搜網(wǎng)盤(pán),搜各種資料:http://www.swpan.cn】 Reque...

    Shihira 評(píng)論0 收藏0
  • 22、Python快速開(kāi)發(fā)布式搜索引擎Scrapy精講scrapy模擬登陸和知乎倒立文字驗(yàn)證碼識(shí)

    【百度云搜索,搜各種資料:http://www.bdyss.cn】 【搜網(wǎng)盤(pán),搜各種資料:http://www.swpan.cn】 第一步。首先下載,大神者也的倒立文字驗(yàn)證碼識(shí)別程序 下載地址:https://github.com/muchrooms/... 注意:此程序依賴(lài)以下模塊包   Keras==2.0.1  Pillow==3.4.2  jupyter==1.0.0  matplotli...

    array_huang 評(píng)論0 收藏0
  • 20、 Python快速開(kāi)發(fā)布式搜索引擎Scrapy精講—編寫(xiě)spiders爬蟲(chóng)文件循環(huán)抓取內(nèi)容

    摘要:百度云搜索,搜各種資料搜網(wǎng)盤(pán),搜各種資料編寫(xiě)爬蟲(chóng)文件循環(huán)抓取內(nèi)容方法,將指定的地址添加到下載器下載頁(yè)面,兩個(gè)必須參數(shù),參數(shù)頁(yè)面處理函數(shù)使用時(shí)需要方法,是庫(kù)下的方法,是自動(dòng)拼接,如果第二個(gè)參數(shù)的地址是相對(duì)路徑會(huì)自動(dòng)與第一個(gè)參數(shù)拼接導(dǎo) 【百度云搜索,搜各種資料:http://bdy.lqkweb.com】 【搜網(wǎng)盤(pán),搜各種資料:http://www.swpan.cn】 編寫(xiě)spiders爬...

    CntChen 評(píng)論0 收藏0
  • 21、 Python快速開(kāi)發(fā)布式搜索引擎Scrapy精講—爬蟲(chóng)數(shù)據(jù)保存

    摘要:百度云搜索,搜各種資料搜網(wǎng)盤(pán),搜各種資料注意數(shù)據(jù)保存的操作都是在文件里操作的將數(shù)據(jù)保存為文件是一個(gè)信號(hào)檢測(cè)導(dǎo)入圖片下載器模塊定義數(shù)據(jù)處理類(lèi),必須繼承初始化時(shí)打開(kāi)文件為數(shù)據(jù)處理函數(shù),接收一個(gè),里就是爬蟲(chóng)最后來(lái)的數(shù)據(jù)對(duì)象文章標(biāo)題是 【百度云搜索,搜各種資料:http://www.bdyss.cn】 【搜網(wǎng)盤(pán),搜各種資料:http://www.swpan.cn】 注意:數(shù)據(jù)保存的操作都是在p...

    Alex 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<