Scrapy Shell

HmyBmny 發(fā)布于2019-07-30 15:39 / 3016人閱讀

摘要：如果安裝了，終端將使用替代標準終端。終端與其他相比更為強大，提供智能的自動補全，高亮輸出，及其他特性。也提供了一些快捷方式例如或同樣可以生效如之前的案例。當然作用不僅僅如此，但是不屬于我們課程重點，不做詳細介紹。

Scrapy Shell

Scrapy終端是一個交互終端，我們可以在未啟動spider的情況下嘗試及調試代碼，也可以用來測試XPath或CSS表達式，查看他們的工作方式，方便我們爬取的網頁中提取的數(shù)據(jù)。

如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標準Python終端)。 IPython 終端與其他相比更為強大，提供智能的自動補全，高亮輸出，及其他特性。（推薦安裝IPython）

啟動Scrapy Shell

進入項目的根目錄，執(zhí)行下列命令來啟動shell:

scrapy shell "http://www.itcast.cn/channel/teacher.shtml"

圖片描述

Scrapy Shell根據(jù)下載的頁面會自動創(chuàng)建一些方便使用的對象，例如 Response 對象，以及 Selector 對象 (對HTML及XML內容)。

當shell載入后，將得到一個包含response數(shù)據(jù)的本地 response 變量，輸入
response.body將輸出response的包體，輸出 response.headers 可以看到response的包頭。

輸入 response.selector 時，將獲取到一個response 初始化的類 Selector 的對象，此時可以通過使用
response.selector.xpath()或response.selector.css() 來對 response 進行查詢。

Scrapy也提供了一些快捷方式, 例如 response.xpath()或response.css()同樣可以生效（如之前的案例）。

Selectors選擇器

Scrapy Selectors 內置 XPath 和 CSS Selector 表達式機制

Selector有四個基本的方法，最常用的還是xpath:

xpath(): 傳入xpath表達式，返回該表達式所對應的所有節(jié)點的selector list列表

extract(): 序列化該節(jié)點為Unicode字符串并返回list

css(): 傳入CSS表達式，返回該表達式所對應的所有節(jié)點的selector list列表，語法同 BeautifulSoup4

re(): 根據(jù)傳入的正則表達式對數(shù)據(jù)進行提取，返回Unicode字符串list列表

XPath表達式的例子及對應的含義:

/html/head/title: 選擇文檔中  標簽內的  元素
/html/head/title/text(): 選擇上面提到的 <title> 元素的文字
//td: 選擇所有的 <td> 元素
//div[@class="mine"]: 選擇所有具有 class="mine" 屬性的 div 元素
</pre>
<b>嘗試Selector</b>
<p>我們用騰訊社招的網站http://hr.tencent.com/positio...舉例：</p>
<pre># 啟動
scrapy shell "http://hr.tencent.com/position.php?&start=0#a"

# 返回 xpath選擇器對象列表
response.xpath("http://title")
[<Selector xpath="http://title" data=u"<title>u804cu4f4du641cu7d22 | u793eu4f1au62dbu8058 | Tencent u817eu8bafu62dbu8058</title">]

# 使用 extract()方法返回 Unicode字符串列表
response.xpath("http://title").extract()
[u"<title>u804cu4f4du641cu7d22 | u793eu4f1au62dbu8058 | Tencent u817eu8bafu62dbu8058"]

# 打印列表第一個元素，終端編碼格式顯示
print response.xpath("http://title").extract()[0]
職位搜索 | 社會招聘 | Tencent 騰訊招聘

# 返回 xpath選擇器對象列表
response.xpath("http://title/text()")


# 返回列表第一個元素的Unicode字符串
response.xpath("http://title/text()")[0].extract()
u"u804cu4f4du641cu7d22 | u793eu4f1au62dbu8058 | Tencent u817eu8bafu62dbu8058"

# 按終端編碼格式顯示
print response.xpath("http://title/text()")[0].extract()
職位搜索 | 社會招聘 | Tencent 騰訊招聘

response.xpath("http://*[@class="even"]")
職位名稱:

print site[0].xpath("./td[1]/a/text()").extract()[0]
TEG15-運營開發(fā)工程師（深圳）
職位名稱詳情頁:

print site[0].xpath("./td[1]/a/@href").extract()[0]
position_detail.php?id=20744&keywords=&tid=0&lid=0
職位類別:

print site[0].xpath("./td[2]/text()").extract()[0]
技術類

以后做數(shù)據(jù)提取的時候，可以把現(xiàn)在Scrapy Shell中測試，測試通過后再應用到代碼中。

當然Scrapy Shell作用不僅僅如此，但是不屬于我們課程重點，不做詳細介紹。

官方文檔：[http://scrapy-chs.readthedocs...
Spider][3]

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://www.ezyhdfw.cn/yun/41383.html

scrapy入門教程3：scrapy的shell命令

摘要：用例運行爬蟲命令基本語法是否需要項目存在當然是不需要咯貌似這個命令是不依托一個項目而直接運行一個爬蟲的命令。用例我終于寫完了，喜歡的就收藏推薦一下吧，這樣我就會更有動力寫新的教程了，哇哈哈 0. 基本環(huán)境說明本文截圖及運行環(huán)境均在Win8上實現(xiàn)（是的，我放假回家了，家里的機器是win8的沒有辦法），但基本步驟與win 7環(huán)境基本相同。（應該把~）ps:我后來換了臺win7的電腦，所...

zhongmeizhi 2019-07-24 18:07 評論0 收藏0
scrapy入門教程——爬取豆瓣電影Top250！

摘要：注意爬豆爬一定要加入選項，因為只要解析到網站的有，就會自動進行過濾處理，把處理結果分配到相應的類別，但偏偏豆瓣里面的為空不需要分配，所以一定要關掉這個選項。本課只針對python3環(huán)境下的Scrapy版本（即scrapy1.3+）選取什么網站來爬取呢？對于歪果人，上手練scrapy爬蟲的網站一般是官方練手網站 http://quotes.toscrape.com 我們中國人，當然...

senntyou 2019-07-30 15:05 評論0 收藏0
scrapy提升篇之配置

摘要：提升篇之配置增加并發(fā)并發(fā)是指同時處理的的數(shù)量。其有全局限制和局部每個網站的限制。使用級別來報告這些信息。在進行通用爬取時并不需要，搜索引擎則忽略。禁止能減少使用率及爬蟲在內存中記錄的蹤跡，提高性能。 scrapy提升篇之配置增加并發(fā) 并發(fā)是指同時處理的request的數(shù)量。其有全局限制和局部(每個網站)的限制。Scrapy默認的全局并發(fā)限制對同時爬取大量網站的情況并不適用，因此您需要...

劉永祥 2019-07-31 10:55 評論0 收藏0
10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

摘要：負責處理被提取出來的。典型的處理有清理驗證及持久化例如存取到數(shù)據(jù)庫知識庫項目的設置文件實現(xiàn)自定義爬蟲的目錄中間件是在引擎及之間的特定鉤子，處理的輸入和輸出及。【百度云搜索:http://www.bdyss.com】【搜網盤:http://www.swpan.cn】 Scrapy框架安裝 1、首先，終端執(zhí)行命令升級pip: python -m pip install --upgrad...

OnlyMyRailgun 2019-07-31 10:37 評論0 收藏0
Scrapy基本用法

安裝scrapy 不同操作系統(tǒng)安裝操作不同，可以直接看官方文檔Install Scrapy 創(chuàng)建一個項目在命令行輸入 scrapy startproject tutorial 進入項目目錄創(chuàng)建一個spider cd tutorial scrapy genspider quotes domain.com import scrapy class QuotesSpider(scrapy.Spider...

URLOS 2019-07-31 10:05 評論0 收藏0