摘要:從剛開始接觸到使用進行爬蟲,經(jīng)歷了許多,不懂的各種百度,硬是從不會進步成入門了,抱怨的話不多說,進入正題。
從剛開始接觸Python2.7到使用Scrapy1.3進行爬蟲,經(jīng)歷了許多,不懂的各種百度,硬是從不會進步成入門了,抱怨的話不多說,進入正題。
寫這篇文章的目的在于總結(jié)這段時間學(xué)習(xí)Scrapy的到的一些經(jīng)驗
環(huán)境搭建1、如果在代碼中運行命令scrapy crawl sina2出錯(如上圖) subprocess.CalledProcessError: Command "scrapy crawl sina2" returned non-zero exit status 1 有可能是: 1、先將scrapy crawl sina2命令在cmd窗口中測試,如果報錯: Fatal error in launcher: Unable to create process using """ 請參考下方第二點 2、scrapy沒有裝好
2、如果命令行出錯 Fatal error in launcher: Unable to create process using """ 有可能是: 1、python沒有安裝在c盤的原因,經(jīng)測試我將python27放到除c盤以外都不行 2、安裝路徑不要有 空格中文之類的字符
3、pip被墻,修改國內(nèi)源方法,可以增加速度(好久沒去測試,不懂還可以用不) 1、linux或者是Mac的 pip源: 1、找到vi ~/.pip/pip.conf 2、修改 [global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple 2、window的 pip源: 1、找到C:UsersAdministrator 2、新建pip文件夾,新建pip.ini文件 填寫以下內(nèi)容 [global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple
4、安裝Scrapy過程中出錯: ERROR: ‘xslt-config’ 不是內(nèi)部或外部命令,也不是可運行的程序 或批處理文件。 1、在http://pypi.python.org/simple/lxml/下載win10 x64(看系統(tǒng)情況) 的lxml-2.2.8.win-amd64-py2.7.exe 2、然后重新打開cmd去pip install Scrapy 解決了此xml的問題了
5、運行代碼報錯: ImportError: No module named win32api 解決: 1、pip install pypiwin32從一臺電腦快速復(fù)制環(huán)境到另以臺電腦(window)
當(dāng)你在一臺電腦上配置相當(dāng)完全的python開發(fā)環(huán)境之后,想要換一臺同類型的電腦繼續(xù)工作,一想到要從新安裝各類的三方庫,是不是很累,我這里有幾點小建議
1、首先明確需要的安裝的基本東西: 1、jdk(python需要) 2、PythonChram(開發(fā)工具) 3、Python27(python基礎(chǔ))
2、jdk: 1、到已安裝電腦的安裝目錄復(fù)制jdk文件夾 2、拷貝到新電腦你想要存放的目錄(注意目錄不要有中文、特殊字符等) 3、配置jdk環(huán)境變量,路徑指向你存放的目錄(自行百度) 說明:jdk安裝完的文件夾,可以直接拷貝應(yīng)用,無需從網(wǎng)絡(luò)上下載然后安裝,比較方便
3、PythonChram: 1、到已安裝電腦的安裝目錄復(fù)制PythonChram文件夾 2、拷貝到新電腦你想要存放的目錄(注意目錄不要有中文、特殊字符等) 3、同時:也可以打開軟件,將設(shè)置項導(dǎo)出,拷貝到新電腦的軟件上使用,可以省去設(shè)置軟件 外觀的麻煩事,但是可能有些基礎(chǔ)的配置項就需要重新配置如: 1、python解釋器的位置 2、git的路徑
4、Python27: 1、到已安裝電腦的安裝目錄復(fù)制Python27文件夾 2、拷貝到新電腦的C盤根目錄(特別注意:放到除C盤之外的目錄可能會出現(xiàn)問題,請自測) 3、配置環(huán)境變量(指向存放的c盤目錄) 說明:Python27安裝完的文件夾,可以直接拷貝應(yīng)用,無需從網(wǎng)絡(luò)上下載然后安裝,比較 方便,而且里面已經(jīng)包含了需要的三方庫,可以省掉用pip安裝的麻煩事情
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/40701.html
摘要:一基礎(chǔ)環(huán)境由于不是職業(yè)的開發(fā)者,因此環(huán)境是基于的。二安裝打開命令行工具創(chuàng)建虛擬環(huán)境,默認(rèn)情況下會創(chuàng)建目錄,所有的虛擬環(huán)境都會產(chǎn)生一個子目錄保存在此,里面包含基本程序文件以及庫文件。 目錄 基于 Python 的 Scrapy 爬蟲入門:環(huán)境搭建 基于 Python 的 Scrapy 爬蟲入門:頁面提取 基于 Python 的 Scrapy 爬蟲入門:圖片處理 作為一個全棧工程師(...
摘要:快速入門接上篇學(xué)習(xí)一安裝,安裝后,我們利用一個簡單的例子來熟悉如何使用創(chuàng)建一個爬蟲項目。創(chuàng)建一個項目在已配置好的環(huán)境下輸入系統(tǒng)將在當(dāng)前目錄生成一個的項目文件。這部分才是業(yè)務(wù)的核心部分。提取的方式有幾種。具體代碼詳見入門項目 快速入門 接上篇Scrapy學(xué)習(xí)(一) 安裝,安裝后,我們利用一個簡單的例子來熟悉如何使用Scrapy創(chuàng)建一個爬蟲項目。 創(chuàng)建一個Scrapy項目 在已配置好的環(huán)境...
摘要:快速入門首先,初步要做的就是快速構(gòu)建一個爬蟲。然后把結(jié)果加入到一個隊列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因為公司項目需求,需要做一個爬蟲。所以我一個python小白就被拉去做了爬蟲?;藘芍軙r間,拼拼湊湊總算趕出來了。所以寫個blog做個記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個爬蟲。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過...
摘要:本文內(nèi)容爬取豆瓣電影頁面內(nèi)容,字段包含排名,片名,導(dǎo)演,一句話描述有的為空,評分,評價人數(shù),上映時間,上映國家,類別抓取數(shù)據(jù)存儲介紹爬蟲框架教程一入門創(chuàng)建項目創(chuàng)建爬蟲注意,爬蟲名不能和項目名一樣應(yīng)對反爬策略的配置打開文件,將修改為。 本文內(nèi)容 爬取豆瓣電影Top250頁面內(nèi)容,字段包含:排名,片名,導(dǎo)演,一句話描述 有的為空,評分,評價人數(shù),上映時間,上映國家,類別 抓取數(shù)據(jù)存儲 ...
目錄 基于 Python 的 Scrapy 爬蟲入門:環(huán)境搭建 基于 Python 的 Scrapy 爬蟲入門:頁面提取 基于 Python 的 Scrapy 爬蟲入門:圖片處理 上篇文章中講解了如何從網(wǎng)站頁面抓取所需要的數(shù)據(jù),很幸運范例中所需的數(shù)據(jù)是通過 Ajax 請求返回的 JSON 結(jié)構(gòu)化數(shù)據(jù),處理起來很簡單,圖片內(nèi)容也只取了一個鏈接,對于我最初的目標(biāo)把這些圖集添加到自己的博客站點中這...
閱讀 784·2021-11-24 10:30
閱讀 1326·2021-09-24 09:48
閱讀 3127·2021-09-24 09:47
閱讀 3672·2019-08-29 17:11
閱讀 2959·2019-08-29 15:38
閱讀 2358·2019-08-29 11:03
閱讀 3664·2019-08-26 12:15
閱讀 1073·2019-08-26 10:45