摘要:什么是爬蟲(chóng)一段自動(dòng)抓取互聯(lián)網(wǎng)信息的程序,從互聯(lián)網(wǎng)上抓取對(duì)于我們有價(jià)值的信息四種基本數(shù)據(jù)結(jié)構(gòu)列表列表中的每個(gè)元素都是可變的列表的元素都是有序的,也就是說(shuō)每個(gè)元素都有對(duì)應(yīng)的位置列表可以容納所有的對(duì)象波波超哥小明波波超哥小明如果為切片返回的也是列
什么是爬蟲(chóng)?
一段自動(dòng)抓取互聯(lián)網(wǎng)信息的程序,從互聯(lián)網(wǎng)上抓取對(duì)于我們有價(jià)值的信息
Python四種基本數(shù)據(jù)結(jié)構(gòu)列表
**列表中的每個(gè)元素都是可變的;
列表的元素都是有序的,也就是說(shuō)每個(gè)元素都有對(duì)應(yīng)的位置;
列表可以容納所有的對(duì)象;**
list = ["波波", "90", "超哥", "小明"] print(list[0]) print(list(2:)) # result 波波 ["超哥", "小明"] # 如果為切片返回的也是列表的數(shù)據(jù)結(jié)構(gòu)
字典
user_info = { "name": "小明", "age": "23", "sex": "male" }
元組
**在爬蟲(chóng)中元組和集合很少用到,這里只做簡(jiǎn)單的介紹;
元組: 類似于列表,但是元組的元素是不能修改只能查看的**
# 元組 tuple = (1,2,3)
集合
集合:類似數(shù)學(xué)中的集合,每個(gè)集合中的元素是無(wú)序的,不可以有重復(fù)的對(duì)象,因此可以通過(guò)集合把重復(fù)的數(shù)據(jù)去除!
# 集合 list = [1,1,2,2,3,4,5] set = set(list) # result {1,2,3,4,5}Python文件操作
# 打開(kāi)文件 open(name,[, mode[,buffering]]) f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt") # 讀寫文件 f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt", "w") f.write("Hello World") f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt", "r") content = f.read() print(content) # result Hello World # 關(guān)閉文件 f.close()爬蟲(chóng)原理 多頁(yè)面爬蟲(chóng)流程 如何安裝Python環(huán)境?
Mac 系統(tǒng)自帶Python 2.7,安裝 新版本請(qǐng)前往官網(wǎng)下載,安裝成功之后,在命令行輸入python3 如圖:
工欲善其事,必先利其器推薦PyCharm
PyCharm破解方法拿走不謝!
Beautiful Soup 中文文檔
Scrapy 中文文檔
QuickDemo安裝Scrapy并創(chuàng)建項(xiàng)目
pip install scrapy scrapy startproject QuickDemo cd QuickDemo在spiders目錄下創(chuàng)建test_spilder.py文件
具體代碼(需要事先安裝BeautifulSoup庫(kù))
# -*- coding:utf-8 -*- import scrapy from bs4 import BeautifulSoup class tsSpride(scrapy.Spider): name = "test" # 爬蟲(chóng)的唯一名字,在項(xiàng)目中爬蟲(chóng)名字一定不能重復(fù) # start_requests() 必須返回一個(gè)迭代的Request def start_requests(self): # 待爬取的URL列表 urls = ["http://www.jianshu.com/",] # 模擬瀏覽器 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"} for url in urls: yield scrapy.Request(url=url, headers=headers, callback=self.parse) # 處理每個(gè)請(qǐng)求的下載響應(yīng) def parse(self, response): soup = BeautifulSoup(response.body, "html.parser") titles = soup.find_all("a", "title") for title in titles: print(title.string) try: file = open(r"/Users/GreetingText/QuickDemo/jianshu.txt", "w") # 將爬取到的文章題目寫入txt中 for title in titles: file.write(title.string + " ") finally: if file: # 關(guān)閉文件(很重要) file.close()在命令行輸入
scrapy crawl test爬取數(shù)據(jù)成功如圖: 而且項(xiàng)目里面也生成了一個(gè)jianshu.txt文件 打開(kāi)jianshu.txt如圖: 以下是參考鏈接
本文參考文章
BeautifulSoup官網(wǎng)
Scrapy官網(wǎng)
windows安裝Python3
Mac安裝Python3
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/41829.html
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)以供學(xué)習(xí),。本文來(lái)源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲(chóng)軟件定制開(kāi)發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲(chóng)學(xué)習(xí)系列教程(來(lái)源于某博主:htt...
摘要:以下這些項(xiàng)目,你拿來(lái)學(xué)習(xí)學(xué)習(xí)練練手。當(dāng)你每個(gè)步驟都能做到很優(yōu)秀的時(shí)候,你應(yīng)該考慮如何組合這四個(gè)步驟,使你的爬蟲(chóng)達(dá)到效率最高,也就是所謂的爬蟲(chóng)策略問(wèn)題,爬蟲(chóng)策略學(xué)習(xí)不是一朝一夕的事情,建議多看看一些比較優(yōu)秀的爬蟲(chóng)的設(shè)計(jì)方案,比如說(shuō)。 (一)如何學(xué)習(xí)Python 學(xué)習(xí)Python大致可以分為以下幾個(gè)階段: 1.剛上手的時(shí)候肯定是先過(guò)一遍Python最基本的知識(shí),比如說(shuō):變量、數(shù)據(jù)結(jié)構(gòu)、語(yǔ)法...
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:想辦法區(qū)分爬蟲(chóng)程序和正常的用戶。爬蟲(chóng)是工具性程序,對(duì)速度和效率要求較高。生態(tài)圈完善,是最大對(duì)手。最要命的是爬蟲(chóng)需要經(jīng)常修改部分代碼。爬蟲(chóng)分類通用爬蟲(chóng)也就是百度搜狐等搜索引擎。原本是為測(cè)試來(lái)測(cè)試網(wǎng)站的,后來(lái)成了爬蟲(chóng)工程師最喜愛(ài)的工具。 一、爬蟲(chóng)的基本知識(shí): 1. 什么是爬蟲(chóng) 爬蟲(chóng)的英文翻譯為spider或者crawder,意為蜘蛛或者爬行者,從字面意思我們可以體會(huì)到:爬蟲(chóng)就是把自己當(dāng)做蜘...
摘要:目錄基于的爬蟲(chóng)入門環(huán)境搭建基于的爬蟲(chóng)入門頁(yè)面提取基于的爬蟲(chóng)入門圖片處理下面創(chuàng)建一個(gè)爬蟲(chóng)項(xiàng)目,以圖蟲(chóng)網(wǎng)為例抓取圖片。 目錄 基于 Python 的 Scrapy 爬蟲(chóng)入門:環(huán)境搭建 基于 Python 的 Scrapy 爬蟲(chóng)入門:頁(yè)面提取 基于 Python 的 Scrapy 爬蟲(chóng)入門:圖片處理 下面創(chuàng)建一個(gè)爬蟲(chóng)項(xiàng)目,以圖蟲(chóng)網(wǎng)為例抓取圖片。 一、內(nèi)容分析 打開(kāi) 圖蟲(chóng)網(wǎng),頂部菜單發(fā)現(xiàn)...
摘要:快速入門首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。然后把結(jié)果加入到一個(gè)隊(duì)列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因?yàn)楣卷?xiàng)目需求,需要做一個(gè)爬蟲(chóng)。所以我一個(gè)python小白就被拉去做了爬蟲(chóng)?;藘芍軙r(shí)間,拼拼湊湊總算趕出來(lái)了。所以寫個(gè)blog做個(gè)記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個(gè)爬蟲(chóng)。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過(guò)...
閱讀 1308·2021-10-11 10:59
閱讀 2067·2021-09-29 09:44
閱讀 994·2021-09-01 10:32
閱讀 1511·2019-08-30 14:21
閱讀 1948·2019-08-29 15:39
閱讀 3055·2019-08-29 13:45
閱讀 3616·2019-08-29 13:27
閱讀 2091·2019-08-29 12:27