Python爬蟲(chóng)入門

xbynet 發(fā)布于2019-07-30 16:47 / 2020人閱讀

摘要：什么是爬蟲(chóng)一段自動(dòng)抓取互聯(lián)網(wǎng)信息的程序，從互聯(lián)網(wǎng)上抓取對(duì)于我們有價(jià)值的信息四種基本數(shù)據(jù)結(jié)構(gòu)列表列表中的每個(gè)元素都是可變的列表的元素都是有序的，也就是說(shuō)每個(gè)元素都有對(duì)應(yīng)的位置列表可以容納所有的對(duì)象波波超哥小明波波超哥小明如果為切片返回的也是列

什么是爬蟲(chóng)？

一段自動(dòng)抓取互聯(lián)網(wǎng)信息的程序，從互聯(lián)網(wǎng)上抓取對(duì)于我們有價(jià)值的信息

Python四種基本數(shù)據(jù)結(jié)構(gòu)

列表

**列表中的每個(gè)元素都是可變的;
列表的元素都是有序的，也就是說(shuō)每個(gè)元素都有對(duì)應(yīng)的位置;
列表可以容納所有的對(duì)象;**

list = ["波波", "90", "超哥", "小明"]
print(list[0])
print(list(2:))
# result
波波
["超哥", "小明"] # 如果為切片返回的也是列表的數(shù)據(jù)結(jié)構(gòu)

字典

user_info = {
  "name": "小明",
  "age": "23",
  "sex": "male"
}

元組

**在爬蟲(chóng)中元組和集合很少用到，這里只做簡(jiǎn)單的介紹;
元組: 類似于列表，但是元組的元素是不能修改只能查看的**

# 元組
tuple = (1,2,3)

集合

集合：類似數(shù)學(xué)中的集合，每個(gè)集合中的元素是無(wú)序的，不可以有重復(fù)的對(duì)象，因此可以通過(guò)集合把重復(fù)的數(shù)據(jù)去除!

# 集合
list = [1,1,2,2,3,4,5] 
set = set(list)
# result {1,2,3,4,5}

Python文件操作

# 打開(kāi)文件
open(name,[, mode[,buffering]])

f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt")

# 讀寫文件

f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt", "w")
f.write("Hello World")

f = open("/Users/GreetingText/PycharmProjects/demo/hello.txt", "r")
content = f.read()
print(content)
# result Hello World

# 關(guān)閉文件
f.close()

爬蟲(chóng)原理

多頁(yè)面爬蟲(chóng)流程

如何安裝Python環(huán)境？

Mac 系統(tǒng)自帶Python 2.7，安裝新版本請(qǐng)前往官網(wǎng)下載，安裝成功之后，在命令行輸入python3 如圖：

工欲善其事，必先利其器

推薦PyCharm

PyCharm破解方法拿走不謝！

推薦兩個(gè)第三方庫(kù)

Beautiful Soup 中文文檔

Scrapy 中文文檔

QuickDemo

安裝Scrapy并創(chuàng)建項(xiàng)目

pip install scrapy
scrapy startproject QuickDemo
cd QuickDemo

在spiders目錄下創(chuàng)建test_spilder.py文件

具體代碼(需要事先安裝BeautifulSoup庫(kù))

# -*- coding:utf-8 -*-
import scrapy
from bs4 import BeautifulSoup


class tsSpride(scrapy.Spider):
    name = "test" # 爬蟲(chóng)的唯一名字，在項(xiàng)目中爬蟲(chóng)名字一定不能重復(fù)

    # start_requests() 必須返回一個(gè)迭代的Request
    def start_requests(self):
        # 待爬取的URL列表
        urls = ["http://www.jianshu.com/",]
        # 模擬瀏覽器
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
        for url in urls:
            yield scrapy.Request(url=url, headers=headers, callback=self.parse)

    # 處理每個(gè)請(qǐng)求的下載響應(yīng)
    def parse(self, response):
        soup = BeautifulSoup(response.body, "html.parser")
        titles = soup.find_all("a", "title")
        for title in titles:
            print(title.string)

        try:
            file = open(r"/Users/GreetingText/QuickDemo/jianshu.txt", "w")
            # 將爬取到的文章題目寫入txt中
            for title in titles:
                file.write(title.string + "
")
        finally:
            if file:
                # 關(guān)閉文件（很重要）
                file.close()

在命令行輸入

scrapy crawl test

爬取數(shù)據(jù)成功如圖：

而且項(xiàng)目里面也生成了一個(gè)jianshu.txt文件

打開(kāi)jianshu.txt如圖:

以下是參考鏈接

本文參考文章

BeautifulSoup官網(wǎng)

Scrapy官網(wǎng)

windows安裝Python3

Mac安裝Python3

云服務(wù)器 GPU云服務(wù)器 python入門爬蟲(chóng) python爬蟲(chóng)入門 python網(wǎng)絡(luò)爬蟲(chóng)入門 python爬蟲(chóng)教程入門

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/41829.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

xbynet

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

將 exe 文件反編譯成 Python 腳本

閱讀 1308·2021-10-11 10:59
RepriseHosting：$27.97/月-L5640,16G內(nèi)存,1TB硬盤,10TB月流量,

閱讀 2067·2021-09-29 09:44
半導(dǎo)體芯片測(cè)試機(jī)供不應(yīng)求，超 15 家國(guó)產(chǎn)廠商積極入局

閱讀 994·2021-09-01 10:32
【基礎(chǔ)知識(shí)】Flex-彈性布局原來(lái)如此簡(jiǎn)單！！

閱讀 1511·2019-08-30 14:21
Font Boosting

閱讀 1948·2019-08-29 15:39
簡(jiǎn)單說(shuō) 通過(guò)CSS實(shí)現(xiàn) 文字漸變色的兩種方式

閱讀 3055·2019-08-29 13:45
關(guān)于BEM的反思

閱讀 3616·2019-08-29 13:27
WebUploader上傳插件使用說(shuō)明

閱讀 2091·2019-08-29 12:27

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python爬蟲(chóng)入門

相關(guān)文章

**零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)**

Python爬蟲(chóng)學(xué)習(xí)路線

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客