python正則表達式簡單爬蟲入門+案例（爬取貓眼電影TOP榜）

xiaowugui666 發(fā)布于2019-07-30 14:39 / 819人閱讀

摘要：用迭代進行異步操作保存寫入文件配置啟動函數(shù)使用多進程加速一秒完成

用正則表達式實現(xiàn)一個簡單的小爬蟲 常用方法介紹 1、導入工具包

import requests
#導入請求模塊
from flask import json
#導入json模塊
from requests.exceptions import RequestException
#異常捕捉模塊
import re
#導入正則模塊
from multiprocessing import Pool
#導入進程模塊

2、獲取頁面

response =requests.get(url)
url:當前需要爬取的鏈接
requests.get()獲得頁面

3、if response.status_code ==200:

#驗證狀態(tài)碼
response.status_code：獲取狀態(tài)碼
200：表示正常，連接成功

4、response.text：得到頁面內(nèi)容

例如：response =requests.get(url)

5、except RequestException:捕捉異常

try:
    ...
except RequestException:
    ...

6、pat = re.compile():編譯正則表達式

#正則表達式基礎(chǔ)知識即可

7、items =re.findall(pat,html)

pat：編譯過的正則表達式
html：用response.text得到的頁面內(nèi)容
re.findall()：找到所有匹配的內(nèi)容

8、打開文件

with open("result","a",encoding="utf-8")as f
with as :打開自動閉合的文件并設(shè)立對象f進行操作
result:文件名字
a:打開方式是續(xù)寫模式
encoding:編碼格式

9、寫入文件

 f.write(json.dumps(conrent,ensure_ascii =False)+"
")
 json.dumps:以json方式寫入

10、簡單進程

pool = Pool()
#創(chuàng)建進程池
pool.map(func,[i*10 for i in range(10)])
[i*10 for i in range(10)]：生成器，生成0到9的數(shù)字乘以10的結(jié)果，生成一個列表為[0,10,20....]
func:函數(shù)
map：將函數(shù)作用于列表每一個元素

11、yield:生成器 案例：用上面的工具完成爬去貓眼電影TOP榜

#__author:PL.Li
#導入需要使用的模塊
import requests
from flask import json
from requests.exceptions import RequestException
import re
from multiprocessing import Pool
#嘗試連接獲取頁面
def get_response(url):
    try:
        response =requests.get(url)
        if response.status_code ==200:
            return response.text
        return None
    except RequestException:
        return None
#正則匹配需要的內(nèi)容
def re_one_page(html):
#超級長的正則表達式進行匹配，匹配到的是個集合。  
    pat =re.compile(".*?board-index.*?">(/d+?).*?data-src="(.*?).*?name">(.*?)"class=.*?class="star">"
                    "(.*?)
.*?releasetime">(.*?)
.*?integer">(.*?).*?fraction">(.*?).*?",re.S)
   #用迭代進行異步操作  
    items =re.findall(pat,html)
    for item in items:
        yield {
            "index":item[0],
            "image":item[1],
            "title":item[2],
            "actor":item[3].strip()[3:],
            "time":item[4].strip(),
            "score":item[5]+item[6]

        }
#保存寫入文件
def write_file(conrent):
    with open("result","a",encoding="utf-8")as f:
        f.write(json.dumps(conrent,ensure_ascii =False)+"
")
        f.close()
#配置啟動函數(shù)
def main(offset):
    url ="http://maoyan.com/board"+str(offset)
    html=get_response(url)
    for item in re_one_page(html):
        write_file(item)
#使用多進程加速一秒完成
if __name__ == "__main__":
        pool = Pool()
        pool.map(main,[i*10 for i in range(10)])

GPU云服務(wù)器云服務(wù)器正則表達式入門 python爬取入門 python 正則表達式 python正則表達

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/40841.html

發(fā)表評論

登陸后可評論

0條評論

xiaowugui666

男|高級講師

我要關(guān)注我要私信

TA的文章

【數(shù)據(jù)結(jié)構(gòu)初階】第九篇——八大經(jīng)典排序算法總結(jié)（圖解+動圖演示+代碼實現(xiàn)+八大排序比較）

閱讀 2003·2021-11-25 09:43
Rust基金會迎來首任執(zhí)行董事和 CEO

閱讀 2203·2021-11-19 09:40
搬瓦工VPS：2021年最新VPS優(yōu)惠碼、優(yōu)惠套餐、高速線路和高速機房整理

閱讀 3494·2021-11-18 13:12
python 數(shù)據(jù)庫編程，這篇是針對 mysql 的，滾雪球?qū)WPython第4季第13篇

閱讀 1811·2021-09-29 09:35
Tmhhost：暑期八折，終身優(yōu)惠，日本軟銀/香港BGP/洛杉磯GIA高防，100元/季起

閱讀 740·2021-08-24 10:00
Phaser游戲框架與HTML Dom元素之間的通信交互

閱讀 2595·2019-08-30 15:55
CSS基礎(chǔ)知識之position

閱讀 1780·2019-08-30 12:56
《css and documents》讀書筆記；

閱讀 1884·2019-08-28 17:59

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python正則表達式簡單爬蟲入門+案例（爬取貓眼電影TOP榜）

相關(guān)文章

Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---27、Requests與正則表達式抓取貓眼電影排行

**requests+正則表達式+multiprocessing多線程抓取貓眼電影TOP100**

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

零基礎(chǔ)如何學爬蟲技術(shù)

**Requests+正則表達式爬取貓眼電影**

發(fā)表評論

0條評論

xiaowugui666

男|高級講師

TA的文章

【數(shù)據(jù)結(jié)構(gòu)初階】第九篇——八大經(jīng)典排序算法總結(jié)（圖解+動圖演示+代碼實現(xiàn)+八大排序比較）

Rust基金會迎來首任執(zhí)行董事和 CEO

搬瓦工VPS：2021年最新VPS優(yōu)惠碼、優(yōu)惠套餐、高速線路和高速機房整理

python 數(shù)據(jù)庫編程，這篇是針對 mysql 的，滾雪球?qū)WPython第4季第13篇

Tmhhost：暑期八折，終身優(yōu)惠，日本軟銀/香港BGP/洛杉磯GIA高防，100元/季起

Phaser游戲框架與HTML Dom元素之間的通信交互

CSS基礎(chǔ)知識之position

《css and documents》讀書筆記；

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python正則表達式簡單爬蟲入門+案例（爬取貓眼電影TOP榜）

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！