亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

爬蟲小demo

pf_miles / 861人閱讀

摘要:爬取的數(shù)據(jù)存入表格分析要爬取的內(nèi)容的網(wǎng)頁結(jié)構(gòu)是庫寫入表所用讀取表所用通過解析文檔為用戶提供需要抓取的數(shù)據(jù)改變標(biāo)準(zhǔn)輸出的默認(rèn)編碼我們開始利用來獲取網(wǎng)頁并利用解析網(wǎng)頁返回的是狀態(tài)碼,加上以字節(jié)形式二進(jìn)制返回數(shù)據(jù)。

爬取的數(shù)據(jù)存入Excel表格

分析要爬取的內(nèi)容的網(wǎng)頁結(jié)構(gòu):

demo.py:

import requests    #requests是HTTP庫
import re
from openpyxl import workbook  # 寫入Excel表所用
from openpyxl import load_workbook  # 讀取Excel表所用
from bs4 import BeautifulSoup as bs   #bs:通過解析文檔為用戶提供需要抓取的數(shù)據(jù)
import os
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding="utf8") #改變標(biāo)準(zhǔn)輸出的默認(rèn)編碼


#我們開始利用requests.get()來獲取網(wǎng)頁并利用bs4解析網(wǎng)頁:
def getData(src):

    html = requests.get(src).content    # requests.get(src)返回的是狀態(tài)碼,加上.content以字節(jié)形式(二進(jìn)制返回數(shù)據(jù)。   和前端一樣,分為get post等  http://www.cnblogs.com/ranxf/p/7808537.html
    soup = bs(html,"lxml")   # lxml解析器解析字節(jié)形式的數(shù)據(jù),得到完整的類似頁面的html代碼結(jié)構(gòu)的數(shù)據(jù)
    print(soup)

    global ws
    Name = []
    Introductions = []
    introductions = soup.find_all("a",class_="book-item-name")
    nameList = soup.find_all("a",class_="author")
    print (nameList)
    for name in nameList:
        print (name.text)
        Name.append(name.text)
    for introduction in introductions:
        Introductions.append(introduction.text)
    for i in range(len(Name)):
        ws.append([Name[i],Introductions[i]])

if __name__ == "__main__":
    #   讀取存在的Excel表測試
    #     wb = load_workbook("t est.xlsx") #加載存在的Excel表
    #     a_sheet = wb.get_sheet_by_name("Sheet1") #根據(jù)表名獲取表對象
    #     for row in a_sheet.rows: #遍歷輸出行數(shù)據(jù)
    #         for cell in row: #每行的 每一個單元格
    #             print cell.value,

    #  創(chuàng)建Excel表并寫入數(shù)據(jù)
    wb = workbook.Workbook()  # 創(chuàng)建Excel對象
    ws = wb.active  # 獲取當(dāng)前正在操作的表對象
    # 往表中寫入標(biāo)題行,以列表形式寫入!
    ws.append(["角色名字", "票數(shù)"])
    src = "http://www.lrts.me/book/category/3058"
    getData(src)
    wb.save("qinshi.xlsx")  # 存入所有信息后,保存為filename.xlsx


執(zhí)行:python demo.py

效果 生成一個qinshi.xlsx文件

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/43809.html

相關(guān)文章

  • node:爬蟲爬取網(wǎng)頁圖片

    摘要:目錄安裝,并下載依賴搭建服務(wù)請求我們要爬取的頁面,返回安裝我們開始安裝,可以去官網(wǎng)下載下載地址,下載完成后運行使用,安裝成功后會出現(xiàn)你所安裝的版本號。 前言 周末自己在家閑著沒事,刷著微信,玩著手機(jī),發(fā)現(xiàn)自己的微信頭像該換了,就去網(wǎng)上找了一下頭像,看著圖片,自己就想著作為一個碼農(nóng),可以把這些圖片都爬取下來做成一個微信小程序,說干就干,了解一下基本都知道怎么做了,整理分享一波給大家。 目...

    ygyooo 評論0 收藏0
  • SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來做一些神奇好玩的事情吧

    摘要:學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀,它提供了一些方法用于檢測形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換,簡稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機(jī)制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開始之前,我們先來看這樣一個提問: pyth...

    lifesimple 評論0 收藏0
  • 后端知識拓展 - 收藏集 - 掘金

    摘要:阻塞,非阻塞首先,阻塞這個詞來自操作系統(tǒng)的線程進(jìn)程的狀態(tài)模型網(wǎng)絡(luò)爬蟲基本原理一后端掘金網(wǎng)絡(luò)爬蟲是捜索引擎抓取系統(tǒng)的重要組成部分。每門主要編程語言現(xiàn)未來已到后端掘金使用和在相同環(huán)境各加載多張小圖片,性能相差一倍。 2016 年度小結(jié)(服務(wù)器端方向)| 掘金技術(shù)征文 - 后端 - 掘金今年年初我花了三個月的業(yè)余時間用 Laravel 開發(fā)了一個項目,在此之前,除了去年換工作準(zhǔn)備面試時,我并...

    CoderBear 評論0 收藏0
  • 后端知識拓展 - 收藏集 - 掘金

    摘要:阻塞,非阻塞首先,阻塞這個詞來自操作系統(tǒng)的線程進(jìn)程的狀態(tài)模型網(wǎng)絡(luò)爬蟲基本原理一后端掘金網(wǎng)絡(luò)爬蟲是捜索引擎抓取系統(tǒng)的重要組成部分。每門主要編程語言現(xiàn)未來已到后端掘金使用和在相同環(huán)境各加載多張小圖片,性能相差一倍。 2016 年度小結(jié)(服務(wù)器端方向)| 掘金技術(shù)征文 - 后端 - 掘金今年年初我花了三個月的業(yè)余時間用 Laravel 開發(fā)了一個項目,在此之前,除了去年換工作準(zhǔn)備面試時,我并...

    Carl 評論0 收藏0

發(fā)表評論

0條評論

pf_miles

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<