puppeteer的簡單使用_爬取頁面信息

ARGUS 發(fā)布于2019-08-26 11:31 / 2386人閱讀

摘要：使用無頭瀏覽器做爬蟲有什么拿什么它是的一個用來操縱瀏覽器的的庫，對的你沒看錯，就是操作瀏覽器的，細(xì)思極恐啊簡單說就是瀏覽器有的它都有了當(dāng)然有些功能也正在開發(fā)中可以注冊，模擬登陸，設(shè)置操作事件，執(zhí)行腳本團隊對其維護，厲害了吧文檔地址安裝首先

使用chrome無頭瀏覽器做爬蟲 - 有什么拿什么 puppeteer

它是Node的一個用來操縱瀏覽器的API的庫，對的你沒看錯，就是操作瀏覽器的，細(xì)思極恐啊
簡單說就是瀏覽器有的它都有了(當(dāng)然有些功能也正在開發(fā)中)
可以注冊，模擬登陸，設(shè)置cookie
操作dom事件，執(zhí)行js腳本
Chrome團隊對其維護，厲害了吧
文檔地址:https://github.com/GoogleChro...

安裝

首先Nodejs 的版本不能低于 v7.6.0， 因為全都是 async, await 異步操作
npm install puppeteer -S
出現(xiàn)安裝問題的小伙伴可以試一試npm的內(nèi)置配置文件，當(dāng)前目錄下新建一個.npmrc結(jié)尾的文件，內(nèi)容如下

registry=https://registry.npm.taobao.org
chromedriver_cdnurl=http://npm.taobao.org/mirrors/chromedriver
phantomjs_cdnurl=https://npm.taobao.org/dist/phantomjs
electron_mirror=https://npm.taobao.org/mirrors/electron/
sass_binary_site=https://npm.taobao.org/mirrors/node-sass/
puppeteer_download_host=https://cdn.npm.taobao.org/dist

官網(wǎng)的demo

const puppeteer = require("puppeteer");
(async () => {
  // 創(chuàng)建一個瀏覽器實例 Browser 對象
  const browser = await puppeteer.launch();
  // 通過瀏覽器實例 Browser 對象創(chuàng)建頁面 Page 對象
  const page = await browser.newPage();
  // 通過url參數(shù)打開指定的頁面
  await page.goto("https://example.com");
  // 對頁面進行截圖
  await page.screenshot({path: "example.png"});
  // 關(guān)閉瀏覽器
  await browser.close();
})();

先來個最最基本的抓取 實戰(zhàn)_抓取2345小說站任意書籍的章節(jié)列表

兩個箭頭標(biāo)記的

觀察url，.html之前的數(shù)字就是抓取書籍的bookId
章節(jié)列表所在容器標(biāo)簽

上干貨，都在注釋里了

抓取的結(jié)果

完整代碼

const puppeteer = require("puppeteer");
(async ()=>{
    try{
        // 創(chuàng)建一個瀏覽器實例 Browser 對象
        let browser = await puppeteer.launch({
            // 是否不顯示瀏覽器， 為true則不顯示
            "headless": false,
        });
        // 通過瀏覽器實例 Browser 對象創(chuàng)建頁面 Page 對象
        let page = await browser.newPage();
        // 設(shè)置瀏覽器信息
        const UA = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/63.0.3239.84 Chrome/63.0.3239.84 Safari/537.36";
        await Promise.all([
            page.setUserAgent(UA),
            // 允許運行js
            page.setJavaScriptEnabled(true),
            // 設(shè)置頁面視口的大小
            page.setViewport({width: 1100, height: 1080}),
        ]);
        // 地址
        let chapter_list_url = `http://book.km.com/chapterlist/396353.html`
        // 打開章節(jié)列表
        await page.goto(chapter_list_url);
        // 使用css選擇器的方式
        let content= await page.$eval("#xtopjsinfo > div.wrapper > div.container > div.catalog > div.catalog_bd", el => el.innerText);
        console.log(content);
    }catch(err){
        console.log(err)
    }
})()

GPU云服務(wù)器云服務(wù)器簡單的html頁面簡單的頁面asp java爬取頁面 php 簡單頁面

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/107035.html

發(fā)表評論

登陸后可評論

0條評論

ARGUS

男|高級講師

我要關(guān)注我要私信

TA的文章

大部分程序員都記不住的注解，Idea 云筆記卻能輕松記住

閱讀 3566·2021-11-15 11:38
ForwardWeb：美國/新加坡VPS限時五折優(yōu)惠，低至$12美元/年起

閱讀 909·2021-11-08 13:27
Linux CentOS 6.8一鍵快速安裝vncserver服務(wù)配置遠(yuǎn)程桌面

閱讀 2333·2021-07-29 14:50
編碼規(guī)范-css.md

閱讀 3049·2019-08-29 13:06
CSS篇之inline-block

閱讀 892·2019-08-29 11:22
document.write知多少

閱讀 2467·2019-08-29 11:04
CSS 單位

閱讀 3568·2019-08-28 18:23
jQuery源碼解析之width()

閱讀 958·2019-08-26 13:46

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

puppeteer的簡單使用_爬取頁面信息

完整代碼

相關(guān)文章

puppeteer進階版_爬取小說站

Puppeteer初探--爬取并生成《ES6標(biāo)準(zhǔn)入門》PDF

puppeteer爬蟲

Node 批量爬取頭條視頻并保存

發(fā)表評論

0條評論

ARGUS

男|高級講師

TA的文章

大部分程序員都記不住的注解，Idea 云筆記卻能輕松記住

ForwardWeb：美國/新加坡VPS限時五折優(yōu)惠，低至$12美元/年起

Linux CentOS 6.8一鍵快速安裝vncserver服務(wù)配置遠(yuǎn)程桌面

編碼規(guī)范-css.md

CSS篇之inline-block

document.write知多少

CSS 單位

jQuery源碼解析之width()

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

puppeteer的簡單使用_爬取頁面信息

完整代碼

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！