摘要:爬蟲(chóng)簡(jiǎn)介這是一個(gè)在未登錄的情況下,根據(jù)企業(yè)名稱(chēng)搜索,爬取企業(yè)頁(yè)面數(shù)據(jù)的采集程序注意這是一個(gè)比較簡(jiǎn)單的爬蟲(chóng),基本上只用到了代理,沒(méi)有用到其他的反反爬技術(shù),不過(guò)由于爬取的數(shù)據(jù)比較多,適合刷解析技能的熟練度,所以高手勿進(jìn)代碼已經(jīng)上傳到上,有用還請(qǐng)
爬蟲(chóng)簡(jiǎn)介
這是一個(gè)在未登錄的情況下,根據(jù)企業(yè)名稱(chēng)搜索,爬取企業(yè)頁(yè)面數(shù)據(jù)的采集程序
注意: 這是一個(gè)比較簡(jiǎn)單的爬蟲(chóng),基本上只用到了代理,沒(méi)有用到其他的反反爬技術(shù),不過(guò)由于爬取的數(shù)據(jù)比較多,適合刷解析技能的熟練度,所以高手勿進(jìn)
代碼已經(jīng)上傳到GitHub上,有用還請(qǐng)給個(gè)星
python版本:python2.7
編碼工具:pycharm
數(shù)據(jù)存儲(chǔ):mysql
爬蟲(chóng)結(jié)構(gòu):廣度爬蟲(chóng)
爬蟲(chóng)思路:
先獲取需要采集信息的公司:
從數(shù)據(jù)庫(kù)中獲取
獲取字段:etid,etname
將獲取的數(shù)據(jù)存儲(chǔ)的狀態(tài)表中
從狀態(tài)表中獲取數(shù)據(jù),并更新?tīng)顟B(tài)表
拼接初始URL:
將etname和初始url進(jìn)行拼接,獲得初始網(wǎng)址
將初始url放到一個(gè)列表中,獲取HTML的時(shí)候如何出錯(cuò),將出錯(cuò)的url放到另一個(gè)列表中,進(jìn)行循環(huán)獲取
請(qǐng)求解析初始一級(jí)頁(yè)面:
驗(yàn)證查詢的公司是否正確(??)
獲取二級(jí)頁(yè)面url
將二級(jí)url放到一個(gè)列表中,獲取HTML的時(shí)候如何出錯(cuò),將出錯(cuò)的url放到另一個(gè)列表中,進(jìn)行循環(huán)獲取
請(qǐng)求解析二級(jí)頁(yè)面:
獲取的信息待定
將公司的信息存儲(chǔ)到數(shù)據(jù)庫(kù)中:
建表
存儲(chǔ)信息
所建的表:企業(yè)主要信息: et_host_info
工商信息: et_busi_info
分支機(jī)構(gòu)信息: et_branch_office
軟件著作權(quán)信息: et_container_copyright_info
網(wǎng)站備案信息: et_conrainer_icp_info
對(duì)外投資信息: et_foreign_investment_info
融資信息: et_rongzi_info
股東信息: et_stareholder_info
商標(biāo)信息: et_trademark_info
微信公眾號(hào)信息:et_wechat_list_info
狀態(tài)表: et_name_status
看一下部分的結(jié)果圖:文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/43220.html
摘要:爬蟲(chóng)簡(jiǎn)介這是一個(gè)在未登錄的情況下,根據(jù)企業(yè)名稱(chēng)搜索,爬取企業(yè)頁(yè)面數(shù)據(jù)的采集程序注意這是一個(gè)比較簡(jiǎn)單的爬蟲(chóng),基本上只用到了代理,沒(méi)有用到其他的反反爬技術(shù),不過(guò)由于爬取的數(shù)據(jù)比較多,適合刷解析技能的熟練度,所以高手勿進(jìn)代碼已經(jīng)上傳到上,有用還請(qǐng) 爬蟲(chóng)簡(jiǎn)介 showImg(https://segmentfault.com/img/remote/1460000018233494?w=1088&...
摘要:爬蟲(chóng)數(shù)據(jù)寫(xiě)入文件中文亂碼,用在中打開(kāi)文件沒(méi)有問(wèn)題,但是用打開(kāi)卻出現(xiàn)了問(wèn)題,以下為解決方法。 python爬蟲(chóng)數(shù)據(jù)寫(xiě)入csv文件中文亂碼,用’utf-8‘在pycharm中打開(kāi)文件沒(méi)有問(wèn)題,但是用excel打開(kāi)卻出現(xiàn)了問(wèn)題,以下為解決方法。 (最近在練習(xí)爬蟲(chóng),這個(gè)博文是對(duì)自己學(xué)習(xí)的記錄和分享,...
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:日前,簡(jiǎn)歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。買(mǎi)賣(mài)簡(jiǎn)歷,直接違法。三人累計(jì)販賣(mài)個(gè)人簡(jiǎn)歷萬(wàn)余份,智聯(lián)招聘由此蒙受損失近日前,簡(jiǎn)歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。到底發(fā)生了什么? ?一 、為什么公司全員被抓? 3月14日?qǐng)F(tuán)隊(duì)被警方帶走,有HR等非核心成員回家,但核心高管依然失聯(lián)中。3月25日,一位巧達(dá)科技前員工告訴燃財(cái)經(jīng)。 在天眼查中北京...
摘要:日前,簡(jiǎn)歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。買(mǎi)賣(mài)簡(jiǎn)歷,直接違法。三人累計(jì)販賣(mài)個(gè)人簡(jiǎn)歷萬(wàn)余份,智聯(lián)招聘由此蒙受損失近 日前,簡(jiǎn)歷大數(shù)據(jù)公司巧達(dá)科技被警方一鍋端,高管和員工全部被帶走。到底發(fā)生了什么??一 、為什么公司全員被抓?3月14日?qǐng)F(tuán)隊(duì)被警方帶走,有HR等非核心成員回家,但核心高管依然失...
閱讀 2183·2021-11-11 16:55
閱讀 3248·2021-10-11 10:58
閱讀 3205·2021-09-13 10:28
閱讀 4143·2021-07-26 23:57
閱讀 1141·2019-08-30 15:56
閱讀 1407·2019-08-29 13:15
閱讀 1335·2019-08-26 18:18
閱讀 1359·2019-08-26 13:44