得到 html
import requests html=requests.get("http://sc.hkex.com.hk/TuniS/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm").content解析數(shù)據(jù)
from pyquery import PyQuery as Q q=Q(html) tr = q("tr.tr_normal")導(dǎo)入 db
db=zpool["mysql+mysqldb://root:pwd@dbhost:3306/glhdb"] sqls = ["INSERT INTO `stocks_code` (`name`, `code`) VALUES ("{0}","{1}")".format(Q(i)("td")[0].text.encode("utf8","ignore"), ((Q(Q(i)("td")[1])("a") and Q(Q(i)("td")[1])("a")[0].text) or u"").encode("utf8","ignore").strip(")").strip(""").replace(""",""")) for i in tr[0:-3]] [db.execute(text(i)) for i in sqls]
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/37348.html
摘要:準(zhǔn)備工作查看肯德基官網(wǎng)的請(qǐng)求方法請(qǐng)求。判斷得肯德基官網(wǎng)是請(qǐng)求通過這兩個(gè)準(zhǔn)備步驟,明確本次爬蟲目標(biāo)的請(qǐng)求肯德基官網(wǎng)獲取上??系禄攸c(diǎn)前頁。構(gòu)造不難發(fā)現(xiàn),肯德基官網(wǎng)的的一個(gè)共同點(diǎn),我們把它保存為。 ...
摘要:返回結(jié)果如下,接下來我們便開始爬取西刺代理,首先我們打開瀏覽器查看網(wǎng)頁,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重復(fù)的等待秒將要爬取頁數(shù)的爬取好后存入數(shù)組,然后再對(duì)其中的逐一測(cè)試。 有時(shí)候在網(wǎng)站看小說,會(huì)莫名跳出來一個(gè)疑似機(jī)器惡意爬取,暫時(shí)無法訪問這樣類似的網(wǎng)站提示,需要刷新一下或者輸入一個(gè)驗(yàn)證碼才能重新進(jìn)入,這樣的情況偶有發(fā)生,相信大家都有遇到過。出現(xiàn)這個(gè)現(xiàn)象的...
摘要:返回結(jié)果如下,接下來我們便開始爬取西刺代理,首先我們打開瀏覽器查看網(wǎng)頁,并找到和端口元素的信息。爬取代理地址,代理的是西刺代理去掉可能重復(fù)的等待秒將要爬取頁數(shù)的爬取好后存入數(shù)組,然后再對(duì)其中的逐一測(cè)試。 有時(shí)候在網(wǎng)站看小說,會(huì)莫名跳出來一個(gè)疑似機(jī)器惡意爬取,暫時(shí)無法訪問這樣類似的網(wǎng)站提示,需要刷新一下或者輸入一個(gè)驗(yàn)證碼才能重新進(jìn)入,這樣的情況偶有發(fā)生,相信大家都有遇到過。出現(xiàn)這個(gè)現(xiàn)象的...
摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
閱讀 885·2023-04-25 15:13
閱讀 1501·2021-11-22 12:03
閱讀 923·2021-11-19 09:40
閱讀 2099·2021-11-17 09:38
閱讀 1821·2021-11-08 13:18
閱讀 742·2021-09-02 15:15
閱讀 1831·2019-08-30 15:54
閱讀 2826·2019-08-30 11:12