亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

2017中國(guó)大學(xué)排名爬蟲(chóng)代碼修改

Cruise_Chan / 595人閱讀

摘要:課程的第單元中嵩天老師給出的中國(guó)大學(xué)排名爬蟲(chóng)優(yōu)化代碼如果把中的改為就會(huì)出錯(cuò),原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對(duì)這個(gè)問(wèn)題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開(kāi)心。

本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。

課程的第6單元中嵩天老師給出的“中國(guó)大學(xué)排名爬蟲(chóng)”優(yōu)化代碼如果把url中的2016改為2017就會(huì)出錯(cuò),原因:2016年各校排名數(shù)字的html格式為1,而2017年各校排名數(shù)字的html格式為1,針對(duì)這個(gè)問(wèn)題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開(kāi)心。代碼如下:

import requests, bs4, re
from bs4 import BeautifulSoup


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find("tbody").children:
        if isinstance(tr, bs4.element.Tag):
            yield tr   #用到了生成器

def peidui(ulist, html):
    xlt = re.findall(r"d{1,4}?",html)  #用到了最小匹配
    for tr,i in zip(fillUnivList(uinfo, html), xlt): #一次循環(huán)2個(gè)變量用到了zip
        tds = tr("td")
        ulist.append([i.replace("",""), tds[1].string, tds[3].string])

def printUnivList(ulist, num):
    tplt = "{0:^10}	{1:{3}^10}	{2:^10}"
    print(tplt.format("排名","學(xué)校名稱","總分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))
    
def main():
    uinfo = []
    url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html"
    html = getHTMLText(url)
    peidui(uinfo, html)
    printUnivList(uinfo, 20) 
main()

運(yùn)行結(jié)果如下:

排名來(lái)自最好大學(xué)網(wǎng),只是作為爬蟲(chóng)練習(xí)使用,覺(jué)得排名不合適的網(wǎng)友勿噴。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/51658.html

相關(guān)文章

  • 2017中國(guó)大學(xué)排名爬蟲(chóng)代碼修改

    摘要:課程的第單元中嵩天老師給出的中國(guó)大學(xué)排名爬蟲(chóng)優(yōu)化代碼如果把中的改為就會(huì)出錯(cuò),原因年各校排名數(shù)字的格式為而年各校排名數(shù)字的格式為,針對(duì)這個(gè)問(wèn)題,我對(duì)嵩天老師的代碼做了一點(diǎn)修改,可能不是很漂亮,但是實(shí)現(xiàn)了功能我很開(kāi)心。 本文是學(xué)習(xí)http://www.icourse163.org/lea... 課程的代碼實(shí)現(xiàn)和反思。 課程的第6單元中嵩天老師給出的中國(guó)大學(xué)排名爬蟲(chóng)優(yōu)化代碼如果把url中的2...

    figofuture 評(píng)論0 收藏0
  • Java爬蟲(chóng)之爬取中國(guó)高校排名前100名并存入MongoDB中

    摘要:介紹在博客爬蟲(chóng)爬取中國(guó)高校排名前名并寫(xiě)入中,我們利用來(lái)寫(xiě)爬蟲(chóng),將中的大學(xué)排名表格爬取出來(lái),并存入到中。本次分享將用的來(lái)實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫(kù)中。 介紹 ??在博客:Python爬蟲(chóng)——爬取中國(guó)高校排名前100名并寫(xiě)入MySQL中,我們利用Python來(lái)寫(xiě)爬蟲(chóng),將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來(lái),并存入到My...

    jzzlee 評(píng)論0 收藏0
  • Java爬蟲(chóng)之爬取中國(guó)高校排名前100名并存入MongoDB中

    摘要:介紹在博客爬蟲(chóng)爬取中國(guó)高校排名前名并寫(xiě)入中,我們利用來(lái)寫(xiě)爬蟲(chóng),將中的大學(xué)排名表格爬取出來(lái),并存入到中。本次分享將用的來(lái)實(shí)現(xiàn)相同的功能,并將爬取到的數(shù)據(jù)存入到數(shù)據(jù)庫(kù)中。 介紹 ??在博客:Python爬蟲(chóng)——爬取中國(guó)高校排名前100名并寫(xiě)入MySQL中,我們利用Python來(lái)寫(xiě)爬蟲(chóng),將http://gaokao.xdf.cn/201702/1... 中的大學(xué)排名表格爬取出來(lái),并存入到My...

    GeekQiaQia 評(píng)論0 收藏0
  • 中國(guó)公有云廠商2018年收入利潤(rùn)綜合排名詳細(xì)解讀

    摘要:可見(jiàn),實(shí)際公布的中國(guó)公有云供應(yīng)商年收入利潤(rùn)排名榜單是按照綜合業(yè)務(wù)收入來(lái)計(jì)算,并非只是純粹的公有云業(yè)務(wù)。數(shù)據(jù)顯示,年至年中國(guó)公有云市場(chǎng)年均復(fù)合增長(zhǎng)率將達(dá)。這些中國(guó)公有云廠商名單,據(jù)阿明不完全統(tǒng)計(jì),總計(jì)為家。他們說(shuō):看過(guò)排名更懂云了……做這個(gè)排名之前,首先需要說(shuō)明一下這次估算和統(tǒng)計(jì)的公有云供應(yīng)商的業(yè)務(wù)范圍,包括了這些云供應(yīng)商的公有云、CDN、IDC、私有云、混合云、與云相關(guān)的集成項(xiàng)目,共計(jì)六項(xiàng)主...

    Guakin_Huang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<