亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專(zhuān)欄INFORMATION COLUMN

記爬取CET4級(jí)網(wǎng)站的那一夜

huayeluoliuhen / 2392人閱讀

摘要:四級(jí)報(bào)名網(wǎng)站為了公平公正,將每個(gè)報(bào)名學(xué)生的基本信息姓名學(xué)號(hào)大頭照?qǐng)?bào)考等級(jí)放在了網(wǎng)上,這樣同學(xué)院同年級(jí)的同學(xué)就可以進(jìn)行監(jiān)督。正則表達(dá)式爬取的信息文件靠你了接下來(lái)就是用搭一個(gè)搜索引擎了。

首先:
中秋節(jié)快樂(lè)
然后:
沒(méi)有了...
回寢室之前在304的晚上

轉(zhuǎn)眼間就大二了,于是就要考四級(jí),考四級(jí)就要報(bào)名,于是去了報(bào)名網(wǎng)站http://cet.tinyin.net/accuse.asp, 上傳了照片,報(bào)了名,理論上就結(jié)束了。但是,中秋要來(lái)了,我要做點(diǎn)什么。

四級(jí)報(bào)名網(wǎng)站為了公平公正,將每個(gè)報(bào)名學(xué)生的基本信息(姓名、學(xué)號(hào)、大頭照、報(bào)考等級(jí))放在了網(wǎng)上,這樣同學(xué)院、同年級(jí)的同學(xué)就可以進(jìn)行監(jiān)督。不得不說(shuō),證件照是很吸引人的部分,于是我審查了頁(yè)面元素,希望可以發(fā)現(xiàn)更多a。




CET4網(wǎng)站為了防我這種好奇心很強(qiáng)的人還是做了一些處理,登錄url/login.asp實(shí)際上是一個(gè)refer,真正的登錄url是http://cet.tinyin.net/reginfo.asp|573597a1f9200a18be60068dca9ced0f7|,我要做的,就是利用我的用戶名和密碼登入網(wǎng)站,獲取cookie,然后利用cookie進(jìn)行后續(xù)登錄。當(dāng)然,首先需要把我自己變成瀏覽器啦

def __init__(self):
    self.user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:42.0) Gecko/20100101 Firefox/42.0"
    self.headers = {
            "User-Agent":self.user_agent,
            "Referer":"http://cet.tinyin.net/login.asp",
            "Accept-encoding":"gzip"
    }
    self.postdata = urllib.urlencode({
            "stype":"#",
            "stuno":"2014214761",
            "stupwd":"密碼就不說(shuō)了"
    })

然后就是登錄獲取cookie

def analog_login(self):
    """
    登錄cet4網(wǎng)站,獲取cookie,并將
    cookie保存至文件
    """
    filename = "cet4_cookie.txt"
    cookie = cookielib.MozillaCookieJar(filename)
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

    login_url = "http://cet.tinyin.net/reginfo.asp"
    request = urllib2.Request(login_url, self.postdata, self.headers)
    opener.open(request)
    cookie.save(ignore_discard=True, ignore_expires=True)

cookie get!!!

# Netscape HTTP Cookie File
# http://www.netscape.com/newsref/std/cookie_spec.html
# This is a generated file!  Do not edit.

cet.tinyin.net    FALSE    /    FALSE        ASPSESSlllllDAQBASRAC    LKNFEMDCDOLABMFPLLLLL
該正則表達(dá)式上場(chǎng)了!

首先實(shí)驗(yàn)一下,cookie能否正常使用, 嘗試訪問(wèn) http://cet.tinyin.net/accuse.asp 頁(yè)面, cookie是沒(méi)問(wèn)題,但是html卻是中文亂碼,沒(méi)關(guān)系,改成utf-8,就行

html = response.read().decode("gbk").encode("utf-8’)



現(xiàn)在,一切都豁然開(kāi)朗了,我只需要爬取標(biāo)簽,將獲取的學(xué)號(hào)和姓名寫(xiě)入文件就行了。

正則表達(dá)式 parttern = re.compile("(.*?)

(.*?)

", re.S)

爬取的信息文件

flask 靠你了

接下來(lái)就是用flask搭一個(gè)搜索引擎了。在文字編碼這一塊用了很長(zhǎng)時(shí)間,因?yàn)楸韱蔚妮斎霐?shù)據(jù)編碼和文件的編碼是不匹配的,經(jīng)過(guò)幾次實(shí)驗(yàn),我發(fā)現(xiàn)需要將表單輸入數(shù)據(jù)decode為漢字編碼

name = form.name.data.decode("utf-8")

編碼真頭痛?。】匆幌逻@篇吧http://dengshuan.me/misc/xi-shuo-bian-ma...

ok了


備注 實(shí)際的過(guò)程沒(méi)有上面說(shuō)的這么的一氣呵成,中間還睡了一覺(jué)? 兩瓶啤酒沒(méi)有喝完 信息都是公開(kāi)的,應(yīng)該沒(méi)有侵犯隱私吧? 開(kāi)心就好?

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/37869.html

相關(guān)文章

  • Python爬蟲(chóng)神器pyppeteer,對(duì) js 加密降維打擊

    摘要:爬蟲(chóng)神器,對(duì)加密降維打擊是對(duì)無(wú)頭瀏覽器的封裝。使用等其他無(wú)頭瀏覽器的最大優(yōu)勢(shì)當(dāng)然是對(duì)加密實(shí)行降維打擊,完全無(wú)視加密手段,對(duì)于一些需要登錄的應(yīng)用,也可以模擬點(diǎn)擊然后保存。請(qǐng)求過(guò)濾你的那一段頁(yè)面自動(dòng)下拉腳本 爬蟲(chóng)神器pyppeteer,對(duì) js 加密降維打擊 pyppeteer?是對(duì)無(wú)頭瀏覽器?puppeteer的 Python 封裝。無(wú)頭瀏覽器廣泛用于自動(dòng)化測(cè)試,同時(shí)也是一種很好地爬蟲(chóng)思...

    Karuru 評(píng)論0 收藏0
  • Python 詞云分析周杰倫《晴天》

    摘要:詞云可以通過(guò)網(wǎng)站紐扣詞云來(lái)制作,然而可以通過(guò)代碼來(lái)實(shí)現(xiàn),下面開(kāi)始吧。 詞云可以通過(guò)網(wǎng)站 https://wordart.com/ 紐扣詞云http://cloud.niucodata.com/ 來(lái)制作,然而 Python 可以通過(guò)代碼來(lái)實(shí)現(xiàn),下面開(kāi)始吧。 showImg(https://segmentfault.com/img/bVQzIx?w=874&h=416); pip inst...

    DoINsiSt 評(píng)論0 收藏0
  • 爬蟲(chóng)初級(jí)操作(一)

    摘要:一個(gè)對(duì)應(yīng)相應(yīng)的狀態(tài)碼,狀態(tài)碼表示協(xié)議所返回的響應(yīng)的狀態(tài)。下面將狀態(tài)碼歸結(jié)如下繼續(xù)客戶端應(yīng)當(dāng)繼續(xù)發(fā)送請(qǐng)求。繼續(xù)處理由擴(kuò)展的狀態(tài)碼,代表處理將被繼續(xù)執(zhí)行。處理方式丟棄該狀態(tài)碼不被的應(yīng)用程序直接使用,只是作為類(lèi)型回應(yīng)的默認(rèn)解釋。 本篇內(nèi)容為 python 網(wǎng)絡(luò)爬蟲(chóng)初級(jí)操作,內(nèi)容主要有以下 3 部分: python 關(guān)于爬蟲(chóng)的一些基本操作和知識(shí) 靜態(tài)網(wǎng)頁(yè)抓取 動(dòng)態(tài)網(wǎng)頁(yè)抓取 基本操作和知識(shí)...

    Ocean 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<