使用python爬蟲實(shí)現(xiàn)子域名探測(cè)問(wèn)題

89542767 發(fā)布于2022-11-05 15:29 / 568人閱讀

　　大家都知道，在python當(dāng)中，需要面對(duì)是各種各樣的問(wèn)題，比如我們需要用到的是：使用python爬蟲實(shí)現(xiàn)子域名探測(cè)，這種技能是值得我們?nèi)ミM(jìn)行學(xué)習(xí)的，但是學(xué)習(xí)的話，內(nèi)容還是比較多的，下面就具體的內(nèi)容，給大家做出一個(gè)詳細(xì)解答。

　　前言

　　意義：子域名枚舉是為一個(gè)或多個(gè)域查找子域的過(guò)程，它是信息收集階段的重要組成部分。

　　實(shí)現(xiàn)方法：使用爬蟲與字典爆破。

　　一、爬蟲

　　1.ip138

　　def search_2(domain):
　　res_list=[]
　　headers={
　　'Accept':'*/*',
　　'Accept-Language':'en-US,en;q=0.8',
　　'Cache-Control':'max-age=0',
　　'User-Agent':'Mozilla/5.0(X11;Linux x86_64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/48.0.2564.116 Safari/537.36',
　　'Connection':'keep-alive',
　　'Referer':'http://www.baidu.com/'
　　}
　　results=requests.get('https://site.ip138.com/'+domain+'/domain.htm',headers=headers)
　　soup=BeautifulSoup(results.content,'html.parser')
　　job_bt=soup.findAll('p')
　　try:
　　for i in job_bt:
　　link=i.a.get('href')
　　linkk=link[1:-1]
　　res_list.append(linkk)
　　print(linkk)
　　except:
　　pass
　　print(res_list[:-1])
　　if __name__=='__main__':
　　search_2("jd.com")

　　返回結(jié)果：

　　2.bing

　　def search_1(site):
　　Subdomain=[]
　　headers={
　　'Accept':'*/*',
　　'Accept-Language':'en-US,en;q=0.8',
　　'Cache-Control':'max-age=0',
　　'User-Agent':'Mozilla/5.0(X11;Linux x86_64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/48.0.2564.116 Safari/537.36',
　　'Connection':'keep-alive',
　　'Referer':'http://www.baidu.com/'
　　}
　　for i in range(1,16):
　　url="https://cn.bing.com/search?q=site%3A"+site+"&go=Search&qs=ds&first="+str(
　　(int(i)-1)*10)+"&FORM=PERE"
　　#conn=requests.session()
　　#conn.get('http://cn.bing.com',headers=headers)
　　#html=conn.get(url,stream=True,headers=headers)
　　html=requests.get(url,stream=True,headers=headers)
　　soup=BeautifulSoup(html.content,'html.parser')
　　#print(soup)
　　job_bt=soup.findAll('h2')
　　for i in job_bt:
　　link=i.a.get('href')
　　print(link)
　　if link in Subdomain:
　　pass
　　else:
　　Subdomain.append(link)
　　print(Subdomain)
　　if __name__=='__main__':
　　search_1("jd.com")

　　返回結(jié)果：

　　二、通過(guò)字典進(jìn)行子域名爆破

　　def dict(url):
　　for dict in open('dic.txt'):#這里用到子域名字典文件dic.txt
　　dict=dict.replace('\n',"")
　　zym_url=dict+"."+url
　　try:
　　ip=socket.gethostbyname(zym_url)
　　print(zym_url+"--&gt;"+ip)
　　time.sleep(0.1)
　　except Exception as e:
　　#print(zym_url+"--&gt;"+ip+"--error")
　　time.sleep(0.1)
　　if __name__=='__main__':
　　dict("jd.com")

　　返回結(jié)果：

　　三、python爬蟲操作步驟

　　1.寫出請(qǐng)求頭headers與目標(biāo)網(wǎng)站url

　　headers={
　　'User-Agent':"Mozilla/5.0(Windows NT 10.0)AppleWebKit/537.36(KHTML,like Gecko)Chrome/42.0.2311.135 Safari/537.36 Edge/12.10240"
　　}
　　url="https://site.ip138.com/"

　　2.生成請(qǐng)求

　　get：res=requests.get(url+domain,headers=headers)
　　post：res=requests.post(url+domain,headers=headers,data=data)

　　3.抓取數(shù)據(jù)

　soup=BeautifulSoup(res.content,'html.parser')#以html解析器解析res的內(nèi)容

　　此時(shí)print(soup)，返回結(jié)果：

　　4.分析源碼，截取標(biāo)簽中內(nèi)容

　　1.通過(guò)分析源碼，確定需要提取p標(biāo)簽中的內(nèi)容：

　　job_bt=soup.findAll('p')

　　此時(shí)print(job_bt)，返回結(jié)果：

　　2.繼續(xù)提取a標(biāo)簽內(nèi)屬性為href的值：

　　try:
　　for i in job_bt:
　　link=i.a.get('href')
　　linkk=link[1:-1]
　　res_list.append(linkk)
　　print(linkk)
　　except:
　　pass

　　得結(jié)果：

　　3.再進(jìn)行截?。?/p>

　　res_list[:-1]

　　得結(jié)果：

　　四、爬蟲一些總結(jié)

　　1.抓取數(shù)據(jù)，生成soup

　　soup=BeautifulSoup(res.content,'html.parser')#以html解析器解析res的內(nèi)容

　　2.從文檔中獲取所有文字內(nèi)容

　print(soup.get_text())

　　3.從文檔中找到所有<a>標(biāo)簽的鏈接

　　for link in soup.find_all('a'):
　　print(link.get('href'))

　　綜上所述，這篇文章就給大家介紹到這里了，希望可以給大家?guī)?lái)更多的幫助。

GPU云服務(wù)器云服務(wù)器 python實(shí)現(xiàn)爬蟲 python實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲創(chuàng)建子域名添加子域名

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://www.ezyhdfw.cn/yun/128252.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說(shuō)明

閱讀 1066·2023-01-14 11:38
OpenMV與JSON編碼問(wèn)題分析

閱讀 1062·2023-01-14 11:04
python中的特性管理模式詳細(xì)說(shuō)明

閱讀 901·2023-01-14 10:48
Python運(yùn)用fastapi完成上傳圖片

閱讀 2377·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 1147·2023-01-14 10:24
Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

閱讀 1026·2023-01-14 10:18
本文輕輕松松掌握Python中類的繼承

閱讀 654·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 733·2023-01-14 10:02

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用python爬蟲實(shí)現(xiàn)子域名探測(cè)問(wèn)題

相關(guān)文章

一名爬蟲工程師的運(yùn)維入門之路：dnspython學(xué)習(xí)筆記

Evil Python

Python-爬蟲工程師-面試總結(jié)

發(fā)表評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說(shuō)明

OpenMV與JSON編碼問(wèn)題分析

python中的特性管理模式詳細(xì)說(shuō)明

Python運(yùn)用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

本文輕輕松松掌握Python中類的繼承

python中wordcloud組裝方式總結(jié)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

使用python爬蟲實(shí)現(xiàn)子域名探測(cè)問(wèn)題

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！