亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

jsoup爬蟲工具的簡單使用

MRZYD / 3240人閱讀

摘要:爬蟲工具的使用需要的包解決方案通過獲得對象,調(diào)用等方法獲得對象,調(diào)用等方法,獲得自己想要的內(nèi)容。也可以使用增強(qiáng)型循環(huán)將它遍歷。其中方法是獲得該元素的某某屬性值,比如標(biāo)簽的值。如果一次方法沒用選到具體的,可以多次使用該方法。

jsoup爬蟲工具的使用:

  *需要的jar包 --> Jsoup*

解決方案:
1.通過url 獲得doucment對象,
2.調(diào)用select()等方法獲得Elements對象,
3.調(diào)用.text()等方法,獲得自己想要的內(nèi)容。

以下是第一步的三種方法,其中第一種是jsoup的提供的方法,二三兩種是java自帶的方法,
只是在方法結(jié)尾處用到了jsoup的Jsoup.parse()方法將String類型的對象轉(zhuǎn)化為Document對象,方便二三步驟使用Jsoup的解析。
1.1

public Document getDoc (String url){
    try {
        Document  doc = Jsoup.connect(url)
                .header("Accept-Encoding", "gzip, deflate")  
                .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0)Gecko/20100101 Firefox/23.0")  
                .maxBodySize(0)  
                .timeout(600000000)  
                .get();
        return doc;
    } catch (IOException e) {
        e.printStackTrace();
        return null;
    }
}

1.2

public Document getDoc(String  str) throws Exception    {
    URL url = new URL(str);
    HttpURLConnection conn = (HttpURLConnection)url.openConnection();
    conn.setRequestMethod("GET");
    conn.setConnectTimeout(5 * 1000);
    InputStream inStream =  conn.getInputStream();
    byte[] data = readInputStream(inStream);
    String htmlSource = new String(data);
    return Jsoup.parse(htmlSource);
}

1.3

 public Document getDoc(String url) throws Exception {
    String ret = "";
    WebClient webClient = new WebClient(BrowserVersion.CHROME);
    webClient.getOptions().setJavaScriptEnabled(true);
    webClient.getOptions().setCssEnabled(false);
    webClient.getOptions().setRedirectEnabled(true);
    webClient.getOptions().setThrowExceptionOnScriptError(false);
    webClient.setAjaxController(new NicelyResynchronizingAjaxController());
    webClient.getOptions().setTimeout(10000);
    WebRequest webRequest = new WebRequest(new URL(url));
    webRequest.setHttpMethod(HttpMethod.GET);
    HtmlPage page = webClient.getPage(webRequest);
    webClient.waitForBackgroundJavaScript(1000);
    ret = page.asXml();
    webClient.close();
    return Jsoup.parse(ret );
}   

2.看下面例子, 這個(gè)select 方法在Document, Element,或Elements對象中都可以使用。Select方法將返回一個(gè)Elements集合。

doc是我們通過第一步獲得的doucmen對象。select括號里面的意思是class為content-item和expert的a標(biāo)簽        元素。多個(gè)class記得要用逗號隔開。
其中的 “a” 可以是 “div”、“span”等標(biāo)簽名。
    Elements  contentEs = doc.select("a.content-item,expert");
    
因?yàn)楂@得的不是一個(gè)元素,所以使用get(index)方法,獲得對應(yīng)的元素,以0開始。
    Element  contentE = contentEs.get(0);

也可以使用增強(qiáng)型for循環(huán)將它遍歷。其中.attr()方法是獲得該元素的某某屬性值,比如a標(biāo)簽的href值。
    for(Element e : contentEs ){
            e.attr("href");
    }

如果一次select()方法沒用選到具體的,可以多次使用該方法。下面就調(diào)用了三次select()方法。
   Elements e = doc.select("div.menu-item,menu-skincare");
   Elements ee = e.select("div.column");
    for(int i=0 ; i

3.text()方法是將Element(s)對象轉(zhuǎn)化為String類型。

    String result  = eee.text();

以上只是我在爬某網(wǎng)站用到的,之前沒有接觸過jsoup,也是隨用隨學(xué),除了這些在還有很多(來自jsoup中文幫助文檔) :

Selector選擇器概述

?    tagname: 通過標(biāo)簽查找元素,比如:a
?    ns|tag: 通過標(biāo)簽在命名空間查找元素,比如:可以用 fb|name 語法來查找  元素
?    #id: 通過ID查找元素,比如:#logo
?    .class: 通過class名稱查找元素,比如:.masthead
?    [attribute]: 利用屬性查找元素,比如:[href]
?    [^attr]: 利用屬性名前綴來查找元素,比如:可以用[^data-] 來查找?guī)в蠬TML5 Dataset屬性的元素
?    [attr=value]: 利用屬性值來查找元素,比如:[width=500]
?    [attr^=value], [attr$=value], [attr*=value]: 利用匹配屬性值開頭、結(jié)尾或包含屬性值來查找元素,比如:[href*=/path/]
?    [attr~=regex]: 利用屬性值匹配正則表達(dá)式來查找元素,比如: img[src~=(?i).(png|jpe?g)]
?    *: 這個(gè)符號將匹配所有元素

Selector選擇器組合使用

?    el#id: 元素+ID,比如: div#logo
?    el.class: 元素+class,比如: div.masthead
?    el[attr]: 元素+class,比如: a[href]
?    任意組合,比如:a[href].highlight
?    ancestor child: 查找某個(gè)元素下子元素,比如:可以用.body p 查找在"body"元素下的所有 p元素
?    parent > child: 查找某個(gè)父元素下的直接子元素,比如:可以用div.content > p 查找 p 元素,也可以用body > * 查找body標(biāo)簽下所有直接子元素
?    siblingA + siblingB: 查找在A元素之前第一個(gè)同級元素B,比如:div.head + div
?    siblingA ~ siblingX: 查找A元素之前的同級X元素,比如:h1 ~ p
?    el, el, el:多個(gè)選擇器組合,查找匹配任一選擇器的唯一元素,例如:div.masthead, div.logo

偽選擇器selectors

?    :lt(n): 查找哪些元素的同級索引值(它的位置在DOM樹中是相對于它的父節(jié)點(diǎn))小于n,比如:td:lt(3) 表示小于三列的元素 
?    :gt(n):查找哪些元素的同級索引值大于n,比如: div p:gt(2)表示哪些div中有包含2個(gè)以上的p元素
?    :eq(n): 查找哪些元素的同級索引值與n相等,比如:form input:eq(1)表示包含一個(gè)input標(biāo)簽的Form元素
?    :has(seletor): 查找匹配選擇器包含元素的元素,比如:div:has(p)表示哪些div包含了p元素 
?    :not(selector): 查找與選擇器不匹配的元素,比如: div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表 
?    :contains(text): 查找包含給定文本的元素,搜索不區(qū)分大不寫,比如: p:contains(jsoup)
?    :containsOwn(text): 查找直接包含給定文本的元素
?    :matches(regex): 查找哪些元素的文本匹配指定的正則表達(dá)式,比如:div:matches((?i)login)
?    :matchesOwn(regex): 查找自身包含文本匹配指定正則表達(dá)式的元素
?    注意:上述偽選擇器索引是從0開始的,也就是說第一個(gè)元素索引值為0,第二個(gè)元素index為1等

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/67094.html

相關(guān)文章

  • Java爬蟲之利用Jsoup自制簡單搜索引擎

    摘要:的官方網(wǎng)址為,其使用手冊網(wǎng)址為本次分享將實(shí)現(xiàn)的功能為利用爬取某個(gè)搜索詞語暫僅限英文的百度百科的介紹部分,具體的功能介紹可以參考博客爬蟲自制簡單的搜索引擎。 ??Jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。Jsoup的官方網(wǎng)址為: https:...

    GHOST_349178 評論0 收藏0
  • 爬蟲實(shí)現(xiàn):根據(jù)IP地址反查域名

    摘要:域名解析與地址域名解析是把域名指向網(wǎng)站空間,讓人們通過注冊的域名可以方便地訪問到網(wǎng)站的一種服務(wù)地址是網(wǎng)絡(luò)上標(biāo)識站點(diǎn)的數(shù)字地址,為了方便記憶,采用域名來代替地址標(biāo)識站點(diǎn)地址。 域名解析與IP地址 域名解析是把域名指向網(wǎng)站空間IP,讓人們通過注冊的域名可以方便地訪問到網(wǎng)站的一種服務(wù);IP地址是網(wǎng)絡(luò)上標(biāo)識站點(diǎn)的數(shù)字地址,為了方便記憶,采用域名來代替IP地址標(biāo)識站點(diǎn)地址。域名解析就是域名到IP...

    caohaoyu 評論0 收藏0
  • Java爬蟲之下載全世界國家國旗圖片

    摘要:介紹本篇博客將繼續(xù)上一篇博客爬蟲之使用的模塊爬取各國國旗的內(nèi)容,將用來實(shí)現(xiàn)這個(gè)爬蟲,下載全世界國家的國旗圖片。 介紹 ??本篇博客將繼續(xù)上一篇博客:Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗 的內(nèi)容,將用Java來實(shí)現(xiàn)這個(gè)爬蟲,下載全世界國家的國旗圖片。項(xiàng)目不再過多介紹,具體可以參考上一篇博客。??我們將全世界國家的名稱放在一個(gè)...

    YancyYe 評論0 收藏0
  • Jsoup爬蟲獲取自己網(wǎng)站在百度搜索中實(shí)時(shí)排名

    摘要:沒有結(jié)果返回百度搜索的可以指定頁碼,最多一頁個(gè),使用后有效減少了連接次數(shù)。但親測下來設(shè)置過以后的結(jié)果與實(shí)際用戶在百度搜索的結(jié)果排序和個(gè)數(shù)都有出入。 showImg(https://segmentfault.com/img/bVbnA0I?w=1280&h=787); 一直有一個(gè)需求,希望看到自己網(wǎng)站在百度的實(shí)時(shí)的排名用過一些工具,要么反應(yīng)遲鈍,要么結(jié)果不準(zhǔn)確或不實(shí)時(shí)于是打算用jsoup...

    陳偉 評論0 收藏0
  • Java爬蟲Jsoup + Phantomjs

    摘要:一是一個(gè)開源解析器,可直接解析某個(gè)地址文本內(nèi)容。通過或選擇器來查找取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。無頭瀏覽器一個(gè)完整的瀏覽器內(nèi)核包括解析引擎渲染引擎請求處理等但是不包括顯示和用戶交互頁面的瀏覽器。 (一)Jsoup Jsoup是一個(gè)Java開源HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。通過Dom或Css選擇器來查找、取出數(shù)據(jù),實(shí)現(xiàn)爬蟲。 maven坐標(biāo) or...

    songze 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<