Spark綜合學(xué)習(xí)筆記（三）搜狗搜索日志分析

AZmake 發(fā)布于2021-11-18 10:02 / 3371人閱讀

摘要：學(xué)習(xí)致謝一數(shù)據(jù)數(shù)據(jù)網(wǎng)站二需求針對用戶查詢?nèi)罩緮?shù)據(jù)中不同字段，使用讀取日志數(shù)據(jù)，封裝到數(shù)據(jù)集中，調(diào)用函數(shù)和函數(shù)進行處理不同業(yè)務(wù)統(tǒng)計分析三分詞工具測試使用比較流行好用的中文分區(qū)面向生產(chǎn)環(huán)境的自然語言處理工具包，是由一系列模

學(xué)習(xí)致謝：

https://www.bilibili.com/video/BV1Xz4y1m7cv?p=36

一、數(shù)據(jù)

數(shù)據(jù)網(wǎng)站： http: //www.sogou.com/labs/resource/q.php

二、需求

針對SougoQ用戶查詢?nèi)罩緮?shù)據(jù)中不同字段，使用SparkContext讀取日志數(shù)據(jù)，封裝到RDD數(shù)據(jù)集中，調(diào)用Transformation函數(shù)和Action函數(shù)進行處理不同業(yè)務(wù)統(tǒng)計分析

三、分詞工具測試

使用比較流行好用的中文分區(qū)：HanLP,面向生產(chǎn)環(huán)境的自然語言處理工具包，HanLP是由一系列模型與算法組成的Java工具包，目標是普及自然語言處理在生產(chǎn)環(huán)境中的應(yīng)用
官方網(wǎng)站：http://www.hanlp.com/ 添加maven依賴

<dependency><groupId>com.hankcsgroupId><artifactId>hanlpartifactId><version>portable-1.7.7version>dependency>

import com.hankcs.hanlp.HanLPimport com.hankcs.hanlp.seg.common.Termimport scala.collection.JavaConverters._object HanLPTest {  object HanLPTest {    def main(args: Array[String]):Unit = {      val words = "[HanLP入門案例]"      val terms: util.List[Term] = HanLP.segment(words)//對詞進行分段      println(terms)//直接打印java的List:[[/w，HanLP/nx，入門/vn，案例/n，]/w]      println(terms.asScala.map(_.word))//轉(zhuǎn)為scaLa的List:ArrayBuffer([，HanLP，入門，案例，])      val cleanwords1: String = words.replaceAll("HM[/NN]","")//將"["或"]"替換為空""http://"HanLP入門案例"      println(cleanwords1)//HanLP入門案例      println(HanLP.segment(cleanwords1).asScala.map(_.word))//ArrayBuffer (HanLP,入門,案例)      val log = """e:00:00 2982199073774412 [360安全衛(wèi)士] 8 3 download.it.com.cn/softweb/software/firewall/antivirus/20036/179"""      val cleanwords2 = log.split("Ils+")(2)//7[360安全衛(wèi)士]      println(HanLP.segment(cleanwords2).asScala.map(_.word))//ArrayBuffer(360,安全衛(wèi)士)    }  }}

運行結(jié)果

四、代碼實現(xiàn)

import com.hankcs.hanlp.HanLPimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable/**  * Author  * DESC 需求：對SougouSearchLog進行分詞并統(tǒng)計如下指標  * 1.熱門搜索詞  * 2.用戶熱門搜索詞（帶上用戶id）  * 3.各個時間段搜索熱度  */object SouGouSearchAnalysis {  def main(args: Array[String]): Unit = {    //TODO 0.準備環(huán)境    val conf: SparkConf=new SparkConf().setAppName("spark").setMaster("local[*]")    val sc: SparkContext=new SparkContext(conf)    sc.setLogLevel("WARN")    //TODO 1.加載數(shù)據(jù)    val lines:RDD[String]=sc.textFile("data/SogouQ.sample")    //TODO 2.處理數(shù)據(jù)    //封裝數(shù)據(jù)    val  SogouRecordRDD: RDD[SogouRecord]=lines.map(line=>{//map是一個進去一個出去        var arr: Array[String]=line.split("http://s+")      SogouRecord(        arr(0),        arr(1),        arr(2),        arr(3).toInt,        arr(4).toInt,        arr(5)      )  })    //切割數(shù)據(jù)    val wordsRDD:RDD[String]=SogouRecordRDD.flatMap(record=>{ //flatmap是一個進去多個出去會被壓扁 //360安全衛(wèi)士==》[360,安全衛(wèi)士]      val wordsStr:String =record.queryWords.replaceAll("http://[|//]","")//360安全衛(wèi)士      import scala.collection.JavaConverters._//將Java集合轉(zhuǎn)為Scala集合      HanLP.segment(wordsStr).asScala.map(_.word)//ArrayBuffer(360,安全衛(wèi)士)    })    //TODO 3.統(tǒng)計指標    //1.熱門搜索詞    val result1: Array[(String,Int)]=wordsRDD      .filter(word=> !word.equals(".")&& !word.equals("+"))      .map((_,1))        .reduceByKey(_+_)        .sortBy(_._2,false)        .take(10)    // 2.用戶熱門搜索詞（帶上用戶id）    val userIdAndWordRDD:RDD[(String,String)]=SogouRecordRDD.flatMap(record=>{ //flatmap是一個進去多個出去會被壓扁 //360安全衛(wèi)士==》[360,安全衛(wèi)士]      val wordsStr:String =record.queryWords.replaceAll("http://[|//]","")//360安全衛(wèi)士      import scala.collection.JavaConverters._//將Java集合轉(zhuǎn)為Scala集合      val words: mutable.Buffer[String]=HanLP.segment(wordsStr).asScala.map(_.word)//ArrayBuffer(360,安全衛(wèi)士)      val userId: String=record.userId      words.map(word=>(userId,word))    })    val result2: Array[((String,String),Int)]=userIdAndWordRDD      .filter(word=> !word._2.equals(".")&& !word._2.equals("+"))      .map((_,1))      .reduceByKey(_+_)      .sortBy(_._2,false)      .take(10)    // 3.各個時間段搜索熱度    val result3: Array[(String,Int)]=SogouRecordRDD.map(record=>{      val timeStr:String=record.queryTime      val hourAndMinunesStr:String =timeStr.substring(0,5)      (hourAndMinunesStr,1)    }).reduceByKey(_+_)        .sortBy(_._2,false)        .take(10)    //TODO 4.輸出結(jié)果    result1.foreach(println)    result2.foreach(println)    result3.foreach(println)    //TODO 5.釋放資源      sc.stop()  }//準備一個樣例類用來封裝數(shù)據(jù)}/**用戶搜索點擊網(wǎng)頁記錄Record  *@param queryTime 訪問時間，格式為：HH:mm:ss  *@param userId     用戶ID  *@param queryWords 查詢詞  *@param resultRank 該URL在返回結(jié)果中的排名  *@param clickRank  用戶點擊的順序號  *@param clickUrl   用戶點擊的URL  */case class SogouRecord(                        queryTime:String,                        userId:String,                        queryWords:String,                        resultRank:Int,                        clickRank:Int,                        clickUrl:String                      )

云服務(wù)器 GPU云服務(wù)器 spark日志分析日志分析spark 數(shù)據(jù)分析綜合分析數(shù)據(jù)綜合分析

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.ezyhdfw.cn/yun/123676.html

發(fā)表評論

登陸后可評論

0條評論

AZmake

男|高級講師

我要關(guān)注我要私信

TA的文章

Spark綜合學(xué)習(xí)筆記（三）搜狗搜索日志分析

閱讀 3372·2021-11-18 10:02
為什么這么多應(yīng)屆生要進入互聯(lián)網(wǎng)行業(yè)？

閱讀 3522·2021-10-11 10:58
長知識了！這8個很少用但卻很實用的 Python 庫真棒！

閱讀 3448·2021-09-24 09:47
云主機怎么登陸-怎么登錄云主機？

閱讀 1218·2021-09-22 15:21
寶塔面板建站網(wǎng)站未備案域名無法打開網(wǎng)頁怎么解決?

閱讀 4185·2021-09-10 11:10
??擼完這個springboot項目，我對boot輕車熟路！【源碼+視頻都開源】【強烈建議收藏】??

閱讀 3324·2021-09-03 10:28
初探keyframes-animation

閱讀 1805·2019-08-30 15:45
div垂直居中知幾種？

閱讀 2223·2019-08-30 14:22

亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！