亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

6.4向量空間模型,余弦相似度計算

不知名網(wǎng)友 / 1795人閱讀

摘要:余弦相似度觀點等價于夾角遞減排序區(qū)間內(nèi),是單調(diào)遞減函數(shù)。長度歸一化后余弦相似度計算舉例詞項頻率詞項頻率取對數(shù)長度歸一化計算文檔詞項頻率關(guān)聯(lián)表如下文檔把表加入上述表之中,分別計算和其他文檔的值,那么就能得出,其他文檔與的相關(guān)度

提示:
信息檢索:文檔評分-詞項權(quán)重計算-向量空間模型
?第四部分:向量空間模型


向量空間模型

關(guān)聯(lián)矩陣

二值關(guān)聯(lián)矩陣:詞項-文檔

詞頻矩陣:詞頻-文檔


權(quán)重是前面的tf-idf權(quán)重

文檔表示成向量

|V|維向量空間,每一維都對應(yīng)詞項,文檔是空間的點或向量。
維度相當(dāng)大,對于互聯(lián)網(wǎng)來說,甚至達到千萬維或更高。
向量空間非常稀疏,幾乎都是0.

Queries表示成向量

■關(guān)鍵思路1:對于查詢做同樣的處理,即將查詢表示成同一高維空間的向量
■關(guān)鍵思路2:在向量空間內(nèi)根據(jù)queries與文檔向量間的距離來排序

向量相似度計算

歐式距離?


計算兩個向量終點之間的距離:
不能采用歐氏距離,從上圖分析,歐氏空間對距離十分敏感,q與d2歐氏距離很遠,但它們實際分布很接近。

利用夾角代替距離

文檔長度歸一化

就是把文檔向量,變成單位向量唄,長度就不會影響相關(guān)性比較了,上面的文檔d和d‘就相等了。同一個向量表示就可以了

L2范數(shù):

向量除以L2范數(shù)就是長度歸一化。
文檔長度差異就不會影響到相關(guān)性的比較了。

余弦相似度(query,document)

觀點等價于夾角遞減排序

[0,180]區(qū)間內(nèi),cosine是單調(diào)遞減函數(shù)。


cos(q,d) q,d的余弦相關(guān)性等價于q,d夾角余弦值。

長度歸一化后:

※余弦相似度計算舉例

詞項頻率tf—>詞項頻率tf取對數(shù)—>長度歸一化—>計算

文檔-詞項頻率tf關(guān)聯(lián)表如下:文檔(sas,pap,wh)


把query表加入上述表之中,分別計算query和其他文檔的cosine值,那么就能得出,其他文檔與query的相關(guān)度

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/125633.html

相關(guān)文章

  • 推薦系統(tǒng)01--余弦相似

    摘要:在近鄰?fù)扑]中,最常用的相似度是余弦相似度。這就是由于余弦相似度被向量長度歸一化后的結(jié)果。用余弦相似度計算出來,兩個用戶的相似度達到。余弦相似度適用于評分數(shù)據(jù),杰卡德相似度適合用于隱式反饋數(shù)據(jù)。 今天,我們來聊聊協(xié)同過濾中的相似度計算方法有哪些。相似度的本質(zhì)推薦系統(tǒng)中,推薦算法分為兩個門派,一個是機器學(xué)習(xí)派,另一個就是相似度門派。機器學(xué)習(xí)派是后起之秀,而相似度派則是泰山北斗,以致?lián)纹饋硗?..

    cncoder 評論0 收藏0
  • 自然語言處理真實項目實戰(zhàn)

    摘要:在自然語言處理中,一個很重要的技術(shù)手段就是將文檔轉(zhuǎn)換為一個矢量,這個過程一般是使用這個庫進行處理的。自然語言處理中,一般來說,代表詞。自然語言預(yù)處理中,一個很重要的步驟就是將你收集的句子進行分詞,將一個句子分解成詞的列表。 前言 本文根據(jù)實際項目撰寫,由于項目保密要求,源代碼將進行一定程度的刪減。本文撰寫的目的是進行公司培訓(xùn),請勿以任何形式進行轉(zhuǎn)載。由于是日語項目,用到的分詞軟件等,在...

    王巖威 評論0 收藏0
  • Move Mirror:使用 TensorFlow.js 在瀏覽器中預(yù)測姿勢之 AI 實驗

    摘要:文和,創(chuàng)意實驗室創(chuàng)意技術(shù)專家在機器學(xué)習(xí)和計算機視覺領(lǐng)域,姿勢預(yù)測或根據(jù)圖像數(shù)據(jù)探測人體及其姿勢的能力,堪稱最令人興奮而又最棘手的一個話題。使用,用戶可以直接在瀏覽器中運行機器學(xué)習(xí)模型,無需服務(wù)器。 文 / ?Jane Friedhoff 和 Irene Alvarado,Google 創(chuàng)意實驗室創(chuàng)意技術(shù)專家在機器學(xué)習(xí)和計算機視覺領(lǐng)域,姿勢預(yù)測或根據(jù)圖像數(shù)據(jù)探測人體及其姿勢的能力,堪稱最令人興...

    MiracleWong 評論0 收藏0
  • 8種相似量方式的原理及實現(xiàn)

    摘要:實現(xiàn)參考鏈接計算各類距離關(guān)于機器學(xué)習(xí)距離的理解機器學(xué)習(xí)中的相似性度量如何通俗易懂地理解皮爾遜相關(guān)系數(shù)數(shù)學(xué)應(yīng)用 8種相似度度量方式的原理及實現(xiàn) 歐氏距離(Euclidean Distance) 歐氏距離(也稱歐幾里得度量)指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離) showImg(https://raw.githubusercontent.com/ele...

    lewif 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<