摘要:余弦相似度觀點等價于夾角遞減排序區(qū)間內(nèi),是單調(diào)遞減函數(shù)。長度歸一化后余弦相似度計算舉例詞項頻率詞項頻率取對數(shù)長度歸一化計算文檔詞項頻率關(guān)聯(lián)表如下文檔把表加入上述表之中,分別計算和其他文檔的值,那么就能得出,其他文檔與的相關(guān)度
提示:
信息檢索:文檔評分-詞項權(quán)重計算-向量空間模型
?第四部分:向量空間模型
二值關(guān)聯(lián)矩陣:詞項-文檔
詞頻矩陣:詞頻-文檔
權(quán)重是前面的tf-idf權(quán)重:
|V|維向量空間,每一維都對應(yīng)詞項,文檔是空間的點或向量。
維度相當(dāng)大,對于互聯(lián)網(wǎng)來說,甚至達到千萬維或更高。
向量空間非常稀疏,幾乎都是0.
■關(guān)鍵思路1:對于查詢做同樣的處理,即將查詢表示成同一高維空間的向量
■關(guān)鍵思路2:在向量空間內(nèi)根據(jù)queries與文檔向量間的距離來排序
計算兩個向量終點之間的距離:
不能采用歐氏距離,從上圖分析,歐氏空間對距離十分敏感,q與d2歐氏距離很遠,但它們實際分布很接近。
就是把文檔向量,變成單位向量唄,長度就不會影響相關(guān)性比較了,上面的文檔d和d‘就相等了。同一個向量表示就可以了
L2范數(shù):
向量除以L2范數(shù)就是長度歸一化。
文檔長度差異就不會影響到相關(guān)性的比較了。
觀點等價于夾角遞減排序
[0,180]區(qū)間內(nèi),cosine是單調(diào)遞減函數(shù)。
cos(q,d) q,d的余弦相關(guān)性等價于q,d夾角余弦值。
長度歸一化后:
詞項頻率tf—>詞項頻率tf取對數(shù)—>長度歸一化—>計算
文檔-詞項頻率tf關(guān)聯(lián)表如下:文檔(sas,pap,wh)
把query表加入上述表之中,分別計算query和其他文檔的cosine值,那么就能得出,其他文檔與query的相關(guān)度
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://www.ezyhdfw.cn/yun/125633.html
摘要:在近鄰?fù)扑]中,最常用的相似度是余弦相似度。這就是由于余弦相似度被向量長度歸一化后的結(jié)果。用余弦相似度計算出來,兩個用戶的相似度達到。余弦相似度適用于評分數(shù)據(jù),杰卡德相似度適合用于隱式反饋數(shù)據(jù)。 今天,我們來聊聊協(xié)同過濾中的相似度計算方法有哪些。相似度的本質(zhì)推薦系統(tǒng)中,推薦算法分為兩個門派,一個是機器學(xué)習(xí)派,另一個就是相似度門派。機器學(xué)習(xí)派是后起之秀,而相似度派則是泰山北斗,以致?lián)纹饋硗?..
摘要:在自然語言處理中,一個很重要的技術(shù)手段就是將文檔轉(zhuǎn)換為一個矢量,這個過程一般是使用這個庫進行處理的。自然語言處理中,一般來說,代表詞。自然語言預(yù)處理中,一個很重要的步驟就是將你收集的句子進行分詞,將一個句子分解成詞的列表。 前言 本文根據(jù)實際項目撰寫,由于項目保密要求,源代碼將進行一定程度的刪減。本文撰寫的目的是進行公司培訓(xùn),請勿以任何形式進行轉(zhuǎn)載。由于是日語項目,用到的分詞軟件等,在...
摘要:文和,創(chuàng)意實驗室創(chuàng)意技術(shù)專家在機器學(xué)習(xí)和計算機視覺領(lǐng)域,姿勢預(yù)測或根據(jù)圖像數(shù)據(jù)探測人體及其姿勢的能力,堪稱最令人興奮而又最棘手的一個話題。使用,用戶可以直接在瀏覽器中運行機器學(xué)習(xí)模型,無需服務(wù)器。 文 / ?Jane Friedhoff 和 Irene Alvarado,Google 創(chuàng)意實驗室創(chuàng)意技術(shù)專家在機器學(xué)習(xí)和計算機視覺領(lǐng)域,姿勢預(yù)測或根據(jù)圖像數(shù)據(jù)探測人體及其姿勢的能力,堪稱最令人興...
摘要:實現(xiàn)參考鏈接計算各類距離關(guān)于機器學(xué)習(xí)距離的理解機器學(xué)習(xí)中的相似性度量如何通俗易懂地理解皮爾遜相關(guān)系數(shù)數(shù)學(xué)應(yīng)用 8種相似度度量方式的原理及實現(xiàn) 歐氏距離(Euclidean Distance) 歐氏距離(也稱歐幾里得度量)指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離) showImg(https://raw.githubusercontent.com/ele...
閱讀 3981·2023-01-11 11:02
閱讀 4487·2023-01-11 11:02
閱讀 3365·2023-01-11 11:02
閱讀 5386·2023-01-11 11:02
閱讀 4947·2023-01-11 11:02
閱讀 5877·2023-01-11 11:02
閱讀 5562·2023-01-11 11:02
閱讀 4382·2023-01-11 11:02