亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

TF-IDF、詞袋模型與特征工程

xialong / 3676人閱讀

摘要:如標(biāo)題,與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法,這里展示一下這兩種算法的聯(lián)合應(yīng)用。我們再回過頭來看看的缺陷,其中的第二點(diǎn)和第三點(diǎn)以相反角度來看都有助于我們對詞袋模型中特征向量的優(yōu)化這個(gè)需要各位好好理解一下。

如標(biāo)題,TF-IDF與詞集詞袋模型都是數(shù)據(jù)預(yù)處理中常用的算法,這里展示一下這兩種算法的聯(lián)合應(yīng)用。

一. 詞集與詞袋模型

這個(gè)算法的主要作用也就是對文本做單詞切分,有點(diǎn)從一篇文章里提取關(guān)鍵詞這種意思,旨在用向量來描述文本的主要內(nèi)容,其中包含了詞集與詞袋兩種。

詞集模型:單詞構(gòu)成的集合,集合中每個(gè)元素只有一個(gè),即詞集中的每個(gè)單詞都只有一個(gè)。

詞袋模型:如果一個(gè)單詞在文檔中出現(xiàn)不止一次,就統(tǒng)計(jì)其出現(xiàn)的次數(shù),詞袋在詞集的基礎(chǔ)上加入了頻率這個(gè)維度,使統(tǒng)計(jì)擁有更好的效果,通常我們在應(yīng)用中都選用詞袋模型。

python代碼示例

使用xss攻擊語句來測試詞袋模型的效果

from sklearn.feature_extraction.text import CountVectorizer
#詞袋模型,這里的min_df取值為3,即該向量在整個(gè)payload中至少出現(xiàn)了三次
vec=CountVectorizer(min_df=3,ngram_range=(1,1))
content=[
    "alert(1)X",
    "">