摘要:原文鏈接聚類算法介紹聚類是將數(shù)據(jù)對(duì)象的集合分成相似的對(duì)象類的過(guò)程。其中基于距離的聚類算法是用各式各樣的距離來(lái)衡量數(shù)據(jù)對(duì)象之間的相似度?;诨ミB性的聚類算法通?;趫D或超圖模型,將高度連通的對(duì)象聚為一類。
原文鏈接 https://zhangmingemma.github....
聚類算法介紹聚類是將數(shù)據(jù)對(duì)象的集合分成相似的對(duì)象類的過(guò)程。使得同一個(gè)簇(或類)中的對(duì)象之間具有較高的相似性,而不同簇中的對(duì)象具有較高的相異性。按照聚類的尺度,聚類方法可被分為以下三種:基于距離的聚類算法、基于密度的聚類方法、基于互連性的聚類算法。其中基于距離的聚類算法是用各式各樣的距離來(lái)衡量數(shù)據(jù)對(duì)象之間的相似度?;诿芏鹊木垲愃惴ㄖ饕且罁?jù)合適的密度函數(shù)等?;诨ミB性的聚類算法通?;趫D或超圖模型,將高度連通的對(duì)象聚為一類。
本文介紹的是Alex Rodriguez和Alessandro Laio在Science上發(fā)表的《Clustering by fast search and find of density peaks》所提出的一種新型的基于密度的聚類算法。
算法思想該算法的假設(shè)類簇的中心由一些局部密度比較低的點(diǎn)圍繞, 并且這些點(diǎn)距離其他有高局部密度的點(diǎn)的距離都比較大.首先定義兩個(gè)值:局部密度ρi以及到高局部密度點(diǎn)的距離δi,這兩個(gè)值僅僅取決于兩點(diǎn)之間的距離dij,且該距離滿足三角不等式
其中dc是一個(gè)截?cái)嗑嚯x, 是一個(gè)超參數(shù).所以ρi相當(dāng)于距離點(diǎn)i的距離小于dc的點(diǎn)的個(gè)數(shù).由于該算法只對(duì)ρi的相對(duì)值敏感,
所以對(duì)dc的選擇比較魯棒, δi用于描述點(diǎn)i到其他較高密度點(diǎn)之間的最小距離:
對(duì)于密度最大的點(diǎn), 設(shè)置δi=maxj(dij).只有那些密度是局部或者全局最大的點(diǎn)才會(huì)遠(yuǎn)大于正常的相鄰點(diǎn)間距.因此聚類中心被視為是δi值異常最大的點(diǎn)。
聚類過(guò)程那些有著比較大的局部密度ρi和很大的δi的點(diǎn)被認(rèn)為是類簇的中心. 局部密度較小但是δi較大的點(diǎn)是異常點(diǎn).在確定了類簇中心之后, 所有其他點(diǎn)屬于距離其最近的類簇中心所代表的類簇.具體的聚類過(guò)程可以從圖1中看到,A圖標(biāo)識(shí)二維空間內(nèi)的28個(gè)點(diǎn),可以看到1和10兩個(gè)點(diǎn)的密度最大,因此1和10被定義為聚類中心。右圖是以ρi和為橫坐標(biāo), 以δi為縱坐標(biāo), 這種圖稱作決策圖。其中9和10兩個(gè)點(diǎn)ρi值相似,但δi值卻差異很大,因此9被歸為點(diǎn)1的類簇,而10被歸為另一類簇。所以,只有較高δi值和相對(duì)較高ρi值的點(diǎn)才會(huì)被視為聚類中心。26, 27, 28三個(gè)點(diǎn)的δi也比較大, 但是ρi較小, 所以是異常點(diǎn).
聚類中心確定之后,剩余點(diǎn)被分配給與其具有較高密度的最近鄰居相同的類簇。與其他迭代優(yōu)化的聚類算法不同,類簇分配在單個(gè)步驟中執(zhí)行。在聚類分析中, 通常需要確定每個(gè)點(diǎn)劃分給某個(gè)類簇的可靠性. 在該算法中, 可以首先為每個(gè)類簇定義一個(gè)邊界區(qū)域(border region), 亦即劃分給該類簇但是距離其他類簇的點(diǎn)的距離小于dc的點(diǎn). 然后為每個(gè)類簇找到其邊界區(qū)域的局部密度最大的點(diǎn), 令其局部密度為 . 該類簇中所有局部密度大于 的點(diǎn)被認(rèn)為是類簇核心的一部分(亦即將該點(diǎn)劃分給該類簇的可靠性很大), 其余的點(diǎn)被認(rèn)為是該類簇的光暈, 亦即可以認(rèn)為是噪音
圖A表示點(diǎn)分布,其中包含非球形點(diǎn)集和雙峰點(diǎn)集。B和C分別表示4000和1000個(gè)點(diǎn)按照A中模式的分布,其中點(diǎn)根據(jù)其被分配的不同類簇著色,黑色的點(diǎn)屬于類簇光暈。D和E是對(duì)應(yīng)的決策圖,而F表示的是不同點(diǎn)量下不正確聚類點(diǎn)的比率,誤差線代表平均值的標(biāo)準(zhǔn)差
聚類結(jié)果圖3是分別利用點(diǎn)集和Olivetti臉部圖片集的聚類結(jié)果
算法具有以下特點(diǎn):
A. 該算法是一種基于密度的聚類算法,核心思想是認(rèn)為類簇的中心由一些局部密度比較低的點(diǎn)圍繞, 并且這些點(diǎn)距離其他有高局部密度的點(diǎn)的距離都比較大。
B. 該算法將非聚類中心點(diǎn)的聚類過(guò)程分離成一個(gè)多帶帶的進(jìn)程。使得聚類中心的選擇和非聚類點(diǎn)的歸類分離開來(lái),增大了聚類精度。
C. 該算法適用于圖片、非球形點(diǎn)集的聚類。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/40863.html
摘要:有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí),分類回歸,密度估計(jì)聚類,深度學(xué)習(xí),,有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)給定一組數(shù)據(jù),為,。由于不需要事先根據(jù)訓(xùn)練數(shù)據(jù)去聚類器,故屬于無(wú)監(jiān)督學(xué)習(xí)。 Deep Learning是機(jī)器學(xué)習(xí)中一個(gè)非常接近AI的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),最近研究了機(jī)器學(xué)習(xí)中一些深度學(xué)習(xí)的相關(guān)知識(shí),本文給出一些很有用的資料和心得。Key Words:有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí),分類...
摘要:如果你對(duì)算法實(shí)戰(zhàn)感興趣,請(qǐng)快快關(guān)注我們吧。加入實(shí)戰(zhàn)微信群,實(shí)戰(zhàn)群,算法微信群,算法群。 作者:chen_h微信號(hào) & QQ:862251340微信公眾號(hào):coderpai簡(jiǎn)書地址:https://www.jianshu.com/p/e98... Learning Deep Learning(學(xué)習(xí)深度學(xué)習(xí)) There are lots of awesome reading lists...
摘要:每個(gè)對(duì)應(yīng)時(shí)間序列的一行所以按照測(cè)試數(shù)據(jù)來(lái)說(shuō),就會(huì)插入個(gè)文檔到里。同時(shí)嵌套存儲(chǔ)還有助于在按條件過(guò)濾的情況下砍掉不需要遞歸查詢的子文檔數(shù)量。我們這里關(guān)注的是在同樣配置的情況下,不同表結(jié)構(gòu)對(duì)于查詢時(shí)間的相對(duì)關(guān)系。 數(shù)據(jù)結(jié)構(gòu)介紹 最完整的時(shí)間序列的邏輯數(shù)據(jù)模型如下: [timestamp],[d1],[d2]...[dn],[v1],[v2]...[vn] d1 ~ dn 是維度,比如...
閱讀 2213·2021-10-08 10:15
閱讀 1259·2019-08-30 15:52
閱讀 579·2019-08-30 12:54
閱讀 1605·2019-08-29 15:10
閱讀 2746·2019-08-29 12:44
閱讀 3065·2019-08-29 12:28
閱讀 3416·2019-08-27 10:57
閱讀 2284·2019-08-26 12:24