91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

首頁       資訊中心       企業(yè)動態(tài)       行業(yè)動態(tài)       安全動態(tài)       行業(yè)資訊       設(shè)備資訊       工具資訊       材料資訊       招商代理
您當(dāng)前位置:首頁 > 新聞頻道 > 技術(shù)動態(tài) > 正文
關(guān)于改進的基于局部密度的聚類算法的研究

作者:張毅

1  引言

  聚類是指在沒有任何先驗知識的情況下,根據(jù)數(shù)據(jù)特征的相似性將同類數(shù)據(jù)聚集在一起的過程,屬于無監(jiān)督分類的范疇。聚類的目標是使得同一類簇內(nèi)對象的相似性盡可能大,不同類簇之間對象的相似性盡可能小。聚類作為一種重要的數(shù)據(jù)分析和挖掘手段,已被廣泛應(yīng)用于語音識別、字符識別、圖像處理、信息安全、金融等領(lǐng)域。

  迄今為止,國內(nèi)外研究人員相繼提出很多聚類算法,主要分為基于層次的聚類、基于劃分的聚類、基于密度的聚類、基于網(wǎng)格的聚類、基于模型的聚類等。基于層次的聚類是指對樣本集合進行合并或者分裂,直到滿足某一個終止條件,代表算法有BIRCH算法、CURE算法。優(yōu)點是能得到不同粒度的聚類結(jié)構(gòu),缺點是很難確定合并和分裂的準則;趧澐值木垲愂侵甘紫葘⑺袛(shù)據(jù)粗略地劃分為K個類,然后通過迭代算法使某個準則達到最優(yōu)來對劃分進行修正。代表算法有k-means算法、k中心點方法及其改進。優(yōu)點是算法簡單、速度快,缺點是K值需要事先指定,而且只能發(fā)現(xiàn)圓形類簇。基于密度的聚類算法是指根據(jù)數(shù)據(jù)對象的分布密度,將密度足夠大的數(shù)據(jù)對象聚類在一起,樣本空間被低密度區(qū)間劃分開,代表算法有DBSCAN算法、OPTICS算法、DENCLUE算法。優(yōu)點是可以發(fā)現(xiàn)任意形狀的類簇。缺點是參數(shù)的設(shè)置對聚類結(jié)果影響較大;诰W(wǎng)格的聚類是指將數(shù)據(jù)空間量化為有限單元,構(gòu)成一個可以聚類的網(wǎng)格結(jié)構(gòu),代表算法有STING算法、CLIQUE算法。優(yōu)點是運算速度快,缺點是存在量化尺度問題;谀P偷木垲愂侵笇ふ医o定數(shù)據(jù)與某種數(shù)據(jù)模型的最佳擬合,代表方法有COBWEB算法、AutoClass算法、SOM算法。

  近年來隨著人工智能、機器學(xué)習(xí)、模式識別、數(shù)據(jù)挖掘等領(lǐng)域的不斷發(fā)展,又提出了許多新的聚類算法。為了解決樣本點不僅僅只屬于某一個類的問題,提出了模糊聚類,用模糊理論的方法對數(shù)據(jù)進行軟劃分。譜聚類是一種基于圖論的聚類方法,通過計算數(shù)據(jù)之間相似矩陣的特征值和特征向量進行聚類。子空間聚類是針對高維數(shù)據(jù)空間出現(xiàn)的一種有效聚類方法,通過特征選擇在不同的子空間上進行聚類。然而,在很多聚類方法中都需要提供聚類個數(shù)作為參數(shù),目前還沒有一個很好的辦法可以保證獲得準確的聚類數(shù)目,這一直是聚類分析中的一個難點。Frey提出一種利用親密度傳播進行聚類的方法。該方法無需事先指定聚類數(shù)目,能夠快速、有效地處理大規(guī)模數(shù)據(jù)集,但對于比較松散的聚類結(jié)構(gòu)就會得到較多的聚類數(shù)目。

  2014年Alex Rodriguez和Alessandro Laio在Science上提出一種簡潔的聚類算法。與以往的聚類算法相比,該方法能夠處理任意形狀的類簇,而且對數(shù)據(jù)變換有很好的頑健性。但該方法中聚類個數(shù)和聚類中心無法自動確定,需要手工選取,這無疑限制了算法的應(yīng)用范圍和領(lǐng)域。本文提出的基于局部密度的聚類算法,是對該算法的一種改進。在初步選取候選聚類中心的基礎(chǔ)上,增加一個優(yōu)化選取聚類中心的過程,使用基于密度連通的算法合并或剔除不正確的聚類中心,使用大密度最近鄰方法確定樣本類別。實驗證明,該方法具有較好的聚類效果和性能,有效解決了聚類個數(shù)不確定的問題。

2聚類過程

2.1  算法思想

  本文算法的核心思想是基于局部密度的概念,它表示與該點的距離在一定范圍的點的個數(shù),也就是說一個點附近點的個數(shù)越多,其局部密度越大。該算法認為聚類中心是由一些局部密度比較低的點圍繞,并且這些點距離其他高局部密度的點的距離都比較大。為此定義兩個量。

(1)局部密度pi

  其中,dc>0為截斷距離,需要用戶確定。推薦做法是選擇de,使得每個點的平均鄰居數(shù)為總點數(shù)的1%~2%(假設(shè)為t)。為了將聚類算法擴展到異形類簇,本文使用高斯核函數(shù)來定義局部密度,既避免了不同的點具有相同局部密度的問題,又能識別異形類簇。

  1. 到較高局部密度點的最近距離δi

  表示所有局部密度大于xi的點中,與xi距離最近的點xj與xi之間的距離。對于密度最大的點,δi=maxdij,表示與xi距離最大的數(shù)據(jù)點與xi之間的距離。

2.2確定類簇中心

  類簇中心是指局部密度比較大,且距離其他較大局部密度的點的距離比較遠的點。首先計算所有點的pi和δi,以p為橫坐標,以δ為縱坐標形成決策圖,選擇pi和δi都比較大的點作為類簇的中心。為了定量確定類簇的中心點,定義yi=piδi,然后對{yi∣i=1,…,N}進行降序排序,選擇yi大于某個閾值A(chǔ)的點為中心點。此時可能會存在兩種特殊情況:第一種情況是一些p很大但占值很小的點會被選為中心點,這樣可能會造成同一個類簇中有兩個中心點存在,將本來屬于同一個類簇的數(shù)據(jù)點分成兩個不同的類簇;第二種情況是p很小,但6很大,這樣會把部分異常點視為聚類的中心,本文的做法是對p和δ都設(shè)置各自的閾值,將大于閾值的點視為候選中心點。然后使用基于密度的連通性算法將候選中心點合并或剔除,具體算法如下。算法1 DCC(determing-clustering-center)

  輸入:X={x1,X2,…,XN}是需要聚類的數(shù)據(jù)點;Ⅳ是數(shù)據(jù)點個數(shù);{plp2,…州為每個數(shù)據(jù)的局部密度;{δ1,δ2,…,δN}為每個樣本點到高局部密度的最小距離。

輸出:類簇中心點{Xm1,xm2,…,Xmk}。

2.3聚類

  類簇中心確定以后,需要確定每個點劃分給某個類簇的可靠性。本文使用大密度最近鄰方法將每個點歸類到局部密度比自己大的最近鄰的簇。聚類算法如下。

  算法2 LDC(local-density-clustering)

  輸入:X={x1,X2,…,XN}是需要聚類的數(shù)據(jù)點;N是數(shù)據(jù)點個數(shù)。

3評價指標

  評價一個聚類算法的好壞一般基于這樣的原則:簇中的成員盡可能地互相靠近,簇與簇之間的距離盡可能遠。假設(shè)P={Pl,P2,…,Ps)為人工標注的分類結(jié)果,c={G1,C2,…,cm}為聚類算法的劃分。本文采用以下評價指標。

(1 )purity:正確聚類的樣本數(shù)占總樣本數(shù)的比例

  (2)R指數(shù):表示C和P之間的相似程度

  假設(shè)a表示兩個點在C和P中均屬于同一個簇的個數(shù);6表示兩個點在C中屬于相同的簇,在P中屬于不同簇的個數(shù):c表示兩個點在C中屬于不同的簇,在P中屬于相同簇的個數(shù):d表示兩個點在C、P中均屬于不同簇的個數(shù)。R值越大說明G和P的吻合度越高,說明C的聚類效果越好。

4實驗與結(jié)果分析

4.1  實驗數(shù)據(jù)

  UCI數(shù)據(jù)庫是一個專門用于測試分類、聚類算法的國際通用標準測試數(shù)據(jù)庫,包含Wine、Iris、Glass等數(shù)據(jù)集。其中Iris數(shù)據(jù)集包含3類,每一類代表一種類型的鳶尾花,每類有50個數(shù)據(jù),共150個樣本,在3個類簇中分布均勻,其中一類與另外兩類線性可分,另外兩類有部分重疊。Wine數(shù)據(jù)集包含178個樣本,13個數(shù)值型屬性,共分成3類,每類中樣本數(shù)量不同。Glass數(shù)據(jù)集共有69個樣本,包含3類,每類占總數(shù)據(jù)量的1/3。另外,Leuk72_3k也是比較常用的聚類測試數(shù)據(jù)集。

4.2類簇中心選擇

  算法首先根據(jù)局部密度和到高密度樣本的距離來確定類簇中心,然后計算其他非中心樣本與類簇中心的距離,從而決定樣本歸屬。因此,算法中類簇中心點的選擇不但決定著聚類的個數(shù),還影響其他樣本的類別歸屬。圖l(a)為Iris數(shù)據(jù)樣本經(jīng)過多維尺度變換后樣本的分布情況,圖l(b)為y/l/=l,…,Ⅳ)從大到小排序后的結(jié)果。如果選擇yi最大的2個樣本作為類簇中心,則整個數(shù)據(jù)被分成2個類簇,如果選擇yi值最大的前5個樣本作為類簇中心,則樣本被分成5個類簇。為了更合理地確定類簇中心,首先給Yi設(shè)置一個相對較小的閾值(本實驗的閾值為6),使較多的樣本點成為候選類簇中心,然后使用算法1對候選類簇中心進行合并,得到最優(yōu)的類簇中心,圖l(c)中菱形的點為候選類簇中心。圖l(d)中菱形的點為合并后的類簇中心,樣本的不同形狀標示根據(jù)最優(yōu)類簇中心聚類后的結(jié)果。

4.3 de對算法結(jié)果的影響

  de的選擇決定局部密度的大小,如果取得太大,pi的區(qū)分度不大,類簇中心不準確,如果取得太小,類簇中心的個數(shù)過多,會導(dǎo)致同一類簇的數(shù)據(jù)被劃分為不同的類簇。為了

證明de的大小對實驗結(jié)果的影響,本文針對不同的數(shù)據(jù)集,分別采用不同大小的de做實驗,得出的實驗結(jié)果如圖2所示(t為de的值使得每個點的平均鄰居數(shù)占所有點的比例)。

  從圖2中可以看出,不同數(shù)據(jù)集下,de對聚類結(jié)果的影響是不一樣的。lris和Wine數(shù)據(jù)集都有最優(yōu)的de。對于Iris數(shù)據(jù)集,當(dāng)t>2%時,只能聚出2類,當(dāng)t<l%時,雖然能聚出3類,但聚類的準確率在降低。Leuk72_3k和Glass數(shù)據(jù)集的聚類結(jié)果基本不受dc的影響。通過分析發(fā)現(xiàn),Leuk72_3k數(shù)據(jù)集的類內(nèi)樣本點的距離遠小于類間的距離。因此在不同的應(yīng)用背景下,應(yīng)該根據(jù)具體的問題選擇合適的de參數(shù)。

4.4聚類結(jié)果對比

  為了驗證算法的有效性,將本文中算法與經(jīng)典的K-means算法和DBSCAN算法進行實驗對比,并用purity、R指數(shù)、F-measure來衡量算法的優(yōu)劣性。表1為幾種聚類算法在不同數(shù)據(jù)集上的實驗結(jié)果比較。

  從表1可以看出,本文算法相對于K-means、DBSCAN算法在各指標上均有較大的提升,說明該算法有較好的聚類效果和性能。

  Alex提出的算法中,聚類個數(shù)以及類簇中心都通過人工方式選定,為了確定最優(yōu)的聚簇類數(shù),本文采用最優(yōu)評價指標方法來確定聚類個數(shù)。在給定的數(shù)據(jù)集上,通過選擇不同的類簇中心個數(shù),對數(shù)據(jù)集進行不同的劃分,并計算不同劃分的評價指標,如圖3所示。選擇評價指標最好的聚類個數(shù)為最佳聚類個數(shù)。從圖3中可以看出,4k2_far數(shù)據(jù)集的最優(yōu)類簇個數(shù)為4,Iris數(shù)據(jù)集的最優(yōu)類簇個數(shù)為3。

5結(jié)束語

針對基于局部密度的聚類算法無法自動選擇類簇個數(shù)和類簇中心的問題,本文在該算法的基礎(chǔ)上增加了一個優(yōu)化選取聚類中心的過程,使用基于密度連通的算法合并或剔除不正確的聚類中心。與其他聚類算法相比,該方法具有較好的聚類效果和性能,并有效地解決了聚類個數(shù)不確定的問題。本文還驗證了不同的截斷距離對聚類結(jié)果的影響,實驗證明在實際應(yīng)用中應(yīng)該根據(jù)具體的聚類問題選擇合適的參數(shù)。

6摘要:聚類分析一直是機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域一個比較活躍而且極具挑戰(zhàn)性的研究方向。Alex提出的基于局部密度的聚類算法是一種快速、有效的聚類方法,但該方法通過手工選取確定聚類個數(shù)和聚類中心。為此,對原算法進行改進,在初步選取候選聚類中心的基礎(chǔ)上,使用基于密度連通的算法優(yōu)化選取聚類中心,然后使用大密度最近鄰方法確定樣本類別。實驗證明,該方法能有效解決聚類個數(shù)和聚類中心無法確定的問題,同時在聚類評價指標上顯示出較好的聚類效果和性能。

關(guān)鍵字:
About Us - 關(guān)于我們 - 服務(wù)列表 - 付費指導(dǎo) - 媒體合作 - 廣告服務(wù) - 版權(quán)聲明 - 聯(lián)系我們 - 網(wǎng)站地圖 - 常見問題 - 友情鏈接
Copyright©2014安裝信息網(wǎng) m.78375555.com. All rights reserved.
服務(wù)熱線:4000-293-296 聯(lián)系電話:0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號-4
未經(jīng)過本站允許,請勿將本站內(nèi)容傳播或復(fù)制
安全聯(lián)盟認證