什么是數(shù)據(jù)聚類數(shù)據(jù)聚類的原理
什么是數(shù)據(jù)聚類數(shù)據(jù)聚類的原理
數(shù)據(jù)聚類是對(duì)于靜態(tài)數(shù)據(jù)分析的一門技術(shù),在許多領(lǐng)域受到廣泛應(yīng)用,包括機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,模式識(shí)別,圖像分析以及生物信息。那么你對(duì)數(shù)據(jù)聚類了解多少呢?以下是由學(xué)習(xí)啦小編整理關(guān)于什么是數(shù)據(jù)聚類的內(nèi)容,希望大家喜歡!
數(shù)據(jù)聚類的基本原理
聚類是把相似的對(duì)象通過(guò)靜態(tài)分類的方法分成不同的組別或者更多的子集(subset),這樣讓在同一個(gè)子集中的成員對(duì)象都有相似的一些屬性,常見(jiàn)的包括在坐標(biāo)系中更加短的空間距離等。一般把數(shù)據(jù)聚類歸納為一種非監(jiān)督式學(xué)習(xí)。
數(shù)據(jù)聚類的類型
數(shù)據(jù)聚類算法可以分為結(jié)構(gòu)性或者分散性。結(jié)構(gòu)性算法利用以前成功使用過(guò)的聚類器進(jìn)行分類,而分散型算法則是一次確定所有分類。結(jié)構(gòu)性算法可以從上之下或者從下至上雙向進(jìn)行計(jì)算。從下至上算法從每個(gè)對(duì)象作為單獨(dú)分類開(kāi)始,不斷融合其中相近的對(duì)象。而從上之下算法則是把所有對(duì)象作為一個(gè)整體分類,然后逐漸分小。
結(jié)構(gòu)性
距離測(cè)量
在結(jié)構(gòu)性聚類中,關(guān)鍵性的一步就是要選擇測(cè)量的距離。一個(gè)簡(jiǎn)單的測(cè)量就是使用曼哈頓距離,它相當(dāng)于每個(gè)變量的絕對(duì)差值之和。該名字的由來(lái)起源于在紐約市區(qū)測(cè)量街道之間的距離就是由人步行的步數(shù)來(lái)確定的。一個(gè)更為常見(jiàn)的測(cè)量是歐式空間距離,他的算法是找到一個(gè)空間,來(lái)計(jì)算每個(gè)空間中點(diǎn)到原點(diǎn)的距離,然后對(duì)所有距離進(jìn)行換算。
創(chuàng)建聚類
在已經(jīng)得到距離值之后,元素間可以被聯(lián)系起來(lái)。通過(guò)分離和融合可以構(gòu)建一個(gè)結(jié)構(gòu)。傳統(tǒng)上,表示的方法是樹(shù)形數(shù)據(jù)結(jié)構(gòu),然后對(duì)該結(jié)構(gòu)進(jìn)行修剪。
分散性
K-均值法及衍生算法
K-均值法聚類 K-均值算法表示以空間中k個(gè)點(diǎn)為中心進(jìn)行聚類,對(duì)最靠近他們的對(duì)象歸類。
例如: 數(shù)據(jù)集合為三維,聚類以兩點(diǎn): X = (x1, x2, x3) and Y = (y1, y2, y3). 中心點(diǎn)Z 變?yōu)?Z = (z1, z2, z3), where z1 = (x1 + y1)/2 and z2 = (x2 + y2)/2 and z3 = (x3 + y3)/2. 算法歸納為 (J. MacQueen, 1967):
選擇聚類的個(gè)數(shù)k. 任意產(chǎn)生k個(gè)聚類,然后確定聚類中心,或者直接生成k個(gè)中心。 對(duì)每個(gè)點(diǎn)確定其聚類中心點(diǎn)。 再計(jì)算其聚類新中心. 重復(fù)以上步驟直到滿足收斂要求。(通常就是確定的中心點(diǎn)不再改變). 該算法的最大優(yōu)勢(shì)在于簡(jiǎn)潔和快速。劣勢(shì)在于對(duì)于一些結(jié)果并不能夠滿足需要,因?yàn)榻Y(jié)果往往需要隨機(jī)點(diǎn)的選擇非常巧合。
看過(guò)“數(shù)據(jù)聚類的原理”的人還看了:
2.淺析聚類分析方法在食堂消費(fèi)數(shù)據(jù)中的應(yīng)用論文