實(shí)現(xiàn)聚類K均值算法: K均值算法:給定類的個(gè)數(shù)K,將n個(gè)對象分到K個(gè)類中去,使得類內(nèi)對象之間的相似性最大,而類之間的相似性最小。 缺點(diǎn):產(chǎn)生類的大小相差不會(huì)很大,對于臟數(shù)據(jù)很敏感。 改進(jìn)的算法:k—medoids 方法。這兒選取一個(gè)對象叫做mediod來代替上面的中心 的作用,這樣的一個(gè)medoid就標(biāo)識(shí)了這個(gè)類。步驟: 1,任意選取K個(gè)對象作為medoids(O1,O2,…Oi…Ok)。 以下是循環(huán)的: 2,將余下的對象分到各個(gè)類中去(根據(jù)與medoid最相近的原則); 3,對于每個(gè)類(Oi)中,順序選取一個(gè)Or,計(jì)算用Or代替Oi后的消耗—E(Or)。選擇E最小的那個(gè)Or來代替Oi。這樣K個(gè)medoids就改變了,下面就再轉(zhuǎn)到2。 4,這樣循環(huán)直到K個(gè)medoids固定下來。 這種算法對于臟數(shù)據(jù)和異常數(shù)據(jù)不敏感,但計(jì)算量顯然要比K均值要大,一般只適合小數(shù)據(jù)量。
標(biāo)簽:
K均值算法
聚類
上傳時(shí)間:
2015-04-03
上傳用戶:sardinescn