實現聚類K均值算法: K均值算法:給定類的個數K,將n個對象分到K個類中去,使得類內對象之間的相似性最大,而類之間的相似性最小。 缺點:產生類的大小相差不會很大,對于臟數據很敏感。 改進的算法:k—medoids 方法。這兒選取一個對象叫做mediod來代替上面的中心 的作用,這樣的一個medoid就標識了這個類。步驟: 1,任意選取K個對象作為medoids(O1,O2,…Oi…Ok)。 以下是循環的: 2,將余下的對象分到各個類中去(根據與medoid最相近的原則); 3,對于每個類(Oi)中,順序選取一個Or,計算用Or代替Oi后的消耗—E(Or)。選擇E最小的那個Or來代替Oi。這樣K個medoids就改變了,下面就再轉到2。 4,這樣循環直到K個medoids固定下來。 這種算法對于臟數據和異常數據不敏感,但計算量顯然要比K均值要大,一般只適合小數據量。
標簽:
K均值算法
聚類
上傳時間:
2015-04-03
上傳用戶:sardinescn