?? 19.txt
字號:
發信人: yaomc (白頭翁&山東大漢), 信區: DataMining
標 題: [合集]*******請教**************
發信站: 南京大學小百合站 (Sat Jan 5 16:51:46 2002), 站內信件
highso (漫步者) 于Fri Nov 23 11:38:53 2001提到:
現在有一批預處理過的數據,其中每一個數據都是屬性集,共有40個左右的
屬性,屬性值有連續值、離散值、符號集三種;每條數據要么是正常的,要么
是異常的,但是數據中不標明,現在要對這批數據處理,分析出其中正常模式和異常模式
,也就是要二分這批數據,請問該如何作?
請各位大俠支招!3x!
ssos (存在與虛無) 于Fri Nov 23 12:31:42 2001提到:
定義一個數據之間的距離
然后做聚集
自成聚集的就是異常數據
highso (漫步者) 于Fri Nov 23 13:35:20 2001提到:
多謝!請問你說的就是自聚類吧?
這種距離該如何定義?你能詳細解釋一下嗎?我不是搞DM的,應該看
什么書呀?
bow~
ssos (存在與虛無) 于Fri Nov 23 14:11:02 2001提到:
距離的定義就看你的需要了
可以把每一維的數據單獨計算,然后加權平均
也有其他的方法,這和數據的具體情況有關
今年的sigmod論文中又一篇是關于利用cluster
尋找高維數據中的特殊點的,你不妨找來看看
highso (漫步者) 于Fri Nov 23 14:33:18 2001提到:
sigmod的論文在那里?請指點
ssos (存在與虛無) 于Fri Nov 23 14:37:40 2001提到:
www.acm.org
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -