?? 779.txt
字號:
發信人: yaomc (白頭翁&山東大漢), 信區: DataMining
標 題: [合集]a question about k-mean method
發信站: 南京大學小百合站 (Sun Dec 9 21:03:20 2001), 站內信件
waterflower (擁抱陽光) 于Tue Oct 30 00:32:34 2001提到:
Max Clustering Passes refers to the number of passes in the K-mean
algorithm.
這里的pass是什么意思,k-mean翻譯過來是不是叫K均值算法??
(這個是DBMiner中關于cluster的幫助里的一條)
還有DBMiner中設置分類的一些參數
classification threshold:Helps justify the classification of a particular
subset of the data (found at a singe node) when a significant portion of
these belong to the same class。
這怎么理解啊?還有一個噪音憨直noise threshold:Helps ignore a node if it
contains only a negligible number of examples
看都看不懂
而且經常DBMiner會狂吃內存,一來就是64M,沒辦法只好強行
殺掉,趕明去加個128M。
yaomc (白頭翁&山東大漢) 于Tue Oct 30 10:33:14 2001)
提到:
我覺得這個threshold應該是門限的意思,或者說是閾值的意思。
waterflower (擁抱陽光) 于Tue Oct 30 16:50:57 2001提到:
主要是針對這些憨直的解釋我優點無法
理解,誰能給個這方面的例子,比方說
noise threshold是針對什么情況的??
沒有什么感性認識
yaomc (白頭翁&山東大漢) 于Tue Oct 30 19:09:51 2001提到:
Threshold不是憨直的意思,下面是它的解釋:
門檻;門口
起點;開端
最低限度
〈心理〉閾限;識閾;產生效果或 造成影響的下限。
在這個地方是門限,閾值的意思。
至于解釋,我覺得可能是:幫助你判別某數據的一個子集的分類,特別是該子集中的
許多樣本明顯得屬于某一類的時候,也就是當有多少樣本屬于某一類的時候,該子集
就劃歸為該類。舉例說,如果一個數據集中有10個樣本,若有6個屬于A類的時候,
就可以認為該數據集可以劃為A類。當然,有7個的話,就更應該屬于A類,有5個地
時候,該數據集就不被認為屬于A類,那么這個6即為劃為某類的門限值。
至于噪音的門限值,是不是可以這樣理解:如果某個節點包含了太多的可以忽略的
樣本的話,那么可以把該數據列為噪音的內容。10個樣本里面有6個可以忽略樣本的話,
該樣本集可以劃為噪音的內容,那么這個6個應該為噪音的門限值。
waterflower (擁抱陽光) 于Tue Oct 30 21:42:19 2001提到:
多謝,看了解釋,豁然開朗。
yaomc (白頭翁&山東大漢) 于Tue Oct 30 21:54:37 2001)
提到:
有錯誤的地方請多多包涵。
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -