?? 5.txt
字號:
發(fā)信人: GzLi (笑梨), 信區(qū): DataMining
標(biāo) 題: [轉(zhuǎn)載] (二):分類
發(fā)信站: 南京大學(xué)小百合站 (Fri Nov 1 22:35:25 2002), 站內(nèi)信件
【 以下文字轉(zhuǎn)載自 AI 討論區(qū) 】
【 原文由 Jove 所發(fā)表 】
分類在數(shù)據(jù)開采中是一項非常重要的任務(wù)。分類的目的是學(xué)會一個分類函數(shù)或分類模型
(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。分
類和回歸都可用于預(yù)測。預(yù)測的目的是從利用歷史數(shù)據(jù)紀(jì)錄中自動推導(dǎo)出對給定數(shù)據(jù)的
推廣描述,從而能對未來數(shù)據(jù)進行預(yù)測。和回歸方法不同的是,分類的輸出是離散的類
別值,而回歸的輸出則是連續(xù)數(shù)值。這里我們將不討論回歸方法。
要構(gòu)造分類器,需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組
構(gòu)成,每個元組是一個由有關(guān)字段(又稱屬性或特征)值組成的特征向量,除了這些外
,訓(xùn)練樣本還有一個類別標(biāo)記。一個具體樣本的形式可為:( v1, v2, ..., vn; c );
其中vi表示字段值,c表示類別。
分類器的構(gòu)造方法有統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。統(tǒng)計方法包括貝葉
斯法和非參數(shù)法(近鄰學(xué)習(xí)或基于事例的學(xué)習(xí): Instance-based learning, IBL),對
應(yīng)的知識表示則為判別函數(shù)和原型事例。機器學(xué)習(xí)方法包括決策樹法和規(guī)則歸納法,前
者對應(yīng)的表示為決策樹或判別樹,后者則有兩種:決策表(decision list)和(平行)
產(chǎn)生式規(guī)則。神經(jīng)網(wǎng)絡(luò)方法主要是BP算法,它的模型表示是前向反饋神經(jīng)網(wǎng)絡(luò)模型(由
代表神經(jīng)元的節(jié)點和代表聯(lián)接權(quán)值的邊組成的一種體系結(jié)構(gòu)),BP算法本質(zhì)上是一種非
線性判別函數(shù)。另外,最近又興起了一種新的方法:粗糙集(rough set),其表示是產(chǎn)
生式規(guī)則。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:①預(yù)測準(zhǔn)確度;②計算復(fù)
雜度;③模型描述的簡潔度。預(yù)測準(zhǔn)確度是用的最多的一種比較尺度,特別是對于預(yù)測
型分類任務(wù),目前公認(rèn)的方法是10番分層交叉驗證法(10-fold stratified cross val
idation)。計算復(fù)雜度依賴于具體的實現(xiàn)細(xì)節(jié)和硬件環(huán)境,在KDD中,由于操作對象是
巨量的數(shù)據(jù)庫,因此空間和時間的復(fù)雜度問題將是非常重要的一環(huán)節(jié)。對于描述型的分
類任務(wù),模型描述越簡潔越受歡迎;例如,采用規(guī)則表示的分類器構(gòu)造法就更有用,而
神經(jīng)網(wǎng)絡(luò)方法產(chǎn)生的結(jié)果就難以理解。
另外要注意的是,分類的效果一般和數(shù)據(jù)的特點有關(guān),有的數(shù)據(jù)噪聲大,有的有缺值,
有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強,有的屬性是離散的而有的是連續(xù)值或混合
式的。目前普遍認(rèn)為不存在某種方法能適合于各種特點的數(shù)據(jù)。
--
我看到一座座山,一座座山川
※ 來源:.南京大學(xué)小百合站 dii.nju.edu.cn.[FROM: graphics.nju.edu]
--
※ 轉(zhuǎn)載:.南京大學(xué)小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.17]
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -