?? 642.txt
字號:
發信人: GzLi (笑梨), 信區: DataMining
標 題: [轉載] (二):分類
發信站: 南京大學小百合站 (Fri Nov 1 22:35:25 2002), 站內信件
【 以下文字轉載自 AI 討論區 】
【 原文由 Jove 所發表 】
分類在數據開采中是一項非常重要的任務。分類的目的是學會一個分類函數或分類模型
(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個。分
類和回歸都可用于預測。預測的目的是從利用歷史數據紀錄中自動推導出對給定數據的
推廣描述,從而能對未來數據進行預測。和回歸方法不同的是,分類的輸出是離散的類
別值,而回歸的輸出則是連續數值。這里我們將不討論回歸方法。
要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組數據庫記錄或元組
構成,每個元組是一個由有關字段(又稱屬性或特征)值組成的特征向量,除了這些外
,訓練樣本還有一個類別標記。一個具體樣本的形式可為:( v1, v2, ..., vn; c );
其中vi表示字段值,c表示類別。
分類器的構造方法有統計方法、機器學習方法、神經網絡方法等等。統計方法包括貝葉
斯法和非參數法(近鄰學習或基于事例的學習: Instance-based learning, IBL),對
應的知識表示則為判別函數和原型事例。機器學習方法包括決策樹法和規則歸納法,前
者對應的表示為決策樹或判別樹,后者則有兩種:決策表(decision list)和(平行)
產生式規則。神經網絡方法主要是BP算法,它的模型表示是前向反饋神經網絡模型(由
代表神經元的節點和代表聯接權值的邊組成的一種體系結構),BP算法本質上是一種非
線性判別函數。另外,最近又興起了一種新的方法:粗糙集(rough set),其表示是產
生式規則。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:①預測準確度;②計算復
雜度;③模型描述的簡潔度。預測準確度是用的最多的一種比較尺度,特別是對于預測
型分類任務,目前公認的方法是10番分層交叉驗證法(10-fold stratified cross val
idation)。計算復雜度依賴于具體的實現細節和硬件環境,在KDD中,由于操作對象是
巨量的數據庫,因此空間和時間的復雜度問題將是非常重要的一環節。對于描述型的分
類任務,模型描述越簡潔越受歡迎;例如,采用規則表示的分類器構造法就更有用,而
神經網絡方法產生的結果就難以理解。
另外要注意的是,分類的效果一般和數據的特點有關,有的數據噪聲大,有的有缺值,
有的分布稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混合
式的。目前普遍認為不存在某種方法能適合于各種特點的數據。
--
我看到一座座山,一座座山川
※ 來源:.南京大學小百合站 dii.nju.edu.cn.[FROM: graphics.nju.edu]
--
※ 轉載:.南京大學小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.17]
?? 快捷鍵說明
復制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -