?? 3.txt
字號:
發(fā)信人: GzLi (笑梨), 信區(qū): DataMining
標 題: Re: 今天開始第三、四節(jié)的學(xué)習(xí)吧
發(fā)信站: 南京大學(xué)小百合站 (Sun Dec 29 00:52:46 2002)
總算把這一節(jié)看完了。幾個概念很重要。我總結(jié)一下,大家請幫忙看看寫的對否?
歸納偏置、PAC模型、VC維、出錯模型都是描述學(xué)習(xí)算法的概念。
它們互相關(guān)系密切,但是也有區(qū)別。
1.歸納偏置指算法的最小斷言集合,表現(xiàn)在概念學(xué)習(xí)算法中的假設(shè)空間的歸納偏置
和決策樹中的搜索策略的歸納偏置。是一個定性指標,一般來說偏置越強,
算法越簡單、特別。
PAC模型是指算法在假設(shè)空間中達到目標概念的可能性。是一個量化的指標。
VC維是指算法的打散能力,量化指標,VC維越高,算法越強。
出錯界限模型是指學(xué)習(xí)器收斂到正確假設(shè)前的總出錯數(shù)。可量化,以最優(yōu)出錯界限
做指標。
2.歸納偏置強,VC維要低最優(yōu),最優(yōu)出錯界限要低,在PAC框架下,容易達到
3.覺得本章研究這幾個概念,中心在于樣本復(fù)雜度的計算。
PAC模型下研究的結(jié)果好像不如在VC維中研究來的更有效果,因為結(jié)果更緊湊,更
富實用性,而且研究范圍VC維來的廣泛。
4.關(guān)于VC維,我看過SVM(支持向量機)有關(guān)的材料,SVM是在VC維基礎(chǔ)上做的,所以
這個概念很重要,據(jù)我所知,VC維還是很理論化,有很多算法的VC維不能有效計算,
比如后向傳播算法的多層感知器網(wǎng)絡(luò),本書也論述了,很多地方計算不出,只能近似。
我?guī)熜衷?.11日我們數(shù)據(jù)挖掘討論中,也會講到,決策樹的VC維理論計算值,不如
經(jīng)驗值來的有用,范圍還是太大。
先寫這些,錯誤之處,歡迎批評指正。
【 在 GzLi (笑梨) 的大作中提到: 】
: Inductive bias, (ch. 2 )
: PAC learning, VC dimension, Mistake bounds (ch.7)
: please read last part of ch2.ps and ch7.ps.
: 我看了一下書發(fā)現(xiàn)這幾個概念很重要,而且是相關(guān)的,所以我想放到一個里面
: 學(xué)習(xí),好好討論幾天。
--
*** 端莊厚重 謙卑含容 事有歸著 心存濟物 ***
數(shù)據(jù)挖掘 http://DataMining@bbs.nju.edu.cn/
※ 來源:.南京大學(xué)小百合站 bbs.nju.edu.cn.[FROM: 211.80.38.17]
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號
Ctrl + =
減小字號
Ctrl + -