?? 72.txt
字號(hào):
發(fā)信人: daniel (飛翔鳥), 信區(qū): DataMining
標(biāo) 題: 關(guān)于監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)
發(fā)信站: 南京大學(xué)小百合站 (Mon Apr 28 17:11:24 2003)
最近很多人在問監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等等之間的關(guān)系,我簡單地寫一點(diǎn)。
機(jī)器學(xué)習(xí)中的方法或范式(paradigm)有很多種分類體系,例如從學(xué)習(xí)的方式分,有
從例子中學(xué)習(xí)、類比學(xué)習(xí)、分析學(xué)習(xí)等,但一般來說,現(xiàn)在研究得最多、被認(rèn)為最有用
的是從例子中學(xué)習(xí)(learning from examples)。對(duì)從例子中學(xué)習(xí),又有很多分類方法
,
例如從學(xué)習(xí)的主動(dòng)性方面,可以分為主動(dòng)學(xué)習(xí)(active learning)和被動(dòng)學(xué)習(xí)
(passive learning);從訓(xùn)練過程啟動(dòng)的早晚,可以分為迫切學(xué)習(xí)(eager learning)
和惰性學(xué)習(xí)(lazy learning);等等。
最常見的對(duì)“從例子中學(xué)習(xí)”的方法的分類是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),這
是從訓(xùn)練樣本的歧義性(ambiguity)來進(jìn)行分類的。對(duì)監(jiān)督學(xué)習(xí)來說,它通過對(duì)具有概
念標(biāo)記(concept label)的訓(xùn)練例進(jìn)行學(xué)習(xí),以盡可能正確地對(duì)訓(xùn)練集之外的示例的概
念標(biāo)記進(jìn)行預(yù)測。這里所有訓(xùn)練例的概念標(biāo)記都是已知的,因此訓(xùn)練樣本的歧義性最低。
對(duì)非監(jiān)督學(xué)習(xí)來說,它通過對(duì)沒有概念標(biāo)記的訓(xùn)練例進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練例中隱藏的
結(jié)構(gòu)性知識(shí)。這里的訓(xùn)練例的概念標(biāo)記是不知道的,因此訓(xùn)練樣本的歧義性最高。對(duì)強(qiáng)化
學(xué)習(xí)來說,它通過對(duì)沒有概念標(biāo)記、但與一個(gè)延遲獎(jiǎng)賞或效用(可視為延遲的概念標(biāo)記)
相關(guān)聯(lián)的訓(xùn)練例進(jìn)行學(xué)習(xí),以獲得某種從狀態(tài)到行動(dòng)的映射。這里本來沒有概念標(biāo)記的概
念,但延遲獎(jiǎng)賞可被視為一種延遲概念標(biāo)記,因此其訓(xùn)練樣本的歧義性介于監(jiān)督學(xué)習(xí)和非
監(jiān)督學(xué)習(xí)之間。
需要注意的是,監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)從一開始就是相對(duì)的,而強(qiáng)化學(xué)習(xí)在提出時(shí)并
沒有從訓(xùn)練樣本歧義性的角度考慮其與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別,因此,一些早期的
研究中把強(qiáng)化學(xué)習(xí)視為一種特殊的非監(jiān)督學(xué)習(xí)。事實(shí)上,對(duì)強(qiáng)化學(xué)習(xí)的定位到目前仍然是
有爭議的,有的學(xué)者甚至認(rèn)為它是與“從例子中學(xué)習(xí)”同一級(jí)別的概念。
從訓(xùn)練樣本歧義性角度進(jìn)行的分類體系,在近幾年可望有一些擴(kuò)展,例如多示例學(xué)習(xí)
(multi-instance learning)等從訓(xùn)練樣本歧義性方面來看很特殊的新的學(xué)習(xí)框架有可能
會(huì)進(jìn)入該體系。但到目前為止,沒有任何新的框架得到了公認(rèn)的地位。另外,半監(jiān)督學(xué)習(xí)
(semi-supervised learning)也有一定希望,它的障礙是半監(jiān)督學(xué)習(xí)中的歧義性并不是
與生俱來的,而是人為的,即用戶期望用未標(biāo)記的樣本來輔助對(duì)已標(biāo)記樣本的學(xué)習(xí)。這與
監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等天生的歧義性完全不同。半監(jiān)督學(xué)習(xí)中人為的歧義性
在解決工程問題上是需要的、有用的(對(duì)大量樣本進(jìn)行標(biāo)記的代價(jià)可能是極為昂貴的),
但可能不太會(huì)導(dǎo)致方法學(xué)或?qū)W(xué)習(xí)問題視點(diǎn)的大的改變。
不同的分類體系是相交的,例如,監(jiān)督學(xué)習(xí)方法既可能是迫切的(例如大多數(shù)神經(jīng)網(wǎng)
絡(luò)、決策樹等),也可能是惰性的(例如k近鄰等)。另外,分類體系也不是絕對(duì)的,例
如前面提到的強(qiáng)化學(xué)習(xí)的情況。
--
寵辱不驚 閑看庭前花開花落
去留無意 漫隨天外云卷云舒
※ 修改:.daniel 于 Apr 28 17:13:36 修改本文.[FROM: dialup61-088.nju.edu]
※ 來源:.南京大學(xué)小百合站 bbs.nju.edu.cn.[FROM: dialup61-088.nju.edu]
?? 快捷鍵說明
復(fù)制代碼
Ctrl + C
搜索代碼
Ctrl + F
全屏模式
F11
切換主題
Ctrl + Shift + D
顯示快捷鍵
?
增大字號(hào)
Ctrl + =
減小字號(hào)
Ctrl + -