強(qiáng)化學(xué)習(xí)通過(guò)試錯(cuò)與環(huán)境交互獲得策略的改進(jìn),其自學(xué)習(xí)和在線學(xué)習(xí)的特點(diǎn)使其成為機(jī)器學(xué)習(xí)研究的一個(gè)重要分支.該文首先介紹強(qiáng)化學(xué)習(xí)的原理和結(jié)構(gòu);其次構(gòu)造一個(gè)二維分類圖,分別在馬爾可夫環(huán)境和非馬爾可夫環(huán)境下討論最優(yōu)搜索型和經(jīng)驗(yàn)強(qiáng)化型兩類算法;然后結(jié)合近年來(lái)的研究綜述了強(qiáng)化學(xué)習(xí)技術(shù)的核心問(wèn)題,包括部分感知、函數(shù)估計(jì)、多agent強(qiáng)化學(xué)習(xí),以及偏差技術(shù);最后還簡(jiǎn)要介紹強(qiáng)化學(xué)習(xí)的應(yīng)用情況和未來(lái)的發(fā)展方向.
標(biāo)簽:
強(qiáng)化學(xué)習(xí)
上傳時(shí)間:
2016-03-26
上傳用戶:liyanfei