針對(duì)強(qiáng)化學(xué)習(xí)在連續(xù)狀態(tài)連續(xù)動(dòng)作空間中的維度災(zāi)難問題,利用BP神經(jīng)網(wǎng)絡(luò)算法作為值函數(shù)逼近策略,設(shè)計(jì)了自動(dòng)駕駛儀。并引入動(dòng)作池機(jī)制,有效避免飛行仿真中危險(xiǎn)動(dòng)作的發(fā)生。首先,建立了TD強(qiáng)化學(xué)習(xí)算法框架;然后根據(jù)經(jīng)驗(yàn)將舵機(jī)動(dòng)作合理分割為若干組,在不同的飛行狀態(tài)時(shí),調(diào)取不同組中的動(dòng)作;其次,構(gòu)建了BP神經(jīng)網(wǎng)絡(luò),通過飛行過程中的立即獎(jiǎng)賞,更新網(wǎng)絡(luò)的值函數(shù)映射;最后,通過數(shù)字仿真驗(yàn)證了強(qiáng)化學(xué)習(xí)自動(dòng)駕駛儀的性能,仿真結(jié)果表明,該算法具有良好的動(dòng)態(tài)和穩(wěn)態(tài)性能。
標(biāo)簽:
化學(xué)
飛行
自動(dòng)駕駛儀
上傳時(shí)間:
2013-11-09
上傳用戶:劉江林1420