基于強(qiáng)化學(xué)習(xí)的飛行自動(dòng)駕駛儀設(shè)計(jì)
針對(duì)強(qiáng)化學(xué)習(xí)在連續(xù)狀態(tài)連續(xù)動(dòng)作空間中的維度災(zāi)難問(wèn)題,利用BP神經(jīng)網(wǎng)絡(luò)算法作為值函數(shù)逼近策略,設(shè)計(jì)了自動(dòng)駕駛儀。并引入動(dòng)作池機(jī)制,有效避免飛行仿真中危險(xiǎn)動(dòng)作的發(fā)生。首先,建立了TD強(qiáng)化學(xué)習(xí)算法框架;然后根據(jù)經(jīng)驗(yàn)將舵機(jī)動(dòng)作合理分割為若干組,在不同的飛行狀態(tài)時(shí),調(diào)取不同組中的動(dòng)作;...