針對強化學習在連續狀態連續動作空間中的維度災難問題,利用BP神經網絡算法作為值函數逼近策略,設計了自動駕駛儀。并引入動作池機制,有效避免飛行仿真中危險動作的發生。首先,建立了TD強化學習算法框架;然后根據經驗將舵機動作合理分割為若干組,在不同的飛行狀態時,調取不同組中的動作;其次,構建了BP神經網絡,通過飛行過程中的立即獎賞,更新網絡的值函數映射;最后,通過數字仿真驗證了強化學習自動駕駛儀的性能,仿真結果表明,該算法具有良好的動態和穩態性能。
標簽:
化學
飛行
自動駕駛儀
上傳時間:
2013-11-09
上傳用戶:劉江林1420