針對強化學習在連續狀態連續動作空間中的維度災難問題,利用BP神經網絡算法作為值函數逼近策略,設計了自動駕駛儀。并引入動作池機制,有效避免飛行仿真中危險動作的發生。首先,建立了TD強化學習算法框架;然后根據經驗將舵機動作合理分割為若干組,在不同的飛行狀態時,調取不同組中的動作;其次,構建了BP神經網絡,通過飛行過程中的立即獎賞,更新網絡的值函數映射;最后,通過數字仿真驗證了強化學習自動駕駛儀的性能,仿真結果表明,該算法具有良好的動態和穩態性能。
關注B站賬號,站內消息自動回復給您下載驗證碼。
前往 B站:半導體科技觀察
蟲蟲下載站版權所有 京ICP備2021023401號-1