摘要: 航天器规避机动过程中面临多种复杂约束条件, 传统基于数值优化的动作规划方法在处理相应模型和约束条件时存在初值敏感、计算时间较长等问题, 难以对近距离轨道威胁做出及时反应. 针对该问题, 本文提出一种基于深度强化学习的航天器多约束规避动作规划方法. 建立航天器六自由度非线性动力学模型以及相应姿轨机动约束条件; 建立基于双延迟深度确定性策略梯度(TD3)的动作规划方法, 通过TD3训练得到的神经网络在线生成满足多种约束条件的规避机动动作; 构造与规划方法相适配的深度强化学习规范化训练环境, 确保学习训练过程中智能体和环境的有效交互. 仿真结果表明, 所提方法能在预期交会时间仅数十秒的情况下快速实时生成规避动作, 规划周期小于9 ms, 远低于作为对比项的高斯伪谱法.
中图分类号: