专利出售信息
发明 一种结合好奇心机制与自模仿学习的导航决策方法 二次变更/无需公示【特价】只包过申请日的年费
计算机 人工智能 数据算法 深度学习 智能决策 稀疏奖励 游戏设计 1人
G01C21/20 G06N20/00
摘要:一种结合好奇心机制与自模仿学习的导航决策方法,包括仿真环境的配置、对图像信息编码、智能体与环境互动获取信息并存入经验池、基于时间步进行采样获取数据、将获取数据作为输入至ICM算法模型获得内在奖励、把观测数据与总奖励作为输入至SIL算法模型学习新策略、智能体训练、训练结果分析。本发明的有益效果为:所提出的PPO‑CI算法有利于鼓励智能体探索更多未知的场景,应对更为复杂的情况,在部分可观测环境中智能体能够通过模仿好奇心引领下所获取的高回报轨迹使得训练快速达到收敛效果,该方法能应对随机多变的无地图场景,能够完成更为复杂的探索任务。
发布人员
  • 05-09

免责声明:以上消息未经人工确认,本平台不担保其真实性和有效性,交易前请仔细核实。