
基于参数化技巧和先验的自动驾驶高效强化学习
摘要
本文介绍了基于参数化技巧和先验的自动驾驶高效强化学习。当自动驾驶车辆部署在公共道路上时,它们将遇到无数种不同的驾驶场景。很多手动设计的驾驶策略难以扩展到现实世界。幸运的是,强化学习通过自动反复实验在很多任务中获得巨大成功。然而,当涉及到交互式密集交通中的自动驾驶时,强化学习代理人要么无法学习合理的性能,要么需要大量的数据。我们的观点是,当人类学习驾驶时,他们将在高级别技巧空间而不是低级别控制空间中做出决策,并且利用专家的先验知识而不是从零开始学习。受此启发,我们提出ASAP-RL,这是一种用于自动驾驶的高效强化学习算法,它同时利用了运动技巧和专家先验。我们首先参数化运动技巧,这些技巧的多样性足以覆盖各种复杂的驾驶场景和情况。本文提出一种技巧参数逆恢复方法,将专家经验由控制空间转换到技巧空间。本文还提出一种简单但有效的双重初始化技术,以利用专家先验,同时避开专家次优性和早期性能下降问题。我们在给定简单且稀少奖励的交互式密集交通驾驶任务上验证了所提出的方法。实验结果表明,与以前通过不同方式利用技巧和先验的方法相比,本文方法可以获得更高的学习效率和更好的驾驶性能。代码已开源,以便于进一步研究。
主要贡献
本文的贡献为以下三方面:
1)本文提出一种强化学习方法来学习运动技巧的参数,以获得更多的信息探索和改进的奖励信号。这些技巧是在自车运动视角下定义的,它们是多样的,因此可以推广到不同的复杂驾驶任务中;
2)本文提出一种反向的技巧参数恢复方法,以将专家经验从控制空间转换到技能空间,以及一种简单但有效的双重初始化方法来更好地利用专家先验,而不会出现性能下降或者抑制的问题。因此,我们可以同时利用技巧和先验;
3)本文在三种具有挑战性的密集交通场景中验证我们用于自动驾驶任务的方法,并且证明本文方法优于先前以不同方式考虑技巧和先验的方法。
论文图片和表格
总结
本文提出一种高效的强化学习(ASAP-RL),它同时利用参数化的运动技巧和专家先验,使自动驾驶车辆在复杂密集交通中导航。本文首先介绍参数化运动技巧,使强化学习智能体能够在技巧参数空间而不是控制空间上学习。为了进一步利用技巧高超的专家先验,本文提出一种反向技能参数恢复技术,以将专家经验从控制空间转换到技巧空间。本文还引入一种简单但有效的双重初始化技术来更好地利用专家先验。在三种具有挑战性的密集交通驾驶场景下进行验证,结果表明,本文提出的ASAP-RL在学习效率和性能方面明显优于先前的方法。
文章转载自公众号:自动驾驶专栏
