自动驾驶“环境和数据集” (下)

发布于 2023-2-23 15:59
浏览
0收藏

IV.方法

本节简要介绍了在速递任务中被评估的一系列方法。

4.1.Goal-dependent Actor-Critic 强化学习

我们将学习问题形式化为马尔科夫决策过程,有状态空间s,行动空间A,环境s,以及一组可能的目标g。


奖励函数取决于当前的目标和状态:R : s ×g ×A → R. 通常的强化学习目标是找到使预期收益最大化的政策,该策略被定义为从状态s0开始的折现奖励之和,折现率为γ。


I在这个导航任务中,一个状态st的预期回报也取决于一系列的采样目标{gk}k。策略是:给定当前状态st和目标gt下,在动作上的分布:π(als, g) = Pr(at = alst= s, gt = g)。我们将值函数定义为代理的期望返回值,该代理从状态st的策略π中采样动作,目标gt:


我们假设agent应该从两种类型的学习中获益:第一,学习一般的、与位置无关的表征和探索行为;第二,学习本地特定的结构和特征。  一个导航代理不仅需要一个通用的内部表征,以支持认知过程,如场景理解,而且还需要组织和记忆一个地方特有的特征和结构。因此,为了支持这两种类型的学习,我们专注于具有多种途径的神经架构。


我们在表1中描述的六个区域评估了两个agent。我们在此对该方法进行总结,因为这些agent的全部架构细节之前已经描述过(Mirowski等人,2018)。  策略和价值函数都由一个神经网络设定参数,该网络共享除最终线性输出以外的所有层。


该agent对原始像素图像xt进行操作,这些图像通过卷积网络,如(Mnih等人,2016)。长短期记忆(LSTM)(Hochreiter和Schmidhuber,1997)接收对话编码器的输出,以及过去的奖励rt+1和以前的行动at+1。这两种不同的结构描述如下。

自动驾驶“环境和数据集” (下)-汽车开发者社区

图4 l 与环境互动的主要循环。

自动驾驶“环境和数据集” (下)-汽车开发者社区

图5 l 架构的比较。左图:City-Nav是一个具有策略LSTM、独立目标LSTM和操作辅助航向(θ)的单一城市导航架构。右图:多城市导航是一个多城市架构,每个城市都有独立的目标LSTM路径。


CityNav架构(图5b)有一个卷积编码器和两个LSTM层,它们被指定为策略LSTM和目标LSTM。目标描述gt与之前的动作和奖励以及卷积编码器的视觉特征一起被输入到目标LSTM。CityNav agent还在目标LSTM的输出上增加了一个辅助的航向(θ)预测任务。


多城市导航架构(图5c)扩展了CityNav agent,以便在不同城市学习。  目标LSTM的职责是编码和封装当地特定的特征和拓扑结构,这样就可以添加多个路径,每个城市或地区一个。此外,在对一些城市进行训练后,我们证明卷积编码器和政策LSTM变得足够通用,只需要为新的城市训练一个新的目标LSTM。


为了训练agent,我们使用IMPALA(Espeholt等人,2018),这是一个actor-critic的实现,将行动和学习分离开来。在我们的实验中,IMPALA的性能与A3C(Mnih等人,2016)相似。我们对CityNav使用256个行为体,对MultiCityNav使用512个行为体,批次大小分别为256或512,序列长度为50。


我们注意到,这些计算资源并不是所有人都能得到的,所以我们验证了只用16个行动者和1个学习者,在一台带有图形处理单元(GPU)的台式电脑上运行,就能获得类似的结果。


我们使用的台式机有很大的内存(192GB),用于实例化16个StreetLearn环境(每个环境都需要一个大的缓存内存来缓存全景图),但更小的内存也可以使用,但要权衡一下更频繁的磁盘访问。


CityNav和基线架构的TensorFlow实现(Mirowski等人,2018)可在https://github.com/deepmind/streetlearn的代码回收库中获得。


训练器代码是对(Espeholt等人,2018)的直接修改,来自https://github.com/deepmind/scalable_ agent,可单独提供。

4.2.Oracle

我们还通过使用广度优先搜索计算从所有全景位置到指定目标位置的最短路径来计算所有任务的上限(Moore, 1959;Zuse, 1972)的全景连通性图。这使我们能够计算agent应该去的下一个全景图是哪一个,以及agent为了向前移动到那个全景图应该对齐的方向,重复这个过程直到到达目的地。


这个ground_truth_position可以作为一个观察值被请求(对于模仿学习代理),或者从环境返回的信息字典中提取。清单6显示了如何实现 oracle agent,以提供一个有价值的衡量标准来衡量任务。

V.速递任务的结构

为了评估所描述的方法,我们给出了每个区域的单独性能,以及多个区域的联合训练结果。我们还展示了该方法的概括能力,即通过评估保留区域的目标,以及只对一个全新的区域进行agent训练。


表2给出了在图3和表1中定义的纽约市和匹兹堡市的六个不同地区,不同的代理在每1000步事件中取得的平均总奖励。尽管代理人接受了奖励塑造的训练(即,当他们在目标的小半径范围内时,他们会得到部分奖励),这里给出的每集回报只包括达到目标时给予的全部奖励。实验都是用5个不同的种子重复进行的。


在表2中,Oracle的结果是直接在图上进行广度搜索的结果,因此它们反映了完美的性能。单一结果显示了使用CityNav架构为每个区域单独训练的agent的性能。训练有素的agent在纽约市表现良好,实现了85%至97%的oracle收益,而在匹兹堡表现较差,尤其是在南岸地区,agent完全失败。


这可能是由于该地区具有挑战性的海拔变化,即使在附近的节点之间也会产生错综复杂的路线,这也是我们指定课程任务的一个伪命题(基于从agent位置到目标的最大欧氏距离,不考虑实际旅行时间)。 


特别是,当 agent在南岸的杜肯山顶时,在河对岸的目标地点,如果乘坐飞机500米远,公路距离可能会有数公里。


联合结果显示了在五个地区联合训练的多城市导航agent在每个地区的表现(不包括南岸)。尽管现在在更大的范围内进行了训练:两个城市和五个地区,但所产生的agent 在性能上只下降了一点。


最后,转移给出了一个agent的表现,该agent在四个地区接受训练(用斜体字给出),然后转移到第五个地区(华尔街)。在这种转移中,只有目标LSTM被修改;架构的其他两个部分(卷积编码器或策略LSTM)没有梯度更新。

自动驾驶“环境和数据集” (下)-汽车开发者社区

表2 l Oracle的每个城市目标奖励,单一训练的CityNav和多个CityNav agent在5个城市(华尔街、曼哈顿的联合广场和哈德逊河、匹兹堡的CMU和阿勒格尼)联合训练或在4个城市(联合广场、哈德逊河、CMU和阿勒格尼)联合训练。

自动驾驶“环境和数据集” (下)-汽车开发者社区

图6 l Oracle的实施,使用地面真实方向/方位到下一个全景图。

自动驾驶“环境和数据集” (下)-汽车开发者社区

表3 l CityNav agent在一组目标地点(中等和粗略的网格)上的概括表现(奖励和失败指标)。我们还计算了半程时间(T1/2),即到达目标的一半。


为了研究受过训练的agent的概括能力,我们掩盖了25%的可能目标,并对剩余的目标进行训练(见图5(Mirowski等人,2018)的说明)。在测试时,我们只对agent在封闭区域达到目标的能力进行评估。注意,agent仍然能够穿越这些区域,只是它从未在那里采样过目标。更确切地说,封闭的区域是经纬度为0.01°(粗网格)或0.005°(中网格)的方块(分别大约为1平方公里和0.5平方公里)。


在实验中,我们对CityNav agent进行了1B步的训练,接下来冻结了agent的权重,并对其在100M步的封闭区域的表现进行了评估。表3显示,随着封闭区面积的增加,agent的性能有所下降。 为了进一步理解,除了测试奖励指标,我们还使用了未完成目标(Fail)和半行程时间(T1/2)指标。


错过目标的指标衡量的是没有达到目标的百分比。半程时间衡量的是完成agent与目标之间的一半距离所需的agent步骤数量。


我们还在表4中比较了使用(经纬度)目标描述符与之前提出的地标描述符(Mirowski等人,2018)时取得的性能。虽然地标方案有一些优势,比如避免了固定的坐标框架,但(纬度,纬度)描述符的表现要优于纽约联合广场地区的地标。

自动驾驶“环境和数据集” (下)-汽车开发者社区

表4 l CityNav代理在联合广场上使用不同类型的目标表示时的表现:(纬度,长度)标量与地标。

VI.相关工作

StreetLearn环境与近年来出现的许多其他模拟器和数据集相关,这些模拟器和数据集是为了响应增强学习和更普遍地通过交互学习导航的更大兴趣而出现的。


我们重点列举了这些相关的数据集和环境,请读者参考Mirowski等人(2018)对相关方法的更完整讨论。


许多基于RL的导航方法依赖于模拟器,这些模拟器具有程序化生成的变化等特点,但在视觉上往往是简单和不真实的,包括合成的3D环境,如VizDoom(Kempka等人,2016)、HoME(Brodeur等人,2017)、House 3D(Wu等人,2018)、Chalet(Yan等人)等。2016)、DeepMind Lab(Beattie等人,2016)、HoME(Brodeur等人,2017)、House 3D(Wu等人,2018)、Chalet(Yan等人,2018),或AI2-THOR(Kolve等人,2017)。


为了弥补模拟和真实之间的差距,研究人员开发了更真实、更高保真度的模拟环境(Dosovit- skiy等人,2017;Kolve等,2017;沙阿等人,2018;吴等人,2018)。然而,尽管模拟环境越来越具有照片真实感,但其固有的问题在于环境的有限多样性和观察结果的清洁性。


我们的真实世界数据集是多样化和视觉逼真的,包括行人、汽车、公共汽车或卡车、不同的天气条件和植被的场景,覆盖了很大的地理区域。然而,我们注意到我们的环境有明显的局限性:它不包含动态元素,行动空间必然是离散的,因为它必须在全景图之间跳跃,而且街道拓扑结构不能被任意改变或再生。


最近引入了更多视觉逼真的环境,如Matterport Room-to-Room (Chang等人,2017)、AdobeIndoorNav (Mo等人,2018)、Stanford 2D- 3D-S (Armeni等人,2016)、ScanNet (Dai等人,2017)、Gibson环境(Xia等人,2018)和MI- NOS (Savva等人,2017)来表示室内场景,其中一些还添加了导航指令。


de Vries等人(2018)使用纽约的图像,但依靠对附近地标的分类注释,而不是视觉观察,并且只使用了500张全景图的数据集(我们的数据集要大两个数量级)。最近,Cirik等人(2018),特别是Chen等人(2018)也提出了以街景图像为基础的较大的驾驶指令数据集。

VII.总结

导航是一项重要的认知任务,它使人类和动物能够在没有地图的情况下穿越一个复杂的世界。为了帮助理解这种认知技能,它的出现和稳健性,以及它在现实世界中的应用,我们

公开了一个数据集和一个基于谷歌街景的互动环境。


我们精心策划的数据集是由经过人工审查和隐私审查的摄影图片构成的--我们采取了这些额外的预防措施,以确保所有的人脸和车牌都被适当地模糊了。


该数据集可在http://streetlearn.cc获得,并根据要求进行分发;在个人要求删除或模糊谷歌街景网站上的特定全景图的情况下,我们将其要求传播给StreetLearn数据集的用户,并向用户提供符合删除要求的最新版本。


我们的环境使agent的训练能够纯粹基于视觉观察和绝对目标位置表征来导航到不同的目标位置。我们还用文字说明扩展了该数据集,以实现基于奖励的任务,重点是遵循相对方向来达到目标。我们将依靠这个数据集和环境来解决接地的、长距离的、目标驱动的导航的基本问题。


文章转载自公众号:智能汽车开发者平台

收藏
回复
举报
回复
相关推荐