密集强化学习用于自主车辆安全验证

汽车安全 1年前 (2023) admin

322 0 0

编者按：D2RL解决了自动驾驶仿真测试的一个关键问题：如何在不遍历成百上千非关键场景的情况下训练出在关键场景中表现可靠的模型。D2RL通过修改奖励传播的模型，找出关键节点间的路径，使得奖励只在关键路径间传播，使得训练更为密集，训练速度提高3到5个数量级，极大加快了训练过程。

本文译自：

《 Dense reinforcement learning for safety validation of autonomous vehicles》

文章来源：

Nature volume 615, pages 620–627 (2023)

作者：

Shuo Feng，Haowei Sun，Xintao Yan，Haojie Zhu，Zhengxia Zou，Shengyin Shen，Henry X. Liu

原文链接：

https://doi.org/10.1038/s41586-023-05732-2

摘要：阻碍自动驾驶汽车发展和部署的一个关键瓶颈是，由于安全关键事件的罕见性，在自然驾驶环境中验证其安全性所需的经济和时间成本过高[1] 。在这里，我们报告了一个智能测试环境的发展，训练基于人工智能的背景代理以验证自动驾驶车辆在加速模式下的安全性能，而不失公正性。从自然的驾驶数据中，背景代理通过密集深度强化学习（D2RL）方法来学习需要执行什么对抗性的动作，在这种方法中，马尔科夫决策过程被编辑，以删除非安全关键状态，并重新连接关键状态，从而使训练数据中的信息被密集化。D2RL使神经网络能够从带有安全关键事件的密集信息中学习，并实现了传统的深度强化学习方法难以完成的任务。我们通过在高速公路和城市测试轨道上测试一辆高度自动驾驶的车辆来证明我们方法的有效性，测试环境是一个增强现实环境，将模拟背景车辆与物理道路基础设施和真正的自动驾驶测试车辆相结合。我们的结果显示，经过D2RL训练的代理可以将评估过程加快多个数量级（10^3到10^5倍）。此外，D2RL将能够加速与其他安全关键型自主系统的测试和训练。

1 引言

由于自动驾驶汽车（AV）技术的快速发展，我们正处于交通革命的风口浪尖，其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术有可能大大改善交通安全、流动性和可持续性，因此吸引了全世界工业、政府机构、专业组织和学术机构的关注。在过去的20年里，AV的发展已经取得了实质性的进展，尤其是随着深度学习的出现[2]。到2015年，几家公司已经宣布他们将在2020年之前大规模生产AV[3-5]。到目前为止，现实并没有达到这些期望，没有任何L4级（参考文献6）的自动驾驶汽车可以商业化。这其中的原因有很多。但最重要的是，自动驾驶汽车的安全性能仍然大大低于人类驾驶员的水平。对于美国的普通司机来说，在自然驾驶环境（NDE）中，车祸的发生概率约为每英里1.9×10^-6[1]。相比之下，根据2021年加州7的脱离报告，最先进的AV的脱离率约为每英里2.0×10^-5。尽管脱离率因其潜在的偏差而受到批评，但它已被广泛用于跟踪AV安全性能的趋势[8,9]，因为它可以说是唯一可供公众用于比较不同AV的统计数据。

提高AV安全性能的一个关键瓶颈是安全验证的效率严重不足。现行的方法通常是通过软件模拟、封闭测试轨道和道路测试的组合来测试NDE中的AVs。然而，要想在人类驾驶员的水平上验证AV的安全性能，众所周知，需要在NDE中测试数亿英里，有时甚至数千亿英里[1]。由于这种严重的低效率，AV开发商必须支付大量的经济和时间成本来评估每个开发项目，这阻碍了AV部署的进展。为了提高测试效率，许多方法在特意生成的、对安全更重要的场景中测试AV[10,11]。然而，现有的基于场景的方法[12-17]主要适用于背景道路用户有限的短场景路段（更多讨论见补充资料）。

验证NDE中AV的安全性能实质上是一个高维空间的罕见事件估计问题。主要的挑战是由 “稀有性的诅咒 “和 “维度的诅咒 “的复合效应造成的（图1a）。所谓 “维度的诅咒”，我们的意思是，驾驶环境可能在时空上很复杂，而定义这种环境所需的变量是高维的。由于变量空间的体积随着维度的增加而呈指数级增长，计算的复杂性也呈指数级增长[18]。所谓 “稀有诅咒”，我们指的是安全关键事件的发生概率是罕见的，也就是说，变量空间中的大多数点都是非安全关键的，它们没有提供信息训练或提供嘈杂的信息。在这种情况下，即使给定大量的数据，深度学习模型也很难学习，因为安全关键事件的有价值的信息（例如，政策梯度）可能被埋没在大量的非安全关键数据之下。近几十年来，人工智能（AI）系统在解决具有维度诅咒的问题的能力方面取得了快速进展[19]，例如，棋盘游戏Go的状态空间为10^360（参考文献[20]），半导体芯片设计可能有10^2500的状态空间（参考文献[21]）。然而，在这项工作之前，同时解决维度的诅咒和稀有性的诅咒仍然是一个开放的问题，这阻碍了人工智能技术在安全关键系统中的应用，如AVs、医疗机器人和航空航天系统[22]。

密集强化学习用于自主车辆安全验证

图1 用密集学习的方法验证安全关键型人工智能。

a, 稀缺性的诅咒阻碍了深度学习技术在安全关键系统中的应用，因为神经网络的梯度估计会因为信息数据的稀缺性而遭受巨大的方差。通过只用信息数据训练神经网络，我们的密集学习方法大大降低了梯度估计的方差，使深度学习在安全关键系统中的应用成为可能。 f和E分别表示目标函数和数学期望。 b，D2RL方法通过移除非临界状态并重新连接临界状态来编辑马尔可夫过程，然后只对编辑过的马尔可夫过程进行神经网络（NN）训练。我们提供了三个例子。在左边的例子中，该情节被完全从训练数据中删除，因为它不包含任何关键状态。在中间和右边的例子中，非临界状态被跳过，临界状态被重新连接起来，以使训练数据密集化。中间例子的结束状态来自非碰撞事件，而右边的例子来自碰撞事件。 d，增强现实测试平台可以用虚拟背景交通来增强现实世界，从而为自动驾驶汽车提供更安全、更可控和更有效的测试环境。我们的方法可以学习决定何时控制哪些背景车辆以何种概率执行何种对抗性动作。

我们通过开发密集深度强化学习（D2RL）方法来应对这一挑战。其基本思想是识别和删除非安全关键数据，并利用安全关键数据来训练神经网络。由于只有非常小的一部分数据是安全关键的，剩余数据的信息将被大幅密集化。从本质上讲，D2RL方法通过删除非关键状态并重新连接关键状态来编辑马尔科夫决策过程，然后只对编辑过的马尔科夫过程进行神经网络训练（图1b）。因此，对于任何训练情节（episode），来自最终状态的奖励只沿着编辑好的马尔可夫链逆向传播，其中只有临界状态（图1c）。与DRL方法相比，D2RL方法可以在不损失无偏性的情况下，以多个数量级大幅降低策略梯度估计的方差，这一点在方法一节中的定理1中得到了证明。这种大幅度的方差减少可以使神经网络学习并实现DRL方法难以完成的任务。对于AV测试，我们利用D2RL方法，通过神经网络训练背景车辆（BV），以学习何时执行何种对抗性动作，这旨在提高测试效率并确保评估的无偏性。这就形成了一个基于人工智能的对抗性测试环境，在确保测试不偏不倚的情况下，可以将AV所需的测试里程减少多个数量级。我们的方法可以应用于复杂的驾驶环境，包括多条高速公路、十字路口和环岛，这是以前基于场景的方法无法实现的。所提出的方法赋予环境中的测试代理以智能，以创造一个智能测试环境，即用人工智能来验证人工智能。这是一个范式的转变，它为与其他安全关键系统的加速测试和训练打开了大门。

为了证明我们基于人工智能的测试方法的有效性，我们用大规模的自然驾驶数据集训练了BV，并在物理测试轨道上进行了模拟实验和现场实验。具体来说，我们在美国移动通信中心（ACM）的4公里长的物理公路测试轨道和Mcity的城市测试轨道上，用开源的自动驾驶系统Autoware[23]测试了一辆4级AV。为了在D2RL训练的测试环境中安全而精确地测试AV，我们开发了一个增强现实的测试平台[24]，它结合了物理测试轨道和微观交通模拟器SUMO（城市交通模拟）[25] 。如图1d所示，通过同步真实AV和虚拟BV的运动，物理测试轨道上的真实AV可以与虚拟BV互动，就像它在一个真实的交通环境中一样，BV被引导与真实AV互动。对于模拟和现场实验，我们不仅评估了碰撞率，还评估了碰撞类型和碰撞严重程度。我们的模拟和现场测试结果表明，D2RL方法可以有效地学习智能测试环境，与直接在NDE中测试AV的结果相比，它可以无偏见地大幅加快AV的评估过程，提高多个数量级（10^3至10^5倍）。

2 密集深度强化学习

为了利用人工智能技术，我们将AV测试问题表述为一个连续的马尔可夫决策过程（MDP），其中BV的机动性是根据当前状态信息决定的。我们的目标是训练一个由神经网络建模的策略（DRL代理），它可以控制BV的机动动作与AV互动，以最大限度地提高评估效率并确保无偏见。然而，如前所述，由于维度的诅咒和稀有性的诅咒，如果直接应用DRL方法，学习一个有效的政策是很难的，甚至在经验上也是不可行的。

我们通过开发D2RL方法来应对这一挑战。由于安全关键事件的罕见性，大多数状态是不关键的，不能为安全关键事件提供信息，所以D2RL的关键概念是去除这些不关键状态的数据，只利用信息数据来训练神经网络（图1b,c）。对于AV测试问题，许多安全指标[26]可以被用来识别具有不同效率和效果的关键状态。在本研究中，我们利用临界度指标[12,13]，它是对从当前状态开始的特定时间范围内（例如一秒钟）的AV碰撞率的外部近似值。对更多通用问题的理论分析可以在方法和补充章节2a中找到。然后，我们编辑马尔可夫过程，丢弃非临界状态的数据，并将剩余的数据用于政策梯度估计和DRL训练的引导。我们发现，密集学习可以明显降低政策梯度估计的方差，而且是多个数量级的方差，同时不损失估计的无偏性，这一点在方法的定理1中得到了证明。密集学习也可以减少引导方差，因为它可以被看作是与状态相关的时间差学习[27]，其中只有关键状态被利用而其他状态被跳过。

为了证明密集学习的有效性，我们将D2RL与DRL方法进行了比较，以解决一个角落案例生成问题[28,29]，该问题可被表述为一个定义明确的强化学习问题。我们训练了一个神经网络，通过控制最接近的八个BV的行动来最大化AV的碰撞率（图2a）。我们使用近似策略优化（PPO）[30]来更新策略网络的参数，给定每个测试情节的奖励，也就是说，如果有车辆撞车，奖励+20，其他奖励为0。为了公平比较，DRL和D2RL之间的唯一区别是，DRL利用所有的数据来训练神经网络，而D2RL只利用了关键状态的数据。如图2b所示，与DRL相比，D2RL删除了80.5%的完整情节和99.3%的非关键状态的步骤数据。根据定理1，这表明D2RL可以减少大约99.3%的策略梯度估计方差，这使得神经网络能够有效地学习。具体来说，D2RL可以在训练过程中使奖励最大化，而DRL则从训练过程的一开始就被卡住了（图2c）。由D2RL学习的策略可以有效地提高AV的碰撞率，而DRL则未能做到这一点（图2d）。图2e-g说明了三个生成的角落案例。

密集强化学习用于自主车辆安全验证

图2 使用角落案例生成的D2RL与DRL的比较。

a, 神经网络控制120米范围内最近的8辆车的动作，其中每个BV在每0.1秒有33个离散的动作：左侧变道，31个离散的纵向加速（[-4, 2]，离散分辨率为0.2米/秒）和右侧变道。c,d, DRL和D2RL之间训练奖励的比较（c），以及DRL和D2RL所学政策之间碰撞率的比较（d）。实线代表奖励（c）和碰撞率（d）的移动平均值，阴影部分代表标准差。 e, AV（蓝色车辆）进行了一次规避性变道，以避免切入车辆，但与相邻车辆相撞。这三辆车合作包围了AV，并导致了一场车祸。 g，右前车做了一个切入，强制AV刹车，这为右后车在2.8秒后（即28个非关键步骤）进行变道创造了机会，导致了一场车祸。补充视频1中提供了补充解释。

3 学习智能测试环境

学习智能测试环境以进行无偏见和有效的AV评估，要比生成角落案例复杂得多。根据重要性抽样理论[31]，目标主要是学习新的抽样分布，也就是BV的演习的重要性函数，以取代他们的自然演习，目的是使AV测试的估计方差最小。直观地说，BV被训练成学习何时执行何种对抗性动作，在所有BV都遵循自然行为的情况下，只有选定的车辆在选定的时刻以学到的概率执行专门设计的对抗性动作。为了实现这一目标，在不使用任何启发式方法或手工制作的函数的情况下，我们从估计方差中得出奖励函数为

密集强化学习用于自主车辆安全验证

其中表示每个测试事件的变量，是反车辆碰撞事件(A)的指标函数，和是由重要性采样产生的权重（或可能性）。这里表示自然分布，表示目标策略的重要性函数，而表示行为策略的重要性函数。由于没有启发式或手工制作的即时奖励函数，方程（1）中的奖励函数与测试性能高度一致，即奖励越高表示测试环境越有效。这样的奖励设计是通用的，适用于其他具有高维变量的罕见事件估计问题。

为了确定学习机制，我们进一步研究了行为策略和目标策略之间的关系。正如方法中的定理2所证明的，我们发现在训练过程中收集数据的最佳行为策略几乎与目标策略成反比。这表明，如果使用政策上的学习机制（），行为策略将远离最佳状态，这可能会误导训练过程，最终导致低估问题。为了解决这个问题，我们设计了一种非政策性学习机制，即设计一个通用的行为政策，并在训练过程中保持不变。尽管这种非政策机制不是定理2中的最优行为政策（在实践中通常是不可用的），但它可以平衡探索和利用，并且在本研究的所有实验设置中都是有效的。有了奖励函数和非政策性学习机制，我们可以通过D2RL方法学习智能测试环境（训练细节见方法）。

4 模拟AV环境

我们通过系统的模拟分析，评估了基于D2RL的智能测试环境在准确性、效率、可扩展性和可推广性方面的有效性。为了衡量自动驾驶汽车的安全性能，我们利用NDE中不同碰撞类型和严重程度的碰撞率作为基准。由于NDE是完全基于自然驾驶数据生成的，NDE中的测试结果可以代表AVs在现实世界中的安全性能。对于每个测试情节，我们模拟AV在交通中行驶一段固定的距离，然后对测试结果进行记录和分析。为了研究可扩展性和通用性，我们用不同的道路几何形状、不同的驾驶距离和两种不同类型的AV模型（即AV-I和AV-II模型，见补充章节3d）进行模拟实验。

图3显示了双车道高速公路环境下AV-I模型400米驾驶距离的结果，这是一个验证我们方法的基本实验。如图3a所示，在训练过程中，智能测试环境的估计方差随着奖励函数的增加而减小，这证明了公式（1）中奖励函数的有效性。为了证明非政策性机制的合理性，我们调查了政策性机制的性能，其中目标政策被利用为行为政策。如图3b所示，在训练过程中，on-policy实验的崩溃率大幅增加，而off-policy实验的崩溃率则没有变化，因为行为策略没有变化。然而，由于on-policy机制打破了奖励函数和估计方差之间的一致性，这种崩溃率的增加会产生误导。如图3c所示，由on-policy机制得到的测试环境低估了碰撞率。相比之下，我们的非政策性方法可以获得与无损检测方法相同的碰撞率，但效率更高（图3d，e）。为了衡量效率，我们计算了达到预定精度阈值的最小测试次数（相对半宽[12,17]为0.3）。为了减少结果的随机性以进行公平的比较，我们通过自举抽样重复测试我们的方法，并得到所需测试次数的频率和平均值（图3f）。与需要1.9×10^8次测试的无损检测方法相比，我们的方法平均需要9.1×10^4次测试，这是2.1×10^3倍的速度。为了研究其通用性，我们进一步测试了AV-II模型，使用相同的智能测试环境，没有任何细化，也可以获得准确的估计，速度大约为10^3倍（见补充章节4d）。

密集强化学习用于自主车辆安全验证

图3 基于D2RL的智能测试环境的性能评估。

a，DRL和D2RL方法之间的奖励比较，以及代表测试效率的D2RL方法的估计方差（虚线）。b，训练过程中政策内和政策外D2RL方法的碰撞率比较（b），测试过程中政策内和政策外D2RL方法的估计碰撞率比较（c）。d,e, 通过NDE和基于D2RL的智能测试环境对AV-I模型的碰撞率估计（d）和相对半宽（e）。底部X轴表示NDE的测试次数，顶部X轴表示智能测试环境的测试次数。阴影区域代表90%的置信度，实线代表平均数（d）。虚线代表0.3的相对半宽，数字代表达到0.3相对半宽所需的测试次数（e）。 f，AV-I模型重复测试实验所需测试次数的频率。g,h, 在D2RL训练的测试环境中，每种碰撞类型的未加权碰撞率（g）和加权碰撞率（h）。 i-l, 碰撞时刻的速度差（i）、碰撞时间（j）、保险杠到保险杠的距离（k）和近失事事件后的时间（l）的加权分布图。

为了验证关于碰撞类型、碰撞严重程度和近失事件的无偏性，我们分析了不同碰撞类型的碰撞率、碰撞时刻的速度差分布，以及近失事件的碰撞时间、保险杠到保险杠的距离和碰撞后时间的分布。在整个论文中，我们使用的无偏性一词指的是，从我们的方法中得到的估计与从无损检测中得到的估计具有相同的数学预期。在我们的实验中，我们在无损检测中收集了大约2.34×10^8次测试，在智能测试环境中收集了3.15×10^6次（大约少两个数量级）测试。由于智能测试环境比NDE更具对抗性，我们的方法的总崩溃率是3.21×10^-3（图3g），这比NDE的崩溃率（1.58×10^-7）高得多。根据重要性抽样理论的要求，每个碰撞事件都应按似然比加权，以保持无偏性。因此，所有碰撞类型的加权碰撞率与无损检测中的结果进行了比较（图3h），这表明我们的方法在评估精度内是无偏的。同样，图3i-l表明，我们的方法也可以在评估精度内无偏地评估AV的安全性能，即碰撞严重程度和近失事件。由于近失事件对AV的发展至关重要，在不损失无偏性的情况下生成的近失事件为加速AV的训练打开了大门。我们把这个问题留待将来研究。

为了进一步研究可扩展性和通用性，我们对AV-I模型进行了不同车道数（两条和三条车道）和驾驶距离（400米、2公里、4公里和25公里）的实验。在这里，我们研究了25公里的情况，以证明我们的方法对全长行程的有效性，因为在美国，通勤者平均单程旅行约25公里。如表1所示，由于跳过的情节和步骤大大减少了训练方差，我们的方法可以有效地学习所有实验中的智能测试环境。

表1 不同公路模拟环境的性能评估

D2RL方法的测试数量是多次测试实验的平均值，与图3f类似，无损检测方法的测试数量是根据蒙特卡洛方法[1]获得的。

此外，为了证明我们的方法在现实的城市场景中的先进性，我们在德国的一个真实世界的四臂环岛32上扩展了我们的模拟实验，该环岛交通量大，互动复杂。与无损检测方法需要大约8.91×10^6次测试才能达到30%的相对半宽相比，我们的方法只需要3.76×10^3次测试，快了2.37×10^3倍。更多细节见补充视频2和补充章节4b。

5 AV在测试赛道中的测试

最后，我们测试了一辆装有开源自动驾驶系统Autoware[23]的林肯MKZ混合动力车（图4a），在ACM的物理多车道4公里高速公路测试轨道（图4b）和Mcity的物理城市测试轨道（图4c）上连续行驶。我们开发了一个增强现实的测试平台[24]，它结合了物理测试轨道和模拟环境SUMO[25]。如图1d所示，通过同步真实AV和虚拟BV的运动，物理测试轨道上的真实AV可以与虚拟BV互动，就像它在一个真实的交通环境中一样，BV是根据智能测试环境控制的。图4d说明了测试过程的实时可视化。我们在ACM公路段和Mcity城市段的数字双胞胎中训练智能测试环境，使用与模拟研究类似的训练设置（详见方法）。如图4e-h所示，ACM和Mcity的碰撞率估计在ACM的大约156次测试和Mcity的117次测试后收敛并达到30%的相对半宽，比无损检测方法的估计（ACM为2.5×10^7，Mcity为2.1×10^7）快10^5倍。我们还评估了AV在不同碰撞类型和严重程度下的安全性能（图4i，j）。

密集强化学习用于自主车辆安全验证

图4在物理测试轨道上对真实世界的AV进行测试实验。

a, 被测试的AV的插图，配备了Autoware。IMU，惯性测量单元；OBU，车载单元。 b，ACM公路测试环境的图示。c，Mcity城市测试环境图，包括高速公路、环岛、交叉口等。爆炸图标表示测试期间发生的碰撞事件的位置。 d，测试过程的实时可视化说明。左图：模拟视图，虚拟BV（绿色车辆）由智能测试环境生成并控制，与AV（红色车辆）互动。中间：由Autoware可视化的真实世界AV视图，其中黑色车辆是被测试的AV，蓝色车辆是增强的BV。e-h，在ACM测试轨道（e,f）和Mcity测试轨道（g,h）上使用增强现实测试平台的真实AV的碰撞率估计和相对半宽。黑色虚线（e,g）代表碰撞率的最终估计值，灰色虚线（e,g）代表碰撞率30%的相对误差，灰色虚线（f,h）代表0.3的相对半宽阈值，阴影区域（e,g）代表90%的置信度。 i, Mcity测试赛道上不同碰撞类型的AV的碰撞率。 j, Mcity测试赛道上用于分析AV碰撞严重程度的碰撞时刻的速度差分布。补充视频3-8中提供了关于现场实验的补充说明。

6 讨论

我们的结果提出了使用D2RL技术来验证AVs关于其行为能力的安全性能的证据[33]。D2RL可以加速测试过程，并可用于模拟测试和测试轨道方法。它可以大大增强现有的测试方法（伪造方法、基于场景的方法和无损检测方法），以克服它们在现实世界应用中的局限性。D2RL也为利用人工智能技术来验证其他安全关键的自主系统的机器智能打开了大门，例如医疗机器人和航空航天系统。

理想情况下，测试环境应该考虑到AVs的所有操作条件及其相关的罕见事件。例如，已经开发了一个六层模型[34]来构造场景的参数，包括道路几何、道路设施和规则、时间上的修改和事件、移动物体、环境条件和数字信息。在这项研究中，我们主要关注两层：移动物体和道路几何，即周围的多个车辆在不同几何形状的道路上进行机动操作，这对测试环境至关重要。我们的方法可以扩展到包括其他层的参数，如天气条件，通过收集大规模的自然数据和利用这些领域的知识。

我们注意到，人们也越来越注意用形式化的方法来解决人工智能系统带来的挑战（见参考文献35,36和其中的参考文献）。形式化方法为严格的系统规范、设计和验证提供了一个数学框架[37]，这对可信的人工智能至关重要。然而，正如参考文献36中所讨论的那样，需要应对多种重大挑战。然而，正如参考文献36中所讨论的那样，要充分实现其全部潜力，还需要解决多个主要挑战。D2RL有可能与形式化方法相结合。例如，基于可达性的方法[38]可以被纳入临界度量的计算中，以确定临界状态，特别是对于通用安全临界自主系统。如何进一步将D2RL与形式化方法相结合，值得进一步研究。

7 方法

AV安全验证问题的描述

本节描述了AV安全性能评估的问题表述。将驾驶环境的变量表示为，其中表示第个时间步长的AV和BV的状态（位置和速度），表示第个时间步长的BV的动作，表示这个测试事件的总时间步长。在BV机动车的马尔科夫假设下，NDE中每个检测事件的概率可以下式计算然后可以用蒙特卡洛方法[31]测量AV碰撞率为

密集强化学习用于自主车辆安全验证

其中，表示碰撞事件，表示测试事件的总数，表示第个测试事件，表示变量分布为。这里，碰撞被定义为主体车辆（例如，AV）以任何速度与移动或固定的物体接触，导致死亡、受伤或财产损失[39]。由于是一个罕见的事件，获得一个统计上可靠的估计需要大量的测试，这导致了无损检测方法的严重低效问题，正如参考文献[1]中所指出的。

为了解决这个低效率问题，关键是产生一个智能的驾驶环境，可以有目的地控制BV来无偏见地、有效地测试AV。从本质上讲，在智能驾驶环境中测试AV是通过重要性抽样方法31来估计公式（2）中的，即

密集强化学习用于自主车辆安全验证

其中表示智能测试环境中BV机动车的基本分布，是每个测试事件的可能性，即

密集强化学习用于自主车辆安全验证

根据重要性抽样理论31，如果，对于任何，，则可以保证方程（3）中估计的无偏性。

密集强化学习用于自主车辆安全验证

因此，智能测试环境的生成被表述为BV的机动性的顺序MDP问题（即确定以最小化方程（5）中的估计方差。然而，如何解决这样一个与罕见事件和高维变量相关的顺序MDP问题仍然是一个极具挑战性的问题，大多数现有的基于重要性抽样的方法都存在维度诅咒[40]，即估计方差将随着维度的增加而呈指数增长。在我们以前的研究中[14]，我们发现维数诅咒的问题可以通过对自然分布的稀疏对抗性控制在理论上得到解决。然而，在进行稀疏对抗控制时，只利用了基于模型的方法与手工制作的启发式方法，该方法受到了大量的时空限制，而如何利用人工智能技术来训练BV以真正学习测试智能仍然没有解决，这也是本文的重点。相关工作的更多细节可以在补充章节1中找到。

作为一个深度强化学习问题的表述

本节描述了如何将智能测试环境生成为一个DRL问题。如上所述，目标是通过训练一个由神经网络建模的策略来最小化方程（5）中的估计方差，该策略可以用基础分布控制BV的机动性。为了保持符号的简单，我们在所有情况下都隐含是的函数。一个MDP通常由四个关键元素组成：状态、行动、状态转换和奖励。在这项研究中，状态编码了关于AV和周围BV的信息（位置和速度），动作包括31个离散的纵向加速度（[-4, 2]，0.2米每二次方秒的离散分辨率），左车道变化和右车道变化，而状态转换定义了下一个状态的概率分布，这也取决于AV的机动性。在这里，我们假设BV的变道动作将从其当前位置开始，并在一秒钟内完成，如果决定采取变道行动。我们的框架也适用于更现实和复杂的行动设置。

对于转角案例研究，我们研究了一个三车道的高速公路驾驶环境，其中八个关键的BV（即主要的其他车辆或POV）被控制在一定距离（400米）内与AV互动，每个BV在每0.1秒有33个离散的行动。对于智能测试环境的生成案例研究，为了保持DRL的运行时间小，我们将神经网络的输出简化为最关键的POV（主要其他车辆）的对抗性机动概率（），而POV的其他机动行为则根据自然分布被归一化为，其他BV的机动行为则一直遵循自然分布。对抗性演习和POV是由临界性措施决定的。我们注意到，这项工作对多个POV的推广是直截了当的。

奖励函数的设计对DRL问题至关重要[41]。由于智能测试环境的目标是最小化方程（5）中的估计方差，我们得出DRL问题的目标函数为

密集强化学习用于自主车辆安全验证

其中是碰撞事件的指标函数，表示DRL的行为策略。在训练过程中，训练数据是由行为策略收集的，它是对方程（6）中期望值的蒙特卡洛估计，所以我们可以得到奖励函数为

密集强化学习用于自主车辆安全验证

这在理论上与目标函数是一致的。由于它主要基于重要性抽样理论，奖励函数也适用于其他高维变量的罕见事件估计问题。为了限制误差导数的尺度[42]，我们对函数进行了重新缩放和剪裁，得到的奖励函数属于[-100，100]，其中的缩放常数可以在学习过程中自动确定。

有了状态、行动、状态转换和奖励函数，智能测试-环境生成问题就变成了一个DRL问题。然而，由于信息数据的稀缺性，神经网络的梯度估计会受到很大的影响，由于稀缺性的诅咒，将基于学习的技术应用于安全关键系统是极具挑战性的。如果直接应用DRL方法，学习一个有效的政策是很难的，甚至在经验上也是不可行的。

密集深度强化学习

为了应对这一挑战，我们在本文中提出了D2RL方法。具体来说，根据策略梯度定理[27]，DRL方法的目标函数的策略梯度可以被估计为

密集强化学习用于自主车辆安全验证

其中，表示政策的参数，表示状态-行动值，和是时间的政策下的状态和行动的样本，对的无偏估计，即。不同的是，对于D2RL方法，我们建议将政策梯度估计为

密集强化学习用于自主车辆安全验证

这里，如果，一个状态就被定义为非临界状态。其中表示状态，表示动作，表示状态值，所以临界状态的集合可以定义为。它表明，如果当前状态下的任何行动（例如，BV的机动性）都不会影响状态的预期值（例如，从当前状态开始的特定时间范围内AV的碰撞概率），则该状态被定义为非关键状态。我们注意到，这个定义主要是为了理论分析的干净，并不是严格要求在实践中运行算法。例如，如果当前的行动不会对状态的预期值产生实质性的影响，那么一个状态实际上可以被确定为非临界状态。对于具体的应用，可以根据特定领域的模型或物理学来近似地确定临界状态。例如，临界度指标[12,13]是特定时间范围内（例如一秒钟）AV碰撞率的外部近似值，在本研究中利用该方法来证明AV测试问题。我们注意到，许多其他的安全指标[26]也可以适用，如美国国家公路交通管理局开发的模型预测瞬时安全指标[43]和德国PEGASUS项目开发的临界度指标[44]，只要确定的状态集涵盖临界状态。更多更普遍意义上的理论分析可以在补充章节2a中找到。

然后，我们有以下定理，证明可以在补充资料中找到。

定理1

D2RL的政策梯度估计器具有以下特性：

密集强化学习用于自主车辆安全验证

其中是政策下所有状态中临界状态的比例（例如，表示图2b和表1中跳过的步骤比例），。

定理1证明，与DRL方法相比，D2RL方法对政策梯度的估计是无偏的、有效的。为了量化密集学习的方差减少，我们引入了方程（10）中的假设，即假设是独立于指标函数的。由于策略和状态动作值都是随机初始化的，的值对于所有不同的状态都是相当相似的，所以这个假设在训练过程的早期阶段是有效的。这样的方差减少将使D2RL方法能够优化神经网络，而DRL方法将卡在训练过程的开始阶段。

然后我们考虑密集学习对估计的影响，它可以指导信息在状态动作空间的传播。例如，固定长度的优势估计器（）通常用于PPO算法[30]，为

密集强化学习用于自主车辆安全验证

其中，是状态值函数，表示贴现率，表示固定长度。对于安全关键型应用，即时奖励通常为零（即），由于事件的稀有性，大多数状态值函数由没有任何有价值信息的初始随机值决定。在学习过程中，用这种嘈杂的状态值函数进行引导将是无效的。通过编辑马尔科夫链，只有关键状态才会被考虑。然后，优势估计器将被基本修改为

密集强化学习用于自主车辆安全验证

其中, 是自然数，是一个函数，，，，且是自然数。从本质上讲，这是一种依赖于状态的时差学习，只有临界状态的值才被利用来进行引导。由于临界状态导致安全关键事件的概率要高得多，奖励信息可以更容易地传播到这些临界状态值。利用这些关键状态的值，引导可以更有效地将信息从安全关键事件引导到状态行动空间。这种机制可以帮助避免大量噪声数据的干扰，并将策略的重点放在学习稀疏但有价值的信息上。由于上述关于策略梯度估计和引导的方差减少，与DRL方法相比，D2RL方法大大提高了学习效果，使神经网络能够从安全关键事件中学习。

将信息密集化是克服事件的稀有性所带来的挑战的自然方法。在深度神经网络领域，将不同层的神经网络更密集地连接起来已被证明能产生更好的训练效率和功效，即DenseNet[45]。我们的方法不是连接神经网络层，而是通过将状态与安全临界状态更密集地连接起来，除了状态转换所提供的自然连接外，还将信息密集化了。由于安全临界状态与罕见事件有更多的联系，它们包含了更多有价值的信息，且差异较小。通过密集化安全临界状态与其他状态之间的联系，我们可以更好地将有价值的信息传播到整个状态空间，这可以大大促进学习过程。本研究提出并演示了密集学习方法的一个具体实现方式，即近似地识别非关键状态并直接连接其余状态。这可以通过在安全临界状态和非临界状态之间建立更灵活、更密集的连接来进一步改进。连接甚至可以以课程学习的形式加入[46]，它可以逐步引导信息传播。识别关键状态的措施也可以通过涉及更先进的建模技术来进一步改进。

非政策性学习机制

我们在这一节中证明了非政策性学习机制。行为策略πb的目标是收集训练数据，以改进目标策略π，使方程（6）中的目标函数最大化。为了实现这一目标，关键是要利用方程（7）中的奖励函数准确估计目标函数，这决定了政策梯度的计算。然而，只有发生车祸的事件才有非零的奖励，因此，由于车祸的罕见性，目标函数的估计会有很大的差异。如果没有对目标函数的准确估计，训练就会被误导。根据重要性抽样理论，我们有以下定理，其证明可在补充资料中找到。

定理2

密集强化学习用于自主车辆安全验证

其中表示在训练过程中不变的最优重要性采样函数，符号表示 “成比例”。

定理2发现，最佳行为策略几乎与目标策略成反比，特别是在训练过程的开始阶段，当远离时。如果使用政策上的学习机制（），行为政策将远离最优，这可能误导训练过程，最终导致低估问题。例如，如果目标政策遗漏了一个可能导致可能崩溃的行动，on-policy学习机制将永远不会发现这个遗漏的崩溃。更重要的是，政策上的机制可能会误导政策，故意隐藏那些难以评估的碰撞，导致安全性能评估的严重低估问题。

我们设计了一个非政策学习机制来解决这个问题，在训练过程中设计了一个通用的行为政策并保持不变。具体来说，我们确定了POV的对抗性演习的恒定概率（即)，并以0.99的总概率进行其他演习，这些演习根据自然分布进行了标准化。这个政策在大部分时间里使用自然分布来探索状态-行动空间，并利用基于模型的临界度测量的信息来帮助识别POV和对抗性机动动作。我们注意到，尽管最优行为策略需要根据目标策略自适应地确定，如定理2所示，但在本研究中，非策略学习机制可以为有效学习提供足够好的基础。行为策略对επb的常数也不敏感，一般来说，一个平衡探索和利用的小数值（例如0.1、0.05、0.01等）在本研究中是有效的。未来可以研究进一步的改进。

仿真设置

无损检测仿真器

为了模拟无损检测，我们开发了一个基于开源交通仿真器SUMO的仿真平台。该平台的方案可以在补充资料中找到。我们利用C++和TRACI接口来完善SUMO模拟器，以便能够集成高保真的驾驶环境。具体来说，我们重写并重新编译了SUMO的C++代码，以整合高保真驾驶环境，包括汽车跟车和变道行为模型。然后，我们利用TRACI接口来实现智能测试环境，在选定的时刻，选定的车辆将按照D2RL方法得到的策略，以学到的概率执行特定的对抗性动作。我们还通过TRACI接口将修改后的SUMO与与BV、AV、交通信号、高清地图等信息有关的物理测试轨道同步。为了提供一个智能测试环境的训练环境，我们构建了一个多车道的高速公路驾驶环境和一个城市驾驶环境，所有车辆都以100ms的间隔进行控制。

无损检测模拟器中的驾驶行为模型

SUMO的默认驾驶行为模型是简单和确定的，不能用于AV的安全测试和培训，因为它们被设计为无碰撞模型。为了解决这个问题，在这项研究中，我们根据密歇根大学安阿伯分校的安全试验模型部署计划[48]和基于车辆的综合安全系统计划[49]中的大规模自然驾驶数据集，构建了NDE模型[47]，以提供BV的自然主义行为。在模拟的每一步，无损检测模型可以提供每个BV的演习分布，这与NDD是一致的。然后，通过从分布中取样，可以产生一个可以评估真实世界安全性能的测试环境。对于ACM和Mcity的现场测试，虽然智能测试环境可以将AV测试从大约107个循环的测试加速到只有大约104个循环（表1），但这对于一个学术研究小组来说仍然是一个相当大的努力水平。为了更有效地展示我们的方法，我们简化了无损检测模型以更方便地展示我们的方法。具体来说，我们修改了智能驾驶模型（IDM）[50]和最小化车道变化引起的整体制动（MOBIL）模型[51]作为随机模型来构建简化的无损检测模型。关于NDE模型的更多细节可以在补充资料中找到。

D2RL架构、实施和训练

通过用密集学习方法定义一个特定的环境，D2RL算法可以很容易地插入到现有的DRL算法中。具体来说，对于现有的DRL算法，环境从DRL代理那里接收决策，执行决策，然后在每个时间步长收集观察结果和奖励，而对于D2RL算法，环境只收集关键状态的观察结果和奖励，如补充章节3e中所示。通过这种方式，我们可以利用现有的DRL平台快速实现D2RL算法。在这项研究中，我们利用了在RLLib 1.2.0平台上实现的PPO算法[52]，该算法在密歇根大学安阿伯分校的500个中央处理单元核心和3500GB内存的高性能计算集群上进行了并行训练。我们设计了一个三层全连接神经网络，每层有256个神经元，除默认参数外，还选择了10-4的学习率和1.0的折扣系数。每个中央处理单元在每次训练迭代中为所有的实验设置收集120个时间步数的训练数据，因此每次训练迭代中总共收集了60000个时间步数。对于角落案例的生成，神经网络的输出是最接近的8个BV的动作，其中每个BV有33个离散的动作空间：左侧车道变化，31个离散的纵向加速度（[-4，2]，0.2米/秒的离散分辨率）和右侧车道变化。对于智能测试环境的生成，神经网络的输出是POV的对抗性操纵概率（επ），其中行动空间为επ∈[0.001, 0.999]。为了进一步提高训练过程中的数据效率，我们用收集到的数据通过重采样机制对神经网络进行多步骤训练。

现场测试设置

扩增实境测试平台

我们在ACM（位于密歇根州Ypsilanti的世界首屈一指的自动驾驶汽车测试轨道之一）和Mcity测试轨道实施增强现实测试平台，后者是世界上第一个专门为自动驾驶汽车测试而建造的测试轨道。在这项研究中，我们利用了4公里长的高速公路环线，该环线具有两车道和三车道，并有出口和入口匝道，以创造各种并线机会，还利用了Mcity城市驾驶环境，包括各种类型的高速公路、环岛、城市街道等等，如补充章节3f所示。我们基于NDE模拟器和现有的高清地图构建了ACM和Mcity的数字双胞胎。为了同步模拟和物理测试轨道之间的信息，我们利用了安装在测试轨道上的专用短程通信（DSRC）路边设备。这些基于DSRC的设备可以通过802.11p和SAE J2735协议，通过即时转发信息和转发功能与AV进行通信。具体来说，我们利用即时转发信息功能将包含虚拟BV的标识符、经度、纬度、高度等的基本安全信息（BSM）广播给物理AV，并利用转发功能将AV收到的BSM转发给数字双胞胎。在接收到AV的BSM后，我们在模拟世界中同步了AV的状态，其中BV由智能测试环境控制。该平台的更多细节可以在参考文献24中找到。我们实施的系统平均有33毫秒的通信延迟，这对于AV测试来说是可以接受的，并且可以通过先进的无线通信技术进一步改进。

增强的图像渲染

我们使用增强现实技术来渲染和混合虚拟物体（例如车辆）到自我车辆的摄像机视图上。给定一个背景三维模型及其在世界坐标中的6个自由度的姿势/位置，我们进行两阶段的转换，将模型投射到车载摄像机图像上：（1）从世界坐标到自我车辆坐标，以及（2）从自我车辆坐标到车载摄像机坐标。在第一次转换中，自我车辆的姿势和位置是由车载高精度实时运动定位（RTK）的实时信号获得的。在第二次转换中，投影是基于预先校准的相机内在和外在的。我们还对渲染层进行了重新打光，以协调混合结果的视觉质量。增强的视图是基于与渲染的前景层、相机的背景层和渲染的阿尔法哑光的线性混合而生成的。在混合结果之上，进一步添加天气控制层以模拟不同的天气状况，例如雨、雪和雾。我们在pyrender53的基础上实现了增强的渲染。补充章节4f中可以看到对增强图像渲染的额外验证。

被测试的AV

作为被测试的AV，我们使用了来自密歇根大学安阿伯分校Mcity测试设施的一辆改装林肯MKZ。该车配备了多个传感器、计算资源（两个Nexcom Lumina）和Dataspeed Inc.提供的线上驱动功能。具体来说，传感器包括PointGrey相机、Velodyne 32通道LiDAR、Delphi雷达、OTXS RT3003 RTK GPS、Xsens MTi GPS/惯性测量单元等。我们用基于机器人操作系统的开源软件Autoware.AI[23]来实现车辆，它为高度自动化的驾驶功能提供了全栈软件，包括定位、感知、规划、控制等。然后，我们将自动驾驶汽车与增强现实测试平台相结合，评估自动驾驶汽车的安全性能。系统框架的图示可以在补充资料中找到。具体来说，我们修改了AV的定位组件，利用高清地图和高精度RTK来获取当前的姿势和速度。周围车辆的BSMs是通过无线通信直接从模拟中获得的。为了生成AV的未来轨迹，我们应用了OpenPlanner 1.13[54]作为决策模块，这是一种包括全局和局部路径规划的先进规划算法。我们应用纯追求算法将规划的轨迹转换成速度和偏航率，然后使用Dataspeed公司提供的比例-积分-衍生控制器进一步将其转换成车辆的线控指令，即转向角、油门和刹车百分比。

数据可用性

我们用于自然驾驶环境建模的原始数据集来自密歇根大学安阿伯分校的安全试验模型部署（SPMD）计划[48]和基于车辆的综合安全系统（IVBSS）[49]。包括图像增强现实模块的三维模型资产的ShapeNet数据集可以在https://github.com/mmatl/pyrender。补充视频7中使用的警方车祸报告可在https://www.michigantrafficcrashfacts.org/。用于构建无损检测模型和智能测试环境的处理数据以及支持本研究结果的实验结果可在https://github.com/michigan-traffic-lab/Dense-Deep-Reinforcement-Learning。源数据随本文提供。

代码可用性

仿真软件SUMO、自动驾驶系统Autoware和带有已实现的PPO算法的RLLib平台是公开的，如文中所述和相关参考文献[23,25,52]。自然驾驶环境模拟器、模拟器中的驾驶行为模型、基于D2RL的智能测试环境和模拟设置的源代码可在https://github.com/michigan-traffic-lab/Dense-Deep-Reinforcement-Learning。

参考文献

1. Kalra, N. & Paddock, S. M. Driving to safety: how many miles of driving would it take to demonstrate autonomous vehicle reliability? Transp. Res. A 94, 182–193 (2016).

2. LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. Nature 521, 436–444 (2015).

3. 10 million self-driving cars will be on the road by 2020. Insider https://www.businessinsider. com/report-10-million-self-driving-cars-will-be-on-the-road-by-2020-2015-5-6 (2016).

4. Nissan promises self-driving cars by 2020. Wired https://www.wired.com/2013/08/nissan-autonomous-drive/ (2014).

5. Tesla’s self-driving vehicles are not far off. Insider https://www.businessinsider.com/elon-musk-on-teslas-autonomous-cars-2015-9 (2015).

6. Taxonomy and Definitions for Terms Related to Driving Automation Systems for On-Road Motor Vehicles (Society of Automotive Engineers, 2021); https://www.sae.org/standards/

content/j3016_202104/.

7. 2021 Disengagement Reports (California Department of Motor Vehicles, 2022); https://www.dmv.ca.gov/portal/vehicle-industry-services/autonomous-vehicles/disengagement-reports/.

8. Paz, D., Lai, P. J., Chan, N., Jiang, Y. & Christensen, H. I. Autonomous vehicle benchmarking using unbiased metrics. In IEEE International Conference on Intelligent Robots and Systems

6223–6228 (IEEE, 2020).

9. Favarò, F., Eurich, S. & Nader, N. Autonomous vehicles’ disengagements: trends, triggers, and regulatory limitations. Accid. Anal. Prev. 110, 136–148 (2018).

10. Riedmaier, S., Ponn, T., Ludwig, D., Schick, B. & Diermeyer, F. Survey on scenario-based safety assessment of automated vehicles. IEEE Access 8, 87456–87477 (2020).

11. Nalic, D. et al. Scenario based testing of automated driving systems: a literature survey. In Proc. of the FISITA Web Congress 1–10 (Fisita, 2020).

12. Feng, S., Feng, Y., Yu, C., Zhang, Y. & Liu, H. X. Testing scenario library generation for connected and automated vehicles, part I: methodology. IEEE Trans. Intell. Transp. Syst. 22, 1573–1582 (2020).

13. Feng, S. et al. Testing scenario library generation for connected and automated vehicles, part II: case studies. IEEE Trans. Intell. Transp. Syst. 22, 5635–5647 (2020).

14. Feng, S., Yan, X., Sun, H., Feng, Y. & Liu, H. X. Intelligent driving intelligence test for autonomous vehicles with naturalistic and adversarial environment. Nat. Commun. 12, 748 (2021).

15. Sinha, A., O’Kelly, M., Tedrake, R. & Duchi, J. C. Neural bridge sampling for evaluating safety-critical autonomous systems. Adv. Neural Inf. Process. Syst. 33, 6402–6416 (2020).

16. Li, L. et al. Parallel testing of vehicle intelligence via virtual-real interaction. Sci. Robot. 4, eaaw4106 (2019).

17. Zhao, D. et al. Accelerated evaluation of automated vehicles safety in lane-change scenarios based on importance sampling techniques. IEEE Trans. Intell. Transp. Syst. 18, 595–607 (2016).

18. Donoho, D. L. High-dimensional data analysis: the curses and blessings of dimensionality. AMS Math Challenges Lecture 1, 32 (2000).

19. Hinton, G. E. & Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science 313, 504–507 (2006).

20. Silver, D. et al. Mastering the game of go without human knowledge. Nature 550, 354–359 (2017).

21. Mirhoseini, A. et al. A graph placement methodology for fast chip design. Nature 594, 207–212 (2021).

22. Cummings, M. L. Rethinking the maturity of artificial intelligence in safety-critical settings. AI Mag. 42, 6–15 (2021).

23. Kato, S. et al. Autoware on board: enabling autonomous vehicles with embedded systems. In 2018 ACM/IEEE 9th International Conference on Cyber-Physical Systems 287–296 (IEEE, 2018).

24. Feng, S. et al. Safety assessment of highly automated driving systems in test tracks: a new framework. Accid. Anal. Prev. 144, 105664 (2020).

25. Lopez, P. et al. Microscopic traffic simulation using SUMO. In International Conference on Intelligent Transportation Systems 2575–2582 (IEEE, 2018).

26. Arun, A., Haque, M. M., Bhaskar, A., Washington, S. & Sayed, T. A systematic mapping review of surrogate safety assessment using traffic conflict techniques. Accid. Anal. Prev. 153, 106016 (2021).

27. Sutton, R. S. & Barto, A. G. Reinforcement Learning: An Introduction (MIT Press, 2018).

28. Koren, M., Alsaif, S., Lee, R. & Kochenderfer, M. J. Adaptive stress testing for autonomous vehicles. In IEEE Intelligent Vehicles Symposium (IV) 1–7 (IEEE, 2018).

29. Sun, H., Feng, S., Yan, X. & Liu, H. X. Corner case generation and analysis for safety assessment of autonomous vehicles. Transport. Res. Rec. 2675, 587–600 (2021).

30. Schulman, J., Wolski, F., Dhariwal, P., Radford, A. & Klimov, O. Proximal policy optimization algorithms. Preprint at https://arxiv.org/abs/1707.06347 (2017).

31. Owen, A. B. Monte Carlo theory, methods and examples. Art Owen https://artowen. su.domains/mc/ (2013).

32. Krajewski, R., Moers, T., Bock, J., Vater, L. & Eckstein, L. September. The round dataset: a drone dataset of road user trajectories at roundabouts in Germany. In 2020 IEEE 23rd International Conference on Intelligent Transportation Systems 1–6 (IEEE, 2020).

33. Nowakowski, C., Shladover, S. E., Chan, C. Y. & Tan, H. S. Development of California regulations to govern testing and operation of automated driving systems. Transport. Res. Rec. 2489, 137–144 (2015).

34. Sauerbier, J., Bock, J., Weber, H. & Eckstein, L. Definition of scenarios for safety validation of automated driving functions. ATZ Worldwide 121, 42–45 (2019).

35. Pek, C., Manzinger, S., Koschi, M. & Althoff, M. Using online verification to prevent autonomous vehicles from causing accidents. Nat. Mach. Intell. 2, 518–528 (2020).

36. Seshia, S. A., Sadigh, D. & Sastry, S. S. Toward verified artificial intelligence. Commun. ACM 65, 46–55 (2022).

37. Wing, J. M. A specifier’s introduction to formal methods. IEEE Comput. 23, 8–24 (1990).

38. Li, A., Sun, L., Zhan, W., Tomizuka, M. & Chen, M. Prediction-based reachability for collision avoidance in autonomous driving. In 2021 IEEE International Conference on Robotics and Automation 7908–7914 (IEEE, 2021).

39. Automated Vehicle Safety Consortium AVSC Best Practice for Metrics and Methods for Assessing Safety Performance of Automated Driving Systems (ADS) (SAE Industry Technologies Consortia, 2021).

40. Au, S. K. & Beck, J. L. Important sampling in high dimensions. Struct. Saf. 25, 139–163 (2003).

41. Silver, D., Singh, S., Precup, D. & Sutton, R. S. Reward is enough. Artif. Intell. 299, 1–13(2021).

42. Mnih, V. et al. Human-level control through deep reinforcement learning. Nature 518, 529–533 (2015).

43. Weng, B., Rao, S. J., Deosthale, E., Schnelle, S. & Barickman, F. Model predictive instantaneous safety metric for evaluation of automated driving systems. In IEEE Intelligent Vehicles Symposium (IV) 1899–1906 (IEEE, 2020).

44. Junietz, P., Bonakdar, F., Klamann, B. & Winner, H. Criticality metric for the safety validation of automated driving using model predictive trajectory optimization. In International Conference on Intelligent Transportation Systems 60–65 (IEEE, 2018).

45. Huang, G., Liu, Z., Van Der Maaten, L. & Weinberger, K. Q. Densely connected convolutional networks. In IEEE Conference on Computer Vision and Pattern Recognition 4700–4708 (IEEE, 2017).

46. Bengio, Y., Louradour, J., Collobert, R. & Weston, J. Curriculum learning. In International Conference on Machine Learning 41–48 (ICML, 2009).

47. Yan, X., Feng, S., Sun, H., & Liu, H. X. Distributionally consistent simulation of naturalistic driving environment for autonomous vehicle testing. Preprint at https://arxiv.org/abs/ 2101.02828 (2021).

48. Bezzina, D. & Sayer, J. Safety Pilot Model Deployment: Test Conductor Team Report DOT HS 812 171 (National Highway Traffic Safety Administration, 2014).

49. Sayer, J. et al. Integrated Vehicle-based Safety Systems Field Operational Test: Final Program Report FHWA-JPO-11-150; UMTRI-2010-36 (Joint Program Office for Intelligent Transportation Systems, 2011).

50. Treiber, M., Hennecke, A. & Helbing, D. Congested traffic states in empirical observations and microscopic simulations. Phys. Rev. E 62, 1805 (2000).

51. Kesting, A., Treiber, M. & Helbing, D. General lane-changing model MOBIL for car-following models. Transp. Res. Rec. 1999, 86–94 (2007).

52. Liang, E. et al. RLlib: abstractions for distributed reinforcement learning. In International Conference on Machine Learning 3053–3062 (ICML, 2018).

53. Chang A. X. et al. ShapeNet: an information-rich 3D model repository. Preprint at https:// arxiv.org/abs/1512.03012 (2015).

54. Darweesh, H. et al. Open source integrated planner for autonomous navigation in highly dynamic environments. J. Robot. Mechatron. 29, 668–684 (2017).

密集强化学习用于自主车辆安全验证

联系人：唐老师

电话：13917148827

邮箱：[email protected]

点“阅读原文”获取论文

密集强化学习用于自主车辆安全验证