一种用于学习型赛车控制的预测安全过滤器

汽车安全 4个月前 admin

48 0 0

编者按：针对自动驾驶等安全关键的控制问题，本文建立了一种预测安全过滤器（Predictive Safety Filter，PSF），该框架可以与任何具有潜在不安全性的期望控制信号（例如基于学习产生的）结合使用，当检测到期望控制输入可能导致未来违反安全约束时，以保证系统安全的最低限度对其进行修正。通过在微型遥控赛车上进行辅助驾驶和模仿学习训练两种情景的实验，验证了所提出的预测安全过滤器可以使非线性车辆系统在违背安全约束的期望控制信号输入下保持安全。

本文译自：

《A Predictive Safety Filter for Learning-Based Racing Control》

文章来源：

IEEE ROBOTICS AND AUTOMATION LETTERS, VOL. 6, NO. 4, OCTOBER 2021

作者：

BenTearle, KimP.Wabersich, AndreaCarron, MelanieN.Zeilinger

作者单位：

the Institute for Dynamical Systems and Control (IDSC), ETH Zurich

原文链接：

https://ieeexplore.ieee.org/document/9484747

摘要：在自动驾驶等安全性至关重要的应用场景中，对高性能控制器的需求与日俱增，这推动了正式安全验证技术的发展。在本文中，我们设计并实现了一种预测安全过滤器，当与任何具有潜在不安全性的控制信号（如基于学习的方法中产生的控制信号）并存时，该过滤器能够保持车辆在赛道边界范围内的安全性。利用模型预测控制（MPC）框架建立了一种最小干预的算法，该算法可验证期望控制输入是否安全并可作用于车辆，或提供替代输入以保持车辆在安全约束边界内行驶。为实现这一目标，我们提供了一套具有理论依据的流程，利用高效的凸近似技术计算非线性自行车动力学模型的安全不变集。为了在不采取保守的安全干预措施的情况下充分发挥赛车的性能，通过预测控制的备份轨迹实时扩展了安全集。在微型遥控车上的辅助手动驾驶和深度模仿学习应用证明了安全过滤器在激烈操控中确保车辆安全的能力。

关键词：机器人安全，优化理论和最优控制，机器学习控制方法

1 引言

机器人系统的发展带来了越来越多的应用，它们超越了汽车或电子生产等传统行业中那些孤立的任务空间。最新的应用围绕在复杂任务空间中与人类进行动态的和基于学习的交互，例如自动驾驶的情景，因此需要先进的安全机制[1],[2]，以防止潜在的危险情况。要在高动态系统的物理极限范围内保持安全，往往需要在性能和保守性之间根据特定任务的需求进行权衡，以确保系统安全运行。因此，越来越多的人开始关注建立理论上合理的安全框架，这种框架能一定程度地降低保守性，同时以模块化的方式实现安全，而不依赖于特定任务的目标。

虽然其中一些方法已在实践中得到证明，但所考虑的应用往往是小规模或近似线性的控制系统，它们只在其状态空间的保守区域内运行[3]。基于自动驾驶严格的安全要求，我们考虑将安全自动驾驶和赛车辅助驾驶问题作为基准应用，以推导出与实际相关的安全机制。赛车需要利用车辆的全部非线性动力学特性，提供了一个必须保证安全的、有挑战性的领域。

为了确保任意控制策略的安全性，我们采用了图1所示的模块化安全框架。提出的方法允许该框架与任何潜在不安全的控制信号结合使用，例如来自基于学习的控制器的信号。其基本思想是设计一个安全过滤器，实时对期望控制信号进行分析，并决定是否可以将其作用于系统，或者是否必须对其进行修正以确保安全。对于本文中考虑的赛车应用，这包括验证在当前的转向和动力系统控制请求下，车辆未来是否能够保持在赛道边界内。

实现这一目标的方法是寻找安全备份控制序列，将车辆引向一组已知的安全状态，其中序列的第一个输入尽可能接近期望的控制信号。这种方法可以验证期望的控制输入是否安全，同时提供一个备选的安全控制输入。

一种用于学习型赛车控制的预测安全过滤器

图1.预测安全过滤器的概念：基于当前状态，任意控制算法会提供一个期望的控制输入，经安全过滤器处理后作用于实际系统。

A.相关的研究工作

在闭环系统中使用安全控制器的概念最早在文献[4]中提出，当软件出现故障时，系统可以在实验控制器和可靠的安全控制器之间切换。之后文献[5]提出了利用障碍证明验证系统安全性的理论，并进一步扩展为控制障碍函数（CBFs）的概念[6]。最近的研究重新审视了将CBFs用于机器人系统安全关键控制的概念，相关概述见文献[1]。在文献[7]中，这种方法与机器学习框架相结合，安全地学习Segway机器人的模型差异，同时在训练过程中限制了操作空间。虽然这些方法建立在李雅普诺夫函数控制的强大理论成果基础上，但它们依赖于将系统的安全要求明确建模为CBF，而这通常是很难设计的。

鉴于传统的机器学习方法本身缺乏安全保证，强化学习（RL）领域对在训练黑盒控制策略时强制执行约束越来越感兴趣。文献[8]介绍了一种用于约束强化学习的通用策略搜索算法，该算法可在每次策略更新时强制执行安全约束。文献[9]利用基于学习的系统模型，提出了一种在基于学习的特定策略下确定安全的系统状态集的方法。虽然这些方法可以实现近似安全的策略训练，但它们的局限性在于仍与特定任务的强化学习算法相关联，而本研究中提出的安全过滤器能够独立于特定任务运行，从而实现模块化安全。

文献[10]介绍了一种基于将系统控制在预先计算的安全状态集上来提供系统安全的方法。这种方法使用基于可达性的技术，为给定系统确定安全集，并制定相应的控制策略，在安全集范围内提供不变性。文献[3]扩展了这一思路，利用非参数化系统的动力学估计对安全集进行在线更新。以上这些方法在所需的离线安全集计算中受到了可扩展性的限制。最近的研究试图通过子系统分解[11]来解决这一问题，但其不适用于本文研究中考虑的强横向-纵向耦合的情况。近似技术包括基于数据的方法[12]、平方和规划[13]和主动学习[14]。

与这些思想密切相关的是，文献[15]中推导出了一种使用MPC控制律建立安全性的方法。通过在线计算不断更新控制策略，寻找达到安全状态的备份轨迹，从而通过MPC优化问题隐式表示安全集和相应的安全控制律。在[16]、[17]中，这种方法被扩展到考虑具有可能约束或参数不确定的非线性随机系统，为本文研究的自动驾驶赛车控制任务奠定了基础。

B.本文的贡献

本文的主要贡献在于为自动驾驶赛车设计并实现了一种宽泛的安全过滤器，该滤波器可与任何期望控制信号相结合，确保车辆在赛道上各种不同情况下的闭环安全。为此，我们采用了[15]和[17]中提出的预测安全过滤器概念。为满足激进驾驶场景，我们选择了一个使用Pacejka轮胎模型的非线性动力学自行车模型[18]来同时预测和优化出准确的备份控制序列。除了高保真系统模型外，还可以通过使用更长的预测时域或更大的终端集来提高安全过滤器的性能。由于预测时域通常受到内存和运算性能的限制，我们利用凸近似方法推导出一种基于迭代优化的不变式集计算方法，得到非线性动力学自行车模型的一个扩大终端安全集，该计算在恒定的道路曲率范围内有效。

在实体微型遥控赛车上的应用证明了所提出的安全过滤器在驾驶员在环操纵和深度模仿学习中的性能。据我们所知，这项工作首次将预测性安全过滤器应用于复杂的高动态非线性系统，并通过实验结果加以证明。

2 问题的提出

符号说明：符号区间中的整数集合用表示，区间中的整数集合为。矩阵的第行用表示。

本文工作的目标是设计一个安全过滤器，它能证明期望的控制输入对车辆系统是否安全，并随时提供替代的安全控制输入。我们考虑一个离散时间的非线性系统，其形式为

一种用于学习型赛车控制的预测安全过滤器

有动力学。在本研究中，我们假设系统有准确的模型和状态估计；考虑系统不确定性的预测安全框架的扩展可参考文献[17]。系统的输入和状态约束条件为

一种用于学习型赛车控制的预测安全过滤器

为确保安全，必须在每一步满足以上条件。

为了保证给定下的安全性，需要提供一个安全控制策略，如果将其应用于车辆，该策略可保证满足未来所有时刻的约束条件。如果存在以作为当前输入的安全策略，则可以将确定为安全期望控制量并作用于系统。更正式的表述为：

定义1：期望输入被证明为对系统(1)是安全的，在一个给定的时间步，如果安全控制策略产出，并且将作用于系统，将导致在的所有时刻均满足约束条件(2)。

如图1所示，使用符合定义1的安全策略可为闭环系统提供一个安全过滤器。由于安全控制输入在每个时间步都会重新计算，以验证到来的期望控制输入，这使得期望控制信号在任何可能的情况下都对系统具有控制权，即。但是，如果所需的控制信号会使系统在未来面临违反其约束条件的风险，则必须提供备用输入，即，以确保系统安全。

一种用于学习型赛车控制的预测安全过滤器

图2. (a)显示了安全期望输入下可能产生的车辆轨迹。(b)显示了不安全的期望输入下所产生的车辆轨迹，车辆最终脱离了赛道。另一个备用的安全输入及其轨迹如图所示。

下一节将讨论使用MPC框架在线计算的方法，在确保系统安全的同时，尽可能减少对期望控制信号的干预。

3 预测安全过滤器

我们通过滚动时域最优控制问题定义了一种隐式的安全策略，称为预测安全滤波问题[15]，它实现了高效地在线计算所需的安全过滤器：

一种用于学习型赛车控制的预测安全过滤器

问题（3）计算长度为的离散时间状态和控制输入的备选轨迹，其中是在第步向前预测步的状态，初始条件为，类似地，也是如此。在初始条件(3b)、状态和输入约束(3d)和(3e)以及终端约束(3f)的限制下，根据动力学方程(3c)在预测时域内对系统进行预测。与经典MPC不同的是，(3a)中的目标函数是为了最小化期望控制输入与求解出的轨迹中第一个输入之间的差值，即

一种用于学习型赛车控制的预测安全过滤器

安全策略被定义为。

可以对(4)中的代价函数进行修改，以便在跟踪期望的控制输入之外加入其他次要的目标。在赛车应用中，我们加入了一个正则化项，对输入的变化率进行惩罚，以实现更平滑的控制轨迹：

一种用于学习型赛车控制的预测安全过滤器

其中，对于，并且分别为输入偏差和输入变化率的代价矩阵。这有助于减少实际应用中，系统处于状态约束的边界时，发生的期望输入和安全过滤器输入之间的快速波动。为了避免在期望输入被证明为安全时产生不必要的输入偏差，在权重选择上远大于，以确保优先跟踪期望输入。

假设1（不变终端集）：存在一个控制律，以及一个相应的正不变集，使得对于所有和成立。

在标准MPC理论中，假设1为问题(3)得到的安全控制策略提供了递归可行性，即如果问题在时间步有一个可行解，那么对于未来所有时间也存在一个可行解。这导致(2)中提出的约束在任何时候都可以满足。更确切地说，如果问题(3)能在预测时域内找到一条可行且以为终点的状态和输入序列，那么控制输入就能被认定为对系统是安全的。图2(a)显示了一辆处于状态的车辆，在该状态下，应用将使车辆进入状态。从开始,有一条轨迹可以使车辆保持在赛道边界限制范围内，直到到达。因此，问题(3)的最优解是，实现最小化目标代价为零，并实现在满足为安全时不进行干预的期望行为。

如果期望的输入是不安全的，那么该输入的作用将导致不存在满足所有约束条件的轨迹。在图2(b)中，可以看到在应用后，随后的轨迹偏离了赛道。在这种情况下，问题(3)将提供一个输入，，能够在尽可能接近的同时保持系统安全。

最后需要指出的是，将所提出的预测安全过滤器与学习算法结合使用时，可能会减慢因输入的修改而引起的学习收敛速度。正如文献[19]中提出的类似建议，可以通过在基于学习的控制器的代价/奖励中加入对违反安全条件的惩罚来减轻这种影响。

4 车辆动力学模型和约束

本节将介绍用于描述车辆动力学的模型，随后介绍系统的约束。

A.系统模型

在本文中，我们使用标准的动力学自行车模型对微型遥控车进行建模[18]，[20]。使用动力学模型而非之前相关工作[1]中采用的更简单的运动学模型，使我们能够考虑到非线性轮胎力，这对激烈比赛中的车辆运动有显著影响。模型的状态量为，输入为,其中,为汽车的坐标，为全局坐标系下的航向角；、和为车身坐标系下的速度和横摆角速度。最后，是转向角，是动力系统的指令。示意图如图3所示。

一种用于学习型赛车控制的预测安全过滤器

图3车辆动力学模型

系统模型可以用微分方程来描述

一种用于学习型赛车控制的预测安全过滤器

其中为整车质量，为横摆转动惯量，分别为质心到前后轴之间的距离。轮胎侧向力和采用简化的Pacejka轮胎模型，

一种用于学习型赛车控制的预测安全过滤器

其中，和为轮胎侧偏角[18]。将纵向力建模为作用于车辆质心的单个力，并以动力系统指令和车速的线性组合进行计算，即。动力系统指令可以是正值，导致向前驱动，也可以是负值，导致制动。

(6)中的连续时间系统采用前向欧拉离散，得到和(1)形式一致的离散时间非线性系统。

B.系统约束

系统受到非线性状态约束和多维度的输入约束，其形式为

一种用于学习型赛车控制的预测安全过滤器

其中，，且。输入约束包括对最大和最小指令的限制，而状态约束则执行使车辆保持在赛道边界范围内的安全关键任务。

一种用于学习型赛车控制的预测安全过滤器

图4用于建立车辆约束的赛道相对坐标误差状态

如图4所示，为了使车辆保持在赛道边界内，我们对车辆矩形边界框的前方两个顶点的位置和进行了约束。在本文中，我们不考虑漂移的驾驶动作，但其也可以通过对后方的顶点添加类似的约束来考虑。质心相对于赛道中心线的横向误差为，而相对于赛道方向的航向误差为。给定参考中心线位置和方向，，，这些状态可以表示为：

一种用于学习型赛车控制的预测安全过滤器

其中，为车辆的宽度。车辆矩形边界框的两个顶点位置通过赛道宽度的一半（记为）来限制，即

一种用于学习型赛车控制的预测安全过滤器

5 终端集计算

为赛车设计安全过滤器的主要困难在于，如何为假设1中描述的非线性车辆系统构建正不变集。文献[21]介绍了一种计算自动驾驶多面体终端集的方法，但其所使用的运动学模型中所需的简化假设并不适合进行激烈驾驶操作的车辆。为更一般的非线性系统设计终端集的方法见文献[22]-[24]，其共同的思想是根据线性系统设计终端集，同时利用一些技术补偿线性化带来的误差，使非线性系统终端集的不变性仍然成立。我们采用类似的方法，将所需的李雅普诺夫耗散作用于一系列稳定状态，来计算终端安全集。

我们首先引入赛道相对坐标系的变换，可以计算以道路曲率作为参数的非线性车辆模型的稳定状态。然后，基于已有的终端集设计技术，计算线性控制律，使非线性系统能够稳定在特定的稳定状态附近。我们考虑了线性化系统的参数值网格，并计算出曲率恒定的赛道段的正不变集。然后进行后验，以确保非线性系统在整个参数范围内保持不变性。

A.赛道相对坐标系变换和终端

稳态对于第三节提出的安全鉴定问题，终端集必须包含对于系统可以被认为是安全的状态。在赛车场景中，车辆位于赛道中心线上并朝向前方是一个安全的位置，前提是车辆能够在一定的控制律作用下跟随中心线。为了更方便地分析系统相对于中心线的状态，全局坐标状态被转换为赛道相对坐标状态，这与文献[25]中使用的方法类似。此处，和分别是（9）中描述的横向误差和航向误差，、和与（6）中保持不变。和的动力学方程描述为：

一种用于学习型赛车控制的预测安全过滤器

由赛道中心线上给定点的曲率参数化。我们使用与(6)中 ,,相同的动力学方程来描述，离散化后得到

一种用于学习型赛车控制的预测安全过滤器

其中。保持车辆在轨道边界内的约束，，和朝向前方的约束，，可以用多维的形式写成，其中。

我们的目标是为系统(12)找到一个终端控制律，使车辆能够稳定地在赛道中心线附近行驶，有和恒定速度。由于赛道相对坐标系的动力学方程是由曲率作为参数的，不同的稳态点的存在性取决于当前的赛道的曲率。在给定曲率下，稳态和相应的控制输入可以通过求解式（12）的一对状态和输入来计算，满足，从而得到

一种用于学习型赛车控制的预测安全过滤器

虽然直接使用稳态(13)作为终端约束条件可以满足不变性，但由此产生的终端约束条件(3f)将变得相当严格，从而导致安全过滤器的保守行为。为了增加（3）的可行集，从而增加车辆状态的安全集，下文中我们提出了一个设计流程，通过一个不变集来扩大终端稳态约束条件。

B．终端集与控制律结合

为设计系统(6)的终端集，我们在前文引入的平衡点(13)处进行线性化，来得到稳定状态的反馈控制器。这样，我们就能从相应闭环系统的李雅普诺夫函数推导出正不变集。

我们首先为特定的稳态和曲率(13)对(12)进行线性化，得到

一种用于学习型赛车控制的预测安全过滤器

其中和是在稳态点处的线性化矩阵。符号表示在给定曲率下，状态与稳态的偏差，对于也是如此。对于局部稳定控制律，我们选择了如下形式的常数线性控制器：

一种用于学习型赛车控制的预测安全过滤器

其中。

选择一个椭圆体集合作为终端集，即

一种用于学习型赛车控制的预测安全过滤器

它是一个二次李雅普诺夫函数的子集，被包含在状态约束中。虽然椭圆体集通常是系统最大正不变集的内逼近，但与可能不那么保守但更复杂的集合相比，它们允许有效的实现。通过求解闭环系统动力学矩阵的离散时间李雅普诺夫方程，可以得到矩阵，具有预先指定的耗散率：

一种用于学习型赛车控制的预测安全过滤器

在给定曲率条件下，以及控制律(15)的作用下，可以保证系统(14)的集合(16)具有正向不变性。耗散值可以在稳定原始非线性系统时补偿线性化误差。该耗散值可通过来选定，其中，为代价矩阵，可以被设计为通过来限制线性化带来的误差。

左右转弯的赛道曲率值在范围内，其中是赛道上最大的曲率值。我们需要一个单一的控制率，使系统在给定范围内的任何曲率下都能保持稳定。为此，我们首先在范围内引入一组等距递增的曲率值，并计算相对应的平衡态、输入和线性化矩阵：。然后，我们使用单一的通用控制矩阵，对所有稳态施加(17)中的稳定性条件。这样，我们就能用一个半定式程序（类似于[24]中所使用的）计算控制律和由此产生的不变集：

一种用于学习型赛车控制的预测安全过滤器

其中且。根据(18)的解，我们可以提取一个最大体积椭圆体集(16)，该椭圆体集在每个网格曲率值下对闭环系统的矩阵都是不变的。(18c)和(18d)所描述的矩阵不等式对每个平衡点的每个状态和输入施加了以和为索引的半空间约束。(18e)中的约束条件可以从李雅普诺夫递减条件(17)和舒尔补中推导出来。

由于所得到的集合仅对线性化的系统和所选的曲率值具有不变性，我们必须进一步验证其在非线性系统和连续曲率范围下的不变性。这通过一个额外的优化问题来解决，即在计算出的终端控制律下，搜索导致非线性系统违反不变性的任意状态和曲率集合：

一种用于学习型赛车控制的预测安全过滤器

如果最优目标值(19a)小于1，则可以证明对于非线性系统是具有不变性的；否则，该问题找到的就是一个在非线性动力学条件下集合不具有不变性的状态。在这种情况下，可以逐步缩小集合，直到搜索不到违背的点为止，以达到车辆稳态的限制为一个可行解。然而通常很难找到问题(19)的全局最优解，一种实用的方法是多次随机重新初始化合适的局部优化技术，更多细节详见文献[26]等。

需要注意的是，所提出的保证终端集的不变性是对恒定曲率有效。由于我们可以将赛道视为由恒定的曲率段连接而成，因此理论上的不变性在每个独立的恒定曲率段上都成立。然而，由于稳态集合点的移动，这种保证并不严格适用于各段之间曲率突变的情况。由于基于线性化系统的控制律和不变集设计必然会引入一定的保守性，我们在实际应用中观察到，不断变化的集合点仍能得到有效补偿。因此，我们没有明确地考虑曲率变化的影响，并认为单个赛道段的不变性实际上已经足以满足终端安全集的要求。

在求解问题(3)时，终端集使用的是车辆沿赛道前行一段的曲率值。向前的距离是根据当前的期望力矩输入和问题的预测时域长度所构成的函数进行启发式选择得到的，以便为终端集生成一个合理的向前预测距离。

6 实验

为了证明所提出的安全过滤器的性能，我们将该方案应用在远程控制的遥控车上，使其保持在赛道边界内。我们首先介绍了在驾驶辅助场景中使用安全过滤器的实验，其中所需的输入由人类驾驶员提供。随后是基于学习的控制应用，在该应用中，神经网络策略通过模仿学习被安全地学习并部署到车辆上。

为确保MPC问题(3)的可行性，赛道宽度约束(10)和终端集约束(16)作为软约束被加入。该问题使用acados[27]在线求解，采用实时迭代SQP方案，预测时域长度为,采样频率为80Hz。式(18),(19)中的终端集计算使用MOSEK[28]离线求解，个平衡点生成曲率范围。此外，我们还通过仿真验证了较大的瞬时曲率变化(最大可达6.66）可以得到补偿。我们从随机选择的初始条件出发，求解了10000次(19)中的验证问题，得到的目标值从未超过1。

所有实验都在0.80米恒定宽度的赛道上使用Kyosho Mini-Z 1:28比例的车辆作为测试平台。使用VICON运动捕捉系统提供位置和方向信息，并通过扩展卡尔曼滤波器生成完整的状态估计。安全控制输入通过无线电控制器发送给车辆。该闭环系统通过ROS平台实现，在联想ThinkPad P1上运行，使用Ubuntu18.04系统、英特尔酷睿i7-9750H处理器和32GB内存。

A.手动驾驶辅助

通过将安全判断与人类驾驶员输入相结合，建立了一个驾驶员辅助系统，在驾驶员犯错危及车辆时提供必要的干预。由于安全的判断是最小干预的，因此只要驾驶员的操作安全，它就能让驾驶员自由地控制车辆，只在必要时才进行干预。

在本实验中，驾驶员的手动输入由物理操纵杆提供。图5显示了安全判断激活后一个单圈的车辆轨迹和相应的控制输入。在车辆轨迹图中，彩色图显示了期望控制输入量与安全控制输入量之间差值的L2-范数，表示安全过滤器修正的幅度。输入对比图显示，直至虚线处，安全过滤器的控制指令最初与驾驶员指令紧密对应，表明驾驶员指令被认定为安全控制输入并作用于车辆。之后，当驾驶员故意在弯道不进行转向或将车辆转向墙壁时，安全判断开始干预转向和油门输入。轨迹图显示了安全判断如何始终将车辆保持在赛道边界内，同时尽可能地跟踪期望的控制输入。

一种用于学习型赛车控制的预测安全过滤器

图5车辆轨迹（顶部）和控制输入（中间，底部），人通过操纵杆提供期望的控制信号。安全过滤器的干预程度通过轨迹上的热图显示。橙色的圆点和箭头表示起点和行驶方向；蓝色虚线表示从总体上安全的驾驶员输入到不安全的输入的过渡。

B.模仿学习

模仿学习是一种通过复制专家示范动作来学习任务策略的方法。我们使用迭代模仿学习算法DAgger（数据集聚合)[29]，来学习到确定的赛车策略。在DAgger中，首先通过专家示范的监督学习对策略进行初始化，然后直接部署到任务中。专家用最优动作标记所学策略访问的所有状态，然后将这些状态添加到数据集中，供策略进行再训练。这个过程会反复进行，目的是让学习到的策略能从以前的错误中得到改进。

由于DAgger依赖于在训练过程中推出学习策略，因此它可以与本文提出的安全过滤器相结合，为使用实体车辆学习赛车控制器提供安全的训练环境。策略架构采用前馈神经网络,有3个隐藏层，每层有64个神经元，使用ReLU激活函数，最后输出动力系统和转向的指令。网络的输入是以赛道相对坐标表示的车辆状态，以及接下来1.5米赛道上的30个曲率值，即。网络的训练包括监督学习，以最小化专家和网络输出指令之间差值的L2-范数。使用的专家策略是文献[20]提出的模型预测轮廓控制器(MPCC)，该策略在保持赛道边界内侧的同时最大化赛道进度，并在其他赛车的应用中证明了成功[30]。模仿像MPCC这样的有限预测时域最优策略是非常有用的，因为网络控制器在每次迭代中访问的状态都可以使用具有更长预测时域的MPCC进行离线标注，而由于求解时间的限制，这样长时域的MPCC在实际应用时是无法使用的。由此建立的神经网络可以模仿专家无法在实时达到的高性能策略。DAgger与安全过滤器一同部署在实验平台上，以实现完全自动化的安全训练。在神经网络策略运行的数据收集期间，以及车辆停止到重新训练策略的过渡期间，都能提供安全保障。图6显示了神经网络策略与安全过滤器同时激活时两次Dagger迭代的轨迹图。图6(a)中的曲线显示的是第一次Dagger迭代中的轨迹，其中可以看到多次安全过滤器进行必要干预的实例，如安全偏差范数的颜色所示。在训练的早期阶段，神经网络策略仅在最初的专家数据集上进行了训练，因此它很难在不走捷径的情况下将车辆带入最佳赛车线。此时，安全过滤器必须偏离期望作用的输入，转而计算能使车辆保持在赛道边界内的安全输入。图6（b）显示的是第四次迭代的轨迹，（期望输入和安全输入）比初始策略更加一致，几乎没有明显的安全过滤器干预。该轨迹与MPCC得到的最佳轨迹更为接近，表明神经网络策略较之前的几次迭代得到了改进。