自动驾驶汽车的可扩展评估方法

1年前 (2024-06-25) 阅读数 437 #综合

编者按：随着智能驾驶技术的高速发展，自动驾驶汽车测试与评价在推动高级自动驾驶汽车的落地过程中扮演着至关重要的作用。其中，做到有效客观地评估自动驾驶汽车一直是一大难题。本文提出一种客观多维综合评估(OMDCE)方法，降低了人工评价的主观性，提高了评价速度。提高了评价指标体系的通用性和可扩展性。

摘要：有效的智能驾驶测试和评估方法可以改善自动驾驶汽车的开发和部署过程。然而，由于驾驶行为的极端复杂性和高维性，如何客观有效地评估自动驾驶汽车在仿真和现实环境中的多维性能一直是一个长期存在的问题。本文提出了一种客观多维综合评估(OMDCE)方法，将智能驾驶测试分为测试场景、场景复杂性模型、仿真测试平台和自动化评估系统四个模块。为了弥补测试场景与自动化评估系统之间的差距，提出了场景复杂性模型，从而实现了不同难度测试场景评估尺度的自适应缩放。此外，在现有的四种自我绩效评价指标的基础上，首次提出了利他主义绩效评价，以全面表征自动驾驶人的智力程度。通过测试两种不同的智能驾驶算法并进行实车试验，对OMDCE方法进行了评价。实验结果表明，OMDCE方法可以有效地评估各种场景下的自动驾驶汽车，并定量测量其多维性能。该方法降低了人工评价的主观性，提高了评价速度。提高了评价指标体系的通用性和可扩展性。

关键词：自动化车辆，自动化测试和评估，评估指标，场景复杂性，加速测试

1 引言

驾驶智能评估是自动驾驶汽车(AVs)应用部署的关键挑战。自动驾驶汽车的综合性能是决定其广泛部署潜力和公众信任的关键因素。只有当自动驾驶汽车的性能超过人类时，才能通过各种复杂的关键测试场景证明其综合性能。然而，很少有优秀的标准和测试来评估自动驾驶汽车的性能。为了确保自动驾驶汽车在不同道路环境和条件下的安全性、舒适性和合规性，有必要进行全面的测试，以解决智能驾驶系统开发过程中出现的长尾问题。根据Kalra和Paddock(2016)的估计，自动驾驶汽车需要经过2.75亿英里的测试，才能被认为与人类驾驶的汽车(HVs)一样值得信赖。用真正的车辆来完成这个里程的测试太过分了。因此，基于场景的测试方法被用于评估自动驾驶汽车。

提高和量化自动驾驶汽车性能的一个关键瓶颈是缺乏客观的多维量化评估方法来全面评估自动驾驶汽车的性能。现有的方法通常通过生成碰撞场景来测试自动驾驶汽车的安全性能。许多研究人员针对场景构建和关键参数选择已经进行了大量的研究。Zhao等人（2017）开发了一种以碰撞和伤害概率为主要指标的加速评估方法。Chen等人（2021），Wang等人（2021）提出了一种自适应对抗方法来攻击被测试的自动驾驶汽车，以测试自动驾驶汽车的安全性。上述方法仅集中在测试自动驾驶汽车的安全性上。然而，很难评估自动驾驶汽车的全面性能（Huang等人，2020）。例如，当一辆车突然切入正在测试的自动驾驶汽车的车道时，自动紧急制动被认为是有效的，不会引起碰撞。然而，最大制动力和制动时间极大地影响了乘客的感知和舒适度，反映了自动驾驶汽车的多维性能。上述方法在测试和评估自动驾驶汽车的全面性能方面面临重大挑战。驾驶智能的评估也对自动驾驶汽车测试评估系统的开发提出了新的挑战。我们需要研究如何设计一个更全面的评估指标系统来量化自动驾驶汽车的多维性能（Feng等人，2021）。

此外，不同测试场景对智能驾驶测试的影响研究较少。这一研究差距导致在不同复杂场景下对自动驾驶汽车性能的评估存在显著差异。这种差异对实现自动驾驶能力的定量和客观评估提出了挑战，因为它们有可能在简单的场景中表现出色，而在更复杂的场景中却表现不佳，从而导致极端的评估分数。例如，考虑这样一个场景:一辆表现不佳的自动驾驶汽车在一个简单的驾驶场景中获得了100分的高分，但在一个复杂的场景中表现不佳，只有40分。性能分数从100到40的巨大差异并不能准确反映自动驾驶汽车的实际能力。在这种情况下，100和40的分数都不能反映自动驾驶汽车的实际性能，两者都是不可靠的。这个例子强调了公正地评估自动驾驶汽车实际性能的挑战。在我们的上下文中，术语“可伸缩”指的是我们的多维自动化评估方法的适应性，以处理从简单到复杂的广泛场景。通过引入场景复杂性模型作为可扩展度量，我们打算将偏差最小化，并增强评估过程的可靠性和鲁棒性。这确保了获得的分数真实地反映了自动驾驶汽车的表现，允许进行有意义的比较。

为了解决这些挑战，我们引入了可扩展的评估方法，在不同的复杂场景中公正地评估自动驾驶汽车的性能。主要的方法包括利用提议的场景复杂性模型作为可伸缩的度量，以减轻不同的测试场景对评估结果的影响。我们的方法从一个基本的自然交通场景开始，逐步提高复杂性，形成一系列不同的测试场景。随后，我们将不同复杂性场景下被测自动驾驶汽车的测试数据和场景复杂性指标进行合并。这一过程在最终的综合测试成绩中达到顶点，促进了在不同测试场景下评估自动驾驶汽车的一致性和稳定性。

为实现对自动驾驶汽车性能的全面客观评价，本文结合场景复杂性模型和多准则决策的思想，提出了一种面向自动驾驶汽车在线可扩展测试的客观多维综合评价(OMDCE)方法。场景复杂性模型首先被提出作为一个可伸缩的度量来减少不同测试场景对测试结果的影响。OMDCE方法包括测试场景的设计、场景复杂性模型的建立、仿真测试平台的搭建、评估指标体系的开发和自动化评估系统的开发。我们的多重贡献总结如下。

我们提出了一种面向智能驾驶测试的多维在线综合测试与评价方法，该方法利用场景复杂性模型作为尺度度量，以减小不同场景对被测自动驾驶的评分差异。
基于现有的安全性、舒适性、驾驶性能和自我性能的标准监管指标，我们进一步提出了利他性性能。利他主义表现侧重于描述自动驾驶汽车的行为对周围其他交通参与者的影响。据我们所知，这是第一次一个评价指标体系可以同时实现自我绩效评价和利他绩效评价。
我们采用基于标准去除效应(MEREC)的方法来确定评估权重，最大限度地减少人工干预并减少主观性。为了全面评估自动驾驶汽车性能，提高测试和评估的鲁棒性，我们结合场景复杂性模型，利用折衷解决方案(MARCOS)方法测量备选方案和排名。基于定义的场景复杂度模型，实现智能驾驶测试全过程的闭环，实现自适应场景选择和加速测试。
我们提出的方法可以自动选择测试场景，进行模拟测试，处理和分析测试数据，并在线计算测试结果。OMDCE方法减少了人工评价的主观性，加快了评价过程。此外，评估度量系统是灵活的和可伸缩的，允许将来集成额外的评估维度和度量。

本文的其余部分组织如下。第二节回顾了相关工作。第三部分介绍了智能驾驶测试的多维集成体系结构。第四部分详细介绍了智能驾驶测试系统的设计。第5节进行仿真和实车验证，给出智能驾驶测试结果。第六部分对全文进行了总结，并提出了今后工作的方向。

2 文献综述

2.1. 智能驾驶测试

智能驾驶测试对于自动驾驶汽车的实际开发和部署是必要的。大多数现有的方法都是通过逼真的模拟或道路测试来测试自动驾驶汽车的安全性。然而，这些方法存在效率低下和安全风险高的问题。为了解决这些问题，人们提出了基于场景的智能驾驶测试方法。Feng, Yan等(2021)让背景车辆(bv)执行对抗性机动来测试自动驾驶汽车。Li等(2019)建立了虚拟-真实交互并行测试系统，以实施具有挑战性的测试，从而加快自动驾驶汽车的评估和开发。Chen等人(2021)提出了一种自适应评估框架，用于评估深度强化学习生成的变道场景下的智能驾驶系统。Tuncali, Fainekos, Prokhorov, Ito和Kapinski(2020)使用信号时间逻辑来评估测试用例并自动探索特定类型的故障用例。Fremont等(2020)使用形式化方法测试了基于机器学习的自动驾驶汽车的安全性。此外，Gao, Duan, Han, and He(2020)提出了一种用于测试场景生成的组合测试方法，以提高测试覆盖率和测试效果。Li, Zheng, and Wang(2021)在分析自动驾驶汽车的智力测试时引入了可能近似正确的概念。

上述智能驾驶测试方法是必不可少的，可以加快自动驾驶汽车的评估。然而，这些测试方法大多只考虑安全指标，对自动驾驶汽车性能的评价不够全面。而且缺乏一个完整的自动化评估过程。我们专注于混合交通流下自动驾驶智能驾驶系统的全面在线测试与评估。此外，我们开发了一个更全面的多维评估体系，不仅考虑了不同的测试环境和交通流量对被测自动驾驶汽车的影响，还考虑了被测自动驾驶汽车对周围交通参与者的影响。

2.2. 多准则决策

多标准决策制定（MCDM）方法在各个领域都是一种流行的工具。在自动驾驶汽车（AVs）领域，MCDM方法已被用来促进决策算法。具体来说，Chen, Zhao, Liang, 和 Mei (2014) 使用MCDM方法辅助自动驾驶汽车的机动选择。为此，他们采用了层次分析过程（AHP）方法来确定属性权重，并使用了理想解排序法（TOPSIS）来识别最优驾驶机动。Sarraf 和 McGuire (2020) 应用MCDM方法来获取最佳驾驶路径以提高驾驶安全性。此外，Gilbert, Petrovic, Pickering, 和 Warwick (2021) 应用了包括TOPSIS、AHP和分析网络过程在内的三种多标准决策制定方法，以协助选择自动驾驶汽车应根据与其他车辆的冲突关系行驶在哪个车道上。

此外，也有一些研究致力于将MCDM方法应用于智能驾驶测试。Wang, Deng, Zhang, Wang, and Yang(2018)使用模糊综合评价(FCE)方法和TOPSIS方法来评估定义任务场景下的自动驾驶汽车。Zhao, Wei, Wang, Ma, and Guo(2022)将AHP法与CRITIC法相结合，计算评价指标的权重。利用自适应灰色关联分析技术生成评价结果。Su和Wang(2021)提出了一种整合顺序关系分析(ORA)方法和FCE方法的ORA-FCE方法来评估自动驾驶汽车的性能。他们采用ORA法确定各指标的权重，采用FCE法确定评价分数。

上述方法可以对自动驾驶汽车进行检测和评价。然而，目前的评估方法需要一定的人工干预，这影响了自动化评估。此外，这些方法忽略了不同难度场景对评价结果的影响。性能较差的自动驾驶汽车仍然可以在简单的场景中驾驶获得高分，但这并不能反映自动驾驶汽车的实际性能。设计了场景复杂度模型，综合考虑了不同场景复杂度下的可扩展测试评估。采用客观评价方法对自动驾驶汽车进行自动评价。

3 系统架构

为了全面客观地评估自动驾驶汽车的多维性能，本文提出了一种集测试场景生成、场景复杂性量化、智能驾驶算法嵌入和自动化评估方法于一体的方法。智能驾驶测试多维集成框架主要由测试场景、场景复杂性模型、仿真测试平台、自动化评估系统四个模块组成，如图1所示。

图1. 系统架构。智能驾驶测试多维集成框架主要由测试场景、场景复杂性模型、仿真测试平台和自动化评估系统四个模块组成。

第一个模块是测试场景，为智能驾驶测试提供不同的模拟场景。这些测试场景是通过对标准法规、交通事故数据、自然驾驶数据和专家经验的数据分析和特征提取来构建的。我们从静态和动态场景中对场景参数和动态交通参与者的行为进行优化，生成不同复杂度的测试场景。生成静态场景元素包括静态道路结构、静态障碍物、天气能见度和道路摩擦系数。此外，我们还综合考虑了自动驾驶汽车、人类驾驶汽车、自行车和行人组成的混合交通流对被测自动驾驶汽车的影响(详见4.1节)。

基于测试场景，建立了场景复杂度模型。为了描述静态和动态场景的复杂性，引入了势场理论。场景中的对象被抽象为正电荷或均匀带电导线，以量化它们对被测自动驾驶复杂性的影响。此外，还综合考虑了天气条件对情景复杂性的影响。场景复杂性模型被设计为一个可扩展的度量，以使测试分数更加一致和稳定(详见4.2节)。

在仿真测试平台模块中，构建了协同仿真平台，实现高保真仿真测试和智能驾驶算法嵌入。另外，它为自动评估和测试提供了一个基础(详见章节4.3)。

在自动化评价系统模块中，建立了多维度的评价指标体系。设计了客观评价指标权重的计算方法和综合评价算法。该评价指标体系从两个维度、五个方面对智能驾驶性能进行了综合表征(详见4.4节)。采用MEREC方法计算评价指标权重，得到一组客观的性能评价权重。通过MARCOS方法结合相应测试场景的场景复杂度计算被测自动驾驶汽车的综合性能评价分数。最后自动得出客观综合的评价分数(详见4.5节和4.6节)。

4 智能驾驶测试

4.1. 测试场景

测试场景是智能驾驶测试的基础。系统、科学地构建测试场景，可以有效地支持后续的测试和评估。因此，场景应该包含常见和重要的现实世界环境，并尽可能全面和现实可行。测试场景通常基于标准法规、交通事故数据、自然驾驶数据和专家经验生成。许多研究人员对生成测试场景进行了广泛的研究(Ding et al .，2023;冯燕等，2021;钟等人，2021)。为了充分测试自动驾驶汽车的综合性能，需要生成不同复杂程度和类型的测试场景。为了获得不同复杂度的测试场景，我们使用之前工作中提到的临界边界场景生成方法自适应生成所需的测试场景(Zhou, Wang，& Wang, 2023)。

在自然驾驶场景(NDS)生成部分，基于真实交通数据进行机动识别和分析，得到车辆、自行车和行人的自然驾驶行为分布模型。然后，将真实的交通场景转换为仿真平台下的自然驾驶模拟测试场景。接着，我们从静态交通场景和动态交通场景两方面实现了关键边界场景库的生成。其中，静态交通场景主要考虑自动驾驶汽车的可行驶区域、天气能见度和道路摩擦系数。动态交通场景主要考虑由自动驾驶汽车、HVs、自行车和行人组成的混合交通流对被测自动驾驶汽车的影响。基于场景复杂度模型，通过在线环境参数优化生成不同复杂度的测试场景。静态交通场景是从实际道路环境中生成的。生成的静态交通场景与真实道路环境高度相似。静态交通场景的复杂性根据可驾驶区域、天气能见度和道路摩擦自适应调整。动态交通场景是由自动驾驶汽车、HVs、自行车和行人组成的混合交通流生成的。动态交通场景是智能驾驶测试场景的核心组成部分，也是最容易发现自动驾驶性能边界的场景。为了使生成的临界边界驾驶场景(critical boundary driving scenarios, CBDS)在兼顾客观性和有效性的前提下满足自然分布，我们利用inD数据集中的自然驾驶数据(Bock et al, 2020)生成CBDS。CBDS的生成是通过优化主要交通参与者的行为来实现的。

在CBDS生成过程中，首先需要确定场景复杂性的阈值。基于场景的复杂度阈值，优化其他主要交通参与者的动作参数，生成满足复杂度要求且与自然驾驶场景偏差最小的CBDS。我们通过控制周围交通参与者的转向角和加速度，在测试的自动驾驶汽车中诱导对抗行为周边交通参与者也可以与周边交通环境进行实时互动。我们将从自然驱动交通流中得到的主要其他交通参与者的行为轨迹表示为，将优化后的主要其他交通参与者的行为轨迹表示为。本文算法的目标函数和约束如式(1)所示。关于场景生成的更多细节，请参考我们之前的工作(Zhou et al.2023)。

式中表示主要其他交通参与者行为优化的开始时间，表示主要其他交通参与者对被测自动驾驶汽车行为产生影响的持续时间，表示主要其他交通参与者与最近障碍物或交通参与者在时刻的安全度量，表示最小安全度量。(1)中的约束保证了主要的其他交通参与者不会主动碰撞被测自动驾驶汽车。

基于以上方法，我们构建了一个包含约1000个不同类型测试场景的场景库。表1总结了自然驾驶数据集的详细信息、采集地点、数据量以及基于自然驾驶数据生成的测试场景数量。基于上述数据集，我们构建了一个测试场景库。测试场景库的详细信息如表2所示。驾驶行为主要包括巡航、跟车、停车、超车、截道、变道、交汇、超车、左转、右转、坡道驾驶、避障等。静态道路类型包括高速公路、十字路口、回旋处、分流道路、汇合道路、坡道、停车场、立交、隧道等。在不同的光照条件下，天气条件包括晴天、雨天、雪天和雾天。交通设施包括交通标志、红绿灯、限速、车道标线、斑马线和临时设施。此外，在交通参与者方面，我们考虑了汽车、公共汽车、卡车、自行车、行人和动物。驾驶行为、静态道路类型、天气条件、交通设施和交通参与者的各种组合构成了测试场景库。在每次模拟测试过程中，智能驾驶测试系统可以根据每个测试场景的复杂程度自适应选择不同复杂程度的场景。此外，还可以在线生成各种场景进行实时测试。测试场景的自动选择主要基于下一节中的场景复杂性模型。

表1 测试场景数据集和相应分布的描述

表2 现有测试场景库中测试场景的详细信息。

4.2. 场景复杂性模型

基于场论建立了场景复杂性模型。我们将与测试自动驾驶汽车相关的场景中的对象抽象为均匀带电的电线或正点电荷。基于场论(程，刘，高，赵，高，2022;李，甘，季，曲，冉，2022;李，刘等，2022;Rasekhipour, Khajepour, Chen， & Litkouhi, 2017)，场景中的物体会在区域空间中产生一个势场，势场与距离成反比，由物体的类别决定。可以通过组合和叠加不同的势场来创建整体环境势场，以捕捉场景的复杂性（Cheng et al.，2022）。场景复杂性模型的总体架构如图2所示。

图2. 场景复杂性模型的总体体系结构。场景复杂性模型分为静态场景复杂性模型、动态场景复杂性模型和天气环境复杂性模型三种。采用人工势场法作为场景复杂性计算模型的基础。

场景的复杂程度取决于静态场景的复杂程度、动态场景的复杂程度和天气环境的复杂程度，具体描述如下:

其中，、和分别为静态场景复杂度、动态场景复杂度和天气环境复杂度的权重系数。

首先，考虑静态场景对象，如植物、交通标志、车道标线和辅助设施。每个场景对象被抽象为均匀带电的导线或正电荷。然后利用人工势场(APF)方法计算静态场景的复杂度。

在驾驶过程中，考虑到并非所有交通参与者都对自动驾驶汽车的动态场景复杂性有贡献，我们首先量化了自动驾驶汽车周围区域的影响范围。我们将自动驾驶汽车的影响范围用一个以汽车后部为中心的半圆来描述。自动驾驶汽车不仅需要确保不会与之发生冲突的车辆发生碰撞，还需要确保不会与前方车辆发生追尾。参考责任敏感安全(shalev - schwartz, Shammah， & Shashua, 2017)，我们将自动驾驶汽车影响区域的半径公式定义为:

式中为自动驾驶汽车的初速度，为车辆的响应滞后时间，和分别为自动驾驶汽车的最大加速速率和最小减速速率。设自动驾驶汽车影响区域半径为:

其中相交区域的长度。

场景复杂性模型的核心思想是在被测自动驾驶汽车周围的一定区域内建立一个势场，其他场景要素和背景交通参与者对被测自动驾驶汽车产生一个场力的变量F，该变量F表示自动驾驶汽车所承受的安全风险程度;安全风险越高，自动驾驶汽车受到的电场力越大。场强是由场景元素的性质、相对位置和相对速度决定的。根据以上分析和场论的定义，我们可以推导出场力的公式:

其中表示不同类型场景要素和背景交通参与者的影响力，影响力越大的场景要素可以形成更大的势场。为场景单元与被测自动驾驶汽车的相对距离，相对距离越短，安全风险越高，场力越大。此外，为了描述背景交通参与者与被测自动驾驶汽车之间动态交互过程的复杂性，我们引入了尺度增强因子。尺度增强因子通过量化碰撞角度和相对速度来捕捉动态交通参与者之间的冲突程度，冲突程度越高，场力越大。

对于静态交通对象，虚拟电量用表示，并根据静态交通对象的类别进行标定。势场和在被测试的自动驾驶汽车和静态交通元素之间的距离成反比，可表示为:

其中为介电常数。

所有静态交通对象对被测自动驾驶汽车的势场可计算为:

可计算为:

式中为静态交通对象的重心坐标，为被测自动驾驶汽车的重心坐标。

当距离足够小时，由于实际对象具有特定的体积，Eq.(8)不再有效。物体的等效半径用正实整数表示。将距离的修改值表示为:

此外，对于线性交通对象，如道路边界、交通障碍和车道标记，这些交通对象可以近似为均匀带电线。假设线性环境元的中心参考线方程为，则可计算为:

当道路边界、车道标线等环境对象为曲线时，以圆曲线为例，可以计算出距离:

对于自动驾驶汽车、人类驾驶汽车、自行车、行人等动态交通对象，采用改进的APF方法计算动态场景复杂度。由于不同车道的动态交通参与者对被测自动驾驶汽车的影响不同，我们引入电子能级因子来表征表示被测自动驾驶汽车所在车道数与第位交通参与者所在车道数之差。当被测自动驾驶汽车与第位交通参与者在同一车道时，。设表示第位动态交通参与者的虚电量。动态交通参与者的势场可计算为:

为缩放增强因子，为自动驾驶汽车 0与动态交通参与者之间的距离。

所有动态交通参与者对被测自动驾驶汽车的势场可计算为:

被测自动驾驶汽车与动态交通参与者j之间的距离{r_j}^D可计算为:

对于缩放增强因子，根据复杂多变的动态交通场景，我们引入了两个额外的关键变量，即相遇角和相对速度，以量化被测自动驾驶汽车与动态交通参与者之间的时空相互作用(Tam & Bucknall, 2013)。以遭遇角与动态场景复杂性之间的关系为基础。由于动态交通参与者具有不同的相对速度，因此使用乘法算子引入额外的校正函数(Wen et al .，2015)。因此，缩放增强因子可表示为:

其中，表示相遇角，表示相对速度。表示相遇角与缩放增强因子的关系，表示相对速度与缩放增强因子的关系。

自动驾驶汽车和周围交通参与者之间的相遇角的情况是复杂的。为了更好地描述不同遭遇角对被测自动驾驶汽车复杂性的影响，我们参考了Montewka、Goerlandt和Kujala（2012）、Yu、Zheng和Qu（2021）中提出的最小碰撞距离方法。基于这些方法，我们使用了一种改进的动态场景复杂度增强方法，如下所示：

此外，自动驾驶汽车 0与动态交通参与者之间的相对速度也会影响复杂度。相对速度对缩放增强因子的不同影响可以表示为:

式中为归一化相对速度，为相对速度。表示最复杂情况下的相对速度。表示最不复杂情况下的相对速度。

天气环境复杂度主要关注恶劣天气导致的天气能见度、雨雪天气导致的道路摩擦对测试自动驾驶汽车的影响，计算公式为:

式中，和分别为天气能见度复杂度和道路摩擦复杂度的权重系数，其中，为光照和清晰度最好时的能见度距离，是被测自动驾驶汽车周围的能见距离。为光照和清晰度最差时的能见度距离，为最干燥情况下的摩擦系数，试验场景下的摩擦系数，最湿情况下的摩擦系数为。

为了便于实验，本文的场景复杂性模型进行了若干简化。我们只考虑了不同类别物体的虚电量。在此基础上，我们可以计算出被测自动驾驶汽车中不同物体引起的场景复杂度，忽略了不同物体类别下特定目标的区分。基于前人的研究结果(Cheng et al .，2022;Li, Gan等，2022)，车辆的虚拟电量设为0.5088，行人和非机动车的虚拟电量设为0.7475，动物的虚拟电量设为0.3407，绿色植物的虚拟电量为0.1306，附属设施的虚拟电量为0.0968，交通标志的虚拟电量为0.1900，车道线的虚拟电量为0.0608。

4.3. 仿真测试平台

为了满足不同场景下智能驾驶测试的需求，我们开发了由虚拟试驾(VTD)、Matlab/Simulink和CarSim组成的协同仿真平台工具链。仿真平台整体架构如图3所示。

图3. 协同仿真平台工具链的体系结构。该联合仿真平台主要由VTD、Matlab/Simulink和CarSim三部分组成。VTD提供高保真场景模拟和复杂混合交通流场景构建。Matlab/Simulink负责嵌入不同类型的智能驾驶算法。CarSim提供高精度的车辆动力学仿真。

VTD可以提供复杂交通场景的智能驾驶仿真，包括道路网络建模、交通场景建模、天气与环境仿真、高保真图像渲染等。CarSim负责实现高精度的车辆动力学模拟。Simulink支持嵌入不同的智能驾驶算法并对其进行仿真。因此，有必要实现CarSim中车辆动力学与VTD之间的实时交互。VTD将车辆感知到的环境和位置信息发送给CarSim进行车辆动力学计算，CarSim将得到的动态状态信息返回给VTD。同时，通过Simulink编写的智能驾驶算法，使车辆在VTD中可以实现相应的自动驾驶任务。在该联合仿真平台上，对智能驾驶算法的驾驶性能进行了测试。在算法层面进行仿真测试，有利于优化和提高智能驾驶算法的开发和测试效率。

4.4. 评价指标

多维度评估系统旨在全面捕捉自动驾驶汽车的智能水平，实现自动化评估。为此，提出了由多维评价指标组成的联合评价指标体系。该评价体系根据被测自动驾驶汽车与周围环境的交互效应定义评价指标。在现有的四个自我绩效评价指标的基础上，我们进一步提出了利他主义绩效的概念。利他主义表现侧重于描述自动驾驶汽车的行为对周围其他交通参与者的影响。我们使用交通协调度量来表征利他行为的表现。该评价指标体系从两个维度、五个方面对智能驾驶性能进行了综合表征。

在评价指标体系中，安全性主要通过替代安全措施进行评价(Rahman, Abdel-Aty, Lee， & Rahman, 2019)。本文选择了三种常用的驾驶安全指标:碰撞时间(TTC)、碰撞暴露时间(TET)和侵占后时间(PET)。舒适性关注的是乘客在驾驶时的感觉，包括由于智能驾驶系统的缺陷导致的不规律驾驶、急刹车、急转弯。对于自动驾驶汽车来说，这并不是自动驾驶汽车本身的座椅设计带来的舒适性问题，而是智能驾驶算法能否平稳地控制自动驾驶汽车，避免频繁的剧烈运动。我们使用最大加速度、最大颠簸、最大偏航率和速度标准偏差来表示驾驶舒适性。

驾驶性能描述了自动驾驶汽车在相应的操作设计域下的任务完成质量和任务完成效率。利用任务完成时间、与车道中心的最大偏移量、平均速度和自动驾驶首次检测到障碍物时的距离来描述自动驾驶的驾驶性能。标准法规主要关注被测自动驾驶汽车对交通法规的遵守程度。主要用于描述自动驾驶汽车是否违反交通规则，如超速等。

在利他行为维度，交通协调指标用于衡量自动驾驶汽车的行为对其他车辆和整体交通流量的影响。用周围车辆的最大减速度和周围车辆的平均速度来表示交通协调。以上两个维度和五个评价指标通过层次结构构成了自动驾驶汽车的评价指标体系，如图4所示。详细介绍了一些评价指标的具体计算公式:

图4. 自动驾驶车辆评价指标体系。提出的评价指标体系包括自我绩效和利他绩效两个维度，可对自动驾驶车辆的多维性能进行综合评价。自我性能主要衡量被测车辆的安全性、舒适性、驾驶性能和标准法规，利他性能主要衡量被测车辆对交通协调的影响。

4.4.1. 安全指标

这里选择了三个常用的驾驶安全指标:最大值TTC-1、TET和PET。

最大值TTC-1：

TTC是评估自动驾驶汽车安全性的常用安全度量(Van der Horst, 1990)，其计算公式为:

其中和表示被测自动驾驶汽车 0在时间戳处的位置和速度，表示前一个交通参与者的长度。

由于当被测自动驾驶汽车的速度等于或小于前一个交通参与者j的速度时，TTC的值无法有效确定，因此通过分析测试过程中的TTC来确定最危险的时刻是具有挑战性的。因此，我们利用最大值TTC-1作为评价指标，可以表示为:

TET:

TET表示自动驾驶汽车处于危险环境中的总时间(Minderhoud & Bovy, 2001)。可以用TTC值低于TTC阈值TTC*来计算，可得:

其中，为开关变量，为时间步长，为模拟总时间。

最小值PET：

PET是第一个交通参与者完成对冲突区域的侵占和第二个交通参与者进入冲突区域之间的时间间隔(Peesapati, Hunter，& Rodgers, 2018)。PET越小，对车辆的危害越大。我们使用最小值PET作为评价指标，其计算公式为:

其中表示被测自动驾驶汽车通过冲突点的时间，表示周围其他交通参与者j通过冲突点的时间，表示周围交通参与者集合。PET的优点是有一个明显的边界来区分碰撞事件和非碰撞事件，并且它只需要计算两个时间戳。PET值不为零表示碰撞临近，PET值为0表示碰撞发生。

4.4.2. 舒适度指标

舒适度指标评估智能驾驶算法对乘客舒适度的影响。舒适性度量中最关键的参数是最大加速度、速度标准差、最大抖动和最大偏航率。

最大抖动：

加速度被称为加速度的导数。剧烈的颠簸表明极有可能出现速度的急剧变化。因此，我们采用最大抖动作为舒适性指标，可表示为:

式中表示自动驾驶汽车在t时刻的加速度，表示自动驾驶汽车在t时刻的速度。

4.4.3. 驾驶性能指标

驾驶性能指标关注被测自动驾驶汽车的效率和驾驶质量，如果完成测试的时间较短，则自动驾驶汽车的驾驶效率高，驾驶性能优异。

根据不同的驾驶场景，任务完成质量有不同的评价重点。本文采用任务完成时间、到车道中心的最大偏移量、平均速度和自动驾驶汽车首次检测到障碍物时的距离作为自动驾驶汽车驾驶性能的评价指标。

4.4.4. 标准法规指标

标准法规指标评估测试的自动驾驶汽车遵守交通规则的程度，即自动驾驶汽车是否能够识别交通信号灯、车道标记、交通标志和其他信号，并遵守这些规则。交通违规的数量被用来评估标准规则。

4.4.5. 交通协调指标

交通协调指标主要关注自动驾驶汽车的行为对周围其他车辆的影响。根据Calvert et al (2017)， De Campos, Falcone, Hult, Wymeersch和Sjöberg(2017)的研究，速度和加速度是交通协调的两个关键指标。不规范的驾驶行为通常会导致连续变道或为了自己的利益而非法插队，导致周围其他车辆紧急刹车，从而扰乱整体交通协调。此外，研究人员(Eleonora et al .， 2023;Mahdinia, Mohammadnazar, Arvin， & Khattak, 2021;Yang, Du， & Chen, 2021)在研究自动驾驶汽车对混合交通的影响时也关注了最大减速度和平均速度。最大减速度反映了车辆的突然减速，这表明车辆正在对自动驾驶汽车的存在或行动做出反应。同样，平均速度提供了交通环境中整体流量和协调的综合衡量标准，考虑了周围车辆因自动驾驶汽车的存在而可能做出的调整。指标的选择与我们对安全性和交互过程的关注一致。因此，我们使用周围车辆的最大减速度来衡量自动驾驶汽车对周围车辆硬制动的影响。此外，我们使用周围车辆的平均速度来衡量自动驾驶汽车对整体交通效率的影响。

4.5. 评估指标的权重

使用MEREC方法计算(Keshavarz-Ghorabaee, Amiri, Zavadskas, Turskis， & Antucheviciene, 2021)。MEREC是一种客观的权重计算方法。计算评价指标权重，综合研究各评价指标对智能驾驶测试整体性能的影响。使用下面列出的方法确定客观权重。

假设评价指标的测试数据是在次智能驾驶测试后获得的，则第次智能驾驶测试中第个评价指标的测试数据表示为: 。评价矩阵可以构造为:

规范化评估矩阵，将所有测试数据缩放到最小化类型。归一化评价矩阵的数据用表示。归一化方程可表示为:

其中，为有益评价指标集，为无益评价指标集。

每个智能驾驶测试的总体表现是通过应用具有相等评价度量权的对数度量来计算的。根据Eq.(27)中得到的归一化评价矩阵，我们可以发现的值越小，性能值越高，可以计算为:

然后，通过去除每个评价指标，计算每个智能驾驶测试的性能。在去掉每个评价指标后，我们分别计算智能驾驶测试的性能。因此，有组与个评估指标相关联的性能函数。去掉第个评价指标后，第次智能驾驶测试的性能可表示为:

确定第个评价指标的消除效果后，计算绝对偏差之和。取消第个评价指标的影响可以表示为 :

第个评价指标的客观权重可计算为:

4.6. 自动评估系统

安全通常指碰撞安全和功能安全，其中碰撞安全是智能驾驶测试的首要目标，也是综合性能评价的前提。然而，现有的研究大多将碰撞安全性与其他评价指标放在同一水平，无法对自动驾驶汽车的多维性能进行合理、客观的量化。本文提出的自动评估系统架构以碰撞安全作为评估系统的第一级。碰撞安全性用事故率表示。只有通过碰撞安全评价的自动驾驶汽车才能进行第二级多维综合性能评价。

自动化评价系统的整个流程如图5所示。首先，从测试场景库中提取测试场景，在仿真测试平台上对自动驾驶汽车进行测试。然后判断自动驾驶汽车是否通过测试场景而没有发生碰撞。假设自动驾驶汽车完成了所有次测试场景而没有发生碰撞。在这种情况下，进行综合绩效评价，包括构造评价矩阵，利用MEREC方法确定评价指标权重，计算综合评价分数。如果自动驾驶汽车在测试过程中出现碰撞，则计算碰撞次数。如果自动驾驶汽车的事故率大于10%，则认为该自动驾驶汽车不合格，无需进一步评分。如果自动驾驶汽车的事故率低于10%，则继续进行综合性能评价，并计算评价分数。

图5 整个程序的OMDCE方法。提出的OMDCE方法可以自动选择测试场景，进行模拟测试，对测试数据进行处理和分析，并在线给出测试结果。

智能驾驶测试的评分是基于场景复杂性模型和MARCOS方法实现的(stevic, pamu， Puška， & Chatterjee, 2020)。对智能驾驶测试数据与参考数据(理想和反理想自动驾驶汽车)之间的关系进行建模是MARCOS方法的基础。基于所建立的关系，确定各智能驾驶测试的效用函数，并根据权衡对理想自动驾驶汽车和非理想自动驾驶汽车进行分级。然后，利用效用函数定义决策偏好，决策偏好代表被测自动驾驶汽车相对于理想自动驾驶汽车和非理想自动驾驶汽车的性能。最好的自动驾驶汽车是测试数据离无人机最近但离无人机最远的车辆。

评价矩阵如式(26)所示。通过在评价矩阵的基础上定义理想自动驾驶汽车和非理想自动驾驶汽车，得到扩展的评价矩阵。反理想试验值(AIT)是最差评价度量值，理想试验值(IT)是最佳评价度量值。根据参考序列的性质，应用式(34)和式(35)定义AIT和IT:

根据定义的AIT和IT，构建评价矩阵的可拓式如下:

然后，利用Eq.(37)对有益评价指标和非有益评价指标的评价矩阵的扩展进行归一化。

将归一化后的评价矩阵与评价指标权重相乘，得到加权评价矩阵，如式(38)所示。

第次智能驾驶测试相对于AIT和IT的效用度计算如下:

式中为加权评价矩阵各值之和，可计算为:

然后，确定第次智能驾驶测试的效用函数。效用函数是AIT和IT之间的折中，可以计算为:

其中表示IT方面的效用函数，表示AIT方面的效用函数。和定义为:

基于评价指标权重和效用函数，我们可以计算出每个评价指标的具体性能分数和被测自动驾驶汽车的综合性能评价分数。

为了减少不同场景的复杂程度差异对最终评价分数的影响，我们将测试评价分数与场景复杂程度进行尺度化，得到不同场景下自动驾驶汽车的最终得分，计算公式为:

式中，为归一化场景复杂度权重系数，为第次智能驾驶测试的场景复杂度，为次智能驾驶测试的场景复杂度的最大值。

5 智能驾驶测试与分析

在本节中，我们演示了OMDCE方法在智能驾驶测试中的有效性。测试场景是基于inD数据集的自然驾驶数据生成的(Bock et al, 2020)。为了验证智能驾驶测试系统的有效性，我们基于Zhou, Ma, and Sun(2020)开发的驾驶行为模型和黑盒VTD自动驾驶代理开发了具有代表性的自动驾驶代理。

5.1. 仿真描述

初始仿真测试场景如图6所示，其中图6(a)为inD数据集(Bock et al, 2020)中仿真场景的实际照片，图6(b)为基于图6(a)真实场景在VTD中构建的仿真环境。这是一个位于德国Bendplatz的四个十字路口，有两条左转弯车道。由于靠近大学，行人、骑自行车的人和公共汽车都很频繁。在这些交通参与者和驾驶车辆之间，最常见的交互存在于此位置。对静态交通场景参数和动态交通参与者行为进行优化，生成不同复杂度的测试场景，全面测试自动驾驶汽车的性能。

图6. 十字路口的场景布局。(a) inD数据集中模拟路口的实际照片(Bock et al, 2020)。(b) VTD根据实际情况所产生的模拟环境。

为了证明我们提出的智能驾驶测试系统能够全面客观地测试不同类型的自动驾驶汽车，我们利用VIRES开发的VTD自动驾驶模型和Zhou et al(2020)提出的DPA自动驾驶模型进行仿真验证。VTD自动驾驶模型相当于一个黑匣子，用来表示一类黑匣子智能驾驶算法。DPA是一种集成了混合流交叉口决策、路径规划和实时行动的智能驾驶模型。

5.2. 自动驾驶汽车的虚拟场景测试与评估

表3 VTD自动驾驶模型在不同场景下的评价指标值。

表4 DPA自动驾驶模型在不同场景下的评价指标值。

在智能驾驶测试过程中采集被测自动驾驶汽车的评估指标值。VTD自驾车模型和DPA自驾车模型的具体评价度量值分别如表3和表4所示。根据第4.4节提出的评价指标体系确定评价指标值。为了提高测试的全面性和客观性，我们使用了四种不同复杂程度的场景来测试自动驾驶汽车，这四种场景缩写为场景I到场景IV。

场景I到场景IV是四个测试场景，它们从场景库改编而来，复杂度不断增加。待测自动驾驶汽车在十字路口左转，与路口对面直线行驶的其他车辆、自行车、行人发生轨迹冲突。目的是测试自动驾驶汽车能否安全有效地通过无保护的左转路口。所有四个测试场景都是基于自然交通流的数据泛化生成的。场景I是基于自然的流量数据分布生成的基本初始测试场景。场景II是通过优化背景交通参与者行为生成的复杂度更高的测试场景。场景三进一步优化了背景交通参与者的行为，进一步增加了测试场景的复杂度。场景IV是最终优化后得到的最高复杂度临界边界场景，用于测试自动驾驶汽车的性能边界。

除了四个测试场景在场景复杂度上的差异外，背景交通参与者与测试自动驾驶汽车的交互行为也存在较大差异。优化后的背景交通参与者与被测自动驾驶汽车之间的行为更具对抗性和批判性。背景交通参与者更主动地调整其行为(如转向角度和速度)，与被测自动驾驶汽车形成更强的对抗。此外，背景交通参与者在不同的测试场景中表现出不同的动态。这些动态包括速度、相对距离、通过交叉口冲突区的时间变化，以及与不同类型的交通参与者发生冲突行为的可能性。不同的交通参与者在不同的时间通过交叉口冲突区，也会产生不同类型的交通参与者的冲突行为。此外，静态障碍物位于不同的位置，对被测自动驾驶汽车构成不同程度的挑战。这些障碍物在整个测试场景中都有战略定位，每个障碍物都对被测自动驾驶汽车构成独特的挑战。这些静态障碍物的位置和特征有助于提高测试环境的整体复杂性和真实感。

由式(2)可知，复杂交通下的总场景复杂度是静态场景复杂度、动态场景复杂度和天气环境复杂度三部分的函数。以被测自动驾驶汽车(红色车辆)为自我车辆视角，仿真中混合流交通场景及驾驶场景复杂度如图7所示。场强分布如图7所示，用不同颜色表示，可以直接评价交通对象对行车安全的影响。颜色越深，表示驾驶场景越危险。可以发现，不同的交通参与者由于其特征和运动状态的不同，具有不同的势场。每个峰由相应的环境因子产生，峰高按环境因子的类型计算。峰值半径是由环境物体的相应大小确定的，车辆的峰值半径明显大于自行车和行人的峰值半径。车辆、自行车和行人产生的峰值高度高于其他环境物体。这与人类对实际驾驶场景复杂性的认知是一致的。

图7. 仿真交通场景下车辆势场的对应分布。

驾驶场景复杂性量化结果如图8所示，其中图8(a)为VTD自动驾驶模型的场景复杂性结果，图8(b)为DPA自动驾驶模型的场景复杂性结果。如图8所示，从场景1到场景4，驾驶场景复杂度逐渐增加，尽管场景4对于VTD自动驾驶模型来说具有更高的整体复杂度，但场景3对于VTD自动驾驶模型来说具有更高的瞬态复杂度。此外，相同场景下，VTD和DPA自动驾驶模型的复杂性趋势不同。

图8. VTD自动驾驶模型(a)和DPA自动驾驶模型(b)的驾驶场景复杂性量化结果。

采用OMDCE方法确定评价指标的权重。得到了主指标和次指标的权重。计算了评价指标体系的全局权重，实现了评价的自动化。计算得出的评价指标权重汇总如表5所示。

表5 评估指标权重。

根据评价指标的权重，采用OMDCE方法计算评价结果。计算了VTD自驾车模型和DPA自驾车模型在不同复杂场景下的评价分数。并从安全性、舒适性、驾驶性能、标准法规、交通协调性等方面对自动驾驶汽车的具体性能进行了详细评价。根据这些评价结果，得到各评价指标的评价分数。然后将测试分数与相应测试场景的复杂度相结合，计算自动驾驶汽车的综合评价分数。并得到自动驾驶汽车的最终综合性能分数。采用OMDCE法计算的测试评价结果见表6。

表6 评估指标权重。

图9显示了VTD和DPA自动驾驶模型在不同测试场景下的评价分数和综合分数。从图中可以看出，DPA自驾车模型的评价分数明显高于VTD自驾车模型。这并不意外，因为基于规则的DPA自动驾驶模型相对保守，旨在防止碰撞。综合分数与测试场景复杂度相结合，可以有效减少不同测试场景对测试结果不一致的影响，从而有效增强评价的客观性和有效性。

图9. VTD自驾车模型与DPA自驾车模型的评价分数与综合分数比较。

5.3. 真实车辆的测试和评估

除了在虚拟仿真软件中实现自动驾驶汽车的自动化测试外，所提出的多维集成架构还可以实现对真实车辆的自动化测试。通过实车试验，进一步验证了OMDCE方法的有效性。

现场试验在上海交通大学校园南洋东路与宣怀大道交叉口进行。现场试验的实际照片如图10(a)所示。在现场测试中，有三辆实验车辆，一辆自行车和一辆行人参与实验。图10(b - d)为现场测试使用的三种不同复杂度场景的实际照片，其中红框为被测车辆，黄框为背景车辆，蓝框为背景自行车，绿框为背景行人。在测试场景中，被测车辆从交叉口左侧进入交叉口区域，然后左转通过交叉口。同时，其他交通参与者从右侧进入交叉口区域，直行穿过交叉口。当测试车辆接近十字路口中心时，与其他交通参与者发生轨迹冲突。图10(b)为初始的自然交通场景，从图中可以看出，测试车辆可以轻松通过交叉口区域，没有冲突。图10(c)为更复杂交通场景下的被测车辆，可以看出周围交通参与者对被测车辆的挑战更大。图10(d)为在CBDS中进行测试的被测车辆，其中被测车辆与其他主要自行车和其他主要行人存在强烈冲突。被测车辆检测到对面车辆停车让路，并准备左转通过十字路口。对面的自行车和行人突然加速，挡住了被试车辆的行驶路线，被试车辆在碰撞前紧急刹车，以免发生碰撞。将现场实验视频上传至网络，展示了被试车辆在三种不同复杂场景下的测试过程以及不同场景下的复杂程度变化情况。

图10. 现场测试的实际照片。(a)实地试验场的实际照片。(b)测试场景一的摄像头快照。(c)测试场景二的摄像头快照。(d)测试场景III的相机快照。

现场测试的驱动场景复杂性量化结果如图11所示。图中的三个快照对应于复杂度峰值时的场景。蓝线是场景I，它是图10(b)所示场景的测试场景复杂度变化曲线。我们可以看到，场景I的复杂度最小，也是最简单的测试场景，被测车辆可以轻松通过十字路口。橙色的线是场景II，它是图10(c)所示场景下的测试场景复杂度变化曲线。场景II相对于场景I有一定程度的场景复杂性增加。绿线为场景III，为图10(d)所示场景下的测试场景复杂性变化曲线。从图中可以看出，场景III的交互环境最为复杂，相对于前两种场景，场景复杂性明显增加。实验结果表明，所提出的场景复杂性模型能够实时准确量化测试场景的复杂性变化趋势。

图11. 驱动场景复杂性量化结果用于现场测试。图中的三个快照对应于复杂度峰值时的场景。

我们在现场实验中获取了实车测试的评价指标值。我们进行了三次真实世界的实验，三个实验的场景复杂度逐渐增加，分别对应图10(b)、(c)和(d)。不同测试中的评估度量值如表7所示。采用OMDCE方法计算被试车辆的评价结果，如表8所示。利用OMDCE方法，得到了被试车辆在不同维度下的测试评价分数，以及考虑不同场景复杂性的综合分数。此外，还可以计算出每次试验中被试车辆的详细评价分数。在表7中，被测车辆在三次测试中均未违反交通规则，因此该项在三次测试中得分均为100分。另外，测试车辆在测试场景III中的PET值最小，而在测试场景III中的TTC-1值和TET值最大，说明测试车辆在该场景下的安全性极差。这些发现反映在表8的结果中。

表7 评估不同场景下现场测试的度量值。

表8 不同场景下的现场测试评价结果。

为了进一步说明所提方法的合理性和有效性，我们将所提方法与目前应用最广泛的ORA-FCE方法进行了比较。采用ORA方法计算评价指标的权重。其核心思想是，专家或决策者最初根据经验或标准对度量集中的度量进行排序，形成顺序关系。随后，从一个值参考表中得出权重系数，反映指标之间的相对重要性关系。最后，计算每个度量的权重。采用FCE法计算评价分数。首先，通过专家评分得到模糊评价矩阵;然后，结合指标权重和模糊评价矩阵计算最终的评价分数。ORA-FCE法对实车试验的评价结果如表9所示。现有的评价指标体系只考虑安全性、舒适性、驾驶性能和标准法规。关于安全性，只考虑TTC和TET两个指标。我们提出的评价指标体系综合了多维绩效指标。

表9 ORA-FCE方法的现场试验评价结果。

在安全性方面，引入PET度量，通过不同交通参与者到达冲突点的时间差来量化被测车辆的安全性。此外，利他行为还表现在交通协调方面。图12为OMDCE方法与ORA-FCE方法的评价结果对比。由图12可以看出，两种方法得到的评价结果之间的差距可以忽略不计。然而，两种方法在综合得分方面存在一些差异。ORA-FCE方法没有考虑不同复杂场景对测试结果的影响，其综合得分与评价得分为相同值。OMDCE方法考虑了不同复杂场景对测试结果的影响，因此得分相对较低，也更符合被测车辆的实际性能，最终的综合得分也更合理。此外，由于ORA-FCE方法考虑的安全指标有限，难以对被测车辆的安全风险进行全面量化，导致安全得分较高。总体而言，OMDCE方法与ORA-FCE方法的评价结果具有高度的一致性。

图12. OMDCE法与ORA-FCE法在现场试验中的比较。DP表示驾驶性能指标。SR表示标准规则度量。TC为交通协调度量。ES为评价分数。CS为综合得分。

ORA-FCE方法中的所有指标都需要由专家打分。相比之下，OMDCE方法根本不需要任何专家参与，就可以给出一套完整客观的测试评估结果。此外，当专家人数较少时，ORA-FCE方法的评价结果容易受到保守或激进专家的干扰。因此，OMDCE方法比ORA-FCE方法更客观、实用。此外，ORA-FCE方法对于多个测试只能获得一个测试结果，无法获得每个测试的详细测试评价结果。更重要的是，OMDCE方法可以使智能驾驶测试完全自动执行，这可以大大加快测试过程。OMDCE方法可应用于虚拟仿真测试、硬件在环测试、车在环测试和现场测试，无需专家参与，大大节省了车辆测试和评估成本。

提出的OMDCE方法能够对自动驾驶汽车的性能进行全面客观的定量评估。它可以横向评估不同被测自动驾驶汽车之间的性能差异，发现自动驾驶汽车可能存在的性能缺陷，从而对算法进行改进和增强，以解决性能缺陷。它也适合作为自动驾驶汽车算法竞赛的评分标准。此外，OMDCE方法不仅可以对自动驾驶汽车的综合性能进行定量评分，还可以对人工驾驶汽车的驾驶性能进行定量评分。所提出的OMDCE方法还可以量化自动驾驶汽车的进化程度。

6 结论

为了实现自动驾驶汽车的自动化评估，增强评估的客观性，本研究提出了自动驾驶汽车自动化评估的四层框架，增强了测试的客观性和可扩展性。首先，我们的框架为全面的自动驾驶汽车测试生成不同复杂度的不同测试场景。其次，我们采用势场法来量化场景复杂性，帮助评估各种驾驶挑战。第三，我们的联合仿真平台结合了VTD、Matlab/Simulink和CarSim，实现了精确的场景仿真和高精度的车辆动力学建模。第四，自动化评估系统采用多维指标和评估算法，减少了人工参与，加快了评估速度。

我们使用MEREC和MARCOS方法结合场景复杂性模型来增强可扩展自动驾驶汽车评估的客观性。我们的系统通过对不同智能驾驶算法的评估和现场测试进行了验证。此外，我们引入利他主义绩效指标来评估自动驾驶对其他交通参与者的影响。这项工作首次在多个维度上为模拟车辆和实际车辆提供全面、客观的评估。

通过我们的自动化评估实验，我们发现DPA自驾车算法的综合性能优于VTD自驾车算法。这并不意外，因为基于规则的DPA自动驾驶模型相对保守，旨在防止碰撞。综合分数与测试场景复杂度相结合，可以有效减少不同测试场景对测试结果不一致的影响，从而有效增强评价的客观性和有效性。

未来，我们将生成更多的场景，进一步完善我们的测试场景库，重点关注如何根据获得的定量评估结果，发现被测自动驾驶汽车的性能缺陷，进一步提升自动驾驶汽车的综合性能。

本文译自：

《Scalable evaluation methods for autonomous vehicles》

文章来源：

Expert Systems With Applications, 2024, 249(PB): 123603.

作者：

Junjie Zhou[1][2] , Lin Wang[1][2] , Xiaofan Wang[1][2][3][4]

作者单位：

[1] Shanghai Jiao Tong Univ, Dept Automat, Shanghai 200240, Peoples R China

[2]Shanghai Jiao Tong Univ, Key Lab Syst Control & Informat Proc, Minist Educ China, Shanghai 200240, Peoples R China