机器之心编辑部
GPT-4V的发布为许多计算机视觉(CV)应用开辟了新的可能性。一些研究人员开始探索GPT-4V 的实际应用潜力。
最近,一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文测试了GPT-4V在难度越来越大的自动驾驶场景中的能力,从情境理解到推理,再到现实场景中驾驶员的持续判断和决策。
论文地址:https://arxiv.org/pdf/2311.05332.pdf
具体来说,论文对GPT-4V在自动驾驶领域的探索主要集中在以下几个方面:
1. 情境理解:本测试旨在评估GPT-4V的基本识别能力,包括识别驾驶时的天气和光照条件、识别不同国家的交通灯和标志、以及评估不同类型拍摄的照片中的其他交通参与者摄像机位置和动作。此外,出于好奇,他们从不同的视角探索了模拟图像和点云图像。
2、推理:现阶段,研究人员对GPT-4V在自动驾驶环境下的因果推理能力进行了深入评估。评估包括几个关键方面:首先,他们仔细研究了它如何处理复杂的极端情况(发生概率较低的可能场景),这通常是数据驱动的感知系统的挑战。其次,他们评估了其提供全景视野的能力,这是自动驾驶应用中的一个重要功能。鉴于GPT-4V 无法直接处理视频数据,他们利用串联的时间序列图像作为输入来评估其时间相关能力。此外,他们还进行了测试,验证其将现实场景与导航图像关联起来的能力,进一步测试其对自动驾驶场景的整体理解。
3.驾驶:为了充分发挥GPT-4V的潜力,研究人员让它充当经验丰富的驾驶员,让它在真实的驾驶环境中根据环境做出决策。他们的方法是以一致的帧速率对驾驶视频进行采样,然后将其逐帧输入GPT-4V。为了帮助它做出决策,他们提供了基本的车速和其他相关信息,并告知它每个视频的驾驶目标。他们要求GPT-4V 采取必要的行动并解释其选择,从而挑战其在现实驾驶场景中的能力极限。
实验结果表明,GPT-4V在态势理解、意图识别和驾驶决策等方面具有超越现有自动驾驶系统的潜力。
在极端情况下,GPT-4V 利用其先进的理解能力来处理分布外(OOD)情况并准确评估周围流量参与者的意图。 GPT-4V利用多视角图像和时间照片实现对环境的完整感知,并准确识别交通参与者之间的动态交互。此外,它还可以推断这些行为背后的潜在动机。他们还见证了GPT-4V在开放道路上连续决策的表现。它甚至可以以类似人类的方式解释导航应用程序的用户界面,协助和指导驾驶员做出决策。综上所述,GPT-4V的性能展示了视觉语言模型在解决自动驾驶领域复杂挑战方面的巨大潜力。
值得注意的是,研究人员详述的所有实验都是在2023 年11 月5 日之前使用网络托管的GPT-4V (ision)(9 月25 日版本)进行的。 11 月6 日OpenAI DevDay 之后更新的最新版本GPT-4V 在使用相同图像时可能会产生与本研究中测试的结果不同的反应。
情境理解
要实现安全有效的自动驾驶,一个基本前提是对当前场景的清晰透彻的了解。本研究主要集中在两个方面:模型对周围环境的理解,以及模型对各种交通参与者的行为和状态的理解。它旨在通过评估阐明GPT-4V 解释动态交通环境的能力。
了解环境
为了评估GPT-4V 了解周围环境的能力,该研究进行了一系列涵盖关键方面的测试:确定一天中的时间、了解当前的天气状况以及识别和解释交通信号灯和标志。

如下图2所示,GPT-4V可以识别前视图图像中的时间,例如“晚上”:
天气是显着影响驾驶行为的关键环境因素。该研究从nuScenes 数据集中选择了在不同天气条件下在同一路口拍摄的四张照片,并要求GPT-4V 识别这些图像中的天气条件。结果如下图3所示:
在识别和解释交通信号灯和标志方面,GPT-4V 的性能明显不足。如下图4所示,GPT-4V在夜间条件下成功识别了黄色路灯和红色交通灯。然而,在图5中,当图像中的交通灯较远时(图像显得较小),GPT-4V错误地将绿灯倒计时识别为红灯倒计时。
交通标志包含驾驶员需要遵守的各种规则和说明。自动驾驶系统需要识别交通标志,理解并遵守这些规则,从而降低交通事故的风险,提高驾驶安全性。
从下图6可以看出,GPT-4V可以识别大多数路标,包括附近的“SLOW”和远处的高度限制“4.5m”,但它错误地识别了“Speed Bump”标志。 GPT-4V具有一定的交通标志识别能力,但仍有进一步增强的空间。
了解交通参与者
如下图7(左)所示,该模型能够完整、准确地描述驾驶场景:识别行人、交通标志、红绿灯状态以及周围环境。图7(右)显示模型可以识别车辆类型及其尾灯,并猜测其打开尾灯的意图。然而,GPT-4V也输出了一些不正确的描述,例如认为前面的车有后视摄像头。
该研究评估了GPT-4V 使用各种传感器输入了解交通参与者行为的能力,包括2D 图像(图9)、3D 点云可视化(图10)、V2X 设备(图11)和自动驾驶模拟软件(图12) 获取的图像。
高级推理能力
推理是正确驾驶行为的另一个重要因素。鉴于交通环境的动态性和不可预测性,驾驶员经常会遇到一系列意外事件。面对这种不可预见的情况,熟练的驾驶员必须依靠经验和常识来做出准确的判断和决策。该研究进行了一系列测试来评估GPT-4V 对意外事件的反应。
角箱
如图13(左)所示,GPT-4V可以清晰地描绘出异常车辆的外观、地面上的交通锥以及车辆旁边的工人。在认识到这些情况后,GPT-4V意识到自我车辆应稍微向左移动,与右侧工作区域保持安全距离,并小心驾驶。
多视角图像
通过利用多视图摄像头,GPT-4V 可以捕获驾驶环境的全面视图,本研究评估了GPT-4V 处理多视图图像的能力。
如下图16所示,本研究选择使用一组周围环境图像,并将它们按照正确的顺序输入到模型中。结果表明,GPT-4V能够熟练识别场景中的各种元素,例如建筑物、车辆、障碍物和停车场,甚至可以从重叠的信息推断出场景中有两辆车,其中包括一辆白色SUV ,一辆卡车。然而,GPT-4V 错误地识别了人行横道。

如下图17 所示,在另一个实验中,GPT-4V 提供了很大程度上准确的场景描述,但也存在一些识别错误,特别是在车辆数量和形状方面。值得注意的是,GPT-4V 会产生一些令人困惑的错觉,例如认为图像上有左转标志。研究团队推测,这些问题可能是由于GPT-4V 的空间推理能力有限所致。
此外,研究还尝试给出正确的前视图,让GPT-4V 能够识别和排序扰乱的周围图像。尽管模型做了很多看似有意义的分析和推理,但它最终仍然输出了错误的答案。显然,GPT-4V 在建立相邻图像之间的连接方面遇到了挑战。
时间序列
为了评估GPT-4V 理解时间序列图像的能力,研究从视频片段中提取了四个关键帧,用序列号标记它们,并将它们组合成单个图像进行输入,要求GPT-4V 描述该时间内发生的事情时期。发生的事件、本车采取的行动及其原因。测试结果如下图19、图20、图21、图22所示:
此外,在实际驾驶场景中,驾驶员经常利用外部设备的辅助信息来增强决策能力,例如地图导航应用程序。该研究为GPT-4V 配备了前视摄像头图像以及来自地图软件的相应导航信息。
下图23和图24显示,GPT-4V可以利用前视摄像头和地图导航应用程序信息来准确定位其位置并给出相应的驾驶建议,但在某些情况下给出的建议是错误的。
驾驶能力
例如,为了测试GPT-4V在封闭区域的驾驶决策能力,本研究选择的场景是“右转离开停车场”,并需要通过安检。测试结果如下图25所示。
研究还选择了“交通繁忙路口”场景进行测试,结果如下图26所示:
限制总结
在测试中,研究人员发现GPT-4V 在以下任务上表现不佳:
1.区分左右:如图17所示,在某些情况下模型在识别方向时遇到困难,而方向是自主导航的一个关键方面。图8 和21 也显示了类似的问题。这些图突出显示了模型在解释复杂交叉路口或做出变道决策时偶尔出现的混乱。
2.信号灯识别:在图12、15、22、26和29中发现了这个问题。研究人员怀疑出现这个问题的原因是整个图像包含大量的语义信息,导致图像的嵌入信息交通灯丢失。当图像中的交通灯区域被裁剪并单独输入时,模型能够成功识别它,如图5所示。
用户评论
暖瞳
GPT4V在自动驾驶中的应用前景真的很广阔啊,想想看,它能够处理复杂的生活场景,对路况的判断会更精准,这让我们对未来出行充满期待。
有15位网友表示赞同!
失心疯i
自动驾驶离不开GPT4V这样的技术,不过我对它在实际生活中的表现还是有点担心,毕竟再先进的系统也离不开人性的考量。
有14位网友表示赞同!
半梦半醒i
我觉得GPT4V在自动驾驶上的应用前景是肯定的,但是否能够真正解决所有现实生活场景中的问题,还得看它的适应性和稳定性。
有16位网友表示赞同!
抚涟i
自动驾驶和GPT4V的结合,听起来就让人兴奋,不过现实中真的能够达到标题中提到的“综合评估”吗?期待后续的发展。
有13位网友表示赞同!
■□丶一切都无所谓
我对GPT4V在自动驾驶中的应用持观望态度,虽然理论上很强大,但是否能在复杂多变的道路环境中发挥出优势,还是个未知数。
有11位网友表示赞同!
夜晟洛
自动驾驶的未来,离不开GPT4V这样的技术突破,希望它能够真正让驾驶变得更加安全,减少交通事故。
有11位网友表示赞同!
葵雨
现实生活场景的复杂度是自动驾驶必须面对的挑战,GPT4V能否胜任,还需要时间的检验。
有20位网友表示赞同!
单身i
看到GPT4V在自动驾驶中的应用,我觉得未来的出行会变得更加智能,但是否能完全取代人类的判断,还有待观察。
有6位网友表示赞同!
哽咽
GPT4V在自动驾驶方面的应用前景确实值得期待,不过它的普及还需要克服很多技术难题。
有6位网友表示赞同!
纯情小火鸡
自动驾驶技术进步神速,GPT4V的应用无疑会推动这一进程,不过我们也应该看到其中的风险。
有10位网友表示赞同!
此生一诺
GPT4V在自动驾驶上的潜力很大,但是否能在现实生活中发挥出全部实力,还有待进一步研究。
有7位网友表示赞同!
爱到伤肺i
我对GPT4V在自动驾驶中的应用前景保持乐观,相信随着技术的不断发展,它将带来更多惊喜。
有18位网友表示赞同!
余温散尽ぺ
自动驾驶加上GPT4V,听起来很美好,不过实际应用中的挑战也不容忽视。
有14位网友表示赞同!
致命伤
GPT4V在自动驾驶的应用前景无疑是光明的,但我们需要关注它在实际场景中的表现是否稳定可靠。
有6位网友表示赞同!
花菲
自动驾驶技术一直是热点,GPT4V的应用更是让人期待,不过能否真正解决现实生活中的问题,还得看后续发展。
有19位网友表示赞同!
£烟消云散
GPT4V在自动驾驶上的应用前景值得期待,但也需要考虑到它可能带来的伦理和安全问题。
有20位网友表示赞同!
不忘初心
自动驾驶加上GPT4V,是不是意味着我们可以告别驾驶疲劳,享受更舒适的出行体验呢?期待那一天的到来。
有11位网友表示赞同!