致力打造国内好用的AI产品导航平台
最新的语言模型,例如GPT-4o和Gemini 1.5 Pro,被誉为“多模态”,能够解析图像、音频和文本。然而,一项新兴的研究揭示了这些模型与我们预期的世界观察方式存在差距,实际上,它们可能缺乏真正的视觉感知能力。
首先,我们必须澄清,没有人声称这些人工智能具备与人类相同的视觉感知能力(尽管可能有人这样表达过)。然而,市场营销和基准测试在推广这些模型时使用了“视觉能力”和“视觉理解”等术语。这些表述暗示模型能够分析和解释图像与视频,从而执行从解答作业到观赏比赛等各种任务。 尽管这些公司巧妙地包装了他们的说法,但他们的意图显然是要表达模型在某种程度上能够“看见”。确实,它们能够做到这一点——但与它们解决数学题或编写故事的方式一样,即通过将输入数据中的模式与训练数据中的模式进行匹配。这就导致了模型在某些看似简单的任务上失败,例如随机选择一个数字。
奥本大学和阿尔伯塔大学的研究人员对当前人工智能模型的视觉理解进行了一项非正式且系统的测试。他们对最大的多模态模型进行了一系列简单的视觉任务测试,例如询问两个形状是否重叠,图片中有多少五边形,或者哪个字母被圈了出来。(概要微页面可以在此处查看。) 这些任务即使是一年级小学生也能轻松完成,但对人工智能模型来说却极具挑战。
“我们的七项任务都非常简单,人类可以达到100%的准确率。我们期望人工智能也能做到这一点,但目前它们还未能实现,”共同作者Anh Nguyen在给TechCrunch的电子邮件中写道。“我们的信息是,‘看,即使是最优秀的模型仍然存在失败。’” 在重叠形状测试中,即使是最简单的视觉推理任务之一,模型也未能始终给出正确答案。面对两个圆圈稍微重叠、刚好接触或有一定距离的情况,模型的表现并不稳定。例如,GPT-4o在它们相距较远时正确率超过95%,但在零距离或小距离时,正确率仅为18%。Gemini Pro 1.5表现最好,但在近距离的情况下正确率只有70%。 (请注意,插图并没有精确反映模型的性能,而是用来表示模型在不同条件下的不一致性。每个模型的统计数据都在论文中有详细说明。)
再比如,计算图片中相互交叠的圆圈数量?我可以自信地说,一匹高于平均水平的马都能完成这个任务。 当有五个圆环时,模型都能给出正确答案,但只需增加一个圆环,结果就会彻底崩溃。Gemini完全迷失了方向,一次也无法给出正确答案。Sonnet-3.5有三分之一的几率回答六个……而GPT-4o略低于一半的几率。再增加一个圆环会使得任务更加困难,但再增加一个却会让某些模型的回答变得更容易。 这个实验旨在说明,无论这些模型在做些什么,它们的处理方式并不真正对应于我们所说的“看见”。毕竟,即使它们的视觉能力很弱,我们也不会期望六个、七个、八个和九个圆环的图片在成功概率上会有如此大的差异。
其他测试的任务也显示出类似的模式;问题不在于它们视觉处理能力强或弱,而似乎是有其他原因导致它们在某些情况下能够计数,而在其他情况下则不能。 一个可能的答案就摆在我们面前:为什么它们在识别五个圆环的图片上做得那么好,而在其余任务上或识别五个五边形时却会失败得那么惨烈?(公平地说,Sonnet-3.5在后一个任务上做得相当好。)因为它们的训练数据中都有显著的五环图像:奥林匹克五环标志。 这个标志不仅在训练数据中多次出现,而且很可能在替代文本、使用指南和关于它的文章中被详细描述。但它们的训练数据中哪里能找到六个或七个相互交叠的圆环呢?如果它们的反应能说明问题的话:无处可寻!它们对它们所看到的东西毫无头绪,对圆环、重叠或这些概念的实际视觉理解一无所知。
我询问研究人员对他们在模型中发现的这种“盲目性”有何看法。像我们使用的其他许多词汇一样,“盲目性”这个术语具有拟人化的特质,并非完全准确,但很难避免使用。 “我同意,‘盲目性’对人类来说就有多种定义,而且还没有一个词可以描述人工智能对我们要展示的图像的这种盲目性/不敏感性,”Nguyen写道。“目前,还没有技术能够准确可视化模型所看到的内容。
它们的表现受输入文本提示、输入图像和数十亿权重的复杂函数影响。” 他推测,模型并非完全盲目,而是它们从图像中提取的视觉信息是近似和抽象的,比如“左边有一个圆圈”。但模型没有做出视觉判断的能力,它们表现得如同那些了解图像但实际并未看到它的人一样。 作为最后的例子,Nguyen提供了以下内容,这支持了上述假设: 当一个蓝色圆圈和一个绿色圆圈重叠(正如问题提示模型所做的那样)时,通常会有一个青色阴影区域,就像维恩图一样。如果有人问你这个问题,你或任何聪明人可能都会给出同样的答案,因为这完全是有可能的……如果你闭上眼睛的话!
然而,任何睁开眼睛的人都不会如此回应。 这并不意味着这些“视觉”人工智能模型就毫无用处。它们在基本视觉处理能力方面可能存在局限,但并不代表它们在特定任务上不具备高准确度。这些模型中的每一个很可能在对人类行为和表情、日常物品和情境的照片等方面都表现出高度准确。实际上,它们的意图就是解读这些内容。 如果我们完全依赖人工智能公司的营销来了解这些模型的功能,我们可能会认为它们具有完美的视觉能力。但正是需要这样的研究来表明,无论模型在判断一个人是坐着、走路还是跑步时有多么准确,它们这么做的时候并不具备我们通常所说的“看见”的能力。