通用人工智能的时间线:我们距离 AGI 还有多远?

在人工智能领域,流行词往往听起来相当“硬核”,比如感知器、卷积、变换器,它们指向具体的计算方法和技术路线。但近来,一个看似平常的词却频繁被提及,并带着不小的震撼意味——时间线。只要向人工智能研究者询问他们的时间线,话题往往就会转向通用人工智能(AGI):一种被普遍理解为在大多数任务上具备或接近人类能力的人工智能形态。

随着算力的提升、算法的改进以及数据规模的不断扩张,许多研究者认为,这条时间线正在明显缩短。包括 OpenAI、Anthropic 以及 Google DeepMind 在内的多家顶级实验室负责人,近来都公开表示,他们认为 AGI 可能在未来几年内出现。

如果真的诞生出一种能“像人一样思考”的计算系统,人类与机器之间的协作方式将发生深刻变化。AGI 的短期和长期影响尚难预测,但几乎可以肯定的是,它将重塑经济结构、科研方式乃至地缘政治格局。更进一步,如果通用人工智能继续发展为超级智能,人类在现有生态和权力结构中的位置都可能受到挑战。正因如此,研究者和政策制定者都希望通过追踪和评估人工智能能力的进展,提前为可能的颠覆做好准备,从法律、工程目标到社会规范和商业模式,都需要相应的参考依据。

然而,衡量 AGI 的难度远超想象。首先,人们对“什么是 AGI”本身就存在严重分歧。有的人用基准测试成绩来界定,有的人关注系统内部的运作方式,也有人从经济影响或“整体感觉”来判断。要测试通用人工智能,第一步就必须在概念层面达成某种共识,而这一步本身就异常艰难。

即便暂时接受“在大多数任务上达到人类水平”这一说法,问题也并未解决。人工智能和人类的能力结构并不相同,各自都有鲜明的优势和短板,因此哪些任务算“重要”、哪些标准应由人类来制定,本身就充满争议。正如杰弗里·辛顿所说,我们正在创造的并不是人类的复制品,而更像是一种“外星智能”。

即便如此,仍有研究者试图设计测试,用来捕捉人工智能在通用智能道路上的真实进展。但这些测试究竟能否真正反映我们所追求的目标,始终存在疑问。

在讨论 AGI 之前,理解“智力为何难以测试”本身就很重要。即使在人类中,智力也呈现出高度多样化。传统的智商测试,通常通过一组彼此相关但并不完全重合的任务,对记忆、逻辑、空间能力、数学和语言等方面进行综合评估。从理论上说,每一项任务都同时依赖于流体智力(即时推理和问题解决能力)和晶体智力(已掌握知识和技能的运用)。

在人类社会中,智商测试在一定程度上能预测学业或职业表现,但这种结论并不能直接套用到人工智能身上。机器的能力组合方式与人类截然不同,人类设计的测试,未必能公平或准确地衡量人工智能。

更重要的是,还有许多关键能力并未被传统智商测试覆盖,例如社会智能——理解他人意图和情绪的能力,以及身体智能——对物理世界因果关系的把握和身体协调能力。这些能力对人类应对复杂现实情境至关重要,却长期处在人工智能基准测试的盲区。

测试智力还面临另一个老问题:如何避免误判。有些系统看起来“聪明”,可能只是利用了捷径,就像历史上那匹被称为“聪明汉斯”的马,表面上能做算术,实际上只是对训练者的细微暗示作出反应。反过来,一些系统表现不佳,也可能是因为不熟悉测试形式,或在感知层面存在障碍,而非真的缺乏能力。

此外,人类社会对“什么算聪明”的理解本身也在变化。随着信息获取方式的转变,单纯记住大量事实早已不再被视为智慧的核心,人们越来越重视灵活推理和适应能力。这种观念转变,也进一步增加了为人工智能设定统一标准的难度。

回顾历史,人类曾多次把某些挑战视为“通往通用智能的门槛”。上世纪五十年代,一些人工智能先驱认为,国际象棋是人类智力的精华体现,只要机器能下好棋,就等于触及了智能的核心。然而事实证明,机器可以在棋类上击败世界冠军,却在许多更简单、更通用的任务上表现乏力。

图灵测试曾长期被视为衡量类人智能的黄金标准。它要求机器在对话中成功冒充人类。几十年来,这被认为几乎不可能实现。但如今,先进语言模型已经在短时间对话中频繁“骗过”人类评审,同时却仍会犯一些在人类看来极其低级的错误。这种矛盾表现,使得研究者愈发怀疑单一测试的可靠性。

在这样的背景下,一些新的基准测试受到关注。其中之一是由弗朗索瓦·肖莱提出的抽象与推理语料库(ARC)。与强调知识储备不同,ARC 更关注一种能力:在极少示例的情况下,快速学习并迁移新规则。其核心理念是,真正的智能不在于掌握了多少信息,而在于能否灵活重组已有知识。

ARC 的谜题形式对人类来说并不困难,但对人工智能却极具挑战。虽然近年来模型表现有所提升,但往往需要付出极高的计算成本。最新推出的 ARC-AGI-2 难度进一步提升,人类平均成绩仍明显高于当前最先进的 AI。这种差距,使它成为观察通用智能进展的重要参考之一。

当然,ARC 也并非完美。它聚焦于抽象推理,却几乎不涉及社会互动、价值判断或现实世界的复杂性。正因如此,研究者不断提出新的基准,试图覆盖更多维度,比如多模态理解、长期规划、伦理决策,甚至在虚拟或真实环境中的行动能力。

一些学者认为,真正的通用智能应体现在完成“完整工作”的能力上,而不是孤立任务的表现。现实世界充满不可预见的细节,很多人类在工作中所做的关键判断,甚至连自己都难以清晰描述。人工智能在受控环境中表现出色,并不意味着它已经具备应对现实复杂性的能力。

还有研究者主张,不仅要看系统的输出表现,还应深入理解其内部结构。表面上成功的模型,可能依赖的是脆弱的捷径,一旦环境变化,就会暴露问题。相比之下,人类往往能抓住更稳定、更广泛适用的规律。

最终,人们或许永远无法就“AGI 是否已经到来”达成一致。有人认为它可能永远不会出现,有人则坚信它已经在某种意义上实现了。“AGI”这个词,越来越像一种承载希望或焦虑的符号,而不是一个精确的科学定义。也许在未来,它始终需要附带说明:在哪些基准下、在什么条件中、以何种方式成立。

本文译自:spectrum  .由olaola编辑发布