当通用人工智能真正到来,人类会如何发现

在人工智能领域,有许多技术术语被广泛使用:感知器、卷积、变压器,它们指的是具体的计算方法。然而,最近出现的一个词听起来平凡,却潜藏着革命性的意义——时间线。向人工智能领域的专家询问他们的时间表,他们通常会谈论 AGI(通用人工智能)可能何时出现。AGI 通常被定义为能够在大多数任务上与人类能力相匹配的智能系统。随着计算机速度提升、算法改进以及数据量激增,AGI 的时间线正在不断压缩。OpenAI、Anthropic 和 Google DeepMind 等主要人工智能实验室的负责人最近均表示,他们预计 AGI 会在未来几年内出现。

如果出现像人类一样思考的智能系统,其直接和长期影响尚不明确,但很可能改变经济、科学研究和国际格局。如果 AGI 最终发展为超级智能,它甚至可能影响人类在生存竞争中的地位。因此,追踪技术进展至关重要,它不仅有助于制定法律、工程目标和社会规范,也有助于我们更全面地理解智能本身。

AGI 的衡量挑战

衡量人工智能能力从未易事,而对 AGI 进行评估则更具挑战性。原因之一是 AGI 的定义存在分歧:一些人根据其在基准测试上的表现来判断,另一些人则关注系统的内部运作、经济影响或“智能氛围”。此外,人工智能在任务处理上的优势和劣势与人类不同,即使定义为“在多数任务上与人类匹配”,哪些任务真正重要也可争议。正如多伦多大学名誉教授杰弗里·辛顿所说:“我们正在创造外星生物。”

智力测试本身就难以标准化。人类的智力测试结合了记忆、逻辑、空间理解、数学和语言能力,但 AI 的能力并非像人类那样自然捆绑在一起。许多人工智能系统在社会智力和身体智力方面表现有限,例如推理他人心理状态或理解物体间因果关系的能力。

历史上,许多机器测试尝试衡量智能。1950 年,艾伦·图灵提出了模仿游戏(图灵测试),要求机器在打字对话中扮成人类身份。几十年后,当 IBM 的深蓝击败国际象棋冠军加里·卡斯帕罗夫时,它显示出局部卓越智能,但仍缺乏通用能力。

ARC 基准测试

2019 年,谷歌前工程师弗朗索瓦·乔莱提出了 ARC(抽象和推理语料库)作为 AGI 基准。ARC 测试包含数百个视觉推理任务,每个任务都提供示例网格和目标输出网格,AI 系统必须从示例中推导规则并生成新的输出。这个测试强调流体智能,即系统从有限示例中迅速学习新能力的能力。

今年,ARC 推出了更复杂的 ARC-AGI-2 版本,新任务要求 AI 处理多步骤推理和符号解释。尽管人类平均得分为 60%,AI 系统最高仅达到 16%,表明距离全面通用智能仍有差距。ARC 的设计者正计划推出 ARC-AGI-3,将任务扩展到微型视频游戏,进一步测试 AI 的概念理解、目标规划和行动能力。

理想的 AGI 测试

科学家们不断探索 AGI 测试方法:不仅测评认知能力,还涉及创造力、道德判断和跨模态处理能力。虚拟世界和模拟环境提供安全的测试平台,例如 Google DeepMind 的 Dreamer,可在游戏和虚拟机器人任务中衡量智能。理想的测试还应观察 AI 的行为与人类价值观的一致性、因果理解能力以及身体控制能力。

一些专家认为,AGI 的真正衡量标准是它在现实世界中的表现:完成任务、解决问题、自动化工作、产生科学发现。这意味着我们可能永远无法就“类人智能”达成完全一致,但我们可以通过观察其实际能力来判断智能水平。

正如心理学家安娜·伊万诺娃指出的,AGI 的概念可能随着时间和技术发展而变化。有人认为它可能永远不会实现,也有人认为它已经出现。AGI 这一术语更多是表达目标或担忧的工具,其真正含义应结合具体基准和能力来理解。

本文译自:spectrum ,由olaola编辑发布

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注