研究显示 AI 搜索引擎偏向使用冷门来源

自从去年谷歌推出其人工智能概览服务以来,人们开始清楚地意识到,人工智能生成的搜索结果与传统搜索引擎几十年来的链接列表存在巨大差异。近期的一项新研究量化了这一差异,显示人工智能驱动的搜索引擎更倾向于引用不那么热门的网站,甚至包括那些在“自然”谷歌搜索前 100 个结果中都未出现的网站。

在预印本论文《生成式人工智能时代的网络搜索特征》中,德国波鸿鲁尔大学与马克斯·普朗克软件系统研究所的研究团队对比了谷歌的传统搜索结果与其人工智能概览,以及 Gemini-2.5-Flash 的表现。他们还分析了 GPT-4o 的网络搜索行为,特别是带搜索工具的 GPT-4o,该模式仅在模型判断需要从预训练数据外获取信息时才进行网络搜索。

研究团队从多种来源提取了测试查询,包括 WildChat 数据集中提交给 ChatGPT 的具体问题、AllSides 列出的政治话题,以及亚马逊热销前 100 产品的相关搜索。

结果显示,生成式搜索工具引用的来源通常比传统谷歌搜索前 10 名的网站流行度低,使用 Tranco 域名跟踪器进行衡量。人工智能引擎引用的域名更可能不在 Tranco 排名前 1,000 或 1,000,000 的范围内。尤其是 Gemini 搜索,引用的域名中位数明显低于 Tranco 前 1,000 名,表现出对不热门网站的偏好。

此外,人工智能概览引用的多数来源在同一查询的谷歌前 10 个结果中并未出现,甚至有 40% 的来源未进入前 100 个结果。

然而,这种差异并不意味着人工智能生成的搜索结果质量较差。研究发现,基于 GPT 的搜索更倾向引用公司、百科全书等可靠来源,而几乎不涉及社交媒体内容。一些法学分析工具显示,人工智能搜索结果覆盖的核心概念数量与传统搜索前 10 个链接相当,说明信息的详细程度、多样性和新颖性基本保持一致。与此同时,生成式引擎有时会压缩信息,忽略传统搜索提供的次要或模糊内容,这在处理模糊搜索词(如不同人同名)时尤为明显。

Google Gemini 搜索尤其显现出引用低受欢迎域名的特点,而带搜索工具的 GPT-4o 则常依赖其预训练知识直接回答问题,甚至无需引用网络资源。这一机制在处理即时信息时可能带来限制。例如,在对 9 月 15 日谷歌热门查询进行测试时,带搜索工具的 GPT-4o 经常提示“请提供更多信息”,而非直接返回最新网络数据。

总体而言,研究人员未得出人工智能搜索结果是否整体优于传统搜索的结论,但他们强调未来研究应同时考虑来源多样性、概念覆盖率以及生成式搜索系统的综合行为,以建立新的评估标准。

本文译自:arstechnica ,由olaola编辑发布

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注