ChatGPT引用可信度堪忧，研究称半数以上为假或含严重错误

心理健康领域的研究人员如果依赖ChatGPT加快文献综述和写作速度，需要注意一项令人担忧的发现：AI生成的引用中，超过一半存在错误甚至完全捏造。

澳大利亚迪肯大学的科学家们让GPT-4o撰写了六篇关于心理健康主题的文献综述，结果显示：176个引用中，近20%（19.9%）完全是虚构的。在剩余的141条真实引用中，45.4%存在出版日期、页码或DOI等错误。总体而言，176条引用中只有77条（43.8%）既真实又准确，意味着超过一半的引用包含错误或捏造。

伪造引用难以察觉

这些虚构引用往往并不明显是假的。研究发现，当GPT-4o为伪造引用生成DOI时（35个伪造引用中33个包含DOI），其中64%的DOI指向了与主题无关的真实论文。这种设计使得读者容易误以为引用可信，从而加大了发现错误的难度。

此外，GPT-4o在不同疾病主题上的引用准确率差异显著。例如：

重度抑郁症：伪造率仅6%，真实引用准确率64%

暴食症：伪造率28%，真实引用准确率60%

身体形象障碍：伪造率29%，真实引用准确率仅29%

这表明在训练数据丰富、研究成熟的主题上，AI的表现更可靠；而在研究稀少或鲜为人知的主题上，幻觉引用更容易出现。

错误类型分析

即便是非伪造引用，也存在大量错误：

DOI错误占36.2%，是最常见的错误

作者名单错误率为14.9%

发表年份、期刊名称、卷号和页码也存在不同程度的错误

这种多样化的错误让AI生成引用看似可信，但仔细核查会发现很多与原文不符。

研究方法与发现

研究团队测试了AI表现是否受主题熟悉度和提示具体性影响。他们选择了三种心理疾病：重度抑郁症、暴食症和身体形象障碍，这些疾病在公众认知和研究量上差异明显。

实验发现，当要求AI撰写针对每种疾病的专业综述时，伪造率往往更高。例如，暴食症专业综述中伪造率跃升至46%，而一般概述仅为17%。这说明提示的具体性和研究主题的稀缺性都会影响引用准确性。

人工智能在科研中的应用风险

随着AI在科研环境中的普及，心理健康研究者越来越依赖ChatGPT来撰写文献综述、分析数据和生成初稿。调查显示，近70%的心理健康科学家使用过此类工具。大多数用户认为AI提高了工作效率，但对内容准确性和潜在误导也有所担忧。

虚构或错误引用不仅误导读者，也扭曲科学理解，侵蚀学术交流的基础。当引用指向不存在或错误的论文时，科学知识累积的链条可能被破坏。带有DOI的虚假引用尤为隐蔽，因为它们指向真实但无关的论文。

应对措施与建议

Linardon团队强调，所有AI生成的内容都必须经过严格人工核查：

每条引用都应与原文对照，确认存在且支持相应陈述

期刊与机构应制定AI学术写作政策，培训研究人员识别幻觉引用

引用和AI贡献应透明披露，以便编辑和同行评审发现潜在错误

可使用抄袭检测工具逆向检查引用，识别潜在虚假来源

研究发现，当前没有证据表明新版本AI已完全解决幻觉问题。即便在GPT-4o中，引用伪造仍普遍存在，尤其在训练数据稀缺的专业领域。

制度性应对与科研责任

幻觉引用的问题不仅影响个别研究者，还可能通过引用网络传播，误导未来研究，浪费资源。研究人员应：

优先在成熟主题上使用AI，减少风险

在稀缺主题或专业综述中实施严格验证

将AI视为初稿工具而非可靠来源，核查责任仍在研究者

此外，开发者可以根据主题熟悉度提供验证提示，期刊和资助机构应要求透明披露AI使用情况，并调整同行评审流程以发现AI生成错误。

总结

ChatGPT和类似AI在科研中的应用确实能提高效率，但引用幻觉问题不容忽视。研究表明，超过一半的引用存在错误或捏造，尤其在研究稀缺或专业性强的领域。AI可辅助生成初稿，但学术诚信和证据核查仍需完全依赖人工。

本文译自：studyfinds .由 olaola编辑发布

咕咕猫

ChatGPT引用可信度堪忧，研究称半数以上为假或含严重错误

近期文章