ChatGPT引用可信度堪忧,研究称半数以上为假或含严重错误

心理健康领域的研究人员如果依赖ChatGPT加快文献综述和写作速度,需要注意一项令人担忧的发现:AI生成的引用中,超过一半存在错误甚至完全捏造。

澳大利亚迪肯大学的科学家们让GPT-4o撰写了六篇关于心理健康主题的文献综述,结果显示:176个引用中,近20%(19.9%)完全是虚构的。在剩余的141条真实引用中,45.4%存在出版日期、页码或DOI等错误。总体而言,176条引用中只有77条(43.8%)既真实又准确,意味着 超过一半的引用包含错误或捏造。

伪造引用难以察觉

这些虚构引用往往并不明显是假的。研究发现,当GPT-4o为伪造引用生成DOI时(35个伪造引用中33个包含DOI),其中64%的DOI指向了与主题无关的真实论文。这种设计使得读者容易误以为引用可信,从而加大了发现错误的难度。

此外,GPT-4o在不同疾病主题上的引用准确率差异显著。例如:

重度抑郁症:伪造率仅6%,真实引用准确率64%

暴食症:伪造率28%,真实引用准确率60%

身体形象障碍:伪造率29%,真实引用准确率仅29%

这表明在训练数据丰富、研究成熟的主题上,AI的表现更可靠;而在研究稀少或鲜为人知的主题上,幻觉引用更容易出现。

错误类型分析

即便是非伪造引用,也存在大量错误:

DOI错误占36.2%,是最常见的错误

作者名单错误率为14.9%

发表年份、期刊名称、卷号和页码也存在不同程度的错误

这种多样化的错误让AI生成引用看似可信,但仔细核查会发现很多与原文不符。

研究方法与发现

研究团队测试了AI表现是否受主题熟悉度和提示具体性影响。他们选择了三种心理疾病:重度抑郁症、暴食症和身体形象障碍,这些疾病在公众认知和研究量上差异明显。

实验发现,当要求AI撰写针对每种疾病的专业综述时,伪造率往往更高。例如,暴食症专业综述中伪造率跃升至46%,而一般概述仅为17%。这说明提示的具体性和研究主题的稀缺性都会影响引用准确性。

人工智能在科研中的应用风险

随着AI在科研环境中的普及,心理健康研究者越来越依赖ChatGPT来撰写文献综述、分析数据和生成初稿。调查显示,近70%的心理健康科学家使用过此类工具。大多数用户认为AI提高了工作效率,但对内容准确性和潜在误导也有所担忧。

虚构或错误引用不仅误导读者,也扭曲科学理解,侵蚀学术交流的基础。当引用指向不存在或错误的论文时,科学知识累积的链条可能被破坏。带有DOI的虚假引用尤为隐蔽,因为它们指向真实但无关的论文。

应对措施与建议

Linardon团队强调,所有AI生成的内容都必须经过严格人工核查:

每条引用都应与原文对照,确认存在且支持相应陈述

期刊与机构应制定AI学术写作政策,培训研究人员识别幻觉引用

引用和AI贡献应透明披露,以便编辑和同行评审发现潜在错误

可使用抄袭检测工具逆向检查引用,识别潜在虚假来源

研究发现,当前没有证据表明新版本AI已完全解决幻觉问题。即便在GPT-4o中,引用伪造仍普遍存在,尤其在训练数据稀缺的专业领域。

制度性应对与科研责任

幻觉引用的问题不仅影响个别研究者,还可能通过引用网络传播,误导未来研究,浪费资源。研究人员应:

优先在成熟主题上使用AI,减少风险

在稀缺主题或专业综述中实施严格验证

将AI视为初稿工具而非可靠来源,核查责任仍在研究者

此外,开发者可以根据主题熟悉度提供验证提示,期刊和资助机构应要求透明披露AI使用情况,并调整同行评审流程以发现AI生成错误。

总结

ChatGPT和类似AI在科研中的应用确实能提高效率,但引用幻觉问题不容忽视。研究表明,超过一半的引用存在错误或捏造,尤其在研究稀缺或专业性强的领域。AI可辅助生成初稿,但学术诚信和证据核查仍需完全依赖人工。

本文译自:studyfinds .由olaola编辑发布

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注