心理健康领域的研究人员如果依赖ChatGPT加快文献综述和写作速度,需要注意一项令人担忧的发现:AI生成的引用中,超过一半存在错误甚至完全捏造。
澳大利亚迪肯大学的科学家们让GPT-4o撰写了六篇关于心理健康主题的文献综述,结果显示:176个引用中,近20%(19.9%)完全是虚构的。在剩余的141条真实引用中,45.4%存在出版日期、页码或DOI等错误。总体而言,176条引用中只有77条(43.8%)既真实又准确,意味着 超过一半的引用包含错误或捏造。
伪造引用难以察觉
这些虚构引用往往并不明显是假的。研究发现,当GPT-4o为伪造引用生成DOI时(35个伪造引用中33个包含DOI),其中64%的DOI指向了与主题无关的真实论文。这种设计使得读者容易误以为引用可信,从而加大了发现错误的难度。
此外,GPT-4o在不同疾病主题上的引用准确率差异显著。例如:
重度抑郁症:伪造率仅6%,真实引用准确率64%
暴食症:伪造率28%,真实引用准确率60%
身体形象障碍:伪造率29%,真实引用准确率仅29%
这表明在训练数据丰富、研究成熟的主题上,AI的表现更可靠;而在研究稀少或鲜为人知的主题上,幻觉引用更容易出现。
错误类型分析
即便是非伪造引用,也存在大量错误:
DOI错误占36.2%,是最常见的错误
作者名单错误率为14.9%
发表年份、期刊名称、卷号和页码也存在不同程度的错误
这种多样化的错误让AI生成引用看似可信,但仔细核查会发现很多与原文不符。
研究方法与发现
研究团队测试了AI表现是否受主题熟悉度和提示具体性影响。他们选择了三种心理疾病:重度抑郁症、暴食症和身体形象障碍,这些疾病在公众认知和研究量上差异明显。
实验发现,当要求AI撰写针对每种疾病的专业综述时,伪造率往往更高。例如,暴食症专业综述中伪造率跃升至46%,而一般概述仅为17%。这说明提示的具体性和研究主题的稀缺性都会影响引用准确性。
人工智能在科研中的应用风险
随着AI在科研环境中的普及,心理健康研究者越来越依赖ChatGPT来撰写文献综述、分析数据和生成初稿。调查显示,近70%的心理健康科学家使用过此类工具。大多数用户认为AI提高了工作效率,但对内容准确性和潜在误导也有所担忧。
虚构或错误引用不仅误导读者,也扭曲科学理解,侵蚀学术交流的基础。当引用指向不存在或错误的论文时,科学知识累积的链条可能被破坏。带有DOI的虚假引用尤为隐蔽,因为它们指向真实但无关的论文。
应对措施与建议
Linardon团队强调,所有AI生成的内容都必须经过严格人工核查:
每条引用都应与原文对照,确认存在且支持相应陈述
期刊与机构应制定AI学术写作政策,培训研究人员识别幻觉引用
引用和AI贡献应透明披露,以便编辑和同行评审发现潜在错误
可使用抄袭检测工具逆向检查引用,识别潜在虚假来源
研究发现,当前没有证据表明新版本AI已完全解决幻觉问题。即便在GPT-4o中,引用伪造仍普遍存在,尤其在训练数据稀缺的专业领域。
制度性应对与科研责任
幻觉引用的问题不仅影响个别研究者,还可能通过引用网络传播,误导未来研究,浪费资源。研究人员应:
优先在成熟主题上使用AI,减少风险
在稀缺主题或专业综述中实施严格验证
将AI视为初稿工具而非可靠来源,核查责任仍在研究者
此外,开发者可以根据主题熟悉度提供验证提示,期刊和资助机构应要求透明披露AI使用情况,并调整同行评审流程以发现AI生成错误。
总结
ChatGPT和类似AI在科研中的应用确实能提高效率,但引用幻觉问题不容忽视。研究表明,超过一半的引用存在错误或捏造,尤其在研究稀缺或专业性强的领域。AI可辅助生成初稿,但学术诚信和证据核查仍需完全依赖人工。
本文译自:studyfinds .由olaola编辑发布