研究发现：只要0.001%的假数据，AI模型就可能出问题

纽约大学的科研人员最近的一项成果，为大规模语言模型（LLM）的安全性敲响了警钟。该团队通过研究发现，在数据训练过程中，LLM对虚假信息的抵抗力极为薄弱。具体来说，当训练数据中掺杂进仅占0.001%的虚假数据时，模型就可能出现严重偏差，这在医疗领域尤为危险，因为一旦信息出错，患者的生命安全可能会受到威胁。

图源备注：图片由AI生成，图片授权服务商Midjourney

在《自然医学》杂志上发表的论文里，研究人员阐述了LLM在面对被注入虚假信息的训练数据时的表现。尽管这些模型在常规评估基准上看似与正常模型无异，但其内部却已暗藏隐患，常规测试难以察觉其潜在风险。

为了深入探究，研究团队对名为“The Pile”的训练数据集进行了实验，他们故意向其中添加了150，000篇由AI生成的医疗虚假文章。令人震惊的是，仅用24小时就完成了这些虚假内容的生成，且替换数据集中0.001%的内容，即1百万个训练标记，就使得有害内容增加了4.8%，而整个过程的成本低得惊人，仅5美元。

这种数据中毒攻击方式十分隐蔽，攻击者无需直接接触模型权重，只需在网络上散布有害信息，就能削弱LLM的有效性。研究团队强调，这一发现凸显了在医疗领域运用AI工具时所面临的巨大风险。实际上，已有案例表明，像MyChart这样的AI医疗平台，在自动回复患者问题时，会频繁生成错误信息，给患者带来诸多困扰。

鉴于此，研究人员强烈呼吁AI开发者和医疗从业者，在开发医疗LLM时，必须充分意识到其脆弱性。他们建议，在安全性得到充分保障之前，应避免将LLM应用于诊断、治疗等关键医疗环节。

划重点：

🌐 研究显示，0.001%的虚假信息足以使大规模语言模型（LLM）失效。

🩺 医疗领域中，虚假信息的传播会对患者安全造成严重影响。

💡 研究人员强调，在确保安全之前，不宜将LLM用于重要的医疗任务，如诊断或治疗。

微信扫一扫：分享

相关文章

百度AI的中场战事

阿里通义实验室用LHM技术，从一张图就能快速做出3D人体建模和动画

全球首款减肥AI大模型减单在合肥发布，用的DeepSeek等技术

蔡浩宇全力押注AI游戏：Anuttacon能改变行业格局不？米哈游的AI成果和未来难题

中国知行科技半夜出海，德国百年老店被收购了？

AI新定律：7个月任务长度翻倍，5年内可能出AI专家

发表回复 取消回复

发表回复取消回复