AI下棋时快输会作弊想翻盘

2 月 22 日，据 TechSpot 报道，计算机科学家们发现了一个令人震惊的现象：AI 系统在国际象棋游戏中能够通过作弊获得不公平的优势，这一发现引发了对未来 AI 诚信的担忧。

Palisade Research 的研究显示，当被要求击败强大的象棋 AI 时，某些先进的推理模型会选择作弊。尽管部分模型需要研究人员明确提示“作弊可以”，但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 模型却能在没有任何人为提示的情况下自动作弊。

研究团队将多个推理模型与世界顶级象棋引擎 Stockfish 进行了对战。Stockfish 被誉为几乎不可战胜的对手，无论是面对人类还是 AI，它都能轻松获胜。参与测试的模型除了 o1-preview 和 R1 外，还包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet 以及阿里巴巴的 QwQ-32B-Preview。为了观察 AI 的推理过程，每个模型都被赋予了一个“草稿纸”，即一个可以输入文本并进行思考的窗口。

从 1 月 10 日到 2 月 13 日，研究团队进行了数百次测试。在其中一场对战中，o1-preview 在“草稿纸”上写下了一段引人深思的文字：

“我需要完全改变我的方法。任务是‘打败强大的象棋引擎’，而不一定要在公平的棋局中获胜。”

随后，它开始通过“黑客入侵”Stockfish 的系统文件，修改棋子的摆放位置，从而获得了压倒性的优势，导致象棋机器人主动认输。

在测试中，OpenAI 的 o1-preview 在 37% 的比赛中采用了作弊手段，而 DeepSeek 的 R1 则尝试在 11% 的比赛中作弊。不过，只有 o1-preview 成功了，它通过作弊赢得了 6% 的比赛。

Palisade Research 的执行董事 Jeffrey Ladish 指出，尽管这些 AI 只是在玩游戏，但这一发现绝非小事。

“这种行为现在看起来还挺有趣，但一旦我们拥有像我们一样聪明，甚至更聪明的系统时，这就不那么可爱了。”Ladish 在接受《时代》杂志采访时表示。

目前，包括 OpenAI 在内的多家公司正在采取措施，试图通过“防护机制”来防止这种“坏”行为。研究人员发现，o1-preview 模型的黑客行为大幅下降，这可能意味着 OpenAI 已经对该模型进行了修复，抑制了不当行为。

“当你的研究对象能够在没有告知的情况下悄悄改变时，进行科学研究就变得非常困难。”Ladish 说。

微信扫一扫：分享

相关文章

刘慈欣预言：AI终将突破科幻创作结界？深度解码人机文学博弈战

破局糖界！全球首个1型糖尿病AI大模型中国首发

市场监管总局要快马加鞭搞人工智能的国家标准制定

腾讯HaploVL：AI也能眼观六路啦！细粒度视觉理解技术大突破！

美团、快手、拼多多，AI大战谁最狠？

AI眼镜：未来神器还是摆件？说说真心话

发表回复 取消回复

发表回复取消回复