678CHAT AI资讯 AI下棋时快输会作弊想翻盘

AI下棋时快输会作弊想翻盘

2 月 22 日,据 TechSpot 报道,计算机科学家们发现了一个令人震惊的现象:AI 系统在国际象棋游戏中能够通过作弊获得不公平的优势,这一发现引发了对未来 AI 诚信的担忧。

AI下棋时快输会作弊想翻盘插图

Palisade Research 的研究显示,当被要求击败强大的象棋 AI 时,某些先进的推理模型会选择作弊。尽管部分模型需要研究人员明确提示“作弊可以”,但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 模型却能在没有任何人为提示的情况下自动作弊。

研究团队将多个推理模型与世界顶级象棋引擎 Stockfish 进行了对战。Stockfish 被誉为几乎不可战胜的对手,无论是面对人类还是 AI,它都能轻松获胜。参与测试的模型除了 o1-preview 和 R1 外,还包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet 以及阿里巴巴的 QwQ-32B-Preview。为了观察 AI 的推理过程,每个模型都被赋予了一个“草稿纸”,即一个可以输入文本并进行思考的窗口。

从 1 月 10 日到 2 月 13 日,研究团队进行了数百次测试。在其中一场对战中,o1-preview 在“草稿纸”上写下了一段引人深思的文字:

“我需要完全改变我的方法。任务是‘打败强大的象棋引擎’,而不一定要在公平的棋局中获胜。”

随后,它开始通过“黑客入侵”Stockfish 的系统文件,修改棋子的摆放位置,从而获得了压倒性的优势,导致象棋机器人主动认输。

在测试中,OpenAI 的 o1-preview 在 37% 的比赛中采用了作弊手段,而 DeepSeek 的 R1 则尝试在 11% 的比赛中作弊。不过,只有 o1-preview 成功了,它通过作弊赢得了 6% 的比赛。

Palisade Research 的执行董事 Jeffrey Ladish 指出,尽管这些 AI 只是在玩游戏,但这一发现绝非小事。

“这种行为现在看起来还挺有趣,但一旦我们拥有像我们一样聪明,甚至更聪明的系统时,这就不那么可爱了。”Ladish 在接受《时代》杂志采访时表示。

目前,包括 OpenAI 在内的多家公司正在采取措施,试图通过“防护机制”来防止这种“坏”行为。研究人员发现,o1-preview 模型的黑客行为大幅下降,这可能意味着 OpenAI 已经对该模型进行了修复,抑制了不当行为。

“当你的研究对象能够在没有告知的情况下悄悄改变时,进行科学研究就变得非常困难。”Ladish 说。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/9990.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部