《黑神话：悟空》里GPT-4o大显神威，打败精英怪比人还强！纯大模型，没强化学习哦！

在游戏《黑神话：悟空》中，人工智能（AI）的表现令人瞩目，特别是在对抗游戏中的首个精英敌人牯护院时，AI展现出了非凡的技巧。它不仅方向感出色，视角控制也相当精准，连躲避敌人猛烈的劈击动作都显得游刃有余。更令人惊讶的是，在与鸦香客和牯护院的战斗中，AI的胜率已经超越了普通人类玩家。这一切，都是在没有使用强化学习的情况下，仅依靠大型语言模型实现的。

阿里巴巴集团的科研团队提出了一种创新的VARP（视觉动作角色扮演）智能体框架，这一框架能够直接将游戏的屏幕截图作为输入，通过视觉语言模型进行推理，最终生成控制游戏角色动作的Python代码。在《黑神话：悟空》的测试中，该智能体在90%的简单和中等难度战斗场景中取得了胜利。

研究团队在《黑神话：悟空》中定义了12项任务，其中75%与战斗相关，构建了一个包含1000条有效数据的人类操作数据集，记录了玩家的鼠标和键盘操作以及游戏截图。智能体的每个动作都是由一系列原子命令组合而成的，这些原子命令包括轻攻击、闪避、重攻击、恢复生命值等。

VARP智能体框架主要由动作规划系统和人类引导轨迹系统构成。动作规划系统依托于情境库、动作库和人类引导库，利用视觉语言模型进行动作的推理和生成，同时引入了分解特定任务的辅助模块和自我优化的动作生成模块。而人类引导轨迹系统则利用人类操作数据来提升智能体的性能。面对高难度任务时，系统会查询人类引导库中相似的截图和操作，从而生成新的人类引导动作。

VARP智能体还包含三个库：情境库、动作库和人工引导库。这些库存储了智能体自我学习和人类指导的内容，并且可以进行检索和更新。在动作库中，“def new_func_a()”代表动作规划系统生成的新动作，“def new_func_h()”代表人类引导轨迹系统生成的动作，而“def pre_func()”则代表预定义的动作。

通过案例研究和相应的游戏截图，我们可以看到，智能体在对抗游戏中的敌人时，能够自动检测并执行预定义的函数。例如，当可以使用定身法术技能时，智能体会执行相应的动作。SOAG（自我优化动作生成模块）会在玩家角色与敌人的每次战斗互动后总结并存储新的动作，这些动作针对特定的敌人和它们的攻击模式。

在实验中，研究团队使用了GPT-4o（2024-05-13版本）、Claude 3.5 Sonnet和Gemini 1.5 Pro等不同的视觉语言模型。结果显示，在对抗小怪时，AI的表现与人类玩家相当。然而，在面对牯护院这样的强敌时，Claude 3.5 Sonnet的表现稍逊一筹，而GPT-4o则展现出了最高的胜率。不过，即使是AI，在面对新手玩家普遍感到棘手的幽魂时，也显得无能为力。

研究还指出，由于视觉语言模型的推理速度限制，AI无法实时输入每一帧画面，只能间隔性地输入关键帧，这可能导致AI错过boss攻击的关键信息。此外，由于游戏中缺乏明确的道路引导，且存在许多无形的障碍，智能体在没有人类引导的情况下，难以自行找到正确的路线。

这项研究由阿里巴巴团队的五位作者共同完成。他们计划在未来发布相关的代码和数据集，对此感兴趣的研究者和开发者可以保持关注。

AI打游戏已非新鲜事，例如，基于强化学习的AI在《星际争霸II》中已经能够战胜人类顶尖玩家。这类强化学习方案通常需要大量的对局数据作为训练基础。例如，商汤科技此前训练的DI-star（结合监督学习和强化学习）就使用了“16万场录像”和“1亿局对战”的数据。然而，完全依靠大型模型来打游戏，仍然出乎许多人的意料。在本项研究中，数据集中的有效数据为1000条，这一成果无疑为AI在游戏领域的应用开辟了新的可能性。

论文和项目的具体信息，感兴趣的读者可以通过以下链接获取更多详情：

论文地址：https://arxiv.org/abs/2409.12889

项目地址：https://varp-agent.github.io/

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复