在游戏《黑神话:悟空》中,人工智能(AI)的表现令人瞩目,特别是在对抗游戏中的首个精英敌人牯护院时,AI展现出了非凡的技巧。它不仅方向感出色,视角控制也相当精准,连躲避敌人猛烈的劈击动作都显得游刃有余。更令人惊讶的是,在与鸦香客和牯护院的战斗中,AI的胜率已经超越了普通人类玩家。这一切,都是在没有使用强化学习的情况下,仅依靠大型语言模型实现的。
阿里巴巴集团的科研团队提出了一种创新的VARP(视觉动作角色扮演)智能体框架,这一框架能够直接将游戏的屏幕截图作为输入,通过视觉语言模型进行推理,最终生成控制游戏角色动作的Python代码。在《黑神话:悟空》的测试中,该智能体在90%的简单和中等难度战斗场景中取得了胜利。
研究团队在《黑神话:悟空》中定义了12项任务,其中75%与战斗相关,构建了一个包含1000条有效数据的人类操作数据集,记录了玩家的鼠标和键盘操作以及游戏截图。智能体的每个动作都是由一系列原子命令组合而成的,这些原子命令包括轻攻击、闪避、重攻击、恢复生命值等。
VARP智能体框架主要由动作规划系统和人类引导轨迹系统构成。动作规划系统依托于情境库、动作库和人类引导库,利用视觉语言模型进行动作的推理和生成,同时引入了分解特定任务的辅助模块和自我优化的动作生成模块。而人类引导轨迹系统则利用人类操作数据来提升智能体的性能。面对高难度任务时,系统会查询人类引导库中相似的截图和操作,从而生成新的人类引导动作。
VARP智能体还包含三个库:情境库、动作库和人工引导库。这些库存储了智能体自我学习和人类指导的内容,并且可以进行检索和更新。在动作库中,“def new_func_a()”代表动作规划系统生成的新动作,“def new_func_h()”代表人类引导轨迹系统生成的动作,而“def pre_func()”则代表预定义的动作。
通过案例研究和相应的游戏截图,我们可以看到,智能体在对抗游戏中的敌人时,能够自动检测并执行预定义的函数。例如,当可以使用定身法术技能时,智能体会执行相应的动作。SOAG(自我优化动作生成模块)会在玩家角色与敌人的每次战斗互动后总结并存储新的动作,这些动作针对特定的敌人和它们的攻击模式。
在实验中,研究团队使用了GPT-4o(2024-05-13版本)、Claude 3.5 Sonnet和Gemini 1.5 Pro等不同的视觉语言模型。结果显示,在对抗小怪时,AI的表现与人类玩家相当。然而,在面对牯护院这样的强敌时,Claude 3.5 Sonnet的表现稍逊一筹,而GPT-4o则展现出了最高的胜率。不过,即使是AI,在面对新手玩家普遍感到棘手的幽魂时,也显得无能为力。
研究还指出,由于视觉语言模型的推理速度限制,AI无法实时输入每一帧画面,只能间隔性地输入关键帧,这可能导致AI错过boss攻击的关键信息。此外,由于游戏中缺乏明确的道路引导,且存在许多无形的障碍,智能体在没有人类引导的情况下,难以自行找到正确的路线。
这项研究由阿里巴巴团队的五位作者共同完成。他们计划在未来发布相关的代码和数据集,对此感兴趣的研究者和开发者可以保持关注。
AI打游戏已非新鲜事,例如,基于强化学习的AI在《星际争霸II》中已经能够战胜人类顶尖玩家。这类强化学习方案通常需要大量的对局数据作为训练基础。例如,商汤科技此前训练的DI-star(结合监督学习和强化学习)就使用了“16万场录像”和“1亿局对战”的数据。然而,完全依靠大型模型来打游戏,仍然出乎许多人的意料。在本项研究中,数据集中的有效数据为1000条,这一成果无疑为AI在游戏领域的应用开辟了新的可能性。
论文和项目的具体信息,感兴趣的读者可以通过以下链接获取更多详情:
论文地址:https://arxiv.org/abs/2409.12889
项目地址:https://varp-agent.github.io/