在科技与人工智能的前沿领域,谷歌 DeepMind 再次引领了行业风向。3 月 12 日,该公司宣布推出了两款新型 AI 模型,专为提升机器人在现实世界中的任务执行能力而设计。
首先亮相的是 Gemini Robotics,这是一款视觉语言行动模型,它赋予了机器人一种全新的能力:在未经过专门训练的情况下,能够自主理解并适应全新的场景。Gemini Robotics 的核心是谷歌最新的 AI 旗舰模型 Gemini 2.0,其强大的多模态世界理解能力为机器人在现实世界中的行动提供了坚实基础。
谷歌 DeepMind 机器人部门的高级总监 Carolina Parada 强调,Gemini Robotics 的优势在于其通用性、互动性和灵活性。它不仅能够应对新的情境,还能在与人类和环境的互动中表现出色,执行诸如折纸、打开瓶盖等精细的物理操作。这标志着机器人在适应性和精准度上迈出了重要一步。
与此同时,Gemini Robotics-ER(具象推理)模型也正式登场。这款模型被谷歌 DeepMind 称为一种先进的视觉语言模型,其核心目标是帮助机器人“理解复杂且动态的世界”。Parada 解释说,在日常生活中,人们在进行诸如装便当盒这样的操作时,需要考虑物品的摆放位置和操作方式。Gemini Robotics-ER 正是为了应对这类推理任务而设计的,它能够与现有的低级控制系统无缝对接,为机器人解锁新的功能。
谷歌 DeepMind 的研究员 Vikas Sindhwani 透露,公司正在开发一种“分层安全策略”,以确保机器人在执行任务时的安全性。Gemini Robotics-ER 模型已被训练用于评估特定情况下某个动作的安全性,这为机器人在复杂环境中的应用提供了保障。此外,公司还发布了新的基准和框架,以推动整个 AI 领域的安全研究。值得一提的是,去年谷歌 DeepMind 推出了“机器人宪法”,这是一套受科幻作家艾萨克・阿西莫夫启发的机器人行为规范。
据外媒 The Verge 报道,谷歌 DeepMind 已与 Apptronik 合作,致力于开发“下一代人形机器人”。同时,谷歌还向包括 Agile Robots、Agility Robotics、波士顿动力和 Enchanted Tools 在内的“受信任的测试者”开放了 Gemini Robotics-ER 模型。Parada 表示:“我们专注于打造能够理解物理世界并在其中行动的智能,我们非常期待将这一技术应用于多个领域和多种表现形式。”