最新动态显示,谷歌的子公司DeepMind团队正在对Gemini平台进行深入训练,以期其机器人能够执行更为复杂的任务,并在多变的环境中自如行动。
DeepMind团队近期发布了一份研究报告,报告中指出,通过Gemini 1.5 Pro的上下文窗口功能—一个能够处理高达200万个词元的强大工具—用户现在可以更加便捷地使用自然语言来与RT-2机器人进行交流。
上下文窗口是一个关键概念,指的是在进行文本预测或生成时,语言模型所依赖的前文信息范围。
这项技术的运作方式相当直观:首先,机器人会通过观看特定区域—比如家庭或办公室—的视频来熟悉环境;随后,它能够根据所观察到的情况,通过语言或图像来执行接收到的指令。
例如,如果用户向机器人展示一部手机并询问充电位置,机器人便能够指导用户找到最近的电源插座。
DeepMind透露,在约836平方米的操作空间内,经过Gemini升级的机器人在执行50多条用户指令时,成功率达到了令人印象深刻的90%。
研究团队还发现了一些“初步迹象”,表明Gemini 1.5 Pro不仅能够协助机器人进行导航,还能帮助其规划如何完成其他类型的指令。
举个例子,当用户面前的桌子上摆满了各种可乐罐,询问机器人是否有他们钟爱的饮料时,Gemini能够“理解”机器人需要前往冰箱检查可乐的存量,然后返回向用户报告。DeepMind表示,他们将继续深入研究这些初步发现。