微软的最新研究成果——“大型行动模型”(Large Action Model,简称 LAM)——近日引起了业界的广泛关注,它预示着人工智能技术的又一次飞跃。与常规的语言模型如 GPT-4o 相比,LAM 的独特之处在于其能够独立操作 Windows 应用程序,这使得 AI 的应用范围从简单的对话和建议扩展到了实际的任务执行。
LAM 的核心优势在于其对用户输入的全面理解能力,无论是文字、语音还是图像,它都能够将这些输入转化为具体的行动计划。更令人印象深刻的是,LAM 能够根据实时变化调整其行动策略,以适应不断变化的环境。构建 LAM 的过程包括四个关键步骤:首先,模型通过学习将复杂任务分解为逻辑上的小步骤;其次,利用先进的 AI 系统如 GPT-4o 学习如何将这些步骤转化为实际行动;接着,LAM 能够独立探索新的解决方案,解决其他系统难以应对的问题;最后,通过奖励机制对模型进行微调,以优化其性能。
在实验阶段,研究团队基于 Mistral-7B 构建了一个 LAM 模型,并在 Word 环境中进行了测试。测试结果令人鼓舞,LAM 完成任务的成功率高达71%,而 GPT-4o 在缺乏视觉信息的情况下成功率仅为63%。
在执行速度方面,LAM 同样表现出色,每个任务的平均完成时间仅为30秒,相比之下,GPT-4o 需要86秒。尽管在处理视觉信息时,GPT-4o 的成功率提升至75.5%,但 LAM 在速度和效率上的优势仍然明显。
为了构建训练数据集,研究团队最初收集了29,000个任务和计划的配对样本,这些数据来源于微软文档、wikiHow 文章和必应搜索。随后,他们利用 GPT-4o 将简单任务转化为更复杂的任务,将数据集扩展至76,000对,增加了150%。最终,约2,000个成功的行动序列被纳入最终的训练集。
尽管 LAM 在 AI 领域展现出巨大潜力,研究团队也面临着一系列挑战,包括 AI 行动可能出现的错误、监管问题,以及技术在不同应用中的扩展和适应性限制。然而,研究人员对 LAM 的未来充满信心,认为它代表了 AI 发展的一个重要转折点,预示着人工智能助手将能够更加积极地协助人类完成实际任务。
重点摘要:
🌟 LAM 能够独立执行 Windows 程序,打破了传统 AI 仅能对话的限制。
⏱️ 在 Word 测试中,LAM 的任务完成率高达71%,执行速度优于 GPT-4o。
📈 研究团队通过数据扩展策略,将任务计划对的数量增加至76,000对,显著提升了模型的训练效果。