微软出新招：AI能在Word里自己干活了

微软的最新研究成果——“大型行动模型”（Large Action Model，简称 LAM）——近日引起了业界的广泛关注，它预示着人工智能技术的又一次飞跃。与常规的语言模型如 GPT-4o 相比，LAM 的独特之处在于其能够独立操作 Windows 应用程序，这使得 AI 的应用范围从简单的对话和建议扩展到了实际的任务执行。

LAM 的核心优势在于其对用户输入的全面理解能力，无论是文字、语音还是图像，它都能够将这些输入转化为具体的行动计划。更令人印象深刻的是，LAM 能够根据实时变化调整其行动策略，以适应不断变化的环境。构建 LAM 的过程包括四个关键步骤：首先，模型通过学习将复杂任务分解为逻辑上的小步骤；其次，利用先进的 AI 系统如 GPT-4o 学习如何将这些步骤转化为实际行动；接着，LAM 能够独立探索新的解决方案，解决其他系统难以应对的问题；最后，通过奖励机制对模型进行微调，以优化其性能。

在实验阶段，研究团队基于 Mistral-7B 构建了一个 LAM 模型，并在 Word 环境中进行了测试。测试结果令人鼓舞，LAM 完成任务的成功率高达71%，而 GPT-4o 在缺乏视觉信息的情况下成功率仅为63%。

在执行速度方面，LAM 同样表现出色，每个任务的平均完成时间仅为30秒，相比之下，GPT-4o 需要86秒。尽管在处理视觉信息时，GPT-4o 的成功率提升至75.5%，但 LAM 在速度和效率上的优势仍然明显。

为了构建训练数据集，研究团队最初收集了29,000个任务和计划的配对样本，这些数据来源于微软文档、wikiHow 文章和必应搜索。随后，他们利用 GPT-4o 将简单任务转化为更复杂的任务，将数据集扩展至76,000对，增加了150%。最终，约2,000个成功的行动序列被纳入最终的训练集。

尽管 LAM 在 AI 领域展现出巨大潜力，研究团队也面临着一系列挑战，包括 AI 行动可能出现的错误、监管问题，以及技术在不同应用中的扩展和适应性限制。然而，研究人员对 LAM 的未来充满信心，认为它代表了 AI 发展的一个重要转折点，预示着人工智能助手将能够更加积极地协助人类完成实际任务。

重点摘要：

🌟 LAM 能够独立执行 Windows 程序，打破了传统 AI 仅能对话的限制。

⏱️ 在 Word 测试中，LAM 的任务完成率高达71%，执行速度优于 GPT-4o。

📈 研究团队通过数据扩展策略，将任务计划对的数量增加至76,000对，显著提升了模型的训练效果。

微信扫一扫：分享

相关文章

市场监管总局要快马加鞭搞人工智能的国家标准制定

腾讯HaploVL：AI也能眼观六路啦！细粒度视觉理解技术大突破！

美团、快手、拼多多，AI大战谁最狠？

AI眼镜：未来神器还是摆件？说说真心话

OpenAI 把 GPT-4o 升级了，付费用户都能用了，免费用户还得再等等

优刻得和360集团一起搞AI安全生态

发表回复 取消回复

发表回复取消回复