微软推出新工具，测试AI助手在Windows上的表现如何？

9月15日，科技界传来新动态，微软公司在昨日对外宣布，他们已经开发并推出了一项名为Windows Agent Arena的全新基准框架，旨在衡量和评估生成式人工智能代理（AI Agents）在Windows个人电脑环境中的表现。

这一框架的推出，标志着微软在AI领域的进一步深入探索。据了解，Windows Agent Arena基准框架能够全面测试AI Agents在多种主流Windows应用程序中的性能，包括但不限于Microsoft Edge和谷歌Chrome浏览器、Visual Studio Code编程工具、以及Windows系统自带的记事本、时钟和画图等应用，还有VLC等广泛使用的媒体播放器。

微软在其官方博文中提到，他们采用了OSWorld框架，精心设计了超过150项覆盖不同领域的Windows任务，这些任务不仅要求AI代理具备高效的规划能力，还要求它们能够理解屏幕内容并熟练使用各种工具。

此外，Windows Agent Arena的基准测试还具备高度的可扩展性，能够在Azure云平台上实现无缝并行化处理，从而在短短20分钟内完成对AI代理的全面评估。

在这一框架下，微软研究院还开发了自己的多模态AI代理——Navi，并将其置于Windows Agent Arena基准测试中进行测试。Navi被赋予了根据文本提示执行任务的能力，例如用户可能会提出：“请将我正在浏览的网页转换成PDF文件，并将其放置在我的桌面上。”尽管Navi在测试中的平均任务成功率仅为19.5%，与人类用户74.5%的成功率相比还有较大差距，但这无疑是AI技术在实际应用中的一大进步。

微软的这一举措，不仅展示了其在AI领域的技术实力，也为整个行业提供了一个标准化的测试平台，有助于推动AI技术在Windows PC上的应用和发展。随着技术的不断进步，我们有理由相信，未来AI代理的性能将得到显著提升，为用户带来更加智能化和个性化的体验。

更多详细信息，可参考以下链接：

Windows Agent Arena

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复