9月15日,科技界传来新动态,微软公司在昨日对外宣布,他们已经开发并推出了一项名为Windows Agent Arena的全新基准框架,旨在衡量和评估生成式人工智能代理(AI Agents)在Windows个人电脑环境中的表现。
这一框架的推出,标志着微软在AI领域的进一步深入探索。据了解,Windows Agent Arena基准框架能够全面测试AI Agents在多种主流Windows应用程序中的性能,包括但不限于Microsoft Edge和谷歌Chrome浏览器、Visual Studio Code编程工具、以及Windows系统自带的记事本、时钟和画图等应用,还有VLC等广泛使用的媒体播放器。
微软在其官方博文中提到,他们采用了OSWorld框架,精心设计了超过150项覆盖不同领域的Windows任务,这些任务不仅要求AI代理具备高效的规划能力,还要求它们能够理解屏幕内容并熟练使用各种工具。
此外,Windows Agent Arena的基准测试还具备高度的可扩展性,能够在Azure云平台上实现无缝并行化处理,从而在短短20分钟内完成对AI代理的全面评估。
在这一框架下,微软研究院还开发了自己的多模态AI代理——Navi,并将其置于Windows Agent Arena基准测试中进行测试。Navi被赋予了根据文本提示执行任务的能力,例如用户可能会提出:“请将我正在浏览的网页转换成PDF文件,并将其放置在我的桌面上。”尽管Navi在测试中的平均任务成功率仅为19.5%,与人类用户74.5%的成功率相比还有较大差距,但这无疑是AI技术在实际应用中的一大进步。
微软的这一举措,不仅展示了其在AI领域的技术实力,也为整个行业提供了一个标准化的测试平台,有助于推动AI技术在Windows PC上的应用和发展。随着技术的不断进步,我们有理由相信,未来AI代理的性能将得到显著提升,为用户带来更加智能化和个性化的体验。
更多详细信息,可参考以下链接:
-
Windows Agent Arena