清华搞了个新东西：手机AI控制，牛了！

近期，清华大学智能产业研究院（AIR）对外宣布了一项重大技术突破——AutoDroid-V2 AI模型，该模型致力于提升移动设备的自动化控制能力。AutoDroid-V2通过运用小型语言模型，极大地增强了用户通过自然语言与设备交互的便捷性。

这一模型采用了一种新颖的基于脚本的方法，与传统依赖于云端的大型语言模型（LLM）的解决方案形成鲜明对比。这种创新方法使得设备能够更加高效地响应用户指令，同时减少了对云服务的依赖，这不仅在保护用户隐私和提升安全性方面取得了显著进步，还降低了用户端的流量消耗和服务器端的运行成本，为移动设备的广泛应用铺平了道路。

在项目背景方面，随着大型语言模型和视觉语言模型的快速发展，通过自然语言命令控制移动设备已经成为现实。这些技术为解决复杂用户任务提供了全新的解决方案。然而，传统的“逐步GUI智能体”方法由于其高流量消耗和隐私安全风险，限制了其大规模部署的可能性。

AutoDroid-V2的突破性在于其能够根据用户的指令生成一系列多步骤脚本，实现多个GUI操作的一次性执行。这种执行方式显著减少了查询频率，降低了资源消耗，并允许任务脚本直接在用户设备上生成和执行。该模型在离线状态下能够构建应用程序文档，为后续的脚本生成提供了坚实的基础。

在性能测试方面，AutoDroid-V2在23款移动应用上进行了226项任务的基准测试，与AutoDroid和SeeClick等先前模型相比，任务完成率提升了10.5%至51.7%。同时，其输入和输出的token消耗分别减少至原来的1/43.5和1/5.8，模型推理延迟降低至原来的1/5.7至1/13.4。这些测试结果充分证明了AutoDroid-V2在实际应用中的高效性和可靠性。

重点摘要：

🌟 AutoDroid-V2是清华大学智能产业研究院推出的最新AI模型，显著提高了移动设备的自然语言控制效率。

🔒 该模型通过小型语言模型减少了对云端服务的依赖，增强了用户隐私和安全性。

📈 基准测试显示，AutoDroid-V2在任务完成率和资源消耗方面均有显著提升，展现出强大的应用潜力。

微信扫一扫：分享

相关文章

市场监管总局要快马加鞭搞人工智能的国家标准制定

腾讯HaploVL：AI也能眼观六路啦！细粒度视觉理解技术大突破！

美团、快手、拼多多，AI大战谁最狠？

AI眼镜：未来神器还是摆件？说说真心话

OpenAI 把 GPT-4o 升级了，付费用户都能用了，免费用户还得再等等

优刻得和360集团一起搞AI安全生态

发表回复 取消回复

发表回复取消回复