近期,清华大学智能产业研究院(AIR)对外宣布了一项重大技术突破——AutoDroid-V2 AI模型,该模型致力于提升移动设备的自动化控制能力。AutoDroid-V2通过运用小型语言模型,极大地增强了用户通过自然语言与设备交互的便捷性。
这一模型采用了一种新颖的基于脚本的方法,与传统依赖于云端的大型语言模型(LLM)的解决方案形成鲜明对比。这种创新方法使得设备能够更加高效地响应用户指令,同时减少了对云服务的依赖,这不仅在保护用户隐私和提升安全性方面取得了显著进步,还降低了用户端的流量消耗和服务器端的运行成本,为移动设备的广泛应用铺平了道路。
在项目背景方面,随着大型语言模型和视觉语言模型的快速发展,通过自然语言命令控制移动设备已经成为现实。这些技术为解决复杂用户任务提供了全新的解决方案。然而,传统的“逐步GUI智能体”方法由于其高流量消耗和隐私安全风险,限制了其大规模部署的可能性。
AutoDroid-V2的突破性在于其能够根据用户的指令生成一系列多步骤脚本,实现多个GUI操作的一次性执行。这种执行方式显著减少了查询频率,降低了资源消耗,并允许任务脚本直接在用户设备上生成和执行。该模型在离线状态下能够构建应用程序文档,为后续的脚本生成提供了坚实的基础。
在性能测试方面,AutoDroid-V2在23款移动应用上进行了226项任务的基准测试,与AutoDroid和SeeClick等先前模型相比,任务完成率提升了10.5%至51.7%。同时,其输入和输出的token消耗分别减少至原来的1/43.5和1/5.8,模型推理延迟降低至原来的1/5.7至1/13.4。这些测试结果充分证明了AutoDroid-V2在实际应用中的高效性和可靠性。
重点摘要:
🌟 AutoDroid-V2是清华大学智能产业研究院推出的最新AI模型,显著提高了移动设备的自然语言控制效率。
🔒 该模型通过小型语言模型减少了对云端服务的依赖,增强了用户隐私和安全性。
📈 基准测试显示,AutoDroid-V2在任务完成率和资源消耗方面均有显著提升,展现出强大的应用潜力。