3月11日,据最新消息,清华大学、腾讯云以及英特尔于3月7日在北京联合宣布启动一项名为“数据库AI联合创新计划”的项目。该项目聚焦于数据库与大模型技术的深度融合,致力于推动数据库的智能化转型,并为AI应用打造高效的数据基础设施。这标志着国内首个数据库AI领域的产学研合作项目正式落地。
当前,随着大语言模型技术的迅猛发展,数据库系统正面临从“被动存储”向“主动服务”转型的巨大挑战。传统数据库系统依赖人工编写复杂的查询语句,而大模型的自然语言交互能力则能够显著降低用户使用数据库的门槛。与此同时,AI训练与推理过程中对海量数据的处理需求,也促使数据库在分布式架构、缓存管理等关键环节实现性能的大幅提升。
据公告显示,针对这一行业趋势,本次合作规划了两大技术攻坚方向:
-
一是研发基于大模型的智能查询生成与优化系统(Text2SQL),使用户能够通过自然语言直接操作数据库,让复杂的数据库技术能够理解“人话”;
-
二是打造面向大模型推理的分布式缓存产品,以解决AI任务调度、存储资源分配等核心难题。
在Text2SQL方向上,项目组提出了一个端到端的技术框架,重点攻克语义理解、模式匹配以及SQL验证等关键环节。借助大模型微调、强化学习(DPO)以及检索增强(RAG)技术,该系统能够将用户的提问分解为多个子任务,并动态匹配数据库表结构,从而生成高准确率的SQL语句。
而在大模型推理加速方面,项目组设计了一套分布式缓存系统。通过两阶段任务调度、KVCache优化以及GPU直连存储技术,该系统能够显著降低计算资源的浪费,提升推理效率。
清华大学数据库科研组表示:“未来的数据库不应仅仅是数据的存储工具,更应成为AI产业链中的数据大脑。我们希望通过此次合作,为全球数据库技术的发展贡献中国智慧和方案。”