12月5日,厦门大学官方公众号发布消息,该校科研团队正在探索利用人工智能技术,特别是多模态大模型,来辅助甲骨文的研究工作,这一尝试结合了甲骨文的音、形、义等多个维度的信息,以期提高甲骨文考释的效率和准确性。
甲骨文,亦称“殷墟文字”,拥有超过三千年的历史,它不仅是世界四大古文字之一,更是现代汉字的源头。
传统的甲骨文研究工作是一项耗时且复杂的任务,主要依赖于专家的人工解读。专家们通常采用字形分析、辞例研究等方法,这不仅需要深厚的知识储备,还需要大量的文献阅读和多学科知识的综合运用,使得这项工作变得越来越难以持续。
随着人工智能技术的快速发展,特别是深度学习模型在语义表示方面的强大能力,AI辅助甲骨文考释的优势日益凸显。
面对甲骨文数据稀缺和图像质量不一的挑战,研究团队系统性地整理了古文字数据,并构建了一个更大规模、更高质量的甲骨文多模态数据集。他们提出了“基于甲骨文多模态大模型的多元信息辅助考释模型”的技术方案。
该方案将设计一系列与实际考释过程紧密相关的任务和评估方法,包括跨字体图像映射、跨字体IDS(表达结构的部首偏旁序列)解码以及甲骨字与现代字的对译关系等,旨在有效训练多模态大模型。
团队利用多模态大模型的跨模态理解能力,辅助甲骨文的考释工作。在大模型提供的语义嵌入基础上,项目还将设计一个融合音、形、义、用多元信息的端到端甲骨文综合考释模型。该模型将综合利用字形结构、语义关联、同音通假和用法聚类分析,开发出一种更加轻量级的考释系统,以适应资源有限的实际考释环境。