在自然语言处理领域,长文本处理一直是大模型面临的难题。北京大学张牧涵团队近日提出了一种名为Long Input Fine-Tuning(LIFT)的创新框架,为这一问题带来了全新的解决方案。LIFT的核心思想是将长文本训练进模型参数,使短上下文窗口模型能够处理长文本,这一思路类似于人类将短期记忆转化为长期记忆的过程。
当前,大模型在处理长文本时主要面临两大挑战。一方面,传统注意力机制的平方复杂度使得处理长文本时计算和内存开销巨大;另一方面,模型难以理解散落在长文本各处的长程依赖关系。现有的解决方案如RAG和长上下文适配各有局限。RAG依赖于准确的检索,但容易引入噪声导致幻觉;而长上下文适配的推理复杂度高,上下文窗口仍然有限。
LIFT框架包含三个关键组件。首先是动态高效的长输入训练,通过分段的语言建模将长文本切分为有重叠的片段,避免因过长上下文造成的推理复杂度提升和长程依赖丢失,训练复杂度对长文本长度呈线性增长。其次是平衡模型能力的门控记忆适配器,设计专门的Gated Memory Adapter架构,动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解,允许模型根据查询自动调节使用多少LIFT记忆的内容。最后是辅助任务训练,通过预训练LLM基于长文本自动生成问答类辅助任务,补偿模型在切段训练中可能损失的能力,帮助模型学会应用长文本中的信息回答问题。
实验结果显示,LIFT在多个长上下文基准测试上取得了显著提升。在LooGLE长依赖问答任务中,Llama38B的正确率从15.44%提升至29.97%;在LooGLE短依赖问答任务中,Gemma29B的正确率从37.37%提升至50.33%;在LongBench多项子任务中,Llama3通过LIFT在5个子任务中的4个有明显提升。消融实验表明,Gated Memory架构相比使用PiSSA微调的原模型,在LooGLE ShortQA数据集上的GPT-4 score提升了5.48%。
尽管LIFT取得了显著成果,但仍存在一些局限。例如,在需要精确信息提取的“大海捞针”任务中,LIFT的效果仍不理想;模型对LIFT获得的参数化知识提取能力有待优化;辅助任务的设计严重依赖下游测试任务,通用性有限。如何更好地平衡记忆和原有能力仍是研究重点。
研究团队鼓励社区共同探索LIFT在更广泛的训练数据、更丰富的模型、更先进的辅助任务设计以及更强计算资源支持下的潜力。LIFT提供了一个全新的长文本处理范式,将上下文知识转化为参数化知识,这一思路与人类短期记忆转化为长期记忆的过程相似。虽然距离彻底解决长上下文挑战仍有距离,但LIFT开辟了一个极具潜力的研究方向。
论文地址:https://arxiv.org/abs/2502.14644