在国家自然科学基金项目(批准号:62276002)资助下,北京大学计算机学院张铭教授团队与DeepSeek梁文锋团队合作,在长上下文大语言模型高效建模领域取得突破性进展,相关成果以“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”为题在自然语言处理领域顶级会议Association for Computational Linguistics(ACL) 2025中发表,并被评为最佳论文(Best Paper Award)。张铭教授和梁文锋先生为论文的共同通讯作者。
长上下文建模是下一代大型语言模型(LLM)的关键能力,但标准注意力机制的高计算开销是重大挑战。稀疏注意力虽然具有较强的发展前景,但现有方法常面临理论优势难转化为实际加速、以及缺乏端到端训练支持等问题,严重制约了长文本AI应用的发展。针对这一问题,研究团队创新性提出了一种全新的注意力机制——原生可训练稀疏注意力(Native Sparse Attention,NSA)。NSA的核心创新体现在两个方面:首先是硬件对齐的算法与实现,通过算术强度均衡设计和专用算子,显著提升运行速度,将稀疏注意力理论优势转化为实际加速;其次是原生可训练性,实现端到端训练模式,解决了稀疏注意力训练难题,在保持性能的同时大幅降低预训练计算开销。
图 原生可训练稀疏注意力机制(NSA)
实验结果表明,基于NSA预训练的模型在通用基准、长上下文及指令推理任务上,均能保持甚至超越传统注意力模型表现。在64k序列长度下,NSA在解码、前向传播与反向传播阶段均实现显著加速。与Flash Attention对比,NSA在前向传播速度提升可达9倍,反向传播实现6倍加速,呈现“越长越优”趋势。
本研究不仅解决了稀疏注意力机制的实际应用挑战,更为推动高效大型语言模型发展提供了新方向。该论文自今年2月公开以来已被谷歌学术引用近百次,研究成果已被DeepSeek、华为、字节跳动等多家领先的大模型企业实现或复现,充分验证了其技术的先进性和实用性。