北邮齐涛/王尚广团队在大模型可信保护领域取得重要进展

日期:2026年03月23日 来源:北京邮电大学 作者:系统管理员 【打印】 【关闭】
       近日,北京邮电大学计算机学院(国家示范性软件学院)王尚广、齐涛教授团队在大模型可信保护领域取得重要进展。相关研究以“基于信息同位素技术的黑盒大模型训练数据成员审计”( Auditing unauthorized training data from AI generated content using information isotopes)为题。在学术期刊《自然-通讯》(Nature Communications)上发表。
       以大语言模型为代表的人工智能的飞速发展,高度依赖对海量人类生成数据的深度学习,然而当前训练数据的获取普遍面临严峻的版权与隐私挑战,即大量受版权保护的作品及隐私敏感的数据在未获授权的情况下被用于商业训练,开发者以模型性能提升的方式“隐性获利”,使得侵权行为极具隐蔽性。更为严峻的是,大模型的训练语料常被刻意遮蔽,数据持有者在面对仅提供接口服务的“黑盒”大模型时(用户只能访问模型生成内容),几乎无法发现侵权行为,更难以完成有效举证。因此,研究面向黑盒大模型的训练数据使用审计与证据验证技术,是推动AI合规治理、建立可执行的数据保护机制的关键问题。
       针对上述挑战,本文首次揭示人工智能系统中的“信息同位素”机理,指出隐私数据中天然内嵌的微结构信息可在模型学习与生成过程中稳定保留,从而构成可追踪的隐式标识。在此基础上,构建信息同位素驱动的模型记忆量化理论,实现数据成员性的可计算表征与精确度量;提出跨模态推理引导的先验知识解耦与校准机制,系统剥离背景知识干扰;最终形成仅依赖模型输出的训练数据审计技术方法,突破了黑盒条件下大模型训练数据隐私与版权侵犯问题难检测的挑战,为面向大模型的可信数据治理提供了理论基础与技术路径(如图1)。
图1:算法流程图及关键技术说明
       基于开源LLaMA-1系列模型(相关训练数据来源已开源)为测试对象的评估实验表明(如图2),本文所提算法以最高超过99%的检测准确率(显著性检验:p<0.01)实现了对训练数据成员性的精准识别,整体性能显著优于现有相关方法;同时证明了该方法在不同数据领域中具有良好的泛化能力,并且对多种对抗性数据攻击策略表现出较强的鲁棒性,表明了其在实际数据审计场景中的应用潜力。
图2:核心性能评测结果,其中InfoTracer为本文所提方法
       研究进一步将评估范围扩展到了9个主流大模型服务,包括ChatGPT、Claude、Gemini、DeepSeek、Doubao等,并使用新闻、代码领域的数据集进行测试。实验结果表明(如图3),InfoTracer 依然能够保持极高的检测准确率,并在百万Token级长文本场景下仍保持稳定表现,进一步验证了其在 不透明商业 AI 系统训练数据审计中的有效性与实用性。
图3:InfoTracer方法在模型架构与数据规模上的泛化性验证
       该研究为大模型时代的数据安全保护提供了可落地的技术路径,并从机理层面构建了黑盒条件下训练数据审计的系统化理论框架与方法范式,填补了数据可追踪性的关键空白,对完善大模型治理体系、推动可信人工智能发展具有重要意义。
       北京邮电大学为本研究第一完成单位,北京邮电大学齐涛研究员为论文第一作者,北京邮电大学王尚广教授、清华大学黄永峰教授、香港科技大学谢悦琪研究员、剑桥大学Nicholas Lane教授为本研究共同通讯作者。研究得到了国家自然科学基金青年科学基金项目(A类)(62425203)、国家自然科学基金青年科学基金项目(C类)(62502044)等多个项目的资助和支持。
       论文链接:https://www.nature.com/articles/s41467-026-68862-x
分享到: