信息科学部

我国学者在多媒体智能方面取得进展

日期 2023-12-06　来源：信息科学部　作者：廖清王志衡谢国吴国政　【大中小】　【打印】　【关闭】

图1. “深度逻辑”网络模型示意图，传统方法只能对深度感知与逻辑推理分别进行单独优化，而“深度逻辑”能对深度感知与逻辑推理进行联合优化，实现类人感知推理。

　　多媒体智能是人工智能和计算机学科的核心研究领域，为大规模多媒体数据的智能化分析及落地应用提供基础模型与核心算法，基于人工智能技术的多媒体内容分析成为近十年来的研究热潮之一。在国家自然科学基金联合基金重大项目、原创探索性项目（批准号：U1611461，62050110，62250008）资助下，清华大学朱文武教授项目组对基于新一代人工智能的多媒体智能理论方法进行了深入研究，取得重要进展。

　　针对传统方法难以刻画跨空间大数据复杂关联关系与本质关联规律的难题，朱文武教授带领项目组突破传统向量空间对网络结构的浅层表达局限, 揭示了网络拓扑空间和向量表征空间的映射机理，首次提出了结构保持的深层关联表征理论方法，理论上证明了非对称传递性度量的统一数学表达、将计算复杂度从立方级降低到线性级，实现了多媒体跨空间大数据关联表征的理论创新与突破, 产生了重要国际影响。相关工作发表在2016年ACM KDD上，得到了学术界和工业界的广泛关注和引用，Google总引用2800余次。针对深度神经网络无法直接进行逻辑推理这一长期困扰人工智能研究领域的难题，打破了“深度学习模型就是深层连续表征”的一般认识，原创性提出了“深度逻辑”网络——首个对“可微、连续深层表征”与“不可微、离散推理系统”进行联合优化的新型可推理深度学习模型，并通过在联合优化模型构建过程中引入“迭代互监督学习”使其具备理论收敛保障，为显著提升当前基于深度神经网络的机器学习模型的逻辑推理能力提供了新途径。该项工作在计算机及人工智能领域影响因子最高期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)发表长文，应邀在多媒体领域顶级期刊IEEE Trancstions on Multimedia (TMM)发表观点性论文。深度逻辑网络技术引起了工业界关注，正在央视频、阿里安全、蚂蚁金服等进行应用部署。

　　该项工作推进了可解释、可推理多媒体大数据学习模型的研究，并为多种多媒体应用任务上机器学习模型性能的提升提供了新方法和新途径。朱文武教授也因相关研究成果获得了国际计算机协会ACM SIGMM 2023杰出技术成就奖。