信息科学部

我国学者与海外合作者在因果启发的稳定学习研究方面取得进展

日期 2022-11-14　来源：信息科学部　作者：张敬林吴国政赵瑞珍肖斌陈厅　【大中小】　【打印】　【关闭】

图因果启发的稳定学习研究框架与进展

　　开放环境下真实数据的异质性和不确定性对当前机器学习模型的可解释性和泛化能力提出了严峻挑战。如何突破独立同分布基本假设的局限性，探究机理本质可泛化、性能稳定可解释的机器学习新途径，是新一代人工智能的重要基础理论问题，对于医疗和金融等高风险场景具有重要应用价值。在国家自然科学基金项目（批准号：U1936219、62141607、61772304）资助下，清华大学崔鹏研究团队与美国科学院院士、斯坦福大学Susan Athey教授共同将因果统计思想与机器学习框架进行融合性研究，在因果启发的稳定学习理论方法研究方面取得进展。研究成果以“稳定学习建立了因果推断与机器学习的若干共性基础（Stable learning establishes some common ground between causal inference and machine learning）”为题，于2022年2月发表在《自然·机器智能》（Nature Machine Intelligence）上。文章链接：https://www.nature.com/articles/s42256-022-00445-z。

　　研究团队阐释了当前机器学习方法在可解释性、稳定性和公平性等方面的固有局限根源于其关联统计基础，论证了因果推断在突破当前机器学习瓶颈局限方面的理论可行性和重要挑战，通过融合因果推断相关理论提出了以分布外泛化为目标牵引的稳定学习框架，探明了基于样本重加权的关联学习模型进阶为因果学习模型的理论路径，建立了面向线性模型和深度非线性模型的稳定学习方法体系，并通过理论分析和数据实验证明了方法的有效性。目前相关方法在智慧医疗、互联网经济等场景取得显著应用价值。

　　以分布外泛化为目标的机器学习目前在国际上尚处于起步阶段。为了推动该方向发展，团队构建并公开了支持分布外泛化研究的大规模图像评测集NICO，并于2022年8月依托该评测集举办了首个分布外泛化图像识别国际学术挑战赛（NICO Challenge），吸引了国内外近200支团队参赛，产生了显著影响力。目前该评测集已经被斯坦福大学、麻省理工学院、加州大学伯克利分校等多个研究团队采纳为标准评测集。数据集链接：https://nicochallenge.com/。