我国学者在基于人类感知和深度学习的艺术肖像线条画生成方面取得进展

日期 2023-05-11　来源：信息科学部　作者：廖清吴国政赵瑞珍谢国肖斌　【大中小】　【打印】　【关闭】

图非对称循环映射结构的多风格艺术肖像画生成对抗模型

　　在国家自然科学基金项目（批准号：61725204）资助下，清华大学刘永进研究团队在基于人类感知和深度学习的艺术肖像线条画生成研究方面取得进展。在IEEE模式分析与机器智能汇刊（PAMI 2021，2023），IEEE国际计算机视觉与模式识别会议（CVPR 2019 Oral，2020）和国际计算机图形和交互技术会议（SIGGRAPH 2022）上发表论文5篇。

　　随着人工智能技术的发展，计算机可以使用不同的机器学习模型模拟人类的艺术创作，根据自然图像合成某种艺术风格的艺术图像，在保持自然图像关键内容的同时实现风格的转换。而人脸图像视频的分析与生成是计算机视觉和图形学中的一个重要课题。艺术肖像画是一种与人脸有关的艺术风格图像，由于其具有高度语义性和抽象性，相比于其他类型的艺术图像，艺术肖像画的生成具有更大的挑战性。

　　该团队研究了艺术肖像画的计算机自动生成问题，从单风格和多风格艺术肖像画生成，以及跨模态的艺术肖像说话视频生成等方面开展研究，取得了以下的突出进展：

　　（1）提出了层次化的生成对抗网络结构，以学习目标风格的艺术肖像画中不同面部区域的不同绘制技术；为了捕捉艺术肖像画中高度抽象的艺术形式、提升线条质量，进一步提出了两个新的优化损失项；

　　（2）构建了使用非成对训练数据的、基于非对称循环映射的多风格艺术肖像画深度生成模型，采用互联网上很容易抓取的非成对数据作为训练集，提出了一种非对称循环映射结构，以解决自然照片域和艺术肖像画域之间信息不平衡导致的信息嵌入问题以及生成结果存在的重要面部特征缺失问题；

　　（3）提出了一种从人类感知数据中学习肖像线条画质量指标（quality metric）的方法，基于非成对数据从人脸照片生成肖像线条画，方法可以使用单个网络生成多种风格的高质量肖像线条画，以及生成训练数据中未出现的“新风格”肖像画；

　　（4）提出了一个语音驱动的跨模态艺术肖像说话视频生成模型，构建了一种特征空间扭曲的新框架，从语音信号中预测面部特征点的运动，然后使用一个新的生成模型同时进行艺术风格转换和几何变形。该方法仅使用静态肖像画数据训练生成器，并提出了两个新的帧间一致性优化项，解决了生成视频帧间不连续的问题；进一步提出了一种从面部特征点预测头部上侧特征点的方法，提升了头部与头发运动的一致性。