信息科学部

我国学者在语音还原方面取得进展

日期 2024-01-16　来源：信息科学部　作者：肖斌王志衡谢国吴国政　【大中小】　【打印】　【关闭】

图基于无线射频信号的语音还原系统框架

　　在国家自然科学基金项目（批准号：62202276、61832012）资助下，山东大学计算机科学与技术学院成秀珍教授、胡鹏飞教授团队在无限制词集语音还原方面取得进展，突破了高频响应受限问题，实现了精准侧信道语音还原。研究成果以“mmEcho：一种基于毫米波的语音还原方法（mmEcho: A mmWave-based Acoustic Eavesdropping Method）”为题，发表在计算机网络与信息安全领域顶级学术会议IEEE S&P’23（44th IEEE Symposium on Security and Privacy）上。论文链接：https://ieeexplore.ieee.org/document/10179484。

　　语音还原技术在政治、经济、科学技术和工业等领域发挥着重要作用。然而，现代建筑中广泛使用隔音材料以及室内其他设备的干扰极大限制了传统的语音还原技术，比如穿透性限制和距离限制。在之前的研究中，语音还原的研究被简化为热词分类问题，无法应对实际场景中出现的大量未曾训练的语音词汇，导致重建信息不全面。且大多数现有工作只能重建有限频率范围内的音频（低于2kHz），无法完全覆盖人类语音频谱，导致大量语音频段无法重建。如何克服上述限制，提高语音还原的实用性和隐蔽性是一项重要挑战。

　　研究团队针对语音还原中先验数据获取困难和有限词汇问题，提出完全基于信号处理的语音还原方案，设计了声源定位、信息重建和去噪的系统框架（图），该方法突破了对攻击目标数据集的依赖，提出的相位校准算法和多天线融合技术可以成功地捕获由语音引起的微米级微弱振动。针对高频响应受限问题，提出的Intra-Chirp方法可以将频率响应得到倍数提升。特别地，该方案可以将频率响应提升到5kHz以上，从而实现人类语音频谱的全覆盖。微米级精度为被动声源音频重建提供了支持，即目标从扬声器等主动声源拓展到了其周围的一般生活物品比如锡纸、薯片袋和树叶等。

　　语音还原是信号处理、语音识别技术及信息安全技术的综合应用研究领域，因此其在语音信息优化恢复、语音隐私保护等领域中有着广泛的应用前景。