专题专栏

首页 >> 化学科学部 >> 资助情况 >> 资助成果

化学科学部
    首页 * 化学科学部 * 资助情况 * 资助成果

    我国学者在人工智能自动识别蛋白质二级结构取得进展

    日期 2022-05-08   来源:化学科学部   作者:沈祥建 高飞雪  【 】   【打印】   【关闭


    在国家自然科学基金项目(批准号:22025304, 22033007)等资助下,中国科学技术大学江俊教授与中国石油大学(华东)任浩副教授、美国加州大学尔湾分校ShaulMukamel教授合作,借助量子化学计算和机器学习方法,将人工智能应用于分子光谱解读,发展了基于二维紫外光谱信号智能识别蛋白质二级结构的方案。相关研究成果以“基于二维光谱描述符的机器学习识别蛋白质二级结构(Machine Learning Recognition of Protein Secondary Structures based on Two-Dimensional Spectroscopic Descriptors)”为题,于2022年4月27号在线发表在《美国国家科学院院刊》(Proceedings of the National Academy of the Sciences of the United States of America),论文链接:https://doi.org/10.1073/pnas.2202713119

    许多重要的生命功能都依赖于蛋白质结构的演变。人工智能可以依据蛋白质序列来预测其结构信息,大多数算法都局限于预测已完成折叠的蛋白质结构,但对生命功能演化中至关重要的蛋白质动态变化尚无高效的方案。光谱是探测物质微观结构(如蛋白质结构)并推演其变化规律的重要手段之一。相比传统的一维线性光谱,二维紫外光谱具有广阔的二维特征空间并携带丰富的化学信息。因此,发展高效智能算法,驱动机器自动解读光谱信号并反演识别相应结构,是当前最为迫切发展的科学前沿。

    研究团队结合多尺度理论模拟和机器学习技术,发展了基于二维紫外光谱信号智能识别蛋白质二级结构的方案。以分子动力学模拟、多组态电子结构计算、静电涨落有效哈密顿方法和激子模型计算的14.8万种具有不同二级结构的蛋白质片段结构,及二维紫外光谱和传统一维紫外光谱信息,共同建立了高质量光谱数据集(见图)。将二维紫外光谱信号作为特征描述符,训练了二维卷积神经网络模型,对片段的二级结构进行识别。相对于采用传统的一维光谱作为描述符,二维紫外光谱最大的优势在于其光谱信号中显式包含蛋白质分子内位于不同酰胺键上的电子激发之间的耦合作用,从而能够提供更高的维度容纳体系内部的相互作用特征。结合卷积神经网络和迁移学习技术,还实现了基于光谱数据的二级结构识别,对同源和非同源蛋白片段的识别准确率分别达到了97%和91%,同时证实了数值稳定性和优秀的迁移预测能力,使得建立稳定的“结构—光谱”关联成为可能。

    该研究工作为实时动态表征蛋白质结构提供了原理论证。结合光谱实时探测技术,人工智能算法也将显著促进光谱学技术对生物大分子结构和功能演化的动态跟踪能力。

    20220508-B03-沈祥建-中科大江俊成果.jpg

    图. 卷积神经网络分类器算法从二维光谱描述符中识别蛋白质二级结构