中国科大用深度学习助力实现高成功率蛋白质序列从头设计

合肥7月22日电 (记者吴兰)记者22日从中国科学技术大学获悉，该校生命科学与医学部教授刘海燕、副教授陈泉团队与信息科学技术学院教授李厚强团队合作，开发了一种基于深度学习为给定主链结构从头设计氨基酸序列的算法ABACUS-R。

经过实验验证，ABACUS-R的设计成功率和设计精度超过了原有统计能量模型ABACUS。

研究成果北京时间7月21日发表于《自然-计算科学》(Nature Computational Science)。

刘海燕、陈泉团队长期致力于发展数据驱动的蛋白质设计方法，先后建立并实验验证了对给定主链结构设计氨基酸序列的统计能量函数ABACUS模型，以及利用神经网络能量函数从头设计主链结构的SCUBA模型。然而，基于传统统计能量技术的ABACUS模型在成功率、计算效率等方面仍有不足。

近期有多项研究表明，用深度学习进行氨基酸序列设计，能够在天然氨基酸残基类型恢复率等计算指标上超过能量函数方法。但截至目前已正式发表的工作中，对相关方法的实验验证结果远未达到能量函数方法的成功率。

刘海燕介绍，利用ABACUS-R进行序列设计的方法由两部分组成。

第一部分是一个多任务预训练的编码-解码器网络，用于对单个氨基酸的结构和化学环境进行隐空间编码，再解码为包括中心残基氨基酸类型在内的多种真实特征；第二部分是把该编码解码网络迭代应用于目标主链的每个氨基酸残基，直到获得最大程度自洽的全序列。

在理论验证的基础上，团队尝试了实验表征用ABACUS-R对3个天然主链结构重新设计的57条序列，其中86%的序列(49条)可溶表达并能折叠为稳定单体。实验解析的5个高分辨晶体结构与目标结构高度一致。此外，与此前报道的从头设计蛋白相似，ABACUS-R从头设计的蛋白表现出超高热稳定性，去折叠温度大多可达100℃以上。

总的来说，相较于ABACUS模型，ABACUS-R序列设计更高的成功率和结构精度进一步增强了数据驱动蛋白质从头设计方法的实用性。ABACUS-R还提供了一种对蛋白质局部结构信息的预训练表示方式，可用于序列设计以外的其他任务。

审稿人认为，该研究“最新颖的贡献在于对设计的充分实验表征，包括晶体结构，以及可溶表达的高成功率。” 【编辑:刘湃】

2男童在车内身亡广州警方：自行进入车内高温致死

“链”上湖南 “湘”创未来丨湘赣边界崛起“三日游”目的地，花湖谷这样把山水变“流量”

好医生集团口罩生产线投产日最大生产量可达21.6万只

又是一年飞絮时！十大防治要点别忽视

外国媒体人：期待更多人能见证真实美好的新疆

（新春见闻）春节将至浙江金华火腿企业投入自动上盐机提高产能

世界看两会 | 多国人士：中国两会传递出对民生重视

山东生态环境分区管控效果初显为经济发展提供“绿色标尺”

18所高校青年联合发布全球生物多样性治理“南开倡议”

新一波冷空气抵京今年北京入冬时间有可能会提前