近日,我校医学信息学院特聘副教授刘峰与西北农林科技大学王小龙团队以及军事科学院军事医学研究院王升启/舒文杰团队合作在国际知名期刊《Nature Machine Intelligence》上在线发表了一篇题为Design of prime-editing guide RNAs with deep transfer learning的研究论文。研究人员设计和开发了一种可解释的核苷酸语言模型OPED(Optimized Prime Editing Design)来预测先导编辑效率和设计pegRNA。在各种公开数据集上的全面验证证明了OPED在不同情景下的广泛适用性,并且都显著提高了编辑效率(2.2-82.9倍)。通过实验在PE2、PE3/PE3b和ePE不同编辑系统中都高效地安装了ClinVar数据库中各种类型的致病遗传变异,并且有着比现有的PE设计工具更高的平均编辑效率,进一步证明了OPED的多功能性和有效性。研究人员从超过20亿个候选设计中构建了OPEDVar优化设计数据库,并开发了OPED网站(http://bicdb.ncpsb.org.cn/OPED),以用于任何期望的基因编辑。
先导编辑(PE)是一种多功能且精确的基因编辑技术,能够在不引发DNA双链断裂和不需要供体DNA模板的情况下引入期望的插入、删除和点突变。由于点突变、插入和删除突变涵盖了大部分的人类致病遗传变异,因此PE原则上可以纠正高达89%的已知的人类疾病相关的基因突变。PE包括Cas9切割酶-逆转录酶融合蛋白和pegRNA,而先导编辑效率受到pegRNA的显著影响,因此pegRNA的优化设计就极其必要和重要。当前,基于规则的pegRNA设计方法仍受限于人类专家的专业知识和经验,而现有的几种基于机器学习的pegRNA设计模型非常依赖人工特征工程,准确性和泛化性有限,此外,它们还固有地缺乏可解释性。
OPED可以自动从原始核苷酸序列中学习靶向DNA和pegRNA对的全面且可解释的表示,从而提高了其泛化性和准确性,而无需依赖预定义的人工特征。研究人员展示了OPED在不同的编辑类型、编辑位置、内源位点、实验室条件、tevopreQ1条件、错配修复抑制条件、体外细胞系和体内小鼠肝细胞中预测pegRNA编辑效率的普适性和准确性。值得注意的是,具有较高OPED编辑分数的pegRNA与在前述情况下具有较低OPED分数的pegRNA相比,其编辑效率明显更高(2.2-82.9倍)。此外,OPED的内在可解释性还揭示了影响pegRNA编辑效率的核苷酸水平因素。
研究人员通过使用OPED优化的PE设计(pegRNA和sgRNA)高效地安装了各种ClinVar致病遗传变异,验证了OPED的广泛适用性和优越性能。OPED推荐的PE设计在平均编辑效率上明显高于现有PE设计工具生成的设计(PE2,2.1-6.8倍;PE3/PE3b,7.9-24.6倍;ePE,3.4-47.5倍)。OPED在所有比较中始终优于现有PE设计工具。此外,研究人员构建了OPEDVar,这是一个包括针对超过77000个ClinVar致病变异的优化PE设计的综合数据库,以纠正或安装这些致病变异。研究人员开发了用户友好的OPED网络应用程序,以简化为期望编辑设计pegRNA 和 sgRNA 的过程。
我校医学信息学院特聘副教授刘峰、西北农林科技大学黄舒泓博士为该文的并列第一作者,西北农林科技大学王小龙以及军事科学院军事医学研究院王升启/舒文杰为该文的共同通讯作者。该研究得到国家重点研发项目、国家自然科学基金、重庆市科技局项目和球迷网智慧医学青年人才计划等项目支持。
原文链接:https://www.nature.com/articles/s42256-023-00739-w