蛋白质组学

Nat Biotechnol. SignalP 5.0用深度学习增强信号肽预测

    大家好,这周推荐一篇发表在nature biotechnology上的文章,作者是来自丹麦克格斯林格比技术大学生物与健康信息学系的Henrik Nielsen教授。SignalP是被广泛使用的基于机器学习的信号肽预测工具,在蛋白质结构确定和预测等领域得到广泛的应用。

     信号肽(signal peptides-SPS)是许多新合成的蛋白质链末端的氨基酸短序列,它参与蛋白质转运或膜定位等功能。生物信息学工具可以根据氨基酸序列预测信号肽区域,但大多数工具无法区分不同类型的信号肽。本文提出了一种基于深度神经网络的方法,可以改善所有区域的信号肽预测,并区分三种原核生物类型。 

    信号肽存在于几乎所有生物体的很多新生多肽中,并靶向细菌、古细菌和真核生物中的膜包埋输出机器。信号肽在分泌和跨膜蛋白以及真核细胞内细胞器内的蛋白中被发现。在完成细胞定位后,它们会被信号肽酶除去,所以对信号肽区域信息在结构预测领域的一个应用是,在进行结构预测前往往需要先将信号肽序列剪除以简化计算(它们往往也没有固定结构)。

    SignalP是广泛使用的信号肽预测工具,历经多个版本:版本1使用神经网络进行预测;版本2引入了隐马尔科夫模型;版本3增强了切割位点的预测;版本4提高了对信号肽与跨膜螺旋的区分能力。这四个版本只能预测SPaseI的切割底物,也有一些针对SPaseII底物的算法,但之前并没有可以区分所有三类信号肽的算法报道。

     本文中作者采用基于深度神经网络的方法,结合条件随机场(CRF)以及优化迁移学习技术,得到了比传统生信方法更好的结果。他们在真核菌、古细菌、革兰氏阳性细菌和革兰氏阴性细菌数据上以四种类型:Sec/SPI、Sec/SPII、Tat/SPI和“Other”进行训练,将序列前70个氨基酸作为输入,集合中包含20,758条数据。

     作者比较了市面上的18种信号肽预测工具,除了一种Signal-BLAST外,SingalP5.0都具有最优表现。值得一提的是,Signal-BLAST采用的是对已知数据进行blast比对而非序列预测,所以结果显著一般的预测算法而被从比较中排除。

本文作者:LY







(0)

热评文章

发表评论