蛋白质修饰：蛋白质二级结构预测－最邻近方法（NearestNeighboring

2018-04-22

　　早期,由于数据的缺乏,预测方法多基于单条序列.随着序列和结构数据的增加,人们的研究转向同源序列分析,充分利用隐藏在同源序列中的结构信息,使得结构预测的准确率得到了较大的提高.同源分析的基础是序列比较,通过序列比较发现相似的序列,根据相似序列具有相似结构的原理,将相似序列(或者序列片段)所对应的二级结构作为预测的结果.在Levitt等人建立的相似片段方法中,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构.这一方法对数据库中同源序列的存在非常,若数据库中有相似性大于30%的序列,则预测准确率可大大上升.另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列Ti进行多重比对,对于U的每个残基,其构象态由多个同源序列对应的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值.

　　基于上述的策略,最邻近方法在预测二级结构方面包括两个过程,一是学习过程,二是预测过程.在学习阶段,用一个滑动窗口(例如长度为15)扫描已知结构的训练序列,序列个数为几百个,并且这些序列彼此之间的相似性很小.通过窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构.在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口下的序列片段U’与上述训练片段相比较,找出50个最相似的训练片段.假设这些相似片段中心残基各种二级结构的出现频率分别为fα、fβ和fc,用它们预测片段U’中心残基的二级结构,可以取频率最高的构象态作为U’中心残基的二级结构,或者直接以fα、fβ和fc,反应U’中心残基各种构象态可能的分布.根据处理过程的特点,最邻近方法又称为相似片段法.

　　地址：陕西省西安市灞桥区新寺569号唐都医院临床教学楼312室邮箱：联系电话传线号技术支持：陕西奈特星网络发展有限公司