项目名称:蛋白质组海量质谱数据的解析及其在人类基因组注释中的应用首席科学家:刘斯奇中国科学院北京基因组研究所起止年限:2010年1月-2014年8月依托部门:中国科学院一、研究内容关键科学问题本项目将以我国蛋白质组学界产生的海量MS/MS质谱数据为基本分析材料,重点放在解析这些数据中的新的蛋白质编码基因和蛋白质组定量信息。我们将运用计算化学、工程方法学、生物信息学、质谱学和生物分析化学等研究手段深入探讨如何准确地将MS/MS质谱数据转化为相对应的肽段信息,如何利用这些肽段补充和修订基因组的蛋白质编码基因,如何发掘这些肽段所赋予的定量信息,并建立兼有定性和定量信息的新型蛋白质表达谱。简言之,本项目拟解决的关键科学问题是,如何发掘高精度MS/MS质谱鉴定的肽段中所蕴含的大量生物学信息。主要研究内容1.海量质谱数据的深度解析技术研究从高精度MS/MS数据出发,通过新一代蛋白质数据库搜索引擎技术、DeNovo技术、基因组数据库搜索技术三个途径来实现海量质谱数据的深度解析,具体研究:通过严格的对照实验确定质谱数据可解析率,优化和规范实验操作流程;研究新一代蛋白质鉴定搜索引擎,提高鉴定可信度、灵敏度和速度;综合利用实验、仪器和计算手段发展肽序列DeNovo分析技术;利用基因组数据库搜索进一步提高质谱数据解析率。2.高精度MS/MS数据对基因组蛋白质编码基因的补充和修订采用DeNovo方法独立演绎所测定肽段的氨基酸顺序,进一步反转肽段信息至基因组,试图补充和修订基因组的蛋白质编码基因,具体研究:构建综合性蛋白质序列数据库;建立基于肽段信息注释基因组的方法流程;利用MS/MS所鉴定的肽段补充和修订基因组蛋白质编码基因。3.基于高精度质谱数据的蛋白质表达谱定量计算方法的研究及应用以鉴定的肽段频率为基础,发展兼顾准确度与规模化的非标记定量蛋白质学方法,同时开发以多肽质谱数据为基础的蛋白质编码基因的可视化标识技术,实现蛋白质表达谱的定量化,具体研究:蛋白质表达谱定量算法研究;蛋白质组表达谱定量分析及可视化研究;建立以基因为中心的定量蛋白质数据库及分析平台。4.基于质谱数据的预测结论的实验验证研究运用质谱学、生物化学、分子生物学和免疫学等手段系统验证基于MS/MS数据所分析的生物信息学结论,同时为生物信息学的理论模型提供严格设计和控制的实验数据,具体研究:建立先进的MRM技术平台实现对蛋白质定性和定量的高通量验证,发现和验证新的蛋白编...