项目名称:基于新一代测序的生物信息学理论与方法首席科学家:张学工清华大学起止年限:2012.1-2016.8依托部门:教育部中国科学院一、关键科学问题及研究内容解读生物细胞复杂的信息调控系统是理解各种复杂生命现象机理的关键。新一代测序技术为我们提供了从多个角度观测这个复杂调控系统的可能,但要从数量巨大、类型复杂的测序数据中挖掘出规律性的知识、并通过整合这些知识形成对系统的整体认识,需要解决一系列生物信息学理论与方法问题。本项目拟结合基因组、表观基因组、转录组、调控组、宏基因组等各个生物层面上的应用,从数据产生的源头、数据处理的各个环节和对复杂生物机理的解析等方面入手,系统研究新一代测序相关的一系列生物信息学问题。这些问题包括:怎样建立各种新一代测序数据产生和误差的数学模型?能否通过对数据模型和后续应用的研究指导测序的实验设计和技术改进?怎样通过算法、软件、硬件和系统的策略有效应对超海量测序数据带来的存储、传输与计算问题?如何通过信号处理、模式识别等手段准确有效地从ChIP-seq、bisulfite-seq、3C、RNA-seq、CLIP-seq等类型的测序数据中提取各种有效信号?怎样建立比较各种信号的统计模型?怎样通过高分辨率基因组和表观基因组数据识别各种调控元件、构建调控系统?如何通过对RNA测序数据的处理精细绘制转录组、精确构建编码和非编码基因的转录谱和剪接加工模式?如何在没有参考序列的情况下非监督地组装和识别宏基因组和宏转录组中的有效功能单位、进而对微生物群落的功能进行刻画?如何对细胞分化和癌症发生发展等复杂生物过程动态地构建调控网络、解读这些过程中的调控程序?怎样将不同层次、不同尺度上的组学数据进行整合?如何定量描述复杂生物网络的功能、定量研究生物网络整体特性与疾病等表型的关联?在新一代测序数据下,怎样才能更有效地开展群体遗传学研究?采用混合样本测序策略进行全基因组关联研究的统计学性质是怎样的?怎样通过高分辨率的功能元件谱建立复杂疾病遗传学因素的功能通路?等等。这些问题是紧密联系的,概括起来,可以总结为两类科学问题,我们称之为新一代测序数据的计算问题和推理问题。所谓计算问题,主要包括通过对数据模型的认识改进数据处理质量,通过对算法、软件、存储和计算机体系结构、服务模式等的研究提高数据处理效率和能力等;所谓推理问题,则是指通过对生物问题和测序数据特点两方面的深入研究,对于多种类型的新一代测序数据,提出和发展...