蛋白质序列二级结构的搜索Abstract•生命科学家使用的生物数据集的查询工具效率低下•在基于二级结构的大型数据集上搜索的问题–定义了直观的二级结构的查询语言–评估查询的算法–在Periscope、ORDBMS上实现算法•框架:优化查询、评估各种查询估计计划的开销•高效、交互式的二级结构查询(大型蛋白质数据集)1.Introduction•人类基因组工程:–从蛋白质和DNA序列中得出有意义的生物信息、知识(bioinformatics)。–确定基因的位置和功能,观察蛋白质之间的反应,蛋白质保持时蛋白质的功能结构。•提出问题:–与大型生物数据集的分析密切相关–存储和查询大型基因、蛋白质数据库1.1生物背景知识•蛋白质的结构组织:四层–主结构:氨基酸的线性序列,蛋白质识别–二级结构:氨基酸的线性序列折叠成三维结构:-螺旋(helix),-片(sheet),翻转(loop)–三维结构决定蛋白质的功能–模式和排列:变革性的关系•二级结构折叠的类型、长度、开始位置:功能1.2科学动力•发现新的蛋白质、新的功能:确定蛋白质的功能和类型•已有方法–搜索已知的蛋白质数据库,和未知的蛋白质相匹配–分析相似蛋白质的功能和分类,得出共同点–简单基础:定义了蛋白质相似性•蛋白质结构和搜索目标的不同,相似性的定义不同:匹配主结构;匹配二级结构(预测生物分子反应);•同样的级别上也有不同:一部分;整个序列–Flexible;efficient–BLAST•服务器负载重;查询估计算法的效率•交互式的结果:验证、否定一些假设•高效的查询估计技术1.3内容•定义了简单、直观的查询语言:基于分区的二级结构查询•识别不同的算法,有效地估计查询。–由于查询和分区选择,算法选择对查询的执行有突出的影响•查询优化框架:–基于查询和数据特征选择最优查询计划–直方图:精确、空间小•在Periscope、ORDBMS上实现:–现实数据集、检验算法–高效2.蛋白质格式(format)依赖于预测工具–大部分已知蛋白质的二级结构都是预测度量–准确率:60%-70%–Predator:单氨基酸序列的残余氢的识别•65%;本机运行–蛋白质名,氨基酸长度,主结构,预测的二级结构–3.查询语言和例子•3类原子查询–3类二级结构(h、e、l);成组出现;按类型和长度表示二级结构序列–查询:分区谓词序列4.查询估计技术•ComplexScanofProteinTable(CSP)•普通分区技术–SimpleScanofSegmentTable(SSS)•扫描整个分区,利用INLJ得到蛋白质,FSM–IndexScanofSegmentTable(ISS)•扫描索...