2023年1月Jan2023DigitalTechnology&Application第41卷第1期Vol.41No.1数字技术与应用6中图分类号:Q523文献标识码:A文章编号:1007-9416(2023)01-0006-04DOI:10.19695/j.cnki.cn12-1369.2023.01.02基于位置信息的DNA序列特征提取*深圳大学陈煜元周小安DNA序列的分类是生物信息学的主要研究任务之一,如何提取DNA序列中的特征是影响分类精度的重要因素。为了更好地保留序列中碱基的信息,本文提出了一种基于碱基距离和相关性的特征提取方法。以H1N1、H5N1、COVID-19等6种病毒作为研究对象,将DNA序列转化为特征向量,并用KNN算法对冠状和非冠状病毒进行分类。实验结果表明该方法能提高分类的准确率。据估计地球上约有1000万~1亿种生物,如此庞大的数据使得生物分类面临着巨大挑战[1],因此DNA序列的分类成为了人们的研究热点,也是当前生物信息学的主要研究任务之一。特征提取是DNA序列分类研究中至关重要的一环,旨在最大限度保留原序列数据的基础上将序列转化为数值特征,以挖掘其中所存在的生物规律。随着计算机技术的发展和测序技术的不断进步,碱基的组成和分布信息在DNA序列特征提取中备受关注[2]。最基本的特征提取方法为K-mers[3],该方法随着k的增大特征维数呈现指数级的增长,而在训练样本不足的情况下高维数据的研究会带来“过拟合”“维数灾难”等问题[4],故k的取值不能太大,而特征维数不足可能会丢失序列中的重要信息。此外,K-mers方法忽略了碱基的距离和排列情况[5]。因此,本文拟提取出基于相同碱基间距离和不同碱基间相关性的特征用于病毒序列分类。该特征提取方法以DNA序列中碱基的位置为基础,分别记录各碱基出现的位置,再通过合适的数学方法计算出平均距离和相关系数。实验结果表明,新的特征提取方法在KNN分类器上能取得较好的分类效果。1KNN算法1.1KNN简介K近邻(K-NearestNeighbor)算法简称KNN,是Cover和Hart在1968年时首先提出的。它是一个在理论上较为成熟的算法,也是最常用、最简单的机器学习算法之一。由于和其他分类算法相比没有显示的学习过程,所依据的“多数决定”的思想很容易理解,在多分类问题上表现的比其他分类算法要好,而且计算过程经过优化后能够大幅降低计算次数,因此在分类领域有着广泛的应用[6]。算法的原理是将待分类的样本与训练集的样本逐一计算出距离,按距离从小到大进行排序,然后取出最近的K个训练样本,这K个样本中数量较多那一类即为测试样本的类别。1.2距离的计算KNN计算序列样本之间距...