第39卷第2期福建师范大学学报(自然科学版)Vol.39,No.2(2023年3月)JournalofFujianNormalUniversity(NaturalScienceEdition)Mar.2023DOI:10.12046/j.issn.1000-5277.2023.02.003文章编号:1000-5277(2023)02-0026-09基于对比学习的单细胞转录组测序数据聚类模型张珊珊,林劼(福建师范大学数学与统计学院,福建福州350117)摘要:单细胞转录组测序技术(single-cellRNAsequencing,scRNA-seq)的快速发展为分析生物数据提供了有力支持.对scRNA-seq数据进行聚类分析,能够发现潜在的细胞亚型并研究细胞的异质性.但由于scRNA-seq数据存在高维性、高稀疏性以及dropout事件等问题,为聚类分析带来了挑战.提出一种基于对比学习的聚类方法,假设数据服从零膨胀负二项分布,应用自编码器框架学习细胞的表示.实验结果表明提出的方法在真实数据集上有优越的性能,在不同规模的数据集上具有良好的可扩展性.关键词:单细胞转录组测序数据;对比学习;零膨胀负二项分布模型;自编码器中图分类号:Q811.4文献标志码:A收稿日期:2022-06-21基金项目:国家自然科学基金资助项目(61472082)通信作者:林劼(1972—),男,教授,博士,研究方向为生物信息学.linjie891@163.comAClusteringModelForScRNA-seqDataBasedonContrastiveLearningZHANGShanshan,LINJie(SchoolofMathematicsandStatistics,FujianNormalUniversity,Fuzhou350117,China)Abstract:Therapiddevelopmentofsingle-cellRNAsequencing(scRNA-seq)technologyprovidesstrongsupportfortheanalysisofbiologicaldata.CellclusteringinscRNA-seqanalysiscanidentifypotentialcellsubtypesandstudycellheterogeneity.However,highdimensionality,highsparsityanddropouteventsofscRNA-seqdataproduceschallengesinclusteringanalysis.Thispa-perproposesaclusteringmethodbasedoncontrastivelearning,whichassumesthatthedatafollowsazeroinflatednegativebinomialdistributionandusesanautoencoderframeworktolearntherepre-sentationofcells.Experimentalresultsshowthatthemethodhasexcellentperformanceonrealdata-setsandgoodscalabilityondifferentscaledatasets.Keywords:scRNA-seq;contrastivelearning;zeroinflatednegativebinomialdistributionmodel;autoencoder细胞是生物体结构和功能的基本单位,每个细胞都有其特有的生物学功能,细胞的转录组分析通过基因转录组活动来揭示细胞的...