服务热线02152235399
当前位置:首页 > 科学研究 > 科研文献
烈冰生信云平台助力单细胞测序半监督深度学习算法DISC——推测dropouts基因结构和表达 时间:2020-08-24

单细胞转录组测序在单细胞层面对转录组进行测序与分析,现正被广泛应用于分析细胞的异质性与多样性。但是,过多的假零表达一直是困扰单细胞转录组数据分析的问题之一,该问题被称为dropouts,它会扭曲基因的表达分布,并造成细胞类型分类的错误。而且,由于近年来单细胞测序技术与产业迅速发展,单次单细胞测序实验的通量已从数千个细胞大幅提升到百万级的细胞数量,而对于单个细胞的测序深度则较浅,这使得dropouts问题更为严重。

2020710日,中山大学中山眼科中心谢志课题组开发了一个名为DISC的,基于半监督学习方式的深度学习网络,用于解决dropouts问题。通过DISC可以推断出被扭曲了表达与结构基因的真实情况。基于10个真实的单细胞转录组测序数据集,将DISC与其他7种高水准推断方法进行比较,DISC始终优于其他方法。谢志教授是烈冰科技生信云平台的重要合作伙伴,双方建立了深入的合作学习关系。该研究以“DISC: a highly scalable and accurate inference of gene expression and structure for single-cell transcriptomes using semi-supervised deep learning”为题,发表在国际知名期刊Genome Biology上。




研究思路


研究结果展示


1.DISC简介

DISC是基于半监督学习方式的深度学习算法,用于解决单细胞测序数据中的假零表达的dropouts问题。DISC包含一个自动编码器、一个递归预测器、一个计算推算表达式特征的推算器和一个计算重构表达式特征的重构器,推算器用于学习正常基因的表达,重构器同时学习正常基因的表达和推算器分配的零表达基因的伪表达,预测器同时学习正常基因的表达和同一步骤的解码器分配的零表达基因的伪表达,最后推断出假零基因的真实表达。DISC还能通过自动编码器将原始数据在保留原始特征的同时进行降维,使其可以把大型数据集压缩到一个较低的维度,使得其在处理时依旧能保持较高的性能。


2.DISC对超大型数据集有较好的扩展性

作者将DISC与其他7个已有的高水准推断真实表达算法进行比较运行时间与内存占用进行了比较,发现DISC在处理大型及超大型数据集,相对于其他算法,运行时间更短,内存占用更少。


3.DISC改善了基因表达结构

接下来为了系统评估DISC恢复丢失的基因表达结构的性能,作者使用了三种检验方法进行评估,并与FISH的结果进行比较。基因表达分布使用Gini系数的RMSE进行评估,基因之间的分布相关性用FF score评估,基因共表达的相关性用CMD评估。结果显示,在MELANOMASSCORTEX两个独立数据集的验证中,相比于其他算法,DISC都有很好的恢复丢失基因表达结构的性能。


4.DISC精确修复dropout问题

下一步是验证DISC恢复基因真实表达性能,但由于单细胞测序数据无法提供dropouts的真实数据,所以使用了来自三个不同单细胞测序平台生成的数据合并后的数据作为参考。作者使用MAE评估恢复基因真实表达的准确性,DISC在所有的数据集中都有极好的表现,显著地恢复了基因表达。对于基因相关性和细胞相关性,DISC与其他七种方法相比,在所有数据集上的其相关系数都是最高的。而在使用CMD评估基因共表达时,DISCscImputeVIPER与参考最为匹配,而其他方法都产生了大量的假共表达关系。这些数据表明DISC准确恢复了dropout产生的基因表达丢失,改善了被扭曲的基因结构。


5.DISC改善了细胞类型识别

在修复dropout问题的基础上,DISC能否提高细胞类型识别的准确度你?作者使用了10X GenomicsDrop-seqSPLiT-seq三个不同单细胞测序平台产生的数据集,以正确分配的细胞百分比(△ACC)来反映细胞类型分类的准确性。在三个不同的数据集中,DISC的性能都是最好的,且许多罕见细胞类型也能很好的恢复。表明DISC能有效提高细胞类型识别的准确性,而且在不同平台不同的数据集中都有稳定的表现。


6.DISC改善了下游分析结果

获得了更好的基因结构是应该能转化为更好的下游分析结果。为了验证下游分析结果的提升,作者使用了三个指标进行评估。一是使用推算的scRNA-SeqBulk RNA-Seq数据之间的Spearman相关性评估两组数据的相关性,二是scRNA-seq数据和Bulk RNA-seq数据识别的差异基因之间的相似性,三是推断的拟时序结果与已知细胞分化顺序之间的相似性。在三个指标评估中,DISC都有较好的表现,表明DISC能够改善下游分析结果,提供更多的生物学意义信息。


7.DISC能可靠地识别小鼠大脑130万细胞数据集中的细胞群

最后,作者使用了真实的小鼠大脑超大型数据集BRAIN_1.3M来验证DISC的性能,该数据集由多个大脑区域的细胞数据生成,数据量大且复杂。分析得到的结果与Allen脑图谱中的已知Marker基因进行比较,发现DISC的结果在所有算法中更接近图谱的细胞比例,且能更好的识别细分的细胞类型,与常用细胞类型识别工具Seurat的结果也更为一致。结果说明DISC能够高效准确地处理超大型复杂单细胞数据集,并能精确分析出主要和稀有细胞群。


综上所述,DISC提供了一个单细胞数据的通用解决方案,对于具有稀有表达的基因,以及超大型数据集都有很好的处理性能,最大限度地减少了信息丢失。DISC将成为快速发展的单细胞测序技术极大的助力。




原文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02083-3


上海烈冰生物成立十年始终秉乘“创新、求实、前沿”的企业理念和“以客户为根本”的服务宗旨,凭借高通量测序平台及NovelBrain®云平台生信分析的双重优势,致力于提供高品质、高效率的技术服务。截止目前,烈冰已和1000+家顶尖科研机构、医院和医药企业合作了5000+项重要项目。

详情咨询当地销售或者电话021-51827998



烈冰NovelBrain®单细胞云平台

不仅助力算法开发,还可以自己轻松做数据分析~

  • 国内最大的生物云平台供应商,顶尖的云计算架构团队,两年精心研发,历经数千项目检验。

  • 0代码分析过程、一键式结果报告、三维可视化的单细胞浏览器,助力每一位科研工作者摆脱生信代码的烦恼,只需上传数据,即可轻松分析数据,深入挖掘生物学意义。

  • 60+项前沿单细胞分析工具,简单便捷化拖拽操作、高度定制化分析流程,大幅度提升单细胞数据分析效率。

快来注册-登录,体验一下吧!

网址:singlecell.novelbrain.com

烈冰单细胞浏览器教你完美解读scRNA-Seq数据分析结果

利用NovelBrain单细胞云探寻新冠病毒受体ACE2在人体器官中的分布


单细胞云平台数据分析教程:



热点回顾:

  1. 烈冰助力||可变剪接+全转录组测序助力客户文章三连发

  2. 烈冰助力||单细胞RNA测序鉴定半月板祖细胞并揭示半月板退变机制

  3. 利用NovelBrain单细胞云探寻新冠病毒受体ACE2在人体器官中的分布

  4. 单细胞测序知多少——single cell分选平台(10X Genomics,BD Rhapsody)

  5. @烈冰生物,请给我一份单细胞转录组测序数据分析攻略

  6. 了解植物单细胞,从了解拟南芥的根开始

  7. 【空间转录组】第一弹之原理与样本制备,你都了解了吗?

  8. 空间转录组样本不合格?细节决定成败,烈冰送您最详细的空转样本准备指南

  9. ScATAC-seq——原理及实验流程大起底

  10. 单细胞核转录组测序(snRNA-Seq)揭示人与小鼠在阿尔兹海默氏疾病中的差异