《基因组生物学》:北大团队发表单细胞数据整合新方法iMAP

olivia chan

1

单细胞测序技术可以帮助科学家获得特定微环境下的细胞序列差异以方便研究其功能,为研究个体细胞表观遗传、空间研究、蛋白质组与谱系信息提供了一个。来自多个来源的单细胞RNA测序数据集的整合对于破译复杂生物系统中的细胞间异质性和相互作用至关重要。

与单独的单细胞测序实验相比,来自多个来源的数据集的整合可以使研究人员对更可靠的新颖发现有所启发。然而,实验中固有的技术差异可能导致无法逃避的批次的影响。消除不同数据集之间不必要的技术差异,但又不减少这些生物学差异,是批量效应去除方法的一大挑战。

近年来,单细胞测序数据集的无监督批处理效果去除方法持续更新迭代,其中包括一类试图对批处理效果与基因表达谱之间的全局关系进行建模的类。从理论上讲,Combat, LIGER, BBKNN等全局校正方法可能有益于保留特定于数据集的生物学变异,但不能完全保证共享细胞类型的整合。而Harmony.Nat Methods这种局部校正的性能高度取决于MNN或匹配的局部簇的质量。这使得很难在特定于数据集的单元格标识与共享单元格类型的混合之间取得平衡。

为了补全现有方法当中的不足,北京大学生物医学前沿中心(BIOPIC)、生命科学学院、北京未来基因诊断高精尖创新中心(ICG)、生命科学联合中心(CLS)的张泽民实验室联合百奥智汇(Analytical BioSciences)合作,基于深度自动编码器和生成对抗网络(GAN),提出了一种称为iMAP的新型无监督批处理效果删除框架。

iMAP,即通过对抗配对式传输网络整合多个单细胞数据集,是基于深度学习的框架,用于批量清除单细胞测序数据集。

iMAP结合了两种最新的无监督深度网络结构的力量:自动编码器和生成对抗网络。利用GAN从原始表达谱中删除批处理效果。与其他方法相比,iMAP既可以匹配共享单元格类型的分布,又可以在基准数据集上识别特定批次的单元格类型。

此外,iMAP可在大型数据集上进行扩展,尤其是对于单元数超过数千的数据集具有明显的速度优势。

研究团队进一步将iMAP应用于通过Smart-seq2和10x Genomics(10x)测序的肿瘤浸润免疫细胞数据集的整合,并发现了新颖的细胞间相互作用。

与当前方法相比,iMAP在检测特定批次的单细胞以及混合批次的单细胞方面均显示出优越,强大且可靠的可扩展性能,为整合不同批次实验产生的单细胞测序数据提供了一个全新的工具,并为后续的算法开发提供了新的思路。

论文链接:

https://doi.org/10.1186/s13059-021-02280-8

可行性研究报告

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐