引文之前的推文中,我們簡單介紹了scATAC-seq的技術原理和發(fā)展歷程。從本期推文開始,我們將分享scATAC-seq的常用工具和基本的分析流程。scATAC-seq分析工具當中,比較為人熟知的是ArchR、SnapATAC以及Signac三個R包,本期我們著重對SnapATAC進行介紹。SnapATAC是由加州大學圣地亞哥分校的任兵教授團隊開發(fā)的工具,這款工具很早就已經推廣使用了,不過直到今年才在NC上發(fā)表見刊。 任兵教授團隊今年除了這篇SnapATAC的正式發(fā)表,還有另一篇建立在單細胞Hi-C數據基礎上的分析工具SnapHiC在《Nature Methods》上發(fā)表。對于SnapATAC這個名字具有一語雙關的意思,一方面代表Single Nucleus Analysis Pipeline for ATAC-seq,又可以包含Snapshot of single cell chromatin accessibility 這樣的含義。 scATAC-seq的分析難點由于scATAC-seq對于peak的捕獲效率只能達到5%-15%左右,因此對于區(qū)分細胞類型的過程來說,scATAC-seq相比于scRNA-seq的分析困難更大。當前針對于scATAC-seq數據集,主要的無監(jiān)督學習算法有以下幾種類型:
但是對于這些算法而言,大多都需要通過SVD進行線性降維處理,如果針對細胞數目較大的數據集,則其運算量會非常大,在現(xiàn)行的計算條件下很難進行實現(xiàn)。 SnapATAC的優(yōu)勢2019年《Genome Biology》曾發(fā)表一篇題為《Assessment of computational methods for the analysis of single-cell ATAC-seq data》的文章,對當時的scATAC-seq的分析工具進行了比較系統(tǒng)的評價。 通過比較不同工具的聚類可視化結果,可以看到cisTopic、Cusanovich2018、SnapATAC三種工具的聚類效果明顯優(yōu)于其他的工具。除此以外,針對大數據計算存在的問題,SnapATAC則通過Nystr?m這種方法,極大地提高了scATAC-seq分析的運算效率和處理大規(guī)模數據集的能力。 SnapATAC簡介本期推文我們先簡單介紹一下SnapATAC的功能和相較于其他分析工具的特性和差異。
總結本期推文我們主要對SnapATAC這種工具進行了簡單的介紹。其實針對scATAC-seq數據分析的工具,最關鍵的兩個問題是分析準確度和計算效率如何能夠提高。在下一篇推文當中,我們將具體介紹SnapATAC的分析流程和分析中遇到的相關問題。 |
|