乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      scATAC-seq3:常用工具—SnapATAC簡介

       健明 2021-11-05

      引文

      之前的推文中,我們簡單介紹了scATAC-seq的技術原理和發(fā)展歷程。從本期推文開始,我們將分享scATAC-seq的常用工具和基本的分析流程。scATAC-seq分析工具當中,比較為人熟知的是ArchR、SnapATAC以及Signac三個R包,本期我們著重對SnapATAC進行介紹。SnapATAC是由加州大學圣地亞哥分校的任兵教授團隊開發(fā)的工具,這款工具很早就已經推廣使用了,不過直到今年才在NC上發(fā)表見刊。

      任兵教授團隊今年除了這篇SnapATAC的正式發(fā)表,還有另一篇建立在單細胞Hi-C數據基礎上的分析工具SnapHiC在《Nature Methods》上發(fā)表。對于SnapATAC這個名字具有一語雙關的意思,一方面代表Single Nucleus Analysis Pipeline for ATAC-seq,又可以包含Snapshot of single cell chromatin accessibility 這樣的含義。

      scATAC-seq的分析難點

      由于scATAC-seq對于peak的捕獲效率只能達到5%-15%左右,因此對于區(qū)分細胞類型的過程來說,scATAC-seq相比于scRNA-seq的分析困難更大。當前針對于scATAC-seq數據集,主要的無監(jiān)督學習算法有以下幾種類型:

      • 1)根據細胞染色質開放區(qū)的轉錄因子motif的位點分布進行聚類,例如chromVAR;

      • 2)通過自然語言處理工具,例如LSA、LDA等方法,將細胞根據染色質開放性的相似程度進行區(qū)分;

      • 3)根據序列組裝k-mer算法,分析細胞染色質開放性的差異;

      • 4)先基于細胞推測的調控元件計算基因的activity score,再比較細胞之間的差異,例如Cicero。

      但是對于這些算法而言,大多都需要通過SVD進行線性降維處理,如果針對細胞數目較大的數據集,則其運算量會非常大,在現(xiàn)行的計算條件下很難進行實現(xiàn)。

      SnapATAC的優(yōu)勢

      2019年《Genome Biology》曾發(fā)表一篇題為《Assessment of computational methods for the analysis of single-cell ATAC-seq data》的文章,對當時的scATAC-seq的分析工具進行了比較系統(tǒng)的評價。

      通過比較不同工具的聚類可視化結果,可以看到cisTopic、Cusanovich2018、SnapATAC三種工具的聚類效果明顯優(yōu)于其他的工具。除此以外,針對大數據計算存在的問題,SnapATAC則通過Nystr?m這種方法,極大地提高了scATAC-seq分析的運算效率和處理大規(guī)模數據集的能力。

      SnapATAC簡介

      本期推文我們先簡單介紹一下SnapATAC的功能和相較于其他分析工具的特性和差異。

      • 1)SnapATAC的上游分析,作者推薦其團隊開發(fā)的SnapTools進行處理(SnapATAC也能夠處理由Cellranger進行上游處理的結果),而由SnapTools產生的上游處理結果儲存在snap格式的文件當中。
      • 2)SnapATAC區(qū)分細胞類型主要是通過評估細胞之間的染色質開放性的差異,而每個細胞的染色質開放性是通過二進制向量進行表示的。二進制向量的長度n,表示將基因組切割為n個區(qū)間bin。如果對于某區(qū)間bin對應向量中的值為1,則表示該區(qū)間內含有一個或一個以上的reads;而如果該區(qū)間對應向量中的值為0,則表示該區(qū)間不含有reads。這個和0-1規(guī)劃的數學模型非常相似,即1代表開放,0代表不開放。因此bin的大小的選擇對結果的影響至關。我們后面會專門討論這個問題。主要所有細胞之間的染色質開放性差異最終通過Jaccard相似度矩陣的形式進行體現(xiàn)。

      • 3)SnapATAC是通過Nystr?m這種方法對大規(guī)模的數據集進行降維,主要分為兩步:首先對細胞中的一部分進行降維,再基于這部分細胞形成的embedding結果,將其他的細胞進行投影。但主要存在的一個問題在于每次抽樣不同的細胞,會產生不一樣的結果。SnapATAC主要是根據多次結果,進行整合出一個能夠實現(xiàn)高度重現(xiàn)的結果。

      • 4)SnapATAC的細胞類型定義主要支持的途徑有以下三種:通過accessibility score根據marker gene進行定義、通過整合scRNA-seq的數據集進行定義、根據過去已有數據的定義結果進行監(jiān)督學習。

      總結

      本期推文我們主要對SnapATAC這種工具進行了簡單的介紹。其實針對scATAC-seq數據分析的工具,最關鍵的兩個問題是分析準確度和計算效率如何能夠提高。在下一篇推文當中,我們將具體介紹SnapATAC的分析流程和分析中遇到的相關問題。

        轉藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多