乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      小澤看文獻(xiàn) | 誠(chéng)意滿滿的綜述之單細(xì)胞轉(zhuǎn)錄組分析最佳思路

       漠藩 2020-08-06

      劉小澤寫(xiě)于2020.5.6-5.8

      歷時(shí)三天,終于理解完!不僅僅是綜述,更不是純翻譯文,而是將其中重要的知識(shí)點(diǎn)和之前個(gè)人所學(xué)結(jié)合起來(lái)
      ”一陽(yáng)指和獅吼功合并為一整招“

      1 文章信息

      題目:Current best practices in single-cell RNA-seq analysis: a tutorial

      發(fā)表日期:2019年6月19日

      雜志:Mol Syst Biol

      文章在:https://www./doi/10.15252/msb.20188746

      DOI:https:///10.15252/msb.20188746

      圖1

      2 摘要

      單細(xì)胞領(lǐng)域日新月異,大量的工具被開(kāi)發(fā)出來(lái),但很難去判斷是否好用,而且如何組建一個(gè)分析流程是一個(gè)難點(diǎn)。本文將詳細(xì)介紹單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析的步驟,包括預(yù)處理(質(zhì)控、歸一化標(biāo)準(zhǔn)化、數(shù)據(jù)矯正、挑選基因、降維)以及細(xì)胞和基因?qū)用娴南掠畏治觥2⑶易髡邔⒄麄€(gè)流程應(yīng)用在了一個(gè)公共數(shù)據(jù)集作為展示(詳細(xì)說(shuō)明在:https://www.github.com/theislab/single-cell-tutorial),目的是幫助新入坑用戶建立一個(gè)知識(shí)體系,已入坑用戶更新知識(shí)體系。

      3 前言

      需要注意,雖然在原文鏈接中這些文獻(xiàn)鏈接可以打開(kāi),但會(huì)鏈接到原文的該文獻(xiàn)位置,而不是直接打開(kāi)該文獻(xiàn)

      現(xiàn)在已經(jīng)可以利用scRNA研究斑馬魚(yú)、青蛙、渦蟲(chóng)的細(xì)胞異質(zhì)性(Briggs et al, 2018; Plass et al, 2018; Wagner et al, 2018) ,重新理解以前的細(xì)胞群體,但這個(gè)領(lǐng)域面臨的一個(gè)問(wèn)題就是沒(méi)有成熟的標(biāo)準(zhǔn)化流程。標(biāo)準(zhǔn)化之路的困難有:大量分析方法和工具的誕生(截止2019.3.7 已經(jīng)有385種工具)、爆炸式增長(zhǎng)的數(shù)據(jù)量(Angerer et al, 2017; Zappia et al, 2018)。另外根據(jù)不同研究目的,各種分支也突顯,例如在細(xì)胞分化過(guò)程中預(yù)測(cè)細(xì)胞命運(yùn)(La Manno et al, 2018)。在我們眼界大開(kāi)的同時(shí),分析流程標(biāo)準(zhǔn)化就變得更加困難。

      在未來(lái)分析流程標(biāo)準(zhǔn)化之路上,困難還會(huì)存在于技術(shù)整合層面。比如現(xiàn)在大量的scRNA工具都是用R和Python寫(xiě)的,跨平臺(tái)分析需求在增長(zhǎng),而對(duì)編程語(yǔ)言的喜好也決定了工具的選擇。很多好用的分析工具將自己限制在用各自的編程語(yǔ)言開(kāi)發(fā)的環(huán)境中,例如Seurat、Scater、Scanpy。

      接下來(lái),就一起看看作者列出了哪些他認(rèn)為比較好的軟件和流程吧

      先上一個(gè)scRNA分析總體流程圖:

      圖2

      4 預(yù)處理和可視化

      4.1 首先看一下實(shí)驗(yàn)過(guò)程

      比較詳細(xì)的介紹可以看:Ziegenhain et al (2017); Macosko et al (2015); Svensson et al (2017).

      原文描述的關(guān)鍵點(diǎn)是:

      • 4步走:Typical workflows incorporate single‐cell dissociation, single‐cell isolation, library construction, and sequencing.
        組織裂解=》細(xì)胞分離=》文庫(kù)構(gòu)建=》測(cè)序

      • 第一步:As a first step, a single‐cell suspension is generated in a process called single‐cell dissociation in which the tissue is digested.

      • 第二步:To profile the mRNA in each cell separately, cells must be isolated. 寫(xiě)了主要的2種方法:plate‐based、droplet‐based,當(dāng)然也都存在一些問(wèn)題: In both cases, errors can occur that lead to multiple cells being captured together (doublets or multiplets), non‐viable cells being captured, or no cell being captured at all (empty droplets/wells)

      • 第三步:Each well or droplet contains the necessary chemicals to break down the cell membranes and perform library construction. Furthermore, many experimental protocols also label captured molecules with a unique molecular identifier (UMI).

        UMI的作用主要是區(qū)分:UMIs allow us to distinguish between amplified copies of the same mRNA molecule and reads from separate mRNA molecules transcribed from the same gene.

      • 第四步:Libraries are labelled with cellular barcodes and pooled together (multiplexed) for sequencing.

      感覺(jué)原文描述的還沒(méi)有illumina給出的詳細(xì),那么就看看illumina的圖文并茂版:

      illumina單細(xì)胞測(cè)序工作流程:關(guān)鍵步驟和注意事項(xiàng):http://web./landing/products_view.asp?newsid=324

      圖3
      圖4

      原始測(cè)序數(shù)據(jù)要經(jīng)過(guò)處理得到表達(dá)矩陣,注意這里有兩種表述方式:molecular counts (count matrices) 【也即是使用UMI的】和 read counts (read matrices),取決于是否使用UMI。而作者介紹的流程中,默認(rèn)使用 count matrices,除非readmatrices和 count matrices得到的結(jié)果存在差異,才會(huì)特別介紹read matrices

      關(guān)于比較read and molecule counts,有人寫(xiě)了一個(gè)R流程:https://jdblischak./singleCellSeq/analysis/compare-reads-v-molecules.html

      原始數(shù)據(jù)處理工具主要有:CellRanger、indrops、SEQC、zUMIs

      它們主要做了這么幾件事:

      • read quality control (QC)
      • assigning reads to their cellular barcodes and mRNA molecules of origin (also called “demultiplexing”)
      • genome alignment
      • quantification

      得到的矩陣行是轉(zhuǎn)錄本,列是barcodes【這里用barcodes而不是直接叫細(xì)胞,是因?yàn)椴煌?xì)胞的reads也可能屬于同一個(gè)barcode =》如果出現(xiàn)一孔/液滴多細(xì)胞(doublet情況),那么barcode在多個(gè)細(xì)胞都是一樣的】當(dāng)然也會(huì)出現(xiàn)有barcode但實(shí)際沒(méi)有細(xì)胞的情況(一個(gè)孔/液滴沒(méi)有細(xì)胞即droplet,但這個(gè)孔/液滴也會(huì)賦予barcode)

      反正記?。篵arcode和孔/液滴是對(duì)應(yīng)的,但一個(gè)孔/液滴中有一個(gè)細(xì)胞還是多個(gè)細(xì)胞或者沒(méi)有細(xì)胞,都會(huì)存在barcode。只不過(guò)最后可能會(huì)看到:多個(gè)細(xì)胞對(duì)應(yīng)一個(gè)barcode、即使沒(méi)有細(xì)胞也會(huì)有barcode這樣的情況

      關(guān)于10X實(shí)驗(yàn)環(huán)節(jié),可以看我之前寫(xiě)的:https://mp.weixin.qq.com/s/0DEybX7GnuDFhfY1uj9t9A

      圖5

      4.2 質(zhì)控

      在正式分析之前,先要確定barcode是不是對(duì)應(yīng)真正的細(xì)胞(上面已經(jīng)了解了barcode和細(xì)胞的關(guān)系),也就是進(jìn)行Cell QC,主要考慮三個(gè)因素(這幾個(gè)因素也就是現(xiàn)在流程中常用的過(guò)濾指標(biāo)):

      • the number of counts per barcode (count depth)
      • the number of genes per barcode
      • the fraction of counts from mitochondrial genes per barcode

      從下面??圖中,感覺(jué)過(guò)濾的一個(gè)方向就是:保留大山頭,去掉小山頭(把略有增長(zhǎng)但不礙大局的小山頭炸掉)

      先看圖A:其中這個(gè)小的直方圖就是把count depth小于4000的放大,這里設(shè)定了一個(gè)閾值1500,也就是一個(gè)barcode中至少有1500的表達(dá)量

      圖B:每個(gè)細(xì)胞中包含的基因數(shù)直方圖??梢钥吹綑M坐標(biāo)有一個(gè)小的峰在400附近,這里設(shè)定的閾值是700

      圖C:依舊是看count depth。從高到低排列count depth值,可以過(guò)濾一些空的液滴(empty droplets),看到從”肘部“也就是縱坐標(biāo)1500左右開(kāi)始迅速下降

      圖D:看線粒體比例。如果占比很高并且細(xì)胞類(lèi)型不是線粒體特別豐富的那種(如心肌細(xì)胞),可能說(shuō)明這個(gè)細(xì)胞本身的基因數(shù)不多并且總體表達(dá)量也不高

      圖6

      以上三個(gè)指標(biāo)固然重要,但如果只關(guān)注其中某一個(gè),也會(huì)產(chǎn)生誤導(dǎo)作用,所以作者建議看問(wèn)題一定要全面,并且要把數(shù)據(jù)和生物學(xué)知識(shí)結(jié)合起來(lái)。作者舉了個(gè)例子:比如線粒體表達(dá)量相對(duì)較高的細(xì)胞也可能參與了呼吸過(guò)程。細(xì)胞總體表達(dá)量低或者基因數(shù)量少,也可能是因?yàn)楫?dāng)時(shí)取的細(xì)胞處于靜止;細(xì)胞表達(dá)量很高,也可能因?yàn)楸旧砑?xì)胞體積就比較大。的確,細(xì)胞與細(xì)胞之間的總表達(dá)量還是存在較大差異的。未來(lái)也許QC會(huì)提供更多的選擇。

      除了檢查細(xì)胞完整度,QC還要進(jìn)行轉(zhuǎn)錄本層面上的檢查。原始的count矩陣一般包含超過(guò)20000個(gè)基因。這里一般要根據(jù)在細(xì)胞中有表達(dá)的數(shù)量進(jìn)行過(guò)濾,但這個(gè)閾值要根據(jù)總體細(xì)胞數(shù)和預(yù)計(jì)的分群情況來(lái)靈活調(diào)整。比如有的細(xì)胞類(lèi)型本身就數(shù)量比較少(也許就50個(gè)),那么如果我們要設(shè)定”在少于50個(gè)細(xì)胞中有表達(dá)的基因“這種條件,那么可能會(huì)丟失那些總共就50個(gè)細(xì)胞中的marker基因,最終導(dǎo)致鑒定的細(xì)胞亞群會(huì)缺失。

      質(zhì)控的目的就是給下游提供更高質(zhì)量的數(shù)據(jù),但一開(kāi)始誰(shuí)也不知道這個(gè)質(zhì)量高不高,只能先進(jìn)行下游分析,看看結(jié)果(比如細(xì)胞分群結(jié)果)再判斷。尤其是針對(duì)異質(zhì)性高的細(xì)胞群體

      文章又額外介紹了一些QC指標(biāo):
      https://www./action/downloadSupplement?doi=10.15252%2Fmsb.20188746&file=msb188746-sup-0001-Appendix.pdf
      比如在CellRanger的結(jié)果報(bào)告中就會(huì)有:Q30指標(biāo)(一般要高于60-70%)、比對(duì)到外顯子的比例(一般認(rèn)為比對(duì)到非外顯子區(qū)域超過(guò)40%就造成了測(cè)序的浪費(fèi))、看看實(shí)驗(yàn)中用了多少個(gè)細(xì)胞,以及結(jié)果表達(dá)矩陣得到多個(gè)barcode

      小結(jié)
      • 三種QC指標(biāo)(the number of genes、the count depth 、the fraction of mitochondrial reads)要放在一起思考,而不是單獨(dú)看某一個(gè)
      • 先盡可能地設(shè)定寬泛的QC閾值,如果下游聚類(lèi)無(wú)法解釋再回過(guò)頭來(lái)反思QC
      • 如果看到每個(gè)樣本的QC指標(biāo)分布不同,那么就要對(duì)每個(gè)樣本分別設(shè)定閾值,而不是一刀切

      4.3 歸一化/標(biāo)準(zhǔn)化

      作為背景知識(shí),首先來(lái)看:歸一化和標(biāo)準(zhǔn)化的區(qū)別(https://cloud.tencent.com/developer/article/1486102)但二者的界限也沒(méi)有特別明顯,也沒(méi)有必要把這兩個(gè)概念分的特別清楚。只要清楚它們大概的使用范圍就可以了:

      • 常用的歸一化是log處理,之前離散程度很大的數(shù)據(jù)就被集中了;
      • 常用的標(biāo)準(zhǔn)化是z-score:考慮到了不同樣本對(duì)表達(dá)量的影響,消除到了表達(dá)的平均水平和偏離度的影響

      它們的使用范圍:

      • 如果對(duì)表達(dá)量的范圍有要求,用log歸一化
      • 如果表達(dá)量較為穩(wěn)定,不存在極端最大最小值,使用歸一化
      • 如果表達(dá)量離散程度很大,存在異常值和較多噪音,用標(biāo)準(zhǔn)化可以避免異常值和極端值的影響
      • 在分類(lèi)、聚類(lèi)、PCA算法中,使用z-score值的結(jié)果更好
      • 數(shù)據(jù)不太符合正態(tài)分布時(shí),可以使用歸一化
      • 機(jī)器學(xué)習(xí)的算法(SVM、KNN、神經(jīng)網(wǎng)絡(luò)等)要求歸一化/標(biāo)準(zhǔn)化

      繪制熱圖會(huì)經(jīng)常用到z-score去除極端值

      pheatmap(dat) # scale之前n=t(scale(t(dat)))n[n>2]=2 # 限定上限n[n< -2]= -2 # 限定下限pheatmap(n,show_colnames =F,show_rownames = F) # scale之后

      接著:在單細(xì)胞分析中,也會(huì)同時(shí)用到Normalize和Scale(可以看:單細(xì)胞Seurat包升級(jí)之2,700 PBMCs分析

      • 歸一化 Normalize做的就是將數(shù)據(jù)進(jìn)行一個(gè)轉(zhuǎn)換,可以讓同一基因在不同樣本中具有可比性(例如RPKM、TPM等);另外降低離散程度。看使用的函數(shù)LogNormalize背后的計(jì)算方法就是:log1p(value/colSums[cell-idx] *scale_factor) ,它同時(shí)考慮到了這兩點(diǎn)
      • 標(biāo)準(zhǔn)化Scale就是基于之前歸一化的結(jié)果(也就是log后的結(jié)果),再添z-score計(jì)算

      最后,在對(duì)細(xì)胞文庫(kù)差異進(jìn)行normalization 這一篇中也提到了:

      • Normalization 'normalizes' within the cell for the difference in sequenicng depth / mRNA thruput
      • Scaling 'normalizes' across the sample for differences in range of variation of expression of genes
      • normalization一般是對(duì)文庫(kù)處理,目的消除一些技術(shù)差異;scale一般對(duì)基因表達(dá)量處理(典型的z-score:表達(dá)量減均值再除以標(biāo)準(zhǔn)差),目的是后續(xù)分析不受極值影響

      表達(dá)矩陣中的每個(gè)count值都表示成功的細(xì)胞捕獲、成功的反轉(zhuǎn)錄、成功的測(cè)序。但即使是相同類(lèi)型的細(xì)胞,它們的count depth(也就是每個(gè)細(xì)胞的全部表達(dá)量)也會(huì)有變化,變化的來(lái)源就在于上面說(shuō)的那三步。因此在比較兩個(gè)細(xì)胞時(shí),任何差異都可能由于實(shí)驗(yàn)測(cè)序誤差產(chǎn)生,而不是真的生物學(xué)差異。歸一化就是解決這個(gè)問(wèn)題,它把要比較的兩個(gè)count值根據(jù)各自身處的環(huán)境求出一個(gè)相對(duì)豐度,也就是放在了一個(gè)水平上考慮,減少實(shí)驗(yàn)測(cè)序誤差,突出更多的生物學(xué)差異。

      最常用的歸一化方法就是:count depth scaling,也稱(chēng)為counts per million(CPM),這個(gè)方法常用于bulk轉(zhuǎn)錄組,它會(huì)根據(jù)每個(gè)細(xì)胞的總表達(dá)量計(jì)算一個(gè) size factor ,然后對(duì)其中各個(gè)基因表達(dá)量進(jìn)行normalize。

      這里再回顧下其他一些方法:跟著豆豆一起回顧標(biāo)準(zhǔn)化方法
      另外來(lái)自:https://cloud.tencent.com/developer/article/1484078

      • RPM沒(méi)有考慮轉(zhuǎn)錄本的長(zhǎng)度的影響。適合于產(chǎn)生的read讀數(shù)不受基因長(zhǎng)度影響的測(cè)序方法,比如miRNA-seq測(cè)序,miRNA的長(zhǎng)度一般在20-24個(gè)堿基之間
      • RPKM/FPKM考慮了轉(zhuǎn)錄本的長(zhǎng)度的影響。適用于基因長(zhǎng)度波動(dòng)較大的測(cè)序方法,如lncRNA-seq測(cè)序,lncRNA的長(zhǎng)度在200-100000堿基不等
      • TPM是先去除了基因長(zhǎng)度的影響,而RPKM/FPKM是先去除測(cè)序深度的影響。TPM實(shí)際上改進(jìn)了RPKM/FPKM方法在跨樣品間定量的不準(zhǔn)確性。

      單細(xì)胞測(cè)序中使用的歸一化方法由于細(xì)胞種類(lèi)和基因錯(cuò)綜復(fù)雜,有人就在bulk的基礎(chǔ)上進(jìn)行了改動(dòng)。例如:Weinreb et al (2018) 先排除了表達(dá)量超過(guò)總體5%的基因,然后再計(jì)算size factor,主要是預(yù)防少量極高表達(dá)量基因的存在;Scran包有個(gè)pooling‐based size factor estimation方法,允許更高的細(xì)胞異質(zhì)性存在;另外Scran包在批次矯正和差異分析環(huán)節(jié)也比其他歸一化方法表現(xiàn)更好(Buttner et al, 2019)。

      在單細(xì)胞RNA測(cè)序領(lǐng)域,目前有三種常用方法:其一是以10x Genomics為代表的微滴(droplet-based)測(cè)序;其二是以Namocell為代表的PCR板(plate-based)測(cè)序;其三是以BD Rhapsody為代表的微孔(micro-well-based)測(cè)序。就測(cè)序長(zhǎng)度來(lái)說(shuō),Smart-seq/C1和Smart-seq2基于full length的測(cè)序方案,CEL-seq2, Drop-seq, MARS-seq, SCRBseq是基于UMI的測(cè)序方案。

      不能指望某一種方法適用于所有類(lèi)型的scRNA數(shù)據(jù),(Cole et al, 2019)就發(fā)現(xiàn)不同的歸一化方法對(duì)于不同類(lèi)型數(shù)據(jù)集表現(xiàn)不同,使用scone工具可以幫助選擇合適的方法。

      一般在歸一化后,數(shù)據(jù)都會(huì)變成log(x+1)的樣子,但之后是否對(duì)基因進(jìn)行z-score的標(biāo)準(zhǔn)化上,沒(méi)有一個(gè)共識(shí)。Seurat的教程基本都使用了scale這一步,但Slingshot的作者就反對(duì)對(duì)基因進(jìn)行scale (Street et al, 2018)。在本文中,作者傾向于避免對(duì)基因進(jìn)行scale。

      使用log轉(zhuǎn)換的一個(gè)好處就是:讓數(shù)據(jù)更加集中,減少數(shù)據(jù)的偏斜度,從而近似于許多下游分析工具對(duì)數(shù)據(jù)為正態(tài)分布的假設(shè)(盡管scRNA數(shù)據(jù)并不是真正的符合正態(tài)分布),比如在差異表達(dá)分析和批次矯正環(huán)節(jié)

      小結(jié)
      • 對(duì)于非全長(zhǎng)scRNA數(shù)據(jù)(如10X),推薦使用scran的歸一化方法;
      • 對(duì)于plate‐based 的數(shù)據(jù),可以用scone工具來(lái)進(jìn)行評(píng)價(jià),進(jìn)而可以更好地處理plate之間的批次效應(yīng)(Cole et al, 2019);
      • 對(duì)于全長(zhǎng)scRNA數(shù)據(jù)(如smart-seq)可以借用bulk的方法(如TPM),來(lái)矯正基因長(zhǎng)度【這個(gè)問(wèn)題在10X中不存在:in 10x single cell 3' or 5' gene expression assay, this gene-length bias does not exist. https://kb./hc/en-us/articles/115003684783-How-to-calculate-TPM-RPKM-or-FPKM-instead-of-counts-
      • 歸一化的數(shù)據(jù)應(yīng)該是log(x+1)這種形式的
      • 是否進(jìn)行scale沒(méi)有共識(shí),這里作者不推薦scale

      4.4 數(shù)據(jù)矯正與整合

      數(shù)據(jù)矯正的對(duì)象種技術(shù)和生物因素都有,例如:不同批次、捕獲失?。╠ropout)、不同細(xì)胞周期。這些在之前的歸一化中沒(méi)有被矯正,但這些差異因素都可能會(huì)后面的分析產(chǎn)生影響,它們現(xiàn)在都是導(dǎo)致差異的”嫌疑人“之一。這里要做的就是把這些差異來(lái)源去掉(Regressing out 《=》【專(zhuān)門(mén)查的詞典】 同義詞partialling out :剔除)

      4.4.1 首先是生物因素

      最常見(jiàn)的生物矯正因素就是:轉(zhuǎn)錄組中的細(xì)胞周期信息。簡(jiǎn)單一點(diǎn)的方式就像Scanpy和Seurat對(duì)細(xì)胞周期評(píng)分進(jìn)行簡(jiǎn)單線性回歸;復(fù)雜點(diǎn)的方式就像scLVM和f‐scLVM。用來(lái)計(jì)算細(xì)胞周期分?jǐn)?shù)的marker基因可以從文獻(xiàn)中獲得 (Macosko et al, 2015)。另外,這些方法還能用來(lái)去除其他已知的生物因素,例如線粒體基因表達(dá)量(可以作為細(xì)胞應(yīng)激的標(biāo)記)。

      需要注意的是:

      • 細(xì)胞周期因素并非一無(wú)是處,例如在一個(gè)增殖的細(xì)胞群中,所有細(xì)胞不是同步增殖的,那么就可以根據(jù)細(xì)胞周期評(píng)分來(lái)識(shí)別。所以需不需矯正還要根據(jù)研究目的判斷
      • 需要結(jié)合具體分析的生物問(wèn)題來(lái)判斷是否去除。生物體的多個(gè)生物過(guò)程往往存在依賴性,因此矯正其中一個(gè)過(guò)程,可能無(wú)意間掩蓋了另一個(gè)過(guò)程
      • 有人認(rèn)為細(xì)胞大小的變化和細(xì)胞周期有關(guān) (McDavid et al, 2016),因此在歸一化過(guò)程中對(duì)細(xì)胞大小進(jìn)行矯正,或者使用專(zhuān)用的工具如cgCorrect,也可以部分修正細(xì)胞周期的影響
      4.4.2 然后是技術(shù)因素

      最常見(jiàn)的技術(shù)矯正因素就是:樣本測(cè)序深度、批次、噪音。

      去除測(cè)序深度的影響,可以促進(jìn)軌跡推斷算法的表現(xiàn),因?yàn)樗枰诩?xì)胞之間找變化的路徑,只要放在同一水平才能看到更準(zhǔn)確的總體表達(dá)高低。

      批次的來(lái)源可能是:細(xì)胞捕獲的時(shí)期不同、文庫(kù)制備使用的芯片不同、測(cè)序使用的lane不同。由此產(chǎn)生的效應(yīng)存在于多個(gè)層面:一次實(shí)驗(yàn)中各個(gè)細(xì)胞群之間、同一實(shí)驗(yàn)室中進(jìn)行的不同實(shí)驗(yàn)之間、或來(lái)自不同實(shí)驗(yàn)室的數(shù)據(jù)集之間。這里主要介紹第一種和最后一種情況:

      • 第一種:一次實(shí)驗(yàn)中各個(gè)細(xì)胞群之間是最經(jīng)典的情形,在bulk轉(zhuǎn)錄組也是常見(jiàn)的。使用線性方法進(jìn)行矯正。例如ComBat工具就是利用線性矯正
      • 最后一種:來(lái)自不同實(shí)驗(yàn)室的數(shù)據(jù)集之間的”數(shù)據(jù)整合“。使用非線性方法進(jìn)行矯正。例如:CCA(Canonical Correlation Analysis)、MNN(Mutual Nearest Neighbours )、Scanorama、RISC、scGen、LIGER、BBKNN、Harmony。雖然這些非線性矯正方法也能用于第一種經(jīng)典的批次情形,但可能會(huì)由于自由度增加而導(dǎo)致矯正過(guò)度。例如,在第一種經(jīng)典模式下,Combat表現(xiàn)就比MNN好 (Buttner et al, 2019)

      看一下Combat矯正前后的差別:其中顏色表示不同樣本

      圖7

      去噪也是矯正的一種類(lèi)型。單細(xì)胞數(shù)據(jù)的一個(gè)特點(diǎn)就是含有許多噪音來(lái)源,其中一個(gè)就是dropout。一些工具就用來(lái)推斷dropout,用適當(dāng)?shù)谋磉_(dá)量來(lái)替代0,例如:MAGIC、DCA、scVI、SAVER、scImpute。去噪可以提高基因間相關(guān)性的估計(jì)。這一步可以和歸一化、批次矯正及其他下游分析整合起來(lái),例如基于Python的scVI工具。但任何方法都可能導(dǎo)致矯正過(guò)度或不足。

      4.4.3 小結(jié)
      • 判斷要不要進(jìn)行矯正生物因素:主要看后續(xù)分析是不是用于研究發(fā)育軌跡等特定生物過(guò)程
      • 技術(shù)因素和生物因素需要放在一起矯正,而不是先矯正這個(gè),后矯正那個(gè)
      • plate-based數(shù)據(jù)的預(yù)處理一般需要利用非線性歸一化方法
      • 需要關(guān)注降噪前表達(dá)量為0,而降噪后才有表達(dá)的基因

      4.5 挑選基因、降維、可視化

      人類(lèi)的scRNA數(shù)據(jù)中可能會(huì)包含25000個(gè)基因,但其中許多基因并非能提供有用信息,還有很多基因表達(dá)量直接為0。即使在QC階段去掉這些表達(dá)量為0的基因,一個(gè)單細(xì)胞數(shù)據(jù)的基因空間依然會(huì)有超過(guò)15000個(gè)維度(一個(gè)基因表示一個(gè)維度),因此需要降低維度

      4.5.1 首先挑選基因

      就是挑那些真正”具有情報(bào)價(jià)值“的基因,也就是會(huì)數(shù)據(jù)變化起作用的基因。因此我們這里會(huì)挑選名為HVG的基因,也就是highly variable genes。根據(jù)數(shù)據(jù)集的復(fù)雜程度不同,HVGs一般會(huì)有1000-5000個(gè)(如下圖就對(duì)不同數(shù)據(jù)集的HVGs做了個(gè)統(tǒng)計(jì))

      圖8

      之前有研究表明,HVGs數(shù)量從200到2400,它們降維后的表現(xiàn)差不多(Klein et al (2015),作者建議先盡量多選一些HVGs。

      比較流行的挑選HVGs的方法有Scanpy和Seurat,而且最好是在去除技術(shù)因素后挑選,避免因?yàn)榕?、測(cè)序等因素導(dǎo)致錯(cuò)誤挑選HVG。當(dāng)然還有其他挑選的方法,看Yip et al (2018).

      4.5.2 接著降維

      挑出來(lái)HVGs后,就是降維了,力求在最少的維度中捕捉到最多的數(shù)據(jù)特征。

      常用的降維方法:A-F分別是:PCA、t-SNE、diffusion maps、UMAP、ForceAtlas2(force‐directed graph)、Variance explained by the first 31 principal components (PCs)。關(guān)于單細(xì)胞數(shù)據(jù)的降維方法,詳細(xì)可以看:Moon et al (2018)

      圖9

      其中兩個(gè)應(yīng)用比較廣的方法是:PCA(Pearson, 1901)和diffusion maps (Coifman et al, 2005) 【diffusion maps 于2015年在單細(xì)胞領(lǐng)域走紅 Haghverdi et al (2015) 】

      • 主成分分析PCA是一種線性方法,通過(guò)最大化每個(gè)其他維度中捕獲的殘差來(lái)生成縮減的維度。而且,PCA常作為非線性降維方法的預(yù)處理手段。PCA一般通過(guò)前N個(gè)主成分來(lái)表示整個(gè)數(shù)據(jù)集,其中N可以用F中的”肘elbow“部判斷,或者用基于置換檢驗(yàn)的jackstraw方法確定
      • diffusion maps 是非線性的方法,它強(qiáng)調(diào)數(shù)據(jù)之前的轉(zhuǎn)換。當(dāng)研究連續(xù)型數(shù)據(jù)例如感興趣的分化過(guò)程時(shí)會(huì)使用。它的每個(gè)成分(component)都能突出不同類(lèi)型細(xì)胞間的異質(zhì)性
      4.5.3 最后可視化

      可視化一般使用非線性降維的方法。最常用的就是2008年提出的t-SNE( t‐distributed stochastic neighbour embedding)。t-SNE的一個(gè)特性就是關(guān)注局部而忽視整體,因此帶來(lái)的一個(gè)影響就是:可視化結(jié)果可能夸大了細(xì)胞群之間的差異,忽略了這些細(xì)胞群之間的潛在聯(lián)系

      另外,使用t-SNE的一大難點(diǎn)就是perplexity參數(shù)的設(shè)定,因?yàn)檫@個(gè)數(shù)不同,結(jié)果顯著的cluster數(shù)也會(huì)不同 (Wattenberg et al, 2016)。

      除了t-SNE,還有2018年推出的UMAP和SPRING可以用,在缺乏明確的生物學(xué)問(wèn)題時(shí),可以用UMAP作為不錯(cuò)的數(shù)據(jù)探索。

      小結(jié)
      • 根據(jù)數(shù)據(jù)集的復(fù)雜性,推薦選擇1000-5000個(gè)HVGs
      • 推薦UMAP進(jìn)行數(shù)據(jù)探索;PCA獲得一般性數(shù)據(jù)總結(jié); diffusion maps作為PCA的替代,可用于軌跡推斷
      • PAGA方法與UMAP連用適用于特別復(fù)雜的數(shù)據(jù)集

      4.6 「總結(jié)」 預(yù)處理的各個(gè)階段

      作者貼心將預(yù)處理比作5種類(lèi)型數(shù)據(jù)的處理:

      原始數(shù)據(jù)(raw data)、歸一化數(shù)據(jù)(normalized data)、矯正后的數(shù)據(jù)(corrected data)、挑選后的數(shù)據(jù)(feature‐selected data)、降維后的數(shù)據(jù)(dimensionality‐reduced data)

      這5個(gè)階段又分成3個(gè)層次:

      • measured data:用于統(tǒng)計(jì)檢驗(yàn)
      • corrected data:用于數(shù)據(jù)比較可視化
      • reduced data:用于下游分析

      其中每個(gè)步驟適時(shí)調(diào)整,例如單一批次的數(shù)據(jù)集,就可以跳過(guò)矯正批次這一步

      圖10

      5 下游分析之細(xì)胞層面

      下游分析的目的是解釋生物問(wèn)題,例如根據(jù)表達(dá)量將細(xì)胞劃分成不同的類(lèi)型;相似細(xì)胞間表達(dá)量的微小變化也會(huì)體現(xiàn)連續(xù)的分化路徑;基因表達(dá)量之間的相關(guān)性可能與基因共表達(dá)有關(guān)...

      下游分析也是有細(xì)胞層面和基因?qū)用妫?/p>

      • 細(xì)胞層面主要關(guān)注:分出多少群細(xì)胞、細(xì)胞的軌跡。細(xì)胞類(lèi)型為了解釋異質(zhì)性的問(wèn)題;軌跡作為一個(gè)動(dòng)態(tài)發(fā)育過(guò)程中的一個(gè)”快照“,可以幫助理解某個(gè)動(dòng)態(tài)發(fā)育過(guò)程
      • 基因?qū)用婢褪牵翰町惙治?、富集分析、互作網(wǎng)絡(luò)
      圖11

      下面??先看看看細(xì)胞層面的分析之分群和軌跡

      5.1 細(xì)胞分群

      5.1.1 先是:分群方法

      這里主要都是算法相關(guān),簡(jiǎn)單了解即可

      將細(xì)胞分群基本就是任何單細(xì)胞分析的必經(jīng)之路。群的劃分就是根據(jù)細(xì)胞中基因表達(dá)譜的相似性,表達(dá)譜的相似性是由于歐幾里得距離量度決定的,而距離量度又是利用的降維的數(shù)據(jù)。一般有兩種方法計(jì)算:clustering algorithms、community detection methods

      • clustering algorithms是直接基于距離的經(jīng)典無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法。最常見(jiàn)的是k-means。k-means使用的空間距離量度也有不同(默認(rèn)是歐氏距離),比如cosine similarity、 correlation‐based distance metrics、the SIMLR method。最近的研究表示correlation‐based distances優(yōu)于其他距離 (Kim et al, 2018)。

      • community detection methods是graph‐partitioning algorithms,利用了K近鄰法 K‐Nearest Neighbour approach (KNN graph)作圖。細(xì)胞就是圖上的一個(gè)節(jié)點(diǎn),每個(gè)細(xì)胞都和K個(gè)最相似的細(xì)胞連接,這個(gè)相似性也是根據(jù)降維后空間中的歐氏距離計(jì)算的。根據(jù)數(shù)據(jù)集的大小,K一般設(shè)為5-100

        community detection methods一般比clustering algorithms速度快,因?yàn)橹挥邢噜彽募?xì)胞對(duì)被認(rèn)為屬于相同的群,大大減少了可能的細(xì)胞群的搜索范圍

      5.1.2 然后是:分群后的注釋

      這個(gè)過(guò)程主要是基因?qū)用娴牟僮?,為每個(gè)cluster找marker gene(也就是能代表這個(gè)cluster的基因,而這個(gè)基因又和已知的細(xì)胞類(lèi)型有關(guān))。任何的分群算法和參數(shù)設(shè)置都會(huì)將一整團(tuán)細(xì)胞分成多個(gè)群,但這些群是否真的有意義,就要靠這一步來(lái)和生物背景結(jié)合起來(lái)。

      我們希望看到的是存在很多類(lèi)型的細(xì)胞,來(lái)說(shuō)明細(xì)胞異質(zhì)性的問(wèn)題,但這里關(guān)于細(xì)胞類(lèi)型這個(gè)定義還是存在爭(zhēng)議。首先,細(xì)胞類(lèi)型的劃分怎樣算是清楚,對(duì)于一些人來(lái)說(shuō),”T cells“這個(gè)名稱(chēng)可以叫一個(gè)細(xì)胞類(lèi)型,但還有人認(rèn)為,必須繼續(xù)深入,像”CD4+ T cells“、”CD8+ T cells“才叫細(xì)胞類(lèi)型;另外,即使是同一種細(xì)胞類(lèi)型的細(xì)胞也會(huì)有不同的發(fā)育狀態(tài),因此它們也會(huì)顯示不同的分群結(jié)果。但不管如何,它們都是當(dāng)時(shí)細(xì)胞的一種身份(identity)

      這個(gè)很好理解,就像人一樣,人生階段不同身份也不同,但不能簡(jiǎn)單說(shuō)它的類(lèi)型發(fā)生了變化。

      因此,我們將分群的結(jié)果稱(chēng)為不同身份的細(xì)胞(cell identities)會(huì)比不同類(lèi)型的細(xì)胞(cell types)要好一些【即每個(gè)亞群可能并不是真的不同類(lèi)型細(xì)胞,只是顯示了此時(shí)此刻的細(xì)胞身份

      對(duì)于不同細(xì)胞身份的注釋?zhuān)陙?lái)也隨之細(xì)胞圖譜的研究而加速,例如小鼠腦細(xì)胞圖譜 (Zeisel et al, 2018) 、人類(lèi)細(xì)胞圖譜 (Regev et al, 2017)的發(fā)現(xiàn),產(chǎn)生了許多參考數(shù)據(jù)庫(kù)。在缺乏相關(guān)背景的情況下,我們可以借用數(shù)據(jù)庫(kù)中已發(fā)現(xiàn)的細(xì)胞marker 基因套入我們的細(xì)胞,幫助判斷細(xì)胞身份。需要注意:通常使用的細(xì)胞表面marker基因在細(xì)胞身份鑒定方面存在局限性(Tabula Muris Consortium et al, 2018)

      看這個(gè)注釋結(jié)果:
      圖A是利用Louvain方法分群+UMAP可視化;
      圖B是細(xì)胞身份的鑒定:stem cells (Slc12a2), enterocytes (Arg2), goblet cells (Tff3) and Paneth cells (Defa24)。但要注意marker基因可能也會(huì)在其他身份的細(xì)胞中表達(dá),例如很多marker都在右上角(goblet and Paneth 細(xì)胞)中有表達(dá),但最后還是根據(jù)表達(dá)量來(lái)指定特定的細(xì)胞身份(比如Slc12a2基因雖然在很多細(xì)胞都表達(dá),但就是在中部偏右這一坨細(xì)胞中表達(dá)量相對(duì)高,所以把它當(dāng)做stem cell)
      圖C是近端(上圖)和遠(yuǎn)端(下圖)腸上皮區(qū)域的細(xì)胞身份組成圖(顏色越深細(xì)胞密度越大)

      圖12

      上面提到根據(jù)marker基因進(jìn)行細(xì)胞分群注釋。那么marker基因怎么獲得?

      利用差異分析,分成兩組:某個(gè)cluster中的細(xì)胞、數(shù)據(jù)集中其余全部的細(xì)胞。然后重點(diǎn)關(guān)注這個(gè)cluster中上調(diào)的基因,因?yàn)閙arker基因一般具有更強(qiáng)的表達(dá)作用。差異分析也會(huì)使用簡(jiǎn)單的統(tǒng)計(jì)檢驗(yàn),例如Wilcoxon rank‐sum test、t-test,將基因的差異大小排個(gè)序,選出排名靠前的基因來(lái)作為marker基因

      有了marker基因,再進(jìn)行注釋

      將數(shù)據(jù)集中選出的marker基因和參考數(shù)據(jù)集進(jìn)行比對(duì),統(tǒng)計(jì)方法可以是:enrichment tests、the Jaccard index、other overlap statistics

      參考數(shù)據(jù)集可以是網(wǎng)頁(yè)工具: www.mousebrain.org、 http:///,可以將選出的marker基因在參考數(shù)據(jù)集中進(jìn)行可視化,幫助判斷這個(gè)marker基因是什么細(xì)胞身份

      注釋并非一蹴而就,這個(gè)很麻煩...

      細(xì)胞分群、分群注釋、重分群、重注釋...這個(gè)循環(huán)很耗費(fèi)時(shí)間。自動(dòng)化注釋方法加快了這個(gè)過(guò)程,例如scmap (Kiselev et al, 2018b) 、Garnett (preprint: Pliner et al, 2019) ,但這樣的方法有利有弊。自動(dòng)化提高了速度,但相比手動(dòng)注釋也降低了靈活性。畢竟自動(dòng)化工具使用的參考數(shù)據(jù)集中可能并不包含我們數(shù)據(jù)中的這樣細(xì)胞。因此,有自動(dòng)化工具也不能完全拋棄手動(dòng)挑選,尤其針對(duì)大型數(shù)據(jù)集中多種多樣的細(xì)胞。自動(dòng)化的過(guò)程可以先幫我們粗略地給細(xì)胞加個(gè)標(biāo)記,如果有需要,我們可以繼續(xù)手動(dòng)對(duì)這種細(xì)胞繼續(xù)劃分子細(xì)胞。對(duì)于小型數(shù)據(jù)集或者缺乏參考基因集的,手動(dòng)注釋就足夠了。

      5.1.3 注意
      • 同一細(xì)胞身份的marker基因在不同數(shù)據(jù)集之間可能由于數(shù)據(jù)集細(xì)胞類(lèi)型和狀態(tài)組成而不同【選出的marker基因并不是說(shuō)以后遇到它,就一定等同于這種類(lèi)型的細(xì)胞。只是說(shuō)在某種細(xì)胞的某個(gè)狀態(tài)下,這個(gè)marker基因更符合
      • 如果存在參考數(shù)據(jù)集(例如 www.mousebrain.orghttp:///),建議輔助自動(dòng)化工具進(jìn)行注釋?zhuān)瑴p少手動(dòng)查基因的時(shí)間
      5.1.4 細(xì)胞分群衍生——細(xì)胞組成分析(Compositional analysis)

      就像上面的圖12中的C圖,顯示的是近端(上圖)和遠(yuǎn)端(下圖)腸上皮區(qū)域的細(xì)胞身份組成圖(顏色越深細(xì)胞密度越大)。研究細(xì)胞組成的變化也是一個(gè)新方向,例如沙門(mén)氏菌感染已被證明會(huì)增加小鼠腸上皮細(xì)胞的比例 (Haber et al, 2017)。

      這個(gè)分析既需要足夠多的細(xì)胞數(shù)量來(lái)推斷各個(gè)cluser的占比,又需要足夠的樣本數(shù)量來(lái)證明是單純一個(gè)樣本得cluster數(shù)量這樣變還是總體都會(huì)這樣變。相關(guān)的分析工具還沒(méi)有太多,未來(lái)的開(kāi)發(fā)可能會(huì)借鑒單細(xì)胞質(zhì)譜流式(mass cytometry)或者是宏基因組分析【單細(xì)胞與宏基因組的結(jié)合...】

      5.2 軌跡分析

      5.2.1 軌跡推斷Trajectory inference

      軌跡推斷就是為了找到不同細(xì)胞身份、分化或者生物過(guò)程中漸進(jìn)式非同步的變化,構(gòu)建出的一個(gè)動(dòng)態(tài)模型。它認(rèn)為單細(xì)胞數(shù)據(jù)實(shí)際上就是一個(gè)連續(xù)過(guò)程中的快照(snapshot),這個(gè)過(guò)程可以通過(guò)在細(xì)胞空間中尋找最小化相鄰細(xì)胞間轉(zhuǎn)錄變化的路徑來(lái)重建

      例如:
      圖A就是利用Slingshot推斷近端(proximal)和遠(yuǎn)端(distal)腸上皮細(xì)胞的分化軌跡;
      圖B就是在PCA空間中進(jìn)行的Slingshot推斷。圖中細(xì)胞的路徑就叫做”擬時(shí)序“(pseudotime)

      圖13

      2014年Monocle和Wanderlust先推出了軌跡推斷,之后誕生的分析方法更加豐富,它們?cè)诮B窂降膹?fù)雜性上有所不同,從簡(jiǎn)單的linear or bifurcating(分叉) trajectories,到復(fù)雜的graphs, trees, or multifurcating(多叉) trajectories。Saelens et al, 2018)進(jìn)行過(guò)軌跡推斷方法的比較,結(jié)論是沒(méi)有一種方法對(duì)所有類(lèi)型的軌跡推斷有效,應(yīng)該根據(jù)預(yù)期軌跡的復(fù)雜度來(lái)選擇。不過(guò),Slingshot在簡(jiǎn)單軌跡推斷中優(yōu)于其他方法(Street et al, 2018) 。如果期望得到更復(fù)雜的軌跡,PAGA值得推薦。軌跡推斷是一個(gè)不確定的過(guò)程,可以用多種方法來(lái)進(jìn)行佐證。

      • 細(xì)胞內(nèi)通常會(huì)同時(shí)發(fā)生多個(gè)生物學(xué)過(guò)程,因此在進(jìn)行發(fā)育軌跡推斷時(shí),可以將其他生物因素去掉,例如T細(xì)胞在逐漸成熟的過(guò)程中就可能會(huì)經(jīng)歷細(xì)胞周期轉(zhuǎn)變(Buettner et al, 2015)。

      • 另外軌跡推斷最好是在細(xì)胞分群之后進(jìn)行,因?yàn)橐粋€(gè)cluster的形成可能意味著這一坨細(xì)胞處于比較穩(wěn)定的狀態(tài)了。

      • 此外,RNA速率(RNA velocities)可以添加發(fā)育軌跡的方向,例如:scVelo

        RNA速率
      • 當(dāng)然,推斷的軌跡不一定就代表一個(gè)生物學(xué)過(guò)程,因?yàn)楫吘故歉鶕?jù)”快照“數(shù)據(jù)中的轉(zhuǎn)錄狀態(tài)推測(cè)的。后續(xù)可以借鑒:perturbation experiments、inferred regulatory gene dynamics、support from RNA velocity

      5.2.2 基因表達(dá)量的動(dòng)態(tài)變化

      在擬時(shí)序(pseudotime)中變化的基因描述了軌跡,這組與軌跡相關(guān)的基因有望包含調(diào)控建模過(guò)程的基因,可以用來(lái)識(shí)別潛在的生物過(guò)程。

      目前很少有專(zhuān)門(mén)分析基因表達(dá)動(dòng)態(tài)變化的工具。BEAM將Monocle的軌跡推斷整合進(jìn)來(lái),允許檢測(cè)在軌跡分支過(guò)程中相關(guān)基因的動(dòng)態(tài)變化。另外還有LineagePulse (https://github.com/YosefLab/LineagePulse)考慮了dropout技術(shù)噪音但還在開(kāi)發(fā)中。

      下面這樣的圖在Slingshot的幫助文檔就有提及:https:///packages/release/bioc/vignettes/slingshot/inst/doc/vignette.html 【4.1:Identifying temporally expressed genes】

      require(gam)t <- sim$slingPseudotime_1# for time, only look at the 100 most variable genesY <- log1p(assays(sim)$norm)var100 <- names(sort(apply(Y,1,var),decreasing = TRUE))[1:100]Y <- Y[var100,]# fit a GAM with a loess term for pseudotimegam.pval <- apply(Y,1,function(z){    d <- data.frame(z=z, t=t)    suppressWarnings({      tmp <- suppressWarnings(gam(z ~ lo(t), data=d))    })    p <- summary(tmp)[3][[1]][2,3]    p})topgenes <- names(sort(gam.pval, decreasing = FALSE))[1:100]heatdata <- assays(sim)$norm[topgenes, order(t, na.last = NA)]heatclus <- sim$GMM[order(t, na.last = NA)]heatmap(log1p(heatdata), Colv = NA,        ColSideColors = brewer.pal(9,'Set1')[heatclus])
      Slingshot基因表達(dá)量的動(dòng)態(tài)變化
      5.2.3 細(xì)胞亞穩(wěn)態(tài)分析 Metastable states

      亞穩(wěn)態(tài)常見(jiàn)于物理化學(xué)。在物理學(xué)中,亞穩(wěn)性(Metastable)是動(dòng)力系統(tǒng)的一種穩(wěn)定狀態(tài),而不是系統(tǒng)能量最低的狀態(tài)
      Metastable:stable provided it is subjected to no more than small disturbances.
      另外這個(gè)狀態(tài)可以用這個(gè)圖幫助理解:大概就是「一個(gè)相對(duì)穩(wěn)定但又會(huì)變化的一個(gè)狀態(tài)」


      擬時(shí)序分析會(huì)展示出不同階段細(xì)胞數(shù)量的多少。假設(shè)細(xì)胞以無(wú)偏的方式采樣,其中軌跡中的稠密區(qū)域就表示轉(zhuǎn)錄時(shí)首選的方案。當(dāng)把軌跡理解為一條時(shí)間線時(shí)(例如在發(fā)育這個(gè)時(shí)間線),這些密集的區(qū)域可能代表細(xì)胞的亞穩(wěn)態(tài),可以結(jié)合擬時(shí)間坐標(biāo)來(lái)繪制直方圖,找到這些亞穩(wěn)態(tài)【因此看到B圖中很多種狀態(tài),但C中直方圖認(rèn)為這幾個(gè)密集的區(qū)域才屬于亞穩(wěn)態(tài)】

      Metastable states
      5.2.4 整合分群與軌跡分析

      分群是由整體到部分,是靜態(tài)的;而軌跡又是由部分推斷整體,是動(dòng)態(tài)的。二者結(jié)合起來(lái)又產(chǎn)生了一種新的分析模式

      將分群的結(jié)果當(dāng)成節(jié)點(diǎn)(node),將軌跡當(dāng)成節(jié)點(diǎn)之間的橋梁(edge),所以將動(dòng)靜數(shù)據(jù)結(jié)合在了一起。利用partition‐based graph abstraction(PAGA)這個(gè)工具就能得到類(lèi)似下面這個(gè)圖。

      It was the only reviewed method able to cope with disconnected topologies and complex graphs containing cycles.

      整合分群與軌跡分析

      6 下游分析之基因?qū)用?/h3>

      之前都是對(duì)細(xì)胞進(jìn)行分析,但細(xì)胞中的基因分析會(huì)提供更多的信息。例如差異表達(dá)分析、基因集分析和基因調(diào)控網(wǎng)絡(luò)推斷,不是表面上研究細(xì)胞異質(zhì)性,而是基于異質(zhì)性探索基因表達(dá)相關(guān)的原因

      6.1 差異表達(dá)分析

      基因?qū)用娴臄?shù)據(jù)探索,一個(gè)經(jīng)常遇到的問(wèn)題就是:兩個(gè)組之間有沒(méi)有表達(dá)量的差異?

      這個(gè)方法也是常規(guī)bulk轉(zhuǎn)錄組中經(jīng)常做的。不過(guò)單細(xì)胞相比于bulk轉(zhuǎn)錄組的一個(gè)優(yōu)勢(shì)就是:可以深入一個(gè)層次,原來(lái)bulk只是看一塊組織的平均表達(dá)量,但現(xiàn)在經(jīng)過(guò)分群后,能得到一塊組織中各種各樣的亞群,再結(jié)合差異分析,對(duì)理解異質(zhì)性問(wèn)題更有幫助。

      雖然都是朝著一個(gè)方向前進(jìn),但單細(xì)胞和bulk轉(zhuǎn)錄組的差異分析方法還是不同的。

      • bulk轉(zhuǎn)錄組存在樣本數(shù)量的限制,因此算法需要對(duì)少量樣本進(jìn)行準(zhǔn)確估計(jì),而單細(xì)胞則不同,一個(gè)細(xì)胞作為一個(gè)樣本,成百上千不在話下;
      • 單細(xì)胞數(shù)據(jù)又有自己的特點(diǎn):特異的人為技術(shù)噪音(dropout、high cell‐to‐cell variability ),因此單細(xì)胞分析方法需要額外考慮這些因素

      但最近(Soneson & Robinson, 2018)研究表明,基于大批量的差異分析,bulk分析方法的性能與最好的單細(xì)胞分析方法相當(dāng)。當(dāng)bulk方法進(jìn)行改進(jìn),加入基因權(quán)重分析后,表現(xiàn)要好于單細(xì)胞原有工具。例如:bulk差異分析工具DESeq2/EdgeR + ZINB‐wave工具估算的權(quán)重。

      不過(guò),bulk差異分析工具的性能雖然好,但是計(jì)算的效率很難提升。畢竟單細(xì)胞數(shù)據(jù)樣本數(shù)量越來(lái)越多,程序跑的時(shí)間長(zhǎng)短也成了衡量工具優(yōu)劣的重要因素。單細(xì)胞工具MAST脫穎而出。在單個(gè)數(shù)據(jù)集的小范圍比較中,完勝bulk和其他單細(xì)胞方法(Vieth et al, 2017)。而且MAST比bulk方法快了10到100倍 (Van den Berge et al, 2018) 。

      小結(jié)
      • 差異分析使用MAST或limma
      • 差異分析不能使用矯正后的數(shù)據(jù)(denoised, batch corrected, etc.),而是應(yīng)該在計(jì)算過(guò)程中去指定需要矯正的技術(shù)因素
      • 我們給差異分析算法提供的矯正的因素(稱(chēng)之為協(xié)變量covariates)不能太混亂,因?yàn)楣ぞ卟粫?huì)去智能識(shí)別,必須要清楚需要矯正什么

      6.2 基因集分析

      基因?qū)用娴姆治?,往往?huì)產(chǎn)生大量的基因,但很難去解釋。

      例如差異分析我們往往能得到上千基因,為了比較方便解讀,一般會(huì)把有共同特性的基因歸為一組,然后檢查我們歸類(lèi)的可靠性 【grouping the genes into sets based on shared characteristics and testing whether these characteristics are overrepresented in the candidate gene list.】

      我們一般關(guān)注基因在生物過(guò)程(biological processes, BP)中的富集,可以使用MSigDB、GO、KEGG pathway、Reactome數(shù)據(jù)庫(kù)

      另外,單細(xì)胞中的一個(gè)新進(jìn)展就是利用成對(duì)基因標(biāo)簽進(jìn)行配體受體分析( ligand–receptor analysis)

      來(lái)自:https://www./showarticle.asp?id=453107210
      腫瘤內(nèi)細(xì)胞-細(xì)胞相互作用的研究將通過(guò)對(duì)配體和受體的表達(dá)分析來(lái)探究細(xì)胞間的相互交流。運(yùn)用配體-受體復(fù)合物的數(shù)據(jù)庫(kù),通過(guò)scRNA-seq數(shù)據(jù)與腫瘤細(xì)胞亞群的定義相結(jié)合,來(lái)推斷潛在的細(xì)胞-細(xì)胞相互作用,可以理解為其中一個(gè)群體產(chǎn)生配體,向另一個(gè)表達(dá)相應(yīng)受體的群體發(fā)信號(hào)

      配體-受體成對(duì)標(biāo)簽可以從:CellPhoneDB數(shù)據(jù)庫(kù)獲得,然后用來(lái)解釋cluster之間高表達(dá)基因的聯(lián)系

      例如,利用celltalker 就可以做

      Celltalker分析

      6.3 基因調(diào)控網(wǎng)絡(luò) gene regulatory network (GRN)

      基因并非獨(dú)立發(fā)揮作用的。相反,基因的表達(dá)水平取決于與其他基因和小分子之間的相互調(diào)控

      方法例如:SCONE、PIDCSCENIC (Single-Cell rEgulatory Network Inference and Clustering),但發(fā)展還不是很完善,推斷的調(diào)控關(guān)系不是很穩(wěn)定【謹(jǐn)慎使用】

      7 分析平臺(tái)

      現(xiàn)在開(kāi)發(fā)了很多平臺(tái),整合了一套分析流程,有基于R的(McCarthy et al, 2017; Butler et al, 2018) ,python的 (Wolf et al, 2018),本地的(Patel, 2018; preprint: Scholz et al, 2018) ,網(wǎng)頁(yè)版帶可視化的(Gardeux et al, 2017; Zhu et al, 2017)

      Zhu et al (2017) and Zappia et al (2018).列出了各種平臺(tái)

      Seurat是使用最廣泛的,Scater在QC和預(yù)處理中表現(xiàn)優(yōu)異;除此以外,基于Python的scanpy也逐漸發(fā)展起來(lái),它對(duì)于大量細(xì)胞的標(biāo)準(zhǔn)化方面表現(xiàn)不錯(cuò)

      如果不使用命令行,可視化界面也有,只不過(guò)用戶只能跑人家已經(jīng)寫(xiě)好的腳本,操作靈活性不足。這樣的平臺(tái)更多的用處是在可視化探索上,例如Granatum、ASAP。未來(lái) Human Cell Atlas(HCA)會(huì)在數(shù)據(jù)可視化探索上迅速發(fā)展: https://www./data-sharing

      8 結(jié)語(yǔ)

      8.1 作者的結(jié)語(yǔ)

      作者把流程測(cè)試和說(shuō)明都放在了:https://github.com/theislab/single-cell-tutorial

      感興趣的可以跟著走一遍,比較一下不同的工具。作者希望這一篇能代表單細(xì)胞領(lǐng)域目前發(fā)展的一個(gè)最新動(dòng)向。他也提到,新方法層出不窮,本文介紹的大量的方法是經(jīng)過(guò)實(shí)踐比較、驗(yàn)證過(guò)的。目前可用的方法不管是運(yùn)行效率還是易用性可能都不如最新開(kāi)發(fā)的方法,但要注意:新方法在未被大量驗(yàn)證之前都需小心使用。而且新方法一般都是針對(duì)單個(gè)層面(比如降維、分群、軌跡推斷等),大體的分析流程基本固定了。

      未來(lái)整合深度學(xué)習(xí)和單細(xì)胞多組學(xué)是兩個(gè)重要的發(fā)展方向,流程化運(yùn)行更是趨勢(shì)。

      隨著文庫(kù)制備和測(cè)序技術(shù)的進(jìn)步,未來(lái)的單細(xì)胞平臺(tái)必將可以處理多種類(lèi)型數(shù)據(jù):DNA甲基化、蛋白豐度等等。

      8.2 劉小澤的結(jié)語(yǔ)

      截止到2020年5月8日下午15.35,打卡看完!

      三天的時(shí)間,基本每天都會(huì)花半天時(shí)間在閱讀這篇綜述上。從第一眼看到它的文章邏輯,就感覺(jué):嗯是它,沒(méi)錯(cuò)了!連午覺(jué)都不想睡了。

      一開(kāi)始想強(qiáng)迫自己看下去,沒(méi)想到,越看越精彩。尤其是將整個(gè)流程和自己的知識(shí)結(jié)合起來(lái),就看得比較順暢。為了更加易讀,我在其中加了很多注釋?zhuān)ㄖ白约簩?xiě)的一些推文和網(wǎng)上一些好的資源,可以幫助梳理知識(shí)點(diǎn)。

      最后,希望看完本文對(duì)你有幫助??!


      歡迎關(guān)注我們的公眾號(hào)~_~  
      我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩,打造生信星球,想讓它成為一個(gè)不拽術(shù)語(yǔ)、通俗易懂的生信知識(shí)平臺(tái)。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com

      Welcome to our bioinfoplanet!

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類(lèi)似文章 更多