關(guān)于課程采用高通量測(cè)序技術(shù)獲取單細(xì)胞水平的全轉(zhuǎn)錄組數(shù)據(jù)又稱scRNA-seq 已應(yīng)用越來(lái)越廣泛。scRNA-seq 的優(yōu)勢(shì)是其同時(shí)具有單細(xì)胞水平的分辨率和基因組范圍的檢測(cè)能力,可以解決其他方法如bulk RNA-seq 或單細(xì)胞RT-qPCR 解決不了的問(wèn)題。然而,分析單細(xì)胞數(shù)據(jù)需要新的方法,以前用于bulk RNA-seq 的一些計(jì)算方法的理論假設(shè)也不再適用。 在這個(gè)課程,我們討論scRNA-seq 可以解決的問(wèn)題,以及可用的計(jì)算和統(tǒng)計(jì)學(xué)方法。原版課程是劍橋大學(xué)生物信息培訓(xùn)中心授課所用, 但文字版教材適用于任何對(duì)scRNA-seq 分析感興趣的人。課程每年兩次,材料在開(kāi)課前更新。 計(jì)算工具的數(shù)量增加很快,我們盡力更新至最新技術(shù)。這個(gè)課程的一個(gè)主要限制是我們傾向于使用在R 里面實(shí)現(xiàn)并且速度相對(duì)快的工具 (其他語(yǔ)言實(shí)現(xiàn)的工具也通用,關(guān)鍵是理解原理)。另外,我們傾向于使用自己或朋友、同事開(kāi)發(fā)的工具。(譯者注:無(wú)可厚非,一是更了解,二是更容易獲取幫助。我們也更傾向于使用自己的繪圖工具ImageGP。) 視頻視頻課錄制于2017年11月,那時(shí)課程章節(jié)更少一些。視頻在Youtube上,https://www./embed/56n77bpjiKo?list=PLEyKDyF1qdOYAhwU71qlrOXYsYHtyIu8n。 GitHubhttps://github.com/hemberg-lab/scRNA.seq.course Docker 鏡像 (RStudio)課程可以通過(guò)安裝了所有依賴包的RStudio 的Docker鏡像重現(xiàn)。 確保你的電腦已安裝了Docker ,如果沒(méi)有,請(qǐng)參照Docker基礎(chǔ)。運(yùn)行下面命令啟動(dòng)Docker鏡像: docker run -d -p 8787:8787 quay.io/hemberg-group/scrna-seq-course-rstudio
這條命令會(huì)下載docker 鏡像 (看網(wǎng)速快慢,需要一些時(shí)間)。下載完成后,會(huì)啟動(dòng)Rstudio服務(wù)器版 (里面包含了依賴的程序包和數(shù)據(jù))。 接下來(lái)就可以在基因組瀏覽器訪問(wèn)localhost:8787 ,使用用戶名和密碼rstudio:rstudio 登錄網(wǎng)頁(yè)版Rstudio (R語(yǔ)言學(xué)習(xí) - 入門環(huán)境Rstudio)。 更多關(guān)于運(yùn)行RStudio docker鏡像的選項(xiàng)見(jiàn)https://hub./r/rocker/rstudio-stable/. 譯者注:如果您參加過(guò)我們的易生信課程,這些操作都應(yīng)該比較熟悉了。需要注意的是:1. 確認(rèn)8787 端口有無(wú)被占用,尤其是自己在服務(wù)器運(yùn)行過(guò)Rstudio server 時(shí)。2. 如果服務(wù)器有外網(wǎng)IP ,可以在任何電腦的瀏覽器輸入IP:8787 訪問(wèn)。 譯者注:如果不習(xí)慣Docker,或沒(méi)有管理員權(quán)限,自己在Windows下安裝依賴包也不費(fèi)事。 手動(dòng)安裝如果不使用Docker鏡像,需要克隆或下載course GitHub repository并且在下載后的文件夾中啟動(dòng)R session 。并且需要安裝課程的docker文件: Dockerfile1 和 Dockerfile2中列出的所有包. 許可所有課程材料遵循 GPL-3協(xié)議. 任何人都可以閱讀這份材料來(lái)學(xué)習(xí)scRNA-seq 數(shù)據(jù)分析. 如果應(yīng)用于教學(xué),除了提供合適的引用外,還請(qǐng)聯(lián)系我們 (英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。 課程基礎(chǔ)課程適用于有Linux/Unix 和R 基礎(chǔ)的朋友 (藍(lán)字可點(diǎn)擊)。 另外,我們也假設(shè)您對(duì)常規(guī)轉(zhuǎn)錄組的比對(duì)和分析,以及常用的計(jì)算工具比較熟悉 (39個(gè)轉(zhuǎn)錄組分析工具,120種組合評(píng)估(轉(zhuǎn)錄組分析工具哪家強(qiáng)-導(dǎo)讀版))。 否則,我們推薦先參加Introduction to RNA-seq and ChIP-seq data analysis 或 Analysis of high-throughput sequencing data with Bioconductor,然后再參加這個(gè)課程。 譯者注:生物信息程序基礎(chǔ)和常規(guī)轉(zhuǎn)錄組分析的中文版視頻課程見(jiàn):易生信原創(chuàng)課程 (如果是微信公眾號(hào),后臺(tái)回復(fù) 培訓(xùn)獲取)。 聯(lián)系我們如果您有任何 評(píng)論, 問(wèn)題 或 建議 請(qǐng)跟我們聯(lián)系。(英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。 單細(xì)胞RNA-seq簡(jiǎn)介混合RNA-seq2000年末的重大技術(shù)突破,取代微陣列表達(dá)芯片被廣泛使用 通過(guò)混合大量細(xì)胞獲取足夠RNA用于建庫(kù)測(cè)序,來(lái)定量每個(gè)基因的平均表達(dá)水平 用于比較轉(zhuǎn)錄組,例如比較不同物種的同一組織樣本 量化整體表達(dá)特征,如疾病研究中的表達(dá)模式 研究異質(zhì)系統(tǒng)方面還有力所不及之處,例如對(duì)早期發(fā)育的研究,復(fù)雜組織(大腦)的研究 在基因表達(dá)隨機(jī)性研究方面心有余而力不足
scRNA-seq是一項(xiàng)由湯富酬等人在2009年首次發(fā)表的新技術(shù)。文章發(fā)表于Nature Method ,測(cè)序了7個(gè)單細(xì)胞,兩個(gè)卵裂球,兩個(gè)野生型卵子,兩個(gè)Dicer 敲除的卵 子,一個(gè)Ago2敲除的卵子。 這項(xiàng)技術(shù)在2013年被Nature評(píng)為年度技術(shù),更簡(jiǎn)便的操作流程和較低的測(cè)序成本促成單細(xì)胞技術(shù)的廣泛流行。2018年底,單細(xì)胞技術(shù)應(yīng)用于胚胎發(fā)育追蹤評(píng)為Science年度突破。 檢測(cè)每個(gè)基因在大量細(xì)胞中的表達(dá)水平分布。 可以研究細(xì)胞類型特異性轉(zhuǎn)錄調(diào)控的新型生物問(wèn)題,例如細(xì)胞類型鑒定,細(xì)胞應(yīng)答的異質(zhì)性,細(xì)胞表達(dá)的隨機(jī)性,細(xì)胞間基因調(diào)控網(wǎng)絡(luò)的推斷等 研究中細(xì)胞數(shù)目范圍從100個(gè)變到10^6個(gè)且每年遞增。 目前有許多不同的單細(xì)胞Protocol,例如 SMART-seq2 , CELL-seq 和 Drop-seq 。 還有商業(yè)平臺(tái),包括 Fluidigm C1, Wafergen ICELL8和the 10X Genomics Chromium。 Bulk RNA-seq技術(shù)中一些計(jì)算分析方法可應(yīng)用于單細(xì)胞分析。 多數(shù)情況下單細(xì)胞計(jì)算分析需要調(diào)整現(xiàn)有方法或者開(kāi)發(fā)新方法
工作流程 總體而言,scRNA-seq 的實(shí)驗(yàn)方案和bulk RNA-seq 的相似。我們將在下一節(jié)一起討論一些最通用的方法。
計(jì)算分析本課程內(nèi)容是scRNA-seq 實(shí)驗(yàn)中得到的數(shù)據(jù)進(jìn)行計(jì)算分析??傮w流程如下圖所示,前面三步(黃色)對(duì)于任何高通量測(cè)序數(shù)據(jù)是通用的,緊隨其后的四步(橙色)是要將傳統(tǒng)RNA-Seq 分析中已有的方法和新開(kāi)發(fā)的方法結(jié)合起來(lái)解決scRNA-seq 的技術(shù)差異問(wèn)題,最后的部分(藍(lán)色)是使用專門為scRNA-seq 開(kāi)發(fā)的方法來(lái)進(jìn)行生物分析解讀。 scRNA-seq分析的綜述有幾篇,包括 Computational and Analytical Challenges in Single-Cell Transcriptomics.” Nat Rev Genet 16 (3) 。
目前還有其他平臺(tái)可以執(zhí)行上述流程圖中的一步或多步操作: Falco:是一個(gè)單細(xì)胞RNA-seq的云處理平臺(tái),更像是一個(gè)流程部署和管理工具,一年多未更新了,一般也用不上。能部署的應(yīng)該都有自己 的一套部署工具,初學(xué)者不需要學(xué)這么復(fù)雜的。有精力,可以學(xué)習(xí)下其部署理念應(yīng)用于自己的流程。 SCONE(Single-Cell Overview of Normalized Expression):?jiǎn)渭?xì)胞RNA-seq質(zhì)量控制和標(biāo)準(zhǔn)化的R包 (一年多沒(méi)更新了, Yosef研究 組2018年在Nature method發(fā)表一個(gè)單細(xì)胞分型的深度學(xué)習(xí)平臺(tái),scVI ,效果不錯(cuò),值得嘗試)



挑戰(zhàn)Bulk RNA-seq和scRNA-seq的主要差別是每個(gè)測(cè)序文庫(kù)代表一個(gè)單細(xì)胞還是一群細(xì)胞。比較不同細(xì)胞(不同測(cè)序文庫(kù))的結(jié)果需要格外注意。文庫(kù)之間差異的主要來(lái)源是: 擴(kuò)增效率和擴(kuò)增偏好性(部分文庫(kù)可擴(kuò)增多達(dá)100萬(wàn)倍) 基因 ‘dropouts’: 基因在一個(gè)細(xì)胞中呈現(xiàn)中等表達(dá)水平,但在另一個(gè)細(xì)胞中未檢測(cè)到表達(dá),這可能來(lái)源于scRNA-seq 中RNA總量低導(dǎo)致的擴(kuò)增建庫(kù)丟失或RNA表達(dá)的隨機(jī)性。
取自于單獨(dú)一個(gè)細(xì)胞的低轉(zhuǎn)錄本總量是這兩個(gè)文庫(kù)差異的一個(gè)主要原因。提高轉(zhuǎn)錄本捕獲效率和降低擴(kuò)增偏好可以降低差異,是目前活躍的研究方向。從后續(xù)課程學(xué)習(xí)中也可以看 到,合適的標(biāo)準(zhǔn)化和校正方法也可以抵消一部分文庫(kù)構(gòu)建引入的噪音。
|