首先感謝熱心腸藍(lán)總的邀請(qǐng),很高興有這次機(jī)會(huì)分享一下我從事的工作領(lǐng)域。 我叫劉永鑫,是來自中科院遺傳發(fā)育所的一名工程師,也是大家熟悉的《宏基因組》公眾號(hào)的創(chuàng)始人。 我今天為大家分享的主題是“微生物組分析入門指南”,希望幫助大家能夠少走彎路,更好的探索我們這個(gè)領(lǐng)域。 我認(rèn)為這張圖是對(duì)我進(jìn)入這個(gè)領(lǐng)域15年的歷程的一個(gè)很好總結(jié)。 我讀了四年的微生物學(xué)的本科,之后又經(jīng)過六年的努力,獲得了生物信息學(xué)的博士學(xué)位,然后做了兩年的博士后,我以為我到了一個(gè)科研的很高的高度。 這個(gè)時(shí)候,經(jīng)過了12年的學(xué)習(xí),我才發(fā)現(xiàn)我獲得了一張入場(chǎng)券,讓我看到微生物組這么一個(gè)有前途的領(lǐng)域,然后我就一頭扎了進(jìn)來。 本演講的幻燈片 .pdf 版將在熱心腸菌群微信群分享,感興趣的讀者請(qǐng)按以下方法申請(qǐng)入群: 其實(shí)說到生物信息,不一定說你是專業(yè)的人才需要學(xué)。其實(shí),如果你工作中涉及到數(shù)據(jù)分析,它是一個(gè)非常好的手段。 我就給大家介紹一下學(xué)習(xí)生物信息的必要性,以及和它能給你帶來哪些收益。 舉一個(gè)簡(jiǎn)單的例子,我們高中的時(shí)候都學(xué)過孟德爾的豌豆實(shí)驗(yàn),也就是遺傳學(xué)的開端。 他用紫花豌豆和白花豌豆進(jìn)行雜交,然后經(jīng)過F1代的自交,他在后代發(fā)現(xiàn)了分離的現(xiàn)象。然后他就統(tǒng)計(jì)了不到1000株的后代的子代,發(fā)現(xiàn)了有一個(gè)3:1的花色規(guī)律。 這是在傳統(tǒng)的遺傳學(xué)當(dāng)中,1000個(gè)以內(nèi)的數(shù)量,我們是可以很簡(jiǎn)單的統(tǒng)計(jì)出它其中規(guī)律的。 而到了人類基因組時(shí)代,我們?nèi)祟惖幕蚪M就有30億個(gè)堿基,我們把它印在書上的話,我們一生都讀不完這本書。 你覺得人類的基因組已經(jīng)很龐大了嗎?其實(shí)我們?nèi)祟惖幕蚪M上只有25000個(gè)左右編碼基因。而我們腸道還是一個(gè)非常簡(jiǎn)單的微生物的體系,它有1000萬個(gè)基因。 面對(duì)這么大的數(shù)據(jù),我們?nèi)祟愂菬o法用簡(jiǎn)單的數(shù)理統(tǒng)計(jì)來處理了。我們必須借助每秒能夠計(jì)算10億次,甚至是能夠達(dá)到萬億次的超級(jí)計(jì)算機(jī),來幫助我們解析微生物組大數(shù)據(jù)。 我們既然想用計(jì)算機(jī)的話,我們要對(duì)計(jì)算機(jī)有一定的了解。關(guān)于計(jì)算機(jī),主要只有三個(gè)硬件需要我們掌握它的基本參數(shù)。 近十年,CPU的計(jì)算速度已經(jīng)進(jìn)入了一個(gè)瓶頸,但是現(xiàn)在我們是增加CPU的數(shù)量。服務(wù)器就是能夠裝更多的CPU,像超級(jí)計(jì)算機(jī)可能就會(huì)裝載成千上萬的CPU,來增加并行能力。 還有一個(gè)重要的指標(biāo)是內(nèi)存,我們的普通電腦,可能是4Gb、8Gb,你用來分析個(gè)微生物的多樣性的數(shù)據(jù),可能是夠的。但是你如果要處理宏基因組數(shù)據(jù)的話,你可能需要有幾百G甚至是幾千G的內(nèi)存。 最后一個(gè)重要的指標(biāo)就是硬盤,一般是幾百G;而服務(wù)器的話,可能一般有幾TB。 特別說明一點(diǎn)就是,比如你手里有10 Gb的數(shù)據(jù),你如果是想做一個(gè)分析的話,你至少要預(yù)留30倍以上的空間。尤其是在多人使用的服務(wù)器上,如果你把硬盤空間用光了的話,會(huì)讓所有人的項(xiàng)目停掉,這是一個(gè)很危險(xiǎn)的事。 什么是集群?集群就是把多臺(tái)服務(wù)器放在機(jī)架上,并排放在一起,到時(shí)候我們需要任務(wù),可以進(jìn)行并行運(yùn)算。 其實(shí)一般的科研院所和大學(xué)都有自己的計(jì)算中心,你們直接申請(qǐng)一個(gè)賬號(hào),就可以方便的使用。 我們?nèi)绻辛朔?wù)器可以處理大數(shù)據(jù),我們?cè)趺慈ゲ僮魉??你就需要有一個(gè)順手的工作平臺(tái),其實(shí)簡(jiǎn)單來說就是一個(gè)筆記本,它能滿足我們移動(dòng)辦公的需求。 筆記本的屏幕一般比較小,所以我就推薦大家買一個(gè)擴(kuò)展顯示器,這樣的話能極大提高我們的工作效率,推薦買這種28寸以上的大顯示器。 最后說一下,我們學(xué)習(xí)編程到底有什么意義。 舉個(gè)例子,我們?cè)谏詈凸ぷ髦薪?jīng)常會(huì)遇到很多重復(fù)的勞動(dòng),比如處理各種報(bào)表、各種統(tǒng)計(jì)。如果你不會(huì)編程的話,你的工作時(shí)間和你的工作量永遠(yuǎn)是成線性的。 如果你學(xué)會(huì)了程序,是什么樣的呢?你可以手動(dòng)的做幾十條相應(yīng)的工作,然后設(shè)計(jì)一個(gè)腳本,可能只需要寫幾十個(gè)字母或者是幾行代碼。 你把工作用這個(gè)腳本最后一處理,瞬間就可以把以后類似的工作都全部完成。你可以在同類的工作中節(jié)約大量的時(shí)間,這就是編程的意義。 了解了生物信息學(xué)的重要性,我就再介紹一下數(shù)據(jù)分析的基本思想和基本功。因?yàn)槟阒挥姓嬲哪軌蜃x懂同行的東西,才是一個(gè)真正的科研的開始. 微生物組學(xué)研究的主要是分為這四個(gè)步驟。 一是微生物的取樣,可以從DNA、RNA甚至更多的層面取到;然后通過高通量的測(cè)序設(shè)備得到宏組學(xué)數(shù)據(jù);我們得到數(shù)據(jù),就要進(jìn)行數(shù)據(jù)的處理,主要包括質(zhì)控和定量?jī)蓚€(gè)部分;然后處理完的數(shù)據(jù),我們就可以進(jìn)行統(tǒng)計(jì)分析和可視化,從里面去挖掘一些生物學(xué)規(guī)律。 我把數(shù)據(jù)分析的基本思想總結(jié)分為三步走,大家可以看這個(gè)圖。 我們首先拿到的數(shù)據(jù),一般測(cè)的數(shù)據(jù)是這種大數(shù)據(jù),基本都是ATGC堿基,它的數(shù)量級(jí)可以達(dá)到十的九次方。 大數(shù)據(jù)我們?nèi)祟愂遣豢勺x的,我們要把它轉(zhuǎn)化成一種大表,就是一個(gè)定量和質(zhì)控的過程。 那定量和質(zhì)控一般就是轉(zhuǎn)化成Count Data(計(jì)數(shù)數(shù)據(jù)),就是里面第二個(gè)大表。那Count Data一般是什么?基因表達(dá)矩陣或者你的物種組成表。但它的維度還很大,可能還有十的五次方、四次方,我們?nèi)祟愐膊豢勺x。 然后你可以接著往下分析,進(jìn)行進(jìn)一步的抽提。比如我們常見的α多樣性、β多樣性,還有什么差異比較,其實(shí)都是把大表再抽提成一個(gè)小表。這樣的話一般就是幾十行、幾百行,最多也不會(huì)超過千行,我們?nèi)祟惥涂勺x了。 其實(shí)我們現(xiàn)在還是不太愿意看數(shù)字和看文字的,因?yàn)樗容^累。我們喜歡把它轉(zhuǎn)化成圖,因?yàn)橐粓D抵千字嘛,我就可以一眼就可以看到我們發(fā)現(xiàn)的規(guī)律。如果你一眼沒看到,你就多看幾眼。 其實(shí)這個(gè)過程的基本思想主要就涉及到兩個(gè)詞,一個(gè)叫做降維,一個(gè)叫做可視化。 大家都清楚了生物信息分析的過程之后,我們?nèi)绾螌?shí)現(xiàn)呢?實(shí)現(xiàn)它就涉及到兩門語言,一個(gè)就是Shell,一個(gè)是R。 我們從大數(shù)據(jù)到大表的話只能用Shell,因?yàn)镾hell它是非常高效的系統(tǒng)的底層語言。然后從大表到小表這個(gè)階段,因?yàn)閿?shù)據(jù)也不是足夠大了,我們可以用低級(jí)的Shell語言來完成,也可以用高級(jí)語言R來完成。 然后到可視化這方面,低級(jí)語言就搞不定了,就需要高級(jí)語言R來完成,R是一個(gè)比較優(yōu)秀的交互可視化的語言。因?yàn)镽語言也是一個(gè)生物學(xué)家開發(fā)的一門語言,它比較適合于我們生物學(xué)家來使用。 我們Shell的話,最常用的就是Xshell。大家可以看這界面,比較像《駭客帝國》里的那個(gè)場(chǎng)景,是吧? 你看到別人敲代碼、探索數(shù)據(jù),比較花哨、比較漂亮,但其實(shí)這個(gè)過程也是需要非常強(qiáng)大的基本功的。你需要記住很多的代碼和命令,然后跟它進(jìn)行交互。 有沒有一個(gè)工具能夠把這兩門語言整合起來,都在一個(gè)工具里來實(shí)現(xiàn),你就不用去打代碼,也不用復(fù)制和粘貼,直接在一個(gè)工具完成從大數(shù)據(jù)到小數(shù)據(jù)的Shell分析和R分析呢? 其實(shí)是有的,近兩年來發(fā)展的RStudio就滿足了我們這個(gè)需求。尤其是去年(2018年)它最新更新的1.1版,就已經(jīng)整合了Shell的分析流程。 它的窗口有四個(gè)界面。第一個(gè)是代碼編輯區(qū),以前我們每個(gè)代碼要不然就打上去,要不然就復(fù)制粘貼上去,現(xiàn)在它可以都保存,你也可以再選中、運(yùn)行單行或多行的代碼。 右邊是環(huán)境變量區(qū),這個(gè)變量區(qū)方便我們實(shí)時(shí)探索內(nèi)存中的數(shù)據(jù)進(jìn)行調(diào)試和分析,極大的提高了我們數(shù)據(jù)Debug(調(diào)試)的效率,因?yàn)槲覀償?shù)據(jù)分析經(jīng)常會(huì)碰到很多錯(cuò)誤,我們要進(jìn)行調(diào)試。 左下角這個(gè)代碼執(zhí)行區(qū),就是保留了之前的像Xshell和R中跟數(shù)據(jù)不斷進(jìn)行交互的過程。 右邊那個(gè)數(shù)據(jù)的可視化區(qū),我們可以實(shí)時(shí)看到分析的結(jié)果,我們也可以把這個(gè)結(jié)果方便的保存成各種的格式和各種的大小,直接用于發(fā)表就夠了。 你想要看懂別人的代碼,還是需要學(xué)一點(diǎn)基本功的,最起碼要學(xué)習(xí)這兩門語言里中常見的幾十個(gè)單詞到底是什么意思。 如果你打算專門去從事數(shù)據(jù)分析,或者你每年有很多的時(shí)間要做數(shù)據(jù)分析的話,可以推薦你系統(tǒng)的學(xué)習(xí)兩本書。 第一本是《鳥哥的私房菜》,能夠系統(tǒng)介紹Linux系統(tǒng)的使用,而且還能介紹常見的Shell命令都是什么用途、什么功能。 如果你要進(jìn)行R語言的統(tǒng)計(jì)分析和可視化的話,可以讀Ggplot2的作者出的這本書,叫《數(shù)據(jù)分析與圖片藝術(shù)》。 你也可以花幾個(gè)小時(shí),學(xué)習(xí)一下我和同行們編寫的一些簡(jiǎn)明的教程。這可能更適合我們生物學(xué)背景的人,因?yàn)樗鼈兩婕暗降闹挥猩镄畔⒂玫降囊恍┏R姷拿睿疫€有一些我們的經(jīng)驗(yàn)和技巧在里面。 我們現(xiàn)在有了基本功了,可以看懂同行的代碼,可以進(jìn)行數(shù)據(jù)分析,然后我們就開始真正的數(shù)據(jù)分析之旅。 微生物組的研究方法主要就分為以上圖示的這五個(gè)層面。 我們首先獲得的微生物組材料,就是Microbiome(微生物組)。我們拿到了材料后,其實(shí)我們最重要應(yīng)該干的一件事,而大多數(shù)人都沒有干的事是什么呢?就是把材料里面的成分進(jìn)行分離培養(yǎng),也就是Culturomics(培養(yǎng)組學(xué))方面的工作。 因?yàn)槠鋵?shí)我們只有拿到了你研究對(duì)象里的材料,我們才能夠在發(fā)現(xiàn)了差異之后,進(jìn)行因果的驗(yàn)證,才能把關(guān)聯(lián)的層面轉(zhuǎn)移到真正的因果上,進(jìn)行單因素的分析。而目前大部分的研究還處于描述階段。 然后,最常見的工作就是我們把樣本進(jìn)行提DNA。 在DNA層面我們有三個(gè)常用的技術(shù),一個(gè)是擴(kuò)增子測(cè)序技術(shù),它是基于Marker(標(biāo)志物)基因的PCR就可以拿到樣本。然后結(jié)合高通量測(cè)序,它可以來研究我們研究對(duì)象的微生物的多樣性。 但是它的局限性,只能研究微生物多樣性,我想研究更多的東西,怎么做呢?我們就一般需要測(cè)宏基因組,就是把DNA全測(cè)了,用Shotgun(鳥槍)的方法。 你可以拿到物種組成,又可以獲得它的功能組成,同時(shí)還能拿到新基因,這個(gè)就很全面了。 但是宏基因組的數(shù)據(jù)量比較大,第二個(gè)問題對(duì)于宏基因組、擴(kuò)增子測(cè)序都是一樣的,就是對(duì)研究對(duì)象不分死活。就比如說土壤,很多都是遺跡DNA,但是它也能被測(cè)出來。 如果想研究活性物質(zhì)部分,你就需要研究它的RNA層面。就把我們傳統(tǒng)的轉(zhuǎn)錄組測(cè)mRNA的技術(shù)應(yīng)用上來,叫宏轉(zhuǎn)錄組就是Metatranscriptome。 此外還有宏蛋白組和宏代謝組的層面,另外值得一提的是病毒組。 如果我們真想全面研究病毒組,你需要既把宏基因組測(cè)掉,也要把宏轉(zhuǎn)錄組測(cè)掉,才能拿到所有的DNA和RNA病毒。而且病毒在研究對(duì)象中的含量也是比較低的,所以你的測(cè)序量也會(huì)要求比較高,分析也會(huì)比較復(fù)雜。 我們接下來就看一下一些測(cè)序儀。這是市面上用的主流的六款測(cè)序儀,我把它分成了三個(gè)時(shí)代。 一代測(cè)序就是Sanger測(cè)序。其實(shí)它是非常好的一個(gè)測(cè)序技術(shù),它測(cè)的比較長,也比較準(zhǔn)。 現(xiàn)在我們主要用的二代測(cè)序,就是賽默飛的Ion Torrent、華大基因的BGISEQ和Illumina 的Seq系列。 Ion Torrent,它是測(cè)序周期比較短,比較適合臨床一些比較著急的項(xiàng)目。華大基因的BGISEQ的準(zhǔn)確度和讀長比較折中,它在宏基因組上有較多的應(yīng)用。 最后就是Illumina 的Seq系列,它的讀長有長有短,所以在擴(kuò)增子和宏基因組上都有特別多的應(yīng)用。如果你要測(cè)擴(kuò)增子,它一般要求讀長比較長,所以只有Hiseq 2500和Novaseq 6000能測(cè)P250的模式,比較適合擴(kuò)增子的研究。 最后面兩款是三代測(cè)序儀,一個(gè)是Pacbio,一個(gè)是Nanopore。它們的讀長是有絕對(duì)的優(yōu)勢(shì)的,可以測(cè)到幾十K甚至是幾百K。 它們目前還受到測(cè)序準(zhǔn)確度比較低,以及相應(yīng)的配套軟件和算法還在開發(fā)中,各種不成熟的困擾,但它們一定是明日之星。 我們選擇了測(cè)序平臺(tái)之后,我們就來介紹一下這個(gè)領(lǐng)域重要的軟件。 軟件特別多,至少有幾十款,上百款都有。但是我就挑了這三個(gè)代表性的人物,因?yàn)樗麄兠總€(gè)人都有一款近幾年被引用近萬次的軟件。 第一款就是密蘇里大學(xué)的Patrick D. Schloss開發(fā)的,叫做Mothur。 在他之前,只有極少數(shù)的實(shí)驗(yàn)室能夠掌握擴(kuò)增子的分析技術(shù)。他之前開發(fā)過叫Son、Daughter,就是兒子、女兒的各種軟件,都是為擴(kuò)增子開發(fā)的。 他后來開發(fā)了Mothur,把這“一家人”裝在一起了,是一個(gè)完整的流程,我們可以從頭到尾的分析擴(kuò)增子數(shù)據(jù)。 然后在2010年的時(shí)候,Rob Knight教授也發(fā)布了一款整合了200多個(gè)軟件的擴(kuò)增子流程,叫做QIIME 。QIIME pipeline是真正的推動(dòng)這個(gè)領(lǐng)域走進(jìn)了尋常百姓家,QIIME目前也引用了有1.5萬次。 其實(shí)這個(gè)領(lǐng)域有兩個(gè)流程建立之后,我們可以分析了。但其實(shí)流程中的很多細(xì)節(jié)還不完善,還有待進(jìn)一步開發(fā)。 這時(shí)我就介紹第三位大佬,Robert Edgar。他還不是一位教授,他也沒有單位,他就坐在家里頭搞科學(xué)研究,自稱獨(dú)立研究員,為這個(gè)領(lǐng)域做出了巨大的貢獻(xiàn)。 他在2010年的時(shí)候,發(fā)布了一款Usearch的軟件,就是在序列比對(duì)上特別快速,較傳統(tǒng)的Blast方法能夠快10倍到1000倍。 這個(gè)軟件在擴(kuò)增子和宏基因組都有較多的應(yīng)用。他后來在擴(kuò)增子分析的多個(gè)流程、步驟中都進(jìn)行極大的改善。 比如他發(fā)明UCHIME算法,也是去嵌合體的經(jīng)典算法;然后他發(fā)明UPARSE算法,也是被作為OTU聚類和代表性序列挑選的金標(biāo)準(zhǔn);而且他后來推出了UNOISE算法,對(duì)Illumina測(cè)序的錯(cuò)誤去噪進(jìn)行了一個(gè)很好的改善。 他目前的個(gè)人引用達(dá)到了6萬多次。 因?yàn)闆]有科研經(jīng)費(fèi)的支持,他就把Usearch改編成了一個(gè)有200多個(gè)功能的微生物組的分析流程,變成一個(gè)收費(fèi)的軟件。如果你要分析大數(shù)據(jù)的話,就可以購買他這個(gè)64位的軟件。 我們現(xiàn)在也跟他合作,聯(lián)合開發(fā)它的中文版,希望同行能更方便的使用。 因?yàn)樗鞘召M(fèi)的,如果你要沒有足夠的經(jīng)費(fèi),沒有買這個(gè)更好的軟件,你可以用一個(gè)免費(fèi)版。是因?yàn)橛幸粋€(gè)作者開發(fā)一個(gè)叫做Vsearch的軟件,就是模仿Usearch的絕大部分功能,寫了一個(gè)免費(fèi)版,大家可以使用。 從2016年起,Rob Knight又發(fā)起建立QIIME2,因?yàn)镼IIME1的框架已經(jīng)滿足不了當(dāng)前的需求了。 很有幸,他也召集了我參與到這個(gè)項(xiàng)目中。這個(gè)項(xiàng)目下個(gè)月(2019年8月)就會(huì)在Nature Biotechnology正式見刊,到時(shí)候大家如果用它的話,就可以優(yōu)雅地引用這個(gè)軟件。 上面這些軟件主要是把大數(shù)據(jù)轉(zhuǎn)到大表,我們的下游的統(tǒng)計(jì)和可視化,需要在R里來完成。其實(shí)你不用去編程,你只要使用別人現(xiàn)成的函數(shù),直接可視化你的數(shù)據(jù)就可以了。 這里推薦三個(gè)比較好用的微生物領(lǐng)域分析的包。 一個(gè)是vegan,它在多樣性分析和環(huán)境因子的關(guān)聯(lián)上有很多非常成熟的函數(shù)和體系;還有一個(gè)就是phyloseq,它把進(jìn)化樹的信息整合進(jìn)來了,你可以做比較漂亮的關(guān)于進(jìn)化的探討和一些美化;還有microbiome這個(gè)包,它在跟多組學(xué)關(guān)聯(lián)還有跟表型的關(guān)聯(lián)上,有一些自定義的函數(shù)可以使用。 其實(shí)這些軟件分析的結(jié)果可能也就是幾十種,但我們?cè)谖恼吕飼?huì)發(fā)現(xiàn)有上百種甚至上千種不同的分析,那它們是如何實(shí)現(xiàn)的呢? 你如果看見圖,你不知道如何實(shí)現(xiàn),怎么辦呢?其實(shí)我們可以看他的文章,他發(fā)表的時(shí)候雖然沒有發(fā)表一個(gè)成熟的軟件,但他是把代碼分享出來的,這些代碼就放在Github上。 這里面,我搜集整理了一些能夠分享代碼的課題組,他們有很多文章都在他們的Github上面。 如果看到他們的文章有相關(guān)的分析,你也不用自己去編,用這些現(xiàn)成代碼去直接運(yùn)行一下他的測(cè)試項(xiàng)目,然后再稍微改改,應(yīng)用到自己的課題上,可以節(jié)約大量的時(shí)間。 我在兩年前,經(jīng)過了一年多的積累,也記了好多的筆記,我就想如果把它們分享出來,應(yīng)該對(duì)同行有很多幫助,就創(chuàng)辦了一個(gè)《宏基因組》公眾號(hào)。 我堅(jiān)持了兩年多,每天都沒有停歇。這700多天里發(fā)布了400多篇原創(chuàng)的文章,總共書寫了200多萬字,其中包括擴(kuò)增子的入門的圖表解讀、分析流程和繪圖的教程(三部曲)21篇。 還有QIIME2的官方中文文檔有18篇,還有一些宏基因組的分析流程,還有300多篇相關(guān)的綜述\文獻(xiàn)解讀。 目前我的公眾號(hào)有五萬多同行的關(guān)注,有800多萬的閱讀量。 當(dāng)時(shí)其實(shí)我只想建一個(gè)500人的圈子。 結(jié)果發(fā)展兩年,現(xiàn)在應(yīng)該有了5萬多人。我也見識(shí)到我們國內(nèi)這個(gè)領(lǐng)域到底有多大。 目前我們公眾號(hào)有30多位國內(nèi)外的同行投稿,我們現(xiàn)在也有一個(gè)穩(wěn)定的團(tuán)隊(duì)和稿源。 我也歡迎廣大同行分享你的經(jīng)驗(yàn)、你的成果解讀和技術(shù)方法。其實(shí)你把這個(gè)東西整理出來、發(fā)表出來之后,你從別人角度去寫成一個(gè)教程的時(shí)候,你對(duì)自己的提高是特別大的。 這兩年,我在這個(gè)公眾號(hào)上也花費(fèi)了大量時(shí)間。每年可能要花費(fèi)上千小時(shí)的時(shí)間去整理這些資料。 有人說,那你整理這些資料,你還有時(shí)間去做科研嗎?其實(shí)這些都是用我的業(yè)余時(shí)間完成的,我的主要任務(wù)還是做科研。 工作三年,我也經(jīng)歷了文章投稿,被拒,就連送審都不送審;然后文章投稿,被大修;然后文章投稿,接收,這三個(gè)過程。 近一年多,我有七篇文章被接收,包括一篇Science和兩篇Nature Biotechnology,累計(jì)影響因子有130多分。其中兩篇文章也被選為封面文章,也是雜志社對(duì)我們分析的一個(gè)認(rèn)可。 我們也在想,怎么樣讓沒有編程基礎(chǔ)的人用好這些R語言的圖,讓他們更好地展示自己的數(shù)據(jù)呢? 我也和我的同行們開發(fā)了一個(gè)網(wǎng)站,叫ImageGP,提供R語言在線繪制。20多種常見的圖,還有一些微生物常見的分析,我們都把它實(shí)現(xiàn)了在線化。 舉個(gè)例子,你把數(shù)據(jù)粘貼在這,點(diǎn)一下plot,就可以繪制出相應(yīng)的圖表。 我們將來進(jìn)一步還會(huì)開放它的源代碼,你可以用我們這個(gè)網(wǎng)站來寫一個(gè)繪圖的代碼的框架,你在技術(shù)上可以進(jìn)一步改。 最后我再總結(jié)一下我這個(gè)報(bào)告的主要內(nèi)容,就講微生物組數(shù)據(jù)分析,到底我們需要掌握哪些基本思想、工作環(huán)境、基本技能以及工具選擇的經(jīng)驗(yàn)。 要入門微生物組數(shù)據(jù)分析的話,我們研究的基本步驟就主要是這四個(gè)——采樣、測(cè)序、數(shù)據(jù)分析和統(tǒng)計(jì)可視化。 我們分析的基本思想,其實(shí)就是三步走,我們要從大數(shù)據(jù)降維到大表,從大表再降維到小表,從小表再可視化成圖。 我們?nèi)绾蝸韺?shí)現(xiàn)呢?其實(shí)你只要掌握一個(gè)軟件,就是Rstudio這個(gè)軟件。在這個(gè)環(huán)境里,可以管理shell的流程,可以管理R語言的統(tǒng)計(jì)和繪圖。 而且項(xiàng)目是可重復(fù)的,你如果在做類似一個(gè)項(xiàng)目,你只要把數(shù)據(jù)一替換,點(diǎn)一下Run,你的同樣的結(jié)果就會(huì)出來了,這是非常提高工作效率的一種工作方式。 在軟件的選擇上,如果你是新人剛上手的話,就推薦使用Usearch。但它是收費(fèi)的,如果經(jīng)費(fèi)允許的話,還是建議可以購買。 如果你想使用免費(fèi)版,可以使用Vsearch。你是Windows電腦、Mac電腦都可以用,它是跨平臺(tái)的。 如果你是有一定基礎(chǔ)的話,你拓展一些它沒有的分析的話,你可以學(xué)習(xí)QIIME2。QIIME2只能是在Linux系統(tǒng)上使用。也有人用Mothur,這個(gè)我倒不是很熟悉。 在可視化方面,推薦大家必用的兩個(gè)包,一個(gè)是vegan,一個(gè)是phyloseq。 我們即使找不到的一些分析方法,也可以去看文章,找那些文章中有附帶代碼的文章。 如果你還是看代碼看得就頭疼,你很討厭代碼,也沒關(guān)系,現(xiàn)在有很多在線的平臺(tái),你可用在線平臺(tái)去分析數(shù)據(jù),然后去繪圖。 但記住,在線平臺(tái)在簡(jiǎn)單的同時(shí),也在捆住了你的手腳,也限制了你分析的自由度。只有開放代碼才是無所不能的。 最后推薦大家一個(gè)習(xí)慣,就是我們要養(yǎng)成分享和記錄筆記的習(xí)慣。推薦大家用有道云筆記、為知筆記,記這種Markdown格式的電子筆記。 因?yàn)樗羌兾谋镜?,無論筆記有多多,我們都能檢索。另一個(gè)就是,你學(xué)會(huì)了,你自己會(huì)用了,你把你的筆記整理成一篇教程,能夠幫助同行更節(jié)約時(shí)間去學(xué)習(xí)。 把它分享在平臺(tái)上幫助更多人,表面上是一個(gè)很浪費(fèi)時(shí)間的工作,但其實(shí)如果你整理分享出來的話,對(duì)你自己是一個(gè)提高。你從一個(gè)學(xué)生的層面變成一個(gè)老師的層面,你的能力和各方面提高是不言而喻的。 最后分享一張圖,這個(gè)盲人摸象的故事,大家應(yīng)該都很熟悉。 其實(shí)我這15年做科研,最大的一個(gè)感悟就是,我們做科研其實(shí)跟盲人摸象是完全一樣的。 早先在單基因研究的時(shí)代,我們克隆個(gè)基因,研究個(gè)功能,說這個(gè)有什么功能,其實(shí)像盲人摸象一樣,我們只能以點(diǎn)帶面了。 但是我們現(xiàn)在在組學(xué)時(shí)代,我們一次測(cè)序可以拿到腸道微生物的上千萬的基因。但是我們真的就是以上帝視角全面的看大象嗎?其實(shí)不是的,我們?nèi)匀皇敲と嗣蟮臓顟B(tài)。 因?yàn)槿绻銣y(cè)了多組學(xué),比如你測(cè)了宏基因組,又有宏轉(zhuǎn)錄組,又有代謝組,你會(huì)發(fā)現(xiàn)不同組學(xué)之間,數(shù)據(jù)結(jié)果是不一樣的,有的甚至是矛盾沖突的。 但是如果你見過這張圖,你就知道每個(gè)技術(shù)只是一個(gè)看問題的角度,所以說它們是不沖突的。這樣的話可以能更好地理解我們的結(jié)果。 最后,祝大家能夠帶著懷疑的精神去科研,勇敢地挖掘你的微生物組數(shù)據(jù)。讓我們更好地探索人類和微生物的關(guān)系,讓我們生活變得更美好。 最后謝謝在場(chǎng)的所有的老師和同學(xué),也感謝熱心腸的邀請(qǐng)。 謝謝大家! |
|