作者:酸菜 轉(zhuǎn)載請注明:解螺旋·臨床醫(yī)生科研成長平臺 大數(shù)據(jù)紛飛的年代,不學(xué)點數(shù)據(jù)庫挖掘技能,你都不好意思跟人說自己是搞基礎(chǔ)科研滴。 1 META已廢,問世間不做實驗不花錢就能發(fā)SCI的套路,貌似僅剩生信分析與臨床研究兩款。臨床研究還需要高質(zhì)量臨床資料的支撐,諸君恐巧婦難為無米炊。而生信套路堪稱“無中生有”,網(wǎng)上下載數(shù)據(jù),唰唰唰那么一分析,出一堆語焉不詳?shù)撵n圖就組成一篇SCI。 于是,我在無數(shù)個場合聽到學(xué)員說,老師,教教我怎么用數(shù)據(jù)挖掘發(fā)文章吧!同學(xué),你看你哈喇子都流下來了,趕緊擦一擦。 生信套路有七十二般變化,然而飯是一口口吃的。在靈活應(yīng)用生信工具發(fā)表SCI文章之前,你首先要做一個能在各大數(shù)據(jù)庫之間自由穿梭的優(yōu)雅男子/女子,唯有此,你才有機(jī)會進(jìn)階成為玩弄數(shù)據(jù)于股掌之間的生信高手。 駕馭生信策略,首先得了解數(shù)據(jù)庫的分類用途。數(shù)據(jù)庫可分四類:信息數(shù)據(jù)庫、通路數(shù)據(jù)庫、互作數(shù)據(jù)庫和高通量數(shù)據(jù)庫。信息數(shù)據(jù)庫,如NCBI,UCSC,Ensenbl查DNA和RNA信息,Uniprot查蛋白信息,類似于個人身份證ID,集特征信息于一體(上周解螺旋有免費贈課)。 通路數(shù)據(jù)庫如KEGG,DAVID,GSEA,提供信號通路與功能聚類相關(guān)的指引,做機(jī)制的時候先分析再驗證逼格立馬Level up(文章底部有福利)。 互作數(shù)據(jù)庫主要用于預(yù)測分子與分子之間的相互作用,比如miRNA的靶基因,lncRNA的結(jié)合蛋白,啟動子結(jié)合的轉(zhuǎn)錄因子等等,是機(jī)制環(huán)節(jié)展現(xiàn)深度的閃亮鑰匙。以上這些,均不足以直接通過分析產(chǎn)生SCI文章,要用別人的數(shù)據(jù)發(fā)自己的文章,僅有挖掘高通量數(shù)據(jù)庫可實現(xiàn)。 高通量數(shù)據(jù),即基因芯片和二代測序數(shù)據(jù),前人將他們的篩選結(jié)果無私地分享,上傳至開放數(shù)據(jù)庫存儲,后人就可以依據(jù)自己的問題和理解二次分析產(chǎn)生新的結(jié)論發(fā)表。高通量數(shù)據(jù)倉庫中經(jīng)典有GEO、ArrayExpress和SMD,主要存儲基因表達(dá)的芯片數(shù)據(jù),做腫瘤的同學(xué)更幸福,有TCGA,Oncomine等專門的疾病數(shù)據(jù)庫。 2 那么,到底要學(xué)會使用多少生信數(shù)據(jù)庫(軟件),才能做好基礎(chǔ)科研呢?不好意思,我又想起了同學(xué)們謀求最小代價發(fā)SCI的世俗思路,酸菜知道,不假裝清高,才能深入民心。好!最有效率的生信技能學(xué)習(xí)路徑,我不妨來解一解。 在你追求低分灌水的階段,學(xué)會使用GEO這一類的表達(dá)數(shù)據(jù)庫是極有必要的,從數(shù)據(jù)庫下載數(shù)據(jù)只是第一步,關(guān)鍵是學(xué)習(xí)分析的方法,這里面有大量的統(tǒng)計學(xué)知識,需要逐一攻克。 總體而言,高通量數(shù)據(jù)分析的結(jié)果是為了獲得一個或者一組靶標(biāo),這其中可以用1個或者幾個數(shù)據(jù)子集,然后利用有臨床資料的數(shù)據(jù)子集,再去分析高表達(dá)和低表達(dá)對疾病發(fā)生、發(fā)展及預(yù)后的影響。這一套路中需要掌握2種具體技能:高通量數(shù)據(jù)篩選差異基因的分析流程,以及臨床資料進(jìn)行單因素、多因素和生存分析的統(tǒng)計操作。 有時候,單個靶標(biāo)不太過癮,高階的統(tǒng)計學(xué)手法可將多個靶標(biāo)根據(jù)評分組成多維度的分子預(yù)測模型,按照這一思路,基本步驟是一個數(shù)據(jù)集建立模型,再選擇另一個數(shù)據(jù)集驗證模型,最好再來點自己的樣本做獨立驗證集,由此證明模型的有效性。 其實,差異分析加上臨床相關(guān)性研究,已經(jīng)能夠產(chǎn)出一系列數(shù)據(jù)結(jié)果,如果再有細(xì)胞水平做表型驗證,文章會很容易發(fā)表。 然而不想做細(xì)胞實驗的同學(xué),單指標(biāo)分析看上去太水不容易發(fā)表,改用復(fù)合指標(biāo)建立預(yù)測模型會是一個很好的提升逼格方法。這一類挖掘基因表達(dá)數(shù)據(jù)后用復(fù)合指標(biāo)建模的操作流程難度類似于META分析,用學(xué)META的時間投入可一舉攻克。 3 隨著科研能力的遞增,“干濕結(jié)合”的研究方法就自然而然成為主要策略,生物信息學(xué)謂之“干”,細(xì)胞分子實驗謂之“濕”,只有大數(shù)據(jù)分析加上生物實驗驗證的結(jié)果才能發(fā)表高水平的paper。 到了這一階段,信息數(shù)據(jù)庫往往是實驗入門的基礎(chǔ)應(yīng)用,設(shè)計引物,做表達(dá)克隆,siRNA都少不了查序列信息,做Western驗證還應(yīng)該考慮蛋白的大小、亞細(xì)胞定位等特性,相關(guān)數(shù)據(jù)庫會高頻用到。 細(xì)胞表型Gain of function和Loss of function的“濕”,配上前面數(shù)據(jù)挖掘獲得的“干”,完美地組成一項層次分明的研究課題,是當(dāng)下流行風(fēng)氣。 我們似乎還沒有用到通路數(shù)據(jù)庫和互作數(shù)據(jù)庫?莫急,分子互作的預(yù)測只有當(dāng)你細(xì)胞、動物實驗表型做完,深入到分子機(jī)制的時候才會涉及,特別是研究miRNA,lncRNA這些非編碼RNA的同學(xué),對此心有戚戚,難舍難離。 用到分子互作數(shù)據(jù)庫的文章檔次應(yīng)在五分往上,因此科研入門階段,并不需要惦念過甚。倒是通路數(shù)據(jù)庫,無論是做靶標(biāo)篩選還是機(jī)制探索,都有其一席之地。給一組分子,還你一套調(diào)控網(wǎng)絡(luò)圖,怎么看都是價廉物美,童叟無欺的良心工具。 上周學(xué)習(xí)了NCBI,UCSC,Ensenbl和Uniprot,這周,邀請各位來耍一耍KEGG,DAVID,依我之見,通路分析掌握此二君,足矣! 三步獲得KEGG,DAVID課程視頻 第一步 |
|