乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      “0代碼”如何拿別人的數(shù)據(jù)發(fā)自己的文章

       Mr_Eight 2021-03-18

      公共數(shù)據(jù)庫(kù)挖掘呀!圖片圖片圖片

      眾所周知,TCGA和GEO是最著名的兩大公共數(shù)據(jù)庫(kù),前者主要存儲(chǔ)高通量(二代測(cè)序)數(shù)據(jù)的腫瘤樣本數(shù)據(jù),后者GEO數(shù)據(jù)庫(kù)全稱Gene Expression Omnibus database,是由美國(guó)NCBI創(chuàng)建并維護(hù)的基因表達(dá)數(shù)據(jù)庫(kù)。它創(chuàng)建于2000年,論文中涉及到的基因表達(dá)檢測(cè)的數(shù)據(jù)幾乎都提交到了這個(gè)數(shù)據(jù)庫(kù)。

      GEO除了二代測(cè)序數(shù)據(jù),還包含芯片測(cè)序、單細(xì)胞測(cè)序數(shù)據(jù),樣本數(shù)據(jù)也不限于腫瘤。不同于TCGA的規(guī)整數(shù)據(jù),GEO芯片數(shù)據(jù)由于芯片平臺(tái)(公司)不同,需要進(jìn)行ID轉(zhuǎn)換(芯片ID對(duì)應(yīng)基因)、數(shù)據(jù)標(biāo)準(zhǔn)化、去批次效應(yīng)后,才能進(jìn)行數(shù)據(jù)分析,這也是GEO數(shù)據(jù)挖掘的難點(diǎn),很多科研萌新一看到眼花繚亂的數(shù)據(jù),瞬間懵逼了。

      不過好在,在今天的神站上,你只要鼠標(biāo)點(diǎn)點(diǎn)點(diǎn)”就可以分析兩大數(shù)據(jù)庫(kù)的數(shù)據(jù),獲得高清矢量圖,更重要的是全部提供原始數(shù)據(jù)方法學(xué)寫作。

      圖片

      01

      TCGA數(shù)據(jù)分析

      平臺(tái)是由幾個(gè)臨床醫(yī)生聯(lián)合生信大拿一起搭建,界面極其簡(jiǎn)介,左側(cè)欄是TCGA上所有33種腫瘤類型,之后第二期會(huì)納入非腫瘤的疾病。頂部是各種分析模塊。首頁(yè)特別注明了,所有數(shù)據(jù)均由R v4.0.3分析完成, 意思就是說在平臺(tái)上分析的結(jié)果和拿R語(yǔ)言敲代碼分析的結(jié)果是完全一樣的,這就太爽了。

      圖片

      圖片

      別看界面簡(jiǎn)單,該平臺(tái)功能極其強(qiáng)大,比如想分析下“某個(gè)基因在肺腺癌里EGFR突變和野生型病人中表達(dá)水平和預(yù)后差異”就輕而易舉。

      平臺(tái)有極其強(qiáng)大的樣本篩選功能,可以對(duì)樣本進(jìn)行除了臨床信息,治療信息的進(jìn)一步篩選外,比如可以根據(jù)某一個(gè)基因是否突變篩選,某一個(gè)基因的表達(dá)量水平進(jìn)行篩選,比如近年來火熱的肺腺癌EGFR野生型伴PDL-1低表達(dá)相關(guān)研究,就完全沒問題了。這也是目前已知所有第三方網(wǎng)站無(wú)法實(shí)現(xiàn)的。

      圖片

      樣本篩選表

      樣本篩選好后,就可以選擇需要的功能模塊進(jìn)一步分析啦。

      單樣本分析,顧名思義就是針對(duì)某一個(gè)樣本的分析,里面的工具目前包括了臨床信息比較,批量生存分析,基因與生存,基因與TMB/MSI,?;鶊D,兩基因相關(guān)性。

      圖片

      而多樣本分析,就是針對(duì)某幾個(gè)樣本之間差異的比較,目前包括以下工具:

      多組生存,基因表達(dá)比較,miRNA比較,突變比較,免疫評(píng)分,免疫檢查點(diǎn),甚至鐵死亡,m6A。

      圖片

      在復(fù)雜分析里,集成了以下耳熟能詳?shù)姆治瞿K,比如亞組分型,基因突變景觀,差異基因分析,預(yù)后模型(列線圖),預(yù)后模型(Signature),泛癌分析。

      圖片

      然后,在思維導(dǎo)圖和視頻教程里,180師兄和911師兄講解了如何使用“十字研究法”,交叉運(yùn)用單樣本和多樣本工具,讓課題設(shè)計(jì)思如泉涌。

      圖片

      這些分析如果讓公司去做,估計(jì)要幾百上千甚至上萬(wàn)了,而這個(gè)平臺(tái)鼠標(biāo)點(diǎn)擊幾下,就可以生成所有的高清矢量圖,更重要的是還有對(duì)應(yīng)的原始數(shù)據(jù)下載,這個(gè)相當(dāng)重要。

      不僅如此,平臺(tái)還針對(duì)每一個(gè)分析結(jié)果,給出了對(duì)應(yīng)圖例,方法學(xué),結(jié)果的中英文對(duì)照,和參考文獻(xiàn),這個(gè)對(duì)我們寫文章也很重要。

      圖片

      從課題設(shè)計(jì),工具使用,再到零代碼,一鍵分析,原始數(shù)據(jù)下載,再到論文寫作,不得不說,這個(gè)由一群醫(yī)生創(chuàng)建的生信平臺(tái),實(shí)在是太懂廣大科研g(shù)ou了。

      02

      中文版GEO數(shù)據(jù)庫(kù)

      相比TCGA主要存儲(chǔ)高通量(二代測(cè)序)數(shù)據(jù)的腫瘤樣本數(shù)據(jù),GEO數(shù)據(jù)庫(kù)全稱Gene Expression Omnibus database,是由美國(guó)NCBI創(chuàng)建并維護(hù)的基因表達(dá)數(shù)據(jù)庫(kù)。它創(chuàng)建于2000年,論文中涉及到的基因表達(dá)檢測(cè)的數(shù)據(jù)幾乎都提交到了這個(gè)數(shù)據(jù)庫(kù)。

      GEO除了二代測(cè)序數(shù)據(jù),還包含芯片測(cè)序、單細(xì)胞測(cè)序數(shù)據(jù),樣本數(shù)據(jù)也不限于腫瘤。不同于TCGA的規(guī)整數(shù)據(jù),GEO芯片數(shù)據(jù)由于芯片平臺(tái)(公司)不同,需要進(jìn)行ID轉(zhuǎn)換(芯片ID對(duì)應(yīng)基因)、數(shù)據(jù)標(biāo)準(zhǔn)化、去批次效應(yīng)后,才能進(jìn)行數(shù)據(jù)分析,這也是GEO數(shù)據(jù)挖掘的難點(diǎn),很多科研萌新一看到眼花繚亂的數(shù)據(jù),瞬間懵逼了。

      臨床生信之家的GEO分析工具,從小編的體驗(yàn)看,有以下特點(diǎn):

      1.所有數(shù)據(jù)都來之GEO,以上提到的難弄的數(shù)據(jù)預(yù)處理過程均自動(dòng)完成。

      2.臨床生信之家一貫的:無(wú)需代碼基礎(chǔ),鼠標(biāo)點(diǎn)點(diǎn)點(diǎn)即可完成ID轉(zhuǎn)換,數(shù)據(jù)標(biāo)準(zhǔn)化,去批次,高清出圖,原始數(shù)據(jù)下載一氣呵成!

      3.數(shù)據(jù)集介紹全部實(shí)行中英文對(duì)照。

      這樣的“中文版GEO數(shù)據(jù)庫(kù)”你愛不愛呢?!圖片圖片圖片

      首先選擇GEO分析模塊,選擇數(shù)據(jù)集篩選,搜索框中直接輸入心血管方向的 “高血壓”。

      圖片

      右邊可以選擇是匹配標(biāo)題還是摘要還是實(shí)驗(yàn)設(shè)計(jì)類型,此處我們選擇標(biāo)題。

      圖片

      臨床生信之家官網(wǎng)

      點(diǎn)擊檢索后,就出來匹配到的數(shù)據(jù)集,根據(jù)匹配程度排序,沒接觸過geo數(shù)據(jù)庫(kù)的同學(xué)可能有點(diǎn)懵,這里稍微解釋下,1.數(shù)據(jù)集:在Geo數(shù)據(jù)庫(kù)中代表一個(gè)實(shí)驗(yàn)項(xiàng)目(就是某個(gè)作者上傳的集合),包括所有樣本信息,GSE是數(shù)據(jù)集的編號(hào)開頭。 2.芯片平臺(tái):不同芯片公司使用不同芯片平臺(tái),不同芯片以GPL字母開頭,不同芯片平臺(tái)包含不同的探針和基因ID對(duì)應(yīng)關(guān)系,所以芯片數(shù)據(jù)預(yù)處理時(shí),需要將探針I(yè)D轉(zhuǎn)換為對(duì)應(yīng)的基因,稱為“探針I(yè)D轉(zhuǎn)換”。3.樣本,這里直接給出某個(gè)數(shù)據(jù)集的樣本量。

      圖片

      然后點(diǎn)開數(shù)據(jù)集邊上的小三角,就展開這個(gè)數(shù)據(jù)集的詳細(xì)介紹,包括標(biāo)題,五中,實(shí)驗(yàn)類型,概要,實(shí)驗(yàn)設(shè)計(jì),參考文獻(xiàn),這些信息都是和geo數(shù)據(jù)庫(kù)一對(duì)一對(duì)應(yīng)的,同時(shí)給了中文翻譯,默認(rèn)是灰色,鼠標(biāo)放上去就會(huì)變黑。

      圖片

      比如GSM24752這個(gè)數(shù)據(jù)集,通過瀏覽,很容易知道這個(gè)實(shí)驗(yàn)是人原發(fā)性高血壓患者外周血細(xì)胞差異基因表達(dá)的微陣列分析,對(duì)比的是高血壓患者和正常血壓作為對(duì)照組,如果想更詳細(xì)了解這個(gè)實(shí)驗(yàn),可以直接點(diǎn)擊citation里的對(duì)應(yīng)文獻(xiàn)查看。

      右邊看到這個(gè)數(shù)據(jù)集一共6個(gè)樣本,然后點(diǎn)開樣本邊上的三角,就顯示出各個(gè)樣本啦。

      圖片

      從樣本的名字source name可以看出,前三個(gè)HTN是高血壓組,后三個(gè)樣本是NC對(duì)照組。

      接下里就是分組樣本了,直接鼠標(biāo)單擊,多個(gè)樣本就用excle里經(jīng)常操作的shift+單擊,樣本變藍(lán),就是選中了。

      圖片

      然后就是輸入分組的名字,比如高血壓組,點(diǎn)擊收錄,就創(chuàng)建了樣本分組,同理設(shè)定了正常血壓組。此時(shí)會(huì)發(fā)現(xiàn)探針的ID轉(zhuǎn)換就開始自動(dòng)處理了。樣本左邊的group已經(jīng)顯示設(shè)置的樣本名。

      圖片

      這樣可以選擇多個(gè)數(shù)據(jù)集,進(jìn)行多個(gè)樣本分組的設(shè)定,所有選擇的數(shù)據(jù)集和樣本分組都會(huì)在檢索區(qū)的底部過渡區(qū),此時(shí)可以設(shè)置項(xiàng)目名,點(diǎn)擊收錄到位的樣本庫(kù)。就會(huì)到主頁(yè)的左邊欄了。

      圖片

      設(shè)置好樣本之后,就可以開始對(duì)geo的芯片數(shù)據(jù)進(jìn)行各種分析啦,比如以下這個(gè)差異基因,樣本一選擇高血壓組,樣本二組選擇對(duì)照組,此時(shí),數(shù)據(jù)標(biāo)準(zhǔn)化,去批次效應(yīng)會(huì)自動(dòng)完成,然后點(diǎn)擊plot,差異基因分析完畢。

      圖片

      圖片是高清矢量圖,包含了標(biāo)準(zhǔn)化后的圖和去批次效應(yīng)的結(jié)果圖,這2個(gè)圖發(fā)文章的時(shí)候可以放在補(bǔ)充材料,說明你做過了。然后就是差異基因經(jīng)典的火山圖,熱圖和kegg通路富集和go功能富集啦。

      圖片

      圖片

      其他分析模塊此處就略了,和TCGA數(shù)據(jù)庫(kù)的分析一樣一樣的。也同樣有高清矢量圖,原始數(shù)據(jù)下載,對(duì)應(yīng)圖例,方法學(xué),結(jié)果的中英文對(duì)照,和參考文獻(xiàn)。

      弗雷賽斯

      -浙江大學(xué)碩博創(chuàng)建于2015年 

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多