乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

       taotao_2016 2019-06-29

      DNA甲基化在基因表達(dá)調(diào)控中起重要作用,其修飾可導(dǎo)致癌細(xì)胞的產(chǎn)生或抑制。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      介紹

      機(jī)器學(xué)習(xí)(ML)在醫(yī)學(xué)中的應(yīng)用現(xiàn)在變得越來越重要。研究人員現(xiàn)在在腦電圖分析和癌癥檢測/分析等應(yīng)用中使用ML。例如,通過檢查諸如DNA甲基化和RNA測序的生物學(xué)數(shù)據(jù),可以推斷哪些基因可以導(dǎo)致癌癥以及哪些基因可以反而能夠抑制其表達(dá)。

      本文將向您介紹我如何檢查9個關(guān)于TCGA肝臟、宮頸癌和結(jié)腸癌的不同數(shù)據(jù)集。所有數(shù)據(jù)集均由UCSC Xena(加州大學(xué)圣克魯茲分校網(wǎng)站)提供。對于所考慮的3種不同類型的癌癥中的每一種,使用三個數(shù)據(jù)集,其包含關(guān)于DNA甲基化的信息(Methylation450k),基因表達(dá)RNAseq(IlluminaHiSeq),最后是外顯子表達(dá)RNAseq(IlluminaHiSeq)。然后根據(jù)信息類型而不是癌癥對這些數(shù)據(jù)集進(jìn)行分組。

      我們決定使用這些數(shù)據(jù)集,因?yàn)樗鼈兙哂泄餐乃刑卣鞑⒐蚕硐嗨茢?shù)量的樣本。

      此外,選擇這些類型的癌癥,因?yàn)樗鼈兲峁┝巳梭w基因和染色體特征的不同視圖,因?yàn)椴煌陌┌Y位于身體的不同部位。通過這種方式,在本文練習(xí)中獲得的分類結(jié)果可以推廣到其他形式的癌癥。

      DNA甲基化在基因表達(dá)調(diào)控中起重要作用,其修飾可導(dǎo)致癌細(xì)胞的產(chǎn)生或抑制

      分類

      每個數(shù)據(jù)集都必須進(jìn)行轉(zhuǎn)置和預(yù)處理。在形成最終的三個數(shù)據(jù)集之后,進(jìn)行不同類型的癌癥之間的分類。為了產(chǎn)生這些結(jié)果,使用70%的訓(xùn)練,30%的測試分流比。如表1所示,考慮了許多分類算法。這些結(jié)果是利用整個數(shù)據(jù)集和分類器獲得的,旨在正確區(qū)分三種不同類型的癌癥。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      表1

      特征提取

      對3個給定的數(shù)據(jù)集進(jìn)行了主成分分析(PCA),以了解如何僅使用前兩個主成分來影響分類精度結(jié)果(表2)。PCA旨在減少數(shù)據(jù)集的維度,同時保留盡可能多的差異。從表2中可以看出,將數(shù)據(jù)維度降低到僅僅兩個特征并不會導(dǎo)致準(zhǔn)確性的急劇下降。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      表2

      圖1提供了使用Logistic回歸的PCA分類結(jié)果,兩個軸代表PCA創(chuàng)建的兩個主要成分。外顯子表達(dá)數(shù)據(jù)集似乎受PCA影響最大,得分最高可達(dá)65%。這個結(jié)果的原因是不同類之間的主要重疊,如圖1(c)所示。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      圖1

      最后,我決定應(yīng)用另一種特征提取技術(shù),如t-SNE??梢詫?shí)現(xiàn)該技術(shù)以將高維數(shù)據(jù)可視化到較低維空間中,從而最大化不同類之間的分離。結(jié)果顯示在圖2中,雙軸代表由t-SNE設(shè)計的兩個主要組分。三種不同類型的癌癥中的每一種都使用不同的顏色標(biāo)記(TCGA肝臟= 0,頸椎= 1,結(jié)腸= 2)??梢钥闯觯ㄟ^圖2,t-SNE創(chuàng)建了兩個能夠很好地分離三個不同類的特征。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      圖2

      特征選擇

      前面的部分向我們展示了使用整個數(shù)據(jù)集可以實(shí)現(xiàn)非常好的分類結(jié)果。使用諸如PCA和t-SNE之類的特征提取技術(shù),已經(jīng)表明可以降低維數(shù),同時仍然產(chǎn)生可觀的分類分?jǐn)?shù)。

      由于這些結(jié)果,我們繪制一個決策樹,用于表示分類中使用的主要特征(具有最大權(quán)重的特征),以便仔細(xì)查看最重要的特征。由于其在所有三個數(shù)據(jù)集中的分類性能,我決定使用決策樹進(jìn)行分析。結(jié)果可見于圖3(DNA甲基化),圖4(基因表達(dá))和圖5(外顯子表達(dá))。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      在這些圖中的每一個中,不同的癌癥類型由不同的顏色表示(TCGA肝臟= 0,頸椎= 1,結(jié)腸= 2)。所有三種癌癥的特征分布都在樹的起始節(jié)點(diǎn)中表示。只要我們向下移動每個分支,算法就會嘗試使用每個節(jié)點(diǎn)圖下面描述的特征來最好地分離不同的分布。與分布一起生成的圓圈表示在跟隨某個節(jié)點(diǎn)之后正確分類的元素的數(shù)量,元素的數(shù)量越大,圓的大小越大。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      為了制作這些圖表,我使用了由Terence Parr和Prince Grover創(chuàng)建的dtreeviz.trees庫。我決定使用這個庫,因?yàn)樗刮夷軌蚩梢暬瘶涞拿總€分支中的特征分布。當(dāng)試圖分析類之間的差異并觀察算法如何做出其分類決策時,這在生物學(xué)范圍內(nèi)尤其重要。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      評估

      表3提供了在三個不同樹的頂部(前兩個級別)使用的特征的總結(jié)。經(jīng)過仔細(xì)研究,查看在線可用數(shù)據(jù)庫后,為每個功能添加了一系列相關(guān)注釋(表3)。在cg27427318和chr10:81374338-81375201的情況下,無法找到任何相關(guān)信息。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      表3

      從分析的特征推斷出的一些最有趣的結(jié)果是:

      1. PFN3已被確定為與cg06105778最接近的基因。根據(jù)李鄒,丁志杰等人的研究。在2010年,Profilins(Pfns)可能被歸類為乳腺癌中的腫瘤抑制蛋白。
      2. 根據(jù)Noel J. Aherne,Guhan Rangaswamy等人的'Holt-Oram綜合征男性前列腺癌:TBX5突變的第一臨床關(guān)聯(lián)',TBX5基因'被認(rèn)為是上調(diào)腫瘤細(xì)胞增殖和轉(zhuǎn)移的時候'。突變'[5]。Yu J,Ma X等人的另一項(xiàng)研究。相反,患有TBX5結(jié)腸癌的患者存活率低得多。
      3. 由Alexa Hryniuk,Stephanie Grainger等人進(jìn)行的研究。強(qiáng)調(diào)'缺失Cdx1導(dǎo)致遠(yuǎn)端結(jié)腸腫瘤發(fā)生率顯著增加'。

      僅使用表3中列出的各個數(shù)據(jù)集中的特性,我最終決定使用PCA和線性判別分析(LDA)將數(shù)據(jù)簡化為二維,并執(zhí)行樸素貝葉斯(NB)和支持向量機(jī)(SVM)分類,以了解數(shù)據(jù)的差異程度。表4中提供了結(jié)果,表明僅使用數(shù)據(jù)集中最重要的特征可以獲得出色的分類結(jié)果(由于噪音降低)。在所有考慮的案例中,保留了83%至99%的原始數(shù)據(jù)差異。

      利用機(jī)器學(xué)習(xí)對癌癥進(jìn)行檢測與分析

      表4

      結(jié)論

      整體而言,這個項(xiàng)目取得了非常好的成績。作為進(jìn)一步的發(fā)展,嘗試其他特征選擇技術(shù)(如遞歸特征選擇(RFS)或SVM將是有趣的,以查看是否可以識別其他類型的基因/染色體。對該分析的另一種可能的改進(jìn)可以是使用包含來自健康受試者的數(shù)據(jù)的數(shù)據(jù)集以及交叉驗(yàn)證所獲得的結(jié)果。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多