乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      文獻(xiàn)匯報(bào)||Lasso方法在腫瘤基因位點(diǎn)篩選中的應(yīng)用

       生物_醫(yī)藥_科研 2019-01-24

      生存分析中建立回歸模型的用途一種是想通過模型了解協(xié)變量是如何影響生存結(jié)局的,另一種是利用協(xié)變量來預(yù)測(cè)生存結(jié)局,從而為后續(xù)的治療提供決策支持。在預(yù)測(cè)模型的研究中,可能有數(shù)十種(甚至數(shù)千種)預(yù)測(cè)因子可用。 這些預(yù)測(cè)因子中的大部分可能沒有任何結(jié)果。例如在生物信息學(xué)中,基因位點(diǎn)上億(自變量數(shù)),如果想在這數(shù)億個(gè)基因位點(diǎn)中尋找出影響某疾病的位點(diǎn)出來,利用傳統(tǒng)的建模方法,樣本量個(gè)數(shù)是自變量個(gè)數(shù)至少10倍計(jì)算,研究的樣本量需要十億或者百億。這種研究用傳統(tǒng)方法不現(xiàn)實(shí),這種數(shù)據(jù)類型,屬于高維數(shù)據(jù)(自變量個(gè)數(shù)遠(yuǎn)大于樣本量個(gè)數(shù)),傳統(tǒng)方法不再適用。解決這一方法的問題,類似初中解二元一次方程組,基本思想是消元降維。目前降維的算法有,LASSO,PCA,聚類分析,小波分析,線性判別分析,拉普拉斯特征映射,局部線性潛入等。除了數(shù)據(jù)維度增加外,常見的另一個(gè)問題是數(shù)據(jù)變量之間存在共線性,共線性的解決方法,嶺回歸或者PCA。LASSO算法就是基于上述兩個(gè)問題,提出的一種方法,它是在嶺回歸的基礎(chǔ)上的一種改進(jìn),可解決變量共線性和數(shù)據(jù)的降維。Lasso的基本思想是在回歸系數(shù)的絕對(duì)值之和小于一個(gè)常數(shù)的約束條件下,使殘差平方和最小化,從而能夠產(chǎn)生某些嚴(yán)格等于0的回歸系數(shù),得到解釋力較強(qiáng)的模型。今天我們繼續(xù)上篇文獻(xiàn)中的實(shí)際基因位點(diǎn)數(shù)據(jù)演示LASSO算法。

      上篇中,作者主要利用COX模型篩選出了趨勢(shì)化因子CXCL17對(duì)肝癌的預(yù)后有影響。文獻(xiàn)中的數(shù)據(jù)樣本量共計(jì)244例,除了研究對(duì)象的性別、腫瘤大小、腫瘤分期、ALT等,還包括CXCL17T等26個(gè)基因位點(diǎn)。數(shù)據(jù)中的變量信息具體見下圖。

      我們的目的是利用數(shù)據(jù)中的26個(gè)基因位點(diǎn)數(shù)據(jù)預(yù)測(cè)OS生存概率。

      ① LASSO算法要求數(shù)據(jù)中不能有缺失,首先第一步篩選出244例數(shù)據(jù)中基因位點(diǎn)無缺失的觀測(cè)。

      hepatoCellularNoMissing<-hepatocellular[complete.cases(hepatocellular),]>hepatoCellular是讀入的原始數(shù)據(jù)

      ②對(duì)篩選后的數(shù)據(jù)以'OS'(overall survival)為生存時(shí)間,“Death”(censoring)為生存狀態(tài),26個(gè)基因位點(diǎn)為自變量建立預(yù)測(cè)模型。

      篩選后的數(shù)據(jù):

      LASSO的實(shí)現(xiàn)R語言中的glmnet包可以實(shí)現(xiàn),案例在本公眾號(hào)的歷史推送文章中講過,今天介紹另外一個(gè)實(shí)現(xiàn)LASSO的包penalized。

      library(penalized)

      hepato.pen <- penalized(surv(os,="">

      penalized=hepatoCellularNoMissing[,23:48],
      standardize=T, lambda1=10)
      # nonzero coefficients: 7

      這里代碼的意思是,先調(diào)用penalized包,之后,利用包中的函數(shù)penalized包實(shí)現(xiàn)LASSO變量篩選,模型中的Surv(OS, Death)這里是因變量生存時(shí)間、生存狀態(tài);penalized=hepatoCellularNoMissing[,23:48] 指模型LASSO篩選的變量是數(shù)據(jù)中的第23至48列的26個(gè)基因位點(diǎn);standardize=T 是指對(duì)數(shù)據(jù)做標(biāo)化處理(LASSO的要求,矩陣非奇異);lambda1=10,這里指的篩選初始時(shí)lambda的初始取值是10。

      ③結(jié)果中會(huì)顯示有7個(gè)基因位點(diǎn)的系數(shù)不為0,下一步顯示出這7個(gè)基因位點(diǎn)。

      用到的函數(shù)是'coef','round'函數(shù)的作用是系數(shù)結(jié)果取3為小數(shù)。

      ④lambda值的選取,剛才第二步lambda值是人為指定為10,一般這里的lambda值是通過交叉驗(yàn)證(cross validation)得到的,具體原理本公眾號(hào)歷史推送中有講過,這里為了下文的流暢,只簡(jiǎn)要說幾句。


      這個(gè)公式等號(hào)右邊的加號(hào)的前半部分,就是線性回歸中的RSS(Residual Sum of Squares)殘差平方和,LASSO在此基礎(chǔ)上加了個(gè)系數(shù)ω懲罰lambda,因?yàn)槿绻覀冎豢碦SS的話, 為了使RSS最小,出來的模型會(huì)窮盡每一個(gè)點(diǎn),model無比復(fù)雜和龐大,出現(xiàn)過度擬合的問題。我們想要排除一些不重要的predictor,使得模型更簡(jiǎn)單,同時(shí)顧全variance 和 bias,實(shí)現(xiàn)tradeoff。

      為了實(shí)現(xiàn)這種tradeoff,我們不僅要考慮RSS,也要限制model的大小,對(duì)非零的系數(shù)進(jìn)行“懲罰”,所以現(xiàn)在Lasso想要最小化的是RSS和這個(gè)penalty term 的綜合結(jié)果。lambda是一個(gè)非負(fù)數(shù),當(dāng)lambda等于零時(shí),沒有penalty,整個(gè)式子就相當(dāng)于最原始的linear regression;當(dāng)lambda 很大的時(shí)候,penalty的懲罰力度也隨之增大,某一些沒那么重要的predictor的系數(shù)會(huì)被降到零,這些predictor就不會(huì)再出現(xiàn)在model中;當(dāng)lambda大到一定程度時(shí),所有的predictor的系數(shù)都會(huì)被壓到0??傊?,penalty越大,被壓到零的beta就越多,model越簡(jiǎn)單。理想的lambda的值一般可以通過交叉驗(yàn)證(cross validation)找到。

      penalized包中提供了'profLI'函數(shù)實(shí)現(xiàn)了交叉驗(yàn)證。

      hepato.prof <- profl1(surv(os,="">

      penalized=hepatoCellularNoMissing[,23:48],

      standardize=T, fold=10, minlambda1=2, maxlambda1=12)

      plot(hepato.prof$cvl ~ hepato.prof$lambda, type='l', log='x',

           xlab='lambda', ylab='Cross-validated log partial likelihood')

      圖中橫坐標(biāo)是lambda取值,縱軸是隨著lambda的變化,取對(duì)數(shù)后的偏似然估計(jì)值。

      ⑤ 找尋最優(yōu)的lambda值

      第4步只是,畫出了所有l(wèi)ambda取值下,偏似然估計(jì)值得取值情況,需要在圖中找到,偏似然值最大時(shí),對(duì)應(yīng)的lambda的值,可以通過penalized包中的'optLI'函數(shù)實(shí)現(xiàn)。

      hepato.opt <- optl1(surv(os,="" death),penalized="hepatoCellularNoMissing[,23:48]," standardize="">

      hepato.opt$lambda

      abline(v=hepato.opt$lambda, col='gray')

      最終hepato.opt$lambda 給出了最優(yōu)的lambda值8.175518,

      圖中灰色線即lambda最優(yōu)值時(shí)對(duì)應(yīng)的偏似然估計(jì)值。

      ⑥在最優(yōu)lambda 下變量是如何篩選出的,進(jìn)一步繪制變量的solution path.

      hepato.pen <- penalized(surv(os,="">
      penalized=hepatoCellularNoMissing[,23:48], standardize=T,
      steps=20, lambda1=5)
      plotpath(hepato.pen, labelsize=0.9, standardize=T, log='x',
      lwd=2)
      abline(v=hepato.opt$lambda, col='gray', lwd=2)

      第一行代碼是lambda從5開始,向前篩選20步后,系數(shù)的篩選路徑,這個(gè)路徑過程實(shí)際是用到了LARs(最小角算法)或者梯度下降算法實(shí)現(xiàn)。

      圖中灰色豎線,即lambda最優(yōu)時(shí)篩選到的變量,與灰色線相交的系數(shù)不為0的變量即為篩選到的變量。

      從結(jié)果中可以看到,最終在lambda最優(yōu)時(shí),篩選到的變量有8個(gè),且最終給出了篩選到的變量的系數(shù)。

      solution path 具體過程,先找出和響應(yīng)最相關(guān)的一個(gè)變量,找到第一個(gè)變量后不急于做最小二乘回歸,而是在變量的 solution path 上一點(diǎn)一點(diǎn)的前進(jìn) (所謂 solution path 是指一個(gè)方向,逐步回歸是在這個(gè)方向上進(jìn)行),每前進(jìn)一點(diǎn),都要計(jì)算一下當(dāng)前的殘差和原有的所有變量的相關(guān)系數(shù),找出絕對(duì)值最大的相關(guān)系數(shù)對(duì)應(yīng)的變量。我們可以想像,剛開始,前進(jìn)的步伐很小,相關(guān)系數(shù)絕對(duì)值最大的對(duì)應(yīng)的變量一定還是第一步選入的變量。但是隨著前進(jìn)的進(jìn)程不斷向前,這個(gè)相關(guān)系數(shù)的絕對(duì)值是在慢慢減小的,直到找到另外一個(gè)變量 X2,它和當(dāng)前前殘差的相關(guān)系數(shù)和第一個(gè)入選變量 X1 的相關(guān)系數(shù)絕對(duì)值相同,并列第一。此時(shí)把 X2 也加入回歸模型中,此時(shí)回歸模型在 X1 上的系數(shù)已經(jīng)確定了,如果在 X1 的 solution path 上繼續(xù)前進(jìn),則得到的與當(dāng)前殘差相關(guān)系數(shù)最大的變量一定是 X2,所以不再前進(jìn),而是改為在 X2 的 solution path 上前進(jìn),直到找到第三個(gè)變量 X3,使得 X3 的與當(dāng)前殘差的相關(guān)系數(shù)絕對(duì)值最大。這樣一步一步進(jìn)行下去。每一步都是很多小步組成。直到某個(gè)模型判定準(zhǔn)則生效,停止這個(gè)步驟。



      本公眾號(hào)部分精彩歷史文章:

      04:如何在R軟件中求一致性指數(shù)(Harrell'concordance index:C-index)?

      05:Nomogram 繪制原理及R&SAS實(shí)現(xiàn).

      06  :Lasso方法簡(jiǎn)要介紹及其在回歸分析中的應(yīng)用

      07  : 最優(yōu)模型選擇中的交叉驗(yàn)證(Cross validation)方法

      08  : 用R語言進(jìn)行分位數(shù)回歸(Quantile Regression)

      09  : 樣本數(shù)據(jù)中異常值(Outliers)檢測(cè)方法及SPSS & R實(shí)現(xiàn)

      10  : 原始數(shù)據(jù)中幾類缺失值(Missing Data)的SPSS及R處理方法

      11  :  [Survival analysis] Kaplan-Meier法之SPSS實(shí)現(xiàn)

      12  :  [Survival analysis] COX比例風(fēng)險(xiǎn)回歸模型在SPSS中的實(shí)現(xiàn)

      13  :  用R繪制地圖:以疾病流行趨勢(shì)為例

      14  :  數(shù)據(jù)挖掘方法:聚類分析簡(jiǎn)要介紹 及SPSS&R實(shí)現(xiàn)

      15  :  醫(yī)學(xué)研究中的Logistic回歸分析及R實(shí)現(xiàn)

      16  :  常用的非參數(shù)檢驗(yàn)(Nonparametric Tests)總結(jié)

      17  :  高中生都能看懂的最小二乘法原理

      18  :  R語言中可實(shí)現(xiàn)的常用統(tǒng)計(jì)假設(shè)檢驗(yàn)總結(jié)(側(cè)重時(shí)間序列)

      19  :  如何根據(jù)樣本例數(shù)、均數(shù)、標(biāo)準(zhǔn)差進(jìn)行T-Test和ANOVA

      20  :  統(tǒng)計(jì)學(xué)中自由度的理解和應(yīng)用

      21  :  ROC和AUC介紹以及如何計(jì)算AUC

      22  :  支持向量機(jī)SVM介紹及R實(shí)現(xiàn)

      23  :  SPSS如何做主成分分析?

      24  : Bootstrap再抽樣方法簡(jiǎn)介

      25  :  定量測(cè)量結(jié)果的一致性評(píng)價(jià)及 Bland-Altman 法的應(yīng)用 

      26  :  使用R繪制熱圖及網(wǎng)絡(luò)圖  

      27  :  幾種常用的雙坐標(biāo)軸圖形繪制 

      28  :  遺失的藝術(shù)—諾謨圖(Nomogram) 

      29  :  Nomogram 繪制原理及R&SAS實(shí)現(xiàn)(二) 

      30  :  WOE:信用評(píng)分卡模型中的變量離散化方法 

      31  :  結(jié)構(gòu)方程模型(SEM)簡(jiǎn)介及教程下載  

      32  :  重復(fù)測(cè)量的多因素方差分析SPSS實(shí)現(xiàn)操作過程 

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多