文獻(xiàn)匯報(bào)||Lasso方法在腫瘤基因位點(diǎn)篩選中的應(yīng)用

生物_醫(yī)藥_科研 2019-01-24

展開全文

生存分析中建立回歸模型的用途一種是想通過模型了解協(xié)變量是如何影響生存結(jié)局的，另一種是利用協(xié)變量來預(yù)測(cè)生存結(jié)局，從而為后續(xù)的治療提供決策支持。在預(yù)測(cè)模型的研究中，可能有數(shù)十種（甚至數(shù)千種）預(yù)測(cè)因子可用。這些預(yù)測(cè)因子中的大部分可能沒有任何結(jié)果。例如在生物信息學(xué)中，基因位點(diǎn)上億（自變量數(shù)），如果想在這數(shù)億個(gè)基因位點(diǎn)中尋找出影響某疾病的位點(diǎn)出來，利用傳統(tǒng)的建模方法，樣本量個(gè)數(shù)是自變量個(gè)數(shù)至少10倍計(jì)算，研究的樣本量需要十億或者百億。這種研究用傳統(tǒng)方法不現(xiàn)實(shí)，這種數(shù)據(jù)類型，屬于高維數(shù)據(jù)（自變量個(gè)數(shù)遠(yuǎn)大于樣本量個(gè)數(shù)），傳統(tǒng)方法不再適用。解決這一方法的問題，類似初中解二元一次方程組，基本思想是消元降維。目前降維的算法有，LASSO,PCA，聚類分析，小波分析，線性判別分析，拉普拉斯特征映射，局部線性潛入等。除了數(shù)據(jù)維度增加外，常見的另一個(gè)問題是數(shù)據(jù)變量之間存在共線性，共線性的解決方法，嶺回歸或者PCA。LASSO算法就是基于上述兩個(gè)問題，提出的一種方法，它是在嶺回歸的基礎(chǔ)上的一種改進(jìn)，可解決變量共線性和數(shù)據(jù)的降維。Lasso的基本思想是在回歸系數(shù)的絕對(duì)值之和小于一個(gè)常數(shù)的約束條件下，使殘差平方和最小化，從而能夠產(chǎn)生某些嚴(yán)格等于0的回歸系數(shù)，得到解釋力較強(qiáng)的模型。今天我們繼續(xù)上篇文獻(xiàn)中的實(shí)際基因位點(diǎn)數(shù)據(jù)演示LASSO算法。

上篇中，作者主要利用COX模型篩選出了趨勢(shì)化因子CXCL17對(duì)肝癌的預(yù)后有影響。文獻(xiàn)中的數(shù)據(jù)樣本量共計(jì)244例，除了研究對(duì)象的性別、腫瘤大小、腫瘤分期、ALT等，還包括CXCL17T等26個(gè)基因位點(diǎn)。數(shù)據(jù)中的變量信息具體見下圖。

我們的目的是利用數(shù)據(jù)中的26個(gè)基因位點(diǎn)數(shù)據(jù)預(yù)測(cè)OS生存概率。

① LASSO算法要求數(shù)據(jù)中不能有缺失，首先第一步篩選出244例數(shù)據(jù)中基因位點(diǎn)無缺失的觀測(cè)。

hepatoCellularNoMissing<-hepatocellular[complete.cases(hepatocellular),]>hepatoCellular是讀入的原始數(shù)據(jù)

②對(duì)篩選后的數(shù)據(jù)以'OS'(overall survival)為生存時(shí)間,“Death”（censoring）為生存狀態(tài)，26個(gè)基因位點(diǎn)為自變量建立預(yù)測(cè)模型。

篩選后的數(shù)據(jù)：

LASSO的實(shí)現(xiàn)R語言中的glmnet包可以實(shí)現(xiàn)，案例在本公眾號(hào)的歷史推送文章中講過，今天介紹另外一個(gè)實(shí)現(xiàn)LASSO的包penalized。

library(penalized)
hepato.pen <- penalized(surv(os,="">
penalized=hepatoCellularNoMissing[,23:48],
standardize=T, lambda1=10)
# nonzero coefficients: 7

這里代碼的意思是，先調(diào)用penalized包，之后，利用包中的函數(shù)penalized包實(shí)現(xiàn)LASSO變量篩選，模型中的Surv(OS, Death)這里是因變量生存時(shí)間、生存狀態(tài)；penalized=hepatoCellularNoMissing[,23:48] 指模型LASSO篩選的變量是數(shù)據(jù)中的第23至48列的26個(gè)基因位點(diǎn)；standardize=T 是指對(duì)數(shù)據(jù)做標(biāo)化處理（LASSO的要求，矩陣非奇異）；lambda1=10，這里指的篩選初始時(shí)lambda的初始取值是10。

③結(jié)果中會(huì)顯示有7個(gè)基因位點(diǎn)的系數(shù)不為0，下一步顯示出這7個(gè)基因位點(diǎn)。

用到的函數(shù)是'coef','round'函數(shù)的作用是系數(shù)結(jié)果取3為小數(shù)。

④lambda值的選取，剛才第二步lambda值是人為指定為10，一般這里的lambda值是通過交叉驗(yàn)證（cross validation）得到的,具體原理本公眾號(hào)歷史推送中有講過，這里為了下文的流暢，只簡(jiǎn)要說幾句。

這個(gè)公式等號(hào)右邊的加號(hào)的前半部分，就是線性回歸中的RSS（Residual Sum of Squares）殘差平方和，LASSO在此基礎(chǔ)上加了個(gè)系數(shù)ω懲罰lambda，因?yàn)槿绻覀冎豢碦SS的話，為了使RSS最小，出來的模型會(huì)窮盡每一個(gè)點(diǎn)，model無比復(fù)雜和龐大，出現(xiàn)過度擬合的問題。我們想要排除一些不重要的predictor，使得模型更簡(jiǎn)單，同時(shí)顧全variance 和 bias，實(shí)現(xiàn)tradeoff。

為了實(shí)現(xiàn)這種tradeoff，我們不僅要考慮RSS，也要限制model的大小，對(duì)非零的系數(shù)進(jìn)行“懲罰”，所以現(xiàn)在Lasso想要最小化的是RSS和這個(gè)penalty term 的綜合結(jié)果。lambda是一個(gè)非負(fù)數(shù)，當(dāng)lambda等于零時(shí)，沒有penalty，整個(gè)式子就相當(dāng)于最原始的linear regression；當(dāng)lambda 很大的時(shí)候，penalty的懲罰力度也隨之增大，某一些沒那么重要的predictor的系數(shù)會(huì)被降到零，這些predictor就不會(huì)再出現(xiàn)在model中；當(dāng)lambda大到一定程度時(shí)，所有的predictor的系數(shù)都會(huì)被壓到0?？傊?，penalty越大，被壓到零的beta就越多，model越簡(jiǎn)單。理想的lambda的值一般可以通過交叉驗(yàn)證（cross validation）找到。

penalized包中提供了'profLI'函數(shù)實(shí)現(xiàn)了交叉驗(yàn)證。

hepato.prof <- profl1(surv(os,="">
penalized=hepatoCellularNoMissing[,23:48],
standardize=T, fold=10, minlambda1=2, maxlambda1=12)
plot(hepato.prof$cvl ~ hepato.prof$lambda, type='l', log='x',
xlab='lambda', ylab='Cross-validated log partial likelihood')

圖中橫坐標(biāo)是lambda取值，縱軸是隨著lambda的變化，取對(duì)數(shù)后的偏似然估計(jì)值。

⑤ 找尋最優(yōu)的lambda值

第4步只是，畫出了所有l(wèi)ambda取值下，偏似然估計(jì)值得取值情況，需要在圖中找到，偏似然值最大時(shí)，對(duì)應(yīng)的lambda的值，可以通過penalized包中的'optLI'函數(shù)實(shí)現(xiàn)。

hepato.opt <- optl1(surv(os,="" death),penalized="hepatoCellularNoMissing[,23:48]," standardize="">
hepato.opt$lambda
abline(v=hepato.opt$lambda, col='gray')

最終hepato.opt$lambda 給出了最優(yōu)的lambda值8.175518，

圖中灰色線即lambda最優(yōu)值時(shí)對(duì)應(yīng)的偏似然估計(jì)值。

⑥在最優(yōu)lambda 下變量是如何篩選出的，進(jìn)一步繪制變量的solution path.

hepato.pen <- penalized(surv(os,="">
penalized=hepatoCellularNoMissing[,23:48], standardize=T,
steps=20, lambda1=5)
plotpath(hepato.pen, labelsize=0.9, standardize=T, log='x',
lwd=2)
abline(v=hepato.opt$lambda, col='gray', lwd=2)

第一行代碼是lambda從5開始，向前篩選20步后，系數(shù)的篩選路徑，這個(gè)路徑過程實(shí)際是用到了LARs(最小角算法)或者梯度下降算法實(shí)現(xiàn)。

圖中灰色豎線，即lambda最優(yōu)時(shí)篩選到的變量，與灰色線相交的系數(shù)不為0的變量即為篩選到的變量。

從結(jié)果中可以看到，最終在lambda最優(yōu)時(shí)，篩選到的變量有8個(gè)，且最終給出了篩選到的變量的系數(shù)。

solution path 具體過程，先找出和響應(yīng)最相關(guān)的一個(gè)變量，找到第一個(gè)變量后不急于做最小二乘回歸，而是在變量的 solution path 上一點(diǎn)一點(diǎn)的前進(jìn) (所謂 solution path 是指一個(gè)方向，逐步回歸是在這個(gè)方向上進(jìn)行)，每前進(jìn)一點(diǎn)，都要計(jì)算一下當(dāng)前的殘差和原有的所有變量的相關(guān)系數(shù)，找出絕對(duì)值最大的相關(guān)系數(shù)對(duì)應(yīng)的變量。我們可以想像，剛開始，前進(jìn)的步伐很小，相關(guān)系數(shù)絕對(duì)值最大的對(duì)應(yīng)的變量一定還是第一步選入的變量。但是隨著前進(jìn)的進(jìn)程不斷向前，這個(gè)相關(guān)系數(shù)的絕對(duì)值是在慢慢減小的，直到找到另外一個(gè)變量 X2，它和當(dāng)前前殘差的相關(guān)系數(shù)和第一個(gè)入選變量 X1 的相關(guān)系數(shù)絕對(duì)值相同，并列第一。此時(shí)把 X2 也加入回歸模型中，此時(shí)回歸模型在 X1 上的系數(shù)已經(jīng)確定了，如果在 X1 的 solution path 上繼續(xù)前進(jìn)，則得到的與當(dāng)前殘差相關(guān)系數(shù)最大的變量一定是 X2，所以不再前進(jìn)，而是改為在 X2 的 solution path 上前進(jìn)，直到找到第三個(gè)變量 X3，使得 X3 的與當(dāng)前殘差的相關(guān)系數(shù)絕對(duì)值最大。這樣一步一步進(jìn)行下去。每一步都是很多小步組成。直到某個(gè)模型判定準(zhǔn)則生效，停止這個(gè)步驟。

本公眾號(hào)部分精彩歷史文章：

04：如何在R軟件中求一致性指數(shù)(Harrell'concordance index:C-index)？

05：Nomogram 繪制原理及R&SAS實(shí)現(xiàn).

06 :Lasso方法簡(jiǎn)要介紹及其在回歸分析中的應(yīng)用

07 : 最優(yōu)模型選擇中的交叉驗(yàn)證（Cross validation）方法

08 : 用R語言進(jìn)行分位數(shù)回歸(Quantile Regression)

09 : 樣本數(shù)據(jù)中異常值（Outliers）檢測(cè)方法及SPSS & R實(shí)現(xiàn)

10 : 原始數(shù)據(jù)中幾類缺失值（Missing Data）的SPSS及R處理方法

11 : [Survival analysis] Kaplan-Meier法之SPSS實(shí)現(xiàn)

12 : [Survival analysis] COX比例風(fēng)險(xiǎn)回歸模型在SPSS中的實(shí)現(xiàn)

13 : 用R繪制地圖：以疾病流行趨勢(shì)為例

14 : 數(shù)據(jù)挖掘方法：聚類分析簡(jiǎn)要介紹及SPSS&R實(shí)現(xiàn)

15 : 醫(yī)學(xué)研究中的Logistic回歸分析及R實(shí)現(xiàn)

16 : 常用的非參數(shù)檢驗(yàn)(Nonparametric Tests)總結(jié)

17 : 高中生都能看懂的最小二乘法原理

18 : R語言中可實(shí)現(xiàn)的常用統(tǒng)計(jì)假設(shè)檢驗(yàn)總結(jié)（側(cè)重時(shí)間序列）

19 : 如何根據(jù)樣本例數(shù)、均數(shù)、標(biāo)準(zhǔn)差進(jìn)行T-Test和ANOVA

20 : 統(tǒng)計(jì)學(xué)中自由度的理解和應(yīng)用

21 : ROC和AUC介紹以及如何計(jì)算AUC

22 : 支持向量機(jī)SVM介紹及R實(shí)現(xiàn)

23 : SPSS如何做主成分分析?

24 : Bootstrap再抽樣方法簡(jiǎn)介

25 : 定量測(cè)量結(jié)果的一致性評(píng)價(jià)及 Bland-Altman 法的應(yīng)用

26 : 使用R繪制熱圖及網(wǎng)絡(luò)圖

27 : 幾種常用的雙坐標(biāo)軸圖形繪制

28 : 遺失的藝術(shù)—諾謨圖（Nomogram）

29 : Nomogram 繪制原理及R&SAS實(shí)現(xiàn)（二）

30 : WOE:信用評(píng)分卡模型中的變量離散化方法

31 : 結(jié)構(gòu)方程模型（SEM）簡(jiǎn)介及教程下載

32 : 重復(fù)測(cè)量的多因素方差分析SPSS實(shí)現(xiàn)操作過程

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：生物_醫(yī)藥_科研 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)