邏輯斯蒂回歸(logistic regression),亦稱邏輯特回歸(logit regression),是音譯,有點像佛經里的“阿耨多羅三藐三菩提”,聽起來神秘兮兮,其實并不復雜。“阿耨多羅三藐三菩提”指的是“無上正等正覺”,即最高的智慧覺悟。不過,鳩摩羅什等大德翻譯佛經時,覺得漢語的意譯不能完全表達梵文原意,容易讓人望文生義,采用音譯,目的是讓誦經的人多用心想想。漢語世界的統計專家,翻譯logistic regression的時候采用音譯,原因好像有點勉強。采用意譯,還是不大好懂,但至少不容易起誤導作用,讓人覺得這個分析方法跟“邏輯”有關系。采用意譯,logisitic regression是以近似線性回歸的方式分析一件事情(事件)發(fā)生(或一個個體具有某個屬性)的概率。概率是一件事情(時間)發(fā)生(或一個個體具有某個屬性)的可能性,概率的變異局限在0到1之間。一件事情發(fā)生的概率的變異區(qū)間從極?。o限接近0)到極大(無限接近1),統計學家先把概率轉換成發(fā)生比(odds),即一個事件發(fā)生的概率與其不發(fā)生的概率的比率(發(fā)生的概率為分子,不發(fā)生的概率為分母)。然后取發(fā)生比的自然對數(natural logarithm)(即以2.718為底的對數),這個對數就是logit,即 log of it,natural logarithm of it,it就是發(fā)生比。以logit為因變量的回歸分析就是logit regression(邏輯特回歸),為了悅耳,叫做logistic regression(邏輯斯蒂回歸)。換句話說,邏輯斯蒂回歸是一種以概率的變化為因變量的近似線性回歸的分析工具,只不過繞了兩個彎子,把作為因變量的概率轉換成了發(fā)生比的自然對數。統計學家把概率轉換成發(fā)生比的自然對數,不是畫蛇添足,而是為了讓我們能夠以近似線性回歸的方式分析概率的變化,同時又不做出不合乎邏輯的(荒謬)的預測。我們喜歡用線性方式想問題,正相關是水漲船高,負相關是此起彼伏或此消彼長,不相關是任憑風浪起穩(wěn)坐釣魚船,很好懂,還有三分詩意。麻煩的是,線性回歸(最小二乘回歸)要求因變量是連續(xù)變量,而社會科學中常見的因變項是二分變項,例如是否投票,是否支持某個政黨,是否支持某個候選人。測量二分變項,最直觀的方法是用二分法,是=1,否=0。但是,世界并不這么簡單。以考試為例,如果是二分法,只分及格和不及格,那么及格=1,不及格=0。但是,及格的人,成績并不相同,有的輕松及格,有的勉強及格;不及格的人,成績也不相同,有的差一點兒,有的差很多。為了盡量深入地分析現實,我們需要分析及格的概率,概率從0到1,理論上來說是個無限的變異區(qū)間,從無限趨近0到無限趨近1??墒?,我們不能簡單地用線性方式分析概率的變化,否則會得出邏輯上荒謬的結果。如果直接以及格的概率為因變量,根據線性回歸分析的結果,當自變量取一定值的時候,因變量(概率)可能小于0或大于1,二者都是邏輯上不可能的(荒謬的)。把概率轉換成發(fā)生比的自然對數,就不會做出荒謬預測了。轉化后,與無限趨近0的概率相對應的發(fā)生比的自然對數是負無窮(negative infinity),與50/50(五五開,隨機)的概率相對應的發(fā)生比的自然對數的是0,與無限趨近1的概率相對應的發(fā)生比的自然對數是正無窮(positive infinity)。 數學的“無窮”不好想象,我們進一步簡化。在社會科學研究中,學者們實際關心的極小概率是0.0001(萬中有一,萬一),隨機概率是0.5(五五開),極大概率是0.9999(萬僅一失),也就是關注概率從0.0001到0.9999的變異。我們虛構個例子。假設我們分析博士生在論文上花的時間與寫出完美博士論文之間的關系。是否寫出了完美論文是因變項,我們用概率測量為測量工具,測量單位是萬分之一,即0.0001的概率。研究寫作所花的時間(工夫)是自變項,我們以小時為測量單位,簡稱為時數。我們進一步假設,博士生每多下一小時工夫,即工作時數增加一個單位,做出完美博士論文的概率就增加萬分之一,即0.0001;相反,博士生每少下一小時工夫,即工作時數減少一個單位,做出完美博士論文的概率就減小萬分之一。假定一個博士生一共投入9999小時,那么他做出完美博士論文的概率就到了0.9999。我們畫個散點圖,以從1到9999的工作時數為橫軸,以完成博士論文的概率為縱軸(從0.0001到0.9999),我們會得到一條標志這兩個變量正相關的斜線。 但是,這樣的線性回歸有兩個問題。第一,完美永遠達不到,所以上面的研究假定不成立。現實中,隨著博士生工作時間的增加,他會越來越接近完成一部完美的博士論文,但永遠達不到完美。可是,如果我們做簡單的線性回歸,一定得出結論,就是如果博士生工作一萬小時,他做出完美博士論文的概率是1。第二,更麻煩的問題是,如果博士生工作超過一萬小時,他做出完美博士論文的概率大于1,而概率不可能大于1。 把概率轉換成發(fā)生比的自然對數,可以讓我們避開這個問題。我們仍然以寫博士論文為例子。為了簡化,我們把極小概率界定為0.0001(萬中有一,萬一),把極大概率界定為0.9999(萬僅一失)。這時,情況就簡單了。極小概率是0.0001,發(fā)生比是0.0001(0.0001/0.9999),0.0001的自然對數是-9.21;隨機概率是0.5(五五開),發(fā)生比是1(0.5/0.5),1的自然對數是0;極大概率是0.9999(萬僅一失),發(fā)生比是9999(0.9999/0.0001),9999的自然對數是9.21。我們畫個散點圖,以從1到9999的工作時數為橫軸(自變量),以寫出完美博士論文的發(fā)生比的對數(從-9.21到9.21)為縱軸(因變量),我們會得到一條標志這兩個變量之間關系的S型曲線。根據這個分析結果,我們可以預測,隨著博士生工作時間的增加,他會越來越接近完成一部完美的博士論文,但他永遠達不到完美,這樣我們就避免了邏輯上荒謬的(不合邏輯的)預測。 為了更直觀地理解把概率轉換成發(fā)生比的自然對數有什么神效,我們以從0.0001到0.9999的概率為縱軸,以與這個區(qū)間的概率相對應的發(fā)生比的自然對數為橫軸,做個散點分布圖,得到的是一條漂亮對稱的S型曲線,這就是統計學教材中說的“S型”曲線。 一句話,把概率轉換成發(fā)生比的自然對數,可以幫我們避免邏輯荒謬。這個分析工具對于主要分析二分因變量的社會科學學者有救駕之功,所以我戲稱之為“曲線救國”。
|
|
來自: 醫(yī)路人生xamili > 《科研》