很多人都知道線性回歸,當你的結局變量是連續(xù)變量,當你想觀察某個或某些自變量(一般是引起某結局的原因)對結局變量的影響的時候,通常首先會想起線性回歸。 盡管很多人都用過線性回歸,但卻很少有人真正去關注線性回歸的應用前提。線性回歸幾乎是非常完美的方法,但這種完美是有條件的,任何統(tǒng)計方法的應用都是有條件的,沒有放之四海而皆準的真理,同樣也沒有用于任何數(shù)據而皆有效的方法。今天我們就來談談線性回歸最基本的條件——線性。 所謂“線性”回歸,那當然一定是“線性”才能用的回歸。如果你的自變量和因變量之間的關系都不是“線性”關系,那還叫什么“線性”回歸? 什么是線性,你找根線,拉一下,這就是線性。當然統(tǒng)計學中的線性關系不可能像你手中的線那么直,但起碼應該是差不多呈直線關系。如下面的圖就是線性的: 而下面這個圖則不是線性的: 可能有人會說,這個看起來好像也是逐漸上升的趨勢啊。沒錯,第二個圖也可以用線性回歸來描述。但是請記住,我們?yōu)槭裁匆没貧w模型呢?目的是為了找到一個模型,能夠十分貼切地描述數(shù)據。 讓我們看一下,如果對第二個圖分別用線性和非線性來描述,會是什么樣子: 就算用肉眼看都能看出,紫色的線對數(shù)據的擬合效果更好,通俗來說就是更貼近數(shù)據。 如果用線性回歸,你會發(fā)現(xiàn)結果是這樣的: 看起來x好像沒有統(tǒng)計學意義啊,P值大于0.05。但是不要灰心,對x做一下変量変換再看一下。 如果用二次項回歸,結果為: 看起來就有統(tǒng)計學意義了。一次項和二次項都有統(tǒng)計學意義。 所以說,并不是看到連續(xù)資料的關系,就一定要用線性回歸。線性回歸,只能給出你“線性”關系的回歸,但如果本身二者就不是“線性”關系,那你肯定不可能硬生生地造出線性回歸來。 所以,如果以后你做線性回歸,如果你沒有事先看一下自變量和因變量的關系,即使你得出的結果沒有統(tǒng)計學意義,也未必說明x和y沒有關系。沒有“線性”關系,不代表沒有“關系”。因為關系不僅僅有線性的,也有非線性的。事實上,可能非線性的關系更多見。 因此,建議各位在應用線性回歸之前,一定要先繪制散點圖,看看二者是不是線性關系。如果不是,沒有問題,可以對因變量或自變量進行變換。 最好是對自變量進行變換,因為如果你變了因變量,把因變量y變成了lny,lny對x是線性關系了,但lny對z變量呢?說不定就不是線性了。也就是說,y是要對應很多自變量的,最好的就是變換x。 至于說,如何變換,這就得根據實際情況了,沒有一概而論的情形。必須結合散點圖的形狀而定。如果你實在搞不定,那就去請教統(tǒng)計學家吧。畢竟,你收集了這么多數(shù)據,在最后的分析上也應該花點心血才對。 |
|
來自: 思想年代 > 《統(tǒng)計》