最近很多人都問我,為什么感覺數(shù)據(jù)分析越學(xué)越亂,經(jīng)常是學(xué)了一大堆名詞,真正遇到問題的時(shí)候卻更多是直接套用模型,很難將這些理論聯(lián)系起來。 這其實(shí)就回歸到了一個(gè)至關(guān)重要的問題:數(shù)據(jù)分析的本質(zhì)是什么? 事物都是萬變不離其宗的,一切外在的方法都是為了事物本質(zhì)而服務(wù)的,數(shù)據(jù)分析自然也不例外,今天我們就來探討一下數(shù)據(jù)分析的本質(zhì)。 數(shù)據(jù)分析的本質(zhì)其實(shí)絕大多數(shù)的數(shù)據(jù)分析問題,都可以歸納為一個(gè)問題:相關(guān)性問題。 相關(guān)性分析是數(shù)據(jù)統(tǒng)計(jì)學(xué)中的基礎(chǔ)思想,主要就是為了探究數(shù)據(jù)之間是否具有關(guān)聯(lián)性,簡單說就是X與Y或者X與Y、Z等之間的變化是否有關(guān)聯(lián)。 比如,常年吸煙者的數(shù)量是否與肺癌患者的數(shù)量成正相關(guān)、健身者與感冒患者之間是否成負(fù)相關(guān)等等,這些例子都是簡單的相關(guān)性判斷 在數(shù)據(jù)分析中,更常見的則是更為復(fù)雜的相關(guān)性分析,也就是為了找到變量之間的相關(guān)系數(shù),簡單說就是為了找到Y=A+B*X之中的B。 比如,用戶點(diǎn)擊率與網(wǎng)站訪問量之間是否有關(guān)系、廣告曝光量與投入成本的關(guān)系等等,這個(gè)方程的求取過程也就是所謂的“回歸分析”。 回歸分析在統(tǒng)計(jì)學(xué)中包含了很多類別,比如一元回歸、多遠(yuǎn)回歸、方差回歸、線性回歸、非線性回歸等,但我們不必涉及這么深,只需要了解其本質(zhì)即可。 我們就拿廣告曝光量與投入成本這個(gè)例子來解剖一下數(shù)據(jù)分析中的回歸: 回歸分析首先我們假設(shè)一個(gè)數(shù)據(jù)分析中常見的場景: 小李是公司里負(fù)責(zé)市場廣告的,某一次公司要舉辦大型活動,要求小李在線上廣告上達(dá)到50w次的曝光量,于是小李寫了一份方案提出要加大投入費(fèi)用。而老板則覺得廣告的投入費(fèi)用太大,沒有必要拿那么多錢,而小李則覺得多投入才有效果。 那么,對于究竟應(yīng)該投入多少廣告成本呢? 1、分析目的 于是我們就找到了本次數(shù)據(jù)分析的目的,就是要找到廣告曝光量與費(fèi)用成本之間的因果關(guān)系,也就是投入多少錢,廣告曝光就能對應(yīng)提高多少嗎? 但是普通的統(tǒng)計(jì)方法是沒辦法得到嚴(yán)格的因果關(guān)系的,因此我們只能退而求其次地用回歸分析來研究其相關(guān)關(guān)系和影響因子,用相關(guān)性代替因果關(guān)系。 2、確定變量 然后,我們要確定X、Y各是什么。 在這里Y自然就是廣告曝光,也就是因變量,在數(shù)據(jù)分析中是指業(yè)務(wù)指標(biāo)或者核心需求,比如銷售額這種我們關(guān)心的能夠隨著其他因素的變化而變化的指標(biāo)。 X自然就是投入成本,也就是自變量,在數(shù)據(jù)分析中是指用來解釋業(yè)務(wù)指標(biāo)的因子。 回歸分析的任務(wù)就是,通過研究X和Y的相關(guān)關(guān)系,嘗試去解釋Y的形成機(jī)制,進(jìn)而達(dá)到通過X去預(yù)測Y的目的。那么,X到底會長成什么樣呢? 通常情況下X不是一個(gè)變量,而是多個(gè)變量,比如影響廣告曝光的不止是投入成本,還可能是網(wǎng)站SEO等,在實(shí)際情況中我們需要將X一個(gè)個(gè)都找出來,最終的回歸方程就變成了: 這里我們再添加一些其他的影響因素,比如費(fèi)用投入X2、人力投入X3、投放時(shí)間X4、廣告點(diǎn)擊率X5、對象人群量X6、定價(jià)X7、投入廣告位數(shù)量X8和定向設(shè)置量X9。 3、建立回歸模型 為了找到X與Y之間的變量關(guān)系,我們可以通過建立回歸模式來實(shí)現(xiàn),這里就用Excel的回歸功能簡單實(shí)操一下。 將數(shù)據(jù)直接導(dǎo)入excel中,在“選項(xiàng)”菜單中選擇“加載項(xiàng)”,在“加載項(xiàng)”多行文本框中使用滾動條找到并選中“分析工具庫”,然后點(diǎn)擊最下方的“轉(zhuǎn)到”: 打開“加載宏”的選項(xiàng)中選擇“數(shù)據(jù)分析庫”,然后點(diǎn)擊“確定”,就可以將數(shù)據(jù)分析庫加載到Excel中。 然后點(diǎn)擊“數(shù)據(jù)”菜單欄中的“數(shù)據(jù)分析”,在跳出的對話框中點(diǎn)擊“回歸”,然后下拉選取對應(yīng)的X、Y區(qū)域,選擇“正態(tài)分布”,點(diǎn)擊“確定”即可。 這樣就可以得到最終的結(jié)果 4、回歸方程檢驗(yàn) 有了回歸方程,我們還需要檢驗(yàn)一下擬合情況如何。我們主要看的指標(biāo)有4個(gè):最上面的回歸統(tǒng)計(jì)表中的Multiple R以及R Square,中間表格中的Significance F,以及下方格中的P-value。
5、回歸方程 最終按照圖中得到值就可以得到回歸方程,這樣小李再向老板申請廣告投入費(fèi)用的時(shí)候,就不怕被老板說了。 最后簡單總結(jié)一下。什么是回歸分析?回歸分析一句話:就是研究XY相關(guān)性的分析。 我們碰到的絕大多數(shù)數(shù)據(jù)分析問題,仔細(xì)想一下,都可以被規(guī)范成一個(gè)回歸分析的問題。而對于真實(shí)的工作而言,能否把這個(gè)問題,成功的規(guī)范成為一個(gè)回歸分析問題,是實(shí)際項(xiàng)目成功的關(guān)鍵。而規(guī)范是否成功的一個(gè)具體表現(xiàn)就是:第一,因變量Y是否定義清晰;第二,解釋性變量X是否精準(zhǔn)有力。 |
|