乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      相關(guān)關(guān)系與因果關(guān)系、相關(guān)性與影響因素分析、大數(shù)據(jù)建模五步法、大數(shù)據(jù)的哲學(xué)觀

       期盼又見晨曦 2019-03-24
      什么是相關(guān)性

      “萬物皆有聯(lián)”,是大數(shù)據(jù)一個最重要的核心思維。

      所謂聯(lián),這里指的就是事物之間的相互影響、相互制約、相互印證的關(guān)系,這種關(guān)系就叫做相關(guān)關(guān)系,就是我們常說的相關(guān)性。

      簡單地說,如果有兩個事物,當(dāng)一個事物發(fā)生變化時,另一個事物也隨著發(fā)生規(guī)律變化,我們就說這兩個事物存在相關(guān)性。

      世界上的所有事物,都會受到其它事物的影響。

      比如,產(chǎn)品的銷量是受到各種因素的影響的,比如產(chǎn)品價格、品牌、質(zhì)量、售后服務(wù)等等,這些因素都會對產(chǎn)品銷量有著直接的影響。

      又比如,產(chǎn)品的價格是受到供求狀況的影響和制約的。供給增加,價格就相對下降;供給減少,價格就相對上升。

      再比如,在生活中,我們經(jīng)常會遇到下面的情況:

      HR經(jīng)常會問:影響員工離職的原因是什么?

      銷售人員會問:哪些要素會促使客戶選擇某產(chǎn)品?

      營銷人員會問:影響客戶流失的關(guān)鍵因素有哪些?

      銷售主管會問:影響產(chǎn)品銷量下降的原因有哪些?

      ……

      所有上述類似的這些業(yè)務(wù)問題,轉(zhuǎn)化為數(shù)據(jù)問題,都可以是相關(guān)性的問題。

      那么,如何來評估一個事物對另一個事物是否存在影響呢?以及這種影響程度有多大呢?這是數(shù)據(jù)分析要解決的一個問題,也就是我們常說的影響因素分析。
      從因果到相關(guān)

      影響因素分析,這是過去在小數(shù)據(jù)時代的叫法。在大數(shù)據(jù)時代,我們經(jīng)常用相關(guān)性分析來代替影響因素分析的說法。

      因果關(guān)系

      在過去,我們強(qiáng)調(diào)的是因果關(guān)系,即先有原因,再有結(jié)果。如果找不到原因,我們往往會覺得結(jié)果也不可信。比如產(chǎn)品價格下降,會導(dǎo)致銷量上升,這個價格與銷量之間應(yīng)該是存在因果關(guān)系的,這從心理學(xué)和社會經(jīng)濟(jì)學(xué)上都能得到解釋。

      所以,我們把尋找影響目標(biāo)變量的關(guān)鍵因素的過程,叫做影響因素分析。

      相關(guān)關(guān)系

      但在,隨著統(tǒng)計學(xué)的進(jìn)一步發(fā)現(xiàn),有些事物之間看起來并不存在因果關(guān)系:

      在電影視頻的網(wǎng)站上,放上零食的廣告,會提升零食的銷售;

      銀行業(yè)中信用較高的人,其發(fā)生交通事故的概率會較低;

      鄉(xiāng)村音樂的喜好者傾向于支持共和黨,而搖滾歌迷傾向于支持民主黨;

      選舉年,犯罪率會下降,但之后,犯罪率卻會上升;

      ……

      這些也能夠體現(xiàn)事物之間的關(guān)系,但這些關(guān)系并不意味著因果。音樂愛好與政治傾向到底有什么關(guān)系?基本上很難找到合理的解釋,也就是說“音樂”和“政治傾向”之間不一定存在因果關(guān)系,但這些在統(tǒng)計學(xué)上卻是有意義的。

      像這種不一定存在因果關(guān)系的事物,我們用另一個比較貼切的說法,就叫做相關(guān)關(guān)系。而尋找兩個事物之間是否存在相關(guān)性的過程,就叫做相關(guān)分析。

      在不引起混淆的情況下,在本書中我們依然會使用影響因素分析的說法。

      相關(guān)關(guān)系≠因果關(guān)系

      因果關(guān)系和相關(guān)關(guān)系是不一樣。兩個事物存在因果關(guān)系,那么它們一定存在相關(guān)關(guān)系;但存在相關(guān)關(guān)系的兩個事物,卻不一定是因果關(guān)系。

      理論上,現(xiàn)在數(shù)據(jù)分析領(lǐng)域中所用的相關(guān)性分析方法,基本上都是基于統(tǒng)計的,所以只能說兩個事物在統(tǒng)計意義上存在相關(guān)關(guān)系,卻無法判斷是否是因果關(guān)系。

      存在相關(guān)關(guān)系的兩個事物,是否存在因果關(guān)系呢?這個僅憑數(shù)據(jù)方法是無法給出結(jié)論的,這還得需要專業(yè)人士從業(yè)務(wù)邏輯的角度來進(jìn)行人為地判斷。

      比如:價格會影響銷量,這是已知的因果關(guān)系。即價格和銷量有因果關(guān)系,那么從數(shù)據(jù)上一定也會判斷出價格和銷量呈相關(guān)性。

      再舉一個例子:父母的身高一定會影響子女的身高(這從基因的角度可以理解為因果關(guān)系),所以可知,父母身高與兒子身高呈相關(guān)性,父母身高與女兒身高也呈相關(guān)性;但是,在數(shù)據(jù)上,你有可能會發(fā)現(xiàn)哥哥身高與妹妹身高也呈相關(guān)性(他們都受父母身高影響),但哥哥身高與妹妹身高就不存在因果關(guān)系(從生物學(xué)上沒有因果關(guān)系)。即有相關(guān)性的兩個變量,不一定是因果關(guān)系。最多也只能說,有可能是因果關(guān)系(暫時沒有找到理論依據(jù))。

      再比如,在前面章節(jié)提到的股民的情緒指數(shù)與道瓊斯指數(shù),股民的情緒指數(shù)在某種程度上可以用來反應(yīng)股票的漲跌情況,說明存在相關(guān)關(guān)系,但是否存在因果關(guān)系,這就無法確定了。

      按照《大數(shù)據(jù)時代》的說法,即使找不到因果關(guān)系,只要能夠?qū)ふ业阶銐蚨嗟南嚓P(guān)性,并將這種相關(guān)性用于問題的解決過程中,也能夠起到巨大的作用。

      相關(guān)性與影響因素分析

      “萬物皆有聯(lián)”,是大數(shù)據(jù)一個最重要的核心思維。所謂聯(lián),這里指的就是事物之間的相互影響、相互制約、相互印證的關(guān)系。而事物這種相互影響、相互關(guān)聯(lián)的關(guān)系,就叫做相關(guān)關(guān)系,簡稱相關(guān)性。

      世界上的所有事物,都會受到其它事物的影響。HR經(jīng)常會問:影響員工離職的關(guān)鍵原因是什么?是工資還是發(fā)展空間?銷售人員會問:哪些要素會促使客戶購買某產(chǎn)品?是價格還是質(zhì)量?營銷人員會問:影響客戶流失的關(guān)鍵因素有哪些?是競爭還是服務(wù)等?產(chǎn)品設(shè)計人員:影響汽車產(chǎn)品受歡迎的關(guān)鍵功能有哪些?價格、還是動力等?

      所有的這些商業(yè)問題,轉(zhuǎn)化為數(shù)據(jù)問題,不外乎就是評估一個因素與另一個因素之間的相互影響或相互關(guān)聯(lián)的關(guān)系。而分析這種事物之間關(guān)聯(lián)性的方法,就是相關(guān)性分析方法。

      當(dāng)然,有相關(guān)關(guān)系,并不一定意味著是因果關(guān)系。但因果關(guān)系,則一定是相關(guān)關(guān)系。

      在過去,主要是要尋找影響事物的因果關(guān)系,所以過去也叫影響因素分析。但是,從統(tǒng)計學(xué)方法來說,因果關(guān)系一定會有統(tǒng)計顯著,但統(tǒng)計顯著并不一定就是因果關(guān)系,所以準(zhǔn)確地說,影響因素分析應(yīng)該改為相關(guān)性分析。所以,在不引起混淆的情況下,我們也會用影響因素分析。

      相關(guān)性種類

      客觀事物之間的相關(guān)性,大致可歸納為兩大類:一類是函數(shù)關(guān)系,一類是統(tǒng)計關(guān)系。

      函數(shù)關(guān)系,就是兩個變量的取值存在一個函數(shù)來唯一描述。比如,銷售額與銷售量之間的關(guān)系,可用函數(shù)y=px(y表示銷售額,p表示單價,x表示銷售量)來表示。所以,銷售量和銷售額存在函數(shù)關(guān)系。這一類關(guān)系,不是我們關(guān)注的重點。

      統(tǒng)計關(guān)系,指的是兩事物之間的非一一對應(yīng)關(guān)系,即當(dāng)變量x取一定值時,另一個變量y雖然不唯一確定,但按某種規(guī)律在一定的范圍內(nèi)發(fā)生變化。比如,子女身高與父母身高、廣告費用與銷售額的關(guān)系,是無法用一個函數(shù)關(guān)系唯一確定其取值的,但這些變量之間確實存在一定的關(guān)系。大多數(shù)情況下,父母身高越高,子女的身高也就越高;廣告費用花得越多,其銷售額也相對越多。這種關(guān)系,就叫做統(tǒng)計關(guān)系。

      進(jìn)一步,統(tǒng)計分析如果按照相關(guān)的形態(tài)來說,可分為線性相關(guān)和非線性相關(guān)(曲線相關(guān));如果按照相關(guān)的方向來分,可分為正相關(guān)和負(fù)相關(guān),等等。

      詳細(xì)見下面的圖形。

      相關(guān)性描述方式

      描述兩個變量是否有相關(guān)性,常見的方式有:相關(guān)圖(典型的如散點圖和列聯(lián)表等等)、相關(guān)系數(shù)、統(tǒng)計顯著性。如果用可視化的方式來呈現(xiàn)各種相關(guān)性,常見有如下散點圖。

      至于相關(guān)系數(shù)和統(tǒng)計顯著性,請參后續(xù)章節(jié)。

      相關(guān)性方法種類

      對于不同的因素類型,采用的相關(guān)性分析方法也不相同。下面簡單總結(jié)一下所選用的相關(guān)性分析方法。

      解釋變量類型

      被解釋變量類型

      方法

      作用

      數(shù)值型變量

      數(shù)值型變量

      相關(guān)分析

      衡量兩個變量的相關(guān)程度

      類別型變量

      數(shù)值型變量

      方差分析

      評估因素對目標(biāo)變量是否有顯著影響

      類別型變量

      類別型變量

      列聯(lián)分析

      評估兩個因素是否相互獨立

      舉一個簡單的例子:

      某電信運(yùn)營商,面臨增量不增收的困境,想弄明白哪些因素有可能會影響客戶的消費水平(也就是說,哪些因素與費用有相關(guān)性),以及哪些因素與客戶流失有相關(guān)性,于是收集了如下的表格,請分析并給出結(jié)論。

      從方法的適用場景,可知:

      1)  如果要評估收入對于基本費用的相關(guān)性,則可用相關(guān)性分析。

      2)  如果要評估婚姻狀況對于基本費用的相關(guān)性,則可用方差分析。

      3)  如果要評估教育水平對于客戶流失的相關(guān)性,則可用列聯(lián)分析。

      其余可采用類似的方法。

      大數(shù)據(jù)建模五步法

      前一陣子,某網(wǎng)絡(luò)公司發(fā)起了一個什么建模大賽,有個學(xué)員問我,數(shù)據(jù)建模怎么搞?為了滿足他的好學(xué)精神,我決定寫這一篇文章,來描述一下數(shù)據(jù)分析必須要掌握的技能:數(shù)據(jù)建模。本文將嘗試來梳理一下數(shù)據(jù)建模的步驟,以及每一步需要做的工作。 

      第一步:選擇模型或自定義模式

      這是建模的第一步,我們需要基于業(yè)務(wù)問題,來決定可以選擇哪些可用的模型。

      比如,如果要預(yù)測產(chǎn)品銷量,則可以選擇數(shù)值預(yù)測模型(比如回歸模型,時序預(yù)測……);如果要預(yù)測員工是否離職,則可以選擇分類模型(比如決策樹、神經(jīng)網(wǎng)絡(luò)……)。

      如果沒有現(xiàn)成的模型可用,那么恭喜你,你可以自定義模型了。不過,一般情況下,自己定義模型不是那么容易的事情,沒有深厚的數(shù)學(xué)基礎(chǔ)和研究精神,自己思考出一個解決特定問題的數(shù)學(xué)模型基本上是幻想。所以,自定義模型的事情還是留給學(xué)校的教授們?nèi)パ芯亢烷_發(fā)吧。當(dāng)前絕大多數(shù)人所謂的建模,都只是選擇一個已有的數(shù)學(xué)模型來工作而已

      一般情況,模型都有一個固定的模樣和形式。但是,有些模型包含的范圍較廣,比如回歸模型,其實不是某一個特定的模型,而是一類模型。我們知道,所謂的回歸模型,其實就是自變量和因變量的一個函數(shù)關(guān)系式而已,如下表所示。因此,回歸模型的選擇,也就有了無限的可能性,回歸模型的樣子(或叫方程)可以是你能夠想到的任何形式的回歸方程。所以,從某種意義上看,你自己想出一個很少人見過的回歸方程,也可以勉強(qiáng)算是自定義模型了哈!

      那么,這么多可選的模型,到底選擇哪個模型才好呢?我的答復(fù)是:天知道!

      天知道應(yīng)該選擇哪個模型會好一些!你問我,我問誰???如果在這個時候有人告訴你,你的業(yè)務(wù)應(yīng)該選擇哪個回歸方程會更好一些,那么,我敢肯定,你遇上的肯定是“磚家”而不是“專家”。模型的好壞是不能夠單獨來評論的(你往下看就知道了)!就如小孩子討論的你爸爸好還是我爸爸好一樣,你說誰好?

      那么,是不是我們在選擇模型時就得靠運(yùn)氣了?其實真有那么一點靠運(yùn)氣的成份,不過好在后續(xù)數(shù)學(xué)家們給我們提供了評估模型好壞的依據(jù)?,F(xiàn)在,我們只能靠運(yùn)氣來選擇某一個模型了。


      第二步:訓(xùn)練模型

      當(dāng)模型選擇好了以后,就到了訓(xùn)練模型這一步。

      我們知道,之所以叫模型,這個模型大致的形狀或模式是固定的,但模型中還會有一些不確定的東東在里面,這樣模型才會有通用性,如果模型中所有的東西都固定死了,模型的通用性就沒有了。模型中可以適當(dāng)變化的部分,一般叫做參數(shù),就比如前面回歸模型中的α、β等參數(shù)。

      所謂訓(xùn)練模型,其實就是要基于真實的業(yè)務(wù)數(shù)據(jù)來確定最合適的模型參數(shù)而已。模型訓(xùn)練好了,也就是意味著找到了最合適的參數(shù)。一旦找到最優(yōu)參數(shù),模型就基本可用了。當(dāng)然,要找到最優(yōu)的模型參數(shù)一般是比較困難的,怎樣找?如何找?這就涉及到算法了。哦,一想到算法,我的頭就開始痛了,都怪當(dāng)年數(shù)學(xué)沒有學(xué)好呀!

      當(dāng)然,最笨的辦法,我們可以不斷的嘗試參數(shù),來找到一個最好的參數(shù)值。一個一個試?這不是要試到生命結(jié)束?開玩笑啦,不可能去一個一個試的啦。反正有工具會幫你找到最優(yōu)參數(shù)的,什么最優(yōu)化算法中的什么梯度上升呀梯度下降呀,你就不用操心了呀,這些留給分析工具來實現(xiàn)就可以了!

      當(dāng)然,一個好的算法要運(yùn)行速度快且復(fù)雜度低,這樣才能夠?qū)崿F(xiàn)快速的收斂,而且能夠找到全局最優(yōu)的參數(shù),否則訓(xùn)練所花的時間過長效率低,還只找到局部最優(yōu)參數(shù),就讓人難以忍受了。

      第三步:評估模型

      模型訓(xùn)練好以后,接下來就是評估模型。

      所謂評估模型,就是決定一下模型的質(zhì)量,判斷模型是否有用。前面說過,模型的好壞是不能夠單獨評估的,一個模型的好壞是需要放在特定的業(yè)務(wù)場景下來評估的,也就是基于特定的數(shù)據(jù)集下才能知道哪個模型好與壞。

      既然要評估一個模型的好壞,就應(yīng)該有一些評價指標(biāo)。比如,數(shù)值預(yù)測模型中,評價模型質(zhì)量的常用指標(biāo)有:平均誤差率、判定系數(shù)R2,等等;評估分類預(yù)測模型質(zhì)量的常用指標(biāo)(如下圖所示)有:正確率、查全率、查準(zhǔn)率、ROC曲線和AUC值等等。對于分類預(yù)測模型,一般要求正確率和查全率等越大越好,最好都接近100%,表示模型質(zhì)量好,無誤判。

      在真實的業(yè)務(wù)場景中,評估指標(biāo)是基于測試集的,而不是訓(xùn)練集。所以,在建模時,一般要將原始數(shù)據(jù)集分成兩部分,一部分用于訓(xùn)練模型,叫訓(xùn)練集;另一部分用于評估模型,叫測試集或驗證集。

      有的人可能會想,為什么評估模型要用兩個不同的數(shù)據(jù)集,直接用一個訓(xùn)練集不就可以了?理論上是不行的,因為模型是基于訓(xùn)練集構(gòu)建起來的,所以在理論上模型在訓(xùn)練集上肯定有較好的效果。但是,后來數(shù)學(xué)家們發(fā)現(xiàn),在訓(xùn)練集上有較好預(yù)測效果的模型,在真實的業(yè)務(wù)應(yīng)用場景下其預(yù)測效果不一定好(這種現(xiàn)象稱之為過擬合)。所以,將訓(xùn)練集和測試集分開來,一個用于訓(xùn)練模型,一個用于評估模型,這樣可以提前發(fā)現(xiàn)模型是不是存在過擬合。

      如果發(fā)現(xiàn)在訓(xùn)練集和測試集上的預(yù)測效果差不多,就表示模型質(zhì)量尚好,應(yīng)該可以直接使用了。如果發(fā)現(xiàn)訓(xùn)練集和測試集上的預(yù)測效果相差太遠(yuǎn),就說明模型還有優(yōu)化的余地。

      當(dāng)然,如果只想驗證一次就想準(zhǔn)確評估出模型的好壞,好像是不合適的。所以,建議采用交叉驗證的方式來進(jìn)行多次評估,以找到準(zhǔn)確的模型誤差。

      其實,模型的評估是分開在兩個業(yè)務(wù)場景中的:

      一、是基于過去發(fā)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行驗證,即測試集。本來,模型的構(gòu)建就是基于過去的數(shù)據(jù)集的構(gòu)建的。

      二、是基于真實的業(yè)務(wù)場景數(shù)據(jù)進(jìn)行驗證。即,在應(yīng)用模型步驟中檢驗?zāi)P偷恼鎸崙?yīng)用結(jié)果。

      第四步:應(yīng)用模型

      如果評估模型質(zhì)量在可接受的范圍內(nèi),而且沒有出現(xiàn)過擬合,于是就可以開始應(yīng)用模型了。

      這一步,就需要將可用的模型開發(fā)出來,并部署在數(shù)據(jù)分析系統(tǒng)中,然后可以形成數(shù)據(jù)分析的模板和可視化的分析結(jié)果,以便實現(xiàn)自動化的數(shù)據(jù)分析報告。

      應(yīng)用模型,就是將模型應(yīng)用于真實的業(yè)務(wù)場景。構(gòu)建模型的目的,就是要用于解決工作中的業(yè)務(wù)問題的,比如預(yù)測客戶行為,比如劃分客戶群,等等。

      當(dāng)然,應(yīng)用模型過程中,還需要收集業(yè)務(wù)預(yù)測結(jié)果與真實的業(yè)務(wù)結(jié)果,以檢驗?zāi)P驮谡鎸嵉臉I(yè)務(wù)場景中的效果,同時用于后續(xù)模型的優(yōu)化。

      第五步:優(yōu)化模型

      優(yōu)化模型,一般發(fā)生在兩種情況下:

      一、是在評估模型中,如果發(fā)現(xiàn)模型欠擬合,或者過擬合,說明這個模型待優(yōu)化。

      二、是在真實應(yīng)用場景中,定期進(jìn)行優(yōu)化,或者當(dāng)發(fā)現(xiàn)模型在真實的業(yè)務(wù)場景中效果不好時,也要啟動優(yōu)化。

      如果在評估模型時,發(fā)現(xiàn)模型欠擬合(即效果不佳)或者過擬合,則模型不可用,需要優(yōu)化模型。所謂的模型優(yōu)化,可以有以下幾種情況:

      1)  重新選擇一個新的模型;

      2)  模型中增加新的考慮因素;

      3)  嘗試調(diào)整模型中的閾值到最優(yōu);

      4)  嘗試對原始數(shù)據(jù)進(jìn)行更多的預(yù)處理,比如派生新變量。

      不同的模型,其模型優(yōu)化的具體做法也不一樣。比如回歸模型的優(yōu)化,你可能要考慮異常數(shù)據(jù)對模型的影響,也要進(jìn)行非線性和共線性的檢驗;再比如說分類模型的優(yōu)化,主要是一些閾值的調(diào)整,以實現(xiàn)精準(zhǔn)性與通用性的均衡。當(dāng)然,也可以采用元算法來優(yōu)化模型,就是通過訓(xùn)練多個弱模型,來構(gòu)建一個強(qiáng)模型(即三個臭皮匠,頂上一個諸葛亮)來實現(xiàn)模型的最佳效果。

      實際上,模型優(yōu)化不僅僅包含了對模型本身的優(yōu)化,還包含了對原始數(shù)據(jù)的處理優(yōu)化,如果數(shù)據(jù)能夠得到有效的預(yù)處理,可以在某種程度上降低對模型的要求。所以,當(dāng)你發(fā)現(xiàn)你嘗試的所有模型效果都不太好的時候,別忘記了,這有可能是你的數(shù)據(jù)集沒有得到有效的預(yù)處理,沒有找到合適的關(guān)鍵因素(自變量)。

      不可能有一個模型適用于所有業(yè)務(wù)場景,也不太可能有一個固有的模型就適用于你的業(yè)務(wù)場景。好模型都是優(yōu)化出來的!

      最后語

      正如數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程一樣,構(gòu)建模型的這五個步驟,并不是單向的,而是一個循環(huán)的過程。當(dāng)發(fā)現(xiàn)模型不佳時,就需要優(yōu)化,就有可能回到最開始的地方重新開始思考。即使模型可用了,也需要定期對模型進(jìn)行維護(hù)和優(yōu)化,以便讓模型能夠繼續(xù)適用新的業(yè)務(wù)場景。

      大數(shù)據(jù)的三個關(guān)鍵環(huán)節(jié)

      大數(shù)據(jù),是應(yīng)用導(dǎo)向的。它以商業(yè)需求為出發(fā)點,然后借助數(shù)據(jù)的手段,來發(fā)現(xiàn)商業(yè)活動的本質(zhì),進(jìn)而形成商業(yè)活動的決策和建議,以實現(xiàn)最終的商業(yè)目的。

       所以,在大數(shù)據(jù)領(lǐng)域,要想讓數(shù)據(jù)產(chǎn)生價值,涉及到三個關(guān)鍵環(huán)節(jié):

      (一)  將商業(yè)問題轉(zhuǎn)化數(shù)據(jù)可分析問題。

      (二)  對數(shù)據(jù)進(jìn)行有效的處理和分析,提取數(shù)據(jù)中蘊(yùn)含的業(yè)務(wù)信息。

      (三)  基于業(yè)務(wù)信息,形成最終的業(yè)務(wù)策略及應(yīng)用。

      這三個環(huán)節(jié),一環(huán)扣一環(huán),缺一不可。要想讓數(shù)據(jù)產(chǎn)生價值,要想讓大數(shù)據(jù)服務(wù)于企業(yè)的商業(yè)行為,則需要基于這三個環(huán)節(jié),重新梳理企業(yè)的整個IT支撐系統(tǒng)。

      為了方便描述,我把這三個環(huán)節(jié)簡化為如下的幾句話:業(yè)務(wù)數(shù)據(jù)化、數(shù)據(jù)信息化、信息策略化。

      業(yè)務(wù)數(shù)據(jù)化

      簡單地說,業(yè)務(wù)數(shù)據(jù)化,就是將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)問題。

      在數(shù)學(xué)家的眼里,世界的本質(zhì)是數(shù)學(xué)的。同樣,在數(shù)據(jù)分析師的眼里,任何一個商業(yè)問題,都可轉(zhuǎn)化為一個數(shù)學(xué)問題,或者是一個數(shù)據(jù)問題,一個數(shù)據(jù)可分析的問題。

      萬物皆可量化

      這源于一個最樸素的數(shù)據(jù)價值觀:萬物皆可量化。

      比如,要想弄明白一個人的興趣和愛好,就可以收集他在百度上搜索過什么關(guān)鍵詞,在今日頭條上閱讀過哪類資訊,瀏覽過哪些網(wǎng)站等這些數(shù)據(jù)。

      要想了解客戶的消費能力,則可以查看他的存款、每月的工資收入,或者他買過的產(chǎn)品的價格檔次等數(shù)據(jù)。

      同樣,要知道他去了哪里,則收集到車票機(jī)票數(shù)據(jù)、酒店住宿和景點門票數(shù)據(jù),最直接的是手機(jī)GPS數(shù)據(jù),都能夠直接體現(xiàn)他的位置信息,等等。

      正因如此,我們就可以通過數(shù)據(jù)來間接地描述客觀事物。

      萬物皆數(shù)據(jù)化

      同樣地,大多數(shù)的商業(yè)問題,都可以定義為數(shù)據(jù)可分析的問題。

      比如,用戶購買行為分析的問題,轉(zhuǎn)化為數(shù)據(jù)的問題,其實就是對客戶的瀏覽數(shù)據(jù)、搜索數(shù)據(jù)、點擊數(shù)據(jù)和交易數(shù)據(jù)等進(jìn)行統(tǒng)計分析,以查看其中的行為規(guī)律和行為模式;

      市場精準(zhǔn)營銷的問題,簡單地可看成是一個分類預(yù)測的問題,即判斷一個客戶會不會購買公司的產(chǎn)品,會購買公司的哪一款產(chǎn)品,以及大概在什么時候會有購買需求,等等;

      銀行的風(fēng)險控制和風(fēng)險識別問題,實際上是判斷一個人是否會拖欠貸款的預(yù)測問題;

      產(chǎn)品銷量提升的問題,就是要判斷有哪些因素會影響產(chǎn)品銷量,其實可看成是一個影響因素分析的問題,即是一個相關(guān)性問題;

      產(chǎn)品功能設(shè)計問題,也可以是一個影響因素分析的問題,即哪些功能和特征會對銷量產(chǎn)生比較大的影響,這些有顯著影響的功用和特征是需要在設(shè)計時重點考慮的;

      當(dāng)然,一個商業(yè)問題也可以轉(zhuǎn)化為幾個不同模式的數(shù)據(jù)問題,不同的數(shù)據(jù)問題得到的業(yè)務(wù)模式和業(yè)務(wù)信息也是不相同的。

      一句話,萬事皆可數(shù)據(jù)化。

      業(yè)務(wù)數(shù)據(jù)化,這一環(huán)節(jié)是大數(shù)據(jù)的開始,它是整個大數(shù)據(jù)價值實現(xiàn)的起點,沒有商業(yè)問題的指引,后續(xù)的環(huán)節(jié)(數(shù)據(jù)分析與數(shù)據(jù)挖掘)將會顯得盲目而毫無意義。

      數(shù)據(jù)信息化

      數(shù)據(jù)信息化,簡單地說,就是將數(shù)據(jù)變成信息,即要提取數(shù)據(jù)中蘊(yùn)含的業(yè)務(wù)信息。

      數(shù)據(jù)信息化,這一環(huán)節(jié)是大數(shù)據(jù)的核心,它是整個大數(shù)據(jù)價值實現(xiàn)的靈魂,要是無法對數(shù)據(jù)進(jìn)行有效地分析和挖掘,就無法提取到有用的業(yè)務(wù)信息。

      那么,數(shù)據(jù)中究竟包含了哪些業(yè)務(wù)信息呢?我認(rèn)為,大數(shù)據(jù)至少可以用來發(fā)現(xiàn)如下的業(yè)務(wù)信息:

      1)  業(yè)務(wù)的運(yùn)行規(guī)律和特征

      2)  業(yè)務(wù)的變化和問題

      3)  業(yè)務(wù)運(yùn)行的影響因素

      4)  業(yè)務(wù)在未來的發(fā)展趨勢

      下面我將為大家一一介紹如何提取業(yè)務(wù)的這些信息。

      探索規(guī)律

      哲學(xué)告訴我們,任何事物都是發(fā)展的,發(fā)展必定是有規(guī)律的,即萬事皆有規(guī)律。

      任何客觀事物,不管是企業(yè)的運(yùn)營管理,還是市場營銷行為,都是有規(guī)律的。而大數(shù)據(jù),則是探索這種規(guī)律的有效的工具!

      如下所示,幾乎所有的零售店的銷量都有如下的特征,即周末的銷量比工作日的銷量往往要多得多,而這些數(shù)據(jù)中就體出了客流量在時間上的分布規(guī)律。

      發(fā)現(xiàn)變化

      世界是物質(zhì)的,而物質(zhì)是運(yùn)動的,運(yùn)動是事物的本質(zhì)。

      一切事物都在運(yùn)動變化,這些運(yùn)動變化是可以被探知的。

      谷歌工程師每日都會對搜索感冒相關(guān)詞的搜索量做過分析,在正常情況下,某地區(qū)每日的搜索量都會在一個正常的范圍內(nèi)波動。但如果有一天(比如12號開始),某地區(qū)的搜索量開始持續(xù)上升,這上升的背后,其實體現(xiàn)的是患感冒人數(shù)的增加?;诖死碚?,谷歌的工程師開發(fā)出一個大數(shù)據(jù)產(chǎn)品GFT(Google Flu Trend),專門用來預(yù)測流感的爆發(fā)。這個產(chǎn)品,甚至可以在流感爆發(fā)前的7-14天就能夠做出預(yù)判。

      探索關(guān)系

      唯物辯證法認(rèn)為,世界上的一切事物都處在普遍聯(lián)系中,沒有任何一個事物是孤立地存在的。聯(lián)系是指事物之間以及事物內(nèi)部諸要素之間相互連結(jié)、相互依賴、相互影響、相互作用、相互轉(zhuǎn)化等相互關(guān)系。

      美國印第安納大學(xué)的教授約翰·博倫(Johan Bollen),曾發(fā)表了一篇文章《Twitter情緒預(yù)測股票市場》,其中就發(fā)現(xiàn)了人類的情緒指數(shù)與股票指數(shù)的具有較強(qiáng)的相關(guān)性。如下圖所示,當(dāng)情緒曲線往后挪3~4天以后,情緒的波動和股票的漲跌具有較強(qiáng)的一致性,這開啟了大數(shù)據(jù)炒股的新時代。

      一句話,萬物皆有聯(lián)系,而大數(shù)據(jù)成為探索事物間相互聯(lián)系的一種有效的手段。

      預(yù)測未來

      大家都知道,大數(shù)據(jù)分析的是已經(jīng)發(fā)生過的數(shù)據(jù),那么過去的數(shù)據(jù)已經(jīng)發(fā)生還有什么用呢?大數(shù)據(jù)只是借過去的數(shù)據(jù)來探索事物的規(guī)律和特征,其目的是為了探索事物在未來的發(fā)展變化或發(fā)展趨勢,因此,大數(shù)據(jù)的目的是預(yù)測?;趯κ挛锏念A(yù)測結(jié)果,用來作出相應(yīng)的策略調(diào)整。如果預(yù)測的結(jié)果不是我們想要的,則需要調(diào)整相應(yīng)的策略,使得事物朝著我們想要的方向去發(fā)展。

      所以,大數(shù)據(jù)描述的是過去,表達(dá)的卻是未來!

      信息策略化

      即使數(shù)據(jù)分析方法用得再熟練,數(shù)據(jù)挖掘的模型再漂亮,如果沒有形成最終的業(yè)務(wù)建議,無法落地成可被執(zhí)行的業(yè)務(wù)策略,都是空談。

      信息策略化,指的是基于對業(yè)務(wù)信息的理解,進(jìn)而提出相應(yīng)的業(yè)務(wù)策略和業(yè)務(wù)建議。

      就比如前面的例子,基于客流量的規(guī)律,可用于選擇營銷活動的執(zhí)行時間;基于流感爆發(fā)的預(yù)測,可用來提前作出相應(yīng)的準(zhǔn)備;基于情緒指數(shù)與股票指數(shù)的關(guān)系,可用于指導(dǎo)炒股的買賣,等等。

      當(dāng)然,要把具體的信息形成有效的策略,這沒有一個統(tǒng)一標(biāo)準(zhǔn),只能是就事論事。

      這是大數(shù)據(jù)產(chǎn)生價值必經(jīng)的三個環(huán)節(jié):業(yè)務(wù)數(shù)據(jù)化,數(shù)據(jù)信息化,信息策略化。

      這三個環(huán)節(jié),一環(huán)扣一環(huán),缺一不可。要想讓數(shù)據(jù)產(chǎn)生價值,要想讓大數(shù)據(jù)服務(wù)于企業(yè)的商業(yè)行為,則需要基于這三個環(huán)節(jié),重新梳理企業(yè)的整個IT支撐系統(tǒng)。

      沒有把業(yè)務(wù)定義成數(shù)據(jù)可分析問題,數(shù)據(jù)分析就是盲目的缺乏指導(dǎo);沒有有效的數(shù)據(jù)分析,就無法提取出有價值的業(yè)務(wù)信息,整個大數(shù)據(jù)就沒有意義;業(yè)務(wù)信息無法形成最終的業(yè)務(wù)策略和業(yè)務(wù)建議,大數(shù)據(jù)的價值也就無法落地。

      時間序列分析方法索引

      要作數(shù)值預(yù)測,最好的方法莫過于回歸預(yù)測。通過建立起影響因素(即自變量)與目標(biāo)變量之間的函數(shù)關(guān)系式,就可以對因變量的未來值進(jìn)行預(yù)測。

      盡管回歸分析在預(yù)測時比較準(zhǔn)確,但是,實現(xiàn)比較復(fù)雜,因為它要求能夠找到所有或大部分影響事物的關(guān)鍵因素,這樣才能夠建立回歸模型進(jìn)行預(yù)測。

      但是,在真實的場景中,要找出影響事物的關(guān)鍵因素是非常困難的,比如,大多數(shù)社會經(jīng)濟(jì)指標(biāo),如國內(nèi)生產(chǎn)總值(GDP)、消費價格指數(shù)(CPI)、上證綜合指數(shù)等等,要找出影響因素來建模,基本上不太可能,所以這種場景下,采用回歸分析難以實現(xiàn)。

      那該怎么辦呢?此時,可以嘗試使用另一種分析方法,即時間序列分析法。

      基本原理

      時間序列分析,不像回歸分析,它是拋開了對事物發(fā)展的因果分析,只分析事物的過去和未來的聯(lián)系,即它假定事物的過去趨勢會延伸到未來。

      時間序列(Timeseries),指的是按照相等時間間隔的順序而形成的數(shù)據(jù)序列。一般情況下,大多數(shù)社會經(jīng)濟(jì)指標(biāo),如GDP、CPI、利率、匯率等等都是時間序列。時間序列的時間間隔可以是分秒(如股票金融數(shù)據(jù)),也可以是日、周、月、季度、年,甚至更大的時間單位。

      時間序列分析基于這樣一個假設(shè):事物過去的模型可以持續(xù)到未來。

      時序形態(tài)

      簡單地,一個時間序列會隨著時間變化而變化,如下圖所示的幾種變化形式。

      比如左上第一個序列,有著明顯的季節(jié)性波動;右上第二個序列,有整體下降的趨勢;左下第三個序列,呈現(xiàn)上升趨勢而且具有季節(jié)波動;右下第四個序列,沒有明顯的趨勢也沒有季節(jié)波動。

      常用方法

      最常見的時間序列分析模型和方法有如下三大類:

      1)  趨勢類分析:移動平均、指數(shù)平滑等;

      2)  季節(jié)波動類分析:溫特斯方法、基于回歸的方法;

      3)  平穩(wěn)序列類分析:自回歸滑動平均模型。

      每一大類中,都會有多種分析方法和模型。

      大數(shù)據(jù)的哲學(xué)觀

      2007年上,圖靈獎得主吉姆格瑞在發(fā)表最后一次演講時說:大數(shù)據(jù)已經(jīng)成為科學(xué)研究的第四范式。人類在科學(xué)研究的道路上,從經(jīng)驗科學(xué),到理論科學(xué),再到計算科學(xué),如今到數(shù)據(jù)密集型科學(xué),科學(xué)研究對于世界運(yùn)行規(guī)律的探索永不停止,大數(shù)據(jù)成為第四范式也是必然之路。

      大數(shù)據(jù)之所以成為第四范式,源于它建立在以下三個哲學(xué)思想之上。

      世界是有規(guī)律的

      唯物主義者說,世界是物質(zhì)的,物質(zhì)是運(yùn)動的,運(yùn)動是有規(guī)律的,規(guī)律是可以被認(rèn)識的。而大數(shù)據(jù),就是建立在探索世界規(guī)律基礎(chǔ)上的,這是大數(shù)據(jù)存在的哲學(xué)基礎(chǔ)。也有人說,不確定性是宇宙的本質(zhì)!從宇宙大爆炸那一刻起,就從混沌走向混亂,從秩序走向不確定性。然而,隨著科學(xué)的不斷發(fā)展,大量的不確定的事物正在慢慢變得確定。

      自然界中,大到天體、星球的運(yùn)行,小到分子、原子的運(yùn)動,都遵循其固有的規(guī)律。這些規(guī)律看起來極其復(fù)雜,實則極其簡潔,以至于牛頓僅用幾個定律和公式就描述清楚,科學(xué)家們用一只筆就能夠計算出遙遠(yuǎn)星系中某個星球的運(yùn)行軌跡。

      不僅是自然界,人類社會的發(fā)展也是有規(guī)律。人類社會從原始社會開始,經(jīng)歷奴隸社會、封建社會,進(jìn)而到達(dá)資本主義社會和社會主義社會,看起來很混亂,然而社會的發(fā)展也是有規(guī)律的。比如,馬克思對大量復(fù)雜的社會現(xiàn)象進(jìn)行抽象分析,認(rèn)識到生產(chǎn)關(guān)系一定要適應(yīng)生產(chǎn)力發(fā)展是推動人類社會發(fā)展的根本規(guī)律。

      在生活中,人類的行為也同樣存在著各種規(guī)律,比如常說的“二八定律”,“光環(huán)效應(yīng)”,“破窗效應(yīng)”,“馬太效應(yīng)”,等等,都是對人類行為規(guī)律的總結(jié)。所以,大到國家治理/經(jīng)濟(jì)發(fā)展,中到企業(yè)管理/市場營銷,小到個人行為(包括購買行為、消費習(xí)慣)等等,都是有章可循的。而企業(yè)管理、市場營銷等等,不外乎就是想發(fā)現(xiàn)這些人類行為的規(guī)律,并且利用這些規(guī)律來達(dá)到某種商業(yè)目的。

      可見,萬事萬物的運(yùn)行和發(fā)展都是有其固有的發(fā)展規(guī)律的。整個宇宙體系,所有的星球運(yùn)行、所有的事物發(fā)展、所有的信息傳遞、所有的能量傳遞、所有的時空變化、所有的一切,都遵守著的某種基本規(guī)律。這種規(guī)律也許已經(jīng)被發(fā)現(xiàn),也許還沒有發(fā)現(xiàn)卻始終在影響著事物的發(fā)展變化。

      而大數(shù)據(jù),是對客觀世界的量化和記錄的結(jié)果,是客觀事物的規(guī)律表現(xiàn)出來的現(xiàn)象,通過對大數(shù)據(jù)的深入分析,就可以發(fā)現(xiàn)事物運(yùn)行和發(fā)展的規(guī)律,進(jìn)而利用這些規(guī)律,這也是為什么大數(shù)據(jù)能夠用在幾乎任何行業(yè)和領(lǐng)域的原因。

      那么,有沒有大數(shù)據(jù)無法應(yīng)用的領(lǐng)域呢?當(dāng)然有!曾經(jīng),有一個學(xué)員問我:能不能用大數(shù)據(jù)來預(yù)測雙色球或彩票?我答到:不能!因為彩票不具有規(guī)律性,或者目前還沒有發(fā)現(xiàn)有規(guī)律性,所以,無法用大數(shù)據(jù)來進(jìn)行探索或預(yù)測。

      世界是多維的

      哲學(xué)告訴我們說,世界是多維的。盡管,就我們?nèi)祟惸軌蚋兄目臻g來說,只有四維(即長、寬、高、時間)空間,但是物理學(xué)界流行的說法是世界應(yīng)該有11維時空。很多事物的現(xiàn)象在低維時空中無法解釋,但是在高維空間中卻能夠得到良好的解釋。所以,哲學(xué)告訴我們,要學(xué)會以多維的視角看世界。大數(shù)據(jù)的一個核心思維:融合思維,就基于世界的多維性。

      小數(shù)據(jù)時代多數(shù)是從單一指標(biāo)、單一類別來分析事物,所以其結(jié)果不一定準(zhǔn)確有用;而大數(shù)據(jù),強(qiáng)調(diào)要從多個維度對數(shù)據(jù)進(jìn)行交叉分析,來全面地觀察事物的變化,進(jìn)而探索事物的內(nèi)在規(guī)律。所以,大數(shù)據(jù)區(qū)別在于小數(shù)據(jù)最本質(zhì)的,不是數(shù)據(jù)量的大,而是分析維度要多得多。

      幾乎從未有過一個人在任何單一維度很強(qiáng)就能夠成為牛人,而是因為他理解世界的角度多才成為大咖,這就是所謂的“多元思維模型”的價值,這也是大數(shù)據(jù)區(qū)別于小數(shù)據(jù)的價值所在。大數(shù)據(jù),更強(qiáng)調(diào)數(shù)據(jù)的多維性!強(qiáng)調(diào)分析問題的多維性!大數(shù)據(jù)在體現(xiàn)事物規(guī)律的全面性方面,是小數(shù)據(jù)無法比擬的。

      由于大數(shù)據(jù)具有多維和全面的特點,所以,它可以從很多看似支離破碎的信息中復(fù)原一個事物的全貌,并進(jìn)而能夠預(yù)測或判斷出尚未觀察到的事物的現(xiàn)象。比如,愛因斯坦在(1916年)廣義相對論中預(yù)言了引力波的存在,即萬有引力和引力波都是時空彎曲的結(jié)果,但是,這種引力波在一百年后(2015年)才被證實。

      萬物皆有聯(lián)

      世界上的事物是普遍聯(lián)系的。普遍聯(lián)系,是指事物或現(xiàn)象之間以及事物內(nèi)部各要素之間是相互依賴、相互影響、相互作用、相互制約、相互轉(zhuǎn)化等相互關(guān)系。

       聯(lián)系的形式也是無限多樣的,有現(xiàn)象之間的聯(lián)系,也有本質(zhì)之間的聯(lián)系。本質(zhì)聯(lián)系(即常說的因果關(guān)系),是客觀事物的內(nèi)部聯(lián)系,是對事物的存在和發(fā)展起主要的、決定性作用的聯(lián)系,這種聯(lián)系體現(xiàn)了事物所固有的、內(nèi)在的根本性質(zhì),并貫穿于事物整個發(fā)展過程。而現(xiàn)象間的聯(lián)系(常說的相關(guān)關(guān)系),指的是事物外部的、表面的、現(xiàn)象的聯(lián)系。

      世界上的每一個事物或現(xiàn)象都與其它事物或現(xiàn)象相互聯(lián)系著,沒有絕對孤立的事物。通俗地說,任何事物都會受到其他因素的影響,受其他因素影響越大,事物的變化也就越大;受其他因素影響越小,事物的變化也就越小。

      比如,美國華爾街一家基金公司,就利用社交網(wǎng)絡(luò)上人們的情緒指數(shù)與股票指數(shù)的同步性,來預(yù)測基金的漲跌,進(jìn)而指導(dǎo)基金的買賣。

      唯物辯證法說,要以聯(lián)系的觀點來看問題。大數(shù)據(jù)另一個核心思維:相關(guān)性思維,就是基于普遍聯(lián)系的哲學(xué)思維。當(dāng)你利用數(shù)據(jù)影響事物的相關(guān)因素找出來,就能夠透過事物的現(xiàn)象抓住事物的本質(zhì)和規(guī)律,就能把握事物的發(fā)展和變化。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多