今天的文章中,我們將重點討論在數(shù)據(jù)科學研究中,數(shù)據(jù)分析問題的四種類型:描述、診斷、預測和規(guī)定。 在與數(shù)據(jù)科學領(lǐng)域的年輕數(shù)據(jù)分析師們交談時,我經(jīng)常問他們,什么是他們所認為數(shù)據(jù)科學家最重要的技能,他們給出的答案五花八門。 我告訴他們的答案是,數(shù)據(jù)科學家最重要的技能是將數(shù)據(jù)轉(zhuǎn)化為清晰而且意義明確的見解。這是一個經(jīng)常被忽視的能力,瑞典統(tǒng)計學家Hans Rosling正是因此而聞名。 談到這個話題有必要談論一下幫助人們理解數(shù)據(jù)分析在形成有價值的見解過程中的角色的作用的工具。 其中一種工具就是分析的四維范例。 簡單來說,數(shù)據(jù)分析可以分為四個主要類別,我將在下面做出詳細解釋。 1.描述:發(fā)生了什么事? 這是最常見的數(shù)據(jù)分析形式。在商業(yè)領(lǐng)域,它為分析人員提供了業(yè)務中關(guān)鍵指標和措施的。 每月?lián)p益表正是這樣的一個例子。 類似地,數(shù)據(jù)分析師可以通過大量的客戶數(shù)據(jù),了解客戶的統(tǒng)計信息(例如我們的客戶中30%是個體經(jīng)營者),這種可以被歸類為“描述性分析”。 利用有效的可視化工具能夠增強描述性分析的信息。 FineReport 2.診斷:為什么會發(fā)生? 數(shù)據(jù)分析的下一步是解析性描述。 在對描述性數(shù)據(jù)進行評估時,診斷分析工具將使分析師具備深入分析的能力,從而剝離問題的根本原因。 精心設計的商業(yè)信息儀表板包含讀取時間序列數(shù)據(jù)(即多個連續(xù)時間點的數(shù)據(jù)),并具有數(shù)據(jù)過濾和挖掘的能力,可進行此類分析。 比如查看數(shù)據(jù)地圖,我發(fā)現(xiàn)江蘇的市場銷售額較高,想知道是什么原因?于是點擊該省份,能定位到各類產(chǎn)品的銷售數(shù)據(jù)和響應的合作客戶數(shù)據(jù)。 FineReport 3.預測:將來會發(fā)生什么? 預測分析是為了預報。 無論是將來發(fā)生事件的可能性,預測可量化的數(shù)量還是估計可能發(fā)生事件的時間點,這些都是通過預測模型完成的。 預測模型通常利用各種可變數(shù)據(jù)進行預測。組件數(shù)據(jù)的變異性將與可能預測的關(guān)系(例如,一個較老的人,他們對心臟病發(fā)作的敏感程度越高,我們會說年齡與心臟病發(fā)作風險呈線性相關(guān))。然后將這些數(shù)據(jù)一起編譯成分數(shù)或預測。 處在一個巨大不確定性的世界中,預測可以幫助人們做出更好的決定。預測模型是許多領(lǐng)域中最重要的模型。 4.規(guī)范:我需要做什么? 在價值和復雜性方面的下一步是規(guī)范性模式。 規(guī)范模型利用對發(fā)生的事情的理解,為什么發(fā)生了這種情況以及各種“可能發(fā)生的”分析,以幫助用戶確定采取的最佳行動方案。 規(guī)定性分析通常不僅僅是一個單獨的行動,而且實際上是其他一些行動。 一個很好的例子是交通應用程序能夠幫助您選擇最佳路線回家,并考慮每個路線的距離,每個路上可以行駛的速度,以及當前的交通限制。 另一個例子是制作考試時間表,保證所有學生的時間表不存在沖突。 因此,雖然不同形式的分析可能為企業(yè)提供不同數(shù)量的價值,但它們都具有自己的用處。 |
|