數(shù)據(jù)科學(xué),又稱(chēng)大數(shù)據(jù),如今被越來(lái)越多提及。數(shù)據(jù)科學(xué)是基于數(shù)據(jù),通過(guò)對(duì)其擴(kuò)展、統(tǒng)計(jì),對(duì)組織關(guān)系、物質(zhì)性能的系統(tǒng)研究,輔以推理甚至包括信心推斷等方式的綜合研究過(guò)程。大數(shù)據(jù)不同于傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)。首先“數(shù)據(jù)”的概念已經(jīng)擴(kuò)展,不僅僅是單純的數(shù)字,還可能是文本、圖像、視頻。此外從工程學(xué)角度看,大數(shù)據(jù)拋棄了傳統(tǒng)意義上數(shù)據(jù)的概念。數(shù)據(jù)庫(kù)僅僅是對(duì)海量數(shù)據(jù)的匯總及優(yōu)化,利于快速查詢,但數(shù)據(jù)庫(kù)并不利于對(duì)新知識(shí)的發(fā)現(xiàn),特別是當(dāng)用戶缺乏甚至不具備良好的查詢方式的時(shí)候。我們希望能夠揭秘即有新鮮感、吸引人的又穩(wěn)定的查詢模式來(lái)揭秘?cái)?shù)據(jù)。什么樣的分心方式吸引人?那就是最具有前瞻行的。對(duì)已有的數(shù)據(jù)能夠做出準(zhǔn)確的分析就會(huì)對(duì)后續(xù)的操作積累信心,這也就是大數(shù)據(jù)分析中最要的一項(xiàng)考察因素。 從數(shù)據(jù)科學(xué)的研究角度看,核心的內(nèi)容首先是要了解解決技巧。麥肯錫工業(yè)報(bào)告中顯示全球的數(shù)量以每年50%的幅度增長(zhǎng),2011年比2001年增長(zhǎng)了近40倍。數(shù)據(jù)量的劇增推動(dòng)了數(shù)據(jù)分析的發(fā)展。20世紀(jì)80年代人們開(kāi)始利用大量的數(shù)據(jù)做決策,90年代數(shù)據(jù)庫(kù)技術(shù)和數(shù)據(jù)庫(kù)分析業(yè)務(wù)流程日漸成熟。但當(dāng)時(shí)遇到的問(wèn)題就是,人們對(duì)數(shù)據(jù)的結(jié)構(gòu)分析相對(duì)簡(jiǎn)單,對(duì)其線性、單調(diào)性及分布參數(shù)等趨勢(shì)的假設(shè)不夠有效,導(dǎo)致信噪比過(guò)小而不能做到準(zhǔn)確的分析。同時(shí),利用計(jì)算機(jī)輔助的數(shù)據(jù)庫(kù)分析的核心是:人們?nèi)绻滥承﹩?wèn)題的答案,那么計(jì)算機(jī)才會(huì)根據(jù)數(shù)據(jù)庫(kù)給出分析。但問(wèn)題是,人們也許并不清楚自己想問(wèn)什么,也不知道對(duì)數(shù)據(jù)進(jìn)行什么樣的的特定查詢才能揭示數(shù)據(jù)背后有價(jià)值的規(guī)律。 當(dāng)人們意識(shí)到數(shù)據(jù)預(yù)測(cè)及準(zhǔn)確性是數(shù)據(jù)分析的核心時(shí),數(shù)據(jù)建模和決策制定便被提上了日程。這也是大數(shù)據(jù)存在的意義?;诩夹g(shù)機(jī)理論的大數(shù)據(jù)分析需具備三項(xiàng)基本技能。首先是數(shù)據(jù)統(tǒng)計(jì),特別是貝葉斯統(tǒng)計(jì)和概率分布理論。第二項(xiàng)技能是計(jì)算機(jī)理論,包括數(shù)據(jù)的基數(shù)按表達(dá),涉及計(jì)算機(jī)結(jié)構(gòu)及其算法,比如分布式計(jì)算、數(shù)據(jù)庫(kù)、并行算法、容錯(cuò)計(jì)算等理論,還有諸如Python和Perl等基本腳本語(yǔ)言掌握。利用計(jì)算機(jī)技術(shù)進(jìn)行的云計(jì)算以及非關(guān)聯(lián)性數(shù)據(jù)結(jié)構(gòu)處理是大數(shù)據(jù)分析的前沿技能。大三項(xiàng)技能是對(duì)知識(shí)的相關(guān)性及因果關(guān)系的掌握。這一項(xiàng)最難以規(guī)范,某種程度上據(jù)定了數(shù)據(jù)分析的走向,因?yàn)樗且贫嫦驍?shù)據(jù)提出的問(wèn)題方式,是解決問(wèn)題的前提,能否得到有意的推斷結(jié)論以及能否得到穩(wěn)定的數(shù)據(jù)預(yù)期,全靠這項(xiàng)技能,這也是未來(lái)衡量大數(shù)據(jù)科學(xué)家預(yù)測(cè)能力的核心技能。數(shù)據(jù)建模的潛在誤差來(lái)源基本可以歸類(lèi)于三個(gè)方面:模型的歸類(lèi)錯(cuò)誤,簡(jiǎn)單的說(shuō)比如非線性的模型使用了現(xiàn)行的分析;參數(shù)樣本,比如小樣本會(huì)導(dǎo)致參數(shù)估計(jì)的誤差;模型的隨機(jī)性。大數(shù)據(jù)的應(yīng)用能夠使得前兩種誤差系數(shù)大大降低。 大數(shù)據(jù)在市場(chǎng)營(yíng)銷(xiāo)、醫(yī)療保健以及研究人類(lèi)行為的數(shù)據(jù)分析中已經(jīng)開(kāi)始的到廣泛的引用。一項(xiàng)意義深遠(yuǎn)的大數(shù)據(jù)應(yīng)用的例子便是2012年民主黨對(duì)奧巴馬總統(tǒng)連任的預(yù)測(cè),他們針對(duì)選民的態(tài)度的分析預(yù)測(cè)制定了數(shù)據(jù)預(yù)測(cè)模型,對(duì)選民的意愿進(jìn)行詳細(xì)的分類(lèi),甚至喝了的預(yù)測(cè)了包括如何將總統(tǒng)包裝成選民希望的樣子的種種可能性。大數(shù)據(jù)的出現(xiàn)為知識(shí)發(fā)現(xiàn)和數(shù)據(jù)理論發(fā)展提供了前所未有的機(jī)遇,而行業(yè)的組織管理者則面臨著適應(yīng)新的數(shù)據(jù)時(shí)代的挑戰(zhàn),需要對(duì)傳統(tǒng)組織文化進(jìn)行實(shí)時(shí)轉(zhuǎn)變。 |
|