書籍簡介:

作者:
《大數(shù)據(jù)時代》是國外大數(shù)據(jù)研究的先河之作,本書作者維克托?邁爾?舍恩伯格被譽(yù)為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”,擁有在哈佛大學(xué)、牛津大學(xué)、耶魯大學(xué)和新加坡國立大學(xué)等多個互聯(lián)網(wǎng)研究重鎮(zhèn)任教的經(jīng)歷,早在2010年就在《經(jīng)濟(jì)學(xué)人》上發(fā)布了長達(dá)14頁對大數(shù)據(jù)應(yīng)用的前瞻性研究。
兩年前,還是社會學(xué)專業(yè)的我最喜歡翹的課叫做”社會統(tǒng)計(jì)學(xué)”,與其聽著傳統(tǒng)死板的抽樣調(diào)查與回歸分析,我更喜歡和一個做數(shù)據(jù)挖掘的數(shù)學(xué)系同學(xué)四處溜達(dá)?!皵?shù)據(jù)挖掘(Data mining)是什么?”她跟我舉了一個最簡單的例子:“沃爾瑪通過對超市里人們購買行為的大量數(shù)據(jù)分析,發(fā)現(xiàn)男人們來買啤酒的時候,通常也會買尿布。這樣的發(fā)現(xiàn)就讓超市將尿布和啤酒擺放在一起出售,從而提高利潤?!?br>“嚴(yán)謹(jǐn)?shù)纳鐣W(xué)訓(xùn)練”讓我?guī)缀踉诋?dāng)時就開始思考“為什么?”“尿布和啤酒的銷售量為什么會有關(guān)聯(lián)呢?是因?yàn)槟腥藗冑I啤酒的時候,會‘順便’購買尿布?還是因?yàn)橘I“尿布”的時候會聯(lián)想到‘’啤酒’?”——這使我立刻意識到在社會科學(xué)的學(xué)習(xí)中,因果關(guān)系已經(jīng)成為了一種極其普遍的范式——甚至夸張一點(diǎn)說,所有社會科學(xué)的研究都只是為了解答一個問題——“為什么?”它面向過去,面向所有已經(jīng)發(fā)生的事實(shí),試圖通過信息收集和邏輯假設(shè)來說明一個道理:”人類社會中**事情的發(fā)生,是因?yàn)?*及**因素的作用?!?br>我意識到,這與《大數(shù)據(jù)時代》中所提出的”大數(shù)據(jù)思維“的三個層面正好截然相反:
1
、不是因果關(guān)系,而是相關(guān)性。大數(shù)據(jù)思維只關(guān)注”相關(guān)性“,而不再關(guān)注因果關(guān)系。也就是說,沃爾瑪知道尿布和啤酒、手電筒與pop-tarts蛋撻的銷量具有正相關(guān)性,就足夠做出將兩個物品擺放在一起銷售的決策了。它并不需要去分析原因,因?yàn)橹灰肋@件事情”正在發(fā)生“或者”即將發(fā)生“,企業(yè)就完全能夠做出正確的決定。
2、“樣本=全部”——不是隨即樣本,而是全部數(shù)據(jù)。《大數(shù)據(jù)時代》也對傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)構(gòu)成了沖擊。在這樣一個我們有足夠強(qiáng)大的數(shù)據(jù)搜集和數(shù)據(jù)處理能力的時代,樣本不再是萬分之一,而轉(zhuǎn)變成了”樣本=全部“,樣本,就是萬分之一萬。傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)的隨機(jī)抽樣方法中有一條極其明智的真理:”采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。”可以說,“樣本分析”奠定了絕大多數(shù)科學(xué)研究的基礎(chǔ)。而大數(shù)據(jù)時代,全數(shù)據(jù)分析的模式將全面替代“樣本分析方式”。正如《魔鬼經(jīng)濟(jì)學(xué)》(Freakonomics)中,作者關(guān)于相撲運(yùn)動員的研究,其創(chuàng)造性的觀點(diǎn)正式通過使用了11年中超過64000場摔跤比賽的全數(shù)據(jù)記錄來尋找到了異常性。這樣的洞見,恰恰是樣本分析所無法提供的。
3、不是精確性——而是混雜性。數(shù)據(jù)量的顯著增大也必然會讓我們付出一些代價——一些不準(zhǔn)確的數(shù)據(jù)會混入數(shù)據(jù)庫,結(jié)果也可能不準(zhǔn)確。這就是大數(shù)據(jù)時代的另一種思維——“不是精確性,而是混雜性”。 對“小數(shù)據(jù)”而言,最重要的要求就是減少錯誤。而在大數(shù)據(jù)的采集里,在技術(shù)尚未達(dá)到完美無缺之前,混亂是無可避的。雖然我們得到的信息不再那么準(zhǔn)確,但收集到的數(shù)量龐大的信息讓我們放棄嚴(yán)格精確的選擇變的更為劃算。從谷歌翻譯系統(tǒng)中可以看到,它收集了上萬億的語料庫,來自未經(jīng)過濾的網(wǎng)頁內(nèi)容,可能會含有不準(zhǔn)確的用法、語病,未必每一條語料庫都非?!熬_”,然而這個語料庫是布朗語料庫的幾百萬倍大,這樣的龐大規(guī)模優(yōu)勢完全掩蓋了它的缺點(diǎn)。也就是“大數(shù)據(jù)的簡單算法,比小數(shù)據(jù)的復(fù)雜算法,更加有效”。
總體而言,大數(shù)據(jù)時代透露出三個特征——更多、更雜與更好。它面向未來,要做的事情是關(guān)于“預(yù)測”。正如作者所說"大數(shù)據(jù)要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,就像我們常說的‘釘是釘,鉚是鉚’,
但認(rèn)為每個問題只有一個答案的想法是站不住腳的,不管我們承不承認(rèn)。一旦我們承認(rèn)了這個事實(shí),甚至擁護(hù)這個事實(shí)的話,我們離真相又近了一步?!?br>
當(dāng)我們用”物聯(lián)網(wǎng)“去開始測量、記錄、分析,世界,并將我們的世界”數(shù)字化“的時候,Information Technology,信息技術(shù)的變革,就將聚光燈轉(zhuǎn)向了Information的身上。
從三千多年前會計(jì)學(xué)的誕生開始,人們將大量的經(jīng)濟(jì)活動”數(shù)字化“。然而,”數(shù)字化“只是為”數(shù)據(jù)化”拉開序幕。
在google的數(shù)字圖書館中,”文字“也已經(jīng)被“數(shù)據(jù)化”,人們可以檢索、對比、發(fā)現(xiàn)不同的詞組在幾十年來中含義和運(yùn)用的沿革。人可以閱讀,機(jī)器也可以分析。
在Foursquare和街旁網(wǎng)中,“方位”也已經(jīng)被“數(shù)據(jù)化”,在我們喜愛的地方”check-in“,我們通過忠誠度計(jì)劃、酒店推薦和其他計(jì)劃得到好處。
在Facebook或twitter的里,"溝通"也已經(jīng)被“數(shù)據(jù)化”,倫敦的金融公司通過分析每天的Twitter的大量數(shù)據(jù),以作為股市的投資信號。
而更令人興奮的是,”數(shù)據(jù)"作為一種資源,本身是一種非競爭性的資源,它的價值并不會因?yàn)楸皇褂枚鴾p少,相反,它可能被通過不斷地重復(fù)使用而產(chǎn)生出更高的價值。數(shù)據(jù)本身的價值,是它所有能夠產(chǎn)生的可能選擇的價值的總和。書中提到了幾種數(shù)據(jù)創(chuàng)新:
1、數(shù)據(jù)再利用。數(shù)據(jù)的運(yùn)用者常常不是那些擁有大量數(shù)據(jù)的機(jī)構(gòu),卻是那些恰好可以用這些數(shù)據(jù)來支持其商業(yè)模式的機(jī)構(gòu),這就是“再利用”
2、重組數(shù)據(jù):將多個數(shù)據(jù)集的總和重組在一起時,充足總和本身的價值也比單個的總更大。丹麥的癌癥研究就是將所有的癌癥患者和手機(jī)用戶的數(shù)據(jù)結(jié)合起來,從而揭示兩者是否有關(guān)聯(lián)性——幸運(yùn)的是,全數(shù)據(jù)顯示并無關(guān)聯(lián)。
3、可擴(kuò)展數(shù)據(jù)。譬如,零售在店內(nèi)安裝的監(jiān)控?cái)z像頭,不僅能認(rèn)出把手,也能跟蹤經(jīng)過商店的客戶流和他們停留的位置。
4、數(shù)據(jù)的折舊值:隨著時間的退役,大部分的數(shù)據(jù)都會失去一部分基本用途。然而,即使數(shù)據(jù)用于基本用途的價值會減少,但選擇的價值卻依然強(qiáng)大。從這個角度,組織機(jī)構(gòu)應(yīng)收集盡可能多的使用數(shù)據(jù),并保存盡可能長的時間,同時也應(yīng)當(dāng)與第三方分享數(shù)據(jù),保留所謂的“延展性”權(quán)利。
5、數(shù)據(jù)廢氣:在拼寫檢查中,用戶會有大量的錯誤拼寫。這些數(shù)據(jù)看起來是廢品,但收集在一起卻能夠鍛造成一塊閃亮的金元寶。例如,當(dāng)couresa這樣的網(wǎng)絡(luò)平臺中一個班級數(shù)量超過萬人時,教授發(fā)現(xiàn)2000個學(xué)生在作業(yè)中犯了同樣的一個錯誤。修正后,系統(tǒng)將會提醒以后犯同樣錯誤的學(xué)生。通過這些’錯誤“,我們改變了教育的方式。
6、開放數(shù)據(jù):政府只是收集信息的托管人,而數(shù)據(jù)應(yīng)當(dāng)對全球開放。
在大數(shù)據(jù)價值鏈上,會有三種不同的大數(shù)據(jù)公司,
第一種是基于數(shù)據(jù)本身的公司,第二種是基于技能,第三種則是基于思維。從我的理解來看,第一種人,擁有金礦的礦山。第二種就是數(shù)據(jù)分析師,也可以說,擁有開采、提煉金礦的技術(shù)。第三種則是加工金礦的人,把金礦做成金元寶、首飾,通過創(chuàng)新思維讓數(shù)據(jù)具有商業(yè)價值。在大數(shù)據(jù)時代的早期,思維和技能是最有價值的,但作者認(rèn)為,最終,大部分的價值還是必須從數(shù)據(jù)本身來挖掘,也就是說——金礦本身才是最值錢的。
然而,大數(shù)據(jù)背后帶來的也是重重隱憂——從我們的隱私不斷暴露,個人在網(wǎng)絡(luò)上留下的千絲萬縷的蹤跡似乎讓人們又回到了”老大哥在看著你“的那種擔(dān)憂。”“數(shù)據(jù)統(tǒng)治”的登峰造極從哲學(xué)上會抹殺人的自由意志和選擇的可能性,正如,基于你以前的各類數(shù)據(jù)分析,陪審團(tuán)斷定你以后將會犯罪。那將是人性面對技術(shù)的一次潰敗。
閱讀《大數(shù)據(jù)時代》的過程,總是讓我不斷地想起庫恩《科學(xué)革命的結(jié)構(gòu)和范式》。毫無疑問,大數(shù)據(jù)帶來的是思維范式的根本性變革——我們將不再沉湎于歷史和過去,試圖解釋某種聯(lián)系,而是更好地覺知當(dāng)下,與正在發(fā)生的未來。