獨(dú)家對(duì)話《大數(shù)據(jù)時(shí)代》 斯塔西?施耐德(Stacy Snyder)曾經(jīng)的夢想是成為一名教師。2006年夏天,她完成了獲取教師資格證書所需的課程并通過了所有考試;然而她的夢想?yún)s在即將實(shí)現(xiàn)之時(shí)突然破滅——她所在學(xué)校的一位負(fù)責(zé)人告訴她,她無法取得教師資格證書。 學(xué)校負(fù)責(zé)人展示了一張她上傳到自己的MySpace頁面上的照片,照片上的她戴著一頂海盜帽,正端著一只塑料杯飲酒。這張照片是她向自己朋友展示的,甚至可能只是搞怪,但學(xué)校認(rèn)為這樣的行為與教師的標(biāo)準(zhǔn)不符。斯塔西向?qū)W校承諾將這張圖片從網(wǎng)上刪除,然而為時(shí)已晚——照片早已被搜索引擎索引,并被網(wǎng)絡(luò)爬蟲所記錄。她希望她的照片被遺忘,然而互聯(lián)網(wǎng)并不允許。 這是牛津大學(xué)互聯(lián)網(wǎng)學(xué)院的教授維克托?邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)在2009年
出版的《刪除:數(shù)字時(shí)代遺忘的價(jià)值》(中譯版為《刪除:大數(shù)據(jù)時(shí)代的取舍之道》,以下簡稱《刪除》)一書中引用的一個(gè)案例。他告訴讀者,遺忘本是人類的天
性,但隨著信息技術(shù)的發(fā)展,記憶變得越來越容易,遺忘卻越來越困難;無法遺忘不僅會(huì)給個(gè)人帶來不必要的困擾,也給企業(yè)制造了麻煩——他們存儲(chǔ)的數(shù)據(jù)日益增加,但其中很多隨著時(shí)間的推移而失去了價(jià)值。因此,他呼吁引入一種遺忘的機(jī)制,例如為數(shù)據(jù)設(shè)定一個(gè)保存期限,“讓我們記得去遺忘”。 盡管沒能提出切實(shí)可行的“遺忘”方法,但《刪除》獨(dú)特的視角仍受到了學(xué)術(shù)界和互聯(lián)網(wǎng)業(yè)界的廣泛關(guān)注;這本書不僅獲得了多項(xiàng)圖書獎(jiǎng),還被翻譯為德語、意大利語、韓語等不同語言。 當(dāng)“大數(shù)據(jù)”成為業(yè)界新的熱點(diǎn)之時(shí),在這一領(lǐng)域有著深入研究的維克托于近日出版了其新作《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》(以下簡稱《大數(shù)據(jù)時(shí)代》),通過一個(gè)個(gè)生動(dòng)的案例向讀者介紹大數(shù)據(jù)的價(jià)值及其將會(huì)帶來的改變。 從殺毒軟件開發(fā)者到跨界學(xué)者 維克托出生于奧地利薩爾斯堡,父親是一名律師,母親是一名商人。他經(jīng)常會(huì)在演講中引用他家人的例子。“我母親曾經(jīng)營一家電影院,我每年都會(huì)問她過去一年最好的電影是什么,她總是說‘我知道,我知道,就是XXX’,但她總是錯(cuò)的。”他試圖用這個(gè)例子說明大多數(shù)人對(duì)于數(shù)據(jù)并非特別擅長,因而需要數(shù)據(jù)分析工具和模型。 維克托從小便對(duì)軟件興趣濃厚。他12歲時(shí)便開始接觸編程,少年時(shí)期曾在國際物理奧林匹克競賽和奧地利青年程序員競賽中獲獎(jiǎng)。1986年,18歲的他創(chuàng)辦了著名的殺毒軟件公司IKARUS。不過正當(dāng)他希望在軟件領(lǐng)域一展身手之時(shí),父親卻要求他攻讀法律。 “我說我想成為一個(gè)軟件人,不想學(xué)法律,但他卻堅(jiān)持他的意見,于是我進(jìn)入法學(xué)院學(xué)習(xí),同時(shí)經(jīng)營著軟件公司。” IKARUS發(fā)展迅速,1991年,維克托被評(píng)為奧地利最杰出的5名軟件企業(yè)家之一;不過很快,他便無法兼顧繁重的學(xué)業(yè)和日益壯大的IKARUS,最終他選擇賣掉公司,專注于學(xué)術(shù)道路。從薩爾斯堡大學(xué)畢業(yè)后,維克托又在哈佛大學(xué)、劍橋大學(xué)和倫敦政治經(jīng)濟(jì)學(xué)院等世界名校攻讀了多個(gè)學(xué)位,并在畢業(yè)后先后進(jìn)入哈佛大學(xué)、新加坡國立大學(xué)和牛津大學(xué)任教。2000年,他還因?yàn)樵趯W(xué)界和業(yè)界的突出貢獻(xiàn)被評(píng)為薩爾斯堡州年度人物。 談到跨界的經(jīng)歷,維克托表示自己很幸運(yùn)。“很多政客和律師不懂商業(yè),而商人不懂法律、政治,我則有幸能兼顧兩邊——我進(jìn)入了軟件業(yè),成為一個(gè)創(chuàng)業(yè)者;同時(shí)又懂法律,了解決策者們的想法。” 掌握不同領(lǐng)域的知識(shí)不僅為維克托在互聯(lián)網(wǎng)治理等交叉學(xué)科方面的研究提供了很大的幫助,也讓他獲得了許多IT企業(yè)和政府部門的青睞——他曾先后為微軟、IBM、惠普等公司提供咨詢服務(wù),也擔(dān)任過新加坡商務(wù)部、科威特商務(wù)部和文萊國防部的智囊。 三大轉(zhuǎn)變定義大數(shù)據(jù) 大數(shù)據(jù)是今年IT界最熱門的概念之一,然而對(duì)于“大數(shù)據(jù)是什么”,連許多經(jīng)常談?wù)撨@一概念的從業(yè)者也無法給出準(zhǔn)確的答案。正因?yàn)槿绱?,大?shù)據(jù)也被質(zhì)疑為一個(gè)炒作出來的偽命題。 維克托也并未直接給出大數(shù)據(jù)的定義——在《大數(shù)據(jù)時(shí)代》的引言部分,他就明確指出“大數(shù)據(jù)并非一個(gè)確切的概念”。不過,他用三大轉(zhuǎn)變描述了大數(shù)據(jù)的特性。在接受記者采訪時(shí),他詳細(xì)闡釋了這三個(gè)轉(zhuǎn)變: “首先,在大數(shù)據(jù)時(shí)代,我們可以獲得和某個(gè)現(xiàn)象相關(guān)的所有數(shù)據(jù),而不只是少量的樣本。例如一項(xiàng)針對(duì)相撲比賽中非法操縱比賽結(jié)果的研究對(duì)64000場比賽進(jìn)行了分析,這算不上一個(gè)很大的數(shù)字,但由于這是過去十年所有的比賽,所以它是大數(shù)據(jù)。大數(shù)據(jù)是相對(duì)的而非絕對(duì)的。” “第二,由于有了更多的數(shù)據(jù),我們可以接受更多的混雜、更多數(shù)據(jù)上的不精確。如果我們對(duì)于一個(gè)事物只有50個(gè)數(shù)據(jù)點(diǎn),那么每一個(gè)數(shù)據(jù)點(diǎn)都必須非常精確,因?yàn)槊總€(gè)數(shù)據(jù)點(diǎn)都是有用的;但是如果我們有5000萬個(gè),去掉10個(gè),甚至去掉1000個(gè)都沒有太大的問題。” “第三,我們分析大數(shù)據(jù)主要為了預(yù)測未來‘是什么’,而不是‘為什么’。我們關(guān)注的是揭示哪些事情將會(huì)發(fā)生的相關(guān)關(guān)系,而非揭示為什么這些事情會(huì)發(fā)生的因果關(guān)系。因?yàn)楹芏鄷r(shí)候我們以為我們找到了事情背后的原因,實(shí)際上卻沒有找到。更多時(shí)候知道了‘是什么’就足夠了。例如知道流感將會(huì)擴(kuò)散到哪里就足夠了,我不需要知道為什么;知道什么時(shí)候在網(wǎng)上購買機(jī)票能夠獲得最優(yōu)惠的價(jià)格就足夠了,我不需要知道為什么此時(shí)價(jià)格最低。” “忘記”不相關(guān)的數(shù)據(jù)會(huì)帶來更好的預(yù)測結(jié)果 表面上看,此次出版的兩本書相互矛盾:《大數(shù)據(jù)時(shí)代》強(qiáng)調(diào)了數(shù)據(jù)的價(jià)值,而《刪除》卻提出數(shù)據(jù)應(yīng)該能夠被“忘記”。對(duì)此,維克托表示,兩本書相互補(bǔ)充,而以上的兩個(gè)觀點(diǎn)可以完美地相互作用。 “大數(shù)據(jù)只有在沒有噪音、沒有無用的數(shù)據(jù)的情況下才能很好地發(fā)揮作用。在《刪除》中,我認(rèn)為我們需要有擺脫那些過時(shí)的、和我們現(xiàn)在不相關(guān)的數(shù)據(jù)的可能性。如果亞馬遜忘記了和你當(dāng)前的興趣與偏好不相關(guān)的購書記錄,它推薦書的效果將會(huì)更好。只有好的數(shù)據(jù)才能帶來好的預(yù)測。” 對(duì)于大數(shù)據(jù)被過分炒作,維克托也表示擔(dān)憂:“它被夸大了,好像一切都突然成為了大數(shù)據(jù),大數(shù)據(jù)能解決所有問題,事實(shí)上人們并不了解它究竟是什么;一旦人們發(fā)現(xiàn)它不是萬能的,就會(huì)感到泄氣,然后大數(shù)據(jù)就被拋棄了。”在他看來,盡管大數(shù)據(jù)非常強(qiáng)大,但“人們需要明白它不是什么,我們不能將它過分夸大”。 對(duì)話《大數(shù)據(jù)時(shí)代》作者維克托?邁爾?舍恩伯格 數(shù)據(jù)是潛在的產(chǎn)品  維克托?邁爾-舍恩伯格 人物簡介:數(shù)
據(jù)科學(xué)的技術(shù)權(quán)威,最早洞見大數(shù)據(jù)時(shí)代發(fā)展趨勢的數(shù)據(jù)科學(xué)家之一?,F(xiàn)任牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授,曾任哈佛大學(xué)肯尼迪學(xué)院信息監(jiān)管科研項(xiàng)
目負(fù)責(zé)人,哈佛國家電子商務(wù)研究中網(wǎng)絡(luò)監(jiān)管項(xiàng)目負(fù)責(zé)人;曾任新加坡國立大學(xué)李光耀學(xué)院信息與創(chuàng)新策略研究中心主任。并擔(dān)任耶魯大學(xué)、芝加哥大學(xué)、弗吉尼亞
大學(xué)、圣地亞哥大學(xué)、維也納大學(xué)的客座教授。 12月11日,維克托攜兩本書的中譯本來到北京,在不同場合與讀者及業(yè)內(nèi)人士交流大數(shù)據(jù)相關(guān)的話題。本報(bào)記者在亦莊云基地與維克托進(jìn)行了深入對(duì)話,和他探討大數(shù)據(jù)時(shí)代的記憶與遺忘。 電腦報(bào):你說大數(shù)據(jù)時(shí)代應(yīng)該關(guān)注的是相關(guān)關(guān)系而不是因果關(guān)系,那么“為什么”對(duì)于企業(yè)來說真的不重要嘛? 維克托:是的。亞馬遜不需要知道你為什么會(huì)買某本書,或者為什么它給你推薦了某本書你就買下了它;它只需要知道你買了這本書,然后它會(huì)向你推薦相關(guān)的,僅此而已。類似的,快遞公司UPS通過大數(shù)據(jù)發(fā)現(xiàn)他們的車輛在GPS的指引下左轉(zhuǎn)時(shí)出事故的概率較高,于是他們更改了導(dǎo)航軟件,讓車輛更多地右轉(zhuǎn),盡管這浪費(fèi)了時(shí)間,但降低了出事的風(fēng)險(xiǎn),因此提高了效率;他們并不知道車輛左轉(zhuǎn)時(shí)發(fā)生了什么,為什么更容易出事,而他們也不需要知道這些。 電腦報(bào):亞馬遜、Google這些大公司已經(jīng)積累了很多數(shù)據(jù),但小公司、創(chuàng)業(yè)公司卻沒有多少數(shù)據(jù),在大數(shù)據(jù)時(shí)代他們應(yīng)該怎么做? 維克托:的
確,這很有趣。很長時(shí)間以來,這些大公司的強(qiáng)大之處在于他們的服務(wù)器集群等基礎(chǔ)設(shè)施。如今有了云計(jì)算,創(chuàng)業(yè)公司可以根據(jù)需要購買計(jì)算和存儲(chǔ)能力,以解決基
礎(chǔ)設(shè)施方面的不足,但他們沒有數(shù)據(jù)。數(shù)據(jù)是一些大公司獨(dú)家擁有的。當(dāng)然如果小公司選擇了正確的領(lǐng)域切入,也能夠獲得數(shù)據(jù)。例如Inrix公司,他們開發(fā)導(dǎo)航軟件,還能提供實(shí)時(shí)路況,告訴你哪里堵車。他們是怎么獲得這些信息的呢?他們的基礎(chǔ)導(dǎo)航服務(wù)是免費(fèi)的,但如果你同意下載這個(gè)應(yīng)用,它就會(huì)就會(huì)將你的行駛速度等信息傳回后端,于是你就成為了這個(gè)平臺(tái)的傳感器。每天有數(shù)百萬人使用Inrix,因此Inrix擁有數(shù)百萬傳感器,并獲取了大量的數(shù)據(jù)。他們能記錄在特定天氣下人們的駕駛速度,并將這些信息告訴保險(xiǎn)公司,或者告訴政府作為加強(qiáng)道路安全的參考。 電腦報(bào):通常企業(yè)只能通過自己搜集的數(shù)據(jù)進(jìn)行預(yù)測,但他們的數(shù)據(jù)是有局限的。比如我在亞馬遜上搜索了一本書,但最終通過其他渠道購買了,亞馬遜并不知道,它仍會(huì)推薦相關(guān)的書,我卻不再需要,如何解決這樣的問題? 維克托:事實(shí)上目前已經(jīng)有一些公司在分享自己的數(shù)據(jù)了,例如在網(wǎng)絡(luò)廣告領(lǐng)域。不過問題的關(guān)鍵在于你自己是否愿意你的數(shù)據(jù)被企業(yè)共享,如果你愿意讓他們共享數(shù)據(jù),你就能獲得更好的推薦。如今在硅谷有一些創(chuàng)業(yè)公司正試圖打造由個(gè)人、由消費(fèi)者控制的信息共享平臺(tái)。 電腦報(bào):相對(duì)來說用戶可能會(huì)對(duì)大公司更加信任,更愿意把信息分享給他們,那么小公司如何讓用戶分享更多數(shù)據(jù)? 維克托:這不一定。可以換個(gè)角度來看,很多人不愿意把數(shù)據(jù)分享給Google或者Facebook,他們認(rèn)為這些公司過于強(qiáng)大了;他們反倒更愿意把數(shù)據(jù)分享給小公司、創(chuàng)業(yè)公司。有意思的是,大數(shù)據(jù)能幫助大企業(yè),也能幫助小企業(yè),但對(duì)中型企業(yè)幫助不大。比如200-500人規(guī)模的企業(yè),它們不夠小,不像初創(chuàng)企業(yè)那么靈活,也不像Google那么強(qiáng)大,因而被擠壓在中間,沒有自己的優(yōu)勢。 電腦報(bào):在企業(yè)內(nèi)部,大數(shù)據(jù)應(yīng)該由什么部門負(fù)責(zé)? 維克托:CEO。這是很基本、很重要的。很多線下企業(yè)制造了大量的信息,他們有很多數(shù)據(jù),但他們不明白數(shù)據(jù)就是價(jià)值,對(duì)他們來說數(shù)據(jù)是問題,所以他們?cè)O(shè)有首席信息官來處理這個(gè)問題;而由于信息是在基礎(chǔ)設(shè)施上流動(dòng),他們還設(shè)有首席技術(shù)官來維護(hù)這些基礎(chǔ)設(shè)施。他們沒有意識(shí)到數(shù)據(jù)是產(chǎn)品,否則CEO會(huì)親自去看數(shù)據(jù),然后說這很有價(jià)值。管理者應(yīng)該改變認(rèn)識(shí),明白數(shù)據(jù)不是風(fēng)險(xiǎn)或問題,而是潛在的產(chǎn)品,是價(jià)值的源泉。 電腦報(bào):你認(rèn)為在大數(shù)據(jù)時(shí)代,與隱私保護(hù)相關(guān)的法律應(yīng)該有所調(diào)整嗎? 維克托:是
的。隱私權(quán)可以讓個(gè)人對(duì)互聯(lián)網(wǎng)、電子商務(wù)更信任;如果沒有隱私權(quán),我會(huì)對(duì)我在網(wǎng)上所做的事情很謹(jǐn)慎,因?yàn)橐坏┪覍⒛臣赂嬖V別人,我就可能把它收回來了,
我無法控制它。所以我們需要隱私法,但隱私法也需要?jiǎng)?chuàng)新。如今歐洲的隱私法規(guī)定,企業(yè)最多只能將數(shù)據(jù)保存到首要目的完成的時(shí)候?yàn)橹?。這是在小數(shù)據(jù)時(shí)代制定
的法律,在大數(shù)據(jù)時(shí)代已不再適用,因?yàn)閿?shù)據(jù)的價(jià)值往往并非體現(xiàn)在其首要用途上,而是在其次要乃至第三位的用途上,可能是你收集數(shù)據(jù)時(shí)并不知道的用途。所以
我們要做的是,讓數(shù)據(jù)不再只能被保存到它的首要用途完成時(shí)為止,而是將決定權(quán)交給和數(shù)據(jù)相關(guān)的個(gè)人,讓他們來決定是否刪除數(shù)據(jù)。 電腦報(bào):在《刪除》中你說應(yīng)該對(duì)企業(yè)保存數(shù)據(jù)的時(shí)間有所限制,這是否會(huì)影響企業(yè)對(duì)于大數(shù)據(jù)的使用? 維克托:我的意思是,數(shù)據(jù)能保存多久應(yīng)該由和數(shù)據(jù)相關(guān)的個(gè)人來決定。例如我如果希望我的數(shù)據(jù)在亞馬遜上保持很長時(shí)間,我需要有這個(gè)權(quán)利和意愿;但我必須同時(shí)擁有刪除這些數(shù)據(jù)的權(quán)利。亞馬遜也會(huì)因此獲益,因?yàn)槿绻腋嬖V他們“刪除我8年前的購書記錄,因?yàn)檫@和我如今的興趣無關(guān)”,這樣能將一些噪音排除,他們的推薦會(huì)更精確,我可能會(huì)買更多的書。 電腦報(bào):如果大數(shù)據(jù)能夠準(zhǔn)確預(yù)測未來,我們就可以在面臨選擇時(shí)做出最合理的選擇,但很多時(shí)候我們的個(gè)性、我們生活中的快樂正是源自于一些非理性的選擇,大數(shù)據(jù)是否會(huì)讓我們失去這些? 維克托:只
有當(dāng)我們知道了真相是什么、當(dāng)我們理性的時(shí)候,我們才能非理性。我們可以理性地去面對(duì)不合理的情況,這是我們主動(dòng)選擇不理性的,符合人類的習(xí)慣。例如數(shù)據(jù)
告訴我抽煙不好,但我依然可以抽煙,這是非理性的,但這個(gè)非理性的決定是基于一個(gè)理性的選擇,因?yàn)槲抑懒苏嫦啵晕以谧鲞x擇時(shí)是理性的。如果沒有數(shù)
據(jù),我就不知道我什么時(shí)候是理性的,什么時(shí)候是非理性的;很多時(shí)候我認(rèn)為我做了一個(gè)正確的決定,實(shí)際上卻是一個(gè)錯(cuò)誤的決定。所以在有了數(shù)據(jù)之后我們的生活
依然可以很有趣。 電腦報(bào):你說遺忘是人類的天性,但事實(shí)上如今的人類也喪失了一些我們祖先所擁有的能力,那么人類在數(shù)字時(shí)代喪失遺忘的能力是否可以被看作是一種進(jìn)化? 維克托:可以這么說,但進(jìn)化應(yīng)該是個(gè)緩慢的過程,尤其是要重組大腦。在很偶然的情況下,進(jìn)化可能會(huì)使人類喪失某項(xiàng)能力,但這需要很多年才能完成。 本文出自2012-12-24出版的《電腦報(bào)》第51期 A.新聞周刊
|