乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      大數(shù)據(jù)時代,讓一群腦殘為你選書

       易良義 2016-07-20

      版權(quán)聲明
      本文作者:師北宸
      本文發(fā)自微信公共賬號:digital_meme (數(shù)字彌母)
      無需授權(quán)即可轉(zhuǎn)載,轉(zhuǎn)載請保留以上版權(quán)聲明

      (最近有不少人關(guān)注公號,分享一篇老文,原刊于《紐約時報》中文站。)

      對“大數(shù)據(jù)”概念還搞不清的人可以松一口氣了,如果你讀過《大數(shù)據(jù)時代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),你會發(fā)現(xiàn)舍恩伯格(Viktor Mayer-Sch?nberger)對“大數(shù)據(jù)”的定義如此簡單:所謂大數(shù)據(jù)(Big Data),就是大量的數(shù)據(jù);它的反義詞同樣簡單:小數(shù)據(jù)(Small Data),很少很少的數(shù)據(jù)。

      相比于作者所著同樣談?wù)摯髷?shù)據(jù)話題的《刪除:大數(shù)據(jù)取舍之道》一書,《大數(shù)據(jù)時代》結(jié)構(gòu)緊密,邏輯清晰,論證過程也更為嚴(yán)謹(jǐn)。本書在何為大數(shù)據(jù)、大數(shù)據(jù)有何典型特征、大數(shù)據(jù)的實際應(yīng)用和未來以及大數(shù)據(jù)的隱憂等關(guān)鍵問題上,通過案例和通暢曉白的解釋,梳理清楚了“大數(shù)據(jù)”這個看起來高深復(fù)雜但其實無處不在的概念。在舍恩伯格看來,以往我們因受限于工具而采用的抽樣調(diào)查以及精準(zhǔn)采樣數(shù)據(jù)的分析方法需要革新,大數(shù)據(jù)時代是改變方法論和思維方式的過程。

      大數(shù)據(jù)時代的到來,與信息數(shù)字化息息相關(guān)。在2000年的時候,以數(shù)字化形式存儲的數(shù)據(jù)僅占全球數(shù)據(jù)量的四分之一,而到了2007年時,90%以上數(shù)據(jù)是數(shù)字化數(shù)據(jù),剩下不到10%是存儲在報紙、CD等介質(zhì)上的模擬數(shù)據(jù)。我們知道,模擬數(shù)據(jù)在復(fù)制和傳播過程中信息會失真、噪音疊加,比如一張紙連續(xù)復(fù)印三次之后,噪點越來越多,字跡越來越模糊,一盤音樂磁帶連續(xù)翻錄多次之后,令人厭煩的“嗞嗞”聲越來越大。而二進(jìn)制數(shù)字世界,是一個非黑即白的世界,要么1要么0,即使有噪點,灰色也會被識別黑色(1),淺白則被計算機(jī)處理為白(0),沒有中間地帶,也就沒有了噪音的容身之處。信息在數(shù)字世界得以無損復(fù)制和傳播,再加上不斷廉價化的存儲能力以及同時提高的計算能力,大量以前無法處理的數(shù)據(jù),有了分析、解讀它們的可能。

      在模擬信息的世界,因為信息收集、信息復(fù)制、信息存儲以及信息分析的工具既不夠好,成本也極為高昂,我們只能收集極少量的數(shù)據(jù)(也即所謂的“結(jié)構(gòu)化數(shù)據(jù)”)進(jìn)行分析,由于條件所限,我們發(fā)明了統(tǒng)計學(xué)來通過盡可能少的數(shù)據(jù),去推導(dǎo)、去證實盡可能重大的發(fā)現(xiàn)。當(dāng)我們意識到我們已經(jīng)擁有能夠收集和處理大規(guī)模數(shù)據(jù)(也即所謂更多的“非結(jié)構(gòu)化數(shù)據(jù)”)能力的時候,我們需要新的理念和工具去重新認(rèn)識這個世界了。

      新的理念運(yùn)用于工具上的體現(xiàn)之一是光場相機(jī)Lytro。與其它數(shù)碼相機(jī)不同的是,Lytro相機(jī)可以在拍攝完照片之后再對焦。因為在拍攝時,Lytro可以記錄整個光場里所有的光,照片具體生成什么樣,拍完之后根據(jù)需要再決定?!袥]有發(fā)現(xiàn)這顛覆了我們做事的一貫邏輯?以往我們因為受制于工具或金錢,需要提前想好我們的目的,再去獲取我們需要的信息。而大數(shù)據(jù)時代的思維方式則如Lytro的特性一樣,先拍下來再說,需要什么樣的照片,后期再處理。Lytro相機(jī)也算從膠片機(jī)過渡到數(shù)碼相機(jī)交疊時代思維的延續(xù),如果攝影技術(shù)不太好,先拍一堆片子再說,你總能挑出幾張好的來。

      對小數(shù)據(jù)而言,最重要的要求是減少錯誤,保證質(zhì)量。而大數(shù)據(jù)對更糙的信息及冗余信息容忍度更高,也即當(dāng)資源足夠豐富且廉價的時候,可以先大量浪費(fèi),再來精準(zhǔn)化。而不是預(yù)設(shè)精準(zhǔn)的目標(biāo)。亞馬遜早期雇傭了一群書評家為讀者薦書,后來發(fā)現(xiàn)通過算法——一群對圖書質(zhì)量判斷能力遠(yuǎn)不如專業(yè)人士的普通讀者的口味的集合——推薦圖書的轉(zhuǎn)化率更高之后,亞馬遜把書評家們都解雇了。由于自己多年積累被算法取代的憤怒,在被解雇之后,書評家發(fā)出這樣的抱怨:(通過算法推薦)“那種感覺就像你和一群腦殘在一起逛書店?!鳖愃频墓适乱舶l(fā)生微軟。微軟機(jī)器翻譯部門的統(tǒng)計學(xué)家們在茶余飯后閑聊中會說,每次一有語言學(xué)家離開他們團(tuán)隊,微軟機(jī)器翻譯質(zhì)量就會變得更好一點。

      從對信息質(zhì)量的角度出發(fā)去觀察,我們會發(fā)現(xiàn)大數(shù)據(jù)時代的特性的確越來越“腦殘化”:它放棄原始數(shù)據(jù)的精確性,強(qiáng)調(diào)數(shù)據(jù)量的多和雜;它放棄因果關(guān)系的判斷,強(qiáng)調(diào)相關(guān)關(guān)系;它放棄知其所以然(為什么),只需知其然(是什么)就可以了。豆瓣閱讀為什么給你推薦《中國合伙人》?背后的邏輯可能是你的朋友最近點了“想看”或“看過”。新浪微博為什么推薦李承鵬而不是李開復(fù)給你關(guān)注?背后的邏輯可能是你關(guān)注的人中更多人關(guān)注李承鵬。但為什么因為朋友喜歡,所以機(jī)器就會判定你也會喜歡呢?不知道。機(jī)器通過計算得知,如果你有很多朋友喜歡同一個事物,那么你喜歡這個事物的概率會大一些。可能對,也可能錯。二者之間強(qiáng)相關(guān),但不因果。

      大數(shù)據(jù)最大的用途之一是預(yù)測。好的方面,它可以預(yù)測機(jī)票價格走勢,為自費(fèi)旅游者省錢;它能預(yù)測交通擁堵情況,幫助人們選擇更好的時段和路線節(jié)省出行時間;它也可以像亞馬遜做的那樣,為你提供更準(zhǔn)確的書單,幫你遇見更多好書。《麻省理工科技創(chuàng)業(yè)》曾報道說,英國伯明翰大學(xué)的一個研究團(tuán)隊甚至開發(fā)出一種算法,可以精確地預(yù)測你未來將要去哪里。大多數(shù)人一般有規(guī)律的行為模式,但傳統(tǒng)的預(yù)測算法——只通過用戶本身的行為模式來進(jìn)行預(yù)測,解決不了人們臨時變更路線的情況,導(dǎo)致預(yù)測人們出行的平均誤差高達(dá)1000米。伯明翰大學(xué)開發(fā)的算法可以通過追蹤用戶手機(jī)上的個人過往行為模式數(shù)據(jù)以及用戶手機(jī)里的社交關(guān)系——當(dāng)然,新型算法需要收集和分析大量個人信息。最后能預(yù)測用戶在24小時之內(nèi)會去什么地點,而平均誤差減少到僅20米。

      如此精準(zhǔn)的研究結(jié)果讓人驚喜——細(xì)想過后,可能給人帶來更多的是驚訝,或驚恐。沒有人希望自己的正常出行被別人預(yù)測——機(jī)器竟然比我自己還了解自己,我連三小時后我會干嘛都不知道呢!這提醒我們在大數(shù)據(jù)時代,我們將面臨的隱私問題的嚴(yán)峻。

      在小數(shù)據(jù)時代,數(shù)據(jù)采集者需要告知數(shù)據(jù)提供者其采集的數(shù)據(jù)用途為何;但在大數(shù)據(jù)時代,這樣的信息管理方式已經(jīng)失效。舍恩伯格在書中指出,“大數(shù)據(jù)”將顛覆隱私保護(hù)法當(dāng)下以個人為中心的思想。比如許多公司采集用戶數(shù)據(jù)時的目的與最后使用的目的往往不同,而且在未來,大數(shù)據(jù)的價值不再單純來自它的基本用途,更多來于它的二次甚至多次利用。但有時候即使個人不同意,也會為公眾帶來隱私問題。以Google街景項目為例,Google采集了街道上的幾乎全部信息,如果有某個人不同意ta的數(shù)據(jù)顯示在Google街景中,Google會將該信息模糊化處理。但當(dāng)其他人的信息都完整呈現(xiàn)在街景圖中時,“馬賽克”(模糊化處理)的部分反倒成了焦點——本想隱藏掉的信息反倒成了此地?zé)o銀三百兩式的焦點。未來的個人數(shù)據(jù)采集與數(shù)據(jù)授權(quán),需要替換掉目前的隱私保護(hù)方案。

      舍恩伯格在書中舉的更諷刺的案例則是,2007年,英國報紙London Evening Standard一篇報道稱,喬治·奧威爾曾居住過的倫敦公寓外方圓183米范圍內(nèi),有32架攝像機(jī)。如果奧威爾生活到現(xiàn)在,看到此情此景,他會做何感想?

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多