乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      二 04文本數(shù)據(jù)的價(jià)值

       昵稱(chēng)10504424 2013-02-05

      當(dāng)你開(kāi)車(chē)路過(guò)一家餐廳的停車(chē)場(chǎng)時(shí),你的手機(jī)屏幕上彈出了這家餐廳的當(dāng)日特價(jià)菜品推薦,這種體驗(yàn)是不是很棒?如果賭場(chǎng)老板把發(fā)牌人忘記付給你的20美元親自送還給你,你的心里是不是有點(diǎn)兒小激動(dòng)?如果在線視頻游戲能夠把和我們玩法相近的用戶(hù)即刻告知我們,這世界會(huì)不會(huì)變得很美妙?你是不是要下調(diào)汽車(chē)保險(xiǎn)費(fèi)率?大數(shù)據(jù)能讓這一切變成現(xiàn)實(shí)。

      我們發(fā)現(xiàn)了一個(gè)非常明顯的趨勢(shì),各行各業(yè)雖然生成了許多大數(shù)據(jù)源,但其底層的支撐技術(shù)卻是相同的。而且,不同行業(yè)還可以使用相同的大數(shù)據(jù)源。大數(shù)據(jù)并非只有單一的用途,它的影響將會(huì)非常深遠(yuǎn)。

      文本是最大的也是最常見(jiàn)的大數(shù)據(jù)源之一。想想我們周?chē)卸嗌傥谋拘畔⒌拇嬖?,電子郵件、短信、微博、社交媒體網(wǎng)站的帖子、即時(shí)通信、實(shí)時(shí)會(huì)議以及可以轉(zhuǎn)換成文本的錄音信息。文本數(shù)據(jù)是現(xiàn)在結(jié)構(gòu)化程度最低的,也是最大的大數(shù)據(jù)源。幸運(yùn)的是,我們?cè)隈{馭文本數(shù)據(jù)、利用文本數(shù)據(jù)來(lái)更好地做商業(yè)決策方面已經(jīng)做了很多工作。

      文本分析一般會(huì)從解析文本開(kāi)始,然后將各種單詞、短語(yǔ)以及包含文本的部分賦予語(yǔ)義。我們可以通過(guò)簡(jiǎn)單的詞頻統(tǒng)計(jì),或更復(fù)雜的操作來(lái)進(jìn)行文本分析。自然語(yǔ)言處理中已經(jīng)有很多諸如此類(lèi)的分析了,這里我們就不再贅述。文本挖掘工具是主流分析套件中一個(gè)不可或缺的組成部分。此外,我們還能找到許多獨(dú)立的文本挖掘工具包。其中一些文本分析工具使用基于規(guī)則的方法,用戶(hù)需要調(diào)整軟件才能找到自己感興趣的模式。另一些工具則使用機(jī)器學(xué)習(xí)和其他算法自動(dòng)地發(fā)現(xiàn)數(shù)據(jù)模式。每種方法都各有利弊,其相關(guān)論述已經(jīng)超出了本書(shū)的范圍。我們關(guān)心的是如何使用生成的結(jié)果,而不是使用工具產(chǎn)生結(jié)果的過(guò)程。

      做完文本解析和分類(lèi)以后,我們就可以分析這些過(guò)程所產(chǎn)生的結(jié)果了。文本挖掘過(guò)程的輸出結(jié)果通常是其他分析流程的輸入。例如,如果能夠分析出客戶(hù)使用電子郵件的情感,就能利用一個(gè)變量將客戶(hù)的情感標(biāo)記為正面情感或負(fù)面情感。這種標(biāo)記本身是一種結(jié)構(gòu)化的數(shù)據(jù),可以作為分析流程的輸入。使用非結(jié)構(gòu)化的文本創(chuàng)建結(jié)構(gòu)化的數(shù)據(jù),這個(gè)過(guò)程通常稱(chēng)為信息提取。

      另一個(gè)例子是,假定我們能夠在客戶(hù)與公司往來(lái)的郵件中識(shí)別出他們對(duì)公司某些產(chǎn)品的評(píng)價(jià),我們就能利用一系列變量來(lái)標(biāo)識(shí)客戶(hù)的產(chǎn)品評(píng)價(jià)。這些變量本身也是結(jié)構(gòu)化的度量指標(biāo),可以用來(lái)做分析。上述這些例子解釋了如何捕獲非結(jié)構(gòu)化數(shù)據(jù)片段,并從中提取出相關(guān)的結(jié)構(gòu)化數(shù)據(jù)。

      文本分析的例子很好地說(shuō)明了該過(guò)程:獲取非結(jié)構(gòu)化數(shù)據(jù),然后處理該數(shù)據(jù),最后創(chuàng)建出可以用于分析和報(bào)表過(guò)程的結(jié)構(gòu)化數(shù)據(jù)。駕馭大數(shù)據(jù)的一個(gè)重要部分是,利用這種創(chuàng)造性的方式將非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)變成可用于分析的數(shù)據(jù)。

      解釋文本數(shù)據(jù)實(shí)際上是相當(dāng)困難的。強(qiáng)調(diào)的詞匯和語(yǔ)境不同,同一個(gè)單詞表達(dá)出來(lái)的意思就不同。面對(duì)純文本,我們根本不知道重點(diǎn)在哪里,也不知道整個(gè)語(yǔ)境。

      文本分析既是一門(mén)藝術(shù),也是一門(mén)科學(xué),總會(huì)存在一定的不確定性。文本分析往往會(huì)有分類(lèi)錯(cuò)誤和含義模糊的問(wèn)題。沒(méi)錯(cuò),如果我們?cè)谖谋炯现邪l(fā)現(xiàn)了更好的決策支持模式,那就應(yīng)該使用它。文本分析的目標(biāo)是改進(jìn)你的決策,但并不是令你的決策變得完美。文本數(shù)據(jù)可以有效地提升決策效果,它能提供比沒(méi)有它時(shí)更好的結(jié)果,即使數(shù)據(jù)有噪音或含義模糊時(shí),這一點(diǎn)也成立。

      使用文本數(shù)據(jù)

      一種目前很流行的文本分析應(yīng)用是所謂的情感分析。情感分析是從大量人群中挖掘出總體觀點(diǎn),并提供市場(chǎng)對(duì)某個(gè)公司的評(píng)論、看法和感受等相關(guān)信息。情感分析通常使用社會(huì)化媒體網(wǎng)站的數(shù)據(jù)。以下是情感分析的幾個(gè)例子。

      • 公司或產(chǎn)品的口碑怎么樣?
      • 大家正在討論的是公司的哪些活動(dòng)?
      • 大家對(duì)公司、產(chǎn)品和服務(wù)的評(píng)價(jià)是好是壞?

      如前所述,文本分析的難點(diǎn)在于詞匯和語(yǔ)境是相關(guān)的。我們要考慮到這個(gè)問(wèn)題,但大量的評(píng)價(jià)會(huì)讓客戶(hù)情感的傾向變得明確。如果我們可以解讀出人們?cè)谏缃幻襟w上所說(shuō)內(nèi)容、與客服互動(dòng)信息的趨勢(shì),這會(huì)對(duì)規(guī)劃下一步的工作有很大的價(jià)值。

      如果公司可以掌握每一個(gè)客戶(hù)的情感信息,就能了解客戶(hù)的意圖和態(tài)度。與使用網(wǎng)絡(luò)數(shù)據(jù)推斷客戶(hù)意圖的方法類(lèi)似,了解客戶(hù)對(duì)某種產(chǎn)品的總體情感是正面情感還是負(fù)面情感也是很有價(jià)值的信息。如果這名客戶(hù)此時(shí)還沒(méi)有購(gòu)買(mǎi)該產(chǎn)品,那價(jià)值就更大了。情感分析提供的信息可以讓我們知道要說(shuō)服這名客戶(hù)購(gòu)買(mǎi)該產(chǎn)品的難易程度。

      文本數(shù)據(jù)的另一個(gè)用途是模式識(shí)別。我們對(duì)客戶(hù)的投訴、維修記錄和其他的評(píng)價(jià)進(jìn)行排序,期望在問(wèn)題變大之前,能夠更快地識(shí)別和修正問(wèn)題。產(chǎn)品首次發(fā)布,然后開(kāi)始出現(xiàn)投訴,文本分析可以識(shí)別出客戶(hù)在哪些方面存在問(wèn)題。我們甚至可以做到在客服電話接二連三打進(jìn)來(lái)之前,先把問(wèn)題識(shí)別出來(lái)。這樣我們就能更快地、更積極地做出響應(yīng)。公司可以及時(shí)地做出反應(yīng),解決產(chǎn)品未來(lái)發(fā)行版本中同樣的問(wèn)題,也能主動(dòng)與客戶(hù)進(jìn)行接觸,緩解他們當(dāng)下遇到困難時(shí)的焦躁情緒。

      欺詐檢測(cè)也是文本數(shù)據(jù)的重要應(yīng)用之一。在健康險(xiǎn)或傷殘保險(xiǎn)的投訴事件中,使用文本分析技術(shù)可以解析出客戶(hù)的評(píng)論和理由。文本分析可以將欺詐模式識(shí)別出來(lái),標(biāo)記出風(fēng)險(xiǎn)的高低。面對(duì)高風(fēng)險(xiǎn)的投訴,需要更仔細(xì)地檢查。另一方面,投訴在某種程度上還能自動(dòng)地執(zhí)行。如果系統(tǒng)發(fā)現(xiàn)了投訴模式、詞匯和短語(yǔ)沒(méi)有問(wèn)題,就可以認(rèn)定這些投訴是低風(fēng)險(xiǎn)的,并可以加速處理,同時(shí)將更多的資源投入高風(fēng)險(xiǎn)的投訴中。

      法律事務(wù)也會(huì)從文本分析中受益。按照慣例,任何法律案件在上訴前都會(huì)索取相應(yīng)的電子郵件和其他通信歷史記錄。這些通信文本會(huì)被批量地檢查,識(shí)別出與本案相關(guān)的那些語(yǔ)句。例如,哪些電子郵件中有隱藏的內(nèi)幕消息?哪些人在和別人交流時(shí)說(shuō)的是假話?威脅背后的實(shí)質(zhì)是什么?

      在法律案件中應(yīng)用文本分析的做法稱(chēng)為電子偵察。所有預(yù)先進(jìn)行的分析將幫助起訴獲得成功。不使用文本分析,僅通過(guò)人工的方式將無(wú)法瀏覽所有的所需文檔。即使我們可以做到人工瀏覽那些文檔,但因?yàn)槿蝿?wù)本身過(guò)于單調(diào)枯燥,我們很可能會(huì)漏掉其中的一些關(guān)鍵信息。

      文本數(shù)據(jù)可能會(huì)對(duì)所有的行業(yè)都產(chǎn)生影響。它可能是如今使用最廣泛的一類(lèi)大數(shù)據(jù)。對(duì)企業(yè)來(lái)講,掌握如何收集、解析和分析文本是很重要的。文本是我們必須駕馭的一種大數(shù)據(jù)源。

      Bill Franks,是Teradata公司全球合作伙伴計(jì)劃的首席分析專(zhuān)家,他負(fù)責(zé)跟蹤研究分析領(lǐng)域的前端趨勢(shì),幫助客戶(hù)理解Teradata和其分析合作伙 伴如何為客戶(hù)創(chuàng)造價(jià)值。Bill還負(fù)責(zé)管理Teradata與SAS合作成立的業(yè)務(wù)分析創(chuàng)新中心,并專(zhuān)注于幫助客戶(hù)獲得創(chuàng)新分析能力。此外,Bill負(fù)責(zé) 制定Teradata公司在高級(jí)分析領(lǐng)域的戰(zhàn)略與定位。

      本文節(jié)選自《駕馭大數(shù)據(jù)》一書(shū)。 Bill Franks 著,黃海、車(chē)皓陽(yáng)、王悅 等譯,由人民郵電出版社出版發(fā)行。


       

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章 更多