乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      大數(shù)據(jù)知識服務(wù)的內(nèi)涵、典型特征及概念模型(轉(zhuǎn))

       決策咨詢 2014-09-29

      秦曉珠 李晨暉 麥范金

          【來源】:情報資料工作201302

         【作者簡介】:秦曉珠,女,1963年生,桂林理工大學圖書館副研究館員,廣西 541004;李晨暉,女,1984年生,桂林理工大學現(xiàn)代教育技術(shù)中心講師,廣西 541004;麥范金,男,1963年生,桂林理工大學圖書館館長,教授,廣西 541004。

        【內(nèi)容提要】:文章首先描述了大數(shù)據(jù)知識服務(wù)的內(nèi)涵,詳細分析了大數(shù)據(jù)知識服務(wù)的典型特征,并結(jié)合大數(shù)據(jù)知識服務(wù)模式下對各種類型大數(shù)據(jù)管理和處理需求,給出了大數(shù)據(jù)知識服務(wù)概念模型,最后指出大數(shù)據(jù)知識服務(wù)的實現(xiàn)需要解決大數(shù)據(jù)的可表示性、可處理性、可融合性及可靠性四個關(guān)鍵問題。

        【關(guān) 鍵 詞】大數(shù)據(jù)/知識服務(wù)/半結(jié)構(gòu)化數(shù)據(jù)/非結(jié)構(gòu)化數(shù)據(jù)

        1 研究背景

        當前,科技創(chuàng)新模式、科學研究范式、知識形態(tài)、知識獲取、知識交流及處理機制都面臨著巨大的挑戰(zhàn),導致知識管理模式以及科技服務(wù)工作流的關(guān)鍵知識瓶頸發(fā)生重大變化[1],由此呼喚適應(yīng)未來大數(shù)據(jù)處理需求的新型知識服務(wù)模式的出現(xiàn),促使信息服務(wù)形態(tài)從傳統(tǒng)的知識分析型服務(wù)向知識預(yù)測型服務(wù)轉(zhuǎn)型。移動互聯(lián)網(wǎng)、傳感網(wǎng)、云計算、物聯(lián)網(wǎng)、可信計算等新興信息技術(shù)的迅速發(fā)展及數(shù)字信息環(huán)境的泛在化、移動化、智能化、虛擬化的發(fā)展趨勢,特別是海量結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜處理需求、海量半結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)多維度處理需求為探索新型知識服務(wù)模式,解決信息服務(wù)領(lǐng)域發(fā)展中面臨的瓶頸問題提供了新思路與新挑戰(zhàn)。

        近幾年,在科學研究、計算機仿真、互聯(lián)網(wǎng)、電子商務(wù)等領(lǐng)域數(shù)據(jù)量呈現(xiàn)快速增長的趨勢[2],數(shù)據(jù)成本的下降,類似于傳感網(wǎng)絡(luò)數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)等新興數(shù)據(jù)源和數(shù)據(jù)采集技術(shù)的出現(xiàn)使得數(shù)據(jù)類型增多,而各類難以處理的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn)又極大地增加了數(shù)據(jù)處理的難度,為了從這些數(shù)據(jù)中發(fā)現(xiàn)知識并加以利用,必須對大數(shù)據(jù)獲取、存儲、組織、分析和決策過程進行深入研究,從中發(fā)現(xiàn)具有前瞻性、挑戰(zhàn)性和實用性的社會問題及科學問題,從而使得科學研究第四范式和新型知識服務(wù)范式的實現(xiàn)成為現(xiàn)實。

        2 大數(shù)據(jù)知識服務(wù)的內(nèi)涵及典型特征

        2.1 大數(shù)據(jù)知識服務(wù)的內(nèi)涵

        大數(shù)據(jù)知識服務(wù)是為適應(yīng)信息服務(wù)業(yè)智慧化、協(xié)作化、綠色化、先覺化和泛在化的發(fā)展趨勢而衍生的一種基于網(wǎng)絡(luò)(包括電信網(wǎng)、廣播電視網(wǎng)、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等)的,用以解決結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)多維度處理的信息服務(wù)新模式,是嵌入式協(xié)作化知識服務(wù)模式的一種新發(fā)展,是現(xiàn)代信息服務(wù)理念的具體體現(xiàn)。伴隨著RFID射頻數(shù)據(jù)、傳感網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)、移動互聯(lián)網(wǎng)數(shù)據(jù)逐漸成為未來大數(shù)據(jù)的幾個主要來源,我們發(fā)現(xiàn),現(xiàn)有的信息服務(wù)模式及信息管理技術(shù)已經(jīng)無法滿足結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜處理需求,這一形勢的發(fā)展使得數(shù)據(jù)量快速增長所帶來的存儲及計算能力的挑戰(zhàn),結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的多維度數(shù)據(jù)處理需求,傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)管理模式與非結(jié)構(gòu)化數(shù)據(jù)管理模式的有機融合等逐漸成為現(xiàn)階段知識服務(wù)模式變革所面臨的三大挑戰(zhàn)。大數(shù)據(jù)知識服務(wù)模式強調(diào)知識、能力、資源和過程以服務(wù)的形式進行有機融合,并基于網(wǎng)絡(luò)自由流通,對大數(shù)據(jù)獲取、存儲、組織、分析、決策和顯示等按照“將計算推向數(shù)據(jù),而不是移動數(shù)據(jù)”的策略,實現(xiàn)大數(shù)據(jù)知識服務(wù)體系中的知識動態(tài)協(xié)調(diào)構(gòu)建、能力智慧管理、資源按需使用、過程智能控制。大數(shù)據(jù)知識服務(wù)體系是大數(shù)據(jù)生態(tài)系統(tǒng)中最重要和核心的內(nèi)容之一。一方面,全球?qū)⒔?/span>87.5%的數(shù)據(jù)未得到真正利用[3],85%以上的是非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)[4],傳統(tǒng)知識服務(wù)模式僅僅能夠提供極小部分數(shù)據(jù)給用戶有效地使用,并且能提供的數(shù)據(jù)處理服務(wù)也極其有限,就使得半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)難以得到充分利用,從而無法實現(xiàn)知識的橫向擴展以及數(shù)據(jù)多維度、深層次的智能分析。通過大數(shù)據(jù)知識服務(wù)模式的引入,使得復(fù)雜的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理變得可行和經(jīng)濟高效,從而實現(xiàn)知識橫向擴展以滿足急劇擴張的知識服務(wù)需求,可以在為用戶提供大數(shù)據(jù)進行獲取、存儲、組織、分析和決策等服務(wù)的同時,為其提供結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的常規(guī)、廣度及深度分析、科技創(chuàng)新能力智能評價、知識服務(wù)競爭力分析、知識創(chuàng)新預(yù)測性分析、服務(wù)態(tài)勢綜述等高附加值服務(wù)。另一方面,為滿足用戶專業(yè)化、集成化、敏捷化和個性化的知識服務(wù)需求,需要大數(shù)據(jù)知識服務(wù)平臺提供高質(zhì)量、低成本、可擴展、多維度和多粒度的知識服務(wù)。通過大數(shù)據(jù)生態(tài)系統(tǒng)的知識服務(wù)技術(shù),可以實現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù)及知識服務(wù)資源的智能、靈活的知識、服務(wù)能力、服務(wù)資源及服務(wù)過程的有效組合與分解[5],使其能夠利用大數(shù)據(jù)、現(xiàn)有資源及知識服務(wù)能力形成不同維度、不同粒度、不同功能及不同類型的大數(shù)據(jù)知識服務(wù)組合,并按需提供給用戶,以便最大限度地滿足用戶的大數(shù)據(jù)處理需求。

        2.2 大數(shù)據(jù)知識服務(wù)的典型特征

        與已有的信息服務(wù)模式相比,大數(shù)據(jù)知識服務(wù)模式和構(gòu)建過程越來越趨向于個性化、自主化、虛擬化、智能化、透明化和體驗化,知識創(chuàng)造模式、組織模式、傳播模式和應(yīng)用模式也呈現(xiàn)出規(guī)模化、集約化、數(shù)字化和網(wǎng)絡(luò)化的趨勢[6],在數(shù)字化、網(wǎng)絡(luò)化、規(guī)模化和集約化等共性技術(shù)特征的基礎(chǔ)上,大數(shù)據(jù)知識服務(wù)模式更為突出的典型特征可以概括為以下幾點。

       ?。?/span>1)是面向智慧服務(wù)和自主需求的知識服務(wù)。大數(shù)據(jù)知識服務(wù)模式實現(xiàn)的核心是知識服務(wù)全生命周期活動中用戶、技術(shù)、管理、知識、能力、資源和過程的有機集成和優(yōu)化。為此,大數(shù)據(jù)知識服務(wù)體系融合了物聯(lián)網(wǎng)、傳感網(wǎng)、云計算、可信計算和信息物理融合系統(tǒng)[7]等新興信息技術(shù),提出要實現(xiàn)大數(shù)據(jù)用戶、技術(shù)、管理、知識、能力、資源和過程的全方位、全生命周期地接入和感知,尤其是關(guān)注資源(如軟硬件資源、信息資源、網(wǎng)絡(luò)資源、服務(wù)資源等,包括半結(jié)構(gòu)化、非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù))和能力(如大數(shù)據(jù)獲取、存儲、組織、分析、決策和顯示等)的接入和智能感知。

        在大數(shù)據(jù)知識服務(wù)模式下,各類資源能夠通過各種傳感器、RFID、適配器、人機交互等實現(xiàn)資源半自動或全自動感知,然后借助3G4G網(wǎng)絡(luò)、互聯(lián)網(wǎng)絡(luò)、電信網(wǎng)、廣播電視網(wǎng)等傳輸信息,在對各類資源進行管理和處理的基礎(chǔ)上,同時匯集資源、能力、過程、知識,構(gòu)建跨領(lǐng)域、跨行業(yè)、智能的多學科知識庫,隨著大數(shù)據(jù)知識服務(wù)體系的持續(xù)進化,并不斷擴大,從而進一步服務(wù)于大數(shù)據(jù)知識服務(wù)的業(yè)務(wù)執(zhí)行過程。

       ?。?/span>2)是不確定性服務(wù)。大數(shù)據(jù)知識服務(wù)對于用戶大數(shù)據(jù)處理需求不具備唯一解,而是用大數(shù)據(jù)生態(tài)系統(tǒng)中所提供的技術(shù)和方法,依據(jù)用戶大數(shù)據(jù)處理需求,形成知識服務(wù)解集合。大數(shù)據(jù)用戶通過大數(shù)據(jù)知識服務(wù)平臺提出大數(shù)據(jù)處理需求,并按用戶自主需求構(gòu)建的大數(shù)據(jù)知識服務(wù)組合模型,部署服務(wù)實施方案。大數(shù)據(jù)知識服務(wù)平臺通過支持語義的知識服務(wù)匹配技術(shù)、智能優(yōu)化技術(shù),對用戶所提出的大數(shù)據(jù)知識服務(wù)進行匹配部署,從而關(guān)聯(lián)到核心服務(wù)層的具體服務(wù),從搜索到的符合用戶需求的大數(shù)據(jù)知識服務(wù)解集合中,選擇合適的服務(wù)參與組合,并從所有可能的大數(shù)據(jù)知識服務(wù)解集合中優(yōu)選與組合出最佳的一組組合來協(xié)同完成用戶請求,再通過知識服務(wù)最優(yōu)化管理技術(shù)、知識服務(wù)智能優(yōu)化技術(shù),對服務(wù)組合質(zhì)量進行評估,并采用智能優(yōu)化算法對整個過程進行優(yōu)選,在確定最優(yōu)云服務(wù)組合和資源組合方式后,將服務(wù)與資源進行關(guān)聯(lián)綁定,進而部署執(zhí)行。這個過程體現(xiàn)了大數(shù)據(jù)知識服務(wù)的不確定性特征。

       ?。?/span>3)是強調(diào)用戶參與的知識服務(wù)。大數(shù)據(jù)的數(shù)據(jù)來源、知識服務(wù)能力、服務(wù)資源、服務(wù)過程及知識本身都是嵌入到網(wǎng)絡(luò)和大數(shù)據(jù)環(huán)境中的,且所有大數(shù)據(jù)主要都是來自于大數(shù)據(jù)用戶,使得大數(shù)據(jù)知識服務(wù)關(guān)注的重心應(yīng)該轉(zhuǎn)移或回歸到用戶自身的需求。大數(shù)據(jù)生態(tài)系統(tǒng)致力于構(gòu)建一個用戶、大數(shù)據(jù)制造方、大數(shù)據(jù)運營方及大數(shù)據(jù)處理方等可以充分進行大數(shù)據(jù)獲取、存儲、組織、分析和決策的公用服務(wù)環(huán)境。在大數(shù)據(jù)知識服務(wù)模式下,強調(diào)用戶參與不僅僅局限于傳統(tǒng)的用戶提出需求和用戶評價,而是滲透到大數(shù)據(jù)知識服務(wù)過程及大數(shù)據(jù)自身全生命周期管理的每一個環(huán)節(jié)。

       ?。?/span>4)是支持按需使用、按需付費的知識服務(wù)模式。大數(shù)據(jù)知識服務(wù)是一種由用戶需求驅(qū)動的、按需付費的知識服務(wù)新模式。用戶往往需要通過海量非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)了解現(xiàn)在發(fā)生了什么,甚至需要利用數(shù)據(jù)預(yù)測未來將要發(fā)生什么,以便在行動上做出利于發(fā)展的主動準備。例如,通過預(yù)測用戶的流失預(yù)先采取行動,或預(yù)測競爭對手下一步行動以便采取主動等。在這些過程中,用戶不需要過多關(guān)注大數(shù)據(jù)處理的細節(jié),只需要根據(jù)自身的數(shù)據(jù)處理需求調(diào)用或知識服務(wù)組合,占用大數(shù)據(jù)知識服務(wù)資源,并支付相應(yīng)的費用即可。彼此之間的關(guān)系是一種按需使用、按需付費、用完即解散的關(guān)系。

       ?。?/span>5)是共性技術(shù)目標與異性技術(shù)特征相輔相成的知識服務(wù)模式。大數(shù)據(jù)知識服務(wù)通過第三方構(gòu)建服務(wù)平臺,將大數(shù)據(jù)獲取、存儲、組織、分析和決策過程中所涉及的所有資源、知識、能力及過程都虛擬化為大單項數(shù)據(jù)知識服務(wù),再聚合成大數(shù)據(jù)知識服務(wù)虛擬資源池,進行統(tǒng)一的管理與處理。針對不同的行業(yè)、領(lǐng)域或不同需求,大數(shù)據(jù)的獲取、存儲、組織、分析和決策的管理和處理方法有共性,但必然也存在著異性,因此,針對不同行業(yè)、領(lǐng)域及大數(shù)據(jù)處理需求,就需要在原有共性技術(shù)體系的基礎(chǔ)上,形成專業(yè)性較強的專業(yè)化大數(shù)據(jù)知識服務(wù)體系,從而針對獨特的專業(yè)化要求,形成其獨有的大數(shù)據(jù)異性技術(shù)體系。以美國國防部高級研究計劃局為例,其大數(shù)據(jù)研究項目在美國政府的大數(shù)據(jù)研究與發(fā)展的共性技術(shù)目標要求之外,具備了國防部獨有的技術(shù)特征。但在國防部內(nèi)部又依據(jù)不同領(lǐng)域的大數(shù)據(jù)處理需求,形成了具備異性技術(shù)特征的大數(shù)據(jù)知識服務(wù)體系[8-9]。

       ?。?/span>6)是基于知識、能力、資源、過程共享和交易的知識服務(wù)模式。與傳統(tǒng)的知識服務(wù)模式相比,大數(shù)據(jù)知識服務(wù)模式共享的不僅僅是服務(wù)資源,還有知識、能力及服務(wù)過程。隨著大數(shù)據(jù)時代的來臨,對大數(shù)據(jù)獲取、存儲、組織、分析和決策過程進行管理的基本策略不是移動數(shù)據(jù),而是將計算、知識及服務(wù)推向數(shù)據(jù),在相應(yīng)的知識庫、專家?guī)?、?shù)據(jù)處理模型(如MapReduce、NoSqlSql-MapReduce等)、數(shù)據(jù)處理框架(如HadoopHadoopDB[10]、LinearDB[11]Dumbo[12]等)的支持下,實現(xiàn)資源、知識、能力及過程的虛擬化封裝、描述、發(fā)布、配置、調(diào)用和顯示,真正實現(xiàn)大數(shù)據(jù)獲取、存儲、組織、分析和決策過程中的知識、能力、資源、過程的全面共享和交易。

       ?。?/span>7)是基于群體創(chuàng)新的知識服務(wù)模式。正如美國國家科學基金會(NSF)的大數(shù)據(jù)研究和發(fā)展計劃所言,大數(shù)據(jù)知識服務(wù)旨在促進管理、分析、可視化和從大量多樣分散異構(gòu)的數(shù)據(jù)集中提取有用信息,并充分利用群體創(chuàng)新的力量,創(chuàng)造有意義的網(wǎng)絡(luò)基礎(chǔ)設(shè)施以及一體化水平的數(shù)據(jù)和工具,以支持科學和教育[8-9]

       ?。?/span>8)是更為綠色環(huán)保的知識服務(wù)模式。大數(shù)據(jù)知識服務(wù)的目標之一是圍繞結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化大數(shù)據(jù)處理需求,實現(xiàn)大數(shù)據(jù)獲取、存儲、組織、分析和決策過程中的知識、能力、資源和過程等的全面共享,提高大數(shù)據(jù)的利用率,實現(xiàn)數(shù)據(jù)、知識及服務(wù)增值。換句話說,就是實現(xiàn)綠色低碳的環(huán)保型大數(shù)據(jù)知識服務(wù)模式。

        2.3 大數(shù)據(jù)知識服務(wù)概念模型

      綜合現(xiàn)有的關(guān)于大數(shù)據(jù)的各種解釋與分析,并結(jié)合大數(shù)據(jù)知識服務(wù)模式下對各種類型大數(shù)據(jù)管理和處理需求,本文將大數(shù)據(jù)知識服務(wù)描述為:大數(shù)據(jù)知識服務(wù)是在大數(shù)據(jù)獲取、存儲、組織、分析和決策過程中產(chǎn)生,體現(xiàn)了在大數(shù)據(jù)管理和處理過程中對知識、服務(wù)、資源和過程等的知識服務(wù)配置和整合的能力,反映了知識服務(wù)實體或機構(gòu)完成相應(yīng)行業(yè)、領(lǐng)域、任務(wù)及預(yù)期目標的服務(wù)水平,包含了大數(shù)據(jù)知識服務(wù)全生命周期過程中所涉及的知識、服務(wù)、資源和過程等因素,其概念模型如圖1所示。

       大數(shù)據(jù)知識服務(wù)的內(nèi)涵、典型特征及概念模型(轉(zhuǎn))


        大數(shù)據(jù)知識服務(wù)概念模型包括數(shù)據(jù)、知識、資源、能力、服務(wù)、過程和任務(wù)七個元素。

       ?。?/span>1)數(shù)據(jù)。數(shù)據(jù)是指通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱之為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù),是大數(shù)據(jù)知識服務(wù)模型的根本。

       ?。?/span>2)知識。知識是指在大數(shù)據(jù)知識服務(wù)過程中所涉及的各類知識,如方法、模型、結(jié)構(gòu)及流程等。知識是構(gòu)建大數(shù)據(jù)的基礎(chǔ),貫穿于大數(shù)據(jù)知識服務(wù)全生命周期管理的各個要素,在資源、能力、服務(wù)維中的知識是指智力資源、計算能力、服務(wù)能力的描述(如行業(yè)數(shù)據(jù)處理經(jīng)驗、資源組合優(yōu)化方案、服務(wù)組合方案等);在過程維中的知識主要是指各種服務(wù)設(shè)計方案、運行法則、基本規(guī)范和經(jīng)驗方法等;在任務(wù)維中的知識表現(xiàn)為大數(shù)據(jù)知識服務(wù)完成的狀態(tài)、用戶反饋等。

       ?。?/span>3)資源。資源是指在大數(shù)據(jù)知識服務(wù)過程中所涉及的軟硬件資源、信息資源、人力資源、服務(wù)資源、網(wǎng)絡(luò)資源等,反映了大數(shù)據(jù)知識服務(wù)是對大數(shù)據(jù)獲取、存儲、組織、分析和決策過程中所涉及的各類資源的有效集成與共享。

       ?。?/span>4)能力及服務(wù)。能力是指大數(shù)據(jù)知識服務(wù)平臺所提供的計算能力、存儲能力、服務(wù)組合能力等;服務(wù)則是指大數(shù)據(jù)生態(tài)系統(tǒng)中所提供的技術(shù)和方法等。

       ?。?/span>5)過程。過程是指在大數(shù)據(jù)獲取、存儲、組織、分析和決策過程中大數(shù)據(jù)知識服務(wù)體系對資源、能力及服務(wù)的優(yōu)化配置過程,強調(diào)以資源、能力及服務(wù)為基礎(chǔ),對所發(fā)生業(yè)務(wù)過程及其中的各類知識、大數(shù)據(jù)的描述,如大數(shù)據(jù)處理業(yè)務(wù)過程約束條件、數(shù)據(jù)處理方案、服務(wù)方案、計算模型及經(jīng)驗知識等。

       ?。?/span>6)任務(wù)。任務(wù)反映了利用大數(shù)據(jù)知識服務(wù)平臺及其他相關(guān)資源要素完成大數(shù)據(jù)管理及處理任務(wù),主要包括兩個方面的內(nèi)容:一方面,大數(shù)據(jù)管理及處理的目標任務(wù)及預(yù)期目標;另一方面,指的是實現(xiàn)該大數(shù)據(jù)處理任務(wù)或業(yè)務(wù)功能的情況,其中包括用戶完成該任務(wù)的一些客觀因素(如時間、人力、軟硬件、經(jīng)濟成本等),還包括用戶對大數(shù)據(jù)處理任務(wù)完成情況的評估,以及完成任務(wù)情況滿意度的表現(xiàn)指標(如效率、性能等內(nèi)在因素,服務(wù)、創(chuàng)新等外在因素等)。任務(wù)維是大數(shù)據(jù)知識服務(wù)體系在大數(shù)據(jù)生態(tài)系統(tǒng)中面向用戶的最重要的交流依據(jù)和表現(xiàn)形式。

        3 需要解決的幾個關(guān)鍵問題

        目前,大數(shù)據(jù)的研究主要是將其作為一種技術(shù)方法或一種提供知識服務(wù)的新工具,而不是把數(shù)據(jù)本身作為研究目標[4]。作為一種技術(shù)方法和工具,它與數(shù)據(jù)挖掘、預(yù)測分析、統(tǒng)計分析、個性化搜索等人工智能方法有密切聯(lián)系,但也有著不同于人工智能、統(tǒng)計學和信息科學的本質(zhì)內(nèi)涵。在物聯(lián)網(wǎng)、傳感網(wǎng)及互聯(lián)網(wǎng)數(shù)據(jù)為各個領(lǐng)域帶來機遇的同時,由于數(shù)據(jù)的異質(zhì)、異構(gòu)、半結(jié)構(gòu)化、非結(jié)構(gòu)化及不可信等特征,大數(shù)據(jù)知識服務(wù)的管理和處理研究需要解決大數(shù)據(jù)的可表示性、可處理性、可融合性及可靠性四個關(guān)鍵問題。

       ?。?/span>1)可表示性問題。當前物聯(lián)網(wǎng)、傳感網(wǎng)及互聯(lián)網(wǎng)中的數(shù)據(jù)正在向著異質(zhì)、異構(gòu)、半結(jié)構(gòu)化、非結(jié)構(gòu)化及不可信等方向發(fā)展,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了非常大的比例。目前已有的數(shù)據(jù)表示方法已不能完整表達已有數(shù)據(jù)的結(jié)構(gòu)及數(shù)據(jù)本身的含義,要想有效地對數(shù)據(jù)進行管理和利用,必須找到最合適的數(shù)據(jù)表示方法。

       ?。?/span>2)可處理性問題。隨著數(shù)據(jù)規(guī)模的急劇擴張,數(shù)據(jù)類型的迅速增加、數(shù)據(jù)結(jié)構(gòu)的日趨復(fù)雜化,已有數(shù)據(jù)的處理需求已經(jīng)遠遠超越現(xiàn)有計算機處理能力。而傳統(tǒng)數(shù)學方法和計算模式已無法使用不確定、動態(tài)大數(shù)據(jù)的獲取、存儲、組織、分析和決策的需求,因此,需要將計算機科學、數(shù)學、物理學、管理學等學科結(jié)合起來,形成新的數(shù)據(jù)處理方法。

        (3)可融合性問題。數(shù)據(jù)規(guī)模的擴張、數(shù)據(jù)類型的增加及數(shù)據(jù)結(jié)構(gòu)的復(fù)雜化給大數(shù)據(jù)處理帶來了前所未有的挑戰(zhàn),同時也使得異質(zhì)、異構(gòu)、半結(jié)構(gòu)化、非結(jié)構(gòu)化及不可信數(shù)據(jù)的融合變得異常艱難。而大數(shù)據(jù)作為連接人類社會、物理空間和信息世界的重要紐帶,有效地實現(xiàn)數(shù)據(jù)融合也是無法回避的關(guān)鍵問題之一。

       ?。?/span>4)可靠性問題。物聯(lián)網(wǎng)、傳感網(wǎng)及互聯(lián)網(wǎng)等網(wǎng)絡(luò)環(huán)境的開放性,使得大數(shù)據(jù)知識服務(wù)體系中的數(shù)據(jù)質(zhì)量面臨考驗。正如美國著名咨詢公司Gartner所指出的那樣,全球1000強公司中有超過25%的關(guān)鍵數(shù)據(jù)不正確或不精確;英國British Telecom公司因使用數(shù)據(jù)質(zhì)量工具而給企業(yè)創(chuàng)造的經(jīng)濟效益每年高達6億英鎊[13]。用戶在享受大數(shù)據(jù)所帶來價值的同時,也承擔著日益嚴重的安全威脅和隱私風險。

        4 結(jié)語

        隨著科學研究、傳感網(wǎng)絡(luò)、互聯(lián)網(wǎng)應(yīng)用及電子商務(wù)等應(yīng)用領(lǐng)域數(shù)據(jù)量的飛速增長,大數(shù)據(jù)正逐漸成為學術(shù)界和產(chǎn)業(yè)界關(guān)注的焦點,相較于Web2.0、云計算、物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展軌跡,大數(shù)據(jù)技術(shù)似乎來得更為猛烈。當倫敦奧運會采用大數(shù)據(jù)技術(shù)監(jiān)測網(wǎng)絡(luò)安全[14-15]、《時代》周刊發(fā)文指出大數(shù)據(jù)技術(shù)為奧巴馬的連任立下汗馬功勞[16-17]時,人們猛然發(fā)現(xiàn),大數(shù)據(jù)原來離我們?nèi)绱酥?。但頗感遺憾的是,國內(nèi)學術(shù)界似乎對大數(shù)據(jù)研究還沒有引起足夠的重視,研究工作遠遠落后于國外,研究成果也少得可憐。然而,值得慶幸的是,在李國杰院士、李德毅院士及李未院士的極力呼吁下,已經(jīng)有越來越多的人加入到大數(shù)據(jù)研究的隊伍中來,相信在不久的將來,會出現(xiàn)屬于我們自己的“大數(shù)據(jù)”。

       【參考文獻】

        [1]張曉林.研究圖書館2020:嵌入式協(xié)作化知識實驗室[J].中國圖書館學報,2012(1)11-19.

        [2]覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析——RDBMSMapReduce的競爭與共生[J].軟件學報,201223(1)32-45.

        [3]McKinsey Global Institute. Big data: The next frontier for innovation, competition and productivity[EB/OL].[2012-11-07]. http://www./insights/mgi/research/technology-and-innovation/big-data-the-next-frontier-for-innovation.

        [4]李國杰.大數(shù)據(jù)研究的科學價值[J].中國計算機學會通訊.2012,8(9)8-15.

        [5]李晨暉,張興旺,秦曉珠.云圖書館:面向網(wǎng)絡(luò)化服務(wù)的資源組合新模式[J].情報理論與實踐,2012,35(11)39-43,60.

        [6]呂竹筠,張興旺,李晨暉,等.信息資源管理與云服務(wù)融合的內(nèi)涵及共性技術(shù)體系研究[J].情報理論與實踐,2012,35(9)26-32.

        [7]中華人民共和國科學技術(shù)部.國家高技術(shù)研究發(fā)展計劃(863”計劃)信息技術(shù)領(lǐng)域:“面向信息—物理融合的系統(tǒng)平臺”主題項目申請指南[EB/OL].[2012-11-08]. http://www.most.gov.cn/tztg/201010/P020101020603081404408.pdf.

      [8]The White House. Obama administration unveils "big data" initiative: Announces 200 millioninnewR&Dinvestments[EB/OL].[2012-11-04].

      http://www./sites/default/files/microsites/ostp/big-data-press-release.pdf.

        [9]The White House. Big data across the federal government[R/OL].[2012-11-05]. http://www./sites/default/files/microsites/ostp/big-data-fact-sheet-final.pdf.

        [10]Kamil Bajda-Pawlikowski, Daniel J Abadi, Avi Silberschatz, et al. Efficient processing of data warehousing queries in a split execution environment[C].Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data. New York, USA. 2011: 1165-1176.

        [11]Wang H J, Qin X P, Zhang Y S, et al. Linear DB: A relational approach to make data warehouse scale like MapReduce[C].In: Yu J X, Kim M H, Unland R, eds. Proc. of the DASFAA. Hong Kong: Springer-Verlag, 2011:306-320.

        [12]Dumbo[OL].[2012-11-10]. http://projects./dumbo/.

        [13]馬帥,李建欣,胡春明.大數(shù)據(jù)科學與工程的挑戰(zhàn)與思考[J].中國計算機學會通訊,20128(9)22-30.

        [14]Chris Petersen. Big data and the London Olympics cybersecurity challenge[EB/OL].[2012-11-11]. http://www./story/75754.html.

        [15]Saroj Kar. The London Olympics: Maximum use big data and social networks[EB/OL].[2012-11-11]. http:///blog/2012/08/29/the-london-olympics-maximum-use-big-data-and-social-networks-infographic/.

        [16]Time. How Obama's data crunchers helped him win[EB/OL].[2012-11-11]. http://edition./2012/11/07/tech/web/obama-campaign-tech-team/index.html.

        [17]iCrossing. How Obama won with big data[EB/OL].[2012-11-11]. http://greatfinds./how-obama-won-with-big-data/.

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多