激活被遺忘的企業(yè)財富 2006-07-12 13:30:1 信息化的風起云涌,提升了工作效率,也創(chuàng)造了更多的價值。與此同時,信息化的發(fā)展也帶來了信息積累效應。短短幾年間實現(xiàn)了基礎的信息化建設的企業(yè)累積了海量的數(shù)據(jù),這些都是企業(yè)的寶貴“財富”,如果不能有效利
在信息化發(fā)展快速的國家,對于挖掘這些信息的需求帶動了企業(yè)級搜索市場的快速發(fā)展。美國 Ovum Report在對全球軟件市場所做的研究報告也指出,企業(yè)內(nèi)部的檢索需求與Google,Yahoo 式的Web檢索需求是相當?shù)模氏蛏显鲩L的趨勢,全球企業(yè)檢索技術(shù)的市場規(guī)模到2006年將成長288%,達 15.13億美元。專家預計,中國市場將成為最新的全球增長點。年初,企業(yè)搜索市場的領(lǐng)導者Autonomy收購了其強大的競爭對手Verity后,對中 國市場更是“志在必得”。這一領(lǐng)域也同樣吸引了其他廠商的關(guān)注。
日前,IBM與百度共同簽署一項技術(shù)合作備忘錄,協(xié)作拓展硬盤搜索的應用領(lǐng)域,幫助用戶從海量資料中快速地找到想要的信息,實現(xiàn)企業(yè)信息流的高效協(xié)作。
企業(yè)搜索的挑戰(zhàn)
相比那些結(jié)構(gòu)化數(shù)據(jù),目前非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了大量的企業(yè)信息資源。據(jù)權(quán)威機構(gòu)統(tǒng)計,在所有存儲 的數(shù)據(jù)中,有85%采用的是非結(jié)構(gòu)化格式。這就為搜索提出了新的課題。廠商也都將解決企業(yè)級搜索的關(guān)鍵聚焦在非結(jié)構(gòu)化數(shù)據(jù)的挖掘上。IBM中國研究院院長 李實恭認為,相對于網(wǎng)絡搜索,這就是企業(yè)搜索要面臨的挑戰(zhàn)。網(wǎng)絡搜尋要找到很多,而在企業(yè)搜尋則是為了不漏掉任何一個。
針對這一挑戰(zhàn),企業(yè)搜索領(lǐng)域的領(lǐng)導廠商Autonomy提出了智能搜索的概念。利用這種技術(shù),
可以搜索多種文本格式內(nèi)容,如Text、Word、Excel、PPT、PDF,以及各種數(shù)據(jù)庫中的數(shù)據(jù)格式,甚至還可以搜索多媒體文檔內(nèi)容;而且不僅可
以搜索互聯(lián)網(wǎng)內(nèi)容,還可以搜索本機和局域網(wǎng)上的內(nèi)容。這大大拓展了企業(yè)搜索的應用空間。
目前,IBM公司的研究和開發(fā)部門已經(jīng)在UIMA平臺上實現(xiàn)了包括詞法分析(支持英文和中文等 一類語言)、句法分析、知識庫、問答系統(tǒng)、文本檢索、機器翻譯等多種自然語言處理功能,算法上覆蓋了統(tǒng)計算法、規(guī)則算法、機器學習。從現(xiàn)狀看,UIMA更 像是一個大的平臺,它提供的是一個接口,不同用戶根據(jù)自己的實際進行有針對性、個性化的二次開發(fā)。
Autonomy則采用的是一種完全不同的實現(xiàn)方式。 Autonomy智能搜索技術(shù)關(guān)注詞語在文檔中的邏輯關(guān)系。它綜合考慮詞語出現(xiàn)的上下文,同時又能夠查找到那些可能不包含具體詞語、但是包含相關(guān)概念的文 檔。除此之外,它還可以實現(xiàn)概念提煉或基于例子的提煉。大部分用戶都可以指定一個或多個更相關(guān)的初始結(jié)果和請求,利用精選內(nèi)容中完整的上下文, Autonomy能夠真正聚焦用戶所感興趣而且適合的概念結(jié)果。
使用者可以對搜索需求進行詳細地描述,Autonomy智能搜索技術(shù)根據(jù)對于搜索需求的邏輯思 維,提供一套接近人們需求的一種信息(流)組合。通過Autonomy特有的信息呈現(xiàn)技術(shù),使用者不僅能夠看到搜索結(jié)果,還可以發(fā)現(xiàn)它們之間的邏輯聯(lián)系, 以及信息流向的趨勢,從而作出快速準確的決策。以信息流的發(fā)展順序為導向,Autonomy不僅能夠挖掘已知信息,還能獲得未知信息,將企業(yè)財富最大化。
Autonomy的智能搜索技術(shù)已經(jīng)在包括全球500強在內(nèi)的企業(yè)中得到廣泛應用,相信隨著國內(nèi)企業(yè)信息化需求的升級,智能搜索將成為挖掘企業(yè)內(nèi)部財富的重要手段。(AMT) |
|