雖然在Ian Foster和Carl Kesselman的書中幾乎對Jeffery等人的網(wǎng)格分層觀點[1]持否定態(tài)度<!--[if !supportFootnotes]-->,然而認為網(wǎng)格可以分為數(shù)據(jù)、信息和知識三層并將這種想法付諸R&D實施的大有人在。
Ian和Carl認為這個觀點有其局限性,“通常計算、數(shù)據(jù)和知識是彼此不可分割的,特別是知識不僅駐留在網(wǎng)格應(yīng)用中,而且也滲透到網(wǎng)格應(yīng)用和基礎(chǔ)框架的全部有效范圍內(nèi)。”(作者認為一種更準確的體系結(jié)構(gòu)應(yīng)該是基于組件的,其中的各種宏組件協(xié)同工作)。
我的想法也是基于這樣一種分層模型進行,我認為如果把看成對象的信息、數(shù)據(jù)、知識(Semantic on the grid)與系統(tǒng)架構(gòu)和實現(xiàn)所需要的“信息、數(shù)據(jù)和知識”(semantic for/in the grid)分開來討論,這種分層架構(gòu)完全是能夠成立的。但是這個觀點還沒有進行證明,我目前還沒有很好的形式化的方法能夠?qū)@一點加以證明,也還沒有看到那些采用分層觀點的系統(tǒng)事先進行過證明。
語義網(wǎng)格(Semantic Grid)是目前最大的、以知識(信息的語義)為操縱/管理對象和目的的研究計劃,最接近我們圖書館學(xué)研究的核心領(lǐng)域。前面我們探討過,網(wǎng)格與Web服務(wù)已經(jīng)全面合流,前者稱為后者的一種實現(xiàn)形式(或一種應(yīng)用),可以看成以后者為環(huán)境的一組中間件構(gòu)成的分布式計算平臺,提供網(wǎng)絡(luò)、硬件、軟件資源共享的網(wǎng)格能力。而語義網(wǎng)格則是語義萬維網(wǎng)與網(wǎng)格發(fā)展的一個雜交,提供的是資源內(nèi)容(信息)共享的能力,即信息系統(tǒng)的語義互操作的能力,這超越了計算機僅僅作為工具的資源共享,而直取計算機作為其存在目的的共享——信息的語義。參見著名的圖示:
解決信息語義的異構(gòu),正是數(shù)字圖書館夢寐以求的目標。網(wǎng)格架構(gòu)的環(huán)境與數(shù)字圖書館的信息環(huán)境是完全一致的,都是分布式的廣域網(wǎng)環(huán)境,只是數(shù)字圖書館在承認環(huán)境無序的前提下尋找一種跨語義的解決方案,而語義網(wǎng)格所開的藥方是在Web環(huán)境中再構(gòu)建一個中間的環(huán)境,使得符合這個環(huán)境的信息體都具有語義互操作功能。兩者的目的是一致的,途經(jīng)不一樣,數(shù)字圖書館很有借鑒語義網(wǎng)格、向后者尋求方法論支持的必要。從解決問題的方案本質(zhì)來看,形式化地描述信息,使其負載的語義能夠為機器所解析和認識,從而利用人工智能數(shù)十年的研究成果操縱廣域網(wǎng)信息,是語義網(wǎng)格和數(shù)字圖書館的共同目標。語義網(wǎng)格甚至可以看成是數(shù)字圖書館語義互操作方案的一種特例。
關(guān)于語義網(wǎng)格立項時的“可行性報告”可參見:http://www./v1.9/semgrid.pdf,詳細介紹了語義網(wǎng)格的相關(guān)技術(shù)、分層模型、問題領(lǐng)域和技術(shù)構(gòu)想,以下是“中國萬維網(wǎng)聯(lián)盟”的bbs上一位叫Whale的網(wǎng)友貼的一個帖子,內(nèi)容的組織和翻譯得都不錯,就直接節(jié)選拷貝粘貼在這里了:
網(wǎng)格論壇組織GGF,也開了專門的板塊來支持語義網(wǎng)格項目研究。目前已經(jīng)有關(guān)于semantic grid的國際會議和期刊目前語義網(wǎng)格的概念同知識網(wǎng)格應(yīng)該相同,GCC2004上英國e_Science的首席科學(xué)家TonyHey作主題演講時證實了這個結(jié)論。 語義網(wǎng)格的研究重點是用語義和知識工程的方法來解決目前網(wǎng)格平臺建設(shè)和應(yīng)用中存在的各種問題.其研究內(nèi)容可以概括為以下幾個方面. 1. 智能實驗室(Smart Laboratories) 智能化的實驗室是e-Science成功不可豁缺的,同時配置智能實驗室可以充分挖掘Grid的能力. 2. 面向服務(wù)的結(jié)構(gòu)(Service-Oriented Architectures) 研究語義網(wǎng)格設(shè)施的預(yù)備和實現(xiàn),研究基于語義的服務(wù)描述語言. 3. 基于代理的方法(Agent Based Approaches) 研究Agent Based架構(gòu)使用,研究交互語言以便開發(fā)\制定\維護e-Science marketplaces 4. 信任和證實(Trust and Provenance) 研究網(wǎng)格系統(tǒng)中計算信任建立的過程\方法\技術(shù),決定內(nèi)容種源和品質(zhì),這些涉及到數(shù)字權(quán)管理問題. 5. 元數(shù)據(jù)和注釋(Metadata and Annotation) 元數(shù)據(jù)設(shè)施已經(jīng)以RDF的形式存在,進一步工作研究支持ontology設(shè)計和運用的方法和工具,研究Annotation工具和方法. 6. 知識工具(Knowledge Technologies) 知識捕獲工具和方法\動態(tài)內(nèi)容連接(dynamic content linking)\基于注解搜索 (annotation based search)\annotated reuse repositories\自然語言處理方法 (natural language processing methods )(for content tagging, mark-up, generation and summarisation) \數(shù)據(jù)挖掘(data mining)\機器學(xué)習(xí)(machine learning) \Internet 推理服務(wù) ( internet reasoning services). 7. 集成媒體(Integrated Media) 把一系列的媒體合成到e-science基礎(chǔ)設(shè)施中,包括視頻\音頻\各種圖像方法\;研究 metadata和annotation同這些多樣媒體格式的關(guān)聯(lián) 8. 內(nèi)容表達(Content Presentation) 研究內(nèi)容的可視化技術(shù)和方法 9. 電子科研工作流和協(xié)作(e-Science Workflow and Collaboration) 理解現(xiàn)在和未來e-Science合作的工作流,擁護應(yīng)該能夠形成,維護和解散基于一定成員限制規(guī)則和操作規(guī)則的合作環(huán)境。 10. 普適電子科研(Pervasive e-Science) 不僅關(guān)注計算能力,更包括所有對所有資源的訪問 面向語義的網(wǎng)格承諾帶來語義可互操作性,智能自動化,行動指南以及靈活重用的優(yōu)勢,它日益被認為是網(wǎng)格計算演變中的一個重要階段。我們將語義網(wǎng)格廣泛的應(yīng)用場景概括為以下幾個方面的網(wǎng)格應(yīng)用。 服務(wù)發(fā)現(xiàn). 英國e-Science的領(lǐng)頭項目myGrid尋求提供開放源代碼的高層網(wǎng)格中間件, 用于形式化表達,管理以及共享生物信息實驗中的密集數(shù) 據(jù). MyGrid所用資源是開放網(wǎng)格體系結(jié)構(gòu)的服務(wù),這些服務(wù)能夠靜態(tài)或動態(tài)的與上下文結(jié)合.這里的上下文包括用戶信息,執(zhí)行代碼,執(zhí)行速度,可靠性和 對用戶有用的適當(dāng)?shù)恼J證機制.能否找到正確的服務(wù)依賴于服務(wù)的知識.服務(wù)的語義描述對服務(wù)的自動發(fā)現(xiàn),查找,選擇,精確匹配,組合,交互操作,調(diào)用以及執(zhí)行的監(jiān)控都是必要的.在開放網(wǎng)格體系結(jié)構(gòu)中, 服務(wù)規(guī)范提供了描述接口的語法, 但服務(wù)除了按照一定的參數(shù)和返回值要求執(zhí)行操作,還應(yīng)該按照一定的用戶需 求來響應(yīng). 生物信息學(xué)家常常掌握著一些特殊的數(shù)據(jù),他們需要找到服務(wù)來操作這些數(shù)據(jù)以便產(chǎn)生期望的結(jié)果,或者他們希望在這些數(shù)據(jù)之上應(yīng)用一些任務(wù). 他們必須表達他 們的需求,以便同可用的服務(wù)來匹配, 并考慮服務(wù)的功能,接收和產(chǎn)生的數(shù)據(jù)以及用于完成其目標的資源, 從而匹配用戶的需求. 而且, 他們必須從能夠完成任務(wù)的后選者中選出在請求約束下獲取結(jié)果情況最佳的一個. 這種選擇依賴于功能,代價,服務(wù)質(zhì)量,地理位置和發(fā)布者相關(guān)的元數(shù)據(jù). 基于提供的功能進行的這種服務(wù)分類正在被不同的組織采用,作為一種有效的查找.索引合適服務(wù)的方法.不同組織目前在服務(wù)注冊的分類模式上是一致的. 比如生物信息學(xué)應(yīng)用和倉庫EMBOSS套件對本身所包含工具有一個粗略的分類,并且被當(dāng)前眾多的生物信息學(xué)集成平臺使用. MyGrid的一個假設(shè)是:第三方服務(wù)注冊為可用的生物信息服務(wù)編目分類.服務(wù)描述的附加(個性化的)元數(shù)據(jù)使用RDF陳述來進行聲明. 服務(wù)提供者發(fā)布 他們的服務(wù),服務(wù)使用者通過多種機制,如名字,詞語,特征,類型或本題描述來查找,匹配服務(wù).myGrid生物信息服務(wù)本體基于DAML-S服務(wù)模型.服務(wù)描述分為兩類:服務(wù)種類設(shè)計的領(lǐng)域名, 可調(diào)用服務(wù)實例的操作元數(shù)據(jù)(如數(shù)據(jù)質(zhì)量,服務(wù)質(zhì)量和代價等). DAML+OIL提供了服務(wù)描述的詞匯。匹配首先對域進行匹配,然后是操作的屬性。 副本服務(wù)(生物學(xué)里大量存在)之間有著同樣的描述,但操作意義上的服務(wù)配置不同。在執(zhí)行工作流之前,對服務(wù)類和他們的實例進行發(fā)現(xiàn),匹配和選擇。在執(zhí)行期間,實例也可以動態(tài)的選擇。 知識注釋,通知和指南 Geodise試圖用網(wǎng)格技術(shù),設(shè)計優(yōu)化技術(shù),知識管理技術(shù),Web服務(wù)和本體技術(shù)來構(gòu)建一個具有目前最高水平的知識密集性設(shè)計工具,該工具要與OGSA 基礎(chǔ)設(shè)施保持一致。Geodise正使用知識工程方法學(xué)來對設(shè)計知識進行建模,封裝,以便航空引擎不見等新設(shè)計能夠一更低的成本更快的開發(fā)出來。 Geodise首次使用的知識模式之一就是通過注釋使工程設(shè)計流具有豐富的語義。Geodise希望能夠回答的一個關(guān)鍵問題是:以前的實際開發(fā)出什么以及怎么重用它們。一個典型的工程設(shè)計通常包括問題定義信息(幾何方面);工具用于劃分網(wǎng)格或者將集合設(shè)計拆分成能夠進行分析的單元;然后,將優(yōu)化方法產(chǎn)生的一組行為應(yīng)用上去,以不同的參數(shù)進行實驗,并得一組可能的設(shè)計方案。所有這些信息——如何四用軟件包的每一步活動——都記錄在日志中。為了最有效的重用日志文件中包含的知識,Geodise項目中通過使用域本體術(shù)語從語義上豐富這些日志文件。經(jīng)過語義擴充的結(jié)果日志形成一個知識庫,該知識庫可以被查詢,索引和重用。這樣一個知識庫使的我們能夠基于以前的經(jīng)驗,為當(dāng)前的設(shè)計問題找到合適的解決辦法。 工作流合成 工作流通過系統(tǒng)性計劃將服務(wù)連接在一起,進行協(xié)調(diào)的組合。知識可以用于約束和知道工作流組合,并驗證配置是否正確。 myGrid系統(tǒng)用于對用戶數(shù)據(jù)選擇適當(dāng)?shù)牟僮鳎⒂糜谝?guī)定哪個操作接著哪個操作是合理的。在myGrid中,任務(wù)本體對工作流過程進行模擬,并用于注釋 服務(wù)的輸入和輸出語義(當(dāng)前用Web服務(wù)工作流語言來表示)。數(shù)據(jù)的語義類型必須匹配,比如,因為酶是一種蛋白質(zhì),而BLASTp以蛋白質(zhì)作為輸入,因此 酶的集合可以作為BLASTp的輸入。語義兼容不同于語法兼容。兩種服務(wù)可以在語義上相同,但有著不同的特征,對應(yīng)的數(shù)據(jù)格式不同。反過來,兩種服務(wù)可有相同的句法標簽和操作名,但語義上完全不同。Geodise也實現(xiàn)了一個基于知識,輔助本體的工作流構(gòu)建助手KOWCA.關(guān)于設(shè)計搜索和優(yōu)化的通用知識要 轉(zhuǎn)化成基于規(guī)則的知識庫。底層知識庫系統(tǒng)檢查工作流的一致性,并對在工作流創(chuàng)建中下一步應(yīng)該作些什么提出建議。 數(shù)據(jù)集成 工作流是服務(wù)集成的一種形式。另一種形式是數(shù)據(jù)和元數(shù)據(jù)的集成。通過描述公共模型中的元數(shù)據(jù),實驗的所有部分都能夠相互關(guān)聯(lián),因此能夠在其上進行推理。 對于語義集成,本體扮演兩種角色:(1)由于數(shù)據(jù)模型是一種簡單的本體,在相同的類型的數(shù)據(jù)庫管理系統(tǒng)中的所有數(shù)據(jù)庫要么使用相同的本體,要么 提供到標準本體的映射。(2)許多智能信息集成系統(tǒng)用本體代表一種映射原數(shù)據(jù)庫的標準模型。用戶根據(jù)目標本體提交請求,然后他們自動透明的轉(zhuǎn)換成依據(jù)源本體的要求,也就是數(shù)據(jù)倉庫模式。 協(xié)作服務(wù) 協(xié)同會議涉及會議內(nèi)容的實況交流,以及支持會議的基礎(chǔ)設(shè)施操作信息。在最簡單的情況下,信息可以是幻燈片或者遠程投影儀控制。新形式的信息也可以互相交換,如發(fā)言者隊列,分布式選舉,會議最新消息或者對以有文檔的注釋。另外,也可以進行小組討論。這些都豐富了知識內(nèi)容。共享,存儲這些信息能夠極大的豐富科學(xué)活動的協(xié)作過程。 支持協(xié)作處理的一種方法是訪問網(wǎng)格Access Grid. Access Grid主要集中于大規(guī)模分布式會議和培訓(xùn)的應(yīng)用中。Access Grid 資源包括多媒體呈現(xiàn)和交互,特別是基于空間的可視化會議(組到組),以及網(wǎng)格中間件和虛擬環(huán)境的接口。Access Grid結(jié)點是專用設(shè)施,這些設(shè)施包括必要的高質(zhì)量音頻和視頻技術(shù),以及提供一種有效的用戶體驗。CoAKTing項目就是集中于集成智能會議空間,注釋在線會議的媒體流。 語義Web技術(shù)和實時信息流兩者的結(jié)合與網(wǎng)格計算高度相關(guān)。元數(shù)據(jù)流可以由人,設(shè)備或者服務(wù)產(chǎn)生,例如注釋,設(shè)備配置以及實時處理的數(shù)據(jù)。會議空間不僅可以是會議室,它也可以是實驗室甚至是小實驗室。如在Comb-e-Chem項目中所研究的一樣,會議空間配備有大量設(shè)備陣列和多媒體技術(shù)設(shè)施。當(dāng)攜 帶一臺設(shè)備到小空間時,需要發(fā)現(xiàn)并組合可用的服務(wù),因為這與形成使用網(wǎng)格服務(wù)的虛擬組織緊密相關(guān)。 因為p2p網(wǎng)絡(luò)目前作為一種廣義的網(wǎng)格系統(tǒng),現(xiàn)在技術(shù)也日益成熟,但是其中很多問題尚沒有解決。目前關(guān)于semantic p2p的研究也是一項比較好的領(lǐng)域。 雖然現(xiàn)在有semantic web service研究搞得很火,但更多的關(guān)注于服務(wù)角度問題,網(wǎng)格架構(gòu)從OGSA到WSRF也迎合這種趨勢,但是網(wǎng)格同Web Service還是區(qū)別很大的,雖然都是面向服務(wù)的架構(gòu)(SOA),但是網(wǎng)格更多關(guān)注資源、計算層面的問題,p2p也是如此。 |
|