寒區(qū)旱區(qū)數(shù)據(jù)管理平臺■ 張耀南 楊海 韋五周 景通橋 張軍強 寒區(qū)旱區(qū)特色數(shù)據(jù)庫為開展西部高寒、干旱特殊環(huán)境下的高原大氣、水土資源、脆弱生態(tài)等提供基礎數(shù)據(jù),特色數(shù)據(jù)的充分共享和有效利用能有效促進學科發(fā)展。 寒區(qū)旱區(qū)特色數(shù)據(jù)庫(以下簡稱特色數(shù)據(jù)庫)以探索寒區(qū)旱區(qū)陸地表層系統(tǒng)的過程、尺度、格局及其相互關系為基礎,以開展環(huán)境與全球變化及區(qū)域可持續(xù)發(fā)展研究服務為主,特色數(shù)據(jù)的充分共享和利用能有效促進學科發(fā)展。為開展西部高寒、干旱特殊環(huán)境下的冰川、凍土、沙漠、高原大氣、水土資源、脆弱生態(tài)與農(nóng)業(yè)研究提供基礎數(shù)據(jù),為西部國土資源合理開發(fā)利用、環(huán)境保護與工程建設提供決策數(shù)據(jù); 為寒區(qū)旱區(qū)人地關系、資源利用、生態(tài)建設與社會經(jīng)濟可持續(xù)發(fā)展提供研究數(shù)據(jù)。 數(shù)據(jù)資源分類及管理結構 從數(shù)據(jù)管理的角度將數(shù)據(jù)分為原始數(shù)據(jù)、關系型數(shù)據(jù)、二進制數(shù)據(jù)、文本型數(shù)據(jù)、圖形圖像和空間數(shù)據(jù)。從突出特色和應用服務角度,可將數(shù)據(jù)分為氣象、人文地理、自然資源、社會經(jīng)濟、土地利用、冰凍圈、水文(分地表水和地下水)、輻射收支、大氣成分、土壤與植被資源、生態(tài)環(huán)境、氣候環(huán)境、地理環(huán)境、地質(zhì)環(huán)境、沙漠及沙漠化、社會經(jīng)濟等。 依據(jù)以上數(shù)據(jù)分類將研究課題、研究項目、定位觀測站、定點觀測、野外考察、交流等具體項目數(shù)據(jù)作為一級數(shù)據(jù)來源,建立一級分布式數(shù)據(jù)子庫,形成二級數(shù)據(jù)庫群建立的數(shù)據(jù)基礎。為方便應用,將數(shù)據(jù)在一級數(shù)據(jù)庫群的基礎上,按照研究專業(yè)特點提煉為: 冰川數(shù)據(jù)庫(極地冰川與海冰、山岳冰川與雪)、凍土數(shù)據(jù)(多年凍土、季節(jié)凍土)、大氣數(shù)據(jù)(高原大氣和陸面)、土壤數(shù)據(jù)、沙漠數(shù)據(jù)(沙漠與沙漠化、沙塵暴)、水文數(shù)據(jù)(地表水、地下水)、生態(tài)數(shù)據(jù)(寒區(qū)生態(tài)、旱區(qū)生態(tài))、雷電數(shù)據(jù)(雷電觀測與強對流、人工引雷與影響天氣)、社會經(jīng)濟數(shù)據(jù)等。由這些分類數(shù)據(jù)庫構成二級數(shù)據(jù)庫群,并由二級數(shù)據(jù)庫群構成特色數(shù)據(jù)集,以高性能計算機曙光3000為核心進行管理。 數(shù)據(jù)抽象 特色數(shù)據(jù)庫分為三層數(shù)據(jù)抽象。底層數(shù)據(jù)集是物理上實際存儲的各類關系型數(shù)據(jù),非關系型數(shù)據(jù)存放在磁盤上的分類目錄中。數(shù)據(jù)集是整個特色數(shù)據(jù)庫的基礎與核心,含有大量必要的數(shù)據(jù)分類及其他數(shù)據(jù)屬性,是數(shù)據(jù)庫的數(shù)據(jù)資源所在。數(shù)據(jù)集建設基本思想就是依據(jù)數(shù)據(jù)分類,將所有數(shù)據(jù)資源以更小的、用戶容易操作的單位來進行細化,將這種最小單位所表示數(shù)據(jù)資源的元素稱之為數(shù)據(jù)集。每個數(shù)據(jù)集包含多個物理數(shù)據(jù)資源表(關系表和磁盤文件),是特色數(shù)據(jù)庫的基礎數(shù)據(jù)層。也是二、三級數(shù)據(jù)庫群和數(shù)據(jù)庫應用系統(tǒng)建設的基礎。所有不同層次的數(shù)據(jù)抽象及其相互的邏輯關系都建立在數(shù)據(jù)集群的屬性上。 第二層是邏輯子庫層,由抽象出的物理上實際相互獨立的不同數(shù)據(jù)集,按數(shù)據(jù)來源構建。這里所謂的邏輯子庫群是按研究課題、研究項目、定位觀測站、定點觀測、野外考察和交流等具體項目來劃分的,為不同的項目、課題和觀測站、點分別建立各自的專業(yè)子數(shù)據(jù)庫。二級數(shù)據(jù)庫群是在一級數(shù)據(jù)庫群的基礎上以不同的課題、臺站以及項目為類型所抽象出來的。 第三層是邏輯類數(shù)據(jù)庫群(邏輯數(shù)據(jù)庫),是在第一、二邏輯抽象層的基礎上的再一次的數(shù)據(jù)按學科歸類抽象。一、二級數(shù)據(jù)庫群的建設是以三級數(shù)據(jù)庫群為目標的。一級數(shù)據(jù)庫群中的數(shù)據(jù)集將包含多個三級數(shù)據(jù)庫群的屬性??傊?,三級數(shù)據(jù)庫群數(shù)據(jù)的不同分類標準是在建設一、二級數(shù)據(jù)庫群時就要建好的,且后期也不會有較大的變動。如果數(shù)據(jù)分類的標準發(fā)生變化時,三級數(shù)據(jù)庫群要做相應的變化。 數(shù)據(jù)的管理 按照數(shù)據(jù)的分類和層次抽象以及用戶如何使用數(shù)據(jù),可實現(xiàn)數(shù)據(jù)庫及表設計。數(shù)據(jù)按原始數(shù)據(jù)、關系型數(shù)據(jù)、二進制(圖形圖像文件)、多媒體、文本數(shù)據(jù)、空間數(shù)據(jù)進行管理。 原始數(shù)據(jù)是指從科研第一線提交上來的第一手數(shù)據(jù)(包括數(shù)據(jù)、應用程序、說明文檔等)。這類數(shù)據(jù)主要以磁盤目錄文件的方式進行管理,將不同的科研數(shù)據(jù)詳細分類,在磁盤上建立相應目錄,運行磁盤目錄遍歷程序?qū)⒋疟P文件路徑讀出,并寫入相應數(shù)據(jù)庫表中,建立邏輯數(shù)據(jù)庫,為用戶下載提供服務。 關系型數(shù)據(jù)入庫前,需要人工作一些適當?shù)男拚ㄔ黾右恍┍匾膶傩宰侄?,去掉不合理的字段),采用Oracle9i管理。為了提供不同的數(shù)據(jù)服務格式,需要對數(shù)據(jù)的操作和訪問細化到每一個表字段上。 圖形圖像、多媒體、文本數(shù)據(jù)的管理。文本分為能夠生成關系的簡單文本數(shù)據(jù)和可用excel分析的圖形文件,這類文件不是很大,易通過程序提取關系,生成表數(shù)據(jù)字段,可以在內(nèi)存中生成文本文件和圖像(用戶只需要選擇要生成圖像的字段列)展示給用戶; 二是那些難以生成關系的復雜文本數(shù)據(jù)和大圖像,采用數(shù)據(jù)、應用程序和圖像關聯(lián)的方式以文本文件集和圖形圖像集的方式存儲在相應磁盤目錄中,按照原始數(shù)據(jù)和關系數(shù)據(jù)的管理方式管理。 空間數(shù)據(jù)的管理??臻g數(shù)據(jù)主要是空間遙感數(shù)據(jù)、地理信息數(shù)據(jù),采用兩種方式管理。一種是以Arc/Info的Coverage,ArcView的Shape文件形式管理; 另一種是采用Oracle Spatial管理空間數(shù)據(jù)管理。 數(shù)據(jù)服務結構 服務分管理服務和用戶服務。 管理服務主要將數(shù)字化的數(shù)據(jù)進行分析、校正并按照規(guī)范進行組織。將數(shù)據(jù)按照數(shù)據(jù)集、專業(yè)子庫、分類數(shù)據(jù)庫三級數(shù)據(jù)庫體系結構進行管理,通過物理層面的數(shù)據(jù)集來形成邏輯層面的專業(yè)子庫和分類數(shù)據(jù)庫管理與服務系統(tǒng)。管理服務遵循權利與義務對等的原則積極開展數(shù)據(jù)共享與數(shù)據(jù)發(fā)布,遵循誰發(fā)布誰享有所有權,享有其他數(shù)據(jù)的優(yōu)先使用權。按照用戶類別,確定訪問的數(shù)據(jù)范圍; 在數(shù)據(jù)作者許可的前提下,盡可能廣泛地開展共享服務,但數(shù)據(jù)用戶要尊重數(shù)據(jù)發(fā)布作者的知識產(chǎn)權。 用戶服務將基于共享網(wǎng)絡技術,以學科分類、地域分類、時間分類、數(shù)據(jù)格式分類等提供邏輯組合的數(shù)據(jù)快速查詢和下載服務,開展網(wǎng)絡數(shù)據(jù)庫的多維可視化動態(tài)網(wǎng)上發(fā)布技術服務,促進數(shù)據(jù)庫的充分共享和有效利用,充分發(fā)揮數(shù)據(jù)的科學價值。 寒區(qū)旱區(qū)特色數(shù)據(jù)中心的建設遵循開放、自愿原則。為確保數(shù)據(jù)作者的知識產(chǎn)權,充分調(diào)動數(shù)據(jù)作者對所有數(shù)據(jù)的發(fā)布積極性,促進寒區(qū)旱區(qū)特色數(shù)據(jù)庫建設的廣泛性,數(shù)據(jù)庫管理系統(tǒng)要求數(shù)據(jù)使用者將數(shù)據(jù)的使用情況反饋給數(shù)據(jù)發(fā)布者,在利用中心數(shù)據(jù)的研究成果中體現(xiàn)數(shù)據(jù)作者。數(shù)據(jù)中心跟蹤數(shù)據(jù)的流向與使用,建立數(shù)據(jù)使用者與數(shù)據(jù)發(fā)布者之間的聯(lián)系,分析數(shù)據(jù)使用的頻度,根據(jù)反饋信息,改進數(shù)據(jù)服務方式,加強數(shù)據(jù)服務力度。 系統(tǒng)充分考慮了基于以上管理和服務的原則,從用戶和數(shù)據(jù)的管理都做了多層安全設計,管理人員(包括數(shù)據(jù)所有者)有權對數(shù)據(jù)進行必要的管理。數(shù)據(jù)分完全公開、時效保護和項目共享三種類型。數(shù)據(jù)用戶分科研處、所內(nèi)研究人員、國內(nèi)研究單位及非營利性機構、國外研究單位及非營利性機構和其他用戶五類。設計了邏輯子庫的創(chuàng)建、編輯和刪除以及相關設置,數(shù)據(jù)集的創(chuàng)建、編輯和刪除,向數(shù)據(jù)集添加表/文件、日志; 元數(shù)據(jù)的創(chuàng)建、編輯和刪除,數(shù)據(jù)集的共享/發(fā)布、審批、跟蹤核實等功能。 作者簡介:張耀南 博士、研究員。就職于中國科學院寒區(qū)旱區(qū)環(huán)境與工程研究所,任計算機網(wǎng)絡室主任、甘肅省高性能網(wǎng)格計算中心主任、中國科技網(wǎng)蘭州節(jié)點中心主任、中國高性能計算專業(yè)委員會委員、甘肅省互聯(lián)網(wǎng)協(xié)會常務理事、九三甘肅省委員會委員、九三中國科學院蘭州分院委員會主任委員、中國計算機協(xié)會高級會員。
數(shù)據(jù)是構建知識大廈的基石。在全球化日益發(fā)展的今天,科技數(shù)據(jù)共享成為科技合作的一種基本形式。面對通過實驗、觀測和模擬獲取的大量數(shù)據(jù),科學家們需要新的信息技術手段來完成數(shù)據(jù)的采集、加工、存儲、分析和發(fā)布。 數(shù)據(jù)建設和應用是第20屆CODATA國際學術大會關注的重點領域之一。大會設有“數(shù)據(jù)、信息技術和數(shù)據(jù)應用”專題研討會。屆時,來自美國加州大學圣地亞哥分校、美國國家科學基金會美國約翰斯霍普金斯大學等機構的科學家將和與會者分享科技數(shù)據(jù)在材料科學、天文學和地球科學等領域的建設和應用心得。CODATA中委會成立十幾年來,我國科研人員陸續(xù)組建了九個科技數(shù)據(jù)協(xié)作組,學科領域涵蓋: 基本常數(shù)、化學化工、材料、核數(shù)據(jù)、原子分子、生物、環(huán)境、地學、機械結構與設計。 (計算機世界報 2006年09月11日 第35期 B21) |
|