評論(0

中國科學院科學資料庫

標籤: 暫無標籤

中國科學院科學資料庫的內容涵蓋了化學、生物、天文、材料、腐蝕、光學機械、自然資源、能源、生態環境、湖泊、濕地、冰川、大氣、古氣候、動物、水生生物、遙感等多種學科,由中國科學院各學科領域幾十個研究所的科研人員參加建設。科學資料庫專業資料庫已達到180個,總數據量達7250億位元組(725GB)。科學資料庫基於中國科技網對國內外用戶提供服務,在中國科技網上已建立了集中與分佈的Web站點19個,上網專業資料庫153個,數據量約3250億位元組(325GB)。

  
中國科學院科學資料庫

一、背景與歷程

  中國科學院科學資料庫正是在上述過程中發展起來的。中國科學院作為中國自然科學的研究中心,在長期的科學研究實踐中,通過觀測、考察、試驗、計算等多種途徑產生和積累了大量具有重要科學價值和實用意義的科學數據和資料,但由於管理手段落後,無法充分發揮這些寶貴信息資源的作用。60年代發展起來的資料庫技術,為有效管理和開發應用科學數據創造了有利條件。70年代開始各研究所在自己學科領域中試建資料庫,特別是化學領域的專業庫得到迅速發展。專業庫的建立促進了數據科學管理的進程,然而分散的、獨立的庫,限制了數據規範標準的統一和共享的實現。為此,中國科學院1983年提出了「科學資料庫及其信息系統」的建設項目,1986年被國家計委列為國家「七五」和「八五」期間的重點工程項目。同時,中國科學院將其列入「七五」院重大項目和「八五」、 「九五」院基礎研究特別支持項目;「系統網路軟體開發」又作為國家基金委1995年網路應用重大項目予以支持,使系統不斷取得突破性進展。十多年來,隨著計算機技術的進步和用戶需求的不斷變化,系統也不斷改進和完善。科學資料庫的研製和建設過程正是知識積累、加工、利用和傳播的過程,是跟蹤資料庫技術、網路技術發展和應用的過程,是數據資料逐步規範標準和積累的過程,也是廣大系統建設者與用戶不斷溝通,向實用化發展的過程。為此,科學資料庫及其信息系統1997年獲中國科學院科技進步一等獎,1998年獲國家科技進步二等獎。

  科學資料庫經過十幾年的建設和發展,已經成為目前國內信息量最大,學科專業最廣,服務層次最高,綜合性最強的科學信息服務系統。同時,也成為科研工作的基礎設施之一,並將成為未來科學研究必不可缺少的資源。目前,「科學資料庫及其應用系統」作為中國科學院信息化建設的重要基礎設施,已經納入了中國科學院「十五」期間信息化建設的重大項目,給科學資料庫的建設和發展帶來了一個有利的時機,科學資料庫將在「十五」建設期間得到長足的發展,為社會做出更大的貢獻。

  二、內容與特點

  1.數據資源

  科學資料庫由中心站點和分佈在網上本地和外地的相互獨立的若干個專業庫子站點組成了網上的科技信息服務體系。

  多年來,科學資料庫的研製者利用這批寶貴的數據資源進行了大量的專業諮詢服務、專業應用服務和網上綜合科研信息服務,已在國家經濟建設、國防建設、規劃決策、科學研究、科技攻關、學科發展、國際合作等諸多方面得到應用,取得了顯著的社會效益和一定的經濟效益,在國內外產生了一定影響。

  2.服務系統

  多年來,科學資料庫採用邏輯上集中、物理上分佈的建庫和運行服務體系,形成了一個從基本的資料庫檢索直至專業諮詢、決策服務的完整的科技信息服務系統。

  科學資料庫專業資料庫的研製者將多年科研工作積累起來的寶貴的數據資源收集整理,在不同學科的建庫單位建成了專業資料庫。同時,又將他們的專業知識和多年積累的科研工作經驗相結合,開發出基於專業資料庫的數學模型和專家系統,形成了不同專業的專業諮詢系統、科研過程和生產過程模擬系統,乃至於綜合科研信息服務系統等等實用系統,進行深層次的專業諮詢服務和科學資料庫的增值服務,直接服務於專業研究和國家經濟建設。

  1996年科學資料庫率先在中國科技網上建立了中心主站點,開始實現了科學資料庫集中與分佈相結合,通過網路向國內外用戶提供服務。幾年來,科學資料庫中心站點將集中在中心的資料庫和分佈在中國科技網上的19個子站點的專業資料庫進行分散式的鏈接或導航,實現了科學資料庫整體上網服務,初步建成了科學資料庫網路信息服務系統。

  隨著網路的發展,科學資料庫的應用也越來越廣泛,專業資料庫在擴大用戶面上不同程度的做了很多工作,並逐漸得到社會的重視。網上檢索服務隨著上網內容的不斷增加和充實,日益得到用戶的矚目。1998年化學專業資料庫與上海熱線連接,方便了上海用戶的訪問;中國菌種目錄資料庫已經分別在日本農業網和亞太地區高速網上建立了鏡像。

  3.技術開發

  「九五」初期,科學資料庫系統率先採用CGI技術實現了科學資料庫上網服務。隨著網路及資料庫技術的發展,近年來,科學資料庫中心對多層客戶機/伺服器技術進行研究,就www與資料庫之間的多種連接技術進行了跟蹤。實現了科學資料庫系統的開發環境和運行環境的分離,用專業的系統同步軟體來保證運行環境與開發環境的一致性、數據更新的及時性和有效性,採取了一系列最新的安全防範措施來提高整個系統的安全性和可靠性。同時,在多台伺服器上安裝了自行開發的統計分析軟體,用於統計整個Web伺服器的被訪問情況。

  2000年科學資料庫有關建庫單位合作完成了863信息技術領域的應用項目《高速計算環境下的科學資料庫應用系統》和國家基金委重大應用項目《高速網路環境下的科學資料庫應用系統》,在高速網和曙光2000-II超級伺服器上基於科學資料庫建立了生物,地學,天文三個應用實驗系統,開發了科學資料庫應用系統支撐平台。科學資料庫應用支撐平台是一個集中高性能計算環境、高速網路環境和豐富的中間件軟體環境的綜合系統環境。內容是在中國科學院計算機網路信息中心的網格節點上,基於曙光2000-II超級計算機和科學資料庫系統,建立一個集超級計算機、科學資料庫和高速互聯網為一體的技術支撐平台,開發基於科學資料庫的不同專業、不同層次的應用系統。

  4.硬體環境

  科學資料庫中心的硬體系統環境是建立了以曙光2000-II超級伺服器和SGI Challenge L伺服器為主體,以及若干DEC ,IBM ,SUN ,SGI工作站組成的網上開發和服務環境。曙光2000-II超級伺服器包含82個節點,峰值計算能力110G FLOPS。海量存儲環境有1.5 TB的磁碟陣列。

  三、組織與管理

  科學資料庫建設是中國科學院全院範圍內的跨所聯合,力圖在全院範圍內將研究所多年積累起來的科技信息資源組織起來,與計算機、資料庫和網路等先進技術相結合,對社會提供科技資源共享與服務。科學資料庫的組織形式是以綜合型重大工程項目的方式進行的。從十幾年來科學資料庫的建設和發展的實踐經驗來看,這種組織方式是行之有效的。

  科學資料庫在組織實施過程中,實現了跨學科的聯合和數據、人才、技術的集中,體現了中國科學院的整體優勢,在建立中國科學院和國家科研工作的基礎體系中起到了龍頭的牽引帶動作用,提升了專業資料庫的技術能力,綜合能力和整體服務能力。

  1.管理模式

  多年來,科學資料庫在科學資料庫專家委員會的領導下,由科學資料庫辦公室進行課題管理,各建庫單位負責對本單位的建庫課題進行組織實施。

  科學資料庫的組織管理結構採用以下方式:

  (1)科學資料庫專家委員會

  專家委員會是科學資料庫的學術領導機構,在院的領導下,負責中國科學院科學資料庫有關重大問題的決策和管理。負責制定科學資料庫的發展規劃和實施計劃,確定經費的具體資助範圍和原則,審定資助的項目及經費分配方案,檢查監督項目的執行情況。課題成果的評審、鑒定、驗收,由專家委員會組織進行。

  (2)科學資料庫辦公室

  科學資料庫辦公室是專家委員會的辦事機構,設在中國科學院計算機網路信息中心。課題的內容、目標和經費經專家委員會審定立項后,由科學資料庫辦公室按照院重大工程項目的管理辦法進行管理。課題合同的檢查驗收,由科學資料庫辦公室組織進行。

  2.組織實施

  (1)專家論證

  科學資料庫課題的立項,要經過科學資料庫專家委員會的論證和答辯,確保課題實施的可行性。

  (2)目標管理

  經專家論證立項的課題,由科學資料庫辦公室負責組織簽訂《中國科學院重點項目課題任務書》,確定項目內容和目標,實行目標管理。

  (3)過程式控制制

  為了有效地促進科學資料庫建設的發展,實現預定的目標,科學資料庫辦公室按照簽訂的合同指標,嚴格進行建設過程的控制。每年對課題組織年度工作檢查,進行過程式控制制。一旦發現課題執行過程中的問題,及時提交專家委員會決策解決。

  (4)滾動支持

  科學資料庫課題的管理,實行滾動支持。鼓勵先進,淘汰落後,以便促進科學資料庫事業的發展。

  四、「十五」期間的發展

  科學資料庫及其應用系統作為中國科學院信息化建設的重要基礎設施,已經納入了中國科學院「十五」期間信息化建設的重大項目,給科學資料庫的發展帶來了一個有利的時機。

  科學資料庫及其應用系統在「十五」期間的總體發展目標是在繼續擴大數據資源的基礎上,促進數據向知識的轉化,完善信息化的科學研究環境,初步建成面向科學研究和社會的科技信息服務體系。

  1.建設任務

  「十五」期間,科學資料庫及其應用系統建設任務包括數據資源建設、標準規範建設和系統平台建設三個方面。

  (1)數據資源建設

  科學資料庫數據資源建設是繼續加強科學數據資源的採集和積累,擴大現有專業資料庫範圍,注重數據的完備性,系統性,內容和形式的多樣性,在全院範圍內逐步建立學科門類完整的專業資料庫群體,為建設信息化的科學研究環境提供數據資源保障,為知識創新服務。主要任務是在全院範圍內初步建成包括化學、天文學、材料科學、能源科學、海洋科學、生物學、地球科學、信息科學等學科門類基本完整的科學資料庫群體,使科學資料庫系統的建庫單位的數量接近40個,學科門類逐步趨於完整;專業子庫數量達到300個,專業庫種類包括數值庫、事實庫和多媒體庫;科學資料庫總數據量達到10TB。同時,建成1-2個數字標本館應用實驗系統。

  (2)標準規範建設

  科學資料庫標準規範建設是將科學資料庫系統作為一個相對獨立和完整的系統,研究、制定該系統相應的標準與規範,形成其特有的標準規範體系,用以規範化科學資料庫數據資源的建設、數據共享與服務,保證數據資源的質量,提高科學資料庫的管理和服務水平,為科學資料庫的持續發展奠定良好的基礎,為科學資料庫實現從數據向信息和知識的轉化服務,為科學資料庫開發先進應用系統服務。在「十五」期間的標準規範體系建設包括數據標準體系、科學資料庫元數據標準體系、科學資料庫管理規範體系三大部分。主要任務是提交一套科學資料庫標準規範。內容包括科學資料庫元數據標準框架,科學資料庫元數據標準集,科學資料庫數據質量評估標準,科學資料庫數據共享政策與規範等。

  (3)系統平台建設

  科學資料庫系統平台建設是運用IT技術的新進展,對大規模、分散式、異構的科學資料庫中海量的數據資源進行整合,實現全方位、深層次的資源共享,並在高性能環境的支持下開發基於科學資料庫的先進應用系統,使科學資料庫的發展能夠滿足未來科學研究的需要,使科學資料庫能夠成為未來信息化科研環境的核心組成部分之一。主要任務就是建設面向科學資料庫未來五年發展需要的軟硬體支撐環境;在數據整合與規範化的基礎上,實現對數據資源的統一訪問與充分共享;為科學資料庫科技信息服務體系的建設和先進應用系統的開發提供有力的支持。同時,建立科學數據中心和專業領域數據分中心。通過建立數據中心提供科學資料庫集海量存儲、超級計算機、高速網路等軟硬體一體化的信息共享平台,並對科學資料庫建庫單位提供技術支持和培訓;通過建立專業領域數據分中心,規劃、設計和集成專業領域資料庫資源,逐步實現系統化和完備化,組織學科領域標準規範的制訂和實施,進行學科領域數據分中心的系統平台建設,開展專業領域的應用,提供專業領域綜合科技信息共享與服務。系統平台建設還要開發有典型意義的科學資料庫先進應用系統。這些應用系統應能充分利用和發揮科學資料庫數據資源的綜合優勢,成為未來科學研究工作中的重要工具或環境。

  2.主要內容

  (1)數據資源建設

  ・專業資料庫建設

  科學資料庫「十五」期間資源建設從應用服務的角度出發組織專業資料庫的建設。側重於從學科領域整體規劃資料庫的發展,組織學科領域標準規範的制訂和實施,注重數據的完備性,系統性,內容和形式的多樣性,在全院範圍內逐步建立學科門類完整的專業資料庫群體,為建設信息化的科學研究環境提供數據資源保障。

  ――科研數據的採集與積累。將實驗室、科研課題項目等科研活動中積累的科學數據和成果收集、整理、加工、建庫上網,提供數據共享與服務。

  ――國外數據的合作交換。通過與國外同行科學數據的合作交換,建立互利互惠的合作關係,擴大專業領域的數據資源。

  ――建立國外資料庫網上鏡像節點。根據科學研究的需求,聯繫專業領域內國際上最權威的網上免費數據服務系統,在中國建立生物、天文等相應的網上鏡像節點,實現在國內網上提供全球性科技信息資源共享。

  ・數字標本館建設

  中國科學院在生物和地學領域的研究所中分佈著24個實物標本館,其中相當一部分標本館在國際上有很高的地位。數字標本館是將原始實物標本系統地轉化整理成易於傳遞的數字化電子信息,將標本在網上進行實物展示,具有很大的方便性和靈活性。數字標本館的建設是一個新的探索,由於標本館標本數量多,經費投入大,國內外尚無成功的範例。如何三維、直觀和綜合有效地展示標本的技術問題還有待探討和解決。

  「十五」期間,將在生物和地學領域選擇1-2個標本館,進行數字標本館建設的試點工作。

  (2)標準規範建設

  ・科學資料庫元數據標準體系

  科學資料庫系統涉及的學科比較廣泛,包括了數、理、化、天、地、生等多個領域,科學資料庫系統數據資源的類型也多種多樣。因此,不可能建立單一的科學資料庫元數據標準,只能建立多種元數據標準共存的元數據標準集,在該標準集中不同的元數據標準間能實現一定程度的交換與互操作(Interoperability)。

  此外,元數據標準集應該是一個開放的、可擴展的系統,隨著科學資料庫系統建設規模不斷擴大,新學科、新應用不斷產生,該標準集應能動態擴充。為此,我們將科學資料庫元數據標準體系建設分成兩個主要部分進行:

  ――科學資料庫元數據標準框架。所謂元數據標準框架是科學資料庫系統內製定不同學科、不同應用的元數據標準時應該遵行的規則、方法,它是抽象化的元數據,它從更高層次上規定了科學資料庫系統中元數據的功能、數據結構、格式、設計方法、語義語法規則等多方面的內容。

  ――科學資料庫元數據標準集。所謂科學資料庫元數據標準集是科學資料庫系統內針對各學科領域、各實際應用建立起來的元數據標準的集合。在該集合內發布的標準是各建庫單位進行元數據建設時可以採用的標準。元數據標準集是一個開放的、可擴展的系統,隨著科學資料庫不斷的擴大,新學科、新應用不斷產生,可以不斷地制定新的元數據標準並納入到標準集中。

  ・科學資料庫數據標準體系

  建立科學資料庫完整的數據標準規範體系是一項非常複雜的工程,在「十五」期間我們只是針對科學資料庫的特點與需求,以軟課題的方式,就以下一些方面進行研究,並且研究的重點在於數據質量的評估標準與相關的保證措施。

  ――科學資料庫數據質量評估標準體系。數據質量包括數據的完備性、準確性等多個方面,數據質量的好壞直接影響數據應用者分析結果的可靠程度和系統應用目標的真正實現。科學資料庫專家委員會在對每一個科學資料庫進行檢查和驗收時,希望能有一套有效的方法來評估和檢測數據的質量問題,對用戶來說,科學數據的應用者在查詢和利用數據時,也希望了解數據的來源與可靠程度。因此數據質量評估標準的研究與制定,將對科學資料庫的發展起著重要的作用。

  ――科學資料庫自身的評價與分類指標體系。科學資料庫經過20多年的建設,一直沒有明確提出什麼樣的數據是科學數據,什麼樣的資料庫可以稱為科學資料庫;作為一個科學資料庫必須具備哪些方面的特徵;以什麼樣的標準來評價一個科學資料庫建設的好與壞;科學資料庫與其它資料庫(如文獻庫等)的關係;不同的科學數據、科學資料庫之間如何分類,不同的類之間有何種聯繫等等一系列的問題。通過研究和建立科學資料庫自身的評價與分類指標體系,將解決上述這些問題,使科學資料庫能成為一個自身完整的系統,為以後的研究與應用打下良好的基礎。

  ――科學資料庫標準術語和統一的數據詞典。科學資料庫中的各個子庫是由不同的創建者建立的,所以一直以來沒有統一的數據語義,為數據的整合和共享造成了很多的困難。因此,「十五」期間我們將在科學資料庫的數據概念層上進行研究,建立統一的數據字典,保證能在異構,不同數據源的數據之間建立統一的語義關係。這樣,就可以實現在異構的,分散式的數據環境下為用戶提供統一的全局視圖,以實現在多級數據管理系統上的數據整合。

  ――科學資料庫信息編碼體系。同類數據或信息採用相同的編碼方式也是保證數據和信息能充分共享的條件,科學資料庫信息編碼體系分為科學資料庫內部制定的信息編碼體系和國際、國內信息編碼體系。對於國際上或國內已經有的標準的編碼方式,科學資料庫採用國際、國內標準編碼,對於科學資料庫特殊需要的編碼方式,在科學資料庫內部制定並通用。

  ・科學資料庫管理規範體系

  科學資料庫管理規範體系的研究在「十五」期間同樣是以軟課題的方式進行,其主要目的在於從宏觀政策層面研究國際、國內關於數據共享、數據管理和服務相關的法律、法規、政策、規章等等,從而制定科學資料庫系統內數據共享政策、數據服務政策、管理規範等。

  科學資料庫管理規範的研究可以分解為以下幾個主要方面:

  ――科學資料庫數據共享政策與規範。「科學資料庫及其應用系統」十五期間在數據資源建設方面將涉及到近40個研究所,每一個研究所還涉及不同的課題組和大量的科研人員。對於這樣龐大的一個系統,如何有效地進行數據的共享,不僅僅是一個技術上的問題,而且還涉及數據管理與共享的政策問題。研究和制定科學資料庫數據共享的政策與相關的管理辦法,可以保證在科學資料庫系統內數據資源的充分共享,也保證基於這些數據所開展的各種信息服務的質量。

  ――科學資料庫管理規範體系。科學資料庫本身是一個複雜的系統工程。它的管理問題貫穿在主體庫的建設和運行服務之中。因此,要根據過去的經驗和未來發展的趨勢,對科學資料庫提出一套符合管理科學的理論,又適合科學資料庫特點的管理體系。在科學資料庫數據中心 - 各學科分中心 - 專業資料庫三個層次都提出相應的管理規範。

  ――科學資料庫運行服務體系。運行服務體系是建立科學資料庫的重要目標之一。採取什麼樣的運行服務機制是一個十分複雜和敏感的問題,因此,在「十五」期間我們將在實踐的過程總結和建立一套多級運行服務機制。

  (3)系統平台建設

  「十五」期間科學資料庫及其應用系統項目的系統平台和應用系統建設任務包括以下五個部分:一個數據中心;三個數據分中心;科學資料庫系統平台軟體開發;科學資料庫系統平台建設;先進應用系統建設。

  ・科學數據中心

  科學資料庫數據中心具備由海量存儲資源、高性能計算資源、高性能網路資源和多媒體處理資源等組成的高性能環境,可作為科學資料庫信息服務體系的集中服務點,並且可為科學資料庫先進應用系統提供支持。同時,數據中心還是建設科學資料庫系統平台的牽頭單位,負責科學資料庫系統平台軟體的開發,並指導其他建庫單位的建設工作,提供技術支持服務。

  ・三個數據分中心

  「十五」期間擬建三個科學資料庫數據分中心。數據分中心通常是該學科領域內的代表性的建庫單位,具有相當的數據存儲和處理能力,並且可能具有某些該學科領域內的特殊資源,在資源共享方面具有較強的提供能力。 同時,數據分中心也負責在該學科領域內科學資料庫系統平台的建設,並提供一定的技術支持服務。

  ・科學資料庫系統平台軟體開發

  科學資料庫系統平台是十五科學資料庫建設的核心內容,它是科學資料庫關鍵支撐技術的集成,在科學資料庫數據資源積累、整合、優化的基礎上,為先進應用系統的開發提供關鍵的支持。十五期間科學資料庫系統平台軟體的主要目標就是建立科學資料庫社團內的統一安全體系,實現科學資料庫分散式、異構資源的統一訪問介面。系統平台軟體主要包括三個部分:科學資料庫安全體系,元數據管理與服務系統,科學資料庫統一訪問介面。

  ・科學資料庫系統平台建設

  科學資料庫系統平台建設的主要任務就是將系統平台軟體應用到科學資料庫數據中心、數據分中心和各建庫單位,並負責這個系統平台的運行管理。

  ・先進應用系統

  「九五」末期,科學資料庫先進應用系統的開發提上日程,具有典型性的應用系統有:虛擬博物館,虛擬實驗室,網上科技信息交易市場,和數字標本館等。目前,虛擬博物館,即中國科普博覽,的建設已初具規模,並成為院十五信息化建設項目之一。數字標本館的建設被列為科學資料庫數據資源建設的項目之一。本方案中包括兩個先進應用系統:虛擬實驗室,網上科技信息交易市場。
上一篇[有你的快樂]    下一篇 [OEP]

相關評論

同義詞:暫無同義詞