探討構建中醫藥數據資源結構圖譜

學識都 人氣:3.18W

【關鍵詞】 中醫藥信息學;數據資源;數據結構整合

探討構建中醫藥數據資源結構圖譜

本研究通過分析中醫藥數據庫資源的類型、特點和中醫藥資源存在的問題,提出基於現有數據庫資源與結構,參考現有資源整合技術,從數據層、物理層、基礎層3個方面入手,並結合體系構建等相關的資源深層整合技術,探討構建中醫藥數據資源結構圖譜的實際解決方案。

1、中醫藥數據資源現狀與問題

中醫藥數據庫建設工作起源於1985年,目前,已經建立了覆蓋中醫藥學科的複雜的多類型數據庫,總數據量約200 G,文獻數據庫收集年代跨越58年。數據庫建設主要包括單表數據庫、結構性數據庫和數據平臺的建設。目前,中醫藥現代資源數據庫的建設已經具有一定的規模,已經形成以中醫藥科學數據中心與分中心爲主體的中醫藥文獻型及事實型數據庫羣,幾乎涉及到中醫藥信息的方方面面。然而這些資源庫羣是徹底異構的,從數據結構、操作系統,到數據庫系統、應用系統;從命名方式,到數據格式、結構模型、用戶界面,都有可能完全不同,目前還沒有標準規範能夠對這個各個層次的異構進行適當的約束。中醫藥科學數據中心缺少完整解決方案。1.1 局部有序、整體無序 從某一種具體資源的角度來看,他們都是經過一定程度加工整序,具有統一的分類體系和檢索界面。但從全局的角度來,中醫藥科學數據中心擁有的各種資源是一個個的“信息孤島”, 各種資源內容交叉,信息重複,關聯度低,用戶查找資料時不但要在多個數據庫中來回穿梭、重複操作,還要精通各種不同數據庫、不同界面的數字資源系統檢索技術,否則便難以查全或查準所需要的資料。

1.2 數據結構與標準不統一

各種不同類型的數字資源不但採用Oracle、mySQL、SQL、Access等不同的數據庫物理模型或半結構、非結構的數據結構,而且在對資源的描述與揭示時沒有采用元數據、數據元、數據模式等標準。數據庫字段與數據表命名差異性較大,例如:“ZZ”表名對應數據字段名就有“主治”、“著作”、“作者”等。

1.3 數據來源多途徑與數據版本複雜

中醫藥數據資源是指中醫藥科學數據中心與分中心收集的各類型專業數據,這部分資源數量衆多,構成了學術數字資源的主體,現已成爲重要的文獻來源。從文獻類型上看,有期刊、圖書、會議論文、學位論文等;從文獻級別上看,有題錄、文摘、全文等不同的層次。自建數據庫有多種載體、多種形式、多種類型、分散異構的信息資源,這些數據庫形成時間長,數據更新多次,缺少清晰的資源定義與描述。

1.4 系統平臺與應用程序各異

各種不同類型的數字資源有着不同的系統平臺;不同的數據資源存在着過程數據的不同服務方式,例如:期刊文獻數據庫、結構型文獻數據庫、分析結構型文獻數據庫;同時,數據表存在着基礎數據庫、粗表數據庫、細表數據庫、單元素數據庫等,部署在共建、共享的服務器上,也給數據管理帶來麻煩。

2、數據資源與結構整合技術

2.1 數據資源整合

整合的實質就是各個單獨事物共同遵循統一的原則、標準、規定,打破原來的界限形成有機的統一體。數據資源的整合[1],英文可譯作“digital resource integration”,就是通過各種手段和工具將已有的信息資源集成起來,並按照一定的邏輯關係進行組織,實現信息資源的有效共享,爲用戶提供條理化的信息服務,爲後續信息的管理與使用提供規範,從而實現信息的增值利用。

數字資源整合主要集中在數據集的整合和應用的整合兩個方面,再具體細分還可以劃分爲數據集成、信息集成、信息系統集成及業務(或工作流)集成等4個階段。

通常數據資源整合的範圍可以包括4個方面。①數據整合:數據標準、主題數據庫、數據交換平臺、基於語義的全局數據視圖。②應用整合:使用統一用戶認證、使用統一的數據交換、使用門戶實現應用集成。③內容整合:信息規劃、信息導航、統一搜索、信息專題、信息門戶。④流程整合:統一數據採集加工處理流程、統一數據存儲管理、統一數據訪問和調用接口。

信息資源整合根據系統論的原則,依據一定的需要,對各個相對獨立系統中的數據對象、功能結構及互動關係進行融合、類聚和重組,重新構建一個新的有機整體,形成一個效能更好、效率更高的新的信息資源系統。目前,數字資源整合的方式主要包括:基於OPAC資源系統的整合、基於數字資源導航的整合、基於異構數據庫跨庫檢索的整合、基於數字圖書館應用系統的整合等。

2.2 數據資源整合技術[2]

2.2.1 DOI技術

DOI(Digital Object Identifier)由International DOI Foundation組織構造。該系統提供了一個框架,爲數字環境中的數字對象分配唯一的、永久性的標識,方便該對象被管理和使用。DOI系統由4部分構成:申請DOI;創建對指定DOI對象的描述;解析系統;規則。

2.2.2 SFX技術

SFX即Special Effects Cinematography,它是比利時根特大學的薩姆堡爾爲首的研究小組提出的。通過Open URL框架把複雜的數據庫之間的互連通過簡單的鏈接完成。

2.2.3 Web Services技術

Web Service是爲實現“基於web無縫集成”的目標而提出的全新概念,希望通過Web Service能夠實現不同的系統之間能夠用“軟件-軟件對話”的方式相互調用,打破軟件應用、網站和各種設備之間格格不入的狀態。

2.2.4 地域性索引服務平臺技術

IR-HEYWOOD提出一個地域性索引服務平臺(Domain Index Server),建議依靠一個索引代理去創建成主要的`原文獻索引,這個代理通常是軟件系統,能夠在異構信息支撐下自動行動(搜索)的系統。

2.2.5 MAP資源整合系統

INNOPAC公司推出的MAP (Millennium Access Plus)是一個集成的資源整合系統,它可實現不同信息資源的動態鏈接。這些資源包括全文電子資源、題錄和文摘數據庫、書目數據庫、圖書館在線書目系統、圖像數據庫及搜索引擎等其他Web資源。

2.2.6 OAI標準整合模式

OAI是指open archives initiative,它的目標是發展和促進互操作標準,促進內容數據的有效傳播。①數據提供者:提供元數據的Web服務器。②服務提供者:向數據提供者發出請求並且利用得到的元數據構建增值服務。③存儲體:由數據提供者管理的可以在網上訪問的服務器,它提供服務提供者需要採集的元數據。④採集器:在服務提供者方作爲從存儲體中搜集元數據的一種應用工具。

2.2.7 情報源圖譜

美國國立醫學圖書館主持了一項長期研究和開發計劃,即統一醫學語言系統(UMLS),其項目中有一個是關於生物醫學機讀信息資源的情報源圖譜,其目的是利用超級敘詞表和語義網絡實現情報源與特定提問的相關性;有效組織信息資源,爲用戶提供特定信息源的範圍、功能和檢索條件等人工可讀的信息;自動連接相關信息源;在一個或多個情報源中自動檢索並自動組織檢索的結果[3]。

3、構建中醫藥數據資源結構圖譜

3.1 中醫藥數據資源結構圖譜框架(見圖1)

3.2 中醫藥數據資源結構圖譜內容

3.2.1 物理層

系統運行的硬件、軟件環境,解決如何爲應用系統提供統一的支撐環境,支持應用系統的運作。

3.2.2 基礎層