摘 要本文介紹了在圖書館情報領域數據管理中存在的信息孤島、數據類型缺乏統(tǒng)一架構等問題,通過對實際應用中數據類型的分析,利用大數據存儲的系統(tǒng)架構,使用關系型數據庫與非關系型數據庫結合,同時輔以內存數據庫和分布式文件系統(tǒng),對內部用戶提供統(tǒng)一元數據管理,對外部提供統(tǒng)一數據訪問平臺和統(tǒng)一數據搜索引擎,從而實現對多種結構數據資源的管理和應用。
【關鍵詞】圖書館 大數據 數據存儲 異構數據 非關系型數據庫
作為以圖書館為基礎的情報研究機構,隨著近年數據資源量的不斷增加,各類文獻、圖書、期刊、基礎數據等都需要進行穩(wěn)定的存儲與高效率的分析。同時,基于這些數據的知識庫、咨詢服務智庫等系統(tǒng)的建設也都迫在眉睫。
為了能充分管理眾多數據,為各類系統(tǒng)提供數據基礎,有必要建設一個結構統(tǒng)一、技術先進、可重復利用的數據資源平臺,統(tǒng)一管理各類數字化資源。
1 存在問題
面對大量的數據資源,在信息化過程中通常會碰到以下問題:
1.1 信息孤島現象
這種現象是指需求建設的應用系統(tǒng)存在相互之間在功能上不關聯互助、信息無法共享互換以及信息與業(yè)務流程和應用相互脫節(jié)等問題,缺乏統(tǒng)一元數據管理。
1.2 多種類型數據缺乏統(tǒng)一數據架構
每個業(yè)務環(huán)節(jié)都會有大量非結構化、結構化、半結構化數據,如何對這類數據進行統(tǒng)一分析管理。在這些多種結構的數據中存在大量內在關聯,只有統(tǒng)一數據存儲,才能進一步挖掘出數據中存在的深層價值。
1.3 軟硬件環(huán)境重復購買現象
在信息化建設過程中,新建應用系統(tǒng)都會根據自身需求重新搭建軟件、硬件環(huán)境,大部分系統(tǒng)運行所需軟硬件并沒有達到資源的滿負荷利用。
1.4 缺乏統(tǒng)一數據標準
由于多年系統(tǒng)建設過程中由不同團隊開發(fā),造成相同數據內容格式不統(tǒng)一,存在大量冗余數據,彼此數據更新不暢通。
1.5 缺乏統(tǒng)一數據安全管理方案
在日常工作過程中需要進行大量數據交互與實時操作,缺乏統(tǒng)一的信息化安全手段對數據分配權限進行管理,并實現定期的資源備份。
2 建設目標
基于以上狀況,考慮基于大數據架構的文獻資源管理方案應可達到以下目標:
(1)實現基于統(tǒng)一元數據定義的信息集中管理和信息共享,為數字出版、數據加工、咨詢服務、日常管理等各項工作提供統(tǒng)一數據資源平臺。
(2)實現統(tǒng)一大數據環(huán)境,滿足各個應用對于文檔數據、關系型數據、非關系型數據和內存型數據的統(tǒng)一存儲需求。
(3)構建基于SOA架構的應用系統(tǒng),保證在應用對于數據訪問權限的統(tǒng)一管理。
(4)建設統(tǒng)一搜索環(huán)境,滿足于各種數據資源能夠統(tǒng)一搜索查詢訪問。
(5)建設必須具備高度的先進性、可靠性、可用性、安全性并具備良好的擴展性和靈活性。
3 建設方案
3.1 資源建設方案
圖書館中常見資源主要包括文獻、圖書、期刊、數值型數據、動態(tài)信息等。依據數據結構的不同,可主要分為基礎數據、結構化數值型數據、非結構化數據、動態(tài)信息、其他文字類信息等幾類。其特點如下:
(1)基礎數據:主要如書目、期刊文獻等數據;
(2)動態(tài)信息:主要包括各類網站、媒體發(fā)布的信息,時效性比較強;
(3)非結構化數據:主要包括格式不夠統(tǒng)一的數值型數據;
(4)結構化數值型數據:可以定期獲取的格式相對規(guī)范的數據,如海關進出口數據、圖書期刊銷售數據;
(5)其他文字類信息:更新頻度較慢的文字類數據,如各類法律庫、研究報告等;
針對不同類型的數據資源,應對其采用特定的方式進行處理、保存及利用。
3.1.1 基礎數據
包括如數據、期刊文獻等基礎數據都應經過數字化加工、元數據定義、自動標引、關鍵數據提取等多個步驟, 分別保存至相應數據庫。
3.1.2 動態(tài)信息
動態(tài)信息的來源主要是各個網站,包括網站文章及各類輿情信息??梢杂杉夹g手段完成從信息采集、分類整理到分發(fā)的所有過程。
整個流程由三個規(guī)則來體現:分別是采集規(guī)則、分類規(guī)則、分發(fā)規(guī)則。
采集規(guī)則:采集規(guī)則由編輯確定,包括來源網站、欄目等。利用爬蟲技術,可對所有網站的資源進行自動增量采集,并裝入“待分類庫”。
分類規(guī)則:分類規(guī)則利用到詞表、詞庫以及自動標引技術。由專家及編輯對所有資源進行多維度分類,并提供相應的語料,經過學習,對之前進入“待分類庫”中的所有數據進行自動標引。之后,所有的數據將被從多個維度被分類。保存后即可方便準確的提取。
分發(fā)規(guī)則:在完成上述兩項工作之后,所有的動態(tài)信息已經被分門別類的整理好。通過分類、關鍵詞即可快速提取相關的信息。對于已經經過規(guī)范化處理的動態(tài)信息,也可以直接利用形成產品,同樣依據自有的多維分類,即可把相關的動態(tài)信息直接推送給用戶。
3.1.3 結構化數值型數據
結構化數值型數據包括海關進出口數據、統(tǒng)計局數據、產品庫等眾多格式相對規(guī)范資源。
由于數據量的不斷增大,需要考慮使用數據倉庫技術對所有的結構化數據進行規(guī)范保存,利用建模的方式保存數據。這類數據的主要用途分為兩部分對內提供數據的查詢,對外提供報告的自動生成。
(1)數據查詢。規(guī)范化存儲之后的數據可以方便的通過多個維度進行查詢、鉆取,內容的研究人員可以直接通過輸入查詢條件進行數據的查詢,同時生成各類圖表。
(2)自動報告。對外可以以產品的形式提供多種數據報告,利用預先準備的模板,在用戶選擇所需報告之后,利用已有數據,套用不同模板形成一份自動的報告。endprint
3.1.4 非結構化數據
對于非結構化數據,將主要通過兩種方式來處理。
(1)非結構化數據的結構化。部分非結構化數據本質是結構化數據,因為某些原因才造成了數據的不完整,對于這類數據,需要整理結構的最大集并將相應的數據填入對應字段。在完成此步驟之后,可采用類似對于結構化處理的方式對這些資源進行處理。
(2)非結構化數據的標引分類。除上述的數據之外,還有一部分非結構化數據過于零散,只能采用標引的方法實現這些數據的歸檔利用。方法和動態(tài)信息的處理方式類似。
3.1.5 文字類信息
文字類信息的特點是實效性不強,每次發(fā)布后都會長期使用。比如法律法規(guī)、咨詢報告等。
這類資源應主要采用自動標引的技術進行處理。首先也需有多個維度的分類、詞庫、詞表以及語料,經過學習后將每篇文章進行標引分類,之后再將文章內的段落進行二次標引。這樣,所有的資源都可以通過關鍵詞、多個維度的分類進行提取,即可獲取具體段落資源、也可以獲取完整的文章報告。
這類規(guī)整后的信息可提供給內部科研人員作為資料進行調用,同時可以為結構化數據的自動生成報告提供文字資源。
3.2 技術建設架構
針對資源建設的方案,考慮采用關系型數據庫與非關系型數據庫結合的方式建立存儲架構。如圖1所示。
3.2.1 數據存儲技術
一個完整的數據環(huán)境,需要面對來自于各個方面的數據存儲需求挑戰(zhàn),主要存在的數據存儲需求為:
(1)文檔型數據存儲需求
(2)關系型數據庫數據存儲需求
(3)實時型數據存儲需求
(4)非關系型數據
關系型數據庫的優(yōu)勢在于保持數據的一致性,由于以數據標準化為前提,數據更新的系統(tǒng)開銷很小,同時可以方便的進行Join等復雜查詢。MySQL是目前最流行的關系型數據庫管理系統(tǒng)。尤其在 WEB 應用方面,它與PHP語言的結合是目前最為成熟、穩(wěn)定、安全的技術之一。針對現有數據,絕大多數的結構化數據都可以保存在該類數據庫中,從而實現復雜條件下的檢索操作。同時,關系型數據庫擔任保存整個系統(tǒng)元數據架構與基本數據的任務,是其他結構數據庫存儲及導入導出的基礎。
NoSQL泛指非關系型的數據庫。它的優(yōu)勢在于性能,由于NoSQL是基于鍵值對的,可以想象成表中的主鍵和值的對應關系,而且不需要經過SQL層的解析,所以性能非常高。另外可擴展性同樣也是因為基于鍵值對,數據之間沒有耦合性,所以非常容易水平擴展。它可以最大程度的解決關系型數據庫所不擅長的大量數據的寫入處理和為有數據更新的表做索引或表結構變更等問題。用NoSQL可以方便的保存系統(tǒng)中的非結構化數據,并根據實際需求隨時調整其結構。
分布式文件系統(tǒng)(Distributed File System)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網絡與節(jié)點相連。由于系統(tǒng)中數據資源過于龐大,為提高其使用訪問效率,利用HDFS的一次寫入、多次讀寫的特性。數據集一旦由數據源生成,就會被復制分發(fā)到不同的存儲節(jié)點中,從而響應各種各樣的數據分析任務請求。
以Redis為代表的內存數據庫,是基于全部數據都存在內存中的技術體系,拋棄了磁盤數據管理的方式,它在采用半持久化模式運行時所有數據都是保存在內存中,然后不定期的通過異步方式保存到磁盤上。通過這種方式,內存數據庫在保證讀寫速度遠超過傳統(tǒng)數據庫的基礎上,又可對其數據進行分布式存儲且具有可恢復性。
針對以上需求內容,結合各種軟件的特性:
(1)MySQL滿足關系型數據庫需求;
(2)NoSQL滿足對數據結構要求靈活需求;
(3)HDFS滿足文檔類型數據存儲需求;
(4)Redis內存型數據庫,滿足高速存取需求;
提供統(tǒng)一數據存儲環(huán)境,為后續(xù)數據統(tǒng)一元數據管理、數據統(tǒng)一權限管理、數據統(tǒng)一搜索等建設提供了充分必要條件。
3.2.2 數據訪問平臺
統(tǒng)一數據存儲提供大容量數據存儲環(huán)境,滿足數據存儲的大量、高速、多樣的需求。在這個基礎上,還需要有統(tǒng)一元數據對存儲的數據結構進行定義,統(tǒng)一數據訪問安全控制對數據訪問者進行權限控制,用數據統(tǒng)一搜索打通各種類型數據,為后續(xù)數據挖掘分析提供數據高速訪問接口。
3.2.3 統(tǒng)一元數據管理
元數據(Metadata),又稱中介數據、中繼數據,為描述數據的數據(data about data),主要是描述數據屬性(property)的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。元數據算是一種電子式目錄,為了達到編制目錄的目的,必須在描述并收藏數據的內容或特色,進而達成協(xié)助數據檢索的目的。將所有資源的元數據統(tǒng)一管理,是進一步應用的前提。
3.2.4 數據統(tǒng)一搜索
在具備數據存儲與數據訪問平臺基礎上,構建滿足于融合關系型數據庫、非關系型數據庫、文件數據庫以及內存數據庫的統(tǒng)一搜索引擎,并在構建搜索索引過程中融入專業(yè)詞庫詞表。
以Web服務方式提供搜索引擎服務,對用戶所輸入的文字進行分詞,并結合搜索引擎索引,進行詞關系匹配,并按用戶所需排序格式提供數據排序給用戶。搜索服務提供web服務方式給應用系統(tǒng)使用,應用系統(tǒng)需根據自身權限范圍進行數據搜索范圍設置。
通過上述平臺的組合,可以為圖書館中文獻、圖書、期刊、數值型數據、動態(tài)信息等為主的各類型數據提供完整的管理解決方案,并通過具有詞表技術的搜索引擎提供對外接口。
4 結束語
雖然關系型數據庫有著技術成熟、易維護、支持SQL方式的復雜查詢、豐富的完整性約束等諸多優(yōu)勢,且在圖書館情報領域被廣泛應用。但隨著數據量的不斷增大,數據類型的不斷增多以及應用模式的不斷變化,嘗試傳統(tǒng)數據架構+大數據架構的存儲、管理和應用將是圖情領域未來的技術架構發(fā)展方向。
參考文獻
[1]朱潔,羅華霖.大數據架構詳解:從數據獲取到深度學習[M].電子工業(yè)出版社,2012.
[2][美]湯姆,懷特(Tom White) 著.王海,華東,劉喻,呂粵海 譯.Hadoop權威指南:大數據的存儲與分析(第4版)[M].清華大學出版社,2011.
[3]栗蔚,魏凱.大數據的技術、應用和價值變革[J].電信網技術,2013(07).
[4]孟小峰,慈祥.大數據管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(01).
[5]申德榮,于戈,王習特,聶鐵錚,寇月.支持大數據管理的nosql系統(tǒng)研究綜述[J].軟件學報,2013(08).
作者簡介
解飛(1978-),男,北京市人。大學本科學歷,工程師。2001年畢業(yè)于北方交通大學(現北京交通大學),2004年至今在機械工業(yè)信息研究院情報研究所進行信息化建設工作。研究方向:文獻管理,海量數據的管理與分析,計算機技術。
作者單位
機械工業(yè)信息研究院 北京市 100037endprint