陳晨
(中共北京市委黨校圖書館/北京市市情研究中心,北京 100044)
在專題數(shù)據(jù)庫建設(shè)過程中,數(shù)據(jù)通常來源于不同的信息系統(tǒng),這些數(shù)據(jù)在數(shù)據(jù)命名、數(shù)據(jù)格式上都存在較大差異,而這些數(shù)據(jù)支撐著不同的服務(wù),這就使得數(shù)據(jù)融合在綜合性數(shù)據(jù)庫建設(shè)中十分必要。在圖書情報(bào)領(lǐng)域,進(jìn)行知識(shí)融合是為在大數(shù)據(jù)環(huán)境下對(duì)多源異構(gòu)的知識(shí)資源進(jìn)行科學(xué)、有效的利用,最大化地挖掘知識(shí)價(jià)值,知識(shí)融合的結(jié)果用來進(jìn)一步作用于知識(shí)服務(wù)[1]。
在數(shù)據(jù)庫建設(shè)向著數(shù)據(jù)化、智慧化轉(zhuǎn)型發(fā)展的時(shí)代背景下,北京市委黨校圖書館以承擔(dān)中央黨校四大專題數(shù)據(jù)庫建設(shè)為契機(jī),進(jìn)行京津冀協(xié)同發(fā)展專題數(shù)據(jù)庫(以下簡稱“京津冀數(shù)據(jù)庫”)的開發(fā)建設(shè)。本文以京津冀數(shù)據(jù)庫的構(gòu)建思路與關(guān)鍵技術(shù)實(shí)現(xiàn)為例,探索基于多源異構(gòu)數(shù)據(jù)來源的區(qū)域性專題數(shù)據(jù)庫建庫方式與方法,總結(jié)建庫過程中的不足與待改進(jìn)之處,以期達(dá)到數(shù)據(jù)庫滿足各類用戶的實(shí)際需求的目標(biāo),在豐富自身數(shù)字資源建設(shè)策略的同時(shí)為其他圖書館或相關(guān)機(jī)構(gòu)開展數(shù)據(jù)庫自建和研究提供參考。
2018年,《中共中央 國務(wù)院關(guān)于建立更加有效的區(qū)域協(xié)調(diào)發(fā)展新機(jī)制的意見》指出,推動(dòng)國家重大區(qū)域戰(zhàn)略融合發(fā)展,以“一帶一路”建設(shè)、京津冀協(xié)同發(fā)展、長江經(jīng)濟(jì)帶發(fā)展、粵港澳大灣區(qū)建設(shè)等重大戰(zhàn)略為引領(lǐng),以西部、東北、中部、東部四大板塊為基礎(chǔ),促進(jìn)區(qū)域間相互融通補(bǔ)充[2]。政府及科研機(jī)構(gòu)陸續(xù)將區(qū)域性專題數(shù)據(jù)庫建設(shè)作為重點(diǎn)工作。其中建設(shè)相對(duì)成熟的主要有“一帶一路”專題數(shù)據(jù)庫[3]與長江經(jīng)濟(jì)帶數(shù)據(jù)庫[4](見表1和表2)。
在多源異構(gòu)數(shù)據(jù)庫建設(shè)過程中,有學(xué)者在理論層面提出實(shí)現(xiàn)異構(gòu)多信息源集成的關(guān)鍵在于找到一個(gè)合適的公共數(shù)據(jù)模型[5],并研究了異構(gòu)數(shù)據(jù)集成的3種方法,即XML、數(shù)據(jù)倉庫和Web Service。這3種方法直到今天仍然具有較高的參考價(jià)值。在知識(shí)融合領(lǐng)域,唐曉波等[6]提出基于兩層知識(shí)融合的金融知識(shí)服務(wù)模型,包括知識(shí)獲取層和知識(shí)處理層的知識(shí)融合,這兩種融合方式都是基于本體庫的構(gòu)建。多源數(shù)據(jù)由不同的用戶和不同的來源渠道產(chǎn)生[7],這些數(shù)據(jù)通常存儲(chǔ)在不同的數(shù)據(jù)庫中,包括Oracle、SQL Server、MySQL、DB2、Sybase等。多源數(shù)據(jù)融合主要涉及數(shù)據(jù)唯一識(shí)別、數(shù)據(jù)記錄濾重、字段映射與互補(bǔ)、同名消歧、別名識(shí)別、數(shù)據(jù)加權(quán)等多個(gè)方面[8]。
表1 “一帶一路”專題數(shù)據(jù)庫
表2 長江經(jīng)濟(jì)帶專題數(shù)據(jù)庫
在實(shí)踐層面,余鵬等[9]設(shè)計(jì)研究的高??蒲蟹?wù)系統(tǒng)通過遵循統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)來解決數(shù)據(jù)交換時(shí)帶來的問題,針對(duì)不同平臺(tái)與不同語言帶來的不規(guī)范數(shù)據(jù)調(diào)用問題。于亞秀等[10]采用Web Service技術(shù)解決異構(gòu)數(shù)據(jù)融合問題,同時(shí)針對(duì)不同數(shù)據(jù)庫中的數(shù)據(jù)需要對(duì)命名、類型等問題進(jìn)行統(tǒng)一清洗,確保數(shù)據(jù)的完整性、規(guī)范性。趙捷等[11]提出可采用基于規(guī)則庫和規(guī)范庫實(shí)現(xiàn)多源異構(gòu)元數(shù)據(jù)的統(tǒng)一規(guī)范。丁遒勁等[12-13]指出,文獻(xiàn)元數(shù)據(jù)集成管理需要針對(duì)既定多來源元數(shù)據(jù)標(biāo)準(zhǔn)格式,制定統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)和映射體系,其中包括書目元數(shù)據(jù)、文摘元數(shù)據(jù)、關(guān)聯(lián)元數(shù)據(jù)等,并進(jìn)一步提出通過數(shù)據(jù)轉(zhuǎn)換、信息整合、語義關(guān)聯(lián)對(duì)多源異構(gòu)元數(shù)據(jù)進(jìn)行深度整合。鮮國建等[14]從實(shí)際操作層面根據(jù)NSTL數(shù)據(jù)本身的特點(diǎn),制定了多源異構(gòu)數(shù)據(jù)匹配規(guī)則,并通過數(shù)據(jù)采集、匯聚、匹配、融合等數(shù)據(jù)治理核心流程,使多源異構(gòu)文摘數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)匹配和字段級(jí)融合。
2014年,京津冀協(xié)同發(fā)展被列為重大國家戰(zhàn)略后,相關(guān)研究直線上升,但沒有成熟可用的綜合性專題數(shù)據(jù)庫,主要的京津冀數(shù)據(jù)庫研究成果有旅游類數(shù)據(jù)庫、氣候類數(shù)據(jù)庫、金融類數(shù)據(jù)庫、人才類數(shù)據(jù)庫、物流類數(shù)據(jù)庫、教育資源類數(shù)據(jù)庫,且大多局限于理論層面,可訪問的數(shù)據(jù)庫并不多。其中,張婕[15]針對(duì)體育信息資源共享平臺(tái)建設(shè)提出了相對(duì)完備的京津冀專題數(shù)據(jù)庫建庫方案,其建庫定位、信息收集原則等內(nèi)容都具有一定的現(xiàn)實(shí)指導(dǎo)意義。河北省千年古縣特色數(shù)據(jù)庫建設(shè)研究以京津冀協(xié)同發(fā)展為背景,在明確的建設(shè)目標(biāo)指導(dǎo)下,提出了具體欄目建設(shè)規(guī)劃[16]。韓兆柱等[17]提出京津冀整體性技術(shù)協(xié)調(diào)模式,強(qiáng)調(diào)信息技術(shù)的整合、網(wǎng)絡(luò)簡化和一站式服務(wù)。
京津冀數(shù)據(jù)庫以前人研究與實(shí)踐為基礎(chǔ),在內(nèi)容收集與加工上保證文本、圖片、音頻、視頻等多源異構(gòu)數(shù)據(jù)統(tǒng)一規(guī)范標(biāo)準(zhǔn),并能與參建單位進(jìn)行數(shù)據(jù)交換、共享。通過關(guān)鍵詞表定期采集、匹配互聯(lián)網(wǎng)資源信息,整合網(wǎng)絡(luò)資源和館藏自有數(shù)據(jù),保障了數(shù)據(jù)庫內(nèi)容的全面性與針對(duì)性,同時(shí)節(jié)省了建庫成本與時(shí)間,也更利于數(shù)據(jù)庫后期維護(hù)的規(guī)范化與一致性。
為貫徹落實(shí)《中共中央關(guān)于加強(qiáng)和改進(jìn)新形勢下黨校工作的意見》和全國黨校工作會(huì)議精神,中央黨校發(fā)布了《全國黨校系統(tǒng)數(shù)字資源建設(shè)規(guī)劃(2016—2020年)》,提出要在我國“十三五”期間重點(diǎn)建設(shè)好黨校系統(tǒng)的四大專題數(shù)據(jù)庫,北京市委黨校圖書館承擔(dān)了京津冀數(shù)據(jù)庫建設(shè)的主要任務(wù),天津市委黨校圖書館與河北省委黨校圖書館協(xié)助參與數(shù)據(jù)庫建設(shè)。2019年10月發(fā)布的《中國共產(chǎn)黨黨校(行政學(xué)院)工作條例》中提到,黨校(行政學(xué)院)應(yīng)當(dāng)重視圖書館(室)建設(shè),加強(qiáng)圖書文獻(xiàn)和信息的采集、整理與開發(fā),積極推進(jìn)數(shù)字資源共建共享工作。根據(jù)已公開的京津冀相關(guān)數(shù)據(jù)情況,結(jié)合北京市委黨校圖書館館藏特色資源,北京市委黨校圖書館京津冀項(xiàng)目團(tuán)隊(duì)及第三方公司開發(fā)團(tuán)隊(duì)決定以此為契機(jī),開發(fā)建設(shè)區(qū)域性專題數(shù)據(jù)庫,充分利用包括黨校圖書館全文數(shù)據(jù)庫(如皮書數(shù)據(jù)庫等)、京津冀主題書籍資源等在內(nèi)的三地館藏資源、三地政府公開的政府文件、統(tǒng)計(jì)公報(bào)等開放數(shù)據(jù),以重大事件為綱,借助時(shí)間軸形式顯示京津冀發(fā)展至今的重要活動(dòng)軌跡。在首都人才濟(jì)濟(jì)的基礎(chǔ)上,充分發(fā)揮黨校京津冀研究領(lǐng)域的專家優(yōu)勢,在數(shù)據(jù)庫欄目制定及內(nèi)容選擇上引入專家觀點(diǎn),為數(shù)據(jù)庫的權(quán)威性提供有力保障??紤]到數(shù)據(jù)庫內(nèi)容涉及京津冀三地龐大數(shù)據(jù)量的情況,確定以“總分庫”的形式建設(shè)數(shù)據(jù)庫,即以北京為主的京津冀總庫,天津、河北為分庫形式進(jìn)行數(shù)據(jù)庫底層設(shè)計(jì)。京津冀數(shù)據(jù)庫建庫目的是在為京津冀相關(guān)領(lǐng)域?qū)W者提供文獻(xiàn)與數(shù)據(jù)參考的同時(shí),也向普通大眾用戶傳達(dá)京津冀協(xié)同發(fā)展戰(zhàn)略的歷史背景、發(fā)展脈絡(luò)及未來方向,為黨校數(shù)字圖書館智庫建設(shè)添一份力。
在內(nèi)容資源數(shù)字化方面,京津冀數(shù)據(jù)庫力爭深入到詞語的粒度級(jí)別,對(duì)若干京津冀關(guān)鍵詞建立詞表。在內(nèi)容呈現(xiàn)方面,京津冀數(shù)據(jù)庫要體現(xiàn)更方便地獲取資料、節(jié)省用戶獲取和利用信息資源的時(shí)間及精力的特點(diǎn),并對(duì)相關(guān)經(jīng)濟(jì)指標(biāo)信息進(jìn)行可視化呈現(xiàn)。在數(shù)據(jù)服務(wù)方式與目標(biāo)群體方面,京津冀數(shù)據(jù)庫根據(jù)地域特點(diǎn)采取“總分庫”的形式,專注于京津冀三地經(jīng)濟(jì)建設(shè)、政治建設(shè)、文化建設(shè)、社會(huì)建設(shè)和生態(tài)文明建設(shè)五位一體協(xié)同發(fā)展的信息采集與整合,旨在為不同學(xué)科背景的學(xué)者提供更直觀、更深層次的數(shù)據(jù)服務(wù),方便決策者一目了然地獲取所需信息,輔助相關(guān)領(lǐng)域?qū)W者發(fā)現(xiàn)京津冀協(xié)同發(fā)展過程中的特征,節(jié)省學(xué)者前期海量數(shù)據(jù)的查閱、整理及統(tǒng)計(jì)指標(biāo)數(shù)據(jù)的時(shí)間。
京津冀數(shù)據(jù)庫結(jié)合數(shù)據(jù)庫建庫特點(diǎn),保障數(shù)據(jù)庫資源類型的完備性、數(shù)據(jù)庫欄目層級(jí)的清晰化、面向用戶的易用性,在此基礎(chǔ)上進(jìn)行多樣化功能設(shè)計(jì)。建庫初期的目標(biāo)為實(shí)現(xiàn)以下功能。
(1)“總分庫”結(jié)構(gòu)下的資源管理功能。京津冀資源類型多樣且分布廣泛,數(shù)據(jù)庫按“總分庫”結(jié)構(gòu)整合多源異構(gòu)數(shù)據(jù),包括文獻(xiàn)資料、圖片、音頻、視頻,全面支持各類資源信息的發(fā)布與管理,并可直接上傳導(dǎo)入以下文件。①文獻(xiàn)資料:txt文本、MS Office系列文件、WPS系列文件、pdf文件、ePub規(guī)范格式文件、xml格式文件包;②圖片:兼容bmp、jpg、png、tiff等常見格式;③音頻:兼容MP3及wav格式;④視頻:兼容MP4及flv格式。如圖1所示,系統(tǒng)針對(duì)北京市委黨校圖書館存量資源和增量資源來源情況,依據(jù)國際通用標(biāo)準(zhǔn)和全國黨校(行政學(xué)院)系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范進(jìn)行標(biāo)引、入庫、排重、收錄等相關(guān)數(shù)據(jù)采集工作,在此基礎(chǔ)上,支持多類型文獻(xiàn)資料的聚類存儲(chǔ),支持圖片庫、文獻(xiàn)庫、電子圖書庫、多媒體資料庫、人物庫等專題子庫,同時(shí)各庫之間相互關(guān)聯(lián),形成知識(shí)鏈,并提供相關(guān)附件免費(fèi)下載。系統(tǒng)底層采用HDFS(Hadoop分布式文件系統(tǒng))作為存儲(chǔ)方案。異構(gòu)數(shù)據(jù)主要來源于非結(jié)構(gòu)化數(shù)據(jù),包括資源文件、圖片文件、標(biāo)準(zhǔn)文件等。對(duì)Web服務(wù)器來說,不論是Tomcat、IIS,還是其他容器,圖片是最消耗資源的,因此系統(tǒng)采用將圖片與頁面進(jìn)行分離的方案,這樣的架構(gòu)可以降低提供頁面訪問請求的服務(wù)器系統(tǒng)壓力,并且可以保證系統(tǒng)不會(huì)因?yàn)閳D片問題而崩潰;同時(shí)這部分?jǐn)?shù)據(jù)量較大,因此采用分布式文件系統(tǒng)HDFS作為存儲(chǔ)方案。在內(nèi)容組織上,京津冀數(shù)據(jù)庫總庫的前端頁面資源內(nèi)容均采用導(dǎo)航和聚類模式進(jìn)行組織和呈現(xiàn),內(nèi)容組織聚類和導(dǎo)航支持后臺(tái)靈活按需自定義。內(nèi)容架構(gòu)與河北省委黨校建設(shè)的京津冀數(shù)據(jù)庫-河北的內(nèi)容架構(gòu)可互聯(lián)互通,形成總庫與分庫資源的有機(jī)交互。
(2)數(shù)據(jù)分類與標(biāo)引。京津冀數(shù)據(jù)庫對(duì)知識(shí)體系進(jìn)行標(biāo)引,結(jié)合閱讀、檢索等功能提供應(yīng)用服務(wù)。通過詞間關(guān)系自動(dòng)構(gòu)建、關(guān)聯(lián)標(biāo)識(shí)符編碼嵌入等技術(shù)從大量京津冀相關(guān)文本數(shù)據(jù)抽取關(guān)鍵詞,根據(jù)需要標(biāo)引的結(jié)構(gòu)化關(guān)鍵詞的數(shù)量,選擇使用人工或者半自動(dòng)化知識(shí)標(biāo)引,標(biāo)引結(jié)果經(jīng)過人工輔助復(fù)核,形成知識(shí)化資源。標(biāo)引后的結(jié)構(gòu)化數(shù)據(jù)為數(shù)據(jù)庫實(shí)現(xiàn)一站式檢索提供了保障,除標(biāo)題(標(biāo)題、眉題、副題)、作者、日期、摘要、關(guān)鍵詞、來源、正文等常規(guī)檢索字段外,還可提供熱詞、推薦詞檢索,保證檢索結(jié)果快速響應(yīng)的同時(shí),內(nèi)容資源保障查全查準(zhǔn)。
(3)共建共享原則下用戶及權(quán)限管理功能。京津冀三地黨校在后臺(tái)內(nèi)容管理上互相獨(dú)立,各自處理、加工、上傳內(nèi)容。用戶和管理員可以通過網(wǎng)絡(luò)在身份驗(yàn)證后按權(quán)限使用或管理數(shù)據(jù)庫,管理員和用戶權(quán)限可實(shí)現(xiàn)動(dòng)態(tài)管理,同時(shí)資源使用權(quán)限可動(dòng)態(tài)管理,實(shí)現(xiàn)京津冀三地?cái)?shù)據(jù)庫共建共享。
圖1 專題數(shù)據(jù)庫資源管理結(jié)構(gòu)
(4)統(tǒng)計(jì)分析功能。其主要針對(duì)京津冀數(shù)據(jù)采集、存儲(chǔ)、標(biāo)引、發(fā)布過程日志信息進(jìn)行統(tǒng)計(jì)分析,實(shí)現(xiàn)對(duì)于數(shù)據(jù)管理過程的有效監(jiān)控。主要功能包括操作日志瀏覽、各類型資源存儲(chǔ)量和發(fā)布量統(tǒng)計(jì)分析等。
(5)前端用戶服務(wù)系統(tǒng)。京津冀數(shù)據(jù)庫前端界面欄目設(shè)計(jì)清晰明了、層次分明。在專家意見與項(xiàng)目組多次討論會(huì)議后制定了常規(guī)欄目與特殊欄目。常規(guī)欄目展示以信息流為主,如高層關(guān)注、媒體聚焦、政策法規(guī)、專題研究、協(xié)同合作,再根據(jù)個(gè)別頁面的特點(diǎn)配以個(gè)性化UI展示,如數(shù)據(jù)分析欄目以樹狀圖、餅狀圖呈現(xiàn)出京津冀三地GDP、人口、CPI等經(jīng)濟(jì)社會(huì)指標(biāo)數(shù)據(jù),同時(shí)用戶可以根據(jù)地域、指標(biāo)類型、年份等維度自由組合來獲取所需信息;發(fā)展大事記欄目打破常規(guī)信息羅列的呈現(xiàn)方式,按時(shí)間順序篩選京津冀概念提出以來發(fā)生的重大事件,以時(shí)間軸形式展開,用戶可以直觀便捷地了解京津冀發(fā)展的歷史脈絡(luò)。在保證用戶界面友好化的前提下,京津冀數(shù)據(jù)庫開放京津冀相關(guān)電子書、期刊、論文、專家分析等數(shù)據(jù)(包括pdf、word、ppt等格式)的下載和數(shù)據(jù)分析圖表的圖像導(dǎo)出。
考慮到數(shù)據(jù)庫覆蓋知識(shí)領(lǐng)域廣闊,京津冀數(shù)據(jù)庫針對(duì)三地不同的業(yè)務(wù)需求以及實(shí)現(xiàn)這些需求所需要的功能、軟硬件環(huán)境、系統(tǒng)環(huán)境等,制定了不同的技術(shù)方案以滿足不同的業(yè)務(wù)場景,同時(shí)詳細(xì)分析不同技術(shù)方案、仔細(xì)論證各個(gè)技術(shù)方案,以達(dá)到各技術(shù)方案完美融合,從而形成整個(gè)平臺(tái)的完整技術(shù)方案(見圖2)。
在設(shè)計(jì)系統(tǒng)架構(gòu)時(shí),充分運(yùn)用先進(jìn)性原則,預(yù)留足夠的系統(tǒng)擴(kuò)展空間,并提供豐富的接口,以便其他業(yè)務(wù)功能模塊的快速調(diào)用??梢钥闯?,底層數(shù)據(jù)來源多樣化,同時(shí)在數(shù)據(jù)采集與結(jié)構(gòu)化處理上,數(shù)據(jù)庫充分做到異構(gòu)數(shù)據(jù)融合。第一,所有數(shù)據(jù)的加工處理符合全國黨校(行政學(xué)院)系統(tǒng)數(shù)字圖書館數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),確保中共北京市委黨校(北京行政學(xué)院)京津冀數(shù)據(jù)庫項(xiàng)目與中央黨校(國家行政學(xué)院)圖書和文化館四大專題數(shù)據(jù)庫的平滑對(duì)接和順利遷移。第二,文獻(xiàn)基本字段信息(如標(biāo)題、作者、來源、出版日期、摘要、關(guān)鍵詞等)可根據(jù)自建庫需要靈活定制。
數(shù)據(jù)庫前端發(fā)布頁面系統(tǒng)采用HTML5實(shí)現(xiàn),支持Web界面的操作,所有頁面展現(xiàn)的資源內(nèi)容組織均采用導(dǎo)航和聚類模式,檢索系統(tǒng)提供全文檢索,檢索范圍包括標(biāo)題(標(biāo)題、眉題、副題)、作者、日期、摘要、關(guān)鍵詞、來源、正文等。在知識(shí)組織層面,支持多用戶在線管理知識(shí)元的增刪改查和知識(shí)元關(guān)聯(lián)關(guān)系的增刪改查及可視化呈現(xiàn)功能。系統(tǒng)提供知識(shí)元標(biāo)引功能,對(duì)已經(jīng)標(biāo)引的知識(shí)元的修改、刪除操作。
圖2 京津冀數(shù)據(jù)庫系統(tǒng)整體架構(gòu)
京津冀數(shù)據(jù)庫通過人工與網(wǎng)絡(luò)相結(jié)合的方式共收錄2 384條數(shù)據(jù);已將118本京津冀相關(guān)書籍加工成PDF;涵蓋專題研究子欄目8個(gè),分別為北京核心區(qū)、北京城市副中心、河北雄安新區(qū)、北京·張家口冬奧會(huì)、曹妃甸、大興機(jī)場、通武廊、北三縣??煞治龅慕?jīng)濟(jì)社會(huì)指標(biāo)111個(gè),關(guān)鍵詞標(biāo)引1 134條數(shù)據(jù),人工標(biāo)引后的關(guān)鍵詞在數(shù)據(jù)庫文章中匹配最多的前16個(gè)關(guān)鍵詞如表3所示,可以看出,關(guān)鍵詞基本覆蓋京津冀區(qū)域?qū)n}數(shù)據(jù)庫的發(fā)展方向。
京津冀數(shù)據(jù)庫建庫期間,項(xiàng)目團(tuán)隊(duì)多次向領(lǐng)域?qū)<艺埥坍?dāng)前京津冀研究的熱點(diǎn)與前沿,并根據(jù)反饋意見完善資源收集策略。在獲得京津冀領(lǐng)域?qū)<艺J(rèn)可的同時(shí),有學(xué)者提出數(shù)據(jù)庫在重?cái)?shù)據(jù)分析深度的同時(shí)應(yīng)當(dāng)引入國內(nèi)經(jīng)濟(jì)圈與國際經(jīng)濟(jì)圈用于數(shù)據(jù)對(duì)比,查找差距。社會(huì)學(xué)專家建議數(shù)據(jù)庫應(yīng)該配以京津冀三地相關(guān)領(lǐng)導(dǎo)足跡,有利于研究者快速索引、查找對(duì)應(yīng)資料。
截至2020年底,數(shù)據(jù)庫建設(shè)取得初步成效。數(shù)據(jù)分析欄目已經(jīng)將京津冀三地相關(guān)經(jīng)濟(jì)、社會(huì)、人口等領(lǐng)域的指標(biāo)導(dǎo)入完成,為保證指標(biāo)數(shù)據(jù)權(quán)威且能反應(yīng)經(jīng)濟(jì)社會(huì)發(fā)展的相關(guān)情況,指標(biāo)數(shù)據(jù)來源主要為三地年度統(tǒng)計(jì)公報(bào)以及國家統(tǒng)計(jì)局。如圖3所示,所有指標(biāo)覆蓋京津冀五位一體全面發(fā)展的各個(gè)方面,其中,地區(qū)生產(chǎn)總值類指標(biāo)9個(gè)、常住人口類指標(biāo)8個(gè)、財(cái)政類指標(biāo)6個(gè)、居民消費(fèi)指數(shù)類指標(biāo)7個(gè)、農(nóng)業(yè)類指標(biāo)6個(gè)、工業(yè)類指標(biāo)9個(gè)、交通運(yùn)輸類指標(biāo)13個(gè)、金融類指標(biāo)11個(gè)、固定資產(chǎn)投資類指標(biāo)5個(gè)、市場消費(fèi)類指標(biāo)4個(gè)、對(duì)外經(jīng)濟(jì)類指標(biāo)4個(gè)、旅游類指標(biāo)6個(gè)、交通類18個(gè)、教育類28個(gè)、資源和環(huán)境類17個(gè)。
表3 京津冀主題部分關(guān)鍵詞
圖3 數(shù)據(jù)分析子欄目概況
專題研究8個(gè)子欄目共收錄文章條目269條,如表4所示,其中,河北雄安新區(qū)數(shù)據(jù)量相對(duì)較多,可以看出河北雄安新區(qū)與京津冀協(xié)同發(fā)展在國家未來戰(zhàn)略發(fā)展中的重要地位。通過詳細(xì)對(duì)比各子專題內(nèi)容發(fā)現(xiàn),區(qū)域協(xié)同發(fā)展主要集中在交通運(yùn)輸、人口等重要領(lǐng)域的合作共贏,通過加強(qiáng)區(qū)域間的合作交流,實(shí)現(xiàn)經(jīng)濟(jì)社會(huì)的高質(zhì)量發(fā)展。
表4 專題研究子欄目概況
他山之石欄目以國內(nèi)經(jīng)濟(jì)帶與國外經(jīng)濟(jì)帶為研究目標(biāo),展示世界各地區(qū)域協(xié)同發(fā)展的相關(guān)研究資料,以作為京津冀協(xié)同發(fā)展戰(zhàn)略的重要參考對(duì)象。其中,國內(nèi)經(jīng)濟(jì)帶相關(guān)數(shù)據(jù)主要來源于長三角城市群、中原城市群、長江中游城市群、成渝城市群等,這些城市群在長期發(fā)展過程中積累了重要的發(fā)展經(jīng)驗(yàn),相關(guān)數(shù)據(jù)具有較高的參考價(jià)值。國外經(jīng)濟(jì)帶數(shù)據(jù)采集以北美、歐洲各大都市經(jīng)濟(jì)圈為主體,呈現(xiàn)了不同外部環(huán)境下的協(xié)同合作,相關(guān)發(fā)展經(jīng)驗(yàn)可資借鑒。
京津冀數(shù)據(jù)庫雖取得初步成果,但在數(shù)據(jù)與功能層面還有許多待完善的地方。在數(shù)據(jù)方面,京津冀書籍加工采用低成本加工方式,最終生成的電子版為單層PDF,相比矢量PDF,單層PDF無法切割到目錄與正文級(jí)別,導(dǎo)致對(duì)于書籍內(nèi)容的檢索只能到達(dá)書籍名稱、ISBN號(hào)等字段,無法更進(jìn)一步對(duì)目錄進(jìn)行檢索。在功能方面,標(biāo)引后的關(guān)鍵詞只用來給文章標(biāo)簽化處理,沒有更進(jìn)一步加以利用挖掘深層次的功能,如“詞云”“文本共現(xiàn)”等可視化的數(shù)據(jù)呈現(xiàn)功能,用以輔助研究者發(fā)現(xiàn)和梳理復(fù)雜數(shù)據(jù)中的關(guān)聯(lián)關(guān)系。
縱觀國內(nèi)已建成或者正在建設(shè)的一些區(qū)域性數(shù)據(jù)庫,雖然數(shù)據(jù)體量龐大、內(nèi)容完備,但仍然有不少數(shù)據(jù)庫在有意或者無意進(jìn)行內(nèi)容保護(hù)。基于多源異構(gòu)數(shù)據(jù)融合的數(shù)據(jù)庫相對(duì)較少,更多的是新聞、政策內(nèi)容的堆砌。在數(shù)據(jù)庫建設(shè)向數(shù)據(jù)化、智慧化轉(zhuǎn)型的關(guān)鍵時(shí)期,結(jié)合京津冀數(shù)據(jù)庫的建設(shè)實(shí)踐,未來區(qū)域性專題數(shù)據(jù)庫的建設(shè)可以考慮在以下3個(gè)方面加以強(qiáng)化與升級(jí)。
(1)引入文本挖掘技術(shù)。著重加強(qiáng)非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化,深挖文本內(nèi)容中潛在的信息價(jià)值,通過程序編碼實(shí)現(xiàn)資源內(nèi)容的層級(jí)化展現(xiàn),如思維導(dǎo)圖的生成。
(2)體現(xiàn)數(shù)據(jù)庫共建共享理念。數(shù)據(jù)庫建設(shè)后期加強(qiáng)專題數(shù)據(jù)庫的宣傳推廣,完善數(shù)據(jù)庫頁面中搜索引擎優(yōu)化的元素,讓用戶能更快找到、參與、共享數(shù)據(jù)庫并進(jìn)行相關(guān)反饋,使用戶間接加入數(shù)據(jù)庫的共建。
(3)建立后期維護(hù)保障團(tuán)隊(duì)。數(shù)據(jù)庫后期數(shù)據(jù)與功能的質(zhì)量需要保持一致性,體現(xiàn)專題數(shù)據(jù)庫的建設(shè)價(jià)值。