付強(qiáng) 李劍鋒 劉楊
摘? 要:在吉林省各類科技計(jì)劃項(xiàng)目的實(shí)施過程中,會(huì)產(chǎn)生大量的科學(xué)數(shù)據(jù),這些數(shù)據(jù)的產(chǎn)生和加工得到吉林省科技計(jì)劃資金支持,同時(shí)也是科技工作者長時(shí)間辛勤勞動(dòng)的結(jié)晶。為了提高數(shù)據(jù)利用率,急需集中建庫,實(shí)現(xiàn)科學(xué)數(shù)據(jù)共享。吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)建設(shè),通過整理省內(nèi)數(shù)據(jù)擁有單位的科學(xué)數(shù)據(jù),建立起若干數(shù)據(jù)中心和主體數(shù)據(jù)庫,搭建吉林省科學(xué)數(shù)據(jù)平臺(tái)門戶網(wǎng)站,為吉林省各行各業(yè)提供支持和服務(wù)。
關(guān)鍵詞:科學(xué)數(shù)據(jù)? 數(shù)據(jù)共享? 數(shù)字吉林? 科學(xué)數(shù)據(jù)中心
中圖分類號(hào):F224? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1672-3791(2019)04(c)-0021-02
科學(xué)數(shù)據(jù)是指人類社會(huì)科技活動(dòng)所產(chǎn)生的基本數(shù)據(jù),以及按照不同需求而系統(tǒng)加工的數(shù)據(jù)產(chǎn)品和相關(guān)信息,具有客觀性、多樣性、基礎(chǔ)性、資源性、傳遞性、共享性、增值性等特點(diǎn)[1]??茖W(xué)數(shù)據(jù)是信息時(shí)代最基本、最活躍且影響面最寬的科技資源[2]。我國已經(jīng)在科學(xué)數(shù)據(jù)領(lǐng)域進(jìn)行了大量深入的研究,比較有代表性的比如我國地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)。該平臺(tái)以中科院地球系統(tǒng)的科研院所、長期野外監(jiān)測(cè)臺(tái)站的觀測(cè)數(shù)據(jù)為主要來源,同時(shí)聯(lián)合了相關(guān)機(jī)構(gòu)科學(xué)家形成了一個(gè)科學(xué)數(shù)據(jù)共享聯(lián)盟,并積極吸納科研項(xiàng)目參與數(shù)據(jù)共享[3],整合后的數(shù)據(jù)通過科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)對(duì)外開放。
為了加快吉林省科技創(chuàng)新體系建設(shè),增強(qiáng)科技創(chuàng)新能力,有效地支撐全省經(jīng)濟(jì)社會(huì)快速發(fā)展,迫切需要我們建設(shè)科學(xué)數(shù)據(jù)共享平臺(tái),對(duì)省內(nèi)科學(xué)數(shù)據(jù)進(jìn)行整合,為全社會(huì)創(chuàng)建開放高效、共建共享和合作交流的研發(fā)支撐體系。
1? 建設(shè)目標(biāo)
吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)的建設(shè),通過整理省內(nèi)數(shù)據(jù)擁有單位的科學(xué)研究數(shù)據(jù)、檢測(cè)數(shù)據(jù)、勘查數(shù)據(jù)等,建立起若干數(shù)據(jù)中心和主體數(shù)據(jù)庫,搭建吉林省科學(xué)數(shù)據(jù)平臺(tái)門戶網(wǎng)站,為吉林省各行各業(yè),特別是政府部門開展科技管理、決策,企業(yè)、高校、研究院所開展研發(fā)及橫向聯(lián)合、信息溝通,為發(fā)揮吉林省科教優(yōu)勢(shì),促進(jìn)經(jīng)濟(jì)發(fā)展提供及時(shí)有效的服務(wù)和支持。它是吉林省創(chuàng)新體系的重要組成部分,具有投入穩(wěn)定、社會(huì)共享、公益性和持續(xù)性等特點(diǎn),對(duì)全省經(jīng)濟(jì)、社會(huì)和科技快速發(fā)展具有重要意義,是一項(xiàng)“功在當(dāng)代、利在千秋”的偉業(yè)。
2? 主要建設(shè)內(nèi)容
(1)根據(jù)國家、吉林省的科學(xué)數(shù)據(jù)相關(guān)文件要求,結(jié)合“數(shù)字吉林”戰(zhàn)略部署,研究制定吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)的總體規(guī)劃和建設(shè)方案。
(2)搭建“吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)”。通過元數(shù)據(jù)技術(shù)有機(jī)鏈接各數(shù)據(jù)中心的主體數(shù)據(jù)庫,構(gòu)建基于元數(shù)據(jù)的目錄交換服務(wù)體系與科學(xué)數(shù)據(jù)信息發(fā)布系統(tǒng),提供基于科學(xué)數(shù)據(jù)的專業(yè)化信息服務(wù),包括目錄查詢、數(shù)據(jù)檢索、統(tǒng)計(jì)分析等服務(wù),實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一收集、統(tǒng)一管理、統(tǒng)一發(fā)布,確保數(shù)據(jù)的真實(shí)性和安全性。
(3)結(jié)合當(dāng)前實(shí)際,建設(shè)若干省級(jí)科學(xué)數(shù)據(jù)中心和一批特色主體數(shù)據(jù)庫。第一批組建兩個(gè)數(shù)據(jù)中心——“吉林省科技管理數(shù)據(jù)中心”、“吉林省農(nóng)業(yè)科學(xué)數(shù)據(jù)中心”,建立三個(gè)特色數(shù)據(jù)庫——吉林省科技統(tǒng)計(jì)數(shù)據(jù)庫、吉林省基礎(chǔ)科學(xué)數(shù)據(jù)庫、吉林省農(nóng)業(yè)科學(xué)數(shù)據(jù)庫。
“吉林省科技管理數(shù)據(jù)中心”由吉林省科學(xué)技術(shù)信息研究所牽頭,其核心任務(wù)是對(duì)吉林省科技管理數(shù)據(jù)進(jìn)行整理,進(jìn)行數(shù)字化建設(shè),特別是吉林省科技廳掌握的相關(guān)數(shù)據(jù)。通過對(duì)整個(gè)數(shù)據(jù)調(diào)查結(jié)果整理分析,確定了數(shù)據(jù)中心第一期數(shù)據(jù)庫及信息內(nèi)容,即建設(shè)兩個(gè)特色主體數(shù)據(jù)庫:吉林省科技統(tǒng)計(jì)數(shù)據(jù)庫、吉林省基礎(chǔ)科學(xué)數(shù)據(jù)庫?!凹质∞r(nóng)業(yè)科學(xué)數(shù)據(jù)中心”由吉林省農(nóng)業(yè)科學(xué)院牽頭組建,負(fù)責(zé)收集、整理、加工與農(nóng)業(yè)相關(guān)的科技數(shù)據(jù),通過整理分析,確定了該數(shù)據(jù)中心第一期數(shù)據(jù)庫的建設(shè)內(nèi)容,即建設(shè)吉林省農(nóng)業(yè)產(chǎn)業(yè)科學(xué)數(shù)據(jù)庫。主要內(nèi)容為近五年吉林省各市州主要農(nóng)畜產(chǎn)品生產(chǎn)規(guī)模、產(chǎn)量、單產(chǎn)、經(jīng)濟(jì)效益,各種主要農(nóng)產(chǎn)品生產(chǎn)環(huán)節(jié)各項(xiàng)成本、總成本。
(4)開展“吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)”共享機(jī)制研究,包括吉林省科學(xué)數(shù)據(jù)資源的整合與分類分級(jí)共享機(jī)制的研究,撰寫研究報(bào)告。在報(bào)告中可以提出將吉林省內(nèi)凡是列入吉林省科技廳各類科技計(jì)劃的項(xiàng)目,其研究中產(chǎn)生的數(shù)據(jù)統(tǒng)一納入共享范圍,將“數(shù)據(jù)匯交”作為項(xiàng)目驗(yàn)收時(shí)的必備條件之一,實(shí)現(xiàn)省內(nèi)科學(xué)數(shù)據(jù)的整合與共享。
3? 要解決的關(guān)鍵技術(shù)
吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)和三個(gè)特色科學(xué)數(shù)據(jù)庫建設(shè)擬采用以下關(guān)鍵技術(shù)。
(1)元數(shù)據(jù)建設(shè),科學(xué)數(shù)據(jù)多維分析與挖掘研究。
元數(shù)據(jù)建設(shè):吉林省科學(xué)數(shù)據(jù)平臺(tái)以元數(shù)據(jù)為核心實(shí)現(xiàn)科學(xué)的描述、分類、檢索、關(guān)聯(lián),借助技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)的物理存儲(chǔ)與邏輯表達(dá)的分離。元數(shù)據(jù)作為描述科學(xué)數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù),包含了數(shù)據(jù)的標(biāo)識(shí)信息、內(nèi)容信息、人員和權(quán)責(zé)信息、關(guān)聯(lián)信息、技術(shù)信息等方面。該項(xiàng)目對(duì)省內(nèi)基礎(chǔ)科學(xué)數(shù)據(jù)、科技統(tǒng)計(jì)數(shù)據(jù)以及農(nóng)業(yè)科學(xué)數(shù)據(jù)信息進(jìn)行規(guī)范整理、整合,進(jìn)行統(tǒng)一的數(shù)據(jù)編碼、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)簽化等操作,建立元數(shù)據(jù)標(biāo)準(zhǔn)和元數(shù)據(jù)索引,為我省科學(xué)數(shù)據(jù)今后的一系列相關(guān)工作奠定基礎(chǔ)。
科學(xué)數(shù)據(jù)多維分析與挖掘研究:基于多形態(tài)科學(xué)數(shù)據(jù),引入深度學(xué)習(xí)、知識(shí)檢索的記憶機(jī)制和邏輯推理機(jī)制,提出基于深度學(xué)習(xí)的用戶隱式知識(shí)檢索需求理解技術(shù),提升檢索結(jié)果查準(zhǔn)率、查全率,平衡檢索結(jié)果的多樣性和個(gè)性化,構(gòu)建多形態(tài)科學(xué)數(shù)據(jù)的存儲(chǔ)和管理模型,實(shí)現(xiàn)智能檢索及海量復(fù)雜科學(xué)數(shù)據(jù)的可視化展示;綜合時(shí)效性、個(gè)性化和多樣性的檢索結(jié)果排序和推薦。
(2)數(shù)據(jù)庫整合,統(tǒng)一跨庫檢索。
本項(xiàng)目按照“吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)門戶網(wǎng)站——科學(xué)數(shù)據(jù)分中心——數(shù)據(jù)生產(chǎn)系統(tǒng)”三級(jí)架構(gòu)模式,整合我省的科學(xué)數(shù)據(jù)資源,通過標(biāo)準(zhǔn)的元數(shù)據(jù)整合規(guī)范,將各種類型數(shù)據(jù)資源的元數(shù)據(jù)進(jìn)行重新清洗、補(bǔ)充與標(biāo)引,使元數(shù)據(jù)集實(shí)現(xiàn)統(tǒng)一、規(guī)范、清晰、完備。通過這樣的整合方式,可以完全打破各個(gè)數(shù)據(jù)庫的壁壘,并保證效率和準(zhǔn)確性。
數(shù)據(jù)中心的各個(gè)科學(xué)數(shù)據(jù)庫資源并不部署在平臺(tái)上,只是提供接口,由各類科學(xué)數(shù)據(jù)分布的資源單位進(jìn)行元數(shù)據(jù)加工,數(shù)據(jù)庫建設(shè),更新完善和日常維護(hù)管理,并為平臺(tái)提供接口,平臺(tái)可以隨時(shí)調(diào)用,真正從底層實(shí)現(xiàn)了科學(xué)數(shù)據(jù)資源的統(tǒng)一檢索,統(tǒng)一應(yīng)用,并為進(jìn)一步的數(shù)據(jù)分析,對(duì)象化處理奠定了基礎(chǔ)。
4? 預(yù)期取得的成果
針對(duì)目前我省科學(xué)數(shù)據(jù)管理中存在的薄弱環(huán)節(jié),《吉林省科學(xué)數(shù)據(jù)管理辦法》進(jìn)行系統(tǒng)的部署和安排,加強(qiáng)和規(guī)范科學(xué)數(shù)據(jù)的采集生產(chǎn)、加工整理、開放共享等各個(gè)環(huán)節(jié)的工作;完成《吉林省科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)》建設(shè),提供科學(xué)數(shù)據(jù)的目錄查詢、數(shù)據(jù)統(tǒng)一檢索和分布式的延伸功能服務(wù),實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一發(fā)布;建設(shè)完成《吉林省科技統(tǒng)計(jì)數(shù)據(jù)庫》、《吉林省基礎(chǔ)科學(xué)數(shù)據(jù)庫》、《吉林省農(nóng)業(yè)產(chǎn)業(yè)科學(xué)數(shù)據(jù)庫》。
參考文獻(xiàn)
[1] 劉潤達(dá),諸云強(qiáng).科學(xué)數(shù)據(jù)共享關(guān)鍵問題探索——以地球系統(tǒng)科學(xué)數(shù)據(jù)共享網(wǎng)為例[J].地理科學(xué)進(jìn)展,2007(5):118-126.
[2] 張紅.我國科技資源共享的現(xiàn)狀及其分析[J].科技與法律,2007(2):18-24.
[3] 孫九林,黃鼎成,李曉波.我國科技數(shù)據(jù)管理和共享服務(wù)的新進(jìn)展[J].世界科技研究與發(fā)展,2002(5):15-19.