顧立平,陳新蘭,張瀟月,劉金亞
數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)已成為創(chuàng)造和捕獲價(jià)值的新經(jīng)濟(jì)資源[1]。在第十九屆四中全會(huì)上,我國首次公開提出將數(shù)據(jù)作為一種生產(chǎn)要素按貢獻(xiàn)參與分配[2],這表明數(shù)據(jù)可同傳統(tǒng)生產(chǎn)要素一樣,創(chuàng)造價(jià)值并產(chǎn)生收益。開放數(shù)據(jù)增加了數(shù)據(jù)透明度,人們利用開放數(shù)據(jù)資源創(chuàng)造新的產(chǎn)品和服務(wù),從而增加經(jīng)濟(jì)價(jià)值[3]。英國《開放數(shù)據(jù)白皮書》[4]就曾討論利用開放數(shù)據(jù)解鎖經(jīng)濟(jì)潛力的方式??蒲袛?shù)據(jù)作為一種重要的數(shù)據(jù)資源也被認(rèn)為能夠創(chuàng)造更大的價(jià)值,讓盡可能多的科研數(shù)據(jù)發(fā)揮盡可能大的價(jià)值有助于推進(jìn)開放科學(xué)的發(fā)展[5]。
為實(shí)現(xiàn)科研數(shù)據(jù)透明公開、可發(fā)現(xiàn)、可獲得和可使用[6],人們?cè)絹碓蕉嗟貙⒖蒲谐晒ㄟ^數(shù)據(jù)共享基礎(chǔ)設(shè)施開放和傳播,然而仍有許多科研數(shù)據(jù)因?yàn)榄h(huán)境、條件等原因嚴(yán)重流失。我國科研數(shù)據(jù)流失有3種主要情形:(1)大量科研數(shù)據(jù)因投稿和發(fā)表存儲(chǔ)在國外數(shù)據(jù)平臺(tái)[7-12],所有權(quán)和控制權(quán)流失,且在國內(nèi)數(shù)據(jù)實(shí)體并未得到很好的管理,也未對(duì)國內(nèi)研究人員第一時(shí)間共享。(2)過去我國很多科研大數(shù)據(jù)(如生物學(xué)和遺傳醫(yī)學(xué)領(lǐng)域)沒有經(jīng)過檔案等級(jí)監(jiān)管,或任人取用,或在合作之中無形泄露[13-14]。(3)許多國家先于我國頒布數(shù)據(jù)監(jiān)管政策或建立數(shù)據(jù)監(jiān)管機(jī)構(gòu)[15-19]保障其數(shù)據(jù)隱私和安全,我國因數(shù)據(jù)獲取不對(duì)等導(dǎo)致數(shù)據(jù)流失。目前我國已充分重視上述現(xiàn)象并出臺(tái)若干法規(guī)政策應(yīng)對(duì)(如《科學(xué)數(shù)據(jù)管理辦法》[20]),這些問題正逐漸得到解決。
但是,目前我國最嚴(yán)重且還沒能有效解決的科研數(shù)據(jù)流失問題是社會(huì)科學(xué)、自然科學(xué),尤其是STEM(Science,Technology,Engineering,Mathematics)以及交叉科學(xué)領(lǐng)域里一些小科學(xué)中的暗數(shù)據(jù)、小數(shù)據(jù)、無數(shù)據(jù)問題。通過概念辨析有助于更好地理解這些數(shù)據(jù)流失現(xiàn)象(見表 1)。
表1 暗數(shù)據(jù)、小數(shù)據(jù)和無數(shù)據(jù)概念辨析
這些數(shù)據(jù)都沒有明顯的結(jié)構(gòu)和規(guī)律、未被或無法被高效利用,且可能蘊(yùn)含一定的潛在價(jià)值。發(fā)掘其價(jià)值需做到:確保數(shù)據(jù)處理和保護(hù)規(guī)范統(tǒng)一;以某種權(quán)責(zé)機(jī)構(gòu)或法律法規(guī)可追溯的主體來要求、監(jiān)督、實(shí)施和管理數(shù)據(jù);讓研究人員能在需要的時(shí)候較容易地發(fā)現(xiàn)和使用盡可能完整的數(shù)據(jù)。
緩解數(shù)據(jù)流失、促使數(shù)據(jù)價(jià)值顯現(xiàn)的實(shí)質(zhì)是使數(shù)據(jù)具有結(jié)構(gòu)、可發(fā)現(xiàn)、可使用和可分析,而組織與管理工作需要一定的權(quán)責(zé)主體和特定的解決方案。圖書館可為妥善高效地組織和管理科學(xué)數(shù)據(jù)提供解決方案。第一,對(duì)館藏資源進(jìn)行組織與管理是其基本工作內(nèi)容與業(yè)務(wù)特點(diǎn)之一。第二,圖書館可最大限度和范圍地協(xié)助科研人員開展各項(xiàng)研究工作。第三,圖書館也亟待從實(shí)踐調(diào)研中尋找可解決其治理體系和治理能力等發(fā)展瓶頸的方案。事實(shí)上,圖書館界也一直積極參與數(shù)據(jù)資產(chǎn)管理,歐盟[26]、美國[27]和我國[20]已出臺(tái)相關(guān)政策,促進(jìn)科學(xué)數(shù)據(jù)管理工作的落實(shí)。因此,本研究將從圖書館業(yè)務(wù)實(shí)踐出發(fā),構(gòu)建科研數(shù)據(jù)的價(jià)值提升策略。數(shù)據(jù)價(jià)值研究的理論意義在于厘清數(shù)據(jù)價(jià)值不顯現(xiàn)的原因,探索數(shù)據(jù)價(jià)值提升要素,為數(shù)據(jù)價(jià)值提升提供理論指導(dǎo);現(xiàn)實(shí)意義在于緩解數(shù)據(jù)流失現(xiàn)象,促使數(shù)據(jù)價(jià)值提升、外溢和衍生,找尋可監(jiān)管、追蹤和實(shí)施的權(quán)責(zé)機(jī)構(gòu)作為數(shù)據(jù)價(jià)值提升工作的主要執(zhí)行者、推進(jìn)者和宣傳者,促進(jìn)知識(shí)傳播交流和科研生態(tài)體系的發(fā)展。
當(dāng)前關(guān)于數(shù)據(jù)價(jià)值的研究較集中于大數(shù)據(jù)領(lǐng)域。Joao認(rèn)為,利用云計(jì)算、移動(dòng)服務(wù)等開放技術(shù)處理數(shù)據(jù),可使開放數(shù)據(jù)創(chuàng)造更大的價(jià)值[28]。李旭暉等認(rèn)為,大數(shù)據(jù)的價(jià)值源于其中蘊(yùn)含的各種知識(shí)關(guān)聯(lián),發(fā)現(xiàn)大數(shù)據(jù)價(jià)值的核心在于對(duì)知識(shí)關(guān)聯(lián)進(jìn)行刻畫、揭示和利用[29]。由此可見,數(shù)據(jù)管理與服務(wù)技術(shù)的進(jìn)步,為數(shù)據(jù)價(jià)值的提升創(chuàng)造條件。當(dāng)前科研人員主要從處理技術(shù)、組織方式層面關(guān)注大數(shù)據(jù)的價(jià)值開發(fā),針對(duì)科研具體學(xué)科領(lǐng)域探討數(shù)據(jù)價(jià)值提升的研究較少。也有學(xué)者討論開放政府?dāng)?shù)據(jù)(OGD)的價(jià)值提升策略,Petr等認(rèn)為提高可發(fā)現(xiàn)程度和提供高質(zhì)量的描述性元數(shù)據(jù),可提升數(shù)據(jù)價(jià)值[30]。Song等認(rèn)為,可通過識(shí)別與聚合OGD在質(zhì)量、完整性、要素分解、時(shí)效性、透明度與開放程度等多方面的特征,促進(jìn)新興公司實(shí)現(xiàn)在環(huán)境、經(jīng)濟(jì)、社會(huì)方面可持續(xù)發(fā)展的價(jià)值[31]。這表明通過聚合與關(guān)聯(lián)數(shù)據(jù)的多維度特征,借助新興數(shù)據(jù)處理技術(shù),能夠滿足特定主體的價(jià)值創(chuàng)造活動(dòng)。此外,醫(yī)學(xué)領(lǐng)域[32-33]、多媒體領(lǐng)域[34]、交叉學(xué)科領(lǐng)域[35-36]也有研究涉及數(shù)據(jù)價(jià)值的提升策略。現(xiàn)有研究中的數(shù)據(jù)價(jià)值提升策略涉及幾個(gè)重點(diǎn):(1)高質(zhì)量元數(shù)據(jù)。提供高質(zhì)量元數(shù)據(jù),可對(duì)數(shù)據(jù)做豐富的注釋,從而找到數(shù)據(jù)之間的相互聯(lián)系,為數(shù)據(jù)發(fā)現(xiàn)和重用提供保障。(2)知識(shí)關(guān)聯(lián) 。 將 經(jīng) 刻畫、揭示和描繪的、可交互的數(shù)據(jù)關(guān)聯(lián)起來,有望發(fā)現(xiàn)其潛在的深層的更具價(jià)值的信息。(3)智能化手段。利用計(jì)算機(jī)科學(xué)、軟件科學(xué)領(lǐng)域的先進(jìn)技術(shù),可使數(shù)據(jù)以新的形式滿足人們的需求。
結(jié)合現(xiàn)有文獻(xiàn)中的數(shù)據(jù)價(jià)值提升重點(diǎn)與本研究的目的,本文對(duì)數(shù)據(jù)價(jià)值提升工作給出專門定義:通過著錄和標(biāo)引數(shù)據(jù)實(shí)體,深層揭示數(shù)據(jù)屬性和數(shù)據(jù)結(jié)構(gòu),并使用統(tǒng)一受控詞匯規(guī)范化描述數(shù)據(jù),進(jìn)而對(duì)數(shù)據(jù)建立各類知識(shí)關(guān)聯(lián)并形成一系列新數(shù)據(jù)的過程。數(shù)據(jù)價(jià)值提升工作可使雜亂、未經(jīng)組織管理、不可見的、未關(guān)聯(lián)的、使用率過低的數(shù)據(jù),變成被規(guī)范組織和管理的、可發(fā)現(xiàn)的、相互關(guān)聯(lián)的和可重用的形態(tài),可將其中隱含的更宏觀、更完整、更有意義的信息發(fā)掘出來,為人們創(chuàng)造更大的科研價(jià)值。本文所討論的數(shù)據(jù)價(jià)值(data value)與數(shù)據(jù)加值(data added value)和數(shù)據(jù)監(jiān)管(data curation)不同。數(shù)據(jù)加值是指將原始數(shù)據(jù)或者原生數(shù)字資源經(jīng)過一定程度的處理和加工,形成衍生數(shù)據(jù)或者數(shù)據(jù)產(chǎn)品的過程[37]。數(shù)據(jù)監(jiān)管指在科學(xué)數(shù)據(jù)的整個(gè)生命周期內(nèi),通過主動(dòng)的活動(dòng)(如對(duì)數(shù)據(jù)標(biāo)注、評(píng)價(jià)、選擇、轉(zhuǎn)換)使數(shù)據(jù)增值,最終目標(biāo)在于使這些數(shù)據(jù)可以方便地被人們應(yīng)用或重用[38]。三者雖有相似之處,卻又各不相同(見圖1)。數(shù)據(jù)價(jià)值提升后,被眾多主體利用的可能性與傳播能力增強(qiáng)了,當(dāng)數(shù)據(jù)經(jīng)過多次“流轉(zhuǎn)”和再利用,它所能創(chuàng)造的價(jià)值也隨之產(chǎn)生“乘數(shù)效應(yīng)”。
圖1 數(shù)據(jù)價(jià)值提升、數(shù)據(jù)加值和數(shù)據(jù)監(jiān)管的異同
基于前述已有研究與概念辨析,本文以數(shù)據(jù)實(shí)體、元數(shù)據(jù)和數(shù)據(jù)描述3個(gè)觀測(cè)要點(diǎn),結(jié)合文獻(xiàn)分析歸納的數(shù)據(jù)價(jià)值提升策略的重點(diǎn),作為后續(xù)實(shí)證調(diào)查研究的線索,搜集數(shù)據(jù)價(jià)值提升解決方案。
(1)加工原料——數(shù)據(jù)實(shí)體。很多科研數(shù)據(jù)都具有重大科學(xué)價(jià)值,應(yīng)當(dāng)被妥善保留。某些科研數(shù)據(jù)由于缺乏組織和利用,正逐漸“失去價(jià)值”,而長期保存不斷增長的科研數(shù)據(jù)會(huì)導(dǎo)致物質(zhì)、人力及財(cái)力等成本逐年上升,這促使人們思考如何緩解雙方的失衡。因此,在保留數(shù)據(jù)內(nèi)容、性質(zhì)和形式的基礎(chǔ)上,使現(xiàn)有數(shù)據(jù)創(chuàng)造更多價(jià)值的思路是本文的調(diào)研重點(diǎn)之一。
(2)核心工具——元數(shù)據(jù)。元數(shù)據(jù)可以揭示數(shù)據(jù)的結(jié)構(gòu)和規(guī)律、描述數(shù)據(jù)的屬性和特點(diǎn),而且,經(jīng)過元數(shù)據(jù)著錄的數(shù)據(jù)資源也更容易控制、組織和管理。因此,使用元數(shù)據(jù)作為數(shù)據(jù)價(jià)值提升主要工具的解決方案也是本文的重點(diǎn)調(diào)研對(duì)象。
(3)關(guān)鍵工作——數(shù)據(jù)描述。對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化描述可使數(shù)據(jù)具有可控性和一致性。而通過標(biāo)識(shí)符、屬性描述、關(guān)系描述、引用數(shù)據(jù)、元數(shù)據(jù)等建立的知識(shí)關(guān)聯(lián)和推薦,即一系列新數(shù)據(jù)(索引、摘要和模型等),有望提升數(shù)據(jù)價(jià)值。所以,以數(shù)據(jù)描述作為凸顯數(shù)據(jù)價(jià)值工作重點(diǎn)的解決方案也是本研究的觀測(cè)要點(diǎn)。
科研領(lǐng)域中對(duì)數(shù)據(jù)價(jià)值的提升尚乏較系統(tǒng)的方案,且針對(duì)科研數(shù)據(jù)價(jià)值提升的實(shí)例過少,不利于分析和歸納。而在對(duì)數(shù)據(jù)技術(shù)發(fā)展較為敏感的企業(yè)中,已開始根據(jù)自身業(yè)務(wù)發(fā)展需要,開展數(shù)據(jù)價(jià)值提升工作。大型科技機(jī)構(gòu)能很好地將項(xiàng)目型的小、散、亂數(shù)據(jù)收集起來,且它們?cè)趶臄?shù)據(jù)中推演意義并基于此采取行動(dòng)方面取得的成果比較顯現(xiàn)[41]。因此,對(duì)企業(yè)界已有經(jīng)驗(yàn)的梳理,能夠啟發(fā)圖書館等機(jī)構(gòu)的工作人員針對(duì)科研數(shù)據(jù)中暗數(shù)據(jù)、小數(shù)據(jù)、無數(shù)據(jù)等問題制定可行的服務(wù)方案。與本研究密切相關(guān)的是這些數(shù)據(jù)知識(shí)庫為提升數(shù)據(jù)價(jià)值非常有可能考慮的幾個(gè)重點(diǎn):元數(shù)據(jù)提取和管理;統(tǒng)一數(shù)據(jù)格式,建立數(shù)據(jù)規(guī)范;建立數(shù)據(jù)關(guān)聯(lián)。因此,本文選擇國內(nèi)外幾大科技領(lǐng)先機(jī)構(gòu),從天地?cái)?shù)據(jù)(衛(wèi)星和地圖)、社交數(shù)據(jù)、物流數(shù)據(jù)、辦公數(shù)據(jù)、個(gè)人終端數(shù)據(jù)5個(gè)領(lǐng)域,找到它們通過處理數(shù)據(jù)實(shí)體、利用元數(shù)據(jù)和關(guān)聯(lián)數(shù)據(jù)以創(chuàng)造更多價(jià)值的實(shí)例,并將這些案例分類整理,如表2所示。企業(yè)界確有不少方案與本文觀測(cè)重點(diǎn)強(qiáng)相關(guān),也與文獻(xiàn)調(diào)研歸納的要點(diǎn)相符合。但是,它們對(duì)數(shù)據(jù)價(jià)值的討論相對(duì)比較簡(jiǎn)單,實(shí)質(zhì)上它們大多都采用少量指標(biāo)來描述其數(shù)據(jù)產(chǎn)品的生產(chǎn)、管理和運(yùn)營,且通常都借助計(jì)算機(jī)和軟件領(lǐng)域的先進(jìn)技術(shù)手段輔助其實(shí)現(xiàn)數(shù)據(jù)價(jià)值的提升。
表2 國內(nèi)外數(shù)據(jù)價(jià)值提升方案
上述科技機(jī)構(gòu)為提升數(shù)據(jù)價(jià)值所采取的策略和施行的工作各有側(cè)重卻也有相似之處,本文從現(xiàn)有解決方案中歸納出以下數(shù)據(jù)價(jià)值提升要素。
(1)建立數(shù)據(jù)目錄。面對(duì)體量龐大、結(jié)構(gòu)繁雜的數(shù)據(jù),眾多機(jī)構(gòu)想到的最簡(jiǎn)單易操作的解決方案就是建立數(shù)據(jù)目錄,如AWS Glue[43-44]、百度Dayu[48]。這類解決方案通過建立數(shù)據(jù)目錄的方式對(duì)數(shù)據(jù)中包含的關(guān)鍵信息進(jìn)行描述,讓數(shù)據(jù)更易于被檢索和發(fā)現(xiàn),增加了數(shù)據(jù)的可見度和使用頻率,加大了數(shù)據(jù)發(fā)揮價(jià)值的可能性。
(2)元數(shù)據(jù)驅(qū)動(dòng)服務(wù)。日益累積起來的非結(jié)構(gòu)化的數(shù)據(jù)資源雜亂無章,既不利于管理也不能體現(xiàn)利用價(jià)值。而元數(shù)據(jù)可幫助很多機(jī)構(gòu)解開此難題。Facebook分析圖像元數(shù)據(jù)并結(jié)合其他實(shí)踐來進(jìn)行真實(shí)性審查[42]、Amazon幫助人們發(fā)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的含義及關(guān)系并從媒體文件中提取有價(jià)值的元數(shù)據(jù)[45-46]、百度Dayu[48]通過管理元數(shù)據(jù)促進(jìn)數(shù)據(jù)發(fā)現(xiàn)和使用等。
(3)聚集小數(shù)據(jù)建立關(guān)聯(lián)。機(jī)構(gòu)數(shù)據(jù)通常按工作模塊獨(dú)立保管,為提供更好的公眾服務(wù),部分機(jī)構(gòu)從業(yè)務(wù)流程角度考慮,將各工作環(huán)節(jié)和業(yè)務(wù)往來機(jī)構(gòu)的相關(guān)數(shù)據(jù)關(guān)聯(lián)起來,讓原本孤立的數(shù)據(jù)共同發(fā)揮出更大的價(jià)值,如基于谷歌地圖建立的血庫地圖[52]、微軟與Qualanex 合作以節(jié)省藥物回收成本[47]、蘋果為癲癇患者編寫的EpiWatch 程序[56]、華為打造的區(qū)域人口健康信息平臺(tái)[57]。此類方案的目的是將一些看似沒有關(guān)聯(lián)或還未關(guān)聯(lián)的數(shù)據(jù)聯(lián)系在一起,讓它們共同發(fā)揮更大的作用、提供更優(yōu)質(zhì)的服務(wù)。而且,這些服務(wù)都比那些數(shù)據(jù)在未關(guān)聯(lián)之前,各自獨(dú)立提供的服務(wù)創(chuàng)造出更大的價(jià)值。
圖2 數(shù)據(jù)平臺(tái)常見結(jié)構(gòu)
(4)建立數(shù)據(jù)平臺(tái)。為集中組織與管理大量數(shù)據(jù),并使它們創(chuàng)造更多價(jià)值,百度Dayu[48]、騰訊 Tbase[51]、 華 為 FusionInsight[50]和 微 軟PowerApps[58]等數(shù)據(jù)平臺(tái),基于提取的元數(shù)據(jù)以及組織和關(guān)聯(lián)后的數(shù)據(jù),推出一系列數(shù)據(jù)服務(wù),增加數(shù)據(jù)可見度與使用率,體現(xiàn)數(shù)據(jù)重要性與價(jià)值。這類平臺(tái)的常見結(jié)構(gòu)如圖2所示。
上述要素再次印證,科技機(jī)構(gòu)提升數(shù)據(jù)價(jià)值的重點(diǎn)離不開數(shù)據(jù)實(shí)體加工、元數(shù)據(jù)提取和管理、數(shù)據(jù)規(guī)范化與關(guān)聯(lián),這些要素都建立在大數(shù)據(jù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、移動(dòng)服務(wù)和云計(jì)算等先進(jìn)手段的基礎(chǔ)之上。而我們無法回避的事實(shí)是,科研數(shù)據(jù)很難直接采用這種模式簡(jiǎn)單描述或封裝為數(shù)據(jù)產(chǎn)品[59],且這些技術(shù)和方案不完全適用于我國當(dāng)前的科研數(shù)據(jù)流失問題(如在心理學(xué)領(lǐng)域,科研數(shù)據(jù)存儲(chǔ)類型多樣且處理方式多元,數(shù)據(jù)還多為零散的小數(shù)據(jù))。因此,本文通過提煉并借鑒它們的數(shù)據(jù)價(jià)值提升思路,結(jié)合圖書館業(yè)務(wù)實(shí)踐,重新設(shè)計(jì)規(guī)劃出更適用于科研數(shù)據(jù)的解決方案。
文獻(xiàn)調(diào)研結(jié)果顯示,高質(zhì)量元數(shù)據(jù)、知識(shí)關(guān)聯(lián)和智能化手段是提升數(shù)據(jù)價(jià)值的重要因素;案例調(diào)研結(jié)果顯示,建立數(shù)據(jù)目錄、提取關(guān)鍵元數(shù)據(jù)、聚集小數(shù)據(jù)和建立數(shù)據(jù)(監(jiān)管)平臺(tái)是數(shù)據(jù)價(jià)值提升方案的關(guān)鍵要素。因此,本文認(rèn)為科研數(shù)據(jù)的價(jià)值提升策略重點(diǎn)應(yīng)當(dāng)集中在元數(shù)據(jù)提取、數(shù)據(jù)規(guī)范化和知識(shí)關(guān)聯(lián)3個(gè)方面。首先,元數(shù)據(jù)和小數(shù)據(jù)可以讓零散的數(shù)據(jù)具有結(jié)構(gòu)和意義,它們還可以聚集類似的數(shù)據(jù)資產(chǎn),人們可通過管理數(shù)據(jù)來增加其價(jià)值;其次,經(jīng)過格式統(tǒng)一和規(guī)范處理的數(shù)據(jù),更利于組織和管理;再者,零碎的數(shù)據(jù)經(jīng)過組織變得可發(fā)現(xiàn)便有了價(jià)值,而存在領(lǐng)域間隔的數(shù)據(jù)只有進(jìn)一步建立知識(shí)關(guān)聯(lián),才有望實(shí)現(xiàn)價(jià)值外溢。
從利用元數(shù)據(jù)標(biāo)引數(shù)據(jù)實(shí)體、規(guī)范化描述數(shù)據(jù)和建立知識(shí)關(guān)聯(lián)的實(shí)際操作來看,這幾項(xiàng)工作與圖書館業(yè)務(wù)實(shí)踐最為契合:作為重要存儲(chǔ)機(jī)構(gòu),圖書館保存著大量科研數(shù)據(jù);數(shù)據(jù)著錄標(biāo)引和數(shù)據(jù)描述兩部分工作需要圖書館專家來完成;圖書館持續(xù)引進(jìn)和融合新興數(shù)據(jù)技術(shù),可基于科研數(shù)據(jù)提供多元化產(chǎn)品與服務(wù);圖書館可最大范圍和限度地服務(wù)科研人員。有鑒于此,本文結(jié)合前述分析結(jié)果及圖書館基礎(chǔ)業(yè)務(wù)工作,提出一種更加適用于科研數(shù)據(jù)的價(jià)值提升方案(見圖3)。其工作流程包含4個(gè)步驟:(1)對(duì)各個(gè)獨(dú)立的數(shù)據(jù)/數(shù)據(jù)集進(jìn)行著錄和標(biāo)引,形成一系列元數(shù)據(jù);(2)使用統(tǒng)一標(biāo)準(zhǔn)的受控詞匯對(duì)數(shù)據(jù)/數(shù)據(jù)集加以規(guī)范化描述;(3)對(duì)經(jīng)過著錄標(biāo)引和規(guī)范化描述的數(shù)據(jù)建立各種形式的關(guān)聯(lián),形成多種新數(shù)據(jù)(如索引數(shù)據(jù)、摘要數(shù)據(jù)、數(shù)據(jù)模型);(4)使用新數(shù)據(jù)提供新數(shù)據(jù)服務(wù)或新數(shù)據(jù)產(chǎn)品。
圖3 數(shù)據(jù)價(jià)值提升方案理論框架
該理論框架更適用于科研數(shù)據(jù)的原因:(1)元數(shù)據(jù)強(qiáng)大的揭示功能。元數(shù)據(jù)增加了數(shù)據(jù)的可見度,某些特殊領(lǐng)域(如遺傳醫(yī)學(xué)和心理學(xué))中不易傳輸?shù)臄?shù)據(jù),可以通過元數(shù)據(jù)著錄,只將對(duì)人類具有重大研究價(jià)值的信息揭示出來,隱去一些私密的個(gè)人數(shù)據(jù)。同時(shí),元數(shù)據(jù)可揭示數(shù)據(jù)的結(jié)構(gòu)和屬性,有助于人們組織和控制數(shù)據(jù)。而且,無論是大數(shù)據(jù)還是小數(shù)據(jù),元數(shù)據(jù)都可以將其著錄。(2)數(shù)據(jù)描述讓數(shù)據(jù)“可交流”。采用統(tǒng)一的數(shù)據(jù)描述體系,對(duì)所有科研數(shù)據(jù)進(jìn)行規(guī)范化描述,使得各類數(shù)據(jù)涵蓋在統(tǒng)一的標(biāo)準(zhǔn)體系中,可以幫助人們快速發(fā)現(xiàn)數(shù)據(jù)之間的異同與潛在的聯(lián)系,各數(shù)據(jù)之間也可進(jìn)行轉(zhuǎn)化,從而增加了數(shù)據(jù)的可見度和利用率。(3)知識(shí)關(guān)聯(lián)創(chuàng)造更大價(jià)值。經(jīng)過元數(shù)據(jù)標(biāo)引和數(shù)據(jù)描述,數(shù)據(jù)更易于組織和聚類,再結(jié)合專業(yè)知識(shí)和智能化技術(shù)將數(shù)據(jù)進(jìn)行加工整理,建立多樣化的知識(shí)關(guān)聯(lián)便可形成各類新數(shù)據(jù),進(jìn)而創(chuàng)造全新的數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務(wù)。當(dāng)數(shù)據(jù)經(jīng)過多次“流轉(zhuǎn)”和再利用,有望打破數(shù)據(jù)壁壘,跨越領(lǐng)域間隔,最大化釋放其價(jià)值[59]。
完成上述數(shù)據(jù)價(jià)值提升工作后,數(shù)據(jù)就處于一種被精心管理的、可被發(fā)現(xiàn)的、相互關(guān)聯(lián)的和可重復(fù)使用的狀態(tài)。為檢驗(yàn)數(shù)據(jù)價(jià)值提升效果,需要對(duì)數(shù)據(jù)價(jià)值進(jìn)行評(píng)估——若無量化評(píng)估方式或者任意制造評(píng)估標(biāo)準(zhǔn),就缺乏討論價(jià)值含義與保存策略的現(xiàn)實(shí)意義。在商業(yè)領(lǐng)域,商品價(jià)值可用貨幣來估算,但數(shù)據(jù)價(jià)值在大多情形下是不能用金錢直接衡量的,需從其他角度入手:商品價(jià)值轉(zhuǎn)化成貨幣,貨幣在流通中產(chǎn)生了價(jià)值;相似地,數(shù)據(jù)則在不斷流轉(zhuǎn)和被使用的過程中提升了價(jià)值。為此,筆者參考期望效用理論(Expected Utility Theory)[60],提出一個(gè)用以計(jì)算數(shù)據(jù)價(jià)值期望效用的公式。期望效用函數(shù)認(rèn)為,如果某個(gè)隨機(jī)變量X以概率Pi取值xi(i=1,2,…,n),而某人在確定得到xi時(shí)的效用為u(xi),那么,該隨機(jī)變量給他的效用便是U(X)=E[u(X)]=P1u(x1)+P2u(x2)+…+Pnu(xn),其中,E[u(X)]表示關(guān)于隨機(jī)變量X的期望效用。接著,引出本文中數(shù)據(jù)價(jià)值期望效用函數(shù)V(X)=(1+∑Pi·ki)T+et,式中各項(xiàng)指標(biāo)說明如表3所示。
表3 科研數(shù)據(jù)價(jià)值期望效用函數(shù)指標(biāo)說明
數(shù)據(jù)價(jià)值期望效用函數(shù)可以解釋為:如果以某隨機(jī)數(shù)據(jù)X在某時(shí)間節(jié)點(diǎn)的價(jià)值(包括科學(xué)價(jià)值、歷史價(jià)值、社會(huì)經(jīng)濟(jì)價(jià)值等)為單位1,此時(shí)對(duì)其實(shí)施價(jià)值提升操作,并在經(jīng)過時(shí)間t以后對(duì)其價(jià)值增量進(jìn)行評(píng)估,周期t內(nèi)該數(shù)據(jù)共流轉(zhuǎn)T次,那么,該數(shù)據(jù)的價(jià)值增量就等于數(shù)據(jù)初始價(jià)值與數(shù)據(jù)價(jià)值提升工作量∑Pi·ki乘以T,再加上該數(shù)據(jù)的社會(huì)效益e與數(shù)據(jù)流轉(zhuǎn)周期t的乘積。其中,數(shù)據(jù)著錄標(biāo)引工作可量化為元數(shù)據(jù)條目數(shù)量,數(shù)據(jù)描述工作可量化為由非規(guī)范描述調(diào)整為規(guī)范描述的數(shù)據(jù)屬性、數(shù)據(jù)關(guān)系或引用數(shù)據(jù)等的數(shù)量,知識(shí)關(guān)聯(lián)工作可量化為關(guān)聯(lián)程度等級(jí)(如按分類分組、摘要大綱、層級(jí)劃分、概念抽象化、可視化分為1~5的等級(jí))。各項(xiàng)工作的權(quán)重可結(jié)合圖書館專家和數(shù)據(jù)所屬領(lǐng)域?qū)<业慕?jīng)驗(yàn),以及工作量等來確定。
假設(shè)數(shù)據(jù)集X的價(jià)值提升工作量及各部分權(quán)重分別為:著錄30條元數(shù)據(jù)且著錄工作占整體工作的權(quán)重為0.3、規(guī)范化15條數(shù)據(jù)描述且描述工作權(quán)重為0.4、關(guān)聯(lián)等級(jí)為4 且工作權(quán)重為0.3,10年后該數(shù)據(jù)集共流轉(zhuǎn)100次,且它具有積極社會(huì)效益,效益等級(jí)為3,則10年后數(shù)據(jù)X的價(jià)值為V(X)=(1+30*0.3+15*0.4+4*0.3)*100+3*10=1750。
數(shù)據(jù)價(jià)值評(píng)估的目的與作用,除了實(shí)現(xiàn)最基礎(chǔ)的數(shù)據(jù)分析和數(shù)據(jù)價(jià)值的衡量,以及對(duì)圖書館在科研數(shù)據(jù)價(jià)值提升方面的工作效果進(jìn)行評(píng)估外,還可將有關(guān)信息提供給數(shù)據(jù)用戶或管理者幫助其改善決策,以及輔助一些以數(shù)據(jù)價(jià)值為基礎(chǔ)的管理工作(如創(chuàng)造更大收益、創(chuàng)造更多業(yè)績、提升工作效率、提升用戶滿意度)的開展。
當(dāng)前我國科研數(shù)據(jù)領(lǐng)域存在暗數(shù)據(jù)、小數(shù)據(jù)、無數(shù)據(jù)等嚴(yán)重?cái)?shù)據(jù)流失問題,緩解數(shù)據(jù)流失現(xiàn)象的實(shí)質(zhì)是凸顯這些數(shù)據(jù)的價(jià)值。經(jīng)文獻(xiàn)與案例的調(diào)研分析,本文認(rèn)為,提取元數(shù)據(jù)、數(shù)據(jù)規(guī)范化和建立知識(shí)關(guān)聯(lián)是提升數(shù)據(jù)價(jià)值的關(guān)鍵。從業(yè)務(wù)實(shí)踐角度看來,圖書館可作為權(quán)責(zé)主體為相關(guān)工作提供業(yè)務(wù)支持:經(jīng)由圖書館專家著錄標(biāo)引數(shù)據(jù)、描述數(shù)據(jù)和建立知識(shí)關(guān)聯(lián),并由圖書館采用可供利用的工具和技術(shù)提供多元化產(chǎn)品與服務(wù)。這樣,以盡可能低的人力和經(jīng)濟(jì)成本“變廢為寶”,實(shí)現(xiàn)讓“沉默的數(shù)據(jù)”顯現(xiàn)價(jià)值、外溢價(jià)值,最終衍生價(jià)值的轉(zhuǎn)變。面對(duì)不同類型的數(shù)據(jù)流失問題,應(yīng)在上述數(shù)據(jù)價(jià)值提升理論模型的基礎(chǔ)上,根據(jù)具體情況各有側(cè)重。
(1)暗數(shù)據(jù)的價(jià)值提升工作,基本符合理論框架中的主要工作流程。由于暗數(shù)據(jù)無法直接用于分析或商業(yè)化產(chǎn)生利益,可以運(yùn)用豐富的元數(shù)據(jù)將此類數(shù)據(jù)進(jìn)行深層揭示和刻畫,并采用同一描述框架規(guī)范數(shù)據(jù)。當(dāng)數(shù)據(jù)量累積到一定程度時(shí),就較容易發(fā)現(xiàn)其中隱藏的數(shù)據(jù)關(guān)系,通過分析這些數(shù)據(jù)關(guān)系存在的深層原因,也可能會(huì)有全新發(fā)現(xiàn)。
(2)除作為描述和管理數(shù)據(jù)的小數(shù)據(jù)(元數(shù)據(jù))外,其他類型的小數(shù)據(jù)(如主體零散的、項(xiàng)目型的數(shù)據(jù))的價(jià)值提升工作也基本符合理論框架,處理過程和暗數(shù)據(jù)相同。
(3)無數(shù)據(jù)是一種較為特殊的情形,雖然目前還無法解決數(shù)據(jù)不存在的問題,但是數(shù)據(jù)找不到和不可用的問題,還是有望通過該框架得以緩解。遵循上述暗數(shù)據(jù)和小數(shù)據(jù)的處理流程,對(duì)無數(shù)據(jù)建立關(guān)聯(lián),便可增加其可見度和可發(fā)現(xiàn)性,進(jìn)而促進(jìn)其使用和重用。
數(shù)據(jù)價(jià)值不同于商品價(jià)值,不易估量和定價(jià),且受到多重因素的共同的影響。期望效用函數(shù)提供了一個(gè)思路,通過多個(gè)變量指標(biāo)的運(yùn)算來量化表達(dá)人們對(duì)數(shù)據(jù)價(jià)值的期望值,也可對(duì)數(shù)據(jù)資產(chǎn)長期保存工作和數(shù)據(jù)價(jià)值提升工作效果作評(píng)估。具體到科研數(shù)據(jù)的價(jià)值評(píng)估,可以將科研數(shù)據(jù)的價(jià)值折算為某科研人員或團(tuán)隊(duì)的學(xué)術(shù)影響力、學(xué)術(shù)貢獻(xiàn)、科研信譽(yù)積分,可能也會(huì)有一部分可以轉(zhuǎn)換為物質(zhì)形式。
(1)元數(shù)據(jù)質(zhì)量和標(biāo)引適度。①確保元數(shù)據(jù)準(zhǔn)確完整。準(zhǔn)確性和完整性代表了元數(shù)據(jù)的高質(zhì)量,而高質(zhì)量的元數(shù)據(jù)可以讓科研數(shù)據(jù)更具有價(jià)值潛力。②適度標(biāo)引。元數(shù)據(jù)可以像都柏林核心集(Dublin Core,DC)一樣簡(jiǎn)單,也可以像MARC21那么復(fù)雜。如果使用DC(15個(gè)字段)著錄一份數(shù)據(jù)可能還不足以顯示出它與其他眾多數(shù)據(jù)之間有何種潛在的關(guān)聯(lián),因而需要對(duì)其更深層次地揭示。如若將這份數(shù)據(jù)用MARC21 逐字段著錄(幾百條),一定可以將數(shù)據(jù)的各種屬性和性質(zhì)非常細(xì)致地揭示出來,但所耗費(fèi)的人力和時(shí)間成本可能已遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)本身的價(jià)值,因此,需要根據(jù)實(shí)際情況在二者之間找到平衡。③希望通過眾多科研管理機(jī)構(gòu)、科研資助方等的共同努力,頒布相關(guān)激勵(lì)政策,以促進(jìn)科研人員向圖書館提交研究數(shù)據(jù),并鼓勵(lì)其提交較完整的元數(shù)據(jù)(可通過調(diào)研確定不同學(xué)科領(lǐng)域的元數(shù)據(jù)規(guī)范)。
(2)學(xué)科差異。上述數(shù)據(jù)價(jià)值提升理論框架中所涉及的各項(xiàng)具體業(yè)務(wù)工作均不可避免地存在學(xué)科差異問題。例如,不同學(xué)科中的科研數(shù)據(jù)由于格式、類型、研究方法的不同,在使用元數(shù)據(jù)著錄標(biāo)引時(shí),應(yīng)針對(duì)不同領(lǐng)域數(shù)據(jù)具體分析,適當(dāng)擴(kuò)充或刪減元數(shù)據(jù)。
(3)“睡美人”數(shù)據(jù)集。在使用數(shù)據(jù)價(jià)值期望效用函數(shù)計(jì)算數(shù)據(jù)價(jià)值時(shí),需注意一種例外情況,即“睡美人”數(shù)據(jù)集。這類特殊數(shù)據(jù)應(yīng)根據(jù)它“睡醒”后的流轉(zhuǎn)次數(shù)、社會(huì)效益等級(jí)等,靈活考慮是否有必要將其“沉睡時(shí)期”納入流轉(zhuǎn)周期。
(4)合理確定科研數(shù)據(jù)價(jià)值期望效用函數(shù)中涉及的加權(quán)項(xiàng)目及其比重。具體可參考國內(nèi)外對(duì)數(shù)據(jù)價(jià)值內(nèi)容的相關(guān)研究,而流轉(zhuǎn)次數(shù)可通過Altmetrics等平臺(tái)獲取。
(5)數(shù)據(jù)獲取途徑。圖書館應(yīng)積極宣傳推廣數(shù)據(jù)價(jià)值提升方案,調(diào)查訪問并聯(lián)系亟待解決數(shù)據(jù)流失問題的科研機(jī)構(gòu),與其簽署合作與保密協(xié)議,獲取相關(guān)數(shù)據(jù)并輔助其相關(guān)工作的開展。