黃金霞,馬雨萌
?
大數(shù)據(jù)時(shí)代開(kāi)放信息資源的數(shù)據(jù)服務(wù)能力思考
黃金霞,馬雨萌
(中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)
面對(duì)科研第四范式下科研人員對(duì)科學(xué)數(shù)據(jù)及其應(yīng)用的需求變化,圖書(shū)館開(kāi)始思考開(kāi)放資源建設(shè)的服務(wù)能力。分析開(kāi)放信息資源的數(shù)據(jù)化發(fā)展特征,基于對(duì)中國(guó)科學(xué)院科研人員數(shù)據(jù)需求的調(diào)查分析,設(shè)計(jì)開(kāi)放信息資源的數(shù)據(jù)服務(wù)策略和服務(wù)流程,并初步開(kāi)展數(shù)據(jù)服務(wù)實(shí)踐。從為用戶提供更精準(zhǔn)的開(kāi)放資源服務(wù)角度,建議圖書(shū)館深入研究數(shù)據(jù)服務(wù)的理論和方法。
科研第四范式;開(kāi)放資源;數(shù)據(jù)服務(wù);服務(wù)策略
近十年,在期刊訂購(gòu)經(jīng)費(fèi)危機(jī)、信息獲取許可危機(jī)、學(xué)術(shù)交流開(kāi)放危機(jī)的刺激下,開(kāi)放獲取運(yùn)動(dòng)發(fā)展迅猛,產(chǎn)生的直接結(jié)果之一是形成大量開(kāi)放信息資源(下文簡(jiǎn)稱為“開(kāi)放資源”)。如何利用這些快速發(fā)展的開(kāi)放資源,一方面,在經(jīng)費(fèi)不增加投入的情況下繼續(xù)充實(shí)館藏;另一方面,突破傳統(tǒng)的數(shù)據(jù)庫(kù)訪問(wèn)服務(wù)方式而實(shí)現(xiàn)內(nèi)容服務(wù),成為研究型圖書(shū)館面臨的機(jī)遇和挑戰(zhàn)[1]。開(kāi)放獲?。∣pen Access),自產(chǎn)生就具有免費(fèi)獲取、隨時(shí)隨地通過(guò)網(wǎng)絡(luò)訪問(wèn)、永久獲取、使用權(quán)廣泛等主要特征,使圖書(shū)館基于開(kāi)放資源的信息服務(wù)方式更加豐富。本文將思考圖書(shū)館開(kāi)放資源建設(shè)的新型服務(wù)能力,分析數(shù)據(jù)服務(wù)能力,嘗試構(gòu)建圖書(shū)館信息資源精準(zhǔn)服務(wù)的新型實(shí)現(xiàn)方式,期待大數(shù)據(jù)時(shí)代的圖書(shū)館在搜索引擎、大型網(wǎng)絡(luò)公司的重圍中贏得繼續(xù)發(fā)展的機(jī)會(huì)。
1.1 大數(shù)據(jù)環(huán)境中科研工作信息資源需求變化
2011年5月,麥肯錫公司發(fā)布《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)力和生產(chǎn)力前沿》,提出“大數(shù)據(jù)”將引發(fā)新一輪的生產(chǎn)力增長(zhǎng)與創(chuàng)新,成為競(jìng)爭(zhēng)的關(guān)鍵[2]。其后,“大數(shù)據(jù)”迅速成為熱點(diǎn),在助力智慧城市建設(shè)、互聯(lián)網(wǎng)金融發(fā)展、電子商務(wù)、社會(huì)安全等方面的應(yīng)用價(jià)值日益凸顯[3]。在科學(xué)研究領(lǐng)域,也形成“大數(shù)據(jù)”這種新的科學(xué)基礎(chǔ)設(shè)施,推動(dòng)科學(xué)研究走向數(shù)據(jù)密集型的第四范式,數(shù)據(jù)不僅是科學(xué)研究的結(jié)果,更是科學(xué)研究的新基礎(chǔ)[4]。
科研信息需求從傳統(tǒng)的科研文獻(xiàn)信息向科學(xué)數(shù)據(jù)轉(zhuǎn)變,越來(lái)越多的科學(xué)研究工作無(wú)需從頭開(kāi)始,而是建立在對(duì)現(xiàn)有研究數(shù)據(jù)資源組織、解析及利用的基礎(chǔ)上。從不同領(lǐng)域的科研論文看,科研第四范式中的數(shù)據(jù)涵蓋大數(shù)據(jù)集和非大數(shù)據(jù)集,并非僅是大數(shù)據(jù)集。在生物學(xué)領(lǐng)域大量DNA序列數(shù)據(jù)的挖掘用于生物信息學(xué)研究[5],遙感大數(shù)據(jù)自動(dòng)分析和數(shù)據(jù)挖掘成為遙感領(lǐng)域科研發(fā)展方向[6];同時(shí),PubMed來(lái)源的百萬(wàn)篇文章的圖、表被用來(lái)挖掘和構(gòu)建腦成像數(shù)據(jù)庫(kù)[7],Web of Science中千篇文章的摘要被分析后用以重新發(fā)表論文;前兩個(gè)例子用到了大數(shù)據(jù)集,后兩個(gè)例子利用了文獻(xiàn)來(lái)源的非大數(shù)據(jù)集。
當(dāng)前科研論文和原始科研數(shù)據(jù)還不能廣泛地開(kāi)放獲取,存在嚴(yán)重的“數(shù)據(jù)鴻溝”,也有較大比例科學(xué)家不愿意發(fā)布或共享自己的試驗(yàn)數(shù)據(jù)。文獻(xiàn)中已發(fā)布數(shù)據(jù)或開(kāi)放資源,成為新的數(shù)據(jù)分析來(lái)源,包括文獻(xiàn)資源中期刊論文的圖表和開(kāi)放數(shù)據(jù)(開(kāi)放的政府?dāng)?shù)據(jù)、天氣數(shù)據(jù)、交通數(shù)據(jù)、網(wǎng)絡(luò)中免費(fèi)的社會(huì)經(jīng)濟(jì)新聞、市場(chǎng)分析數(shù)據(jù)、標(biāo)準(zhǔn)、專利等)。開(kāi)放資源的開(kāi)放性、關(guān)聯(lián)性、知識(shí)化使其更容易被發(fā)現(xiàn)、獲取、再利用。
1.2 開(kāi)放資源建設(shè)的服務(wù)能力思考
開(kāi)放資源在學(xué)術(shù)活動(dòng)中已越來(lái)越重要,其數(shù)量和學(xué)術(shù)影響力快速上升。2015年,開(kāi)放獲取期刊數(shù)量超過(guò)1.2萬(wàn)種,PubMed Central(PMC)存儲(chǔ)的開(kāi)放論文超過(guò)370萬(wàn)篇,世界銀行倉(cāng)儲(chǔ)中科研產(chǎn)品達(dá)到19 474份,Dryad包括10 274個(gè)數(shù)據(jù)包、32 979個(gè)數(shù)據(jù)文件,OpenAire更是由歐洲38個(gè)合作國(guó)共同開(kāi)發(fā)的開(kāi)放知識(shí)庫(kù)網(wǎng)絡(luò)。同時(shí),大量的文獻(xiàn)資源、網(wǎng)絡(luò)信息資源被Google、美國(guó)國(guó)會(huì)圖書(shū)館、開(kāi)放地理信息聯(lián)盟等以開(kāi)放關(guān)聯(lián)數(shù)據(jù)、通用數(shù)據(jù)格式對(duì)外發(fā)布。開(kāi)放信息也在迅速成為可計(jì)算的開(kāi)放知識(shí),開(kāi)放獲取本身就具有較清晰的使用權(quán)益申明,其中Libre Open Access允許對(duì)信息的復(fù)用,包括數(shù)據(jù)挖掘、作品衍生等。數(shù)據(jù)分析和處理技術(shù)在科學(xué)研究領(lǐng)域的廣泛應(yīng)用,將支持開(kāi)放資源被更好地再利用[8]。
除著力構(gòu)建開(kāi)放資源集成內(nèi)容體系,開(kāi)放資源建設(shè)更要打造開(kāi)放資源服務(wù)體系。開(kāi)放資源服務(wù)體系,包括普遍服務(wù)內(nèi)容,例如開(kāi)放資源元數(shù)據(jù)集成服務(wù)平臺(tái)、進(jìn)行多源開(kāi)放資源內(nèi)容關(guān)聯(lián)、提供定題集成、編輯虛擬期刊、建立開(kāi)放資源評(píng)價(jià)服務(wù)等;也包括再利用服務(wù)內(nèi)容,例如開(kāi)放資源內(nèi)容以關(guān)聯(lián)數(shù)據(jù)方式重新發(fā)布、基于開(kāi)放科研數(shù)據(jù)挖掘新知識(shí)、打造特定領(lǐng)域的開(kāi)放知識(shí)環(huán)境等。綜上所述,從信息資源組織角度看,開(kāi)放資源的服務(wù)可以劃分為3個(gè)層次及對(duì)應(yīng)多個(gè)服務(wù)產(chǎn)品,見(jiàn)表1。黃永文等提出開(kāi)放資源的6種再利用服務(wù)模式,包括集成檢索服務(wù)、學(xué)術(shù)引用網(wǎng)絡(luò)分析服務(wù)等,主要指信息層面的服務(wù)[9];知識(shí)層面的服務(wù)指圍繞知識(shí)概念和關(guān)系的發(fā)現(xiàn);數(shù)據(jù)層面的服務(wù)指提供各種類型數(shù)據(jù)及其應(yīng)用的服務(wù)。
在數(shù)據(jù)密集型科研中,信息共享、交流互動(dòng)已不再是最迫切的用戶需求,數(shù)據(jù)的分析和整合才是最大挑戰(zhàn),因?yàn)閿?shù)據(jù)是信息、知識(shí)和智慧的“原材料”[10]。圖書(shū)館亟需探索新的服務(wù)模式為用戶提供精準(zhǔn)服務(wù),開(kāi)放資源的快速發(fā)展,為圖書(shū)館開(kāi)創(chuàng)數(shù)據(jù)密集型科研的個(gè)性化數(shù)據(jù)服務(wù)提供可能,但也面臨理論和方法的挑戰(zhàn)。本文思考的數(shù)據(jù)服務(wù)不等同于科學(xué)數(shù)據(jù)管理服務(wù)??茖W(xué)數(shù)據(jù)管理服務(wù)是指為科學(xué)家提供科研過(guò)程中數(shù)據(jù)管理方案和存儲(chǔ)服務(wù),而開(kāi)放資源的數(shù)據(jù)服務(wù)指提供來(lái)自于大量開(kāi)放資源的數(shù)據(jù)獲取、組織、分析等增值服務(wù)。當(dāng)前國(guó)外圖書(shū)館提供的數(shù)據(jù)服務(wù)主要是數(shù)據(jù)分析服務(wù),例如,美國(guó)康奈爾大學(xué)圖書(shū)館提供大型數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)分析、空間分析、定性分析等[11],這些服務(wù)內(nèi)容并不包括數(shù)據(jù)獲取服務(wù)、數(shù)據(jù)組織服務(wù),因?yàn)榭赡軤可娴綌?shù)據(jù)權(quán)、使用權(quán)等問(wèn)題。當(dāng)前絕大多數(shù)開(kāi)放資源執(zhí)行的知識(shí)共享協(xié)議可以幫助圖書(shū)館規(guī)避數(shù)據(jù)服務(wù)中的一些約束,例如,再利用權(quán)益問(wèn)題[12]。利用開(kāi)放資源進(jìn)行數(shù)據(jù)服務(wù)的案例,目前在國(guó)內(nèi)圖書(shū)館界并不多,絕大多數(shù)圖書(shū)館缺乏大數(shù)據(jù)時(shí)代下的數(shù)據(jù)儲(chǔ)備能力、數(shù)據(jù)服務(wù)能力,以及數(shù)據(jù)再利用的復(fù)雜權(quán)益問(wèn)題處理能力。在開(kāi)放資源集成建設(shè)的基礎(chǔ)上,少數(shù)研究型圖書(shū)館正在嘗試開(kāi)展數(shù)據(jù)服務(wù),例如開(kāi)放論文一站式發(fā)現(xiàn)平臺(tái)GoOA提供開(kāi)放數(shù)據(jù)定制服務(wù)[13]。
科研第四范式中使用的數(shù)據(jù),包括大數(shù)據(jù)集和非大數(shù)據(jù)集。非大數(shù)據(jù)集的數(shù)據(jù)特征,包括中小規(guī)模、非時(shí)變、單一結(jié)構(gòu)/領(lǐng)域、集中存儲(chǔ);而大數(shù)據(jù)集的數(shù)據(jù)特征,包括海量、分布/多源、流數(shù)據(jù)、異構(gòu)、高不確定性等[14]。綜合二者,信息資源的數(shù)據(jù)化發(fā)展特征,應(yīng)包括規(guī)?;?、多樣化、結(jié)構(gòu)化、價(jià)值化。
開(kāi)放資源尤其是開(kāi)放學(xué)術(shù)資源,例如開(kāi)放獲取期刊、開(kāi)放獲取圖書(shū)、開(kāi)放學(xué)位論文、開(kāi)放課件等;生產(chǎn)、傳播具有與傳統(tǒng)文獻(xiàn)資源基本一致的流程,包括編輯(出版)、交流、存儲(chǔ)、再利用。開(kāi)放資源出現(xiàn)最初是為了被廣泛地發(fā)現(xiàn)和使用,在其產(chǎn)生和傳播的不同階段都為此目標(biāo)作準(zhǔn)備,包括數(shù)據(jù)化發(fā)展方向。
在編輯出版階段,很多開(kāi)放資源始于數(shù)字,資源內(nèi)容越來(lái)越多以語(yǔ)義增強(qiáng)出版、結(jié)構(gòu)化或半結(jié)構(gòu)化的方式呈現(xiàn),除資源本身規(guī)模的快速增加,OA論文、開(kāi)放圖書(shū)、開(kāi)放報(bào)告、開(kāi)放學(xué)位論文等開(kāi)放資源中附帶的開(kāi)放數(shù)據(jù)、附錄資料數(shù)據(jù)等也越來(lái)越多;在交流階段,傳統(tǒng)的文獻(xiàn)資源或館藏內(nèi)容,被圖書(shū)館或其他信息建設(shè)機(jī)構(gòu)逐步加工成開(kāi)放關(guān)聯(lián)數(shù)據(jù),對(duì)外發(fā)布、開(kāi)放共享,這也增加了開(kāi)放資源的類型、規(guī)模和結(jié)構(gòu)化程度;在存儲(chǔ)階段,中國(guó)科學(xué)院機(jī)構(gòu)知識(shí)庫(kù)網(wǎng)格集中存儲(chǔ)的資源類型超過(guò)10種、資源數(shù)量超過(guò)70萬(wàn)個(gè)文件、來(lái)源于100多個(gè)研究所機(jī)構(gòu)知識(shí)庫(kù),開(kāi)放學(xué)科存儲(chǔ)PMC和預(yù)印本系統(tǒng)arXiv收錄的OA論文、數(shù)據(jù)倉(cāng)儲(chǔ)Dryad收錄的數(shù)據(jù)文件已成規(guī)模,其中高價(jià)值的OA論文和數(shù)據(jù)不斷被發(fā)現(xiàn)和應(yīng)用,例如PMC的論文正被不同研究目標(biāo)的科研人員進(jìn)行挖掘分析;再利用階段,數(shù)據(jù)作為一種公開(kāi)商品或資源,早就明碼標(biāo)價(jià)以購(gòu)買(mǎi)版權(quán)使用,而開(kāi)放資源具有較清晰的使用權(quán)益,使其數(shù)據(jù)使用和再利用也更方便。
數(shù)據(jù)的價(jià)值化指在大數(shù)據(jù)的分析中對(duì)數(shù)據(jù)去冗分類、去粗取精,從數(shù)據(jù)中挖掘出有價(jià)值的信息與知識(shí),把大數(shù)據(jù)通過(guò)定量分析變成小數(shù)據(jù)的過(guò)程[15]。來(lái)源于開(kāi)放學(xué)術(shù)資源的科學(xué)數(shù)據(jù),其質(zhì)量和價(jià)值已經(jīng)在同行評(píng)議和發(fā)表中被證明。
中國(guó)科學(xué)院科研人員自2013年從事開(kāi)放資源建設(shè)工作起,每年都在中國(guó)科學(xué)院進(jìn)行用戶需求問(wèn)卷調(diào)查,調(diào)查結(jié)果反映科研人員對(duì)開(kāi)放資源的需求變化:2013年,用戶希望建設(shè)開(kāi)放資源的發(fā)現(xiàn)途徑、集成檢索;2014年,用戶希望提供開(kāi)放資源的全文集成和獲取方式;2015年,用戶希望建立開(kāi)放資源的發(fā)現(xiàn)和整合工具;2016年,科研人員對(duì)存在于不同開(kāi)放信息源中的數(shù)據(jù)需求變得越來(lái)越強(qiáng)烈,包括對(duì)多源數(shù)據(jù)的發(fā)現(xiàn)需求、數(shù)據(jù)獲取需求、數(shù)據(jù)整合需求、數(shù)據(jù)分析服務(wù)需求、數(shù)據(jù)挖掘服務(wù)需求等。因此,2016年3月組織的中國(guó)科學(xué)院科研人員開(kāi)放數(shù)據(jù)需求問(wèn)卷調(diào)查,目的在于掌握科研人員在數(shù)據(jù)利用過(guò)程中的問(wèn)題和需求,為圖書(shū)館順利開(kāi)展基于開(kāi)放資源的數(shù)據(jù)服務(wù)提供依據(jù)。
本次網(wǎng)絡(luò)問(wèn)卷調(diào)查,共收到反饋640份,包括來(lái)自中國(guó)科學(xué)院65個(gè)研究所的科研人員,其中,生物領(lǐng)域人員占31%,物理領(lǐng)域人員占19%,生態(tài)/環(huán)境領(lǐng)域人員占19%,化學(xué)領(lǐng)域人員占7%,計(jì)算機(jī)科學(xué)/自動(dòng)化領(lǐng)域人員占5%[16]。問(wèn)卷調(diào)查內(nèi)容分為5類,如表2所示。
從表2的調(diào)查結(jié)果可以看出,在大數(shù)據(jù)時(shí)代的茫茫數(shù)據(jù)海洋中,科研人員有強(qiáng)烈的數(shù)據(jù)使用需要,但目前還無(wú)法有效地發(fā)現(xiàn)數(shù)據(jù)、獲取數(shù)據(jù)和應(yīng)用數(shù)據(jù),期望能獲得非營(yíng)利性的定制數(shù)據(jù)服務(wù)渠道。另外,數(shù)據(jù)服務(wù)需求偏向于生物醫(yī)藥、地球物理等相關(guān)領(lǐng)域。
依據(jù)上述對(duì)開(kāi)放資源的數(shù)據(jù)化發(fā)展特征分析以及用戶需求分析,參照《數(shù)據(jù)工程理論與技術(shù)》[10],設(shè)計(jì)基于開(kāi)放資源的數(shù)據(jù)服務(wù)策略及工作流程(見(jiàn)圖1)。
4.1 數(shù)據(jù)服務(wù)策略設(shè)計(jì)
其主要包括服務(wù)要素構(gòu)建策略、服務(wù)產(chǎn)品構(gòu)建策略和服務(wù)持續(xù)策略。
(1)數(shù)據(jù)服務(wù)要素構(gòu)建策略。與數(shù)據(jù)工程服務(wù)或圖書(shū)館的傳統(tǒng)文獻(xiàn)服務(wù)不同,開(kāi)放資源的數(shù)據(jù)服務(wù)是面向科學(xué)家的個(gè)性化研究需要,數(shù)據(jù)類型涉及面廣,需要針對(duì)用戶需求快速設(shè)計(jì)出有效的數(shù)據(jù)服務(wù)內(nèi)容,需要強(qiáng)有力的技術(shù)支持,有知識(shí)產(chǎn)權(quán)問(wèn)題或權(quán)益糾紛處理能力。所以,要構(gòu)建研究數(shù)據(jù)服務(wù)要素以保障服務(wù)的順利開(kāi)展。數(shù)據(jù)服務(wù)要素包括數(shù)據(jù)需求對(duì)象、數(shù)據(jù)服務(wù)內(nèi)容、數(shù)據(jù)服務(wù)約束、數(shù)據(jù)服務(wù)館員的構(gòu)建,及其在服務(wù)策略和流程中的相互作用和彼此關(guān)系。數(shù)據(jù)服務(wù)館員團(tuán)隊(duì)的培養(yǎng)很重要,其需要具備開(kāi)放資源的發(fā)現(xiàn)獲取能力、數(shù)據(jù)化處理能力、數(shù)據(jù)服務(wù)內(nèi)容設(shè)計(jì)能力、數(shù)據(jù)服務(wù)產(chǎn)品實(shí)現(xiàn)和應(yīng)用能力,包括學(xué)科館員、資源建設(shè)人員、計(jì)算機(jī)專業(yè)的技術(shù)人員等。
(2)數(shù)據(jù)服務(wù)產(chǎn)品構(gòu)建策略。依據(jù)用戶數(shù)據(jù)服務(wù)需求,研究設(shè)計(jì)多種類型的數(shù)據(jù)服務(wù)模式,包括多種數(shù)據(jù)服務(wù)內(nèi)容及其服務(wù)產(chǎn)品設(shè)計(jì)。按照數(shù)據(jù)工程理論,數(shù)據(jù)服務(wù)模式按照層次高低可設(shè)計(jì)為傳遞服務(wù)模式、使用服務(wù)模式、求解服務(wù)模式及其他服務(wù)模式,所對(duì)應(yīng)的數(shù)據(jù)服務(wù)產(chǎn)品相對(duì)應(yīng)為數(shù)據(jù)集產(chǎn)品、數(shù)據(jù)應(yīng)用系統(tǒng)、問(wèn)題解決方案及其他服務(wù)產(chǎn)品[17]。數(shù)據(jù)服務(wù)有個(gè)性化特征,有必要按照用戶的特定需求來(lái)構(gòu)建服務(wù)產(chǎn)品,同時(shí),服務(wù)內(nèi)容不同,其涵蓋的數(shù)據(jù)服務(wù)要素也將發(fā)生相應(yīng)變化。
(3)數(shù)據(jù)服務(wù)持續(xù)策略。圖書(shū)館開(kāi)展開(kāi)放資源建設(shè),對(duì)用戶來(lái)說(shuō)并不比Google或百度等開(kāi)放搜索引擎的吸引力大,但當(dāng)圖書(shū)館擁有開(kāi)放資源內(nèi)容時(shí),將開(kāi)創(chuàng)個(gè)性化的數(shù)據(jù)服務(wù)方式,這將為圖書(shū)館資源建設(shè)工作提供新的發(fā)展方向。所以有必要圍繞數(shù)據(jù)服務(wù)能力和服務(wù)流程來(lái)研究建立服務(wù)可持續(xù)機(jī)制,包括數(shù)據(jù)服務(wù)各要素的能力持續(xù)建設(shè)、服務(wù)策略持續(xù)建設(shè),以及服務(wù)過(guò)程中的約束分析和管理方案建設(shè)等。
4.2 數(shù)據(jù)服務(wù)流程設(shè)計(jì)
以上服務(wù)策略將保障從開(kāi)放資源發(fā)現(xiàn)到數(shù)據(jù)原料加工,從數(shù)據(jù)產(chǎn)品構(gòu)建到應(yīng)用價(jià)值實(shí)現(xiàn)的服務(wù)流程。流程具體包括:了解數(shù)據(jù)密集型科研中不同領(lǐng)域科研人員的數(shù)據(jù)需求,例如數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)獲取、數(shù)據(jù)加工、數(shù)據(jù)分析等需求;目標(biāo)開(kāi)放資源的發(fā)現(xiàn)和采集,開(kāi)放資源范圍涵蓋用戶所需要的類型,例如開(kāi)放出版資源、開(kāi)放倉(cāng)儲(chǔ)資源、開(kāi)放的網(wǎng)絡(luò)信息、商業(yè)數(shù)據(jù)庫(kù)的開(kāi)放元數(shù)據(jù)、開(kāi)放或合作的科研數(shù)據(jù)等;信息資源的數(shù)據(jù)化解析和組織,完成數(shù)據(jù)格式清理、內(nèi)容清理,建立一定程度的數(shù)據(jù)關(guān)系,例如水稻品種數(shù)據(jù)與表型數(shù)據(jù)的關(guān)系、表型數(shù)據(jù)與基因突變體DNA片段數(shù)據(jù)的關(guān)系;數(shù)據(jù)服務(wù)內(nèi)容設(shè)計(jì),構(gòu)建用戶需要的數(shù)據(jù)服務(wù)模式及其服務(wù)產(chǎn)品形式,并協(xié)助用戶進(jìn)行進(jìn)一步的數(shù)據(jù)分析和論文撰寫(xiě)等。
4.3 開(kāi)放資源的數(shù)據(jù)服務(wù)實(shí)踐
多年來(lái)國(guó)內(nèi)水稻的品種改良工作一直在進(jìn)行,相關(guān)研究人員發(fā)表了眾多論文,尤其是在提升水稻抗性方面的工作進(jìn)展很大,但很多工作是通過(guò)常規(guī)育種方式進(jìn)行的,如何把國(guó)內(nèi)的常規(guī)育種結(jié)果與國(guó)外分子生物學(xué)層次的研究結(jié)果結(jié)合起來(lái)進(jìn)行系統(tǒng)分析,目前國(guó)內(nèi)的科研人員還缺乏有效的平臺(tái)和工具。水稻分子育種的科研人員希望從多源開(kāi)放資源中進(jìn)行相關(guān)數(shù)據(jù)獲取、加工和分析,以建立可用的數(shù)據(jù)集,再利用這個(gè)數(shù)據(jù)集進(jìn)行相關(guān)數(shù)據(jù)分析,推進(jìn)科研試驗(yàn),撰寫(xiě)文章并發(fā)表。
中國(guó)科學(xué)院科研人員面對(duì)水稻開(kāi)放數(shù)據(jù)服務(wù)需求,首先,確定由生物領(lǐng)域?qū)W科館員、開(kāi)放資源建設(shè)人員、數(shù)據(jù)加工技術(shù)人員組成的3人數(shù)據(jù)服務(wù)小組;然后與科研人員確定需求的數(shù)據(jù)類型、數(shù)據(jù)獲取源、數(shù)據(jù)服務(wù)模式;最后,確定服務(wù)完成時(shí)間和后續(xù)數(shù)據(jù)更新保障時(shí)間(年)。目前服務(wù)產(chǎn)品已完成,產(chǎn)品形式為數(shù)據(jù)集文件,數(shù)據(jù)來(lái)源和類型涉及開(kāi)放網(wǎng)絡(luò)來(lái)源的國(guó)內(nèi)水稻審定品種、親本、性狀尤其是具有的抗性,開(kāi)放文獻(xiàn)來(lái)源的水稻品種/品系、突變體基因型、對(duì)應(yīng)的表型、突變基因片段的PRC引物序列及其PCR電泳圖譜。包括50年來(lái)的8 000多個(gè)水稻省級(jí)審定品種的親本信息、27個(gè)表型特征,例如莖、葉、穗、粒、植株、種子、敏感度、米質(zhì)等的性狀;30多種抗性例如稻瘟病抗性、白葉枯病抗性等及其抗性等級(jí);10條基因描述信息例如基因座名稱、所在染色體、定位與克隆、突變體表型等,后續(xù)數(shù)據(jù)更新時(shí)間為1年/次。
當(dāng)大數(shù)據(jù)浪潮撲面而來(lái)的時(shí)候,圖書(shū)館這只海燕該如何飛翔[18-19]?,F(xiàn)有的大數(shù)據(jù)應(yīng)用多集中于基礎(chǔ)設(shè)施建設(shè)(云平臺(tái)、數(shù)據(jù)中心、計(jì)算架構(gòu)等),所展現(xiàn)的成功應(yīng)用基本是以查詢處理為基礎(chǔ)的技術(shù),分析還僅限于傳統(tǒng)方法(統(tǒng)計(jì)分析、數(shù)據(jù)挖掘),仍是非常初級(jí)的[14]。同時(shí),在科研領(lǐng)域的數(shù)據(jù)分析,使用到大數(shù)據(jù)集和非大數(shù)據(jù)集,要發(fā)展大數(shù)據(jù)產(chǎn)業(yè),數(shù)據(jù)依然是基礎(chǔ),選擇合適粒度的數(shù)據(jù),集成這些數(shù)據(jù),需要重視數(shù)據(jù)資源建設(shè),但當(dāng)前開(kāi)放數(shù)據(jù)資源建設(shè)仍存在一定資源獲取難度。
數(shù)據(jù)密集型科研用戶對(duì)數(shù)據(jù)的強(qiáng)烈需求,為資源建設(shè)方式的轉(zhuǎn)型提供目標(biāo),開(kāi)放資源再利用建設(shè)將可能“從數(shù)據(jù)直接實(shí)現(xiàn)價(jià)值”,而不再依賴傳統(tǒng)的信息傳遞鏈。圖書(shū)館可以考慮抓住開(kāi)放資源的快速發(fā)展機(jī)會(huì),緊密結(jié)合科研用戶對(duì)數(shù)據(jù)的需求,培養(yǎng)數(shù)據(jù)服務(wù)館員,深度打造一批數(shù)據(jù)資源,為用戶提供定制性的服務(wù)產(chǎn)品,形成本館在大數(shù)據(jù)發(fā)展時(shí)代的精準(zhǔn)服務(wù)能力之一。研究型圖書(shū)館與科研人員的貼近,具備傳統(tǒng)資源發(fā)現(xiàn)、信息組織、采集技術(shù)和情報(bào)分析能力,使圖書(shū)館開(kāi)展個(gè)性化數(shù)據(jù)服務(wù)成為可能,當(dāng)然,圖書(shū)館還需要在數(shù)據(jù)服務(wù)理論和方法上進(jìn)行系統(tǒng)而深入地研究。
[1] 黃金霞,張建勇,黃永文,等.開(kāi)放資源建設(shè)的措施及工作策略[J].圖書(shū)情報(bào)工作,2013,57(8):57-61.
[2] McKinsey Global Institute.Big data:the next frontier for innovation,com-petition,and productivity[EB/OL].(2011-05)[2016-07-23]. http://www.mckinsey.com/business-functions/business-technology/our-insights/big-data-the-next-frontier-for-innovation.
[3] 李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012,27(6):647-657.
[4] 朱揚(yáng)勇,熊赟.DNA序列數(shù)據(jù)挖掘技術(shù)[J].軟件學(xué)報(bào),2007,18(11): 2766-2781.
[5] 李德仁,張良培,夏桂松.遙感大數(shù)據(jù)自動(dòng)分析與數(shù)據(jù)挖掘[J].測(cè)繪學(xué)報(bào),2014,43(12):1211-1216.
[6] HEY T,TANSLEY S,TOLLE K.第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)[M].潘教峰,張曉林,譯.北京:科學(xué)出版社, 2012.
[7] YARKONI T,POLDRACK R A,NICHOLS T E,et al.Large-scale automated synthesis of human functional neuroimaging data[J].Nature Methods, 2011,8(8):665-670.
[8] 張曉林.開(kāi)放獲取、開(kāi)放知識(shí)、開(kāi)放創(chuàng)新推動(dòng)開(kāi)放知識(shí)服務(wù)模式——3O匯聚于研究圖書(shū)館范式再轉(zhuǎn)變[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(2):1-10.
[9] 黃永文,張建勇,謝靖,等.開(kāi)放資源的再利用模式研究[J].圖書(shū)情報(bào)工作, 2013(21):32-37.
[10] 戴劍偉,吳照林,朱明東,等.數(shù)據(jù)工程理論與技術(shù)[M].北京:國(guó)防工業(yè)出版社, 2010.
[11] Cornell University.Data management services at Cornell[EB/OL]. [2016-07-23]. http://data.research.cornell.edu/services#Data collection and analysis.
[12] 劉靜羽,肖曼,陳雪飛,等.圖書(shū)館開(kāi)放期刊再利用中的權(quán)益問(wèn)題研究[J].數(shù)字圖書(shū)館論壇,2016(2):63-71.
[13] 用GoOA數(shù)據(jù),做你的文章——GoOA文獻(xiàn)數(shù)據(jù)再利用服務(wù)[EB/OL].[2016-07-23]. http://gooa.las.ac.cn/external/open_interface_datause.jsp.
[14] 徐宗本.大數(shù)據(jù)·大智慧——“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”背景下的大數(shù)據(jù)產(chǎn)業(yè)[EB/OL].(2016-01-11)[2016-07-23].http://www.casmooc.cn/onlineCourseAction.do?method=detail&bookId=1452478828623.
[15] 李廣建,化柏林.大數(shù)據(jù)分析與情報(bào)分析關(guān)系辨析[J].中國(guó)圖書(shū)館學(xué)報(bào),2014(5):14-22.
[16] 開(kāi)放資源建設(shè)團(tuán)隊(duì).中國(guó)科學(xué)院科研人員的開(kāi)放數(shù)據(jù)需求調(diào)查報(bào)告[EB/OL].[2016-07-23].http://ir.las.ac.cn/handle/12502/8706.
[17] 文峰.對(duì)幾種典型數(shù)據(jù)服務(wù)模式的對(duì)比分析[J].科技信息, 2013(25):107- 108,139.
[18] 蘇新寧.大數(shù)據(jù)時(shí)代數(shù)字圖書(shū)館面臨的機(jī)遇和挑戰(zhàn)[J].中國(guó)圖書(shū)館學(xué)報(bào), 2015 (6):4-12.
[19] 張斌,馬費(fèi)成.大數(shù)據(jù)環(huán)境下數(shù)字信息資源服務(wù)創(chuàng)新[J].情報(bào)理論與實(shí)踐, 2014(6):28-33.
Thinking on the Data Services from Open Resources Development in Big Data Era
HUANG JinXia, MA YuMeng
(National Science Library, Chinese Academy of Sciences, Beijing 100190, China)
Based on the demand changes to scientific data and its applications from the researchers in the fourth paradigm, the service abilities in the open resources development were studied. Firstly, the data characteristics of open resources were analyzed, and the demands on scientific data were also surveyed in the researchers of Chinese Academy of Sciences. Then, this paper designed the data service strategy and service process of the open resources, and completed a data service practice. From the perspective of providing researchers with more accurate open resource services, it was discussed finally that the library should pay more attentions on the theory and methods of data services.
the Fourth Paradigm; Open Resources; Data Services; Service Strategy
G250
10.3772/j.issn.1673-2286.2016.8.009
(2016-08-23)
黃金霞,女,1972年生,博士,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心副研究館員,研究方向:信息資源組織和建設(shè)、開(kāi)放資源建設(shè),E-mail:huangjx@mail.las.ac.cn。
馬雨萌,女,1989年生,碩士,中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心助理館員,研究方向:開(kāi)放資源建設(shè)。