,
學(xué)科知識庫(“Subject Knowledge Repository”或“Disciplinary Knowledge Repository”)是基于學(xué)科的開放存取倉儲,是對某一學(xué)科或幾個學(xué)科的各類資源進行收集、保存并通過互聯(lián)網(wǎng)實現(xiàn)開放存取的知識庫[1]。學(xué)科知識庫聯(lián)盟是由同學(xué)科或幾個學(xué)科的多個成員機構(gòu)構(gòu)成,根據(jù)成員機構(gòu)的自身特點選取適合的聯(lián)盟模式,組成專業(yè)性強且內(nèi)容豐富的集成性學(xué)科知識庫。國外醫(yī)藥類學(xué)科知識庫聯(lián)盟的構(gòu)建已日臻成熟。2009年美國總統(tǒng)奧巴馬簽署的《2009綜合撥款法案》確立了PubMed Central(PMC)的強制公共存取政策永久生效,從而確保了PMC收錄論文的數(shù)量與質(zhì)量。加拿大Multiple sclerosis (MS)協(xié)會要求凡是受到資助的項目,其同行評議的出版物都要在6個月內(nèi)進行開放獲取。此規(guī)定于2013年生效,MS協(xié)會鼓勵在該日期前獲資助的研究也遵守此規(guī)定。Open DOAR列出的健康與醫(yī)學(xué)學(xué)科的機構(gòu)知識庫共338個,其中大多數(shù)知識庫已運營超過10年[2]。
本文主要對10個國外醫(yī)藥類學(xué)科知識庫聯(lián)盟(以下簡稱“醫(yī)藥庫聯(lián)盟”)進行分析,歸納聯(lián)盟運營模式與資金來源、存儲與共享政策、技術(shù)支撐與資源建設(shè)、科研數(shù)據(jù)管理與學(xué)科服務(wù)、科研影響力等多方面的特征,總結(jié)其構(gòu)建經(jīng)驗,以期為我國醫(yī)藥庫聯(lián)盟的構(gòu)建提供參考。本文主要采用調(diào)查法和經(jīng)驗總結(jié)法,對10個國外醫(yī)藥庫聯(lián)盟進行有目的、有計劃、有系統(tǒng)地搜集其現(xiàn)實狀況與歷史狀況的材料,歸納分析其運營的實際情況,使之系統(tǒng)化、理論化,從而具有指導(dǎo)意義。
筆者以聯(lián)盟運營時間、主要運營機構(gòu)、成員機構(gòu)規(guī)模幾方面作為主要參考標準,選取的10個醫(yī)藥類學(xué)科知識庫聯(lián)盟為arXiv、PubMed Central(PMC)、Europe PubMed Central(EPMC)、bioRxiv、CancerData、Dryad、InterNano Nanomanufacturing Repository、Mathematics in Medicine Study Groups、National Science Digital Library、Nature Precedings。
這些聯(lián)盟的運營時間基本都在5年以上,arXiv甚至超過了25年。其主要運營機構(gòu)均為較大型的學(xué)術(shù)機構(gòu),如美國國家生物技術(shù)信息中心、美國冷泉港實驗室(CSHL)、馬薩諸塞大學(xué)阿默斯特分校分級制造中心、諾丁漢大學(xué)、Maastro Clinic的醫(yī)學(xué)信息知識工程團隊等,以確保聯(lián)盟構(gòu)建的各方面條件均有保障。聯(lián)盟的主要機構(gòu)成員都不低于10個,且均具備較高的學(xué)術(shù)能力,多為科研院所、實驗室、研究小組、出版機構(gòu)、各種協(xié)會與學(xué)會、大學(xué)學(xué)院、圖書館、大型企業(yè)等,如arXiv的220個成員機構(gòu)來自全球約24個國家,bioRxiv約99個成員幾乎都來自歐洲的Scientific Community,Dryad的20個主要成員包括美國科學(xué)促進協(xié)會、美國遺傳協(xié)會、進化研究學(xué)會、系統(tǒng)生物學(xué)家學(xué)會、劍橋大學(xué)出版社等。
運營模式與資金來源是構(gòu)建醫(yī)藥庫聯(lián)盟的基石。從運營模式來看,arXiv由康奈爾大學(xué)圖書館負責其行政、財務(wù)和發(fā)展等,下設(shè)成員咨詢委員會和科學(xué)咨詢委員會處理相關(guān)事務(wù);PubMed Central的運營機構(gòu)是美國國家生物技術(shù)信息中心,還配備了成立于1999年的監(jiān)督機構(gòu)——PMC國家咨詢委員會。其他聯(lián)盟的管理模式基本上都是根據(jù)選舉或其他原則成立顧問委員會負責聯(lián)盟的運營,如Europe PubMed Central由科學(xué)顧問委員會與基金委員會進行管理并處理戰(zhàn)略導(dǎo)向問題;bioRxiv由Cold Spring Harbor Laboratory管理運營,并由洛克菲勒大學(xué)、美國微生物學(xué)會、HighWire Press等17個機構(gòu)的人員組成的顧問委員會協(xié)助管理;Dryad由其成員選舉出12名代表組成董事會進行管理,負責數(shù)據(jù)共享政策協(xié)調(diào),以促進Dryad長期可持續(xù)發(fā)展;InterNano Nanomanufacturing Repository由馬薩諸塞大學(xué)阿默斯特分校科學(xué)與工程圖書館和成員機構(gòu)選派代表組成13人的顧問委員會負責運營。由單獨機構(gòu)運營的有以下3個聯(lián)盟:CancerData由Maastro Clinic的醫(yī)學(xué)信息知識工程團隊負責運營,Mathematics in Medicine Study Groups由英國數(shù)學(xué)醫(yī)學(xué)研究組和加拿大數(shù)學(xué)醫(yī)學(xué)研究組運營管理,Nature Precedings由英國自然出版集團運營。與其他機構(gòu)合作運營的有National Science Digital Library,該聯(lián)盟之前與康奈爾大學(xué)、哥倫比亞大學(xué)、大學(xué)大氣研究聯(lián)盟合作運營,現(xiàn)在單獨與大學(xué)大氣研究聯(lián)盟合作。
資金來源上,arXiv由康奈爾大學(xué)圖書館提供37%的運營費用,Simons 基金每年至少提供約10萬美元的資助,其他約220個成員機構(gòu)需支付會員年費。年費分為4個層次,從1 000美元到4 400美元不等,所有會員機構(gòu)每年提供的資金至少約30萬美元,此外會員也可通過聯(lián)盟協(xié)議獲取付款折扣。其他聯(lián)盟基本都由一個主要機構(gòu)提供資金,幾個合作伙伴配合進行協(xié)助,如PubMed Central主要由美國國立衛(wèi)生研究院(National Institutes of Health,NIH)提供資金,Bill & Melinda Gates Foundation、Agency for Healthcare Research and Quality、Food and Drug Administration等11個機構(gòu)或基金協(xié)助資助;Europe PubMed Central由以維康基金為代表的 Europe PMC Funders Group約28個研究基金提供資助;CancerData的主要資金來源是Maastro Clinic,荷蘭癌癥協(xié)會、荷蘭大學(xué)醫(yī)療中心聯(lián)盟、荷蘭生物信息中心、荷蘭科學(xué)中心等也有資助;Dryad構(gòu)建最初的資金來源于美國國家科學(xué)基金會及其合作伙伴,Dryad在英國的鏡像由大英圖書館負責,資金來源于大英圖書館、牛津大學(xué)、數(shù)字管理中心以及Charles Beagrie公司等;InterNano Nanomanufacturing Repository由美國國家科學(xué)基金會和馬薩諸塞大學(xué)阿默斯特分校圖書館提供資金;Mathematics in Medicine Study Groups主要由工程與物理科學(xué)研究委員會、倫敦數(shù)學(xué)學(xué)會、牛津大學(xué)出版社提供資助;Nature Precedings由英國自然出版集團和大英圖書館、歐洲生物信息學(xué)研究所、科學(xué)共同體與維康基金合作資助。單獨機構(gòu)資助的只有bioRxiv和National Science Digital Library,bioRxiv由Cold Spring Harbor Laboratory提供資金,National Science Digital Library由美國國家自然基金提供資助。
從運營管理和資金來源看,目前醫(yī)藥庫聯(lián)盟有兩大發(fā)展趨勢,即“廣而泛”或“專而深”。走“廣而泛”道路的聯(lián)盟,其發(fā)展策略著眼于全球,機構(gòu)成員、資金來源都是全球性的。由于聯(lián)盟龐大、事物繁多,其運營管理一般需要在主導(dǎo)機構(gòu)的統(tǒng)籌規(guī)劃下,設(shè)立多個委員會分工協(xié)作。為確保工作流程的精準高效,還設(shè)立了監(jiān)督機構(gòu)。該趨勢最具代表性的聯(lián)盟是arXiv和PubMed Central。走“專而深”道路的聯(lián)盟,其發(fā)展更側(cè)重于專業(yè)性、區(qū)域性,聯(lián)盟規(guī)模偏小,其機構(gòu)成員基本集中在某一地區(qū)或某一團體,由機構(gòu)成員組成的一個委員會進行運營管理,也有單獨機構(gòu)或機構(gòu)合作進行管理的,資金來源由單獨機構(gòu)資助或一個主要機構(gòu)資助并由其他機構(gòu)協(xié)助。該趨勢代表性聯(lián)盟有CancerData、Mathematics in Medicine Study Groups。
存儲與共享政策(表1)是醫(yī)藥庫聯(lián)盟學(xué)科資源收集與利用的標準。
從表1看,存儲政策基本包括提交方式、公開程度、版權(quán)政策、隱私要求、元數(shù)據(jù)要求及語種、格式等。這些聯(lián)盟中絕大部分要求創(chuàng)作者或版權(quán)持有者提交文檔或數(shù)據(jù),不允許第三方個人/機構(gòu)提交。arXiv還規(guī)定所有合著者必須都同意并提供提交人所在機構(gòu)。InterNano Nanomanufacturing Repository雖允許作者以外的人提交,但若出現(xiàn)侵權(quán)行為,提交人將承擔完全責任。公開程度方面完全公開的較多,有些聯(lián)盟為能夠在更大程度上吸引學(xué)科資源,會設(shè)置不同的公開協(xié)議,如PubMed Central設(shè)置了“完全參與”協(xié)議、“NIH資助參與”協(xié)議、“選擇性存儲”協(xié)議以滿足不同成員的要求。幾乎所有聯(lián)盟都對版權(quán)政策和隱私要求進行了明確規(guī)定,且會根據(jù)自身特點有所側(cè)重,如arXiv、bioXiv之類的預(yù)印本聯(lián)盟更注重避免與出版商之間的版權(quán)糾紛,Europe PubMed Central、Mathematics in Medicine Study Groups則注重解決滿足資助機構(gòu)的OA要求時所引發(fā)的版權(quán)問題,CancerData著力于臨床數(shù)據(jù)版權(quán)糾紛的解決,Dryad、InterNano Nanomanufacturing Repository通過嚴格的審查制度彌補版權(quán)政策的不足,National Science Digital Library和Nature Precedings在解決版權(quán)糾紛的同時也高度重視用戶的隱私問題。為保證存儲質(zhì)量,各聯(lián)盟也幾乎都有明確細致的元數(shù)據(jù)要求,一般體現(xiàn)在對資源的準確性、完整性、學(xué)科性、權(quán)威性、資源類型、科研數(shù)據(jù)的標準化與結(jié)構(gòu)化方面,甚至對提交環(huán)境的要求。對語言與格式的要求,除Dryad比較詳細外,其他聯(lián)盟均較為寬松。
10個聯(lián)盟的共享政策幾乎都采用知識共享署名許可證方式,主要涉及5個許可證:國際創(chuàng)作共用署名許可證、國際知識共享署名許可證4.0(CC BY 4.0)[3]、公共領(lǐng)域通用許可證(CC0 1.0)[4]、國際署名相同方式共享許可證(CC BY-SA 4.0)[5]、非本地化署名許可證3.0(CC BY 3.0)[6]。其中使用最多的是國際創(chuàng)作共用署名許可證,該許可證下包含國際創(chuàng)作共用署名-非商業(yè)許可證4.0(CC BY-NC 4.0)[7]、國際創(chuàng)作共用署名-沒有衍生品許可證4.0 (CC BY-ND 4.0)[8]、國際創(chuàng)作共用署名-非商業(yè)沒有衍生品許可證4.0(CC BY-NC-ND 4.0)[9]、國際創(chuàng)作共用署名-相同方式共享-非商業(yè)性授權(quán)許可證4.0(CC BY-NC-SA 4.0)[10]等次級許可。
表1 醫(yī)藥類學(xué)科知識庫聯(lián)盟構(gòu)建的存儲政策
聯(lián)盟通常會根據(jù)不同資源的開放要求及版權(quán)考量,采用適合的共享許可證。此外,PMC和EPMC禁止使用爬蟲程序進行批量檢索與下載,如需下載,可通過FTP站點支持或使用EPMC-OAI service、and RESTful and SOAP web services。
技術(shù)支持與資源建設(shè)是構(gòu)建醫(yī)藥庫聯(lián)盟的支撐。10個聯(lián)盟平臺構(gòu)建所用的系統(tǒng)軟件一般是EPrints、Fedora、Drupal、Custom、DSpace,輔助軟件工具包括系統(tǒng)網(wǎng)關(guān)(如PubChem Power User Gateway)、搜索軟件(如Basic Local Alignment Search Tool、SNP Database Specialized Search Tools)、文件格式轉(zhuǎn)換軟件(如DICOM圖像轉(zhuǎn)換、OAI-PMH2.0)、API、圖像存儲軟件、數(shù)字對象標識軟件(如DataCite)、發(fā)送接收軟件(如Frequency-weighted Link),閱讀軟件包括Open Reading Frame Finder等。此外,arXiv利用Atlassian Confluence 5.10.8軟件進行知識管理與協(xié)同,其強大的編輯和站點管理特征能夠幫助團隊成員之間共享信息、文檔協(xié)作、集體討論和信息推送。
開源系統(tǒng)與各種軟件是構(gòu)建醫(yī)藥庫聯(lián)盟的硬件支撐,其軟件支撐則是學(xué)科資源的建設(shè)。10個聯(lián)盟的資源量級存在很大差異:從千萬級到幾百級不等,從資源數(shù)量、涵蓋學(xué)科、文獻類型等也可看出醫(yī)藥庫聯(lián)盟在向兩個方向發(fā)展。
一是“大而泛”。聯(lián)盟的資源存儲量至少都是幾十萬,如arXiv存儲1 360 418條預(yù)印本記錄、PubMed Central 存儲約470萬篇文章、bioRxiv存儲約208 601條記錄、Europe PubMed Central存儲內(nèi)容包括約3 320萬條摘要(其中2 810萬條摘要來自PMC)、460萬篇全文文章?!按蠖骸钡陌l(fā)展方向有兩個:一是涵蓋的學(xué)科多。如bioRxiv 涵蓋生物化學(xué)、生物工程、生物信息學(xué)、生物物理學(xué)、癌生物學(xué)、細胞生物學(xué)、生態(tài)學(xué)、流行病學(xué)、進化生物學(xué)、遺傳學(xué)、基因組學(xué)、免疫學(xué)、微生物學(xué)、分子生物學(xué)等27個學(xué)科,arXiv收錄的預(yù)印本除了物理、數(shù)學(xué)、計算機、定量生物學(xué)、定量金融、統(tǒng)計、電氣工程、系統(tǒng)科學(xué)和經(jīng)濟學(xué)之外,也在向新的學(xué)科不斷擴張;二是致力于對某學(xué)科資源的全覆蓋。如PubMed Central幾乎覆蓋生物醫(yī)學(xué)、生命科學(xué)學(xué)科的所有的期刊資源,其中完全開放的期刊2 090個、被美國國立衛(wèi)生研究院資助要求開放的期刊330個、選擇性開放的期刊4 531個;Europe PubMed Central不僅覆蓋期刊資源,還向?qū)@?、醫(yī)學(xué)記錄和臨床指南發(fā)展,它收錄了420萬個專利、675 698篇醫(yī)學(xué)記錄、859篇英國公立醫(yī)療系統(tǒng)的臨床指南。
二是“精而深”。該類醫(yī)藥庫聯(lián)盟的資源量級一般在幾百到幾萬,側(cè)重對某個細化學(xué)科的精深研究。如CancerData收集了約522個癌癥學(xué)數(shù)據(jù)集,其中包括多媒體資源、圖像資源、臨床記錄、出版物、文獻、實驗數(shù)據(jù)等多種類型的資源;Mathematics in Medicine Study Groups收錄的資源涉及醫(yī)學(xué)生物學(xué)的有152種,涉及數(shù)學(xué)建模類的有147種,它主要致力于數(shù)學(xué)與醫(yī)藥學(xué)科的關(guān)聯(lián)研究。
10個聯(lián)盟幾乎都提供科研數(shù)據(jù)管理與特色學(xué)科服務(wù)。如arXiv近期與天體物理數(shù)據(jù)系統(tǒng)合作,致力于科研數(shù)據(jù)的共享與存儲;PMC鼓勵將與論文有關(guān)的任何補充數(shù)據(jù)包括圖表、視頻或研究數(shù)據(jù)作為輔助文件與文章一起存放在PMC中,并指導(dǎo)用戶對標記數(shù)據(jù)進行引用。此外,美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的一些科研數(shù)據(jù)存儲政策也是不斷變化的。如從2017年9月起,dbSNP數(shù)據(jù)庫和dbVar數(shù)據(jù)庫停止接收非人類的變異數(shù)據(jù)提交,從11月起停止呈現(xiàn)非人類變異數(shù)據(jù)的比對,但繼續(xù)提供已存儲數(shù)據(jù)的FTP站點下載,之后非人類基因變化數(shù)據(jù)提交到EBI(European Bioinformatics Institute),可見學(xué)科科研數(shù)據(jù)管理已開始在全球范圍內(nèi)統(tǒng)籌規(guī)劃。EPMC提供跟蹤數(shù)據(jù)引用服務(wù),引用多個數(shù)據(jù)庫如European Nucleotide Archive、UniProt、PDB、OMIM、refsnp、RefSeq等記錄的文件可以被搜索,當某個特定數(shù)據(jù)庫被引用時,用戶可以設(shè)置一個RSS提醒,可見對科研數(shù)據(jù)的管理已不僅僅是存儲與共享,而是更注重數(shù)據(jù)的引用與利用以及數(shù)據(jù)科研價值的再創(chuàng)造。
CancerData是一個癌癥患者在腫瘤治療過程中創(chuàng)建的具有醫(yī)學(xué)影像和醫(yī)學(xué)特征的共享數(shù)據(jù)庫。它也提供數(shù)據(jù)集服務(wù),以專題為單位將數(shù)據(jù)集成后進行共享。當然這些數(shù)據(jù)集也包含一些私人收藏數(shù)據(jù),如需訪問要特別咨詢登記,可見集成化也是數(shù)據(jù)管理的一個新方向。Dryad是以開放元數(shù)據(jù)的方式,使用戶的數(shù)據(jù)通過第三方服務(wù)被發(fā)現(xiàn),也向用戶提供數(shù)據(jù)使用統(tǒng)計信息。Dryad還規(guī)定科研數(shù)據(jù)中涉及人類受試者信息時必須匿名,并在適用的法律與道德準則下進行。InterNano Nanomanufacturing Repository內(nèi)包含很多專業(yè)數(shù)據(jù)庫,如工藝數(shù)據(jù)庫、過程數(shù)據(jù)庫等,目的是為促進跨實驗室數(shù)據(jù)共享,特別是學(xué)科內(nèi)專利數(shù)據(jù)的共享,可大大提高科研效率。
在學(xué)科服務(wù)上,除學(xué)科導(dǎo)航、檢索歷史保存、參考文獻提取、設(shè)置RSS提醒、用戶個性化定制等一般性學(xué)科服務(wù)外,PMC Publisher Portal允許出版商發(fā)布和跟蹤新的應(yīng)用程序、更新聯(lián)系人信息、查看和下載使用統(tǒng)計等,可見學(xué)科服務(wù)要考慮到成員機構(gòu)的需求。EPMC為用戶提供引文網(wǎng)絡(luò)并通過RIS格式將引文導(dǎo)入?yún)⒖嘉墨I管理程序,還可通過BioEntites標簽找出哪些文章引用了目標文章,也可通過鏈接找到源數(shù)據(jù)庫等服務(wù)。此外,EPMC還會從文章中挖掘基金符號、疾病、化學(xué)品、生物體、基因本體術(shù)語和進入編號,可見細化與特色化也是學(xué)科服務(wù)的發(fā)展方向。BioRxiv開放用戶對文章的評論功能,讀者也可直接聯(lián)系作者與其交流,用戶的文章也可直接從BioRxiv向期刊投稿。BioRxiv的文章被谷歌學(xué)術(shù)、CrossRef等搜索工具索引,更新的文章會在推特上發(fā)布,可見與搜索引擎及社交媒體合作推廣學(xué)科資源也是一個新方向。CancerData則是通過提供許多相關(guān)網(wǎng)站的外部鏈接,如荷蘭癌癥協(xié)會、荷蘭大學(xué)醫(yī)療中心聯(lián)盟等,方便用戶了解更多的學(xué)科機構(gòu)與網(wǎng)站。Dryad除了提供引文導(dǎo)入、引文管理等服務(wù)外,最大的特色是為用戶定制一個“數(shù)據(jù)管理計劃”,并提供在線數(shù)據(jù)管理規(guī)劃工具如dmptool或dmponline的咨詢,可見為用戶提供科研幫助和培訓(xùn)會使學(xué)科服務(wù)更深入和人性化。InterNano Nanomanufacturing Repository的學(xué)科服務(wù)重視用戶培訓(xùn),如提供Integrative Graduate Education and Research Traineeship系列講座或舉辦一些報告會、研討會等。National Science Digital Library的學(xué)科服務(wù)注重學(xué)科應(yīng)用程序的開發(fā)與更新,如Schoology、Canvas程序的更新、OERC平臺的改進、學(xué)習(xí)管理系統(tǒng)的開發(fā)、系統(tǒng)的智能化融入服務(wù),可見學(xué)科服務(wù)水平的提高也需要更多計算機軟件技術(shù)的支撐。
科研影響力是醫(yī)藥庫聯(lián)盟的價值體現(xiàn)。一個聯(lián)盟的科研影響力可從幾個方面來體現(xiàn),如成員機構(gòu)和收錄資源的數(shù)量與質(zhì)量,資源的上傳、點擊和使用情況,在社交媒體上的粉絲數(shù)及活躍度,甚至包括搜索引擎對該詞條的搜索結(jié)果和百科網(wǎng)站對該聯(lián)盟的介紹等。
目前大多數(shù)聯(lián)盟統(tǒng)計的是資源上傳量,如arXiv2017年月均提交文件10 293份,Europe PubMed Central、CancerData、InterNano Nanomanufacturing Repository按年份和文獻類型統(tǒng)計資源上傳量,bioRxiv每年按月份統(tǒng)計資源上傳量,National Science Digital Library、Nature Precedings按學(xué)科統(tǒng)計資源上傳量,Dryad統(tǒng)計資源總量與30天內(nèi)上傳量。
統(tǒng)計點擊量和下載量的聯(lián)盟并不多,僅有arXiv和National Science Digital Library統(tǒng)計點擊量,如arXiv提供當日的點擊次數(shù)(不包括鏡像),National Science Digital Library收錄資源的最高點擊量為1 560次。提供下載量的聯(lián)盟有arXiv、Dryad和National Science Digital Library,不過arXiv統(tǒng)計的是月下載量(如2018年1月下載量為1 058 057 882次),Dryad統(tǒng)計的是總下載量和30天內(nèi)下載量(如Dryad總下載量2 349 590次,30天內(nèi)下載量36 999次),National Science Digital Library提供的是每篇文章的下載量,只有EPMC提供每篇文章的被引用次數(shù)統(tǒng)計(被引次數(shù)最多的為141 727次)。本文認為與資源的上傳量相比,資源的點擊、下載、標記、被引量更能體現(xiàn)其學(xué)術(shù)價值。
通過百科網(wǎng)站和搜索引擎了解陌生詞匯是網(wǎng)絡(luò)時代人們解決未知問題的首選途徑,arXiv、Dryad、National Science Digital Library、Nature Precedings有維基百科介紹,PubMed Central有百度百科介紹。利用搜索引擎對醫(yī)藥庫聯(lián)盟進行搜索所得到的結(jié)果數(shù)量從1 000多條到幾千萬條不等。其中最少的是InterNano Nanomanufacturing Repository,在百度中搜索的結(jié)果為10 100條,在Google中搜索的結(jié)果為4 340條;最多的是PubMed Central,在百度中搜索的結(jié)果為2 190萬條,在Google中搜索的結(jié)果為3 520萬條。這充分反映了網(wǎng)絡(luò)正深刻改變著學(xué)術(shù)交流的方式,說明醫(yī)藥庫聯(lián)盟的構(gòu)建要充分利用互聯(lián)網(wǎng)。10個聯(lián)盟中,arXiv、Europe PubMed Central、bioRxiv、Dryad開通了社交平臺,且bioRxiv的每個細分學(xué)科如癌癥生物學(xué)、神經(jīng)科學(xué)、基因組學(xué)等都有twitter主頁。這4個聯(lián)盟中開通twitter最早的是Europe PubMed Central(2009年4月開通),推文最多的是bioRxiv(2.21萬篇),twitter粉絲最多的也是bioRxiv(高達1.79萬)。Europe PubMed Central和Dryad創(chuàng)建了博客,Dryad還開通了facebook?,F(xiàn)在社交媒體廣泛流行,已成為了解用戶需求、加速用戶反饋、推送學(xué)科資源和宣傳聯(lián)盟內(nèi)容最便捷的方式。
目前醫(yī)藥庫聯(lián)盟逐漸向“廣而泛”和“專而深”兩個方向發(fā)展。不同的發(fā)展方向在聯(lián)盟模式、成員構(gòu)成、運營管理、資金來源等方面也不盡相同,因此我國醫(yī)藥庫聯(lián)盟構(gòu)建的第一步就是要確定自己的發(fā)展戰(zhàn)略。
“廣而泛”聯(lián)盟的構(gòu)建模式可采用分布采集模式和層級構(gòu)建模式[11]。分布采集模式要求每個成員機構(gòu)都要構(gòu)建自己的學(xué)科知識庫,層級構(gòu)建模式需要構(gòu)建管理級、支撐級和資源級。這兩種模式適合成員機構(gòu)數(shù)量多、成員構(gòu)成復(fù)雜、資源量大、技術(shù)資金實力雄厚且分工明確的聯(lián)盟。如arXiv、PubMed Central、Europe PubMed Central、bioRxiv、Dryad,他們的成員機構(gòu)眾多、事務(wù)繁雜,其運營管理一般都由一個綜合實力雄厚的機構(gòu)來負責,處理行政、財務(wù)、發(fā)展等宏觀決策問題,下設(shè)成員咨詢委員會、科學(xué)咨詢委員會或其他顧問委員會負責具體事務(wù),甚至還會有監(jiān)督機構(gòu)。在資金問題上,“廣而泛”的聯(lián)盟單靠運營主體或基金完成資助比較困難,一般都需要通過廣收會員費來支持。
“專而深”聯(lián)盟的構(gòu)建模式宜采用集中存儲模式[11]。該模式是由一個大型學(xué)術(shù)機構(gòu)帶領(lǐng)幾個中小型學(xué)術(shù)機構(gòu)共同構(gòu)建,適合成員機構(gòu)數(shù)量少、成員構(gòu)成簡單、資源量有限、僅對某個學(xué)科進行深入研究的聯(lián)盟,該類聯(lián)盟一般由一個單獨機構(gòu)運營即可,如CancerData,Mathematics in Medicine Study Groups,Nature Precedings?!皩6睢钡穆?lián)盟規(guī)模較小,一般可由單獨機構(gòu)來資助,或由主要資助機構(gòu)搭配合作伙伴協(xié)助完成。
10個國外醫(yī)藥庫聯(lián)盟的存儲政策和共享政策的內(nèi)容是一致的,可見國際醫(yī)藥庫聯(lián)盟的發(fā)展已趨于成熟和穩(wěn)定,我國在構(gòu)建時應(yīng)參考國際標準。
存儲政策包括提交方式、公開程度、版權(quán)政策、隱私要求、元數(shù)據(jù)要求、語種、格式等。從提交方式看,一些聯(lián)盟(如arXiv、Dryad)明確規(guī)定要求本人或版權(quán)持有者提交。本文更贊同InterNano Nanomanufacturing Repository的做法,只要不出現(xiàn)侵權(quán)行為,可由作者以外的人代為提交。如科研機構(gòu)的科研管理部門可以對本機構(gòu)學(xué)科成果統(tǒng)一進行整理提交,既準確無誤又能提高效率。就開放程度而言,10個國外醫(yī)藥庫聯(lián)盟根據(jù)開放協(xié)議、文獻類型等確定不同的開放程度。如PubMed Central有3種開放協(xié)議供成員選擇,其中“完全參與”協(xié)議是發(fā)行商承諾從一個特定發(fā)行日期開始,全部開放所有卷期內(nèi)容,“NIH資助參與”協(xié)議是所有NIH資助的文章要在PMC以作者名義存儲文章的最后版本?!斑x擇性存儲”協(xié)議是出版商從多個期刊中將選定OA的文章或被Wellcome Trust,Bill & Melinda Gates Foundation等資助要求OA的文章存儲到PMC??偟膩碚f,決定開放程度的原則應(yīng)以既能保護作者權(quán)益,又能最大限度地分享學(xué)術(shù)成果為宗旨。不同的開放程度還可用不同的字體顏色來區(qū)分,一目了然,便于用戶查找。
版權(quán)和隱私問題上,10個醫(yī)藥庫聯(lián)盟的重點在于解決與出版商之間的版權(quán)問題、與資助機構(gòu)OA要求引發(fā)的版權(quán)問題、與資源提供者之間的版權(quán)問題,以及版權(quán)政策的彌補措施、隱私問題的解決辦法等。聯(lián)盟在構(gòu)建時需要對可能出現(xiàn)的版權(quán)問題進行細致全面的考量,并提出相應(yīng)對策。如arXiv要求“翻譯作品需得到源作品當前版權(quán)持有者的許可”。bioRxiv要求“提交預(yù)印本前需向期刊編輯告知并得到確認,預(yù)印本系統(tǒng)不可發(fā)布修改稿、編輯意見、同行評審和最終見刊版本,可在發(fā)表后的預(yù)印本旁提供文章發(fā)表鏈接,且需提供DOI號,并標注此文章被XX期刊錄用;已發(fā)表的文章不可在預(yù)印本系統(tǒng)發(fā)布,提交到預(yù)印本系統(tǒng)的文章發(fā)表時需簽署同意OA許可條款并支付相關(guān)費用;作者可使用預(yù)印本系統(tǒng)里文章ID直接投稿,期刊會從預(yù)印本系統(tǒng)提取文章,文章一旦被提取,在被期刊收錄、撤稿或拒絕前,不得再存儲到任何一個機構(gòu)或者學(xué)科的知識庫”。PMC用戶需完全遵守版權(quán)限制,超出著作權(quán)法合理使用原則允許的,需獲版權(quán)人書面許可。
好的聯(lián)盟必然要求其存儲資源必須具有高質(zhì)量。如arXiv的科學(xué)咨詢委員會制定了提交文件的內(nèi)容要求,CancerData在數(shù)據(jù)質(zhì)量、標準化和結(jié)構(gòu)化方面都要求較高。因此我國在構(gòu)建醫(yī)藥庫聯(lián)盟時,也需設(shè)立專門的部門對存儲內(nèi)容質(zhì)量進行要求和把關(guān)。此外,筆者贊同Dryad在存儲內(nèi)容超過規(guī)定容量時收取過量存儲費用的辦法。此舉既可以緩解惡意占用存儲空間的行為,又可以緩解資金壓力。在語種和格式要求上,雖然大部分聯(lián)盟要求比較寬松,但筆者贊同Dryad較為嚴苛的做法。我國醫(yī)藥庫聯(lián)盟的中文成果必須配英文翻譯,格式要求細致才能有效解決不同格式或格式轉(zhuǎn)換過程中造成的數(shù)據(jù)錯誤和丟失,保證學(xué)術(shù)成果的可讀性。
共享政策幾乎都是采用知識共享署名許可證方式。10個藥庫聯(lián)盟主要涉及5個許可證,這些許可證雖然側(cè)重點不同,但主要從以下幾個方面進行規(guī)定:分享——在任何媒介或格式下再傳播;署名——必須給予姓名標注,提供許可證鏈接,并聲明創(chuàng)作是否經(jīng)過修改;非商業(yè)性——不得將本創(chuàng)作用于商業(yè)目的;沒有衍生品——不得對本創(chuàng)作進行重混、轉(zhuǎn)換或依據(jù)本創(chuàng)作進行再創(chuàng)作等;不得增加額外限制——在許可證允許的情況下,不得增設(shè)任何法律或技術(shù)限制;相同方式共享——如果對本創(chuàng)作進行了重混、轉(zhuǎn)換、依據(jù)本創(chuàng)作進行再創(chuàng)作,必須依據(jù)本創(chuàng)作采用的許可證分發(fā)再創(chuàng)作。此外,近年來“copyleft”運動也逐步興起,其支持者認為“在尊重創(chuàng)作權(quán)的基礎(chǔ)上,創(chuàng)造性作品在非營利前提下,應(yīng)當使用創(chuàng)作共用許可使作品獲得更多自由使用與修改的權(quán)利。對于創(chuàng)作者而言,最大的問題不是版權(quán),而是默默無聞?!币虼烁髀?lián)盟可根據(jù)資源的開放要求及版權(quán)考量使用不同的的許可證,有效避免版權(quán)糾紛。要促進科研成果的進一步共享,需要更多的科研資助機構(gòu)提出共享要求,要求被資助的項目申請者在不損害知識產(chǎn)權(quán)和隱私政策的前提下,盡可能減少限制、及時開放。如英國的一些資助機構(gòu)(如RCUK、STFC、AHRC)等都有明確的科研成果、科研數(shù)據(jù)的共享政策[12]。
軟件平臺的選擇和學(xué)科資源的建設(shè)需要與聯(lián)盟的構(gòu)建策略相匹配?!按蠖骸甭?lián)盟平臺的構(gòu)建一般選擇Eprints、Drupal、Dspace,使用的軟件主要是團隊協(xié)同與知識管理工具及各種數(shù)據(jù)庫檢索、閱讀查詢、用戶網(wǎng)關(guān)等軟件或工具。由于該類聯(lián)盟收錄的數(shù)據(jù)庫較多,多源異構(gòu)數(shù)據(jù)庫的融合和跨庫檢索技術(shù)的研發(fā)也十分重要。此外,由于不同用戶差異較大,可以考慮加強智慧平臺的構(gòu)建,針對不同用戶的需求,重新聚類文獻資源,提供個性化服務(wù);根據(jù)用戶的需求和喜好,對學(xué)科資源進行個性化編輯。還可引進網(wǎng)絡(luò)機器人探測技術(shù),對海量資源的用戶使用情況進行統(tǒng)計分析和整合,對用戶數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘、聚類分析和趨勢預(yù)測等。如深圳大學(xué)設(shè)計了USSER平臺,已開始對此課題進行初步探究[13]?!按蠖骸钡穆?lián)盟涉及的相關(guān)學(xué)科比較多,需要收錄的資源數(shù)量龐大,基本上都是千萬級、百萬級的數(shù)量,收錄文獻類型也眾多,涵蓋期刊、圖書、專利、臨床報告等。
“專而深”的聯(lián)盟一般會根據(jù)自身收錄資源的特色確定其所使用的系統(tǒng)和軟件,系統(tǒng)平臺構(gòu)建一般會選用Custom或Fedora。在軟件選擇上,如CancerData收錄大量多媒體和圖像資源,因此需要使用圖像轉(zhuǎn)換工具、離線媒體處理工具以及圖像存儲發(fā)送和接受的軟件等。CancerData還利用AR技術(shù)將一些臨床圖像和多媒體資源利用三維顯示、交互傳感、將虛擬和現(xiàn)實環(huán)境相互補充、疊加,加強讀者對臨床資源的感知。走“專而深”道路的聯(lián)盟涉及的學(xué)科更集中,講求細分學(xué)科的全收錄或者學(xué)科特色資源構(gòu)建,一般都是幾百到幾萬的數(shù)量。
對于醫(yī)藥類學(xué)科而言,科研數(shù)據(jù)的管理與利用尤為重要。調(diào)查結(jié)果顯示,國際醫(yī)藥庫聯(lián)盟對科研數(shù)據(jù)的存儲與管理已逐步細化完善。一是加強了與學(xué)科內(nèi)其他數(shù)據(jù)系統(tǒng)的合作,特別是國際性合作,逐步實現(xiàn)科研數(shù)據(jù)全球范圍內(nèi)的統(tǒng)籌與共享;二是以存儲政策的形式規(guī)定,提交的學(xué)科論文必須配有對應(yīng)的科研數(shù)據(jù),并提供科研數(shù)據(jù)備份服務(wù),鼓勵科研人員將整個科研周期的數(shù)據(jù)都上傳至聯(lián)盟平臺進行備份,既可以確保數(shù)據(jù)不會丟失,又可以理清科研脈絡(luò),便于科研溯源;三是提供跟蹤數(shù)據(jù)引用服務(wù),加強對數(shù)據(jù)再利用工作的深入調(diào)查,對科研數(shù)據(jù)的再生科研價值進行分析與評估;四是提高對科研成果和臨床數(shù)據(jù)的質(zhì)量控制,錄入的科研數(shù)據(jù)須準確和相對完整,在數(shù)據(jù)質(zhì)量、標準化和結(jié)構(gòu)化上都要有相應(yīng)的具體要求等。數(shù)據(jù)存儲、管理、共享的目的是為了更好地利用已有數(shù)據(jù)、減少重復(fù)勞動,因此數(shù)據(jù)管理政策的制定應(yīng)緊緊圍繞此原則展開。
醫(yī)藥庫聯(lián)盟提供的學(xué)科服務(wù)應(yīng)以學(xué)科資源為基石,以智能技術(shù)為手段,以創(chuàng)新提升為目標。具體來說,一是保證基本的學(xué)科服務(wù)質(zhì)量,如學(xué)科導(dǎo)航、檢索歷史保存、參考文獻提取、引文導(dǎo)入管理;二是提升學(xué)科服務(wù)在個性化、人性化和細節(jié)化方面的水準,如為用戶定制數(shù)據(jù)管理計劃,讓作者添加更新記錄,并與原始材料一起發(fā)布,以顯示研究進展,有利于科研譜系的構(gòu)建;三是為資源使用者與資源提供者之間創(chuàng)建更多的交流平臺,為成員機構(gòu)之間創(chuàng)建更多的合作交流平臺,同時為成員機構(gòu)的科研成果下載、引用情況提供數(shù)值統(tǒng)計,以便成員機構(gòu)充分了解本機構(gòu)學(xué)科成果的價值;四是提供更多學(xué)科相關(guān)網(wǎng)站的外部鏈接,增加對資助基金的介紹,為用戶提供申請基金課題的培訓(xùn),提供使用各種文獻、數(shù)據(jù)、引文管理工具的培訓(xùn),提供利用SPSS、Nvivo R或ArcGIS等進行數(shù)據(jù)處理的培訓(xùn)。
無論醫(yī)藥庫聯(lián)盟走“大而泛”還是“專而深”的道路,其奮斗目標都是擁有較高的科研影響力,提高途徑主要有以下幾種。一是聯(lián)盟善用資源使用統(tǒng)計、合理整合學(xué)科資源,對資源的點擊、下載、引用、標記、評分等數(shù)據(jù)進行統(tǒng)計,這些統(tǒng)計數(shù)據(jù)正是分析資源價值的依據(jù)。對點擊、下載量大的學(xué)術(shù)資源,聯(lián)盟平臺可以對其做出推送;對引用、標記、評分高的學(xué)術(shù)資源,聯(lián)盟平臺可對其學(xué)術(shù)信息進行更深入的學(xué)術(shù)挖掘,做一些同類型論文的比較分析、高被引和零被引的原因剖析等知識挖掘工作。二是善用社交平臺廣泛宣傳推廣,有效利用社交媒體深層開發(fā)潛在用戶,更快速、便捷地與學(xué)科用戶溝通。如我國的醫(yī)藥庫聯(lián)盟在利用twitter、facebook等國際社交平臺做好國際宣傳交流的同時,也要利用好微博、微信、博客、百度貼吧、丁香園等國內(nèi)社交平臺。三是從搜索引擎來看,據(jù)《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,84.5%的用戶依靠搜索引擎獲取網(wǎng)站信息[14],因此醫(yī)藥庫聯(lián)盟應(yīng)先著力百度搜索與百度百科信息的完善。雖然Google當下無法在中國大陸地區(qū)使用,但其在國際搜索引擎中還是很有影響力的,應(yīng)使我國的醫(yī)藥庫聯(lián)盟順利在Google搜索中被檢索和鏈接。此外,還要做好搜索引擎優(yōu)化,使網(wǎng)站各項基本要素適合搜索引擎的檢索原則,以便更容易被搜索引擎優(yōu)先排序[15]。同時為了增強國際影響力,更應(yīng)利用維基百科對我國構(gòu)建的醫(yī)藥庫聯(lián)盟進行詳實的詞條編輯。
本文通過對國外較知名的10個醫(yī)藥庫聯(lián)盟進行調(diào)查分析,從聯(lián)盟模式、運營管理、資金來源、存儲與共享政策、科研數(shù)據(jù)管理、學(xué)科服務(wù)、技術(shù)支撐、資源建設(shè)、科研影響力等方面探討了其構(gòu)建特征,分析了目前醫(yī)藥庫聯(lián)盟“大而泛”和“專而深”兩大發(fā)展趨勢。
走“大而泛”發(fā)展之路的聯(lián)盟,宜采用分布采集和層級構(gòu)建模式,運營主體一般由大型科研機構(gòu)負責,下設(shè)各職能委員會及監(jiān)督機構(gòu),成員機構(gòu)多為科研院所、實驗室、大學(xué)學(xué)院、各種協(xié)會與學(xué)會等具備較高科研能力的機構(gòu)。資金來源主要由運營機構(gòu)和資助基金提供,輔以會員會費。存儲和共享政策多元化,需要滿足不同機構(gòu)成員的版權(quán)要求和資助基金的OA政策。平臺架構(gòu)較為復(fù)雜,對系統(tǒng)軟件的種類與功能要求較高。資源數(shù)量龐大、涵蓋細化學(xué)科較多、文獻類型收錄廣泛,甚至趨向某類型學(xué)科資源的全收錄。由于收錄的科研數(shù)據(jù)龐大,聯(lián)盟可對海量科研數(shù)據(jù)做分析,挖掘其科研價值,走學(xué)術(shù)化學(xué)科服務(wù)道路。
走“專而深”發(fā)展之路的聯(lián)盟,宜采用集中存儲模式,運營主體一般由單個機構(gòu)獨立運營或由成員機構(gòu)推選的職能委員會負責,資金由運營機構(gòu)和合作基金共同提供。成員機構(gòu)數(shù)量不多,因此存儲和共享政策相對簡單。平臺架構(gòu)較為簡單,對系統(tǒng)軟件的選擇更強調(diào)與資源的適配性,資源構(gòu)建側(cè)重于某個細化學(xué)科的精深發(fā)展。由于科研數(shù)據(jù)和用戶數(shù)量有限,聯(lián)盟對于科研數(shù)據(jù)更側(cè)重為用戶定制個性化管理策略,走精細化學(xué)科服務(wù)道路。
無論走哪種發(fā)展道路,醫(yī)藥庫聯(lián)盟都應(yīng)充分利用網(wǎng)絡(luò)資源,提高自身的科研影響力,希望本文能為構(gòu)建我國醫(yī)藥庫聯(lián)盟提供參考。調(diào)研分析可能存在一些不足與缺陷,克服這些不足、繼續(xù)深入研究是我們未來的探索方向。