劉靜
新型冠狀病毒肺炎(Corona virus Disease 2019,COVID-19)疫情暴發(fā)以來,全球科研人員展開了一場緊張的學術(shù)接力,致力于盡快挖掘和表征該病毒,以更好地抗擊疫情。2020年1月31日,60多個研究組織、期刊和出版商(現(xiàn)已增加至158個[1])簽署了一份聯(lián)合聲明,承諾“迅速、公開”分享與疫情相關的研究數(shù)據(jù)和發(fā)現(xiàn)[2]。國際頂級醫(yī)學期刊The Lancet、The New England Journal of Medicine(NEJM)、The Journal of the American Medical Association(JAMA)、British Medical Journal(BMJ)等紛紛對疫情進行了專題報道。為了應對疫情的快速傳播,大多數(shù)研究論文在bioRxiv、medRxiv、SSRN、chemRxiv以及ChinaXiv等預印平臺公開[3],中華醫(yī)學會系列雜志及國內(nèi)其他生物醫(yī)藥衛(wèi)生雜志通過預出版策略陸續(xù)在線發(fā)布經(jīng)過同行評議的COVID-19相關論文[4]。為更有效地整合相關資源,各組織及出版商推出了新冠肺炎專題數(shù)據(jù)平臺,集成新冠肺炎相關研究成果,為臨床醫(yī)務工作者、科研人員及公眾提供及時、全面、系統(tǒng)的科學知識,為抗擊疫情貢獻力量。本文選取10個新冠肺炎專題研究論文數(shù)據(jù)平臺,對其平臺內(nèi)容進行對比分析,為科研人員的使用提供參考。
根據(jù)Aminer知識疫圖統(tǒng)計,截止到2020年4月2日新冠肺炎開放數(shù)據(jù)源已有128個[5],其中有關于疫情動態(tài)追蹤的實時數(shù)據(jù)及資訊、疫情專業(yè)術(shù)語、科普知識、社會輿情及政府政策等數(shù)據(jù)集;在關于科研的開放數(shù)據(jù)集中,有的集中于新冠肺炎病毒基因組序列數(shù)據(jù)及新冠肺炎的專利、標準等,有的通過構(gòu)建新冠肺炎檢索式在數(shù)據(jù)庫中得到檢索結(jié)果而構(gòu)建的新冠肺炎專題平臺,如Elsevier的“Novel Coronavirus Information Center[6]”、SinoMed的新冠肺炎專題[7]等。而本文主要考察的是集成了多文獻來源的新冠肺炎研究論文專門數(shù)據(jù)平臺,且截至2020年4月2日還保持更新的數(shù)據(jù)平臺(如NSTL新冠肺炎應急文獻信息專欄[8],2020年3月后再無更新,因此不在所選之列)。滿足要求的10個新冠肺炎專題研究論文數(shù)據(jù)平臺如表1所示。
表1 10個新冠肺炎專題研究論文數(shù)據(jù)平臺概況
對10個新冠肺炎專題研究論文數(shù)據(jù)平臺,從著錄項目、收錄篇數(shù)、更新周期、期刊種數(shù)作了系統(tǒng)分析。收錄篇數(shù)、期刊種數(shù)統(tǒng)計更新時間為2020年11月5日。見表2。
表2 新冠肺炎專題研究論文數(shù)據(jù)平臺基本情況
表2 (續(xù))
需注意的是:①知網(wǎng)新冠OA平臺聯(lián)合倡議中涉及中華醫(yī)學會雜志社,兩者于2020年4月底展開合作后才進行了相應更新。②知網(wǎng)新冠OA平臺、中華醫(yī)學新冠平臺、萬方新冠頻道這3個平臺國內(nèi)期刊占多數(shù),其他7個平臺國外期刊占多數(shù),同時包含部分被PubMed、Medline等國外數(shù)據(jù)庫收錄的國內(nèi)期刊。③中科院2019-nCov科研論文檢索平臺最新發(fā)布時間為2020年3月30日,收錄內(nèi)容中存在大量重復,其在最新研究頁面中提供的論文數(shù)據(jù)更為準確;2020年11月該平臺名稱已變更為“COVID-19科研動態(tài)監(jiān)測”。④ AI2新冠數(shù)據(jù)集,收錄了COVID-19及冠狀病毒家族的研究論文,其數(shù)據(jù)量較大。該數(shù)據(jù)集提供json格式文件,旨在讓研究人員通過機器學習來加速對文本的挖掘和解讀,更加高效地尋找對抗新冠病毒的方法。⑤科睿唯安新冠專欄文獻按研究主題顯示,它沒有總的文獻數(shù)據(jù)瀏覽界面,每個主題之間存在重復的文獻,所以統(tǒng)計的是累計篇數(shù)(未去重)。
10個數(shù)據(jù)平臺對時間的著錄不同,有些是在平臺上的發(fā)布時間,有些是在其期刊上的網(wǎng)絡出版時間。多個平臺時間著錄缺失或錯誤,如2019 nCoVR來自PubMed的數(shù)據(jù)大量標注為2020.01.01,還有標注5月、6月及12月;科睿唯安新冠專欄出版時間有些標注年月,有些只標注年。
最早發(fā)布新冠肺炎研究論文的數(shù)據(jù)平臺為LitCovid,于2020年1月17日發(fā)布兩篇,出版時間分別為2020年1月14日和15日;第二是AMiner NCP更新兩篇2020年1月19日在預印本平臺上發(fā)布的論文(AMiner 2020年1月19日前也有論文數(shù)據(jù),但研究內(nèi)容與新冠肺炎無直接關系);第三是知網(wǎng)新冠OA平臺2020年1月21日出版1篇,1月23日中科院2019-nCov更新1篇,2020年1月29日萬方新冠頻道發(fā)布24篇,1月31日中華醫(yī)學新冠平臺出版1篇。
隨著時間的推移且隨著疫情的緩解,相關文獻的產(chǎn)出量及關注度有一定的下降,有些平臺已不再更新或更改內(nèi)容,如萬方新冠頻道文獻速遞頁面更新時間截止至2020年7月1日,其他頁面更新時間截止至2020年4月或3月;科睿唯安新冠專欄于2020年11月已更改網(wǎng)址及網(wǎng)頁內(nèi)容。
各新冠肺炎專題研究論文數(shù)據(jù)平臺文獻分類中,除AI2新冠數(shù)據(jù)集外,其他平臺均有分類類目,各平臺分類略有不同,5個平臺有研究主題類目,5個平臺有文獻來源類目,4個平臺有文獻類型類目,其他還包括學科、發(fā)布時間、冠狀病毒經(jīng)典文獻、相關研究前沿、國家類別等。各平臺分類相對分散,跟數(shù)據(jù)庫相比略為簡單,無統(tǒng)一字段。見表3。
表3 新冠肺炎專題研究論文數(shù)據(jù)平臺文獻分類情況
各新冠肺炎專題研究論文數(shù)據(jù)平臺檢索利用便捷程度如表4所示。就檢索功能而言,不能提供檢索的有AMiner NCP及科睿唯安新冠專欄,其他平臺都能提供一定檢索。其中知網(wǎng)新冠OA平臺的檢索功能與知網(wǎng)主頁同步,提供多途徑檢索,其檢索結(jié)果也同步到知網(wǎng)主頁,不僅限于新冠OA平臺;萬方新冠頻道檢索功能較弱,只能對題名和摘要中的詞語進行關鍵詞檢索,AI2新冠數(shù)據(jù)集通過CORD-19 Explorer檢索,其檢索結(jié)果中不相關的居多。
關于數(shù)據(jù)導出,提供一鍵導出的平臺有科睿唯安新冠專欄、AI2新冠數(shù)據(jù)集、WHO COVID-19及LitCovid。科睿唯安新冠專欄只能一鍵導出一個專題的一周更新文獻,導出為ciw格式;AI2新冠數(shù)據(jù)集可一鍵導出所有文獻記錄及全文pdf版,所有數(shù)據(jù)的元數(shù)據(jù)導出為csv格式、pdf全文為json格式;WHO COVID-19也可一鍵導出所有文獻數(shù)據(jù),有csv及4種文獻管理軟件格式文本,2020年5月25日之后,其一鍵導出功能已取消,可在平臺中選擇導出;LitCovid可一鍵導出所有或者所選文獻,有tsv、ris格式。另外,知網(wǎng)新冠OA平臺、中華醫(yī)學新冠平臺及萬方新冠頻道中的中華醫(yī)學會專區(qū)可提供單條數(shù)據(jù)的多格式導出(知網(wǎng)新冠OA平臺2020年11月前可選擇導出);中科院2019-nCov可導出單頁面中的一條或多條數(shù)據(jù),導出為doc格式。
就全文獲取而言,由于各組織及資源商們對新冠肺炎研究數(shù)據(jù)的“公開”,基本上每個數(shù)據(jù)庫都能下載全文或提供全文鏈接。見表4。
表4 新冠肺炎專題研究論文數(shù)據(jù)平臺檢索利用便捷程度
知網(wǎng)倡議全國的醫(yī)藥衛(wèi)生期刊關于新冠肺炎研究論文在其OA平臺上網(wǎng)絡首發(fā),該平臺集成的國內(nèi)期刊種數(shù)最多,但有些新冠肺炎的研究論文可在知網(wǎng)上被檢索到,因不是網(wǎng)絡首發(fā),故沒有出現(xiàn)在該首發(fā)平臺。中華醫(yī)學新冠平臺對中華醫(yī)學會系列期刊進行預出版,還收集了國家衛(wèi)健委、國家中醫(yī)藥管理局、WHO、CDC等機構(gòu)的指南共識等,除研究主題外還對文獻進行了學科分類,這是其他平臺所沒有的;還提供每日概覽,明了每日數(shù)據(jù)變化情況,但其收錄的文獻量最少。萬方新冠頻道對文獻數(shù)據(jù)的著錄比較簡單,檢索功能較弱,但其有特有的期刊,還設立了中醫(yī)藥防治專區(qū)。中科院2019-nCov和AMiner NCP期刊種數(shù)和數(shù)據(jù)量較少,但兩者對收錄的外文文獻進行了加工整理及中文解讀,前者形成了每日快報、累積資料匯編、文獻內(nèi)容梳理、報告摘編等研究報告,可直接下載利用;后者形成研究時間線,不僅解讀了研究論文還加入專家論點和學術(shù)事件,能讓科研人員對有關情況一目了然。2019 nCoVR在國內(nèi)平臺中收錄范圍最廣,收錄數(shù)量最多,但其分類不夠細致,只做了文獻類型的分類。
科睿唯安新冠專欄利用科睿唯安的資源優(yōu)勢列出了各研究主題的高引用文獻、冠狀病毒的經(jīng)典文獻及研究前沿,但它在4個國外數(shù)據(jù)平臺中數(shù)據(jù)量最少,且更新時間最早的幾周收錄的文獻不能提供一鍵導出功能。AI2新冠數(shù)據(jù)集收錄數(shù)據(jù)量較大,包含COVID-19及冠狀病毒家族的研究論文,對不能進行機器學習的研究人員來說數(shù)據(jù)量太大,且檢索查準率太低。WHO COVID-19是唯一一個在初始統(tǒng)計期間功能越來越多的數(shù)據(jù)庫,致力于全球多語種研究論文的收錄,其不足是雖然對文獻做了分類統(tǒng)計,但還不能按分類進行瀏覽。LitCovid使用方便,功能也比較完善,不足是只收錄了期刊論文,而且作為國外數(shù)據(jù)庫收錄國內(nèi)期刊種數(shù)太少。
由此可以看出,不同平臺收錄數(shù)據(jù)的側(cè)重點不同,其檢索功能也有一定差異。不同平臺之間數(shù)據(jù)管理水平參差不齊,部分數(shù)據(jù)更新周期不穩(wěn)定、元數(shù)據(jù)著錄不規(guī)范等,數(shù)據(jù)格式和標準存在差異,這導致科研人員在獲取文獻信息時出現(xiàn)數(shù)據(jù)壁壘,因此平臺在保證持續(xù)更新數(shù)據(jù)的前提下,需規(guī)范數(shù)據(jù)標準,設置較為統(tǒng)一的數(shù)據(jù)著錄格式,使得平臺使用更為規(guī)范合理。
新冠疫情的暴發(fā)促使學術(shù)資源在短時間內(nèi)可以免費獲取,國內(nèi)各大出版商對其部分數(shù)據(jù)庫資源予以免費,國外出版商對其期刊平臺新冠相關資源免費。數(shù)據(jù)平臺僅能提供資源整合,資源內(nèi)容尚需學術(shù)期刊的產(chǎn)出,疫情過后或疫情常態(tài)化后,在運營成本及經(jīng)濟效益的前提下,各數(shù)據(jù)平臺可能會停止更新數(shù)據(jù),科研人員對新冠研究的熱情亦會消退,這對平臺的可持續(xù)化發(fā)展不利,如何在有效保障新冠肺炎研究內(nèi)容產(chǎn)出的同時保持內(nèi)容出版的OA化是需要考慮的問題。本文所統(tǒng)計的10個數(shù)據(jù)平臺,均是依靠國際化組織、第三方知識服務平臺等現(xiàn)有技術(shù)手段,在疫情期間開辟專欄提供免費服務,以此也可提高數(shù)據(jù)服務平臺的知名度及使用量,但其內(nèi)容數(shù)據(jù)量不夠大,傳播效果有限。后續(xù)可將新冠專題平臺整合嵌入出版商運營平臺,繼續(xù)保持OA開放資源,如此既能提升數(shù)據(jù)庫平臺整體效益,亦能有效支持新冠肺炎研究成果的縱深化使用,從而達到期刊、數(shù)據(jù)平臺、出版商多方共贏效果。
新冠肺炎開放數(shù)據(jù)平臺內(nèi)容離散,資源不一,且不同平臺收錄內(nèi)容存在重復,這給科研人員使用平臺資源帶來了一定困難,可能會增加不必要的檢索成本。10個數(shù)據(jù)平臺中有部分商用企業(yè)平臺,部分為非盈利組織開放平臺,在保障知識產(chǎn)權(quán)的基礎上,如能整合不同平臺間的資源,如WHO聯(lián)合NIH、科睿唯安等整合國內(nèi)外新冠專題信息,中科院、國家生物醫(yī)學信息中心聯(lián)動知網(wǎng)、萬方、中華醫(yī)學網(wǎng)等統(tǒng)一平臺,組成聯(lián)盟體系,形成統(tǒng)一的數(shù)據(jù)規(guī)范,既能一次性在同一平臺上檢索內(nèi)容產(chǎn)出結(jié)果降低運營成本,減少科研人員獲取不同平臺文獻資源的時間,也能更好地傳播新冠肺炎相關研究成果、指南規(guī)范、科普知識等,內(nèi)容更為豐富,也更能得到大眾對專業(yè)知識的理解。
新冠肺炎疫情的暴發(fā)給科研人員開展學術(shù)研究提供了機遇與挑戰(zhàn),國內(nèi)有些重大研究成果在國外期刊上發(fā)表,但也不乏優(yōu)秀成果發(fā)表在國內(nèi)期刊上,所以對科研人員而言,不能局限于一定范圍內(nèi)的研究成果。隨著疫情對全球的影響越來越強,影響范圍越來越廣,關于新冠肺炎的研究論文也會越來越多,疫情能不能取得重大研究進展還要靠全球科研人員的努力。目前國內(nèi)的疫情已得到逐步控制,正是研究人員投身科研的良好時機。疫情的暴發(fā),擾亂了人們常態(tài)化的生活及生產(chǎn)模式,圖書情報人員也在積極思考疫情期間如何做好情報服務,前期一些圖書館通過微信公眾號、通知等方式推送了新冠肺炎相關免費學術(shù)資源集合[9-11]。本文對目前已有的新冠肺炎專題研究論文數(shù)據(jù)平臺進行對比研究,分析各平臺的特點和不足,從平臺數(shù)據(jù)規(guī)范化、OA出版常態(tài)化、應急聯(lián)盟體系化角度提出了思考與討論,以期給相關科研人員提供幫助,便于更高效地利用和使用不同特征的文獻數(shù)據(jù)平臺。