摘 要:隨著中國學術期刊繁榮發(fā)展以及開放獲取出版的推廣,中國學術期刊論文元數(shù)據(jù)已成為重要的資源、資產(chǎn)甚至資本。文章闡述了元數(shù)據(jù)的概念及相關理論,分析了中國學術期刊論文元數(shù)據(jù)和全文的開放現(xiàn)狀,結合初步完成的開放中國學術期刊論文數(shù)據(jù)庫項目,討論了中文期刊論文元數(shù)據(jù)的開放、期刊官網(wǎng)全文的鏈接方法以及開放中國學術期刊論文元數(shù)據(jù)的再利用方向。
關鍵詞:學術期刊;期刊論文數(shù)據(jù)庫;開放獲取出版;元數(shù)據(jù)開放;元數(shù)據(jù)再利用
中圖分類號:G255.2 文獻標識碼:A
文章編號:1003-7136(2025)01-0016-10
Open and Reuse of Metadata of Chinese Academic Journal Articles
ZHU Jiang,LUO Yu,ZHOU Haicheng
Abstract:With the prosperous development of Chinese academic journals and the promotion of open access publishing,the metadata of Chinese academic journal articles has become an important resource,asset,and even capital.This paper expounds the concept and associated theories of metadata,analyzes the opening status of metadata and full text of Chinese academic journal articles,and discusses the opening of metadata of Chinese academic journal articles,the linking methods for accessing full-text content from journal websites and the reusing directions for metadata of Chinese academic journal articles in combination with the initially completed open Chinese academic journal article database project.
Keywords:academic journal;journal article database;open access publishing;metadata opening;reuse of metadata
0 引言
習近平總書記指出:“我國基礎研究存在題目從國外學術期刊上找……取得成果后再花錢到國外期刊和平臺上發(fā)表的‘兩頭在外’問題?!膭钪卮蠡A研究成果率先在我國期刊、平臺上發(fā)表和開發(fā)利用。”[1] 這反映了我國科研成果存在“兩頭在外”的問題,即科研成果在國外期刊上發(fā)表,閱讀這些成果時又需要從國外購買[2]??梢哉J為,我國出版的學術期刊與論文是解決“兩頭在外”的關鍵抓手,也是實現(xiàn)高水平科技自立自強的重要基礎。
從學術論文來看,中國科技人員的外文學術論文主要發(fā)表在國外各類學術期刊上,中文學術論文主要發(fā)表在國內(nèi)各類學術期刊上,且中文學術期刊論文年度發(fā)文量已達到200萬篇。中國學術期刊論文體量龐大,然而其數(shù)字出版或者更進一步的開放獲取(OA)出版所帶來的相關元數(shù)據(jù)的開放和再利用程度并不高。從學術期刊來看,中國學術期刊的OA出版普遍采取青銅OA出版模式,并呈多元化、快速發(fā)展態(tài)勢。按照通行的OA標準,中國學術期刊的OA出版模式不盡規(guī)范,導致被開放獲取期刊目錄(DOAJ)收錄的中國出版的期刊數(shù)量嚴重偏低。實際上,中國學術期刊發(fā)表的論文,絕大多數(shù)可在期刊官網(wǎng)上免費獲取全文。
隨著中國學術期刊影響力和論文數(shù)量的提升,公眾對中國學術期刊論文元數(shù)據(jù)的開放和再利用需求顯著增加。如能全面掌握中文期刊論文元數(shù)據(jù),并與相對開放的外文期刊論文元數(shù)據(jù)、專利文獻元數(shù)據(jù)整合,即可利用多種文獻計量方法和知識挖掘技術對我國的學術產(chǎn)出數(shù)量、研究熱點和前沿、空白點、技術方案和研究趨勢等,作出比較客觀的計量、分析、比較和預測。期刊論文全文的開放有利于學術成果的傳播、交流,以及更加深入、全面的知識挖掘,從而進一步推動科學技術、文獻計量、知識挖掘,甚至高可信度人工智能技術的發(fā)展。但當前中國學術期刊論文這一片“金礦”還有待進一步開發(fā),其價值潛力有待進一步釋放。中國學術期刊論文及元數(shù)據(jù)的開放只是第一步,由開放到利用才是其價值的進一步實現(xiàn)。
1 中國學術期刊論文元數(shù)據(jù)和全文的開放現(xiàn)狀
1.1 概念闡述
期刊論文元數(shù)據(jù)是對期刊論文的題名、作者、作者機構、研究內(nèi)容和主題等進行描述的文字和代碼,由作者、圖情工作者、期刊編輯部等通過人工或機器加工形成,不包括論文的實驗數(shù)據(jù)、觀測數(shù)據(jù)、支撐數(shù)據(jù)或其它關聯(lián)數(shù)據(jù)(這類數(shù)據(jù)通常要求作者自行提交到特定的數(shù)據(jù)存儲庫)。元數(shù)據(jù)與期刊論文全文關系緊密,所以需對期刊論文元數(shù)據(jù)及全文一并予以探討。期刊論文元數(shù)據(jù)和全文一般可通過期刊官網(wǎng)或電子期刊集成出版平臺獲取,國內(nèi)一些學術機構自主開發(fā)的學術期刊論文數(shù)據(jù)庫亦可提供這類服務。
從主體來看,論文元數(shù)據(jù)在不同主體間流動加工,其一般順序為:作者(論文形式)→出版者(期刊形式)→集成商(平臺形式)→圖書館(館藏形式)。對元數(shù)據(jù)的生產(chǎn)影響最為突出的是作者:①因資助者需要,提供基金元數(shù)據(jù);②因出版者需要,提供關鍵詞、分類、摘要等元數(shù)據(jù);③因同行的需要,提供參考文獻元數(shù)據(jù);④因機構的需要,提供機構元數(shù)據(jù)。出版者則主要添加期刊型元數(shù)據(jù)(如來源期刊、卷期),出版者掌握的元數(shù)據(jù)最容易開放,也最為準確。平臺進一步提供評價計量型元數(shù)據(jù)(如被引頻次)。圖書館則更加關注訪問量、版本、獲取方式等元數(shù)據(jù)。
元數(shù)據(jù)的開放和論文的開放關系密切,但又有所不同。元數(shù)據(jù)的開放除了受到經(jīng)濟因素的限制外,最大的問題是開放科學背景下的信息安全問題,這是任何元數(shù)據(jù)在開放和利用過程中無法回避的問題。①元數(shù)據(jù)的開放將增加網(wǎng)絡攻擊、數(shù)據(jù)篡改的風險。元數(shù)據(jù)脫離文本的相對獨立性可能導致其在傳遞過程中出現(xiàn)對論文描述的失真,從而影響元數(shù)據(jù)的真實性、完整性和可用性。②元數(shù)據(jù)的跨國流動為分析國家的科研態(tài)勢提供了情報信息,政治關系也將影響到元數(shù)據(jù)的跨國開放。③通過數(shù)據(jù)匯聚,從元數(shù)據(jù)能夠推導出的信息越來越多,元數(shù)據(jù)和信息內(nèi)容之間的界限日益模糊,越全面的元數(shù)據(jù)越可能泄露關鍵信息。如果論文全文內(nèi)容是封閉的,其元數(shù)據(jù)的開放也將更加困難,并且可能涉及知識產(chǎn)權等問題。④隨著元數(shù)據(jù)種類的豐富、拓展,涉及個人隱私的敏感信息(如聯(lián)系方式、地理位置、選題方向)可能被泄露或不當使用。
1.2 期刊官網(wǎng)
中國五千余種科技期刊的主管、主辦和出版單位極其分散,其中出版單位共四千個左右[3]。雖然大約80%~90%的科技期刊擁有自己的官網(wǎng),但這些官網(wǎng)普遍不提供論文元數(shù)據(jù)和全文的批量下載,一般僅提供論文的檢索、卷期目次瀏覽、引用信息導出和全文閱讀、下載服務。以《圖書情報工作》為例,期刊官網(wǎng)提供了論文題名、作者、作者機構、摘要、關鍵詞、學科分類號、基金等檢索入口,可查看基本的題錄信息、收稿日期、出版日期、參考文獻等信息,有OA標識的論文可即時獲取PDF格式的全文。
雖然絕大多數(shù)期刊官網(wǎng)上的元數(shù)據(jù)較為齊備,并且較大概率提供全文,但期刊官網(wǎng)極其分散,導致讀者要獲取某一學科領域多個期刊較大數(shù)量的元數(shù)據(jù)和全文存在很大的困難。
1.3 電子期刊集成出版平臺
中國電子期刊出版高度集中在中國知網(wǎng)(CNKI)、萬方數(shù)據(jù)知識服務平臺(以下簡稱:萬方)、維普資訊(以下簡稱:維普)三大商業(yè)電子期刊集成出版平臺,其中CNKI的期刊種數(shù)最多,在中國具有最強的影響力和最大的用戶群體。用戶在這三大平臺上能很方便地檢索到自己需要的文獻,有訪問權的用戶還可下載多種格式的全文。這三大平臺收錄的期刊數(shù)量、提供的平臺功能雖然有差異,但有一個共同點就是期刊論文元數(shù)據(jù)高度封閉,用戶僅能下載少量幾個元數(shù)據(jù)字段。以CNKI為例,可以下載的字段只有18個(見圖1),且元數(shù)據(jù)下載條數(shù)有嚴格的限制。Web of Science 、工程索引等國外商業(yè)數(shù)據(jù)庫對元數(shù)據(jù)下載雖有不合理的限制,但可下載字段數(shù)量和元數(shù)據(jù)條數(shù)都比CNKI寬松。
1.4 中國學術機構建設的學術期刊論文數(shù)據(jù)庫
三大商業(yè)電子期刊集成出版平臺的電子期刊論文元數(shù)據(jù)的高度封閉,導致基于中國學術期刊論文元數(shù)據(jù)的學術評價、知識挖掘等工作存在較大的困難。
跟絕大多數(shù)國家類似,中國也非常強調(diào)學術機構和學者的學術產(chǎn)出評價,但受中國學術期刊論文元數(shù)據(jù)難于獲取和中國學術期刊學術影響力較低等因素的影響,現(xiàn)階段的學術評價更側(cè)重于外文學術期刊(特別是Web of Science來源期刊)論文。
隨著中國政府越來越鼓勵學者將高水平學術論文發(fā)表在國內(nèi)期刊上,中國學術期刊的論文質(zhì)量和影響力開始顯著提升。根據(jù)2024年6月發(fā)布的《期刊引用報告》,20種中國出版的學術期刊已在21個學科中排名全球第一[4]。學術評價如果繼續(xù)忽視中國學術期刊論文,其評價結果的偏差勢必會越來越大。
正是由于中國學術期刊論文數(shù)據(jù)在學術評價、知識挖掘等方面有著重要的作用,中國的學術機構正在大力建設中國的學術期刊論文數(shù)據(jù)庫,并積極推動中國學術期刊論文元數(shù)據(jù)的開放和再利用。
1.4.1 國家科技圖書文獻中心(NSTL)
NSTL是國家級的科技文獻服務機構聯(lián)盟,由9家核心機構組成,外文科技類期刊是NSTL文獻資源保障服務的主體,面向全國開通OA學術期刊14,000余種[5]。讀者利用NSTL檢索服務平臺可對中外文期刊論文進行檢索(包括人工智能檢索)、導出論文元數(shù)據(jù),或申請基于公益服務價格的有償文獻傳遞服務。
1.4.2 PubScholar公益學術平臺
PubScholar公益學術平臺是中國科學院文獻情報中心2023年推出的公益性學術文獻服務平臺,收錄國內(nèi)外期刊、專利、科學數(shù)據(jù)等多種類型的文獻信息,提供檢索、數(shù)據(jù)導出、全文鏈接等服務,其中國期刊的全文鏈接主要指向期刊官網(wǎng)和維普、中國科學引文數(shù)據(jù)庫(CSCD)、中國科學院機構知識庫網(wǎng)格等資源合作方,較好地滿足了讀者檢索并獲取全文的需求。平臺可檢索的科技論文元數(shù)據(jù)約9639萬條,可免費獲取的科技論文全文約2338萬篇[6],期刊論文中中文占比約74%,中文期刊論文中可獲取全文占比約1%,其中大部分為中國科學院主管期刊,非中國科學院主管的期刊,如武漢大學主辦的《圖書情報知識》,其官網(wǎng)可以提供即時的全文下載功能,但PubScholar公益學術平臺僅給出指向維普的原文鏈接。
1.4.3 中國科學引文數(shù)據(jù)庫(CSCD)
CSCD是我國第一個引文數(shù)據(jù)庫,已實現(xiàn)與Web of Science的跨庫檢索,是該平臺上第一個非英文數(shù)據(jù)庫。2023—2024年度CSCD收錄來源期刊1341種,其中中國出版的中文期刊1024種。數(shù)據(jù)庫已累積600多萬條論文記錄、1億多條引文記錄[7],并提供數(shù)據(jù)鏈接機制(即CSCD-LINK服務),鏈接對象包括出版者、圖書館、知識庫渠道,支持用戶獲取全文(僅部分論文)。
1.4.4 中文社會科學引文索引(CSSCI)
與CSCD類似,CSSCI針對的是中文社會科學領域的論文收錄和被引用情況,可檢索到來源文獻200余萬篇,引文文獻1000余萬篇[8]。同樣提供對來源文獻和被引文獻的簡單和高級檢索功能,但數(shù)據(jù)庫的訪問及數(shù)據(jù)獲取需要購買使用權限。
1.4.5 存在的不足
中國學術機構建設的各類學術期刊論文數(shù)據(jù)庫,特別是公益性的學術期刊論文數(shù)據(jù)庫,對中國學術期刊論文元數(shù)據(jù)的開放和再利用起到了積極的推動作用,但受知識產(chǎn)權和數(shù)據(jù)安全法規(guī)的限制,這類數(shù)據(jù)庫與三大商業(yè)電子期刊集成出版平臺相比還存在明顯不足。
(1)元數(shù)據(jù)總量不足。與三大商業(yè)電子期刊集成出版平臺,特別是與CNKI相比,NSTL和PubScholar公益學術平臺的元數(shù)據(jù)量都略顯不足,CSCD和CSSCI則分別是自然科學和社會科學領域的引文數(shù)據(jù)庫,且有較高的入選門檻,僅收錄較高質(zhì)量的學術期刊。
(2)主要提供檢索服務,暫時不能提供大批量的元數(shù)據(jù)下載服務,現(xiàn)有的元數(shù)據(jù)導出功能較弱。NSTL的元數(shù)據(jù)導出格式與CNKI類似,以各種參考文獻格式為主,但字段數(shù)量明顯少于CNKI平臺;PubScholar公益學術平臺僅可導出10余個字段,且可導出的記錄總數(shù)也非常有限。
(3)全文開放性不足。PubScholar公益學術平臺部分記錄提供多種形式的全文鏈接,NSTL只提供全文傳遞服務鏈接,且極少數(shù)可檢索到的OA全文也需要登錄才能跳轉(zhuǎn)。
2 開放中國學術期刊論文數(shù)據(jù)庫項目的建設
2.1 建設理論
2.1.1 元數(shù)據(jù)與圖書館
紙本期刊時代,元數(shù)據(jù)是圖書館的強項。但電子期刊時代,出版者獨占元數(shù)據(jù),集成商搶占元數(shù)據(jù),圖書館、讀者要獲取元數(shù)據(jù)存在一定困難。面對這種情況,圖書館應當集成元數(shù)據(jù),并為讀者提供相關服務。一方面,目前的元數(shù)據(jù)服務并沒有超越簡單搜索和瀏覽,圖書館需要提供更好的數(shù)字圖書館服務,使讀者能夠發(fā)現(xiàn)和探索各種文獻中埋藏的內(nèi)容。另一方面,盡管圖書館在過去收集了大量元數(shù)據(jù),但這些數(shù)據(jù)較少用于學術研究。相反,數(shù)據(jù)提供商如Web of Science、Scopus、Dimensions、Microsoft Academic Graph、CrossRef和OpenCitations,通常是學術研究的元數(shù)據(jù)來源[9]。
2.1.2 元數(shù)據(jù)與治理社區(qū)
國際層面的元數(shù)據(jù)治理已經(jīng)孕育并發(fā)展出了相應的社區(qū)。從社區(qū)原則來看,開放獲取知識庫聯(lián)盟和學術出版與學術資源聯(lián)盟制定的七項良好實踐原則之一,即內(nèi)容和元數(shù)據(jù)需要依據(jù)開放標準以機器可讀格式即時、公開和免費提供[10]。從社區(qū)實踐來看,CrossRef是最大的數(shù)字對象唯一標識符(DOI)注冊機構,主要工作是通過開放文獻的元數(shù)據(jù)和DOI來鏈接全球?qū)W術文獻。CrossRef為許多下游用戶提供元數(shù)據(jù),例如Dimensions、The Lens和SpringerLink[11],進而影響到計量指標、搜索引擎、文獻管理、科研產(chǎn)出分析等應用。除此之外,OpenAlex、Unpaywall、DOAJ等社區(qū)從不同方面集成元數(shù)據(jù),并由此制定相應的元數(shù)據(jù)標準。我國對開放元數(shù)據(jù)的重視程度相對不足,尚未建立持續(xù)有效的元數(shù)據(jù)獲取途徑及利用機制,更未形成元數(shù)據(jù)社區(qū)的協(xié)同建設體系。大量零散的出版者缺乏統(tǒng)一的元數(shù)據(jù)標準,在數(shù)據(jù)交換共享時存在障礙。
2.1.3 元數(shù)據(jù)與語種
目前,英語是元數(shù)據(jù)描述和搜索界面最常用的語言,開放元數(shù)據(jù)也基本是英文的。部分中文期刊實際上早已開放了元數(shù)據(jù),但尚未得到公眾的關注與利用,使得開放中文元數(shù)據(jù)的可見度不高,更不用說利用中文元數(shù)據(jù)提供便捷的知識服務。語種元數(shù)據(jù)也是論文元數(shù)據(jù)的重要組成部分,多語言元數(shù)據(jù)能夠促進跨系統(tǒng)元數(shù)據(jù)的融合。比如中文元數(shù)據(jù)的引入可以緩解中文作者在英文數(shù)據(jù)庫中的重名問題,實現(xiàn)作者和論文的精準匹配。
2.1.4 元數(shù)據(jù)與開放獲取
OA對象包括了科學出版物和元數(shù)據(jù),開放元數(shù)據(jù)是OA運動的重要成果。OA運動促進了論文元數(shù)據(jù)開放性的提升。比如,開放引文元數(shù)據(jù)得益于開放引文倡議(I4OC),開放摘要元數(shù)據(jù)得益于開放摘要倡議(I4OA)。最近,有學者提出開放編輯者倡議(I4OE)[12]。這些倡議推動了國際期刊開放特定的元數(shù)據(jù),從而營造了公平的開放科學環(huán)境。OA運動也帶來了新的元數(shù)據(jù),主要包括標識符型元數(shù)據(jù)和OA狀態(tài)型元數(shù)據(jù):①回顧國際標識符的歷史,從論文客體DOI到論文寫作主體ORCID,再拓展到主體所屬的研究機構ROR,這些標識符元數(shù)據(jù)都是完全開放的(屬于CC0數(shù)據(jù),提供開放API)、可以相互關聯(lián)的,從而搭建便于分析、利用的數(shù)據(jù)生態(tài),促進科研生態(tài)的建設、評價。同時,這些標識符元數(shù)據(jù)來源于出版者的主動提交,這種社區(qū)合作的模式有利于形成開放、共享的期刊生態(tài)。但是在我國,論文及參考文獻著錄DOI的普及率和利用率并不高,更不用說ORCID和ROR。各出版者之間也較為缺乏元數(shù)據(jù)合作共享渠道。②OA狀態(tài)包含了顏色、許可證、版本等方面。國際主流平臺標注的顏色主要是金色、青銅、綠色,許可證主要是知識共享(CC)協(xié)議和出版者自擬型協(xié)議,版本主要是已出版、已接受、已提交。也有學者指出如果更多的出版者以機器可讀的格式報告文章級別的OA出版成本信息,將增加學術出版的透明度[13]。但是我國出版者或集成商自主標識的OA元數(shù)據(jù)是相對缺失、模糊的,可見度很低。
2.2 建設實踐
中國科學院文獻情報系統(tǒng)長期從事開放資源服務系統(tǒng)的建設,2009年在國內(nèi)率先啟動“重要會議開放資源采集與服務系統(tǒng)”的建設。之后,開放資源的類型逐步擴展到期刊論文、圖書、科技報告、教育資源等,并建立了OAinONE開放資源集成服務系統(tǒng)(以下簡稱:OAinONE系統(tǒng))。
OAinONE系統(tǒng)在對開放資源發(fā)現(xiàn)、遴選和評價的基礎上,采集并集成開放期刊論文、開放會議論文、開放課件、開放科技報告等12類[14]優(yōu)質(zhì)開放科技資源。同時,推出領域開放知識資源服務定制工具(OAtoYOU)、開放資源評價評估體系(OAEvalua-tion)等服務。OAinONE系統(tǒng)還支持OAI-PMH和WEB Service,支持第三方收割本平臺開放資源元數(shù)據(jù),并在允許范圍內(nèi)支持收割全文[15]。
令人遺憾的是,由于中國學術期刊論文元數(shù)據(jù)的封閉和分散,導致OAinONE系統(tǒng)一直未能收錄中國學術期刊中的OA論文,資源類型存在一定的缺失。
2.3 開放中國學術期刊論文數(shù)據(jù)庫項目的建設
開放中國學術期刊論文數(shù)據(jù)庫項目將能解決我國OA期刊論文的精準檢索、有效發(fā)現(xiàn)和定位獲取問題,打破期刊網(wǎng)站的信息孤島,為用戶提供一站式的集成服務和市場替代途徑,為OA生態(tài)提供基礎設施支持,促進OA期刊論文的傳播,進一步提升中國學術期刊及其論文的可見度。
具體來看,開放中國學術期刊論文數(shù)據(jù)庫項目的建設目標是收錄盡可能全面的、中國出版的學術期刊論文元數(shù)據(jù),并盡可能提供全文連接URL,這是該數(shù)據(jù)庫的亮點之一。用戶在該數(shù)據(jù)庫檢索到相關論文后,擁有CNKI平臺訪問權的用戶可直接鏈接到CNKI平臺下載全文,沒有CNKI平臺訪問權的用戶可跳轉(zhuǎn)到期刊官網(wǎng)查看更加詳細的題錄、文摘信息,如該期刊采用金色OA、混合OA或青銅OA模式出版,用戶則可在其上獲取全文。
2.3.1 論文DOI號的解析和跳轉(zhuǎn)
DOI能夠進行跨出版者、跨系統(tǒng)、跨語言的資源鏈接,已經(jīng)成為論文的關鍵元數(shù)據(jù)。據(jù)國際DOI基金會統(tǒng)計,中文DOI注冊數(shù)量已居全球第二位[16]。開放中國學術期刊論文數(shù)據(jù)庫項目收錄的期刊論文DOI號是用戶實現(xiàn)全文鏈接跳轉(zhuǎn)的關鍵。由于在中國有CNKI、萬方兩家機構負責DOI的登記和管理,導致部分期刊論文可能擁有2個不同的DOI號,可分別解析跳轉(zhuǎn)到期刊官網(wǎng)、CNKI和萬方平臺。下面以發(fā)表在《海洋開發(fā)與管理》的論文《基于CiteSpace的國內(nèi)外海洋空間規(guī)劃研究發(fā)展態(tài)勢分析》為例進行
說明,CNKI為該論文注冊的DOI號為“10.20016/j.cnki.hykfygl.2022.01.016”,直接解析該DOI號,可得到如圖2的結果,除該論文的基本信息外,還包括3個URL。第一個URL直接跳轉(zhuǎn)到期刊官網(wǎng)該論文的詳細信息頁,點擊“下載PDF全文”按鈕,即可閱覽、保存該論文的PDF全文;第二個URL可直接跳轉(zhuǎn)到CNKI平臺該論文的詳細信息頁,有CNKI訪問權的用戶可選擇多種格式的全文進行閱覽、保存;第三個URL可能是CNKI平臺的境外鏈接,國內(nèi)用戶暫時無法利用。
萬方平臺為該論文注冊的DOI號為“10.3969/j.issn.1005-9857.2022.01.002”,直接解析該DOI號,可跳轉(zhuǎn)到萬方平臺該論文的詳細信息頁,有萬方平臺訪問權的用戶可在線閱讀或下載PDF全文。
從上例還可以看出,該篇論文的全文在期刊官網(wǎng)上可以免費下載,這就是中國目前大多數(shù)學術期刊采用的青銅OA出版模式;但在CNKI、萬方、維普平臺上都需要付費下載。
金色OA論文也面臨著大同小異的困境?!吨袊茖W數(shù)據(jù)(中英文網(wǎng)絡版)》作為中國唯一面向多學科領域科學數(shù)據(jù)出版的OA期刊,有明確的OA聲明、文章處理費標準和作者保留版權的聲明,讀者在其官網(wǎng)上可免費下載全文,且論文有OA及CC協(xié)議標識;但目前在CNKI和萬方平臺上還需付費下載,論文無OA標識;在維普平臺上可免費下載,論文有OA標識,用戶需注冊才可獲得全文。
實際上,CNKI也關注到了OA出版這一發(fā)展趨勢,推出了開放獲取資源平臺(CNKI Open Resource),給論文增加了OA字段及標識。然而該平臺僅收錄中國出版的英文期刊,其目標是促進中國學者向國內(nèi)的英文期刊投稿,并方便全球讀者便捷獲取中國創(chuàng)新成果,并沒有將中國出版的大批量中文期刊納入其中。與此同時,維普也推出了CBOA(communication based on open access)平臺,整合了3000余種中國出版的中文OA期刊,并對其刊載的論文賦予OA標識、提供免費下載。通過維普的期刊導航可以發(fā)現(xiàn)其收錄的中文OA期刊,一方面,在有些期刊官網(wǎng)上能夠即時下載所有論文的PDF全文,但期刊官網(wǎng)卻沒有相應的OA標識;另一方面,有些期刊官網(wǎng)對論文賦予了OA標識,但在維普中卻沒有該標識,如《中國公路學報》,CBOA平臺雖然收錄了該期刊,但論文收錄時間存在滯后性(于2024年7月11日檢索該期刊,期刊文章列表中最新收錄的論文出版時間為2023年11月)。這反映了識別論文OA狀態(tài)時可能存在不一致、不準確以及時滯等問題,需要為讀者提供即時可直達資源的鏈接與論文級的OA標識。
開放中國學術期刊論文數(shù)據(jù)庫項目的建設目標之一就是為讀者提供更多的全文鏈接,特別是指向期刊官網(wǎng)的免費全文鏈接并準確標注論文的OA屬性。與元數(shù)據(jù)相結合的全文鏈接對于訓練和評估從學術論文全文中提取各種信息的工具非常有用,這包括提取論文的元數(shù)據(jù)和參考文獻,以及從基金資助或致謝中提取資助者信息等。
2.3.2 期刊官網(wǎng)URL、論文URL字段的生成
期刊官網(wǎng)是獲取論文元數(shù)據(jù)的源點,能夠提供比商業(yè)期刊數(shù)據(jù)庫更為即時、開放、可靠的數(shù)據(jù)資源,但從其獲取論文元數(shù)據(jù)和全文建設數(shù)據(jù)庫的難點在于期刊官網(wǎng)的分散性和不規(guī)則性。
開放中國學術期刊論文數(shù)據(jù)庫項目中的官網(wǎng)URL、論文URL兩個字段是指向期刊官網(wǎng)免費全文鏈接的關鍵字段。通過論文DOI號解析,可以獲取該篇論文在CNKI、萬方平臺上的全文鏈接,而期刊官網(wǎng)上的全文鏈接卻不能100%獲取,往往需要自行加工生成。
雖然80%~90%的期刊都有自己的官網(wǎng),但只有部分期刊官網(wǎng)是獨立建設的,如《圖書情報工作》的官網(wǎng)是https://www.lis.ac.cn/CN/,另有很大一部分期刊的官網(wǎng)都是依托期刊投審稿系統(tǒng)服務商建設的。
期刊官網(wǎng)URL比較容易獲取,論文URL則需要根據(jù)一定規(guī)則進行拼接并檢測其有效性。論文URL拼接規(guī)則如下,其中少許不規(guī)則的論文URL需人工處理并總結其規(guī)律。
(1)期刊官網(wǎng)URL+論文DOI號,如《圖書情報
工作》:https://www.lis.ac.cn/CN/10.13266/j.issn.0252-3116.2024.01.001。
(2)期刊官網(wǎng)URL+論文出版年代、卷、期、起始頁,如《情報學報》:https://qbxb.istic.ac.cn/CN/Y2023/V42/I11/1265。
(3)期刊官網(wǎng)URL+流水號。
(4)不規(guī)則。
2.3.3 開放中國學術期刊論文數(shù)據(jù)庫項目第二階段建設思路
開放中國學術期刊論文數(shù)據(jù)庫項目目前已基本完成第一期的開發(fā)和建設,初步實現(xiàn)了中國學術期刊論文元數(shù)據(jù)的開放,第二期項目將圍繞期刊全文的開放開展建設工作,具體流程如下。
(1)標注期刊的OA出版模式、起止年代和變化情況。
(2)利用論文DOI號逐一檢查論文的OA屬性,主要判斷依據(jù)是該論文是否可免費下載+所在期刊的OA模式。如某論文在期刊官網(wǎng)上可免費下載,且發(fā)表時期刊的OA模式為青銅OA模式,則該論文的OA屬性為“Free”;若發(fā)表時期刊的OA模式為混合OA、金色OA或鉆石OA模式,則該論文的OA屬性為“金色OA(含鉆石OA)”。同時將官網(wǎng)上該論文的URL寫入開放中國學術期刊論文數(shù)據(jù)庫項目Paper_URL字段,全文PDF的URL寫入PDF_URL字段。
(3)利用開放接口實現(xiàn)與中國主要機構倉儲庫集成系統(tǒng)的鏈接,通過題名+作者+作者機構的比對,將機構倉儲庫中綠色OA論文的URL寫入開放中國學術論文數(shù)據(jù)庫項目的Green_OA_URL字段。這項工作更加復雜,工作量也更大。
3 開放的中國學術期刊論文數(shù)據(jù)的再利用
3.1 開放的中國學術期刊論文數(shù)據(jù)的FAIR化
目前,期刊論文全文的格式以PDF為主,HTML/XML使用率的下降導致出版者提供的論文級別的元數(shù)據(jù)減少,另外期刊、卷期級別的元數(shù)據(jù)著錄在同一出版者的不同期刊、同一期刊的不同卷期也不盡相同。數(shù)據(jù)結構的不統(tǒng)一,使得機器難以對大量元數(shù)據(jù)進行快速處理。要實現(xiàn)開放的中國學術期刊論文元數(shù)據(jù)的再利用必須按照科學數(shù)據(jù)FAIR原則,實現(xiàn)開放元數(shù)據(jù)的可查找(findable)、可獲?。╝ccessible)、可互操作(interoperable)和可重復使用(reusable),使之符合人工智能就緒數(shù)據(jù)(AI-ready data)規(guī)范[17]。
在這一過程中,元數(shù)據(jù)與人工智能是雙向交互的關系。一方面,人工智能通過吸收人工標注(期刊原有或平臺自加工)的元數(shù)據(jù)來增強自身的知識水平,比如人工智能如果讀取了準確的、機器可讀的權限元數(shù)據(jù)就可以智能規(guī)避相應的法律風險。另一方面,人工智能能夠?qū)υ獢?shù)據(jù)進行質(zhì)量評估和增強,比如自然語言處理技術可用于分析文檔的語言內(nèi)容,以提取缺失的元數(shù)據(jù)片段,甚至自動生成元數(shù)據(jù)。機器學習技術可用于數(shù)據(jù)的消歧,提升數(shù)據(jù)的準確度,有學者使用2.39億篇出版物的元數(shù)據(jù)對2.43億名作者進行了作者姓名消歧,將作者實體總數(shù)減少到1.51億[18]。
最終開放中國學術期刊論文元數(shù)據(jù)和全文的潛在路徑之一將是打造FAIR化的中國學術期刊開放研究平臺,利用知識圖譜技術構建一套支持科研數(shù)據(jù)生產(chǎn)、管理、出版和使用的一體化平臺,加速科研信息與學術交流從封閉的文檔進化為開放的數(shù)字信息[19-20]。
3.2 開放的中國學術期刊論文元數(shù)據(jù)再利用方向
3.2.1 知識挖掘
知識挖掘的發(fā)展趨勢可以從技術發(fā)展和應用擴展兩個方面來看。從技術層面看,隨著人工智能、機器學習、深度學習等技術的不斷發(fā)展,知識挖掘的能力和效率將得到顯著提升。深度學習技術的應用,特別是在自然語言處理和生成式人工智能等方面的進步,將使得知識挖掘能夠處理更加復雜的數(shù)據(jù)類型,提高挖掘的準確性和深度[21]。此外,大數(shù)據(jù)技術的普及以及OA運動的推進將使知識挖掘能夠處理更大規(guī)模的數(shù)據(jù)集,發(fā)現(xiàn)更加深層次的知識[22]。從應用領域看,文獻資源揭示粒度正從書目層級逐步深化到篇章級別乃至文章內(nèi)部的圖表、科研實體、公式等知識單元,對應文獻元數(shù)據(jù)規(guī)模數(shù)以億計。開放的中國學術論文元數(shù)據(jù)作為一種開放數(shù)據(jù)集,可利用知識挖掘技術來進一步幫助研究人員更高效地獲取和利用信息[23],提升文獻的增值服務價值。例如,在中醫(yī)藥治療產(chǎn)后抑郁癥的研究中,研究人員通過對醫(yī)學學術文獻的挖掘分析,發(fā)現(xiàn)常用藥物及其組合,為臨床治療提供理論依據(jù)[24]。此外,開放的中國學術論文元數(shù)據(jù)在增強學術研究的可發(fā)現(xiàn)性和影響力方面起著關鍵作用。通過優(yōu)化元數(shù)據(jù)并確保其準確性,出版者可以提高其出版物在網(wǎng)絡中的顯示度,提升成果傳播能力[25]。
3.2.2 學術評價
隨著科技的發(fā)展,AI已經(jīng)在許多領域中發(fā)揮了重要作用。文本挖掘、自然語言處理、深度學習等人工智能技術為學術評價提供了更加有效的技術支撐,如何利用AI進行更加客觀、準確和高效的學術評價,已經(jīng)成為一個重要研究課題。學者們不斷從以下維度探索更多的學術評價手段。
(1)替代度量分析是通過社交媒體平臺、學術平臺、新聞網(wǎng)站等來源,收集論文下載、瀏覽、評論、書簽和轉(zhuǎn)發(fā)等數(shù)據(jù),進行影響力分析。但目前通用的替代計量數(shù)據(jù)都是針對國際主流平臺進行的觀測,中文社區(qū)并沒有得到重視,針對中國學術期刊論文影響力的分析有必要引入中文社區(qū)的替代計量數(shù)據(jù)。
(2)語義計量學試圖基于引用關系和學術文本相似性,從學術文本層面挖掘?qū)W術價值[26]。元數(shù)據(jù)將有助于形成論文的內(nèi)容網(wǎng)絡。
(3)基于內(nèi)容的引文分析,基于全文學術數(shù)據(jù)(引文的頻率、位置、功能、情感等細粒度特征),從微觀角度揭示文獻之間的影響程度和方向[27],這些角度實際上可以認為是更為細粒度的元數(shù)據(jù)。
總之,這些新的方法都離不開開放的學術期刊論文元數(shù)據(jù)和全文的支持。
3.2.3 開放獲取率測度
由于中國學術期刊普遍采用青銅OA模式,且OA運行模式不夠透明、規(guī)范,再加上電子期刊集成平臺對各種類型OA論文的標注不規(guī)范,導致外國對中國的OA現(xiàn)狀缺乏全面、準確的判斷。與此同時,目前Web of Science、Scopus、Dimensions等知名數(shù)據(jù)庫都接入了Unpaywall數(shù)據(jù)[28],Unpaywall從50,000多個出版商和存儲庫中收集OA內(nèi)容,并使其易于查找、跟蹤和使用。但對于中國期刊及論文的開放狀態(tài),Unpaywall的判斷往往不準確,使得我國的開放獲取率被低估,相關數(shù)據(jù)及資源得不到全球的廣泛傳播及利用。開放中國學術期刊論文數(shù)據(jù)庫項目全部完成后,能夠比較準確地反映絕大多數(shù)中國學術期刊的OA發(fā)展歷程和絕大多數(shù)中國學術期刊論文的OA屬性,用戶可按照時間序列、學科領域、地域、OA模式等方式,對中國學術期刊的OA發(fā)展歷程和現(xiàn)狀進行統(tǒng)計、分析,并對未來發(fā)展趨勢進行預測。一個典型的例子可供借鑒:德國開放獲取監(jiān)測(OAM)匯集了Unpaywall、Dimensions、Web of
Science、Scopus和OpenAPC等元數(shù)據(jù)資源。Unpaywall用作出版物元數(shù)據(jù)的中央數(shù)據(jù)源,包括開放獲取可用性。然后,這些數(shù)據(jù)與期刊級元數(shù)據(jù)的CrossRef數(shù)據(jù)進行匹配,最后與隸屬機構和引文數(shù)據(jù)的Dimensions、Web of Science和Scopus數(shù)據(jù)進行匹配。與 OpenAPC的連接則提供了每個參與機構的出版成本數(shù)據(jù)[29]。
3.2.4 大模型訓練
大語言模型是依賴海量文本數(shù)據(jù),經(jīng)過無監(jiān)督預訓練及有監(jiān)督標注數(shù)據(jù)微調(diào)而成。領域大模型則是通用大模型經(jīng)過領域數(shù)據(jù)的微調(diào)而得到,具備解決領域問題的能力,滿足領域應用需求[30]。目前,以ChatGPT為代表的生成式人工智能技術主要使用各種類型的英文語料,相對缺乏中文語料,且生成的內(nèi)容可能存在“幻覺”文字(或稱人工智能生成的虛假信息)。為降低“幻覺”帶來的風險,愛思唯爾公司推出了Scopus AI[31]。該系統(tǒng)基于AIGC技術和Scopus引文數(shù)據(jù)庫及其中可信的學術文獻,可針對用戶選定的科學問題快速生成可溯源(即標注出相應的參考文獻)且經(jīng)過凝練的觀點概要(見圖3),并可根據(jù)用戶的需求進行文字擴展,幫助用戶確定本領域的核心文獻和專家,確保用戶能夠全方位了解自己感興趣的科學問題。
中國的科應全球創(chuàng)新數(shù)據(jù)平臺也推出了類似的功能。但由于中文學術期刊論文元數(shù)據(jù)相對匱乏,上述系統(tǒng)都很少使用中文學術期刊論文。從期刊論文傳播角度看,這會導致用戶在使用這些工具時無法獲得中文呈現(xiàn)的知識,可能會影響中文學術期刊論文的影響力,至少不能促進影響力的提升。從AI平臺建設角度看,會使AI的訓練語料庫缺少中文素材,回答的中文結果不理想,對中文用戶不夠友好。
近年來,中國學術期刊普遍推行同行評議制度,促使中國學術期刊論文質(zhì)量和影響力快速提升。開放中國學術期刊論文數(shù)據(jù)庫項目收錄的這些跨度幾十年、相對可信的學術文獻能夠很好地用于大語言模型或領域大模型的訓練,并增強大模型的時間序列分析能力。
目前,國內(nèi)已有期刊如《粉末冶金技術》《物理學報》使用檢索增強生成技術融合論文元數(shù)據(jù)、論文正文和大語言模型,為讀者提供智能問答服務。類似的,Web of Science也推出了研究助手WOSRA,其本質(zhì)也是生成式AI驅(qū)動的工具,目前能夠回答標題、DOI、主題等元數(shù)據(jù)相關的問題,比如“推薦一些關于氣候變化(主題)的論文”??梢哉J為,元數(shù)據(jù)與知識圖譜相結合進而與大模型相結合,是實現(xiàn)AI for Science的可能趨勢。
4 結語
中國電子學術期刊出版市場的高度集中,在一定程度上造成了電子學術期刊出版和服務的封閉。二十多年來,OA運動已在全球出版界掀起了巨大的波瀾,雖然中國大部分學術期刊都在積極實踐,但OA出版在中國的電子學術期刊出版領域仍是波瀾不興。隨著中國圖書館界本著開放科學和開放獲取精神建立起來的公益性、開放的學術期刊論文元數(shù)據(jù)平臺或其他類似系統(tǒng)的日益完善,中國三大商業(yè)電子期刊集成出版平臺勢必也將變得更加開放,并朝著重塑商業(yè)運維模式、升級服務手段和形式、增加高附加值服務項目和內(nèi)容的方向發(fā)展,從而共同推動中國學術期刊論文元數(shù)據(jù)和全文的開放和再利用,為知識挖掘、學術評價、開放獲取率測度、大模型訓練等提供高質(zhì)量的數(shù)據(jù)和語料庫支持,從而讓更多的學者和民眾享受到學術研究成果開放對科學技術、經(jīng)濟社會發(fā)展帶來的益處。
參考文獻:
[1]習近平.加強基礎研究 實現(xiàn)高水平科技自立自強[J].求是,2023(15):4-15.
[2]高雅麗.中國科技期刊的一流之路[N].中國科學報,2024-07-19(3).
[3]中國科學技術協(xié)會.中國科技期刊發(fā)展藍皮書(2022):數(shù)字經(jīng)濟時代的學術出版與交流平臺專題[M].北京:科學出版社,2022:12.
[4]張楠.2024年度《期刊引證報告》發(fā)布[N].中國科學報,2024-06-21(1).
[5]資源介紹[EB/OL].[2024-07-10].https://www.nstl.gov.cn/Portal/zyyfw_zyjs.html.
[6]PubScholar公益學術平臺[EB/OL].[2024-07-10].https://pubscholar.cn/resource.
[7]中國科學引文數(shù)據(jù)庫(CSCD)[EB/OL].[2024-07-10].http://www.sciencechina.cn/scichina2/index_more1.jsp.
[8]中文社會科學引文索引[EB/OL].[2024-07-10].http://cssci.nju.edu.cn/.
[9]LüSCHOW A.Application of graph theory in the library domain:building a faceted framework based on a literature review[J].Journal of librarianship and information science,2021,54(4):558-577.
[10]Good practice principles for scholarly communication services[EB/OL].[2024-07-10].https://sparcopen.org/wp-content/uploads/2019/01/Sparc-Good-Practice-Principles-v4.pdf#:~:text=COAR%20and%20SPAR C%20have%20developed%20seven%20good%20pract ice.
[11]BESAN?ON L,CABANAC G,LABBéC,et al.Sneaked references:fabricated reference metadata distort citation counts[EB/OL].[2024-07-10].https://asistdl.onlinelibrary.wiley.com/doi/full/10.1002/asi.24896.
[12]NISHIKAWA-PACHER A,HECK T,SCHOCH K.Open Editors:a dataset of scholarly journals′ editorial board positions[J].Research evaluation,2023,32(2):228-243.
[13]JAHN N,MATTHIAS L,LAAKSO M.Toward transparency of hybrid open access through publisher-provided metadata:an article-level study of Elsevier[J].Journal of the association for information science and technology,2021,73(1):104-118.
[14]肖曼,黃金霞,王昉,等.領域特色資源的開放共享建設機制探析:以OAinONE項目為例[J].數(shù)字圖書館論壇,2019(9):2-8.
[15]幫助中心[EB/OL].[2024-07-02].http://oa.las.ac.cn/oainone/static/html/help.html.
[16]陶云云,張志林,劉華坤.DOI標準提升我國學術期刊傳播效能研究[J].新聞傳播科學,2024,12(1):65-71.
[17]CHEN Y F,HUERTA E A,DUARTE J,et al.A FAIR and AI-ready Higgs boson decay dataset[J].Scientific data,2022,9(1):31.
[18]F?RBER M,AO L.The Microsoft Academic Knowledge Graph enhanced:author name disambiguation,publication classification,and embeddings[J].Quantitative science studies,2022,3(1):51-98.
[19]STOCKER M,OELEN A,JARADEH M Y,et al.FAIR scientific information with the Open Research Knowledge Graph[J].FAIR connect,2023,1(1):19-21.
[20]
AHRABIAN K,DU X W,MYLOTH R D,et al.PubGraph:a large-scale scientific knowledge graph[EB/OL].[2024-10-10].https://arxiv.org/pdf/2302.02231.
[21]WANG S H,SUN X F,LI X Y,et al.GPT-NER:named entity recognition via large language models[EB/OL].[2024-07-02].https://arxiv.org/pdf/2304.10428.
[22]KNOTH P,HERRMANNOVA D,CANCELLIERI M,et al.CORE:a global aggregation service for open access papers[J].Scientific data,2023(10):366.
[23]NICHOLSON J M,MORDAUNT M,LOPEZ P,et al.Scite:a smart citation index that displays the context of citations and classifies their intent using deep learning[J].Quantitative science studies,2021,2(3):882-898.
[24]羅江,楊藝萌,肖媛媛,等.基于數(shù)據(jù)挖掘分析產(chǎn)后抑郁的中醫(yī)用藥規(guī)律[J].中醫(yī)與中藥材研究,2022,1(2):7-13.
[25]
WILLEY E,RADOVSKY S.LIS journals′ lack of participation in Wikidata item creation[J].KULA:knowledge creation,dissemination,and preservation studies,2024,7(1):1-12.
[26]KNOTH P,HERRMANNOVA D.Towards semantometrics:a new semantic similarity based measure for assessing a research publication′s contribution[J].D-Lib magazine,2014,20(11/12):8.
[27]DING Y,ZHANG G,CHAMBERS T,et al.Content-based citation analysis:the next generation of citation analysis[J].Journal of the association for information science and technology,2014,65(9):1820-1833.
[28]Citation indices[EB/OL].[2024-07-11].https://unpaywall.org/integrations.
[29]BARBERS I,STANZEL F,MITTERMAIER B.Open access monitor Germany:best practice in providing metrics for analysis and decision-making[J].Serials review,2022,48(1/2):49-62.
[30]劉倩倩,劉圣嬰,劉煒.圖書情報領域大模型的應用模式和數(shù)據(jù)治理[J].圖書館雜志,2023,42(12):22-35.
[31]Scopus[EB/OL].[2024-07-02].https://www.scopus.com/search/form.uri?display=basic#scopus-ai.
作者簡介:
朱江(1968—),男,碩士,研究館員,任職于中國科學院成都文獻情報中心、中國科學院大學經(jīng)濟與管理學院。研究方向:數(shù)字資源建設、開放資源組織。
羅煜(2000—),男,通信作者,任職于中國科學院成都文獻情報中心,中國科學院大學經(jīng)濟與管理學院碩士研究生在讀。研究方向:信息組織。
周海晨(1993—),男,博士,助理研究員,任職于中國科學院成都文獻情報中心。研究方向:科學計量與評價、知識挖掘。