唐小利,李曉瑛,劉 懿,李愛花,楊雪梅
中國醫(yī)學科學院醫(yī)學信息研究所,北京,100020
我國加快實現(xiàn)科技自立自強背景下,廣泛集成多來源科技文獻資源,構(gòu)建國家高端學術(shù)交流平臺[1],促進科研成果的開放傳播共享與高效管理利用,已成為加強國家戰(zhàn)略科技力量的一項重要舉措。然而,不同來源的文獻數(shù)據(jù)庫所采用的學科分類體系尚不一致,導致相同資源的組織與揭示程度存在顯著差別。因此,建立不同學科分類體系之間的語義映射,使分布式的科技文獻資源得以統(tǒng)一組織,有助于科研成果的一站式檢索、分類導航與統(tǒng)計評價。
Web of Science (WOS)和Scopus是目前國際上具有較高影響力的大型科技文獻檢索和引文分析數(shù)據(jù)庫,且具有各自獨立的文獻分類體系,廣泛用于科研機構(gòu)與科研人員的成果產(chǎn)出分析、影響力評價、學術(shù)代表作評價等。在我國,國務院學位委員會和教育部公布的《學位授予和人才培養(yǎng)學科目錄》(以下簡稱教育部《學科目錄》),是現(xiàn)階段高校和科研院所普遍采用的學科分類與評估依據(jù)[2]。鑒于語言文化、編制構(gòu)想、應用場景等各方面的差異,造成WOS、Scopus文獻分類體系與教育部《學科目錄》的內(nèi)容結(jié)構(gòu)與類目設(shè)置不盡相同。但這些分類體系均以現(xiàn)代學科為依據(jù),按照從一般到具體、同大類下內(nèi)容相關(guān)的原則編制,因而相互之間可建立映射關(guān)系,以實現(xiàn)文獻分類與學科分類的交叉融合。
本文在廣泛調(diào)研國內(nèi)外相關(guān)研究現(xiàn)狀的基礎(chǔ)上,深入分析WOS、Scopus分類體系及教育部《學科目錄》的結(jié)構(gòu)特異性,并采用計算機自動匹配與人工審核相結(jié)合的方法,初步完成WOS、Scopus分類體系中生物醫(yī)學相關(guān)類目與教育部《學科目錄》的語義映射。進一步,基于Incites學科分析工具與期刊同現(xiàn)兩種不同的映射優(yōu)化方法,對上述學科分類體系的映射結(jié)果進行完善與驗證。研究成果有助于增強文獻分類與學科分類之間的互操作性,提升科研學術(shù)成果統(tǒng)計評價的查全率和查準率,乃至參照WOS、Scopus分類體系的最新科研方向調(diào)整教育部《學科目錄》的學科設(shè)置。
分類體系又稱分類法,本質(zhì)上是一種對資源進行有序化整理的知識組織系統(tǒng),分類體系映射指在不同類目間建立語義對應關(guān)系的互操作方法[3]。通過在兩部或多部分類體系間建立類目關(guān)聯(lián),有助于實現(xiàn)多來源網(wǎng)絡信息資源的整合利用[4]。鑒于不同分類體系在編制目的、內(nèi)容結(jié)構(gòu)、列類標準、分類精度等方面存在一定差別,因此類目間存在多種映射關(guān)系。國內(nèi)外學者根據(jù)類目所表達概念在內(nèi)涵和外延上的重合程度,建立了以等價、包含、被包含和相關(guān)為核心的多種映射匹配關(guān)系[5-6]。國際標準化組織(International Organization for Standardization,ISO)發(fā)布的詞表互操作國際標準《ISO 25964-2013信息與文獻》,定義了在不同詞表之間建立映射關(guān)系的3種主要類型:等同映射、等級映射、相關(guān)映射,為制定分類體系的映射原則與規(guī)范提供了依據(jù)[7]。
分類體系映射模型指映射時需要采用的模式[8],考慮待映射分類體系的規(guī)模體量、內(nèi)容結(jié)構(gòu)、映射目標、實施環(huán)境等因素,通過多種映射策略可構(gòu)建不同的映射模型。Zheng等人從映射方法入手,提出了4種映射模型:翻譯法、鏈接法、中介詞表法及臨時詞表法[9]?!禝SO 25964-2013信息與文獻》從映射結(jié)構(gòu)角度,規(guī)定了統(tǒng)一結(jié)構(gòu)模型、直接鏈接模型和中心結(jié)構(gòu)模型;統(tǒng)一結(jié)構(gòu)模型主要用于同一分類體系不同版本之間的映射,直接鏈接模型在兩部不同的分類體系之間直接建立映射關(guān)系,中心結(jié)構(gòu)模型以一部通用的分類體系作為中心,其他分類體系分別向其進行映射。歐盟Renardus項目選取《杜威十進制分類法》(Dewey decimal classification,DDC)作為中心表,與德國、英國、法國、荷蘭、瑞典等參與國家主題網(wǎng)關(guān)所用的分類體系進行映射,將多個主題網(wǎng)關(guān)的信息資源分別歸入DDC相應類目,實現(xiàn)跨主題網(wǎng)絡資源信息瀏覽與檢索[10]。
人工映射和自動映射是分類體系映射常見的兩類方法。人工映射依賴專家主觀判斷,在分類體系原本結(jié)構(gòu)上建立類目之間的對應關(guān)系,DDC與《中國圖書館圖書分類法》(簡稱《中圖法》)之間的映射是人工映射的典型代表。人工映射需要領(lǐng)域?qū)<业闹腔?,工作量大,容易產(chǎn)生主觀導致的映射不一致,且缺乏衡量映射程度的定量指標。自動映射基于統(tǒng)計或規(guī)則,由計算機自動建立對應關(guān)系。隨著計算機技術(shù)的不斷發(fā)展,類目相似度計算、書目數(shù)據(jù)統(tǒng)計、交叉檢索、期刊同現(xiàn)、機器學習等自動映射方法不斷涌現(xiàn),在一定程度上減輕對人工的依賴,提高了映射效率;然而,單一的自動映射準確率較低,需要大量的外部資源,否則映射效果無法保證。越來越多的學者開始關(guān)注和重視融合人工參與和計算機輔助的映射結(jié)果優(yōu)化問題,減少人工智力干預程度,利用統(tǒng)計、規(guī)則和期刊分類數(shù)據(jù)優(yōu)化映射結(jié)果,拓展優(yōu)化方法在實踐中的應用和推廣已成為分類體系映射發(fā)展方向之一[11]。
科睿唯安的WOS和愛思唯爾的Scopus是兩個獲取全球多學科學術(shù)成果信息的重要數(shù)據(jù)庫,覆蓋了期刊、會議論文、圖書等資源類型;這兩個數(shù)據(jù)庫都提供基于期刊的學科分類體系,并允許一種期刊有多個分類。WOS和Scopus均是多重分類的綜合性數(shù)據(jù)庫,但在期刊的收錄范圍、學科分類體系設(shè)計理念、類目概念內(nèi)涵及外延、分類標準等方面存在差異。
WOS數(shù)據(jù)庫劃分為科學引文索引、社會科學引文索引、藝術(shù)與人文引文索引,以及展示重要新興研究成果的新興來源引文索引等若干獨立數(shù)據(jù)庫,內(nèi)容涉及自然科學、工程技術(shù)、生物醫(yī)學、社會科學、藝術(shù)與人文共5個領(lǐng)域。WOS核心合集以期刊為最小分類對象,采用人工和啟發(fā)式相結(jié)合的方式,統(tǒng)一使用254個學科類別進行分類。一種期刊可以分入多個與之相關(guān)的WOS類別,新收錄的期刊采用基于引用與被引數(shù)據(jù)組合的Hayne-Coulson算法進行分類[12]。Nature、Science等綜合性期刊無法明確分入具體研究領(lǐng)域,因此歸入多學科類別。
Scopus是一個綜合性數(shù)據(jù)庫,沒有劃分獨立的子庫,使用一套完整的學科分類體系(all science journal classification,ASJC)對期刊進行分類。該體系分為3個層級,第一層級為生命科學、社會科學、自然科學、醫(yī)學4個學科大類,第二層級細分為27個學科領(lǐng)域,第三層級在第二層級的基礎(chǔ)上進一步細分為334個學科子類,配有4位數(shù)字組成的唯一分類號,每個學科子類對應唯一的學科領(lǐng)域。新收錄的期刊由期刊負責人在已有學科類別中選擇所屬類別,再請數(shù)據(jù)庫專業(yè)人員進行審查[13]。
教育部頒布的《學科目錄》主要用于碩士、博士的學位授予、招生和培養(yǎng),以及學科建設(shè)、教育統(tǒng)計分類等工作[14]?!秾W科目錄》主要有4個層級,第一級為授予學位的13個學科門類,分別為哲學、經(jīng)濟學、法學、教育學、文學、歷史學、理學、工學、農(nóng)學、醫(yī)學、軍事學、管理學、藝術(shù)學;第二級和第三級分別為一級學科(兩位學科代碼標識)和二級學科(四位學科代碼標識),第三級為具體學科設(shè)置;由于《學科目錄》的第四層級包含各院校自主設(shè)置的學科,因此不作為本研究的映射對象。
WOS和Scopus分類體系主要服務于數(shù)據(jù)庫期刊分類需求,偏重自然科學領(lǐng)域,類目設(shè)置不均衡,學科領(lǐng)域劃分寬窄不一,不利于從學科角度進行分析評價。教育部《學科目錄》服務于學科建設(shè)和評價,類目設(shè)置均衡,適用于不同學科。雖然科睿唯安和愛思唯爾在期刊分類與學科分類映射方面做出了一些努力,但這些成果集成在有些學科分析工具中,應用范圍有限,自由度較低,靈活性差,嚴重影響我國高校和科研院所學科評估的準確性和可靠性。因此需要根據(jù)分類原理,通過分類體系映射將期刊分類和學科分類有機結(jié)合,并利用不同方法對映射結(jié)果進行優(yōu)化驗證,支持數(shù)字資源建設(shè)、學術(shù)成果統(tǒng)計和學科分析評價。
WOS與Scopus數(shù)據(jù)庫對所收錄的期刊依據(jù)各自的學科分類體系完成了分類,這些期刊分類數(shù)據(jù)有助于本研究從細粒度分析其分類體系結(jié)構(gòu)[15]。WOS歷年累計的資源包含數(shù)據(jù)庫中收錄的26696種期刊,Scopus來源出版物列表包含Scopus數(shù)據(jù)庫中發(fā)文量達到15篇閾值的41320種期刊。本研究選取截至2020年出版物類型為“期刊”的數(shù)據(jù),去重后得到最終用于分析的WOS期刊20994種、Scopus期刊25964種;結(jié)合期刊全稱、ISSN等信息,判斷出這兩個數(shù)據(jù)庫共同收錄的國際期刊共有14235種。進一步統(tǒng)計發(fā)現(xiàn)WOS期刊以單分類為主,超過70%的期刊只被分到一個類別,一種期刊最多可被分到6個類別;Scopus則側(cè)重于多重分類(67.01%),僅有三分之一期刊(8566種)為單分類,一種期刊最多會被分入13個類別。對于兩個數(shù)據(jù)庫共同收錄的期刊,這一現(xiàn)象依然存在,多分類的期刊占比分別為34.25%、66.65%)。見圖1。
圖1 WOS與Scopus收錄期刊的分類數(shù)統(tǒng)計
WOS和Scopus分類體系均存在類目交叉現(xiàn)象。WOS分類體系中的類目粒度較為均衡,未見一個類目下所有期刊完全包含于另一類目的現(xiàn)象。Scopus分類體系的上位類和下位類可能同時出現(xiàn)在同一層級,存在一個類別完全包含另一類別的現(xiàn)象。例如“Immunology and Microbiology (miscellaneous)”完全包含于“Neuroscience (miscellaneous)”和“Medicine (miscellaneous)”中,標識有“miscellaneous”的Scopus類目對后續(xù)映射工作造成一定干擾。
對不同分類體系進行映射時采用統(tǒng)一標準作為基礎(chǔ),可以有效減少工作量。本研究以教育部《學科目錄》為映射目標,WOS和Scopus分類體系作為映射源,采用直接鏈接法進行映射,遵循等同映射、上位映射、下位映射和相關(guān)映射4種原則。具體映射原則如下所述。①等同映射:WOS、Scopus與教育部《學科目錄》的類目內(nèi)涵相同時,則基于同義關(guān)系進行等同映射。②上位映射:由于教育部《學科目錄》的一級學科類目揭示粒度較粗,WOS與Scopus分類體系中類目揭示度細,致使后兩者的大部分類目無法在教育部《學科目錄》中找到等同類目。因此需要進行上位映射,通過繼承上位學科類目屬性的方式將小概念映射到大概念。在就寬不就窄的上位映射原則下,一個教育部類目同時對應多個WOS或Scopus類目。同時,針對交叉學科類目,一個WOS或Scopus類目也可以對應不同的教育部類目,形成單一指向的多對多映射關(guān)系。③下位映射:Scoups分類體系中標識雜項的類目,類內(nèi)分離,類間交叉,無法對應到具體的教育部《學科目錄》中,只能采用下位映射,將大概念映射到具體包含的小概念。④相關(guān)映射:語義相關(guān)是一種弱映射關(guān)系,僅用于輔助映射而不作為一種映射關(guān)系。見圖2。
圖2 WOS、Scopus與教育部《學科目錄》的中心結(jié)構(gòu)語義映射模型
Incites是基于WOS核心合集數(shù)據(jù)進行計量分析和指標評價的學科分析工具,內(nèi)嵌3種自建學科分類體系和10種區(qū)域性學科分類體系。Incites建立了其他12種分類體系與WOS學科分類體系的映射關(guān)系(未對外公開),支撐學科分析和科研評價。除了Incites,可選擇的學科分析工具包括SciVal等,但僅對付費機構(gòu)開放。
Incites提供基于出版物的多種分析方式,利用學科分類體系中的“China SCADC Subject 97 Narrow”作為篩選條件,可收集到某一教育部類目下所有期刊及其WOS分類數(shù)據(jù)。進一步通過判斷同一期刊的教育部分類和WOS分類情況,提取出兩種分類體系之間的對應關(guān)系,用于輔助優(yōu)化本研究初步構(gòu)建的映射關(guān)系表。
首先,提取教育部某類目列表中期刊的WOS分類,判斷是否多重分類,將WOS單分類的類目與該教育部類目建立直接相關(guān)關(guān)系;其次,判斷多重分類的類目中包含生物醫(yī)學相關(guān)類目的數(shù)量,如果該期刊的多個類目中僅有一個生物醫(yī)學類目,則將該WOS類目與相應的教育部類目建立直接相關(guān)關(guān)系;最后,在同一期刊的多個生物醫(yī)學類目與教育部類目之間建立可能相關(guān)關(guān)系。見圖3。
圖3 映射關(guān)系提取流程
以教育部分類“1001基礎(chǔ)醫(yī)學”為例,Incites獲取的數(shù)據(jù)中該類目下共包含2526種期刊,涉及128個WOS分類。其中單分類期刊15種,只有一個生物醫(yī)學相關(guān)類目的期刊8種,這23個WOS類目與教育部“1001基礎(chǔ)醫(yī)學”類目直接相關(guān),構(gòu)成映射關(guān)系。見表1。
對比分析基于Incites數(shù)據(jù)提取的類目對應關(guān)系和本研究初步建立的學科類目映射表,提出以下幾點映射關(guān)系優(yōu)化方向。①增補缺失映射。將WOS和教育部直接關(guān)系映射表與前期初步構(gòu)建的多對多映射表進行對比,增補后者缺失的映射關(guān)系。例如,在“基礎(chǔ)醫(yī)學”部分的映射中增補了“ENGINEERING, CHEMICAL”到“1001基礎(chǔ)醫(yī)學”的映射。②修正錯誤映射。對于“0831 生物醫(yī)學工程”“1004 公共衛(wèi)生與預防醫(yī)學”等涉及跨學科或交叉學科較多的類目,鑒于語義映射存在交叉、循環(huán)等現(xiàn)象,可以借助直接關(guān)系進行輔助修正。③區(qū)分最優(yōu)映射和推薦映射標識。篩選WOS分類和教育部類目直接相關(guān)的關(guān)系表中唯一映射的關(guān)系對,將其中的教育部類目標識為對應WOS類目的最優(yōu)映射,其余映射相對于所對應的教育部類目為推薦映射。例如WOS分類中的“NEUROIMAGING”最優(yōu)映射到教育部“1010醫(yī)學技術(shù)”,推薦映射到“1002臨床醫(yī)學”。通過區(qū)分最優(yōu)映射和推薦映射,為學科評估等要求對期刊進行唯一分類的使用場景提供便利。
表1 WOS分類與教育部基礎(chǔ)醫(yī)學分類直接相關(guān)類目
同現(xiàn)映射是一種通過統(tǒng)計相同數(shù)據(jù)集被不同分類體系歸類后的類目同現(xiàn)頻次,依據(jù)類目之間的相關(guān)度完成類目映射的方法,亦稱為共現(xiàn)映射[8]。該方法在分類數(shù)據(jù)規(guī)模大、質(zhì)量高時,能夠得到準確率較高的映射結(jié)果。鑒于目前尚無WOS與教育部《學科目錄》、Scopus與教育部《學科目錄》的期刊分類數(shù)據(jù),故無法直接采用同現(xiàn)映射方法。然而,本研究借鑒該方法的基本原理,并通過適當改進來間接地優(yōu)化與驗證分類體系的映射結(jié)果。
理論上,借助WOS與Scopus共同收錄期刊的分類數(shù)據(jù),并通過本研究初步建立的生物醫(yī)學領(lǐng)域WOS與教育部《學科目錄》映射表、Scopus與教育部《學科目錄》映射表搭建橋梁,可從兩條路徑得到共有期刊的教育部《學科目錄》分類數(shù)據(jù)。對于同一種期刊而言,從兩條路徑得到教育部《學科目錄》分類結(jié)果完全一致,則表明兩組映射表中相應類目的映射關(guān)聯(lián)準確;否則,結(jié)果出現(xiàn)包含或不同等情況,進一步從數(shù)據(jù)庫初始期刊分類、映射表等多角度分析原因,并盡可能優(yōu)化映射表以得到一致結(jié)果。這即為本研究基于期刊同現(xiàn)的方法優(yōu)化學科分類體系映射結(jié)果的主要依據(jù)。見圖4。
圖4 改進期刊同現(xiàn)的映射結(jié)果優(yōu)化流程
值得提出的是,由于WOS與Scopus分類體系結(jié)構(gòu)、分類原則等差異,造成相同期刊的分類結(jié)果不盡相同。因此,采用本研究提出的基于期刊同現(xiàn)的方法對學科分類體系映射表進行優(yōu)化時,需要排除WOS與Scopus數(shù)據(jù)庫原分類數(shù)據(jù)的異質(zhì)性對結(jié)果的影響。
本研究分別獲取WOS、Scopus收錄的生物醫(yī)學期刊,對映射結(jié)果進行優(yōu)化驗證。WOS數(shù)據(jù)庫生物醫(yī)學期刊的篩選依據(jù)為Incites學科分類體系China SCADC Subject 97 Narrow下1001到1011各類目所包含的期刊,其中“1006 中西醫(yī)結(jié)合”和“1008 中藥學”沒有數(shù)據(jù);Scopus數(shù)據(jù)庫中生物醫(yī)學期刊來自其分類為“13 Biochemistry, Genetics and Molecular Biology”“16 Chemistry”“24 Immunology and Microbiology”“27 Medicine”“28 Neuroscience”“29 Nursing”“30 Pharmacology, Toxicology and Pharmaceutics”“32 Psychology”“35 Dentistry”“36 Health Professions”。經(jīng)統(tǒng)計,兩個數(shù)據(jù)庫收錄的生物醫(yī)學期刊分別為5701、9983種(圖5),其中4072種為兩者共有(圖5)。對這些共同收錄的期刊,借助其WOS、Scopus分類數(shù)據(jù)及與本研究初步建立的映射表,采用圖3所示的期刊同現(xiàn)優(yōu)化方法,經(jīng)多輪驗證調(diào)整,最后所得結(jié)果見表2。
圖5 WOS與Scopus生物醫(yī)學期刊分類數(shù)據(jù)統(tǒng)計
表2 基于期刊同現(xiàn)的映射優(yōu)化結(jié)果統(tǒng)計說明
綜上所述,本研究采用基于中心結(jié)構(gòu)模型的語義映射方法,初步建立了WOS、Scopus與教育部《學科目錄》中生物醫(yī)學相關(guān)類目的映射關(guān)聯(lián);而后基于Incites學科分析工具與期刊同現(xiàn)的方法優(yōu)化驗證了映射表;最終,WOS分類體系的103個類目映射到教育部《學科目錄》12個類目,共126對映射關(guān)系;Scopus分類體系中153個類目與教育部《學科目錄》12個類目建立了語義關(guān)聯(lián),共200對映射關(guān)系。教育部《學科目錄》的12個類目分別為“1001 基礎(chǔ)醫(yī)學”“1002 臨床醫(yī)學”“1003 口腔醫(yī)學”“1004 公共衛(wèi)生與預防醫(yī)學”“1006 中西醫(yī)結(jié)合”“1007 藥學”“1008 中藥學”“1009 特種醫(yī)學”“1010 醫(yī)學技術(shù)”“1011 護理學”“0710 生物學”“0831 生物醫(yī)學工程”,基本覆蓋了我國高等院校生物醫(yī)學相關(guān)學科。以“1007 藥學”為例,展示了最終所得的語義映射關(guān)系。見圖6。
圖6 WOS、Scopus分類體系與教育部《學科目錄》中“1007 藥學”的語義映射關(guān)系
本研究針對我國高端學術(shù)交流平臺的數(shù)字文獻資源建設(shè)與高校學科發(fā)展需求,分別建立了WOS、Scopus分類體系與教育部《學科目錄》中生物醫(yī)學相關(guān)類目之間的映射關(guān)聯(lián);利用Incites學科分析工具,以及WOS、Scopus共同收錄期刊的分類數(shù)據(jù),優(yōu)化并驗證了上述映射關(guān)系表。研究意義體現(xiàn)在資源建設(shè)、資源組織、學科評估等多個方面。從資源建設(shè)的角度,以教育部《學科目錄》指導國際數(shù)字資源采購,將有限的購置經(jīng)費向我國科技自主自強發(fā)展的重點學科傾斜,提升國家高端學術(shù)交流平臺中關(guān)鍵資源的覆蓋度;從資源組織的角度,針對我國科研人員與高??蒲泄芾碚邔H期刊的檢索需求,實現(xiàn)以教育部《學科目錄》來組織外文科技文獻資源,提升目標文獻的檢索效率;從學科評估的角度,本研究減少了WOS、Scopus兩大外文數(shù)據(jù)庫期刊文獻分類差異對我國高校學科評估、學術(shù)競爭力評價等分析結(jié)果的影響,提高了學科評估的查全率與查準率。今后,還將繼續(xù)開展WOS、Scopus分類體系與《中圖法》、DDC與《中圖法》等國內(nèi)外主要學科分類體系之間的映射研究,以更細粒度支撐國際科技文獻信息資源從期刊級到篇級的分類組織與有效利用。