操玉杰,向榮榮,毛 進(jìn),王施運(yùn)
(1. 華中師范大學(xué)信息管理學(xué)院,武漢 430079;2. 武漢大學(xué)信息管理學(xué)院,武漢 430072)
當(dāng)代社會(huì)重大科技突破和研究成果越來越依賴于多個(gè)學(xué)科的交叉融合。學(xué)科交叉本身已成為一個(gè)重要的科學(xué)研究對(duì)象,開展“跨學(xué)科學(xué)”[1]研究,探索學(xué)科交叉一般規(guī)律和方法,有助于充分發(fā)揮學(xué)科交叉在科技創(chuàng)新中的作用和價(jià)值。已有較多定量研究利用引文關(guān)系、作者合著等從學(xué)術(shù)出版物中揭示跨學(xué)科研究活動(dòng)的知識(shí)交互特征和規(guī)律[2]。然而,引文關(guān)系、作者合著等信息僅是知識(shí)關(guān)互關(guān)系的間接測(cè)度,即文獻(xiàn)和作者并不是知識(shí)的直接承載物。相較而言,部分學(xué)者近年來開始從文獻(xiàn)文本中直接提取能夠反映細(xì)粒度知識(shí)內(nèi)容的知識(shí)單元,進(jìn)而從知識(shí)內(nèi)容角度來量化測(cè)度學(xué)科之間的知識(shí)傳播和知識(shí)整合,以期更準(zhǔn)確地揭示學(xué)科交叉規(guī)律[3-4]。同時(shí),情報(bào)學(xué)研究中基于文獻(xiàn)的跨學(xué)科知識(shí)發(fā)現(xiàn),旨在從跨學(xué)科領(lǐng)域的文獻(xiàn)中挖掘得到來自不同學(xué)科的知識(shí)內(nèi)容之間的關(guān)聯(lián)關(guān)系,其研究對(duì)象也是細(xì)粒度知識(shí)內(nèi)容。結(jié)合已有研究[5-6],本文使用知識(shí)單元作為細(xì)粒度知識(shí)內(nèi)容的度量單位,認(rèn)為其是指具有獨(dú)立知識(shí)含義和完整知識(shí)內(nèi)容的詞或詞組,是相關(guān)概念的統(tǒng)稱:知識(shí)元是不可再分、最小粒度的知識(shí)單元[7],知識(shí)實(shí)體是微觀層面上的部分知識(shí)單元[8],術(shù)語(yǔ)是表達(dá)特定概念的詞或詞組[9]?;诩?xì)粒度知識(shí)內(nèi)容的跨學(xué)科學(xué)研究和知識(shí)發(fā)現(xiàn)研究,能夠服務(wù)于學(xué)科交叉相關(guān)的科技政策、科研管理和科研活動(dòng),促進(jìn)交叉學(xué)科和交叉科學(xué)的發(fā)展。
無論是基于知識(shí)內(nèi)容的跨學(xué)科學(xué)研究,還是基于文獻(xiàn)的跨學(xué)科知識(shí)發(fā)現(xiàn),知識(shí)單元的學(xué)科歸屬判定均是重要的基礎(chǔ)性工作和任務(wù)。結(jié)合學(xué)科關(guān)聯(lián)視角[10],本文將知識(shí)單元的學(xué)科歸屬理解為知識(shí)單元依托于某一學(xué)科的程度,知識(shí)單元的學(xué)科歸屬度越高,則其與該學(xué)科的知識(shí)關(guān)聯(lián)性越高,其知識(shí)產(chǎn)生背景、知識(shí)應(yīng)用過程均與該學(xué)科具有較高關(guān)聯(lián),同時(shí)與學(xué)科中其他知識(shí)也具有高度的連接性。有效判別知識(shí)單元的學(xué)科屬性,能夠保障學(xué)科間知識(shí)關(guān)系測(cè)度和知識(shí)單元關(guān)聯(lián)發(fā)現(xiàn)的準(zhǔn)確性。然而,目前交叉研究領(lǐng)域的知識(shí)單元學(xué)科歸屬判定仍然是一個(gè)難點(diǎn),面臨著多方面的挑戰(zhàn)?,F(xiàn)有方法主要針對(duì)文獻(xiàn)或機(jī)構(gòu)等粗粒度知識(shí)對(duì)象,而關(guān)于如概念、術(shù)語(yǔ)、詞語(yǔ)等知識(shí)單元[5]的學(xué)科歸屬識(shí)別研究相對(duì)較少,鮮有研究針對(duì)知識(shí)單元提出適應(yīng)性的優(yōu)化方法。目前,相關(guān)研究一般借鑒相似任務(wù)中的識(shí)別方法,在文獻(xiàn)的學(xué)科分類基礎(chǔ)上,進(jìn)一步采用多種統(tǒng)計(jì)指標(biāo)或機(jī)器學(xué)習(xí)方法來判定知識(shí)單元學(xué)科歸屬。知識(shí)單元的學(xué)科歸屬與術(shù)語(yǔ)領(lǐng)域歸屬度計(jì)算存在一定的關(guān)聯(lián):術(shù)語(yǔ)領(lǐng)域歸屬度通過測(cè)度術(shù)語(yǔ)的領(lǐng)域?qū)I(yè)性和區(qū)分性來反映術(shù)語(yǔ)自身在特定領(lǐng)域中的重要程度。然而,這些研究尚存在如下不足:一是現(xiàn)有研究一般僅實(shí)現(xiàn)了知識(shí)單元的學(xué)科歸屬方法,進(jìn)而應(yīng)用在后續(xù)任務(wù)之中,較少在同一數(shù)據(jù)集上對(duì)比不同方法的性能;二是在理論層面,已有方法一般只依賴知識(shí)單元的部分特征來設(shè)計(jì)方法,未能系統(tǒng)地梳理知識(shí)單元的特征體系并評(píng)估特征的重要性。
鑒于此,本文借助16 種可用于判定知識(shí)單元學(xué)科歸屬的常用測(cè)度模型,解析出知識(shí)單元的學(xué)科重要度、學(xué)科相關(guān)度和學(xué)科區(qū)分度3 種學(xué)科維度特征體系,厘清各個(gè)方法所使用的特征組合情況,進(jìn)而構(gòu)建交叉研究領(lǐng)域測(cè)試集開展方法對(duì)比實(shí)驗(yàn),根據(jù)詞頻和學(xué)科覆蓋度區(qū)分不同類型的知識(shí)單元,對(duì)比分析不同方法對(duì)不同類型知識(shí)單元的學(xué)科歸屬判定性能,從而挖掘出對(duì)學(xué)科歸屬判定性能有貢獻(xiàn)和價(jià)值的知識(shí)單元特征及其組合。本文系統(tǒng)性地揭示了對(duì)于學(xué)科歸屬判定方法產(chǎn)生影響的知識(shí)單元特征體系,有利于優(yōu)化知識(shí)單元的學(xué)科分類方法,提升細(xì)粒度知識(shí)內(nèi)容計(jì)量的精確性,促進(jìn)跨學(xué)科學(xué)發(fā)展,也有助于改進(jìn)跨學(xué)科知識(shí)發(fā)現(xiàn)方法,以促進(jìn)交叉科學(xué)研究活動(dòng)的開展。
科學(xué)研究具有結(jié)構(gòu)特征,學(xué)科分類有利于人類對(duì)知識(shí)體系形成清晰認(rèn)識(shí)[11]?,F(xiàn)有學(xué)科分類體系繁多,常見的包括Web of Science (WoS) 學(xué)科分類[12]、Scopus 學(xué)科分類[12]、ESI (Essential Science Indicators)學(xué)科分類[13]和《中國(guó)圖書館分類法》[14]等。不同分類體系的差異體現(xiàn)在學(xué)科覆蓋范圍、學(xué)科分類層級(jí)、學(xué)科與期刊的關(guān)聯(lián)3 個(gè)方面。其中,在學(xué)科覆蓋范圍方面,當(dāng)前學(xué)科分類體系均覆蓋較廣,基本覆蓋自然科學(xué)、社會(huì)科學(xué)、生命科學(xué)、醫(yī)學(xué)等;在學(xué)科分類層級(jí)方面,較多學(xué)科分類體系包括2 個(gè)或3 個(gè)層級(jí);在學(xué)科與期刊的關(guān)聯(lián)方面,以Web of Science 為代表的英文學(xué)科分類體系均提供學(xué)科與期刊的對(duì)應(yīng)關(guān)系,以多對(duì)多為主,而《中國(guó)圖書館分類法》未提供學(xué)科與期刊關(guān)聯(lián)關(guān)系。上述學(xué)科分類體系為知識(shí)的學(xué)科分類和跨學(xué)科研究提供了數(shù)據(jù)基礎(chǔ)。WoS 學(xué)科分類體系因期刊的學(xué)科類別獲取難度低、學(xué)科覆蓋面廣而在跨學(xué)科研究中使用最為廣泛[15]。
在科學(xué)計(jì)量和科技知識(shí)發(fā)現(xiàn)研究領(lǐng)域,學(xué)者們嘗試對(duì)不同粒度的知識(shí)對(duì)象識(shí)別其學(xué)科歸屬,包括研究領(lǐng)域、期刊、論文、作者和關(guān)鍵詞等知識(shí)對(duì)象。多數(shù)研究基于學(xué)科分類體系中的期刊學(xué)科對(duì)應(yīng)關(guān)系,通過“學(xué)科-期刊-論文”關(guān)聯(lián)獲得知識(shí)對(duì)象的學(xué)科分類[16-17]。這種簡(jiǎn)單承襲方法認(rèn)為論文及論文中的作者、關(guān)鍵詞等均隸屬于論文刊載期刊的學(xué)科分類,但對(duì)于論文和更細(xì)粒度的知識(shí)對(duì)象而言,這種方法具有較大的隨機(jī)性:其默認(rèn)知識(shí)只要在學(xué)科中出現(xiàn)過即歸屬于該學(xué)科。為了優(yōu)化這種學(xué)科分類方法,學(xué)者們嘗試?yán)媒y(tǒng)計(jì)閾值來提升知識(shí)的學(xué)科專指性。例如,呂雙[18]認(rèn)為一個(gè)前沿領(lǐng)域發(fā)表在某個(gè)學(xué)科的核心論文數(shù)超過該領(lǐng)域總論文數(shù)的20%時(shí),可判定這個(gè)前沿領(lǐng)域?qū)儆谠搶W(xué)科;華萌等[19]提出文獻(xiàn)數(shù)分類法來確定期刊的學(xué)科分類,認(rèn)為期刊隸屬于文獻(xiàn)占比超過20%的學(xué)科;范晴晴等[20]通過論文參考文獻(xiàn)期刊的學(xué)科類別統(tǒng)計(jì)出占比10%以上的一種或多種學(xué)科作為論文所歸屬的學(xué)科。除了期刊的學(xué)科信息外,作者通信信息中的機(jī)構(gòu)名稱也可以用于判定作者和論文的學(xué)科歸屬[21]。
為進(jìn)一步提升學(xué)科分類的精度,部分研究者嘗試?yán)弥R(shí)在學(xué)科語(yǔ)料中的統(tǒng)計(jì)信息來挖掘知識(shí)與學(xué)科之間的關(guān)聯(lián)特征。計(jì)算原理來自Kageura 和Umino 于1996 年提出的“術(shù)語(yǔ)度”,認(rèn)為術(shù)語(yǔ)在給定領(lǐng)域和背景語(yǔ)料庫(kù)的統(tǒng)計(jì)信息可區(qū)分與領(lǐng)域關(guān)聯(lián)度較大和較小的術(shù)語(yǔ),并以此識(shí)別領(lǐng)域術(shù)語(yǔ)[22]?;谶@種對(duì)比不同語(yǔ)料中統(tǒng)計(jì)信息的思路,學(xué)者們提出了相關(guān)方法衡量知識(shí)單元的學(xué)科歸屬。呂雙[18]在詞頻基礎(chǔ)上考慮學(xué)科論文在背景語(yǔ)料庫(kù)的詞匯覆蓋度特征,設(shè)計(jì)關(guān)鍵詞的學(xué)科隸屬度指標(biāo)。Fattah[23]利用詞匯在學(xué)科內(nèi)外的分布差異比例衡量詞匯對(duì)某學(xué)科的重要性,認(rèn)為該比值最大的學(xué)科為詞匯的歸屬學(xué)科。劉麗帆等[24]使用卡方值觀察名詞塊與學(xué)科的相關(guān)性特征,認(rèn)為名詞塊與學(xué)科相關(guān)度越高,其能代表學(xué)科的可能性越大。
除了上述統(tǒng)計(jì)方法外,機(jī)器學(xué)習(xí)也被應(yīng)用于知識(shí)的學(xué)科分類。Uysal 等[25]提出區(qū)分特征選擇器(distinguishing feature selector,DFS),綜合考慮學(xué)科詞頻占比、詞匯與學(xué)科相互依賴程度和詞匯在學(xué)科內(nèi)外的分布差異,用機(jī)器學(xué)習(xí)方法篩選出具有學(xué)科獨(dú)特性的詞匯。杜濤[26]在詞頻逆文檔頻率(term frequency-inverse document frequency,TF-IDF)特征基礎(chǔ)上,借用機(jī)器學(xué)習(xí)方法對(duì)SCI(Science Citation Index)論文進(jìn)行一級(jí)學(xué)科歸屬判別。部分學(xué)者也開始關(guān)注知識(shí)單元的類型對(duì)學(xué)科分類的影響,如胡昌平等[27]認(rèn)為高頻詞對(duì)領(lǐng)域代表性存在天然缺陷。在知識(shí)單元學(xué)科分類實(shí)現(xiàn)基礎(chǔ)上,學(xué)者們進(jìn)一步引入上下文語(yǔ)境、結(jié)構(gòu)位置、引文內(nèi)容等特征開展了知識(shí)單元的語(yǔ)義分類研究。例如,陸偉等[28]認(rèn)為學(xué)術(shù)文本詞匯在特定上下文環(huán)境中承載了特定的語(yǔ)義功能,結(jié)合機(jī)器學(xué)習(xí)方法將關(guān)鍵詞劃分為研究問題、研究方法和其他;Wang 等[29]考慮了引文內(nèi)容及篇章結(jié)構(gòu)特征,將方法章節(jié)引文內(nèi)容中的知識(shí)對(duì)象進(jìn)行人工分類標(biāo)注,包含14 類計(jì)算機(jī)方法。
綜上所述,知識(shí)的學(xué)科分類方法研究整體呈現(xiàn)研究對(duì)象細(xì)粒度化、分類模糊性降低、分類方法復(fù)雜度升高的趨勢(shì)。知識(shí)單元的學(xué)科歸屬判定不僅是大勢(shì)所趨,也需要進(jìn)一步提升方法性能。進(jìn)行特征挖掘以尋找影響知識(shí)單元的學(xué)科歸屬判定性能的關(guān)鍵特征,對(duì)優(yōu)化學(xué)科分類方法至關(guān)重要。
知識(shí)單元的學(xué)科歸屬判定可視為一個(gè)分類任務(wù):已知一個(gè)給定的學(xué)科集合,根據(jù)知識(shí)單元的特征由分類算法自動(dòng)賦予其一個(gè)學(xué)科標(biāo)簽。識(shí)別和發(fā)現(xiàn)關(guān)鍵特征對(duì)提升知識(shí)單元學(xué)科分類性能具有重要影響。為此,本文嘗試借助16 種知識(shí)單元學(xué)科歸屬測(cè)度模型,分析模型所納入的特征,并對(duì)比不同方法的效果,以挖掘出有效的關(guān)鍵知識(shí)單元特征或特征組合。本文梳理了現(xiàn)有學(xué)科歸屬測(cè)度方法及其特征維度,設(shè)計(jì)了對(duì)比研究框架,如圖1 所示。
圖1 詞匯學(xué)科歸屬判定方法對(duì)比研究框架
該對(duì)比研究框架包括3 個(gè)環(huán)節(jié):①測(cè)試集構(gòu)建。選擇一個(gè)交叉研究領(lǐng)域,識(shí)別詞匯及其學(xué)科信息,構(gòu)建一個(gè)知識(shí)單元學(xué)科歸屬測(cè)試數(shù)據(jù)集。②學(xué)科歸屬判定。分別將16 種方法應(yīng)用在測(cè)試數(shù)據(jù)集上,判定測(cè)試集中每個(gè)詞匯在背景語(yǔ)料庫(kù)中的學(xué)科歸屬,并轉(zhuǎn)換為是否屬于醫(yī)學(xué)的二分類結(jié)果。③特征組合性能對(duì)比。本文歸納了所梳理的學(xué)科歸屬判定方法涉及的知識(shí)單元特征及特征組合,通過對(duì)比分析,探討不同特征或特征組合對(duì)學(xué)科歸屬判定效果的影響。
本文針對(duì)交叉領(lǐng)域的知識(shí)單元,識(shí)別其所歸屬的學(xué)科。因此,需要構(gòu)建一個(gè)交叉領(lǐng)域的數(shù)據(jù)集,獲取該領(lǐng)域的知識(shí)單元,并進(jìn)行學(xué)科分類。由于學(xué)科歸屬判定方法一般會(huì)利用知識(shí)單元在關(guān)聯(lián)學(xué)科中的統(tǒng)計(jì)信息,因此,除了獲取交叉領(lǐng)域數(shù)據(jù)之外,還需要收集該領(lǐng)域的關(guān)聯(lián)學(xué)科的數(shù)據(jù)集。本文構(gòu)建知識(shí)單元學(xué)科歸屬測(cè)試集的操作如下:在評(píng)價(jià)和比較學(xué)科歸屬測(cè)度方法性能時(shí),需要構(gòu)建包含面向?qū)W科歸屬判定需求的交叉領(lǐng)域知識(shí)單元集、標(biāo)準(zhǔn)學(xué)科相關(guān)知識(shí)單元集的測(cè)試集,以及支持學(xué)科歸屬測(cè)試方法計(jì)算的學(xué)科知識(shí)單元集。
(1)交叉領(lǐng)域及關(guān)聯(lián)學(xué)科數(shù)據(jù)集
選取近年新興醫(yī)學(xué)交叉領(lǐng)域“計(jì)算醫(yī)學(xué)”[30],對(duì)該領(lǐng)域知識(shí)單元進(jìn)行學(xué)科分類。在WoS 核心合集中以主題詞computational medicine 進(jìn)行檢索,時(shí)間范圍為1999—2022 年,檢索時(shí)間為2022 年8 月15日,共獲得文獻(xiàn)6113 篇。分別統(tǒng)計(jì)計(jì)算醫(yī)學(xué)領(lǐng)域發(fā)文分布和WoS 學(xué)科分布,如圖2 和表1 所示。可以看出,計(jì)算醫(yī)學(xué)領(lǐng)域文獻(xiàn)數(shù)量呈現(xiàn)指數(shù)增長(zhǎng)趨勢(shì),處于蓬勃發(fā)展態(tài)勢(shì)中,發(fā)文量排名前20 位的學(xué)科主要分布在醫(yī)學(xué)、生物學(xué)、計(jì)算機(jī)科學(xué)和化學(xué)等學(xué)科大類中,數(shù)量分布較為均衡,具有典交叉領(lǐng)域特性。從表1 中選擇歸屬于不同學(xué)科大類且發(fā)文量較高的4 個(gè)關(guān)聯(lián)基礎(chǔ)學(xué)科,即放射學(xué)、核醫(yī)學(xué)和醫(yī)學(xué)成像(radiology, nuclear medicine & medical imaging),計(jì)算機(jī)科學(xué)跨學(xué)科應(yīng)用(computer science, interdisciplinary applications),基因遺傳學(xué)(genetics heredity) 和化學(xué)- 多學(xué)科(chemistry, multidisciplinary)?;贘CR(Journal Citation Reports)獲取4個(gè)學(xué)科的核心期刊列表,按照“放射學(xué)、核醫(yī)學(xué)和醫(yī)學(xué)成像”前25 本期刊所占該分類論文比例(27.67%)進(jìn)行等比抽樣,采集期刊論文題錄數(shù)據(jù)。
表1 計(jì)算醫(yī)學(xué)領(lǐng)域文獻(xiàn)的WoS學(xué)科分布
圖2 計(jì)算醫(yī)學(xué)領(lǐng)域文獻(xiàn)的時(shí)間分布
分別針對(duì)計(jì)算醫(yī)學(xué)領(lǐng)域和4 個(gè)學(xué)科的文獻(xiàn)數(shù)據(jù)集,利用python 的spaCy (https://spacy.io) 程序包從能夠表征文獻(xiàn)核心內(nèi)容的標(biāo)題、摘要和關(guān)鍵詞等題錄文本中抽取名詞短語(yǔ),進(jìn)行清洗和詞形還原等預(yù)處理,作為最終的知識(shí)單元。本文將計(jì)算醫(yī)學(xué)領(lǐng)域文獻(xiàn)數(shù)據(jù)集稱為交叉領(lǐng)域語(yǔ)料庫(kù),將其所關(guān)聯(lián)的4 個(gè)學(xué)科基礎(chǔ)文獻(xiàn)數(shù)據(jù)集作為背景語(yǔ)料庫(kù)。交叉領(lǐng)域語(yǔ)料庫(kù)和背景語(yǔ)料庫(kù)的基礎(chǔ)情況如表2 所示。
表2 學(xué)科領(lǐng)域語(yǔ)料庫(kù)基本情況
(2)知識(shí)單元學(xué)科歸屬測(cè)試集
構(gòu)建知識(shí)單元學(xué)科歸屬測(cè)試集的目標(biāo)是收集一個(gè)詞匯集合,并賦予每個(gè)詞匯相應(yīng)的學(xué)科歸屬標(biāo)簽。然而,目前較難獲取詞匯的學(xué)科標(biāo)簽,也無相應(yīng)的數(shù)據(jù)集可以借鑒和使用。根據(jù)計(jì)算醫(yī)學(xué)領(lǐng)域論文涉及的WoS 學(xué)科分類來看,主要涉及的學(xué)科大類包括醫(yī)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、化學(xué)等。鑒于可操作性,本文以醫(yī)學(xué)學(xué)科為知識(shí)單元?dú)w屬的目標(biāo)學(xué)科,構(gòu)建數(shù)據(jù)集。由于數(shù)據(jù)規(guī)模和數(shù)據(jù)獲取難度問題,本文僅使用4 個(gè)關(guān)聯(lián)學(xué)科來表征這幾個(gè)學(xué)科大類。
首先,從計(jì)算醫(yī)學(xué)領(lǐng)域知識(shí)單元中選取現(xiàn)在多個(gè)學(xué)科(需包括醫(yī)學(xué))中的數(shù)量將詞匯視為待判定交叉領(lǐng)域知識(shí)單元,共獲得31366 個(gè)詞匯。只出現(xiàn)在一個(gè)學(xué)科中的詞匯,其學(xué)科歸屬較為簡(jiǎn)單,可將知識(shí)單元出現(xiàn)的學(xué)科視為其歸屬學(xué)科。
其次,利用MeSH(medical subject headings)醫(yī)學(xué)主題詞表來判定上述知識(shí)單元是否歸屬于醫(yī)學(xué)學(xué)科,認(rèn)為在MeSH 詞表中出現(xiàn)的詞匯屬于醫(yī)學(xué)學(xué)科。醫(yī)學(xué)主題詞表[31]是美國(guó)國(guó)立醫(yī)學(xué)圖書館(National Library of Medicine,NLM)編制的最具權(quán)威性的醫(yī)學(xué)領(lǐng)域動(dòng)態(tài)主題詞表,其覆蓋了醫(yī)學(xué)領(lǐng)域的規(guī)范性敘詞概念,該詞表每年都會(huì)進(jìn)行版本升級(jí)、主題增刪,主題詞表收錄時(shí)考慮了詞匯的穩(wěn)定性和新穎性[32]。對(duì)31366 個(gè)詞匯依次使用MeSH 在線文本匹配功能(https://meshb-prev.nlm.nih.gov/MeSHon-Demand),判斷其是否為MeSH 主題詞。通過以上操作,共發(fā)現(xiàn)4348 個(gè)詞匯屬于醫(yī)學(xué)學(xué)科,占總量的13.86%。由此可知,知識(shí)單元學(xué)科歸屬測(cè)試集共包括31366 個(gè)詞匯,其中4348 個(gè)屬于醫(yī)學(xué)學(xué)科,27018 個(gè)不屬于醫(yī)學(xué)學(xué)科。
知識(shí)單元學(xué)科歸屬判定方法一般是根據(jù)知識(shí)單元即詞匯在各個(gè)學(xué)科中的統(tǒng)計(jì)特征來確定該知識(shí)單元最可能從屬的學(xué)科。本文在統(tǒng)計(jì)分析詞匯信息基礎(chǔ)上,實(shí)現(xiàn)學(xué)科二分類任務(wù),即根據(jù)詞匯的統(tǒng)計(jì)指標(biāo),結(jié)合判定規(guī)則判定一個(gè)詞匯是否屬于學(xué)科“醫(yī)學(xué)”。本文基于現(xiàn)有研究[10,13,33-34]梳理了16 種可用于知識(shí)單元學(xué)科歸屬的判定方法。本節(jié)分析了這些方法所考慮的詞匯特征或特征組合,以及具體的學(xué)科歸屬分類判定規(guī)則。
2.3.1 16種方法的計(jì)算公式和判定規(guī)則
表3 梳理了16 種知識(shí)單元學(xué)科歸屬方法的計(jì)算公式和判定規(guī)則。其中,計(jì)算公式以學(xué)科內(nèi)外詞頻和文檔頻為基礎(chǔ)計(jì)算知識(shí)單元與學(xué)科的某種關(guān)系指標(biāo)。判定規(guī)則用于判斷知識(shí)單元是否屬于某個(gè)學(xué)科,其依據(jù)主要有兩種:一種是根據(jù)某學(xué)科內(nèi)的指標(biāo)值排名情況進(jìn)行判定,如熱度、期望交叉熵和領(lǐng)域相關(guān)度3 種方法均是將某學(xué)科中指標(biāo)值靠前的知識(shí)單元視為歸屬于該學(xué)科??壳伴撝等W(xué)科歸屬測(cè)試集中屬于醫(yī)學(xué)的詞匯占比(前13.86%)。另一種是通過對(duì)比不同學(xué)科間的指標(biāo)值進(jìn)行判定,如在互信息方法中,分別計(jì)算知識(shí)單元與多個(gè)學(xué)科的互信息值,然后選擇指標(biāo)值最大的學(xué)科視為該知識(shí)單元的歸屬學(xué)科。根據(jù)判定規(guī)則獲得知識(shí)單元在背景語(yǔ)料庫(kù)中的對(duì)應(yīng)醫(yī)學(xué)、生物學(xué)、計(jì)算機(jī)科學(xué)和化學(xué)4 個(gè)學(xué)科的學(xué)科歸屬,并轉(zhuǎn)化為是否屬于醫(yī)學(xué)的二分類結(jié)果。
表3 知識(shí)單元學(xué)科歸屬測(cè)度方法
2.3.2 知識(shí)單元的特征維度
根據(jù)學(xué)科歸屬測(cè)度指標(biāo)涉及的統(tǒng)計(jì)項(xiàng)和指標(biāo)設(shè)計(jì)原理,將知識(shí)單元特征歸納為學(xué)科重要度、學(xué)科相關(guān)度和學(xué)科區(qū)分度3 個(gè)方面。
(1)學(xué)科重要度
學(xué)科重要度(importance,I)主要描述詞匯對(duì)特定學(xué)科知識(shí)內(nèi)容表征的重要性,學(xué)科內(nèi)出現(xiàn)越多或者相對(duì)越多的詞匯對(duì)學(xué)科越重要。詞匯出現(xiàn)情況通??梢杂脤W(xué)科語(yǔ)料庫(kù)中詞匯熱度或詞匯論文覆蓋率來描述,即
其中,IF(i,j)表示詞匯i在學(xué)科j內(nèi)的熱度;freq(i,j)表示詞匯i在學(xué)科j內(nèi)的出現(xiàn)頻次;freq(all,j)表示學(xué)科j內(nèi)所有詞匯的累積頻次。
其中,ID(i,j)表示詞匯i在學(xué)科j內(nèi)的詞匯論文覆蓋率;doc(i,j)表示學(xué)科j內(nèi)包含詞匯i的論文數(shù);doc(all,j)表示學(xué)科j的所有論文數(shù)。
(2)學(xué)科相關(guān)度
學(xué)科相關(guān)度(relevance,R) 主要描述詞匯在統(tǒng)計(jì)語(yǔ)料庫(kù)中與特定學(xué)科的關(guān)聯(lián)程度。在背景語(yǔ)料庫(kù)中詞匯在特定學(xué)科中的出現(xiàn)占比越大,詞匯與學(xué)科的相關(guān)性越高。詞匯的學(xué)科占比通??赏ㄟ^學(xué)科詞頻占比和學(xué)科論文占比來描述,即
其中,RF(i,j)表示詞匯i在學(xué)科j內(nèi)的學(xué)科詞頻占比;freq(i,j)表示詞匯i在學(xué)科j內(nèi)的出現(xiàn)頻次;freq(i,all)表示背景語(yǔ)料庫(kù)中詞匯i的所有累積頻次。
其中,RD(i,j)表示學(xué)科j內(nèi)包含詞匯i的學(xué)科論文占比;doc(i,j)表示學(xué)科j內(nèi)包含詞匯i的論文數(shù);doc(i,all)表示背景語(yǔ)料庫(kù)中包含詞匯i的所有論文數(shù)。
(3)學(xué)科區(qū)分度
學(xué)科區(qū)分度(discriminability,D)是詞匯對(duì)學(xué)科特性的表征能力。對(duì)學(xué)科特性表征能力高的詞匯,應(yīng)該在學(xué)科內(nèi)盡可能多地出現(xiàn),同時(shí)在學(xué)科外盡可能少地出現(xiàn)[35]。借鑒術(shù)語(yǔ)度計(jì)算原理[36-37],學(xué)科區(qū)分度可以通過詞匯在給定學(xué)科和背景語(yǔ)料庫(kù)中的統(tǒng)計(jì)信息來計(jì)算。以詞頻和文檔頻率來計(jì)算的兩種方式分別為
其中,DF(i,j)表示詞匯i在學(xué)科j內(nèi)外的學(xué)科詞頻占比;freq(i,j)表示詞匯i在學(xué)科j內(nèi)的出現(xiàn)頻次;freq(all,j)表示學(xué)科j的詞匯累積頻次;freq(i,all)表示詞匯i在背景語(yǔ)料庫(kù)中的所有累積頻次;freq(all,all)表示背景語(yǔ)料庫(kù)中所有詞匯的累積頻次。
其中,DD(i,j)表示學(xué)科j內(nèi)外包含詞匯i的學(xué)科論文占比;doc(i,j)表示學(xué)科j內(nèi)包含詞匯i的論文數(shù)量;doc(all,j)表示學(xué)科j的論文數(shù);doc(i,all)表示背景語(yǔ)料庫(kù)中包含詞匯i的所有論文數(shù);doc(all,all)表示背景語(yǔ)料庫(kù)中的所有論文數(shù)。
2.4.1 性能評(píng)價(jià)方法
在實(shí)驗(yàn)時(shí),統(tǒng)計(jì)31366 個(gè)詞匯在醫(yī)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)和化學(xué)等學(xué)科數(shù)據(jù)集中的詞頻和文檔頻率,運(yùn)用16 種方法判定每個(gè)詞匯的學(xué)科歸屬,轉(zhuǎn)換為是否屬于醫(yī)學(xué)的二分類結(jié)果,進(jìn)而與測(cè)試集進(jìn)行匹配評(píng)估方法性能。
本文采用精準(zhǔn)率(precision)、召回率(recall)和F1 指標(biāo)進(jìn)行性能評(píng)價(jià)。測(cè)試集知識(shí)單元數(shù)量為S,學(xué)科歸屬判定方法得到的醫(yī)學(xué)知識(shí)單元數(shù)量為T,所命中的測(cè)試集醫(yī)學(xué)知識(shí)單元數(shù)量為St。
精準(zhǔn)率衡量學(xué)科歸屬判定方法的準(zhǔn)確程度,其公式為
召回率衡量學(xué)科歸屬判定方法的完備程度,其公式為
F1 是精準(zhǔn)率和召回率的調(diào)和平均值,用于綜合評(píng)價(jià)指標(biāo)分類性能,其公式為
需要注意的是,事實(shí)上16 種方法在本文數(shù)據(jù)集中判斷的結(jié)果是詞匯是否屬于放射學(xué)、核醫(yī)學(xué)和醫(yī)學(xué)成像,而不是醫(yī)學(xué)大類。本文構(gòu)建的基于MeSH的測(cè)試集中可能存在部分概念屬于醫(yī)學(xué)領(lǐng)域,但不屬于該二級(jí)領(lǐng)域,故所得到的指標(biāo)值比真實(shí)指標(biāo)值偏大。盡管如此,本文認(rèn)為這種評(píng)價(jià)方法也有其合理性,因?yàn)榭梢哉J(rèn)為,不屬于MeSH 中的詞匯也不能歸屬于該二級(jí)領(lǐng)域,即對(duì)負(fù)樣本的評(píng)價(jià)相對(duì)準(zhǔn)確。
2.4.2 知識(shí)單元分組
詞頻和學(xué)科覆蓋是兩種公認(rèn)的與知識(shí)單元的學(xué)科特征表征能力緊密相關(guān)的屬性特征。在實(shí)驗(yàn)結(jié)果分析時(shí),本文將對(duì)不同詞頻和學(xué)科覆蓋的知識(shí)單元進(jìn)行分組分析。
現(xiàn)有研究認(rèn)為處于不同詞頻區(qū)間的知識(shí)單元對(duì)學(xué)科領(lǐng)域代表性存在差異,如高頻詞對(duì)領(lǐng)域代表性存在天然缺陷[31],而非高頻詞更能反映類別的特征[38]等。本文借助基于詞頻、詞量、累計(jì)詞頻占比動(dòng)態(tài)取值的方法[39],依據(jù)交叉領(lǐng)域知識(shí)單元集在學(xué)科知識(shí)單元集中的頻次統(tǒng)計(jì),將詞匯劃分為高頻詞、中頻詞和低頻詞3 種。
知識(shí)單元同時(shí)出現(xiàn)的學(xué)科數(shù)量,即學(xué)科覆蓋情況,在一定程度上反映了知識(shí)單元的學(xué)科通用性或?qū)I(yè)性[40]。該特征同樣可理解為知識(shí)單元對(duì)學(xué)科領(lǐng)域特征的表征能力,從而影響知識(shí)單元的學(xué)科歸屬判定。本文統(tǒng)計(jì)了交叉領(lǐng)域知識(shí)單元集中詞匯在學(xué)科知識(shí)單元集中同時(shí)出現(xiàn)的學(xué)科數(shù)量。本文的實(shí)驗(yàn)將詞匯按學(xué)科覆蓋情況劃分為覆蓋二學(xué)科、覆蓋三學(xué)科和覆蓋四學(xué)科3 種類型。
2.4.3 對(duì)比分析的總體思路
為進(jìn)一步挖掘究竟哪些特征或特征組合用于知識(shí)單元的學(xué)科歸屬測(cè)度能夠獲得較好的學(xué)科判定性能,本文分析了現(xiàn)有的16 種學(xué)科測(cè)度方法所考慮的具體特征或特征組合,如表3 所示。在知識(shí)單元的詞頻分組和學(xué)科覆蓋分組基礎(chǔ)上,本文設(shè)計(jì)了對(duì)比分析思路,包括3 項(xiàng)具體對(duì)比分析:①針對(duì)所有知識(shí)單元,對(duì)比分析不同特征組合下的性能差異。②針對(duì)不同詞頻分組知識(shí)單元,對(duì)比分析不同特征組合下的性能差異,并分析不同詞頻分組知識(shí)單元間的性能差異。在領(lǐng)域知識(shí)分析中,不同詞頻的知識(shí)單元的判別難度不同,對(duì)于領(lǐng)域知識(shí)分析的價(jià)值也不一樣。分別考察學(xué)科歸屬方法在高頻詞、中頻詞和低頻詞中的性能,有助于理解特征組合對(duì)于不同詞頻知識(shí)單元的學(xué)科歸屬區(qū)分性能影響。③針對(duì)不同學(xué)科覆蓋知識(shí)單元,對(duì)比分析不同特征組合下的性能差異,并分析不同學(xué)科覆蓋知識(shí)單元間的性能差異。通過以上對(duì)比分析進(jìn)行特征挖掘,以獲得通用情境下和特定情境(如不同詞頻或?qū)W科覆蓋)效果最好的特征或特征組合。
為了比較不同特征組合下的知識(shí)單元學(xué)科歸屬測(cè)度方法的性能,分別運(yùn)用16 種學(xué)科歸屬測(cè)度方法進(jìn)行學(xué)科歸屬判定,并計(jì)算性能評(píng)價(jià)指標(biāo)值,進(jìn)而結(jié)合各方法考慮的知識(shí)單元特征組合進(jìn)行分組分析。對(duì)相同特征組合的各方法性能進(jìn)行統(tǒng)計(jì),得到7 組特征組合的性能。圖3 列出了每組特征組合的精準(zhǔn)率、召回率和F1 值的箱型圖,表4 列出了每種特征組合下各方法的精準(zhǔn)率、召回率和F1 值的排名與指標(biāo)值。
圖3 7種特征組合下的學(xué)科歸屬測(cè)度方法性能(四分位箱型圖)
由圖3 和表4 可以觀察得到不同特征組合對(duì)于學(xué)科歸屬測(cè)度方法的影響,相關(guān)發(fā)現(xiàn)如下:
(1)對(duì)于測(cè)試集中所有詞匯而言,知識(shí)單元學(xué)科歸屬測(cè)度效果最好的3 組特征組合依次為I、I+R+D 和I+D。其中,只考慮特征組合I 的綜合性能遠(yuǎn)高于后兩種,而在加入學(xué)科區(qū)分度D 后性能有所下降,但在綜合考慮加入學(xué)科相關(guān)度R 時(shí)則性能有所回升。特征組合I 和特征組合I+D 兩種組合性能優(yōu)勢(shì)體現(xiàn)在精準(zhǔn)率上,而特征組合I+R+D 的組合性能在精準(zhǔn)率和召回率上均較為靠前。由此可以認(rèn)為,能帶來高精準(zhǔn)率的特征組合I 是知識(shí)單元學(xué)科歸屬測(cè)度方法的必要特征選擇,3 種特征的綜合考慮則能夠在保障精準(zhǔn)率的同時(shí)也提升查全率,以保障較為均衡的整體性能。
(2)效果較好的學(xué)科特征組合中排名靠前的學(xué)科歸屬測(cè)度方法為TF、DR、DP、FW 和DFS。前3種指標(biāo)同時(shí)考慮詞頻和文檔頻,會(huì)獲得較高精準(zhǔn)率和低召回率,且體現(xiàn)為僅考慮學(xué)科內(nèi)的情況下精準(zhǔn)率和綜合性能更高。后兩種指標(biāo)當(dāng)只考慮詞匯在學(xué)科內(nèi)外的文檔覆蓋情況時(shí),能夠獲得較為均衡的精準(zhǔn)率和召回率。同時(shí)還觀察到,即使考慮相同的特征組合,具體方法設(shè)計(jì)也能較大程度地影響方法性能。例如,在考慮學(xué)科重要性I 的方法中,TF 和DR 方法明顯優(yōu)于ECE 方法。
(3)受數(shù)據(jù)不平衡分布影響,排名靠前學(xué)科特征選擇與方法性能評(píng)估通常體現(xiàn)為高精準(zhǔn)率和低召回率。在測(cè)試數(shù)據(jù)集中,屬于醫(yī)學(xué)與不屬于醫(yī)學(xué)兩種分類詞匯數(shù)量比約為1∶6。這決定了交叉領(lǐng)域知識(shí)單元集中實(shí)際屬于醫(yī)學(xué)的詞匯較少,降低了判定結(jié)果中屬于醫(yī)學(xué)的概率,在性能上表現(xiàn)為召回率較低。
為了探討特征組合對(duì)不同詞頻區(qū)間知識(shí)單元的學(xué)科歸屬測(cè)度性能影響,本文進(jìn)一步分組對(duì)比了16種學(xué)科歸屬判定方法在不同詞頻區(qū)間知識(shí)單元上的性能。表5 列出了測(cè)試數(shù)據(jù)集中的詞頻區(qū)間劃分結(jié)果,共識(shí)別出高頻詞222 個(gè)、中頻詞7570 個(gè)和低頻詞23574 個(gè)。
表5 知識(shí)單元詞頻區(qū)間劃分
從圖4 列出的不同詞頻區(qū)間的學(xué)科歸屬測(cè)度方法性能來看,不同頻次詞匯的綜合性能排序?yàn)橹蓄l區(qū)>高頻區(qū)>低頻區(qū),F(xiàn)1 值分別為26.61%、22.43%和16.50%。這一觀察部分佐證了高頻詞與非高頻詞對(duì)于學(xué)科領(lǐng)域代表性存在差異的觀點(diǎn)。在此基礎(chǔ)上,進(jìn)一步發(fā)現(xiàn)了高頻詞的學(xué)科歸屬測(cè)度結(jié)果沒有中頻詞的表現(xiàn)好,但優(yōu)于低頻詞。高頻次可能是概念范疇較大的通用型詞匯,也可能是領(lǐng)域中非常重要的詞匯;對(duì)于前一種情況,其可能涉及多個(gè)學(xué)科,因而區(qū)分難度較大。對(duì)于低頻詞而言,其出現(xiàn)頻次信息較少,相關(guān)指標(biāo)值可能受到隨機(jī)因素影響,因而區(qū)分難度最大。
圖4 不同詞頻區(qū)間的學(xué)科歸屬測(cè)度方法性能
如圖5 所示,進(jìn)一步對(duì)3 種詞頻區(qū)間的知識(shí)單元考察7 種特征組合下的學(xué)科歸屬測(cè)度方法性能,結(jié)合縱向詞頻對(duì)比和橫向特征組合對(duì)比,可以看出:①特征組合I+R+D 在3 種頻次中綜合性能均排在前3 位,并且3 種頻次區(qū)間的F1 值排序?yàn)橹蓄l區(qū)>高頻區(qū)>低頻區(qū);②一些特征組合有性能優(yōu)勢(shì)詞頻區(qū)間,其中特征組合D 和特征組合R+D 僅在高頻詞中綜合性能F1 值排名第一和第二,特征組合R 在中頻詞綜合性能F1 值排名第三,特征組合I 在低頻詞綜合性能F1 值排名第一;③從不同特征組合的方法性能分布來看,大部分特征組合在中頻詞上能夠獲得較好的性能。
圖5 不同詞頻區(qū)間的特征組合性能對(duì)比
由此可知,針對(duì)不同頻次區(qū)間知識(shí)單元,可以采用不同的特征組合方法來進(jìn)行更好的學(xué)科歸屬判定。對(duì)于高頻詞而言,注重學(xué)科區(qū)分度(D)的特征組合表現(xiàn)出了相對(duì)較好的性能,即需要進(jìn)一步判定高頻詞是否具有高學(xué)科區(qū)分度。對(duì)于低頻詞,其涉及的學(xué)科相對(duì)較少,注重知識(shí)單元對(duì)于學(xué)科的重要性(I)能夠表現(xiàn)出較好的學(xué)科歸屬性能。
本文進(jìn)一步對(duì)比不同學(xué)科覆蓋的知識(shí)單元學(xué)科特征組合效果。按照學(xué)科覆蓋情況將測(cè)試集中的知識(shí)單元?jiǎng)澐譃槎W(xué)科、三學(xué)科和四學(xué)科,分別包含5636 (占17.97%)、8417 (占26.83%) 和17313(占55.20%)個(gè)詞。3 組知識(shí)單元的整體性能如圖6 所示。綜合性能F1 值排序?yàn)樗膶W(xué)科(25.39%) >三學(xué)科(16.68%) >二學(xué)科(7.82%),整體呈現(xiàn)出詞匯所覆蓋的學(xué)科越多,學(xué)科歸屬判定效果越好??梢酝茰y(cè),詞匯出現(xiàn)的學(xué)科越多,其學(xué)科間的差異性更能被統(tǒng)計(jì)指標(biāo)所捕獲,因此,這些學(xué)科歸屬判定方法能更加準(zhǔn)確地給出判定結(jié)果。
圖6 不同學(xué)科覆蓋知識(shí)單元的學(xué)科歸屬判定性能
分組計(jì)算7 種特征組合對(duì)應(yīng)的學(xué)科歸屬判定方法性能。圖7 為這3 組不同學(xué)科覆蓋詞匯列出了不同特征組合方法的性能結(jié)果,可以看出:①特征組合I 和I+R+D 在3 種學(xué)科覆蓋類型下有較好的精準(zhǔn)率和F1 指標(biāo)值,尤其在四學(xué)科覆蓋情況下最好,說明了學(xué)科重要性對(duì)于判斷學(xué)科歸屬的重要性;②特征組合R、I+R 和I+R+D 的召回率較高,說明從學(xué)科覆蓋視角,對(duì)于涉及多學(xué)科的知識(shí)單元而言,依據(jù)學(xué)科相關(guān)性能夠發(fā)現(xiàn)更多的知識(shí)單元;③各組加入學(xué)科區(qū)分度D 的特征組合在四學(xué)科覆蓋的知識(shí)單元組中的相對(duì)性能顯著提升,說明針對(duì)涉及多個(gè)學(xué)科的知識(shí)單元而言,在學(xué)科重要度基礎(chǔ)上應(yīng)重點(diǎn)補(bǔ)充學(xué)科區(qū)分度。
圖7 不同學(xué)科覆蓋特征組合下的性能對(duì)比
為進(jìn)一步挖掘在不同情況下性能表現(xiàn)較好的通用特征選擇,本文匯總知識(shí)單元特征組合與不同知識(shí)單元分組下的49 種“分組-特征組合”性能,并進(jìn)行對(duì)比分析。表6 歸納了7 種特征組合在整體、高頻、中頻、低頻、二學(xué)科、三學(xué)科和四學(xué)科7 種情況下的整體性能F1 值的排名,并以粗體突出每種知識(shí)單元類型中排名前3 位的特征組合。排名靠前的特征組合反映了其在該情況下的適用性。由表6 可以看出:①特征組合I 和I+R+D 的通用性較強(qiáng),I 的性能最優(yōu),I+R+D 在更多場(chǎng)景中表現(xiàn)較好;②特征組合D 的通用性弱,但在特定知識(shí)單元類型高頻詞中性能突出;③特征組合I+R 在各場(chǎng)景性能均較差,是可以優(yōu)先剔除的特征組合選擇。
表6 49種分組中學(xué)科特征組合綜合性能的F1值排名
相較于引文內(nèi)容和引文關(guān)系這種間接的測(cè)度方式,論文研究?jī)?nèi)容如知識(shí)單元,可以更好地揭示學(xué)科特征[41]。其前提是需要篩選能夠代表學(xué)科領(lǐng)域的知識(shí)單元特征以更好地判定知識(shí)單元學(xué)科歸屬。本文從學(xué)術(shù)文獻(xiàn)的知識(shí)單元出發(fā),梳理了現(xiàn)有學(xué)科歸屬測(cè)度方法及其利用的知識(shí)單元學(xué)科特征,并在不同詞頻區(qū)間和不同學(xué)科覆蓋度的知識(shí)單元分組中進(jìn)行性能對(duì)比,以挖掘特征對(duì)學(xué)科歸屬測(cè)度的影響,為優(yōu)化學(xué)科歸屬判定或分類方法提供支持。
在“計(jì)算醫(yī)學(xué)”領(lǐng)域開展實(shí)證研究,構(gòu)建了待分類詞表和測(cè)試數(shù)據(jù)集,判定詞匯是否屬于醫(yī)學(xué)學(xué)科,借助學(xué)科歸屬測(cè)度模型性能的對(duì)比分析,進(jìn)行影響知識(shí)單元學(xué)科歸屬判定的特征挖掘:①總體來看,綜合使用學(xué)科重要度、學(xué)科相關(guān)度和學(xué)科區(qū)分度指標(biāo)的方法在各組分析中均表現(xiàn)出較好的性能,同時(shí)學(xué)科重要度在多個(gè)分組的表現(xiàn)都較好,由此說明學(xué)科重要度是3 種特征中最重要的一項(xiàng);②高頻詞和低頻詞的學(xué)科歸屬難度大于中頻詞,對(duì)于不同詞頻區(qū)間知識(shí)單元,可以選擇不同的策略,高頻詞需要注重學(xué)科區(qū)分度,低頻詞需要重點(diǎn)考慮學(xué)科重要性;③針對(duì)涉及多個(gè)學(xué)科的知識(shí)單元而言,在學(xué)科重要度基礎(chǔ)上加上學(xué)科區(qū)分度能夠顯著提高精準(zhǔn)率,從而提升整體性能,學(xué)科相關(guān)性則有助于提高召回率。
本文的理論意義與實(shí)踐啟示:①系統(tǒng)梳理了16種文本重要性和文本分類相關(guān)的指標(biāo)方法,并移植于交叉領(lǐng)域知識(shí)單元的學(xué)科歸屬研究,從理論上對(duì)這些方法進(jìn)行了剖解;②通過對(duì)16 種方法的學(xué)科重要度、學(xué)科相關(guān)度和學(xué)科區(qū)分度組合特征對(duì)于其性能的影響分析,揭示了知識(shí)單元學(xué)科歸屬的知識(shí)單元特征影響機(jī)理,能夠?qū)ξ磥淼难芯糠椒ㄌ峁├碚撝笇?dǎo);③發(fā)現(xiàn)了不同詞頻和不同學(xué)科覆蓋度詞匯適用的特征,能夠?yàn)閷W(xué)科分類判定實(shí)踐提供具體建議。
本文尚存在一些局限。一是受MeSH 詞表參照標(biāo)準(zhǔn)的限制,僅能進(jìn)行面向醫(yī)學(xué)的二值學(xué)科判定,無法對(duì)尚未被MeSH 詞表收錄的新興醫(yī)學(xué)概念進(jìn)行判斷;二是受到研究數(shù)據(jù)規(guī)模和處理能力的影響,在構(gòu)建測(cè)試數(shù)據(jù)集時(shí),僅抽樣醫(yī)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)和化學(xué)的二級(jí)學(xué)科的部分論文,無法完全反映知識(shí)單元在學(xué)科中的真實(shí)分布情況。未來,將進(jìn)一步借助機(jī)器學(xué)習(xí)方法在知識(shí)單元特征組合的基礎(chǔ)上優(yōu)化知識(shí)單元學(xué)科歸屬判定方法,并在跨學(xué)科知識(shí)流動(dòng)、研究領(lǐng)域跨學(xué)科交叉程度研究等場(chǎng)景中展開應(yīng)用研究。同時(shí),需要指出的是,知識(shí)單元與學(xué)科的關(guān)聯(lián)性也可以通過其與學(xué)科中其他知識(shí)單元的關(guān)聯(lián)關(guān)系進(jìn)行判斷,本文僅關(guān)注了知識(shí)單元自身,而未考慮這種結(jié)構(gòu)關(guān)聯(lián)性。