劉春麗 陳爽
關(guān)鍵詞: 知識(shí)實(shí)體; 實(shí)體抽取; 實(shí)體評(píng)價(jià); 科學(xué)文獻(xiàn); 實(shí)體計(jì)量學(xué); 綜述
DOI:10.3969 / j.issn.1008-0821.2023.12.013
〔中圖分類號(hào)〕G254 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 12-0143-21
科學(xué)文獻(xiàn)是凝結(jié)眾多科研工作者智慧和汗水的結(jié)晶, 也是科研工作者獲取知識(shí)的重要資源[1] 。豐富的文獻(xiàn)資源為研究人員進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)提供了大量的機(jī)會(huì)[2] 。隨著人工智能的快速發(fā)展,自然語(yǔ)言處理技術(shù)不斷進(jìn)步, 學(xué)者們已經(jīng)從最初聚焦于科學(xué)文獻(xiàn)外部特征的研究逐步轉(zhuǎn)向內(nèi)容層面,開展更細(xì)粒度的研究, 并深入到對(duì)其中蘊(yùn)含的知識(shí)實(shí)體進(jìn)行挖掘、利用和評(píng)價(jià), 以實(shí)現(xiàn)從文獻(xiàn)書目層面到內(nèi)容層面的知識(shí)組織與知識(shí)管理[3] ??茖W(xué)研究中的知識(shí)實(shí)體的進(jìn)步、改進(jìn)和應(yīng)用對(duì)促進(jìn)不同學(xué)科發(fā)展起著至關(guān)重要的作用[4] 。知識(shí)實(shí)體的抽取與評(píng)價(jià)對(duì)信息檢索、文本挖掘、信息推薦、自然語(yǔ)言處理、數(shù)字圖書館研究、科學(xué)決策等有較大的應(yīng)用價(jià)值。
為了更全面地了解知識(shí)實(shí)體相關(guān)研究, 本文進(jìn)行了中外文的文獻(xiàn)調(diào)研。首先, 分別在Web of Sci?ence 核心合集數(shù)據(jù)庫(kù)、谷歌學(xué)術(shù)和CNKI、萬(wàn)方、維普數(shù)據(jù)庫(kù)中檢索相關(guān)論文。中文檢索策略是將實(shí)體、算法、軟件、數(shù)據(jù)集、知識(shí)元、術(shù)語(yǔ)等表示研究對(duì)象的名詞, 學(xué)術(shù)論文、學(xué)術(shù)文獻(xiàn)和科學(xué)文獻(xiàn)等表示研究領(lǐng)域的名詞, 以及表示抽取、評(píng)價(jià)、計(jì)量、評(píng)估等名詞進(jìn)行組配檢索; 英文檢索策略是將“entity”“entities”“text”“name”“sentence”“term”“knowledge element”“knowledge unit”“Fine-grainedknowledge”“knowledge graph” 等表示研究對(duì)象的名詞, 和“scientific document”“scientific literature”“academic literature”“academic papers” 等表示研究領(lǐng)域的名詞, 以及“recognition”“extract”“textmining”“data mining”“metrics” “indicator”“en?titymetrics” “evaluation”“impact” 等詞進(jìn)行組配檢索, 得到中英文文獻(xiàn)超過(guò)兩千篇。通過(guò)瀏覽每篇論文的標(biāo)題、摘要, 甚至全文, 再進(jìn)一步人工篩選更密切相關(guān)的外文文獻(xiàn)約779 篇, 中文文獻(xiàn)約289 篇。此外, 也通過(guò)專家咨詢、檢索密切相關(guān)文獻(xiàn)的參考文獻(xiàn), 核心作者與相關(guān)會(huì)議名稱等檢索方式補(bǔ)充。
總體來(lái)看, 中外文相關(guān)文獻(xiàn)呈現(xiàn)逐年遞增的趨勢(shì)。20 世紀(jì)90 年代發(fā)表的密切相關(guān)論文較少;2000—2010 年, 科學(xué)文獻(xiàn)的文本挖掘、知識(shí)元(關(guān)鍵詞、主題詞等元數(shù)據(jù))、知識(shí)單元(篇章、句子、短語(yǔ)等) 的挖掘或知識(shí)抽取逐漸興起; 2010 年以后, 知識(shí)實(shí)體的抽取、實(shí)體評(píng)價(jià)及實(shí)體計(jì)量等概念與方法逐漸繁榮。早期的知識(shí)實(shí)體抽取與評(píng)價(jià)主要來(lái)自生物醫(yī)學(xué)領(lǐng)域, 如Bruijn B D 等[5] 于2002 年發(fā)表在International Journal of Medical Informatics 的一篇論文中總結(jié)了從Medline 摘要或全文文章中提取各種分子生物學(xué)發(fā)現(xiàn)的文本挖掘技術(shù), 包括文本分類、命名實(shí)體標(biāo)記、事實(shí)提取和論文集合分析;Ding Y 等[6] 于2013 年提出實(shí)體計(jì)量學(xué), 并以二甲雙胍為例, 構(gòu)建藥物相關(guān)實(shí)體引文網(wǎng)絡(luò), 利用緊密中心度和中介中心性等指標(biāo)評(píng)價(jià)生物實(shí)體的重要性。
2020 年以來(lái), 隨著機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等技術(shù)的發(fā)展, 以及相關(guān)國(guó)際學(xué)術(shù)會(huì)議、工作組會(huì)議的召開, 知識(shí)實(shí)體研究進(jìn)入了嶄新的發(fā)展時(shí)期。近年來(lái), 有少量學(xué)者發(fā)表相關(guān)中文綜述文章。如李廣建等[7] 聚焦于基于深度學(xué)習(xí)的知識(shí)單元抽??; 沈雪瑩等[3] 專注于知識(shí)單元的抽取與應(yīng)用; 溫雯等[8]梳理了知識(shí)實(shí)體類型的抽取與標(biāo)注; 盧超等[9] 從引文內(nèi)容計(jì)量和全文內(nèi)容計(jì)量?jī)纱蠓矫婢C述了學(xué)術(shù)文獻(xiàn)的全文計(jì)量, 著重指出今后應(yīng)重視語(yǔ)義特征分析的深化。在英文綜述文獻(xiàn)中, Wang Y Z 等[10] 對(duì)方法實(shí)體的抽取、評(píng)價(jià)和應(yīng)用現(xiàn)況進(jìn)行了闡述和分析; 此外, Zhang C Z 等[11-14] 先后撰寫了知識(shí)實(shí)體抽取、評(píng)價(jià)與應(yīng)用方面的簡(jiǎn)要綜述, 如在第4 屆科學(xué)文獻(xiàn)中知識(shí)實(shí)體抽取與評(píng)價(jià)(EEKE2023)和第3屆AI+信息計(jì)量學(xué)(ALL2013)聯(lián)合工作組會(huì)議網(wǎng)站上發(fā)布的會(huì)議宗旨中指出“要將信息計(jì)量學(xué)與人工智能技術(shù)相結(jié)合, 具有分析非結(jié)構(gòu)化可擴(kuò)展數(shù)據(jù)和數(shù)據(jù)流、理解不確定語(yǔ)義以及開發(fā)健壯和可重復(fù)模型的能力[11] ”。在2023 年, Aslib Journal of In?formation Management 的EEKE2021 工作組會(huì)議特刊發(fā)表客座編輯社論文章, 簡(jiǎn)要介紹知識(shí)實(shí)體及其關(guān)系的抽取、注釋工具及知識(shí)實(shí)體圖譜的構(gòu)建、知識(shí)實(shí)體的應(yīng)用等[12] 。
隨著自然語(yǔ)言處理技術(shù)的發(fā)展, 知識(shí)實(shí)體的抽取已經(jīng)從深度學(xué)習(xí)更新到BERT 和ChatGPT, 而且知識(shí)實(shí)體的評(píng)價(jià)方法也在文獻(xiàn)計(jì)量和替代計(jì)量基礎(chǔ)上取得了更深入、更多元的進(jìn)步。因此, 需要在前人建立的理論基礎(chǔ)上, 對(duì)最新的知識(shí)實(shí)體抽取與評(píng)價(jià)發(fā)展現(xiàn)況進(jìn)行系統(tǒng)梳理與分析。本文著眼于科學(xué)文獻(xiàn)中的知識(shí)實(shí)體, 在范圍上覆蓋更廣的實(shí)體類型。不僅較為詳盡地梳理實(shí)體抽取方法, 還著重總結(jié)了最新的大語(yǔ)言模型在實(shí)體抽取方面的應(yīng)用。此外, 對(duì)知識(shí)實(shí)體抽取的數(shù)據(jù)集的總結(jié)、相關(guān)學(xué)術(shù)會(huì)議內(nèi)容與主題的比較也是本研究的特色之處。在知識(shí)實(shí)體的評(píng)價(jià)方面, 除知識(shí)實(shí)體的提及頻率和替代計(jì)量外, 還梳理出提及頻率的影響因素、實(shí)體共現(xiàn)網(wǎng)絡(luò)與實(shí)體引文網(wǎng)絡(luò)、基于實(shí)體的同行評(píng)議、基于知識(shí)實(shí)體的論文新穎性和臨床轉(zhuǎn)化進(jìn)展評(píng)價(jià)等最新的研究進(jìn)展。
1什么是科學(xué)文獻(xiàn)中的知識(shí)實(shí)體
什么是科學(xué)文獻(xiàn)中的知識(shí)實(shí)體(Knowledge enti?ty, KEs)? 大致可以從廣義與狹義兩個(gè)層面進(jìn)行定義, 一是廣義上的知識(shí)實(shí)體, 即綜合了所有學(xué)科領(lǐng)域具有普遍意義的實(shí)體。學(xué)者們對(duì)什么是知識(shí)實(shí)體各抒己見, 如溫雯等[8] 將知識(shí)實(shí)體定義為: 區(qū)別于一般的實(shí)體的、具有專業(yè)領(lǐng)域特性、能概括表達(dá)文獻(xiàn)中核心知識(shí)點(diǎn)的術(shù)語(yǔ); Zhang C Z 等[4] 認(rèn)為,知識(shí)實(shí)體是指作者提及或引用的知識(shí), 反映了各種解決問(wèn)題場(chǎng)景中的豐富資源; Xiao C 等[15] 定義知識(shí)實(shí)體為特定學(xué)科中相對(duì)獨(dú)立和完整的知識(shí)模塊;Ding Y 等[6] 指出, 知識(shí)實(shí)體作為科學(xué)文獻(xiàn)中知識(shí)單位的載體, 包括諸如關(guān)鍵詞、主題、學(xué)科類別、數(shù)據(jù)集、關(guān)鍵方法、關(guān)鍵理論和領(lǐng)域?qū)嶓w(如生物實(shí)體: 基因、藥物和疾?。0彩阑⒌龋郏保叮?將保存可用的知識(shí)表達(dá), 但沒(méi)有先天知識(shí)處理能力的知識(shí)事物稱為知識(shí)實(shí)體。李廣建等[7] 將科技文獻(xiàn)中以詞或短語(yǔ)為載體、相對(duì)獨(dú)立完整的知識(shí)模塊稱為知識(shí)實(shí)體或“詞粒度知識(shí)單元”, 并指出其具有細(xì)粒度、專業(yè)性強(qiáng)的特點(diǎn)。二是狹義上的知識(shí)實(shí)體, 即領(lǐng)域知識(shí)實(shí)體(表1 展示了知識(shí)實(shí)體在不同領(lǐng)域中所指代的具體內(nèi)容或定義)。如生物醫(yī)藥領(lǐng)域中的病毒實(shí)體、疾病實(shí)體、細(xì)胞實(shí)體、化學(xué)成分實(shí)體、藥物實(shí)體、生物分子實(shí)體[17-19] ; 計(jì)算機(jī)領(lǐng)域的軟件知識(shí)實(shí)體、算法知識(shí)實(shí)體和方法實(shí)體等[20-23] 。此時(shí), 知識(shí)實(shí)體的具體指代因其應(yīng)用的學(xué)科領(lǐng)域、作者研究目的差異而不同。
雖然各個(gè)學(xué)者對(duì)各學(xué)科領(lǐng)域知識(shí)實(shí)體的定義表述不一, 但究其本質(zhì)仍有共同之處。本研究中對(duì)領(lǐng)域知識(shí)實(shí)體的定義是各學(xué)科領(lǐng)域內(nèi)的專業(yè)術(shù)語(yǔ)或融合了領(lǐng)域知識(shí)的實(shí)體。
2科學(xué)文獻(xiàn)中知識(shí)實(shí)體的抽取
2.1知識(shí)實(shí)體的抽取方法研究
知識(shí)實(shí)體抽取可以作為命名實(shí)體識(shí)別(NamedEntity Recognition, NER)的子任務(wù), 是開展自然語(yǔ)言處理相關(guān)研究的先行步驟, 高效、準(zhǔn)確地抽取知識(shí)實(shí)體更有利于后續(xù)研究的順利開展。隨著人工智能技術(shù)的不斷發(fā)展, 主流的知識(shí)實(shí)體抽取方法已經(jīng)由早期基于人工標(biāo)注、基于規(guī)則等依賴人工的方法逐漸演變成更加側(cè)重于自動(dòng)化的抽取方法, 如基于傳統(tǒng)的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、預(yù)訓(xùn)練語(yǔ)言模型或者多種模型混合的方法, 這使得知識(shí)實(shí)體抽取效率大大提升, 實(shí)體抽取的準(zhǔn)確性也在部分領(lǐng)域有了顯著的改善。如在醫(yī)學(xué)領(lǐng)域, 從文本中提取癥狀、診斷意見和藥物信息。在材料科學(xué)領(lǐng)域, 識(shí)別無(wú)機(jī)材料性能、聚合物、納米材料以及合成路線等實(shí)體。在生態(tài)環(huán)境領(lǐng)域, 識(shí)別生態(tài)治理技術(shù)領(lǐng)域知識(shí)實(shí)體及生態(tài)環(huán)境領(lǐng)域知識(shí)實(shí)體[42] 。
2.1.1基于人工標(biāo)注的方法
基于人工標(biāo)注的知識(shí)實(shí)體抽取方法一般是通過(guò)預(yù)先定義的知識(shí)體系, 聘請(qǐng)專家對(duì)學(xué)術(shù)論文進(jìn)行標(biāo)注, 多用于構(gòu)建領(lǐng)域數(shù)據(jù)集或語(yǔ)料庫(kù)[43] 。如He JX 等[44] 基于人工標(biāo)注的方法, 從21 篇人文社科博士論文致謝文本中抽取了致謝實(shí)體, 構(gòu)建了致謝實(shí)體的細(xì)粒度分類體系, 為今后利用機(jī)器學(xué)習(xí)等方法抽取和分析提供了致謝實(shí)體語(yǔ)料庫(kù)。
人工標(biāo)注的優(yōu)勢(shì)在于其具備一定的靈活性, 這是其他方法較難比擬的; 不足則在于人工的精力往往是有限的, 很難在短時(shí)間內(nèi)實(shí)現(xiàn)大量數(shù)據(jù)集的有效標(biāo)注。人工標(biāo)注的方法雖然略顯笨重并且耗時(shí)耗力, 但至今仍然未被淘汰, 主要原因是由于此方法在部分領(lǐng)域如古籍、古詩(shī)詞等復(fù)雜領(lǐng)域的標(biāo)注靈活性, 并且人工標(biāo)注的高質(zhì)量數(shù)據(jù)集也是其他知識(shí)實(shí)體抽取研究的基礎(chǔ), 其他方法通過(guò)與人工標(biāo)注方法的有效結(jié)合可以大大提升知識(shí)實(shí)體的抽取準(zhǔn)確性和抽取效率。
2.1.2基于規(guī)則的方法
基于規(guī)則的知識(shí)實(shí)體抽取主要依靠人工定制的規(guī)則開展, 這些規(guī)則的定制依賴于具體的知識(shí)庫(kù)和詞典, 規(guī)則制定人員通過(guò)選取統(tǒng)計(jì)信息、關(guān)鍵字、指示詞等具體特征的方式制定規(guī)則模板[45] 。如化柏林[46] 采用基于規(guī)則的方法對(duì)中文學(xué)術(shù)文獻(xiàn)的情報(bào)學(xué)方法理論術(shù)語(yǔ)進(jìn)行抽取研究。Bhatia S 等[47] 使用基于規(guī)則的方法識(shí)別學(xué)術(shù)論文中的算法, 并構(gòu)建了算法搜索系統(tǒng)。鄒洋杰等[48] 采用基于規(guī)則的方法從情報(bào)學(xué)與計(jì)算機(jī)科學(xué)文獻(xiàn)中抽取方法實(shí)體; 許華等[49] 基于語(yǔ)言規(guī)則對(duì)病癥菌實(shí)體進(jìn)行抽取。DingY 等[6] 以治療糖尿病的藥物二甲雙胍為例, 采用字典匹配的方法抽取二甲雙胍相關(guān)文獻(xiàn)中的基因、疾病和藥物實(shí)體, 用于構(gòu)建實(shí)體—實(shí)體引文網(wǎng)絡(luò)。Wang S 等[50] 設(shè)計(jì)了一種詞干匹配方法來(lái)查找出現(xiàn)在引文句子和相應(yīng)參考文獻(xiàn)中的名詞短語(yǔ), 以探索從參考文獻(xiàn)到施引論文的知識(shí)傳播。
通過(guò)規(guī)則匹配抽取知識(shí)實(shí)體的優(yōu)勢(shì)在于可以精準(zhǔn)有效地抽取大量知識(shí)實(shí)體, 對(duì)比人工標(biāo)注效率有了很大的提升; 但也會(huì)存在一些規(guī)則無(wú)法涵蓋所有知識(shí)實(shí)體的特點(diǎn), 因而產(chǎn)生實(shí)體抽取遺漏, 而且基于規(guī)則的方法具有鮮明的領(lǐng)域特點(diǎn), 難以遷移至其他數(shù)據(jù)集或其他領(lǐng)域進(jìn)行知識(shí)實(shí)體抽取。
2.1.3基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法
基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法一般將實(shí)體抽取看作分類任務(wù)或序列標(biāo)注任務(wù)[45,51] 。具體過(guò)程為: 將實(shí)體通過(guò)一定粒度的分詞后進(jìn)行特征提取, 結(jié)合詞法和句法特征轉(zhuǎn)換成特征向量, 然后采用某些算法、模型, 如隱馬爾可夫模型(Hidden Markov Models)、最大熵模型(Maximum Entropy Models)、條件隨機(jī)場(chǎng)(Conditional Random Fields, CRF)、決策樹模型(Decision Trees) 等機(jī)器學(xué)習(xí)模型,比較特征向量之間的相似度, 然后進(jìn)行標(biāo)注。此種方法已經(jīng)在實(shí)體抽取任務(wù)中取得一定成效, 緩解人工成本過(guò)高的同時(shí)提高了模型的泛化性, 但抽取精度有賴于訓(xùn)練數(shù)據(jù)的標(biāo)注質(zhì)量, 且不適用于大規(guī)模數(shù)據(jù)集[52-54] 。
基于CRF 的機(jī)器學(xué)習(xí)模型開展的知識(shí)實(shí)體抽取研究較多, 涉及領(lǐng)域也較為廣泛, 包括計(jì)算機(jī)領(lǐng)域[55] 、生物醫(yī)學(xué)領(lǐng)域[56] 、旅游領(lǐng)域[45] 等。由于CRF 模型復(fù)雜度較高、訓(xùn)練代價(jià)較大, 因此常與深度學(xué)習(xí)模型結(jié)合, 聯(lián)合實(shí)現(xiàn)實(shí)體抽取任務(wù)[57] 。
2.1.4基于深度學(xué)習(xí)的方法
基于深度學(xué)習(xí)方法在文本挖掘領(lǐng)域具有較好的性能, 包括運(yùn)用在文本分類、信息抽取、關(guān)系抽取等任務(wù)中, 并逐漸占據(jù)實(shí)體抽取技術(shù)的主導(dǎo)地位,與傳統(tǒng)的機(jī)器學(xué)習(xí)相比, 深度學(xué)習(xí)采用深度神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)對(duì)知識(shí)實(shí)體的自動(dòng)抽取, 自動(dòng)學(xué)習(xí)語(yǔ)義依賴關(guān)系, 有助于自動(dòng)發(fā)現(xiàn)隱藏的特征, 使得泛化能力得到了提升, 并且有效降低了大量的人工成本[58-59] 。仲雨樂(lè)等[25] 也在研究中指出, 深度學(xué)習(xí)模型在問(wèn)題、方法實(shí)體識(shí)別的任務(wù)上取得了比傳統(tǒng)機(jī)器學(xué)習(xí)更好的性能。
應(yīng)用較多的模型包括深度神經(jīng)網(wǎng)絡(luò)模型(DeepNeural Network, DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolution?al Neural Network, CNN)、基于詞向量的雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(Bi-directional Long Short-TermMemory, BiLSTM)、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Net?work, GNN)和注意力機(jī)制等[60] 。其中, BiLSTMCRF已成為基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法中的主要模型[61-62] , 在此基礎(chǔ)之上有學(xué)者提出Bert-BiLSTM-CRF[63-65] 、BiLSTM-CNNs-CRF[51] 、引入注意力機(jī)制的Att-BiLSTM-CRF 模型[66-67] 、AL?BERT-BiLSTM-CRF 模型[68] 等混合模型, 分別在中文景點(diǎn)實(shí)體、中文位置實(shí)體、術(shù)語(yǔ)實(shí)體、電子病歷、農(nóng)業(yè)文本中實(shí)體等的抽取有較為出色的表現(xiàn)。如Hou L 等[53] 應(yīng)用了引入注意力機(jī)制的BiLSTMCNN-CRF 模型對(duì)文獻(xiàn)中的算法和數(shù)據(jù)集進(jìn)行抽取, 其中注意力機(jī)制可以捕獲標(biāo)記和上下文信息之間的長(zhǎng)距離依賴關(guān)系, 通過(guò)選擇性地對(duì)一些重要信息給予更多的關(guān)注, 并賦予它們較高的權(quán)重, 以聚焦于句子的關(guān)鍵部分, 從而大大提升了模型的性能; 韓娜等[68] 采用ALBERT-BiLSTM-CRF 模型完成句子級(jí)事件的重要元素的抽取, 結(jié)果表明, 該模型與其他同類型模型相比, 準(zhǔn)確率和F1 值均有所提升; 章成志等[69] 采用基于字向量的、結(jié)合條件隨機(jī)場(chǎng)的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)聯(lián)合訓(xùn)練模型對(duì)研究方法實(shí)體識(shí)別進(jìn)行識(shí)別, 模型表現(xiàn)性能較佳。
基于深度學(xué)習(xí)的方法抽取學(xué)術(shù)文獻(xiàn)中的知識(shí)實(shí)體受到廣泛關(guān)注, 也具有較大的發(fā)展?jié)摿Α4送?,通過(guò)結(jié)合預(yù)訓(xùn)練模型、遷移學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)、遠(yuǎn)程監(jiān)督學(xué)習(xí)或引入注意力機(jī)制所提出的混合模型也有效提升了深度學(xué)習(xí)模型在知識(shí)實(shí)體抽取任務(wù)中的效果[25] 。
2.1.5基于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型
大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型, 簡(jiǎn)稱“大語(yǔ)言模型(Large Language Model, LLM)”, 是一種從預(yù)訓(xùn)練語(yǔ)言模型擴(kuò)展的人工智能模型, 旨在理解和生成人類語(yǔ)言。BERT 與ChatGPT 均是基于Transformer 架構(gòu)的大語(yǔ)言模型。通過(guò)在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行無(wú)監(jiān)督訓(xùn)練, 大語(yǔ)言模型在多個(gè)自然語(yǔ)言處理任務(wù)上取得了重要突破, 甚至在語(yǔ)義理解、常識(shí)推理和對(duì)話生成等任務(wù)上超越了人類平均水平[70] 。
Devlin J 等[71] 于2019 年提出雙向預(yù)訓(xùn)練語(yǔ)言模型BERT ( Bidirectional Encoder Representationsfrom Transformers) 是未來(lái)知識(shí)實(shí)體抽取的主流模型[52] 。該模型通過(guò)在大規(guī)模無(wú)監(jiān)督語(yǔ)料上進(jìn)行預(yù)訓(xùn)練, 學(xué)習(xí)通用的語(yǔ)言表示, 然后將這些學(xué)習(xí)到的表示用于各種下游任務(wù), 在自然語(yǔ)言處理領(lǐng)域中的多個(gè)任務(wù)上得到了很好的應(yīng)用。也由此衍生出針對(duì)特定領(lǐng)域的預(yù)訓(xùn)練的語(yǔ)言模型, 如通過(guò)在生物醫(yī)學(xué)領(lǐng)域、醫(yī)療語(yǔ)料庫(kù)的大規(guī)模文獻(xiàn)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練得到的BioBERT[72] 和SMedBERT[73] , 拓展了BERT在生物醫(yī)學(xué)語(yǔ)料庫(kù)上的應(yīng)用, 可以用于生物醫(yī)學(xué)文本的實(shí)體抽取和關(guān)系抽取任務(wù); Huang K 等[74] 通過(guò)在臨床醫(yī)學(xué)文獻(xiàn)和醫(yī)療記錄上進(jìn)行預(yù)訓(xùn)練而得到的ClinicalBERT, 考慮了臨床術(shù)語(yǔ)、疾病名稱等特定于臨床醫(yī)學(xué)的詞匯, 并能夠更好地處理與醫(yī)療相關(guān)的文本任務(wù)。Beltagy I 等[75] 通過(guò)在大量科學(xué)文獻(xiàn)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練得到用于科學(xué)文獻(xiàn)領(lǐng)域的預(yù)訓(xùn)練語(yǔ)言模型SciBERT, 它利用無(wú)監(jiān)督預(yù)訓(xùn)練并顯著提高了BERT 模型在科學(xué)NLP 任務(wù)中的性能。
由于大規(guī)模的預(yù)訓(xùn)練語(yǔ)言模型, 如ChatGPT 和GPT-4 在各個(gè)行業(yè)和領(lǐng)域的廣泛應(yīng)用而獲得了廣泛的普及, 一些學(xué)者對(duì)ChatGPT 和GPT-4 在實(shí)體抽取中的性能進(jìn)行了測(cè)試和評(píng)價(jià)。如Hu Y 等[76] 測(cè)試ChatGPT 在臨床實(shí)體識(shí)別中的應(yīng)用; González-Gallardo C E 等[77] 在歷史文獻(xiàn)中運(yùn)用ChatGPT 識(shí)別實(shí)體; Rehana H 等[78] 則評(píng)估基于GPT 和BERT 模型在生物醫(yī)學(xué)文本中識(shí)別蛋白—蛋白交互方面的性能。人們發(fā)現(xiàn), 大語(yǔ)言模型在命名實(shí)體識(shí)別(NER)任務(wù)上的表現(xiàn)相對(duì)較低, 這是因?yàn)椋危牛?是一種序列標(biāo)注任務(wù), 而大語(yǔ)言模型是一種文本生成模型,兩者之間存在差距。為了解決這個(gè)問(wèn)題, Wang SH 等[79] 提出了一種名為GPT-NER 的方法, 通過(guò)將序列標(biāo)注任務(wù)轉(zhuǎn)化為生成任務(wù), 使大型語(yǔ)言模型能夠更好地適應(yīng)NER 任務(wù)。實(shí)驗(yàn)結(jié)果顯示, 在資源稀缺和少樣本情況下, 即訓(xùn)練數(shù)據(jù)非常有限時(shí),GPT-NER 表現(xiàn)出更強(qiáng)的能力, 明顯優(yōu)于有監(jiān)督模型。另外, 張穎怡等[80] 設(shè)計(jì)了一種基于ChatGPT的學(xué)術(shù)論文實(shí)體識(shí)別方法, 并從性能、價(jià)格和時(shí)間3 個(gè)角度進(jìn)行可用性分析。研究結(jié)果表明, 在不同學(xué)科領(lǐng)域下, 當(dāng)人工標(biāo)注數(shù)據(jù)集規(guī)模較小或缺少人工標(biāo)注數(shù)據(jù)集時(shí), 可以直接將ChatGPT 視為實(shí)體識(shí)別工具。但實(shí)體識(shí)別結(jié)果需要進(jìn)行錯(cuò)誤分析與過(guò)濾等后續(xù)處理。此外, 大語(yǔ)言模型在訓(xùn)練時(shí)使用的語(yǔ)料庫(kù)可能存在樣本偏差, 導(dǎo)致在實(shí)體抽取任務(wù)中無(wú)法很好地處理特定領(lǐng)域或特定類型的實(shí)體。這可能需要額外的數(shù)據(jù)處理和領(lǐng)域適應(yīng)方法來(lái)解決, 并且訓(xùn)練和部署大語(yǔ)言模型通常需要的成本較高。
總的來(lái)講, 大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型通過(guò)在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行無(wú)監(jiān)督訓(xùn)練, 能夠?qū)W習(xí)到豐富的語(yǔ)言知識(shí)和上下文理解能力。這使得它在實(shí)體抽取任務(wù)中能夠更好地理解文本中的語(yǔ)義和上下文信息;在進(jìn)行微調(diào)時(shí), 可以通過(guò)少量的標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí), 甚至在零樣本設(shè)置下也能取得一定的性能。這對(duì)于實(shí)體抽取任務(wù)中的資源稀缺或少樣本情況下非常有用。而且大語(yǔ)言模型在實(shí)體抽取任務(wù)中具有上下文理解能力強(qiáng)、零樣本學(xué)習(xí)和可遷移性等優(yōu)點(diǎn)。但它也存在樣本偏差和計(jì)算資源需求高的缺點(diǎn)。在實(shí)際應(yīng)用中, 需要權(quán)衡這些優(yōu)缺點(diǎn), 并根據(jù)具體任務(wù)和資源限制來(lái)選擇合適的模型和方法。
表2 中展示了知識(shí)實(shí)體抽取方法的優(yōu)缺點(diǎn)比較??梢钥闯?, 在知識(shí)實(shí)體的抽取技術(shù)中, 基于人工注釋和基于規(guī)則的方法在抽取效率方面處于劣勢(shì), 難以涵蓋所有語(yǔ)言場(chǎng)景, 應(yīng)用起來(lái)耗時(shí)費(fèi)力[53] , 但其優(yōu)勢(shì)在于可以通過(guò)實(shí)體標(biāo)記, 構(gòu)建領(lǐng)域高質(zhì)量語(yǔ)料庫(kù)、字典等, 輔助機(jī)器學(xué)習(xí)算法對(duì)知識(shí)實(shí)體高效、準(zhǔn)確地抽?。?傳統(tǒng)機(jī)器學(xué)習(xí)方法的出現(xiàn)有效地提升了知識(shí)實(shí)體的抽取效率, 但不足則在于其過(guò)度依賴人工標(biāo)記的高質(zhì)量文本提取特征; 深度學(xué)習(xí)方法克服了傳統(tǒng)機(jī)器學(xué)習(xí)的局限性, 減少了對(duì)預(yù)處理的依賴性, 實(shí)現(xiàn)了對(duì)隱匿特征的自動(dòng)提取, 并且在知識(shí)實(shí)體抽取任務(wù)中表現(xiàn)較為出色。但深度學(xué)習(xí)實(shí)現(xiàn)對(duì)知識(shí)實(shí)體抽取準(zhǔn)確率的基礎(chǔ)在于對(duì)大量的高質(zhì)量標(biāo)注數(shù)據(jù)的學(xué)習(xí)。而現(xiàn)實(shí)情況是, 在具體抽取知識(shí)實(shí)體的過(guò)程中的標(biāo)注數(shù)據(jù)往往是少量的; 采用基于大語(yǔ)言模型的方法也可以減輕對(duì)標(biāo)注數(shù)據(jù)集的依賴,從無(wú)標(biāo)簽的非結(jié)構(gòu)化數(shù)據(jù)中自主學(xué)習(xí)知識(shí), 具有上下文理解能力強(qiáng)和可遷移性等優(yōu)點(diǎn)。然而, 它也存在樣本偏差和計(jì)算資源需求高的缺點(diǎn)。在實(shí)際應(yīng)用中, 需要權(quán)衡這些優(yōu)缺點(diǎn), 并根據(jù)具體任務(wù)和資源限制來(lái)選擇合適的模型與方法。
針對(duì)以上知識(shí)實(shí)體抽取技術(shù)存在的問(wèn)題, 本文認(rèn)為, 其一, 著力開展領(lǐng)域標(biāo)注數(shù)據(jù)集的構(gòu)建、模型訓(xùn)練; 其二, 訓(xùn)練出適用于多領(lǐng)域的實(shí)體抽取模型或增強(qiáng)已有模型的普適性; 其三, 在具體的知識(shí)實(shí)體抽取任務(wù)中, 應(yīng)根據(jù)待抽取實(shí)體的特點(diǎn), 選擇合適的模型。如李賀等[81] 在簡(jiǎn)帛醫(yī)藥知識(shí)組織的研究中針對(duì)不同的數(shù)據(jù)集選擇了不同的模型抽取知識(shí)實(shí)體, 對(duì)于《足臂十一脈灸經(jīng)》和《陰陽(yáng)十一脈灸經(jīng)》的文本, 采用構(gòu)建的詞典進(jìn)行分詞, 并提取經(jīng)絡(luò)實(shí)體; 對(duì)于《病方》和《五十二病方》采用條件隨機(jī)場(chǎng)模型(CRF)進(jìn)行實(shí)體識(shí)別。也有學(xué)者根據(jù)數(shù)據(jù)集的語(yǔ)言特點(diǎn)選擇或提出合適的模型,如張芳叢等[82] 為了更好地處理中文醫(yī)學(xué)文本, 提出基于RoBERTa-WWM-BiLSTM-CRF 的中文電子病歷命名實(shí)體識(shí)別模型, 在BERT 識(shí)別詞語(yǔ)義基礎(chǔ)上獲取詞的信息, 采用中文全詞遮掩技術(shù)和動(dòng)態(tài)掩碼機(jī)制, 在大量無(wú)標(biāo)簽文本的長(zhǎng)序列訓(xùn)練中, 模型可以生成含詞匯的語(yǔ)義信息, 有效改善中文文本識(shí)別中一詞多義、詞識(shí)別不全等問(wèn)題。Kong H 等[83]開發(fā)了KorSciBERT-ME-J 和KorSciBERT-ME-J+C模型以提高韓國(guó)論文的元數(shù)據(jù)提取性能。實(shí)驗(yàn)結(jié)果表明KorSciBERT-ME-J 表現(xiàn)出最高的性能, F1 分?jǐn)?shù)為99.36%, 同時(shí)在自動(dòng)提取各種格式的韓國(guó)學(xué)術(shù)論文的元數(shù)據(jù)方面表現(xiàn)穩(wěn)健。
此外, 也可以結(jié)合弱監(jiān)督、無(wú)監(jiān)督算法或遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法提高訓(xùn)練數(shù)據(jù)的質(zhì)量, 減少模型對(duì)大規(guī)模訓(xùn)練語(yǔ)料庫(kù)的依賴或降低獲取大規(guī)模訓(xùn)練語(yǔ)料庫(kù)的成本[10] 。如在知識(shí)實(shí)體抽取任務(wù)中,遷移學(xué)習(xí)可以將標(biāo)注好的數(shù)據(jù)或模型在某個(gè)領(lǐng)域、任務(wù)中學(xué)習(xí)到的知識(shí)、模式應(yīng)用于其他領(lǐng)域、任務(wù)中去, 以此提升模型的泛化能力。即遷移學(xué)習(xí)在利用高資源數(shù)據(jù)集的同時(shí), 增強(qiáng)了模型對(duì)低資源、特定任務(wù)文本數(shù)據(jù)集的概括能力[84] 。王紅斌等[85] 提出一種基于樣本的遷移學(xué)習(xí)算法—TLNER-Ada?Boost, 通過(guò)自動(dòng)調(diào)整目標(biāo)訓(xùn)練樣本和輔助訓(xùn)練樣本的權(quán)重, 擴(kuò)充目標(biāo)訓(xùn)練樣本的規(guī)模, 以此提高訓(xùn)練語(yǔ)料質(zhì)量, 實(shí)驗(yàn)結(jié)果表明, 在相對(duì)較低的人工標(biāo)注語(yǔ)料成本上, 遷移學(xué)習(xí)算法獲得較好的實(shí)體抽取效果。Boland K[86] 指出, 在實(shí)體抽取任務(wù)中, 大量帶有注釋的數(shù)據(jù)是十分重要的, 并且很難獲取, 因此, 提出了使用弱監(jiān)督方法和遠(yuǎn)程監(jiān)督來(lái)創(chuàng)建銀標(biāo)簽, 以利用遷移學(xué)習(xí)訓(xùn)練監(jiān)督式軟件提取方法。研究表明, 即使僅結(jié)合少量弱監(jiān)督方法, 也可以創(chuàng)建一個(gè)銀標(biāo)準(zhǔn)語(yǔ)料庫(kù), 作為遷移學(xué)習(xí)的有用基礎(chǔ)。Shao W 等[87] 提出了一種基于句子模式和句子POS序列的無(wú)監(jiān)督方法。這種方法可以在不學(xué)習(xí)標(biāo)記數(shù)據(jù)的情況下提取術(shù)語(yǔ), 只需要一些初始句型來(lái)冷啟動(dòng)。然后它可以在未標(biāo)記的數(shù)據(jù)上學(xué)習(xí)新的模式和POS 序列, 并使用它們來(lái)提取新的術(shù)語(yǔ)。Zha H等[88] 也基于弱監(jiān)督的方法從文本中抽取算法實(shí)體,用于構(gòu)建算法路線圖。Liu Q K 等[89] 在抽取數(shù)據(jù)集實(shí)體時(shí), 對(duì)于長(zhǎng)尾數(shù)據(jù)集實(shí)體(即在數(shù)據(jù)集中出現(xiàn)頻率較低的實(shí)體)的抽取采用了遠(yuǎn)程監(jiān)督方法和兩種數(shù)據(jù)增強(qiáng)方法來(lái)獲取數(shù)據(jù)。然后, 使用BERTBiLSTM-CRF 模型來(lái)預(yù)測(cè)長(zhǎng)尾數(shù)據(jù)集實(shí)體。以上研究均在知識(shí)實(shí)體抽取任務(wù)中取得了較好的結(jié)果。
2.2知識(shí)實(shí)體抽取的數(shù)據(jù)集
知識(shí)實(shí)體抽取流程較為固定, 對(duì)于主流模型來(lái)說(shuō), 高質(zhì)量的標(biāo)注數(shù)據(jù)集頗為重要。針對(duì)已有研究來(lái)看, 現(xiàn)有領(lǐng)域數(shù)據(jù)集多集中于醫(yī)學(xué)、新聞、計(jì)算機(jī)科學(xué)、教育等領(lǐng)域。為推進(jìn)各學(xué)科共同發(fā)展, 可以拓展領(lǐng)域數(shù)據(jù)集到其他領(lǐng)域; 此外, 有報(bào)告[90]指出, 目前只有一小部分語(yǔ)種出現(xiàn)在基礎(chǔ)模型中,而世界上有6 000多種語(yǔ)言, 對(duì)于一些少數(shù)語(yǔ)言或資源匱乏的語(yǔ)言, 由于缺乏大規(guī)模的標(biāo)注數(shù)據(jù), 許多自然語(yǔ)言處理任務(wù)無(wú)法得到充分的發(fā)展和研究。表3 列舉了生物醫(yī)學(xué)領(lǐng)域可以用于知識(shí)實(shí)體抽取任務(wù)的標(biāo)注數(shù)據(jù)集。
2.3知識(shí)實(shí)體抽取的軟件與工具
目前, 已經(jīng)開發(fā)眾多軟件或工具旨在自動(dòng)化開展知識(shí)實(shí)體抽取任務(wù)。如Tong Y 等[92] 開發(fā)了ViM?RT, 用于自動(dòng)識(shí)別病毒變異。Song M 等[93] 設(shè)計(jì)了PKDE4J——一個(gè)綜合的文本挖掘系統(tǒng), 它集成了基于字典的實(shí)體提取和規(guī)則, 還可以插入自然語(yǔ)言處理組件的各種組合, 以及添加詞典和豐富的規(guī)則集以識(shí)別準(zhǔn)確的實(shí)體和關(guān)系。不僅適用于生物醫(yī)學(xué)領(lǐng)域, 也適用于其他領(lǐng)域。Yu L 等[94] 構(gòu)建了一個(gè)信息抽取和知識(shí)挖掘的智能平臺(tái), IEKMMD。該平臺(tái)包含兩項(xiàng)創(chuàng)新技術(shù): 首先, 結(jié)合了神經(jīng)網(wǎng)絡(luò)和主動(dòng)學(xué)習(xí)的短語(yǔ)級(jí)科學(xué)實(shí)體抽取模型, 可以有效降低模型對(duì)大規(guī)模語(yǔ)料庫(kù)的依賴; 其次, 提供了基于翻譯的關(guān)系預(yù)測(cè)模型, 通過(guò)優(yōu)化損失函數(shù)來(lái)改進(jìn)關(guān)系嵌入。此外, 該平臺(tái)集成了先進(jìn)的實(shí)體識(shí)別模型(spaCy.NER)和關(guān)鍵詞提取模型(RAKE)。它為細(xì)粒度和多維度的知識(shí)提供豐富的服務(wù), 包括問(wèn)題發(fā)現(xiàn)、方法識(shí)別、關(guān)系表示和熱點(diǎn)檢測(cè)。在人工智能、納米技術(shù)和基因工程3 個(gè)不同的領(lǐng)域進(jìn)行了實(shí)驗(yàn),實(shí)體抽取的平均準(zhǔn)確率分別為0.91、0.52 和0.76。表4 列舉了可以用于知識(shí)實(shí)體抽取的工具或軟件。
2.4知識(shí)實(shí)體抽取相關(guān)會(huì)議
近年來(lái), 科學(xué)文獻(xiàn)中的知識(shí)實(shí)體抽取得到了廣泛的關(guān)注, 相關(guān)會(huì)議也紛紛召開, 如“科學(xué)文獻(xiàn)中知識(shí)實(shí)體抽取與評(píng)價(jià)研討會(huì)(Workshop on Extrac?tion and Evaluation of Knowledge Entities from Scien?tific Documents, EEKE)”“科學(xué)文本自然語(yǔ)言處理研討會(huì)(Workshop on Natural Language Processing forScientific Text, SciNLP)” 等旨在探索如何從科學(xué)文本中精準(zhǔn)、高效地抽取知識(shí)實(shí)體。此外, 如“人工智能與信息計(jì)量學(xué)研討會(huì)(Workshop on AI+infor?metrics, AII)” 和“文獻(xiàn)計(jì)量學(xué)增強(qiáng)的數(shù)字圖書館信息檢索和自然語(yǔ)言處理研討會(huì)(Bibliometric-en?hanced Information Retrieval and Natural LanguageProcessing for Digital Libraries, BIRNDL)” 等會(huì)議的主題所示, 自然語(yǔ)言處理技術(shù)及人工智能方法在科學(xué)文獻(xiàn)中知識(shí)實(shí)體抽取和表示中的應(yīng)用也增強(qiáng)和賦能了文獻(xiàn)計(jì)量學(xué)、信息計(jì)量學(xué)、信息檢索與信息處理、科學(xué)文獻(xiàn)處理和數(shù)字圖書館領(lǐng)域的發(fā)展。
表5 列舉了知識(shí)抽取的相關(guān)會(huì)議。這些會(huì)議中均涉及利用自然語(yǔ)言處理技術(shù)研究科學(xué)文獻(xiàn)中知識(shí)實(shí)體抽取與評(píng)價(jià)方面的主題, 但各個(gè)會(huì)議有自己的側(cè)重點(diǎn)。其中, JCDL、EEKE 和AII 會(huì)議在2023 年聯(lián)合舉辦。EEKE 專注于科學(xué)文獻(xiàn)中知識(shí)實(shí)體的抽取與評(píng)價(jià), 從2020 年開始至今連續(xù)舉辦4 屆; AII會(huì)議強(qiáng)調(diào)自然語(yǔ)言處理技術(shù)在信息計(jì)量學(xué)中的應(yīng)用, 從2021 年舉辦至今; JCDL 是由ACM 和IEEE專業(yè)協(xié)會(huì)聯(lián)合組織的數(shù)字圖書館會(huì)議, 從2001 年首次舉辦, 至今已舉辦23 屆。SDP 則側(cè)重于自然語(yǔ)言處理(NLP)等技術(shù)在學(xué)術(shù)文獻(xiàn)處理(SDP)中的應(yīng)用, 從2020 年舉辦至今。有些會(huì)議在近年已經(jīng)停辦。如BIRNDL 關(guān)注自然語(yǔ)言處理技術(shù)、信息檢索和文獻(xiàn)計(jì)量學(xué)在數(shù)字圖書館中的應(yīng)用, 從2016年開始, 每年舉辦1 次, 連續(xù)共舉辦4 年; WOSP則重視自然語(yǔ)言處理技術(shù)在科學(xué)出版物基礎(chǔ)設(shè)施、文本挖掘及影響力評(píng)價(jià)方面的應(yīng)用, 從2012—2020年共舉辦了8 次; SciNLP 研討會(huì)主要關(guān)注自然語(yǔ)言處理技術(shù)在科學(xué)文本中知識(shí)抽取與表示方面的應(yīng)用, 分別在2020 年和2021 年各舉辦1 次; CLBib 關(guān)注科學(xué)論文中文本和語(yǔ)義挖掘技術(shù)在文獻(xiàn)計(jì)量學(xué)中的應(yīng)用, 僅在2015 年和2017 年各舉辦1 次會(huì)議。
3科學(xué)文獻(xiàn)中的知識(shí)實(shí)體的評(píng)價(jià)研究
隨著文本挖掘技術(shù)的成熟及全文文獻(xiàn)資源的增多, 知識(shí)實(shí)體抽取的范圍從文獻(xiàn)標(biāo)題、摘要逐漸擴(kuò)展到全文, 這使得基于知識(shí)實(shí)體的全文計(jì)量成為可能[99] 。我國(guó)文獻(xiàn)計(jì)量學(xué)的著名學(xué)者邱均平曾指出,文獻(xiàn)計(jì)量不能停留在文獻(xiàn)的篇、章、冊(cè)為單位的文獻(xiàn)單元的計(jì)量上, 而應(yīng)該深入至文獻(xiàn)內(nèi)容對(duì)知識(shí)單元和文獻(xiàn)的相關(guān)信息進(jìn)行計(jì)量研究[100-101] 。對(duì)知識(shí)單元的認(rèn)知能夠使人們清楚地認(rèn)識(shí)到學(xué)術(shù)論文評(píng)價(jià)的基礎(chǔ)元素, 這有利于把握評(píng)價(jià)主題、不失方向。姜春林等[102] 認(rèn)為, 對(duì)學(xué)術(shù)論文評(píng)價(jià)的實(shí)質(zhì)是對(duì)論文中知識(shí)單元的識(shí)別、計(jì)量和評(píng)價(jià)。Ding Y 等[6]也提出一種使用實(shí)體“來(lái)測(cè)度影響力、知識(shí)使用和知識(shí)轉(zhuǎn)移以促進(jìn)知識(shí)發(fā)現(xiàn)” 的策略, 即實(shí)體計(jì)量學(xué)(Entitymetrics)。作為一種表征知識(shí)單元影響的新方法, 實(shí)體計(jì)量學(xué)還被用于知識(shí)發(fā)現(xiàn)[103] , 如藥物再利用的量化[104] , 與其他文獻(xiàn)計(jì)量網(wǎng)絡(luò)的比較[104] , 以自我為中心的生物實(shí)體分析[105] 和作者個(gè)人資料分析[106] , 以及隱含的實(shí)體關(guān)系識(shí)別[107] 。通過(guò)梳理相關(guān)研究發(fā)現(xiàn), 基于知識(shí)實(shí)體的評(píng)價(jià)主要包括對(duì)知識(shí)實(shí)體的評(píng)價(jià)和基于知識(shí)實(shí)體的論文影響力評(píng)價(jià)兩個(gè)方面。目前, 大多數(shù)研究是利用文獻(xiàn)計(jì)量指標(biāo)分析知識(shí)實(shí)體的影響力, 通常包括實(shí)體在學(xué)術(shù)論文中被提及、被引用的頻率和網(wǎng)絡(luò)中心性等指標(biāo)[108] 。
3.1 知識(shí)實(shí)體的提及頻率、替代計(jì)量及影響因素
知識(shí)實(shí)體在不同研究中的提及頻率往往被認(rèn)為是評(píng)價(jià)其重要性的基本指標(biāo), 被更多研究提及的實(shí)體被認(rèn)為更受關(guān)注。如Li K 等[109] 的研究探討了R及其軟件包和功能是如何在PLoS 中被提及和引用的, 并評(píng)價(jià)了其在科學(xué)出版物中的影響。Wang Y Z等[110-111] 在研究中, 以提及某算法的文章數(shù)作為指標(biāo), 分析算法的影響力。如以自然語(yǔ)言處理(NLP)領(lǐng)域?yàn)槔?采用基于規(guī)則的方法抽取文獻(xiàn)中的方法實(shí)體, 利用提及方法實(shí)體的文章數(shù)評(píng)價(jià)實(shí)體影響,發(fā)現(xiàn)NLP 領(lǐng)域論文中影響力最高的Top10 種算法,分類算法在高影響力算法中占比最大, 并指出算法影響力的演變反映了該領(lǐng)域研究任務(wù)和主題的變化。Li X 等[2] 從生物醫(yī)學(xué)實(shí)體(疾病、藥物和基因)及其演化的角度理解藥物再利用, 基于某生物醫(yī)學(xué)實(shí)體的所有出版物的百分比量化個(gè)體生物醫(yī)學(xué)實(shí)體的學(xué)術(shù)重要性, 開發(fā)了人氣指數(shù)(P1)、前景指數(shù)(P2)、威望指數(shù)(P3)指標(biāo), 此外, 還基于提及某實(shí)體的文章的不同作者數(shù)的占比提出了反映生物醫(yī)學(xué)實(shí)體的研究強(qiáng)度協(xié)作指數(shù)(CI), 用于檢測(cè)藥物研究各個(gè)階段生物醫(yī)學(xué)實(shí)體的潛在模式, 并調(diào)查驅(qū)動(dòng)藥物再利用的因素。He J 等[112] 選擇了14 種科學(xué)制圖工具實(shí)體, 并通過(guò)應(yīng)用這些工具實(shí)體的文章數(shù)來(lái)分析工具實(shí)體的影響力。Pan X L 等[113] 通過(guò)抽取圖書館與情報(bào)科學(xué)領(lǐng)域研究論文中的學(xué)術(shù)軟件實(shí)體, 統(tǒng)計(jì)使用不同軟件的論文數(shù)、軟件的被提及數(shù)量以及軟件被引用的數(shù)量, 以評(píng)估軟件對(duì)LIS 研究的影響。
在提及頻率的基礎(chǔ)上, 學(xué)者們還提出一些其他指標(biāo), 從不同的方面分析知識(shí)實(shí)體的影響。章成志等[24] 以自然語(yǔ)言處理領(lǐng)域?yàn)槔?基于學(xué)術(shù)會(huì)議論文的全文本內(nèi)容, 人工標(biāo)注知識(shí)實(shí)體并進(jìn)行頻次統(tǒng)計(jì), 利用Apriori 算法生成知識(shí)實(shí)體對(duì), 基于頻次篩選出高頻知識(shí)實(shí)體對(duì), 用非參數(shù)檢驗(yàn)卡方值評(píng)價(jià)知識(shí)實(shí)體間關(guān)聯(lián)的強(qiáng)弱。Li X L 等[114] 提出了評(píng)估方法實(shí)體的影響的兩個(gè)指標(biāo): 一是論文數(shù)量: 對(duì)于每個(gè)實(shí)體, 統(tǒng)計(jì)提及相應(yīng)實(shí)體的論文數(shù)量, 提及實(shí)體的論文越多, 代表該實(shí)體的影響力越大。另一個(gè)是年齡分布: 通過(guò)下載鏈接獲取提及實(shí)體的論文的發(fā)表時(shí)間, 以分析方法實(shí)體的影響力隨時(shí)間的變化。Pan X L 等[108] 從2014 年發(fā)表在PLoS ONE 上的論文中提取軟件實(shí)體, 通過(guò)統(tǒng)計(jì)每個(gè)軟件實(shí)體的提及次數(shù)和引用次數(shù)來(lái)衡量軟件實(shí)體的科學(xué)影響力。鄒洋杰等[48] 采用基于規(guī)則的方法從情報(bào)學(xué)與計(jì)算機(jī)科學(xué)文獻(xiàn)中抽取方法實(shí)體, 通過(guò)統(tǒng)計(jì)兩個(gè)領(lǐng)域中方法實(shí)體出現(xiàn)的頻次評(píng)價(jià)方法實(shí)體的影響力, 探析兩個(gè)學(xué)科領(lǐng)域研究方法的交流態(tài)勢(shì), 對(duì)比分析了兩學(xué)科領(lǐng)域的高頻研究方法、已交流的研究方法、存在交流潛力的研究方法。和嘉昕等[115] 爬取中國(guó)社會(huì)科學(xué)領(lǐng)域21 個(gè)學(xué)科的博士學(xué)位論文, 共計(jì)6 萬(wàn)余篇致謝文本, 抽取致謝實(shí)體, 發(fā)現(xiàn)不同類型致謝實(shí)體的提及頻次存在差異; 在不同學(xué)科論文中, 致謝實(shí)體類型的多樣性分布也呈現(xiàn)一定差異。
除了文獻(xiàn)計(jì)量學(xué)指標(biāo)外, 一些替代計(jì)量學(xué)指標(biāo)也被用來(lái)評(píng)估實(shí)體的影響力, 可以是實(shí)體的投票頻率、下載頻率和訪問(wèn)頻率, 這些指標(biāo)對(duì)實(shí)體的影響力和重要性評(píng)價(jià)提供了不同的視角[10] 。如ICDM(The IEEE International Conference on Data Mining)的組織者在2006 年通過(guò)專家的投票的方法來(lái)評(píng)估算法的影響力[116] 。據(jù)王玉琢和章成志的研究報(bào)道,“Stack Overflow 根據(jù)IT 領(lǐng)域從業(yè)者的投票來(lái)評(píng)估IT 技術(shù)和數(shù)據(jù)庫(kù)的影響力。TIOBE 綜合考慮程序員投票數(shù)、課程數(shù)和供應(yīng)商數(shù)來(lái)計(jì)算不同編程語(yǔ)言的流行度和影響力”[10] 。Zhao R Y 等[117] 的研究利用開源項(xiàng)目Depsy 統(tǒng)計(jì)Python 第三方包的下載量、引用量、復(fù)用量, 從3 個(gè)方面對(duì)Python 的一些第三方包的影響力進(jìn)行分析和評(píng)價(jià)。Amrollahi A 等[118]和Zhao Y H 等[119] 的研究回顧了開放源碼軟件成功領(lǐng)域的相關(guān)工作, 通過(guò)匯總相關(guān)研究指出, 可以用軟件下載量、開發(fā)者數(shù)量、項(xiàng)目等級(jí)、開發(fā)人員對(duì)項(xiàng)目中錯(cuò)誤的修復(fù)能力作為軟件成功的衡量標(biāo)準(zhǔn)。
盧超等[9] 指出, 對(duì)于知識(shí)實(shí)體的評(píng)價(jià), 不應(yīng)局限于對(duì)其頻次、位置等語(yǔ)法層面的分析, 而應(yīng)將語(yǔ)法特征與語(yǔ)義特征結(jié)合起來(lái)進(jìn)行深入研究。知識(shí)實(shí)體的評(píng)價(jià)應(yīng)不僅僅局限于數(shù)量指標(biāo), 而更應(yīng)深入文本內(nèi)容, 揭示知識(shí)實(shí)體的功能、情感及引用動(dòng)機(jī)。一些研究[121-122] 關(guān)注科學(xué)文獻(xiàn)對(duì)軟件的提及情況, 并指出實(shí)體的引用標(biāo)準(zhǔn)也會(huì)對(duì)實(shí)體影響力產(chǎn)生一定的影響。如大量的軟件在論文中被提及, 而提及的方式未能體現(xiàn)對(duì)軟件的正確引用會(huì)削弱其影響力。有學(xué)者認(rèn)為, 軟件被非正式引用的原因是軟件引用標(biāo)準(zhǔn)的多樣化, 作者沒(méi)有遵循規(guī)范[109,123] 。Wang Y Z 等[10] 在研究中指出, 軟件的標(biāo)準(zhǔn)引用對(duì)于準(zhǔn)確評(píng)估其影響力十分重要, 原因在于如果在計(jì)算對(duì)實(shí)體的引用時(shí)只考慮標(biāo)準(zhǔn)引用, 那么實(shí)體的影響力就會(huì)被削弱。Nangia U 等[120] 的研究中分析了2016 年1 月1 日—3 月31 日發(fā)表在《Nature》上的所有論文, 以了解它們對(duì)軟件的提及情況。Mat?thew S M 等[124] 討論了學(xué)者們?cè)谘芯课墨I(xiàn)中如何識(shí)別和引用數(shù)據(jù)集、軟件包、計(jì)算模型等知識(shí)實(shí)體,并表明衡量學(xué)術(shù)文獻(xiàn)的影響時(shí)應(yīng)結(jié)合其中知識(shí)實(shí)體的應(yīng)用情況。Li K 等[109] 提出了一種基于軟件名稱字典的軟件識(shí)別算法。通過(guò)提?。校蹋希?發(fā)表的論文中提到R 軟件包的句子, 他們分析了軟件包的共同提及網(wǎng)絡(luò), 發(fā)現(xiàn)具有相似學(xué)科和功能的軟件包更有可能同時(shí)被提及。Yang B 等[125] 分析了文章與軟件之間的關(guān)系, 結(jié)果表明, 高質(zhì)量期刊發(fā)表的文章傾向于使用更新的軟件, 國(guó)際文章比中國(guó)文章更早使用新軟件。Tan F 等[126] 提出了一個(gè)分析醫(yī)學(xué)領(lǐng)域?qū)嶓w與實(shí)體之間關(guān)系的框架, 將生物醫(yī)藥實(shí)體與政府資金聯(lián)系起來(lái), 從科研經(jīng)費(fèi)的角度, 將實(shí)體計(jì)量學(xué)的思想應(yīng)用于生物醫(yī)學(xué)領(lǐng)域, 進(jìn)行初步的研究趨勢(shì)探索和知識(shí)發(fā)現(xiàn), 分析政府資助對(duì)醫(yī)學(xué)領(lǐng)域科研促進(jìn)的作用, 幫助政府更加合理地管理科研經(jīng)費(fèi)。
3.2實(shí)體共現(xiàn)網(wǎng)絡(luò)與實(shí)體擴(kuò)散/ 引文網(wǎng)絡(luò)
有學(xué)者對(duì)同一篇論文中不同實(shí)體的共現(xiàn)現(xiàn)象,構(gòu)建實(shí)體間共現(xiàn)網(wǎng)絡(luò), 利用網(wǎng)絡(luò)指標(biāo)測(cè)度實(shí)體的重要性, 進(jìn)而對(duì)知識(shí)實(shí)體的學(xué)術(shù)影響力進(jìn)行評(píng)價(jià)。如Yu Q 等[127] 對(duì)COVID-19 文獻(xiàn)構(gòu)建了一個(gè)實(shí)體—實(shí)體共現(xiàn)網(wǎng)絡(luò), 并利用網(wǎng)絡(luò)指標(biāo)對(duì)提取的實(shí)體進(jìn)行分析, 評(píng)估實(shí)體在網(wǎng)絡(luò)中的重要度。為此, 作者應(yīng)用了幾個(gè)已建立的指標(biāo), 包括受歡迎程度、潛力指數(shù)和協(xié)作指數(shù), 以及PageRank、接近中心性、中介中心性、特征值中心性和平均度, 發(fā)現(xiàn)ACE-2 和c 反應(yīng)蛋白是兩個(gè)非常重要的基因, 洛匹那韋和利托那韋是兩種非常重要的化學(xué)物質(zhì)。Liang X M 等[128] 使用Graph2vec 和Knowledge2vec 表示生物醫(yī)學(xué)實(shí)體及其在異構(gòu)網(wǎng)絡(luò)中的關(guān)系, 并采用級(jí)聯(lián)學(xué)習(xí)模型來(lái)尋找藥物、基因、疾病和治療之間的潛在相互作用。
微觀實(shí)體是驅(qū)動(dòng)知識(shí)擴(kuò)散的主要內(nèi)因, 通過(guò)實(shí)體間的引用關(guān)系可以從更細(xì)粒度上分析知識(shí)實(shí)體的擴(kuò)散。前人多以篇章、作者或主題等作為知識(shí)擴(kuò)散的主要載體, 較少關(guān)注來(lái)自文獻(xiàn)全文本內(nèi)容的微觀實(shí)體之間的引用關(guān)系[93] 。安欣等[129] 借助BiLSTMCRF構(gòu)建了微觀實(shí)體抽取模型, 從分子生物學(xué)1 000篇全文本數(shù)據(jù)中抽取理論概念類、工具技術(shù)類、數(shù)據(jù)信息類和特定領(lǐng)域類知識(shí)實(shí)體, 通過(guò)實(shí)體間引用關(guān)系構(gòu)建實(shí)體擴(kuò)散網(wǎng)絡(luò)揭示知識(shí)實(shí)體在宏觀和微觀層面的擴(kuò)散模式。Wang S 等[50] 通過(guò)應(yīng)用詞干匹配方法, 從eHealth 論文的引文中提取了施引文獻(xiàn)及其參考文獻(xiàn)之間共享的相關(guān)知識(shí)短語(yǔ)(AssociatedKnowledge Phrases, AKP), 提出了一種考慮領(lǐng)域知識(shí)功能的分類模式, 以對(duì)已識(shí)別的AKP 進(jìn)行分類, 分析了每種知識(shí)類型的來(lái)源學(xué)科, 應(yīng)用定量指標(biāo)和共現(xiàn)分析來(lái)揭示不同知識(shí)類型的整合模式, 提出了一種新的方法來(lái)探索跨學(xué)科領(lǐng)域知識(shí)整合的內(nèi)容特征。Ding Y 等[6] 通過(guò)抽取二甲雙胍相關(guān)文獻(xiàn)中的基因、疾病和藥物實(shí)體, 構(gòu)建實(shí)體—實(shí)體引文網(wǎng)絡(luò)。計(jì)算網(wǎng)絡(luò)特征并將生物實(shí)體的中心性等級(jí)與比較毒物基因組學(xué)數(shù)據(jù)庫(kù)(Comparative Toxicogenom?ics Database, CTD)的結(jié)果進(jìn)行比較, 揭示了實(shí)體計(jì)量學(xué)方法在檢測(cè)絕大多數(shù)實(shí)體間交互作用方面的實(shí)用性。Nam D 等[130] 采用基于字典的方法(PKDE4J)抽取引文句子中的藥物、疾病、化合物、蛋白質(zhì)和治療方法5 類實(shí)體, 從直接引用和間接引用兩個(gè)視角構(gòu)建實(shí)體網(wǎng)絡(luò), 進(jìn)而衡量知識(shí)實(shí)體的影響。徐庶睿等[131] 提出, 結(jié)合術(shù)語(yǔ)和引文內(nèi)容探測(cè)學(xué)科交叉度的研究方法并進(jìn)行實(shí)證分析。選取術(shù)語(yǔ)為知識(shí)載體,通過(guò)統(tǒng)計(jì)學(xué)科論文在引文內(nèi)容中引用這些術(shù)語(yǔ)的詞語(yǔ)量和頻次, 從而確定學(xué)科間的知識(shí)交叉情況。
3.3基于知識(shí)實(shí)體的同行評(píng)議
自然語(yǔ)言處理技術(shù)的發(fā)展使知識(shí)元抽取成為可能。同行評(píng)議實(shí)際上是對(duì)學(xué)術(shù)論文中知識(shí)元的評(píng)價(jià),可以將其概括為問(wèn)題知識(shí)元、過(guò)程知識(shí)元和結(jié)論知識(shí)元, 對(duì)其創(chuàng)新性、規(guī)范性、科學(xué)性和價(jià)值性進(jìn)行評(píng)價(jià)。綜合上述分析, 索傳軍等[132] 提出一種基于論文知識(shí)元的同行評(píng)議研究思路。在學(xué)術(shù)同行的篩選中, 納入非科學(xué)家同行(如資深從業(yè)人員), 同時(shí)不再用以往簡(jiǎn)單的主題匹配模式。首先, 通過(guò)對(duì)學(xué)術(shù)論文進(jìn)行數(shù)據(jù)化, 抽取關(guān)鍵知識(shí)元, 依據(jù)知識(shí)元的內(nèi)容確定評(píng)審?fù)校?其次, 在同行的研究?jī)?nèi)容匹配中, 深入分析專家特長(zhǎng), 如按照專家發(fā)表論文的貢獻(xiàn)內(nèi)容確定其研究專長(zhǎng)等, 進(jìn)而確定論文知識(shí)元的評(píng)審專家; 最后, 結(jié)合專家認(rèn)知圖示和參照論文集, 進(jìn)行學(xué)術(shù)論文的分析、比較、判斷, 得出評(píng)價(jià)結(jié)果。
3.4基于知識(shí)實(shí)體的論文新穎性評(píng)價(jià)
參照李晶等[133] 基于知識(shí)單元對(duì)論文新穎性的評(píng)價(jià)研究, 將其延伸至知識(shí)實(shí)體層面, 即新穎性可以細(xì)分為新穎知識(shí)實(shí)體、新穎知識(shí)實(shí)體組合兩方面,其中, 新穎的知識(shí)實(shí)體是與已有知識(shí)實(shí)體相對(duì)應(yīng)的概念。而通過(guò)新穎知識(shí)實(shí)體組合測(cè)度新穎性, 是包括問(wèn)題與方法組合、參考文獻(xiàn)與技術(shù)領(lǐng)域分類代碼組合、參考文獻(xiàn)與產(chǎn)出內(nèi)容組合、知識(shí)實(shí)體組合。如Savov P 等[134] 根據(jù)論文的潛在主題分布預(yù)測(cè)了未來(lái)的突破。一篇論文涉及的未來(lái)研究主題越多(而以前的主題越少), 該論文就越有創(chuàng)新性。通過(guò)測(cè)量專利之間的文本相似性, Kelly B 等[135] 確定了與前人有距離、與后續(xù)發(fā)明接近的重要?jiǎng)?chuàng)新, 而最重要的專利被認(rèn)為是具有突破性創(chuàng)新的。
Wang Z 等[136] 提出, 基于正態(tài)云的期望曲線重疊的相似性云算法來(lái)測(cè)量知識(shí)實(shí)體間的相似度, 以此評(píng)估實(shí)體及提及相應(yīng)實(shí)體文章的創(chuàng)新性, 并表明在同一研究領(lǐng)域下, 知識(shí)實(shí)體間相似度越高, 創(chuàng)新程度越低。Jacob G F 等[137] 通過(guò)從摘要中提取的化學(xué)相關(guān)實(shí)體構(gòu)建化學(xué)知識(shí)網(wǎng)絡(luò), 發(fā)現(xiàn)文獻(xiàn)中提及的新的化學(xué)物質(zhì)或化學(xué)關(guān)系評(píng)價(jià)其創(chuàng)新性, 并將引入新的化學(xué)物質(zhì)和化學(xué)關(guān)系的研究稱為創(chuàng)新研究, 對(duì)于深入研究已知的化學(xué)物質(zhì)和化學(xué)關(guān)系的研究稱為傳統(tǒng)研究。Wang X 等[138] 將摘要中帶有線索詞(如“新見解”和“第一次”)的判斷句作為突破的表達(dá),設(shè)計(jì)了深度學(xué)習(xí)模型來(lái)識(shí)別科學(xué)突破, 揭示文章的創(chuàng)新性。
而基于新穎知識(shí)實(shí)體組合評(píng)價(jià)論文的新穎性是指以“組合的異質(zhì)性” 為切入點(diǎn), 關(guān)注參考文獻(xiàn)維度[139-142] 或關(guān)鍵詞[143] 的非典型性組合, 即不常見的組合。自此出現(xiàn)了一系列關(guān)注“組合” 的指標(biāo),衡量一篇論文對(duì)現(xiàn)有知識(shí)進(jìn)行不尋常組合的能力程度, 包括關(guān)鍵詞[143] 、參考文獻(xiàn)所發(fā)表的期刊[140]等。也有研究[144] 通過(guò)測(cè)度新出現(xiàn)的實(shí)體組合或?qū)嶓w對(duì)的比例, 以此評(píng)估論文的新穎性。如Liu M等[145] 抽?。玻埃玻?年12 月及之前發(fā)表的CORD-19 相關(guān)論文標(biāo)題和摘要中的基因、疾病等生物醫(yī)療領(lǐng)域知識(shí)實(shí)體并配對(duì), 使用BioBERT 模型衡量論文中實(shí)體對(duì)間的余弦距離, 并定義頻率分布排在前10%的實(shí)體對(duì)為新穎的實(shí)體組合, 通過(guò)計(jì)算論文中新穎的實(shí)體組合數(shù)與所有可能的實(shí)體組合數(shù)之比作為論文的新穎性分?jǐn)?shù)。Wang S Y 等[146] 以摘要數(shù)據(jù)為基礎(chǔ),自動(dòng)提取論文實(shí)體及實(shí)體組合, 以未出現(xiàn)在其參考文獻(xiàn)中的新知識(shí)單元和知識(shí)單元組合比例代表論文的創(chuàng)新性, 該值越高說(shuō)明論文的創(chuàng)新性越強(qiáng)。
通過(guò)論文的引用模式來(lái)衡量論文對(duì)現(xiàn)有知識(shí)的顛覆或替代程度是評(píng)價(jià)論文顛覆性的傳統(tǒng)方法。舉例來(lái)說(shuō), 如果一篇論文經(jīng)常和它的參考文獻(xiàn)一起被引用, 那么它就可以被視為鞏固了現(xiàn)有的知識(shí), 而如果對(duì)它的引用不承認(rèn)它的知識(shí)先輩, 那么這篇論文就可以被視為顛覆性創(chuàng)新[147-148] 。與那些基于參考文獻(xiàn)的引用關(guān)系對(duì)論文的顛覆性測(cè)度方法不同,Wang S 等[149] 以更細(xì)粒度的知識(shí)實(shí)體為研究單位,通過(guò)實(shí)體間的引用情況評(píng)價(jià)論文的顛覆性, 提出基于知識(shí)實(shí)體的顛覆性指數(shù)。
3.5基于知識(shí)實(shí)體的論文臨床轉(zhuǎn)化進(jìn)展評(píng)價(jià)
Li X 等[150] 首先利用超過(guò)3 000萬(wàn)篇PubMed 文章訓(xùn)練了生物醫(yī)學(xué)實(shí)體和文檔的語(yǔ)義表示模型(Bioentity2vec和Bio-doc2vec)。在此基礎(chǔ)上, 提出了一種新的度量方法——轉(zhuǎn)化進(jìn)展(Translational Pro?gression, TP), 用于追蹤生物醫(yī)學(xué)文章在轉(zhuǎn)化連續(xù)性上的進(jìn)展。其提出的測(cè)量方法可以幫助決策者實(shí)時(shí)監(jiān)測(cè)具有高轉(zhuǎn)化潛力的生物醫(yī)學(xué)研究, 并做出更好的決策。此外, 該方法還可以應(yīng)用于其他領(lǐng)域,如物理學(xué)或計(jì)算機(jī)科學(xué), 以評(píng)估科學(xué)發(fā)現(xiàn)的應(yīng)用價(jià)值, 并進(jìn)行改進(jìn)。
綜上, 準(zhǔn)確且全面地抽取出論文中的知識(shí)實(shí)體是開展實(shí)體計(jì)量評(píng)價(jià)的前提, 而且對(duì)知識(shí)實(shí)體的語(yǔ)義分析也是必不可少的環(huán)節(jié)。只有明晰了作者對(duì)實(shí)體的應(yīng)用意圖, 才能在定量分析實(shí)體的提及、引用的頻率等指標(biāo)時(shí)得出正確的結(jié)論, 也有利于深度剖析知識(shí)實(shí)體之間的關(guān)聯(lián)。同時(shí), 當(dāng)基于實(shí)體間引用關(guān)系構(gòu)建實(shí)體—實(shí)體引文網(wǎng)絡(luò)開展研究時(shí), 有學(xué)者[151] 提出了兩點(diǎn)建議: 第一, 用于構(gòu)建引文網(wǎng)絡(luò)的實(shí)體應(yīng)該從全文中獲取, 而非標(biāo)題和摘要; 第二,構(gòu)建引用網(wǎng)絡(luò)時(shí)論文—實(shí)體引用網(wǎng)絡(luò)會(huì)比實(shí)體—實(shí)體引用網(wǎng)絡(luò)更能準(zhǔn)確地體現(xiàn)引用關(guān)系。
4存在問(wèn)題與未來(lái)展望
4.1存在問(wèn)題
在知識(shí)實(shí)體的抽取方法方面: 首先, 當(dāng)前的研究主要集中在文本數(shù)據(jù)的實(shí)體抽取上, 而對(duì)于如圖像、音頻、視頻等多模態(tài)數(shù)據(jù)中的實(shí)體抽取研究相對(duì)較少。聯(lián)合抽取科學(xué)文獻(xiàn)中的文本與多模態(tài)數(shù)據(jù)中的實(shí)體可以更加全面地反映文獻(xiàn)中的知識(shí)并且實(shí)現(xiàn)對(duì)文獻(xiàn)內(nèi)容的充分利用。然而, 由于缺乏高質(zhì)量的標(biāo)注數(shù)據(jù)集、高質(zhì)量的模型構(gòu)建, 使得基于多模態(tài)數(shù)據(jù)的知識(shí)實(shí)體抽取極具挑戰(zhàn); 其次, 當(dāng)前的研究主要集中在單一語(yǔ)言的實(shí)體抽取上, 對(duì)于跨語(yǔ)言實(shí)體抽取的研究相對(duì)較少??缯Z(yǔ)言實(shí)體抽?。郏保担玻?的目標(biāo)是提升低資源自然語(yǔ)言的實(shí)體識(shí)別效果。不能理解為“單語(yǔ)言實(shí)體抽取” 與“機(jī)器翻譯” 兩者的簡(jiǎn)單組合。從研究現(xiàn)狀來(lái)看, 跨語(yǔ)言實(shí)體抽取面臨著語(yǔ)言差異、語(yǔ)義差異等挑戰(zhàn), 需要開發(fā)跨語(yǔ)言的模型和方法來(lái)解決這些問(wèn)題; 第三, 實(shí)體抽取算法通常需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練和評(píng)估, 但目前缺乏大規(guī)模、高質(zhì)量的領(lǐng)域特定標(biāo)注數(shù)據(jù)集。
在知識(shí)實(shí)體的評(píng)價(jià)方面: 首先, 對(duì)于抽取得到的實(shí)體, 研究者雖然嘗試使用一些文獻(xiàn)計(jì)量指標(biāo)和替代計(jì)量指標(biāo), 如提及頻率、中介中心性、下載量等, 來(lái)評(píng)價(jià)知識(shí)實(shí)體的學(xué)術(shù)影響力、受歡迎程度和重要性。但目前來(lái)看, 現(xiàn)有知識(shí)實(shí)體的評(píng)價(jià)指標(biāo)較為簡(jiǎn)單、粗糙, 在多樣性、系統(tǒng)性與標(biāo)準(zhǔn)化方面還有很大提升空間, 而且評(píng)價(jià)指標(biāo)的可靠性、有效性往往未經(jīng)充分驗(yàn)證。由于對(duì)知識(shí)實(shí)體評(píng)價(jià)的相關(guān)研究剛剛起步不久, 還未建立標(biāo)準(zhǔn)化的評(píng)價(jià)指標(biāo)體系,研究者在構(gòu)建指標(biāo)時(shí)往往根據(jù)自身研究需求和實(shí)際情況出發(fā), 導(dǎo)致評(píng)價(jià)結(jié)果的可比性和一致性較差;其次, 隨著學(xué)術(shù)全文本數(shù)據(jù)集的日益增長(zhǎng)與文本挖掘分析方法的快速發(fā)展, 從語(yǔ)詞層面、語(yǔ)句層面和語(yǔ)篇層面展開的, 基于知識(shí)實(shí)體的全文計(jì)量正在悄然興起, 已有學(xué)者基于知識(shí)實(shí)體構(gòu)建了新穎性、顛覆性、臨床轉(zhuǎn)化進(jìn)展等指標(biāo)評(píng)估論文的影響力, 但如何科學(xué)利用這些指標(biāo)真正地評(píng)價(jià)研究論文的影響力還面臨著一定的困難[153] ; 第三, 在知識(shí)實(shí)體的評(píng)價(jià)指標(biāo)之間、基于知識(shí)實(shí)體的論文評(píng)價(jià)指標(biāo)之間的相關(guān)關(guān)系仍缺乏研究, 以便進(jìn)一步對(duì)評(píng)價(jià)指標(biāo)分類檢驗(yàn); 最后, 無(wú)論是知識(shí)實(shí)體的評(píng)價(jià), 還是基于知識(shí)實(shí)體的科學(xué)文獻(xiàn)評(píng)價(jià), 均受一些特征或因素的影響, 但這個(gè)視角的實(shí)證還十分缺乏。
4.2未來(lái)展望
鑒于上述分析的現(xiàn)有研究存在問(wèn)題, 今后隨著科學(xué)文獻(xiàn)中知識(shí)實(shí)體抽取與評(píng)價(jià)的進(jìn)一步發(fā)展, 未來(lái)研究可從以下幾方面深化調(diào)整。
在知識(shí)實(shí)體的抽取方面, 努力開發(fā)簡(jiǎn)單、準(zhǔn)確、靈活、有泛化能力且低成本的知識(shí)實(shí)體抽取方法,降低對(duì)大量標(biāo)注數(shù)據(jù)的依賴, 可著手進(jìn)行以下的策略調(diào)整: ①多模態(tài)實(shí)體抽取。研究如何將多模態(tài)數(shù)據(jù)進(jìn)行融合和聯(lián)合建模, 以實(shí)現(xiàn)更全面和準(zhǔn)確的實(shí)體抽取。可以探索多模態(tài)特征的提取和融合方法,設(shè)計(jì)適應(yīng)多模態(tài)數(shù)據(jù)的實(shí)體抽取模型, 并構(gòu)建多模態(tài)實(shí)體抽取的標(biāo)注數(shù)據(jù)集; ②跨語(yǔ)言實(shí)體抽取。研究跨語(yǔ)言實(shí)體抽取的方法和模型, 解決語(yǔ)言差異和語(yǔ)義差異帶來(lái)的挑戰(zhàn)。可以探索跨語(yǔ)言的特征表示方法、遷移學(xué)習(xí)和多語(yǔ)言知識(shí)圖譜等技術(shù), 提高跨語(yǔ)言實(shí)體抽取的性能和效果; ③領(lǐng)域高質(zhì)量標(biāo)注數(shù)據(jù)集構(gòu)建。加大對(duì)領(lǐng)域特定標(biāo)注數(shù)據(jù)集的構(gòu)建力度,提高標(biāo)注數(shù)據(jù)的質(zhì)量和覆蓋范圍。可以利用半監(jiān)督學(xué)習(xí)、主動(dòng)學(xué)習(xí)等方法, 降低標(biāo)注數(shù)據(jù)的成本, 并結(jié)合領(lǐng)域?qū)<业闹R(shí)和經(jīng)驗(yàn)進(jìn)行標(biāo)注數(shù)據(jù)的驗(yàn)證和修正。
在知識(shí)實(shí)體的評(píng)價(jià)方面, 可重點(diǎn)從以下視角深入探索: ①重視知識(shí)實(shí)體評(píng)價(jià)指標(biāo)的多樣化。不僅要酌情將傳統(tǒng)文獻(xiàn)計(jì)量學(xué)、信息計(jì)量學(xué)、科學(xué)計(jì)量學(xué)、替代計(jì)量學(xué)的評(píng)價(jià)指標(biāo)移植到知識(shí)實(shí)體上, 而且更應(yīng)根據(jù)知識(shí)實(shí)體的特征開發(fā)特異性的評(píng)價(jià)指標(biāo);②增加對(duì)知識(shí)實(shí)體評(píng)價(jià)指標(biāo)的可靠性、有效性方面的性能檢驗(yàn)的實(shí)證研究, 進(jìn)一步還可考慮對(duì)指標(biāo)的可獲取度、擴(kuò)展性、標(biāo)準(zhǔn)化等方面進(jìn)行系統(tǒng)評(píng)價(jià);③進(jìn)一步研究知識(shí)實(shí)體評(píng)價(jià)指標(biāo)之間、基于知識(shí)實(shí)體的論文評(píng)價(jià)指標(biāo)之間的相關(guān)關(guān)系, 及其可能受知識(shí)實(shí)體特征、科學(xué)文獻(xiàn)特征, 甚至引用動(dòng)機(jī)、時(shí)間、空間、領(lǐng)域、政策環(huán)境等的影響; ④對(duì)于某些主觀性較強(qiáng)、不易量化的評(píng)價(jià)目的, 也需要借助專家評(píng)估或同行評(píng)議等質(zhì)性評(píng)價(jià)方法, 以保證評(píng)價(jià)結(jié)果的全面性和準(zhǔn)確性。在解決具體領(lǐng)域問(wèn)題的知識(shí)實(shí)體評(píng)價(jià)應(yīng)用方面可通過(guò)因果推斷方法發(fā)現(xiàn)“因果關(guān)系”, 提升評(píng)價(jià)指標(biāo)對(duì)研究結(jié)果的解釋力; ⑤在保證評(píng)價(jià)指標(biāo)在細(xì)粒度、準(zhǔn)確性、有效性、可靠性上相對(duì)傳統(tǒng)評(píng)價(jià)指標(biāo)的絕對(duì)優(yōu)勢(shì)前提下, 構(gòu)建基于知識(shí)實(shí)體的論文影響力評(píng)價(jià)指標(biāo)體系, 從本質(zhì)上提升科技評(píng)價(jià)質(zhì)量, 為科技評(píng)價(jià)改革注入新的活力與生機(jī)。
5結(jié)論
在大數(shù)據(jù)和人工智能時(shí)代, 隨著自然語(yǔ)言處理技術(shù)的飛速發(fā)展, 科學(xué)文獻(xiàn)中知識(shí)實(shí)體的識(shí)別與抽取方法也取得了巨大飛躍。未來(lái)相關(guān)工作將面向多模態(tài)、跨語(yǔ)言的知識(shí)實(shí)體抽取、領(lǐng)域高質(zhì)量標(biāo)注數(shù)據(jù)集的構(gòu)建。與此相輔相成的是, 以自然語(yǔ)言處理技術(shù)為代表的AI 人工智能, 將進(jìn)一步賦能“五計(jì)學(xué)”, 使文獻(xiàn)計(jì)量學(xué)、信息計(jì)量學(xué)、科學(xué)計(jì)量學(xué)、替代計(jì)量學(xué)與知識(shí)計(jì)量學(xué)煥發(fā)新的生機(jī), 可以預(yù)見的是, 智能計(jì)量將引領(lǐng)未來(lái)科技評(píng)價(jià)的新賽道、新應(yīng)用和新方向。