王佳敏,陸 偉,程齊凱,秦春秀
(1. 西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,西安 710126;2. 武漢大學(xué)信息管理學(xué)院,武漢 430072;3. 武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢 430072)
對(duì)領(lǐng)域知識(shí)及其關(guān)聯(lián)關(guān)系進(jìn)行多維度分析,有助于發(fā)現(xiàn)和把握科學(xué)知識(shí)發(fā)展變化的特征和規(guī)律[1-2]。以往研究多根據(jù)學(xué)術(shù)文獻(xiàn)的不同粒度和不同關(guān)系構(gòu)建多種類(lèi)型知識(shí)網(wǎng)絡(luò),如引文網(wǎng)絡(luò)、合著網(wǎng)絡(luò)、關(guān)鍵詞網(wǎng)絡(luò)等,在此基礎(chǔ)上從科學(xué)知識(shí)圖譜繪制[1]、話(huà)題演變[2]、網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)[3]、實(shí)體關(guān)聯(lián)[4]等角度對(duì)領(lǐng)域知識(shí)及其關(guān)系進(jìn)行可視化呈現(xiàn)和分析。然而,隨著科學(xué)出版物數(shù)量的急劇增長(zhǎng),從科學(xué)文章中理解某一領(lǐng)域的知識(shí)結(jié)構(gòu)和概念之間的關(guān)系仍然是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)[5]。其中一個(gè)重要的原因便是傳統(tǒng)知識(shí)網(wǎng)絡(luò)對(duì)領(lǐng)域知識(shí)的表示和揭示是粗粒度的,缺少相應(yīng)的語(yǔ)義支撐[6]。在這種背景下,如何對(duì)領(lǐng)域知識(shí)進(jìn)行細(xì)粒度、語(yǔ)義化的分析已經(jīng)成為情報(bào)學(xué)領(lǐng)域亟待解決的關(guān)鍵問(wèn)題之一[7-8]。
隨著分析粒度的不斷細(xì)化,文章層面的引用關(guān)系逐漸擴(kuò)展到實(shí)體引用或關(guān)鍵詞引用,并產(chǎn)生了各種細(xì)粒度的引用網(wǎng)絡(luò),如生物實(shí)體引用網(wǎng)絡(luò)[9]、基因-引用-基因網(wǎng)絡(luò)[10]、詞匯耦合網(wǎng)絡(luò)[11]以及關(guān)鍵詞引用網(wǎng)絡(luò)[12]等,在領(lǐng)域知識(shí)多維分析中得到了較快的發(fā)展。然而,當(dāng)前基于關(guān)鍵詞的引用網(wǎng)絡(luò)大多將網(wǎng)絡(luò)中的節(jié)點(diǎn)簡(jiǎn)化為單一的符號(hào)化表達(dá),認(rèn)為其在整個(gè)學(xué)科領(lǐng)域內(nèi)的含義是固定的。實(shí)際上,關(guān)鍵詞在不同的文獻(xiàn)或文本語(yǔ)境中有其特定的角色,例如,關(guān)鍵詞“deep learning”(深度學(xué)習(xí)) 在文獻(xiàn)[13]中代表研究問(wèn)題,而在文獻(xiàn)[14]中則代表研究方法。此外,當(dāng)前關(guān)鍵詞引用網(wǎng)絡(luò)在節(jié)點(diǎn)間的關(guān)系上也比較單一,忽略了關(guān)鍵詞之間關(guān)聯(lián)關(guān)系的多樣化。例如,關(guān)鍵詞“LDA”分別被“HLDA”和“topic analysis”引用,如果不作區(qū)分,那么它們之間的關(guān)系是等同的,即都是基于引用的關(guān)系;實(shí)際上,“LDA”可能基于對(duì)比關(guān)系被“HLDA”引用,而基于使用關(guān)系被“topic analysis”引用。因此,識(shí)別科技論文關(guān)鍵詞的語(yǔ)義角色并對(duì)節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系進(jìn)行細(xì)粒度區(qū)分,對(duì)領(lǐng)域知識(shí)網(wǎng)絡(luò)的構(gòu)建至關(guān)重要,將為相關(guān)分析和應(yīng)用提供更精準(zhǔn)的度量[15]。
詞匯功能,是指詞匯在學(xué)術(shù)文本中所承擔(dān)的語(yǔ)義角色[16],科技文獻(xiàn)中詞匯功能通常包括目標(biāo)、關(guān)鍵方法、焦點(diǎn)、技術(shù)、研究主題、數(shù)據(jù)集或領(lǐng)域?qū)嶓w等[17-20]。引用功能體現(xiàn)了參考文獻(xiàn)在施引文獻(xiàn)中的作用,通常包含背景、使用、擴(kuò)展和對(duì)比等類(lèi)別[21-23]。詞匯功能和引用功能為關(guān)鍵詞引用網(wǎng)絡(luò)中節(jié)點(diǎn)及節(jié)點(diǎn)間關(guān)聯(lián)的語(yǔ)義識(shí)別提供了一條現(xiàn)實(shí)可行的途徑。因此,本研究將通過(guò)詞匯功能和引文功能來(lái)增強(qiáng)關(guān)鍵詞引用網(wǎng)絡(luò)的語(yǔ)義信息,生成一種語(yǔ)義功能敏感的細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)。在此基礎(chǔ)上,從引用功能敏感的子網(wǎng)分析、特定節(jié)點(diǎn)的多維關(guān)聯(lián)分析和細(xì)粒度領(lǐng)域知識(shí)演化分析三個(gè)方面進(jìn)行領(lǐng)域知識(shí)多維分析,以發(fā)現(xiàn)和把握科學(xué)知識(shí)發(fā)展變化的特征和規(guī)律,為領(lǐng)域知識(shí)分析提供一種新的視角和方法。
本研究的創(chuàng)新點(diǎn)為:第一,通過(guò)詞匯功能增強(qiáng)了關(guān)鍵詞引用網(wǎng)絡(luò)中節(jié)點(diǎn)的語(yǔ)義信息,通過(guò)引用功能對(duì)關(guān)鍵詞間關(guān)聯(lián)關(guān)系進(jìn)行了細(xì)粒度區(qū)分,在此基礎(chǔ)上構(gòu)建了細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò),不僅豐富和擴(kuò)展了知識(shí)網(wǎng)絡(luò)的理論和方法體系,也推動(dòng)了學(xué)術(shù)文本語(yǔ)義功能與知識(shí)網(wǎng)絡(luò)的融合;第二,基于構(gòu)建的細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)進(jìn)行領(lǐng)域知識(shí)多維分析,改變了以往知識(shí)網(wǎng)絡(luò)在實(shí)際應(yīng)用中存在的分析維度單一、粒度較粗、可解釋性較差等問(wèn)題,為領(lǐng)域知識(shí)分析和應(yīng)用提供了新的視角和路徑。
盡管許多研究試圖通過(guò)引文網(wǎng)絡(luò)的方法揭示領(lǐng)域知識(shí)發(fā)展變化情況,但大多基于學(xué)術(shù)文獻(xiàn)及文獻(xiàn)外部實(shí)體單元,如文章、作者、期刊等,無(wú)法深入到文本內(nèi)容特征層面。為了揭示施引文獻(xiàn)和被引文獻(xiàn)在內(nèi)容上的直接關(guān)聯(lián),部分學(xué)者對(duì)細(xì)粒度引用網(wǎng)絡(luò)進(jìn)行了探索。
Ding 等[9]提出實(shí)體既可以是評(píng)價(jià)實(shí)體(如論文、作者、期刊),也可以是知識(shí)實(shí)體(如關(guān)鍵詞、主題、關(guān)鍵方法、領(lǐng)域?qū)嶓w),并將引文網(wǎng)絡(luò)從論文引用擴(kuò)展到實(shí)體引用,構(gòu)建了生物實(shí)體引用網(wǎng)絡(luò)。Song 等[10]基于實(shí)體計(jì)量模型構(gòu)建了醫(yī)學(xué)學(xué)術(shù)文本中的基因-引用-基因(gene-citation-gene,GCG) 網(wǎng)絡(luò),并證明其在檢測(cè)隱含的基因相互作用方面是有效的。黃文彬等[24]提出關(guān)鍵詞共引分析方法(key‐word co-citation analysis,KCA),若分別包含有關(guān)鍵詞A 和B 的兩篇文獻(xiàn)被另一篇文獻(xiàn)同時(shí)引用,則稱(chēng)作關(guān)鍵詞A 和B 被共引,兩個(gè)關(guān)鍵詞被共引體現(xiàn)了這兩個(gè)詞在主題或內(nèi)容上有一定的關(guān)系。受此啟發(fā),Hsiao 等[11]構(gòu)建了詞匯耦合(word bibliographic coupling,WBC)網(wǎng)絡(luò),描述了LIS(library and in‐formation science) 各子領(lǐng)域的最新發(fā)展和研究趨勢(shì)。Cheng 等[12]提出關(guān)鍵詞-引用-關(guān)鍵詞網(wǎng)絡(luò)(key‐word-citation-keyword,KCK),以ACM (Associa‐tion for Computing Machinery)數(shù)據(jù)集為例進(jìn)行了學(xué)科知識(shí)結(jié)構(gòu)分析。程齊凱等[25]基于引用共詞網(wǎng)絡(luò)從學(xué)術(shù)文獻(xiàn)中發(fā)現(xiàn)領(lǐng)域基礎(chǔ)詞匯,為把握學(xué)科知識(shí)結(jié)構(gòu)和發(fā)展脈絡(luò)提供了支持。
綜上,引用網(wǎng)絡(luò)的分析單元已逐漸從文章層面擴(kuò)展到關(guān)鍵詞或?qū)嶓w層面,細(xì)粒度的引用網(wǎng)絡(luò)已被證明能有效地進(jìn)行領(lǐng)域知識(shí)分析。本研究通過(guò)區(qū)分關(guān)鍵詞引用網(wǎng)絡(luò)中的節(jié)點(diǎn)和關(guān)聯(lián)關(guān)系的語(yǔ)義角色,進(jìn)一步豐富關(guān)鍵詞引用網(wǎng)絡(luò)研究的方法體系,并通過(guò)細(xì)粒度引用網(wǎng)絡(luò)來(lái)進(jìn)行領(lǐng)域知識(shí)的多維分析。
知識(shí)網(wǎng)絡(luò)能夠直觀(guān)地對(duì)領(lǐng)域知識(shí)及其關(guān)系進(jìn)行可視化呈現(xiàn)和分析,揭示知識(shí)之間的關(guān)聯(lián)情況、主題結(jié)構(gòu)、發(fā)展脈絡(luò)、演化態(tài)勢(shì)等。但傳統(tǒng)的知識(shí)網(wǎng)絡(luò)忽視了知識(shí)節(jié)點(diǎn)和知識(shí)關(guān)聯(lián)豐富的語(yǔ)義信息。因此,部分學(xué)者開(kāi)始探索細(xì)粒度、語(yǔ)義化、多維度的領(lǐng)域知識(shí)分析方法。
劉臣等[26]將本體理論引入社會(huì)網(wǎng)絡(luò)分析,構(gòu)建語(yǔ)義社會(huì)網(wǎng)絡(luò),網(wǎng)絡(luò)的節(jié)點(diǎn)和邊都具有特定的語(yǔ)義,并在一個(gè)科研合作網(wǎng)絡(luò)實(shí)例上對(duì)重要節(jié)點(diǎn)和重要隱含關(guān)系進(jìn)行了關(guān)聯(lián)分析。王忠義等[6]提出了一種細(xì)粒度語(yǔ)義共詞分析方法,借助關(guān)聯(lián)數(shù)據(jù)將文獻(xiàn)信息結(jié)構(gòu)化、細(xì)粒度化、語(yǔ)義關(guān)聯(lián)化,采用RDF(resource description framework)三元組描述各實(shí)體及其之間的關(guān)系,以揭示關(guān)鍵詞之間的語(yǔ)義關(guān)系。張晗等[27]借助SemRep 對(duì)文本主題概念進(jìn)行了規(guī)范化抽取,并識(shí)別了共現(xiàn)概念之間的細(xì)粒度語(yǔ)義關(guān)系,在此基礎(chǔ)上構(gòu)建了醫(yī)學(xué)文獻(xiàn)語(yǔ)義共詞知識(shí)網(wǎng)。吳蕾等[8]將科技論文關(guān)鍵詞細(xì)分為研究對(duì)象、實(shí)驗(yàn)品種、研究用途和技術(shù)方法4 類(lèi),并構(gòu)建了4 層關(guān)鍵詞子網(wǎng)和多種關(guān)聯(lián)超邊組成的超網(wǎng)絡(luò)模型,有效發(fā)現(xiàn)了領(lǐng)域常用的知識(shí)以及技術(shù)空白點(diǎn)等。陳翔等[28]基于word2vec 得到關(guān)鍵詞的多重語(yǔ)義信息,結(jié)合時(shí)間段劃分構(gòu)建了動(dòng)態(tài)語(yǔ)義網(wǎng)絡(luò)進(jìn)行主題演化路徑識(shí)別研究。周萌等[7]以武器裝備簡(jiǎn)氏文本為數(shù)據(jù)源,確立武器裝備細(xì)粒度共現(xiàn)關(guān)系類(lèi)型和相應(yīng)的特征詞,構(gòu)建具有多種類(lèi)型邊的武器裝備細(xì)粒度共現(xiàn)網(wǎng)絡(luò),全面、具體地揭示了該領(lǐng)域的整體、微觀(guān)知識(shí)結(jié)構(gòu)和知識(shí)演化情況。章成志等[4]以NLP(natu‐ral language processing)領(lǐng)域?yàn)槔?,將論文中的知識(shí)實(shí)體細(xì)分為4 種類(lèi)型,結(jié)合Apriori 算法和復(fù)雜網(wǎng)絡(luò)方法對(duì)實(shí)體間的關(guān)聯(lián)關(guān)系進(jìn)行了挖掘,揭示了該領(lǐng)域知識(shí)實(shí)體的使用及應(yīng)用情況。Ma 等[29]人工編碼了3422 篇文章中的研究主題和方法,以分析圖書(shū)情報(bào)學(xué)領(lǐng)域中研究主題和方法的演化和轉(zhuǎn)變。孫震等[30]提出了一種基于知識(shí)元遷移的ESI(Essential Science Indicators)研究前沿知識(shí)演進(jìn)分析方法,通過(guò)對(duì)知識(shí)元遷移進(jìn)行定量分析和遷移程度計(jì)算,從語(yǔ)義分析和知識(shí)計(jì)算的角度探索了研究前沿的演進(jìn)機(jī)理。此外,還有部分學(xué)者從單獨(dú)某個(gè)知識(shí)元的視角,如研究問(wèn)題[31]、研究方法[32]等出發(fā)對(duì)領(lǐng)域知識(shí)的使用和演變情況進(jìn)行量化分析。
上述研究從不同角度對(duì)領(lǐng)域知識(shí)進(jìn)行了多維度分析,豐富了領(lǐng)域知識(shí)研究的范疇,深化了知識(shí)網(wǎng)絡(luò)的應(yīng)用途徑。但總體來(lái)看,該類(lèi)研究依然將知識(shí)節(jié)點(diǎn)抽象為單一的符號(hào)化表達(dá),鮮有發(fā)現(xiàn)從知識(shí)節(jié)點(diǎn)本身語(yǔ)義功能的細(xì)粒度和節(jié)點(diǎn)之間語(yǔ)義關(guān)聯(lián)類(lèi)型的多樣性角度出發(fā)進(jìn)行領(lǐng)域知識(shí)多維分析的研究。
本文以國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)(Association for Computational Linguistics,ACL)會(huì)議論文集為數(shù)據(jù)源,對(duì)原始文獻(xiàn)進(jìn)行解析,抽取文獻(xiàn)關(guān)鍵詞、文獻(xiàn)間引用關(guān)系、引文上下文以及引用對(duì)象等信息,采用人工的方式進(jìn)行詞匯功能識(shí)別和引用功能識(shí)別。在此基礎(chǔ)上,采用復(fù)雜網(wǎng)絡(luò)圖方法構(gòu)建細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò),并從引用功能敏感的子網(wǎng)分析、特定節(jié)點(diǎn)的多維關(guān)聯(lián)分析和細(xì)粒度領(lǐng)域知識(shí)演化分析三個(gè)方面進(jìn)行領(lǐng)域知識(shí)多維分析和可視化呈現(xiàn),整體研究方法框架如圖1 所示。
圖1 整體研究方法框架
本研究使用的數(shù)據(jù)來(lái)自ACL 會(huì)議論文集,該協(xié)會(huì)是計(jì)算語(yǔ)言學(xué)(computational linguistics,CL)和自然語(yǔ)言處理(NLP)領(lǐng)域重要的國(guó)際學(xué)術(shù)組織。之所以選擇ACL 會(huì)議論文集,一方面,是因?yàn)樵摂?shù)據(jù)集是目前相對(duì)較為完整且支持全文開(kāi)放獲取的一個(gè)領(lǐng)域數(shù)據(jù)集,被諸多NLP 相關(guān)研究選作數(shù)據(jù)來(lái)源[33-34];另一方面,該數(shù)據(jù)集代表了國(guó)際NLP 領(lǐng)域最高水準(zhǔn),通過(guò)對(duì)該領(lǐng)域的知識(shí)進(jìn)行多維分析,有助于研究人員更全面、深刻地了解該領(lǐng)域知識(shí)發(fā)展及其脈絡(luò)情況。
本研究收集了ACL 成立以來(lái)的41109 篇PDF 格式全文文獻(xiàn),時(shí)間跨度為1979—2019 年,圖2 展示了各年份論文數(shù)量分布情況,論文數(shù)量整體呈現(xiàn)隨年份逐漸增長(zhǎng)的趨勢(shì)。為了便于計(jì)算機(jī)處理,本研究采用GROBID 工具[35]將PDF 格式文獻(xiàn)轉(zhuǎn)換成XML 格式。該工具基于機(jī)器學(xué)習(xí)技術(shù)開(kāi)發(fā),在PDF格式科技文獻(xiàn)的數(shù)據(jù)提取、解析和格式轉(zhuǎn)化方面能達(dá)到較好的效果,尤其在引文上下文的解析方面,F(xiàn)1 值達(dá)到75%,為本研究中引文關(guān)系識(shí)別和引文上下文抽取奠定了基礎(chǔ)。接著,通過(guò)自編Java 程序?qū)D(zhuǎn)換后的XML 格式文獻(xiàn)進(jìn)行解析和抽取,將文獻(xiàn)的標(biāo)題、摘要、句子和引文等相關(guān)字段通過(guò)本地MySQL 數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。
圖2 ACL論文發(fā)表數(shù)量隨年份分布情況
本研究首先通過(guò)所有的參考文獻(xiàn)信息匹配出ACL 數(shù)據(jù)集內(nèi)部的被引文獻(xiàn),共得到19241 篇文獻(xiàn),接著將這些文獻(xiàn)在ACL 數(shù)據(jù)集中的引文上下文抽取出來(lái),共得到引文上下文記錄231930 條。本研究的引文上下文為引文標(biāo)記所在句及其前一句和后一句,若前后都是引文句,則只選擇引文標(biāo)記當(dāng)前句。通過(guò)調(diào)研現(xiàn)有文獻(xiàn)關(guān)于引用功能類(lèi)別的劃分情況[21,36],結(jié)合NLP 領(lǐng)域的研究特性和ACL 數(shù)據(jù)集語(yǔ)料的特點(diǎn),本研究將引用功能劃分為背景、使用、擴(kuò)展和對(duì)比4 個(gè)類(lèi)別,采用人工標(biāo)注結(jié)合規(guī)則模板的方式對(duì)引文上下文進(jìn)行功能標(biāo)注,各類(lèi)別的描述、示例和標(biāo)注結(jié)果數(shù)量情況如表1 所示。為了檢驗(yàn)標(biāo)注結(jié)果的一致性,從原始引文上下文中隨機(jī)抽取1000 條文本,由另一位情報(bào)學(xué)研究生根據(jù)規(guī)則進(jìn)行單獨(dú)標(biāo)注,使用kappa 系數(shù)[37]對(duì)標(biāo)注結(jié)果進(jìn)行一致性檢驗(yàn),結(jié)果顯示kappa 系數(shù)為0.83,達(dá)到了較高的一致性。同時(shí)為了檢驗(yàn)標(biāo)注結(jié)果質(zhì)量,分別從各功能類(lèi)別結(jié)果中隨機(jī)采樣100 條進(jìn)行人工評(píng)價(jià),整體準(zhǔn)確率達(dá)到87%。
表1 引用功能數(shù)據(jù)標(biāo)注結(jié)果
考慮到背景類(lèi)的引文通常是對(duì)該研究背景的概述和相關(guān)研究的描述,與施引文獻(xiàn)的直接關(guān)聯(lián)程度相對(duì)較弱,因此本研究重點(diǎn)對(duì)使用、擴(kuò)展和對(duì)比3個(gè)類(lèi)別的引文句進(jìn)行引用對(duì)象標(biāo)注,共計(jì)57699 條引文句。通過(guò)調(diào)研現(xiàn)有文獻(xiàn)關(guān)于引用對(duì)象類(lèi)別的劃分情況[38],結(jié)合NLP 領(lǐng)域的研究特性和ACL 引文集語(yǔ)料的特點(diǎn)[39],本研究將引用對(duì)象的標(biāo)注體系劃分為4 個(gè)類(lèi)別,分別是研究問(wèn)題、研究方法、數(shù)據(jù)和其他。在人工標(biāo)注的過(guò)程中,本研究發(fā)現(xiàn)大量引文句中并不存在明顯的引用對(duì)象,例如,“We compared our approach with approaches proposed by RE‐FLAB”,諸如“the method of REFLAB”“an exten‐sion of a previous approach REFLAB”等指示性描述對(duì)引用對(duì)象的研究意義不大,因此在標(biāo)注過(guò)程中過(guò)濾這些不包含明顯引用對(duì)象的引文句。最終得到6333 條包含已標(biāo)注引用對(duì)象的引文句,各類(lèi)別引用對(duì)象的描述、示例和標(biāo)注結(jié)果數(shù)量如表2 所示。與引用功能標(biāo)注結(jié)果的評(píng)價(jià)策略類(lèi)似,對(duì)引用對(duì)象進(jìn)行一致性檢驗(yàn),結(jié)果顯示kappa 系數(shù)為0.75,整體準(zhǔn)確率為79%,均達(dá)到了較好的水平。
表2 引用對(duì)象標(biāo)注結(jié)果
考慮到引用對(duì)象類(lèi)別中的研究問(wèn)題和研究方法類(lèi)對(duì)引文的代表性更強(qiáng),語(yǔ)義信息更豐富,且施引文獻(xiàn)的關(guān)鍵詞也大都是問(wèn)題和方法類(lèi)詞匯,因此,本研究重點(diǎn)選擇研究問(wèn)題和研究方法類(lèi)引用對(duì)象進(jìn)行分析。經(jīng)統(tǒng)計(jì),標(biāo)注為研究問(wèn)題和研究方法的引文句共有3333 條(部分引文句中包含多個(gè)引用對(duì)象)。接著,通過(guò)引文關(guān)系匹配到與引用對(duì)象相對(duì)應(yīng)的施引文獻(xiàn),共得到不重復(fù)的施引文獻(xiàn)2265 篇。抽取出這些施引文獻(xiàn)的標(biāo)題和摘要,采用人工的方式對(duì)文獻(xiàn)的研究問(wèn)題和研究方法關(guān)鍵詞進(jìn)行標(biāo)注。例如,在標(biāo)題為“A New Perceptron Algorithm for Sequence Labeling with Non-local Features”的文獻(xiàn)中,其研究問(wèn)題和研究方法關(guān)鍵詞分別標(biāo)注為Se‐quence Labeling 和Perceptron Algorithm。最后,分別對(duì)標(biāo)注后的文章關(guān)鍵詞和引用對(duì)象進(jìn)行大小寫(xiě)轉(zhuǎn)換和同義詞合并等操作,確保其一致性。
本研究所提出的細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò),是將帶語(yǔ)義功能的關(guān)鍵詞和引用對(duì)象作為節(jié)點(diǎn),文章間具有語(yǔ)義功能的引用關(guān)系作為邊,構(gòu)成的一種知識(shí)網(wǎng)絡(luò)。以復(fù)雜網(wǎng)絡(luò)形式化表述為Gf={Vq,Vm,Eu,Ee,Ec},其中Vq為研究問(wèn)題節(jié)點(diǎn)集合,Vm為研究方法節(jié)點(diǎn)集合,Eu為使用功能邊的集合,Ee為擴(kuò)展功能邊的集合,Ec為對(duì)比功能邊的集合。每一條邊具有相應(yīng)的權(quán)重w,代表兩個(gè)節(jié)點(diǎn)之間在某一功能類(lèi)型下的引用頻次。圖3 展示了細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)的構(gòu)建示例,該網(wǎng)絡(luò)是一種加權(quán)有向網(wǎng)絡(luò),網(wǎng)絡(luò)中不包含詞匯自引關(guān)系。
圖3 細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)構(gòu)建示例
根據(jù)上述細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)的定義,描述其具體的構(gòu)建過(guò)程:
Step1. 初始化細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)Gf={Vq,Vm,Eu,Ee,Ec},Vq、Vm、Eu、Ee、Ec均為空,文獻(xiàn)集為P;
Step2.抽取每一篇文獻(xiàn)Pi的關(guān)鍵詞和引用對(duì)象,并識(shí)別其詞匯功能,為每一個(gè)功能詞匯賦予唯一編號(hào)并統(tǒng)計(jì)其頻次,得到節(jié)點(diǎn)集合Vq和Vm;
Step3.抽取文獻(xiàn)集P中所有文獻(xiàn)間的引用關(guān)系和引文上下文,根據(jù)引文上下文識(shí)別其引用功能;
Step4.分別對(duì)Eu、Ee、Ec中的每一條邊匹配施引文獻(xiàn)的關(guān)鍵詞及引用對(duì)象,構(gòu)建異質(zhì)邊詞匯引用關(guān)系對(duì);
Step5.為每一對(duì)引用關(guān)系對(duì)賦予唯一編號(hào),統(tǒng)計(jì)所有的引用關(guān)系對(duì)頻次,得到邊集合Eu、Ee、Ec。
Step6.輸出細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)Gf。
對(duì)ACL 數(shù)據(jù)集進(jìn)行預(yù)處理,按照細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)的構(gòu)建方法,得到的Gf由1480 個(gè)研究問(wèn)題節(jié)點(diǎn)、2797 個(gè)研究方法節(jié)點(diǎn)、3118 條使用功能邊、299 條擴(kuò)展功能邊以及2605 條對(duì)比功能邊構(gòu)成。接下來(lái),本研究從引用功能敏感的子網(wǎng)分析、特定節(jié)點(diǎn)的多維關(guān)聯(lián)分析以及細(xì)粒度領(lǐng)域知識(shí)演化分析3 個(gè)方面對(duì)NLP 領(lǐng)域知識(shí)進(jìn)行多維分析。
所謂引用功能敏感,就是指通過(guò)引用功能為細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)中的邊賦予語(yǔ)義信息,實(shí)現(xiàn)知識(shí)節(jié)點(diǎn)之間關(guān)聯(lián)關(guān)系的多樣化表示?;谶吂δ軇澐志W(wǎng)絡(luò),能夠得到包含某一特定類(lèi)型關(guān)系的子網(wǎng),對(duì)各個(gè)引用功能敏感的子網(wǎng)進(jìn)行分析,可以幫助用戶(hù)有針對(duì)性地分析網(wǎng)絡(luò)中節(jié)點(diǎn)的關(guān)聯(lián)情況。
1)使用功能子網(wǎng)分析
在科技文獻(xiàn)寫(xiě)作過(guò)程中,不可避免地要使用到已有的知識(shí)作為支撐,對(duì)使用功能敏感的關(guān)鍵詞引用網(wǎng)絡(luò)進(jìn)行分析,有助于發(fā)現(xiàn)學(xué)科領(lǐng)域中知識(shí)使用的模式和特點(diǎn)。為此,本研究單獨(dú)將使用類(lèi)邊抽取出來(lái)構(gòu)建使用功能敏感的關(guān)鍵詞引用網(wǎng)絡(luò),得到的網(wǎng)絡(luò)由2327 個(gè)節(jié)點(diǎn)和3118 條邊組成??紤]網(wǎng)絡(luò)的精簡(jiǎn)性和可視化效果,按邊權(quán)重閾值為5 進(jìn)行過(guò)濾,得到剪枝后的網(wǎng)絡(luò)包含34 個(gè)節(jié)點(diǎn)和35 條邊。通過(guò)Gephi 對(duì)其進(jìn)行可視化,結(jié)果如圖4 所示。其中,網(wǎng)絡(luò)節(jié)點(diǎn)大小與其加權(quán)中心度成正比,節(jié)點(diǎn)標(biāo)簽以0結(jié)尾的代表研究問(wèn)題詞匯,節(jié)點(diǎn)標(biāo)簽以1 結(jié)尾的代表研究方法詞匯,箭頭的方向由施引詞匯指向被引詞匯,表示施引文獻(xiàn)出于使用意圖引用了該引用對(duì)象。
從圖4 可以看出,該子網(wǎng)具有兩個(gè)明顯的社區(qū),一個(gè)是以GloVe (global vectors for word representa‐tion)方法為核心,多種研究問(wèn)題和方法指向該節(jié)點(diǎn),反映出GloVe 是NLP 領(lǐng)域中被廣泛且頻繁使用的一種研究方法;另一個(gè)是由統(tǒng)計(jì)機(jī)器翻譯問(wèn)題、最小錯(cuò)誤率訓(xùn)練方法、BPE(byte pair encoding,字節(jié)對(duì)編碼) 算法、神經(jīng)機(jī)器翻譯問(wèn)題、MIRA(margin infused relaxed algorithm) 算法等關(guān)鍵詞構(gòu)成的知識(shí)群落,同樣體現(xiàn)了該領(lǐng)域?qū)C(jī)器翻譯相關(guān)知識(shí)的使用和關(guān)注情況。此外,網(wǎng)絡(luò)邊緣還分布著一些獨(dú)立的小網(wǎng)絡(luò)或關(guān)聯(lián)對(duì),反映出領(lǐng)域知識(shí)之間的頻繁使用模式,如攻擊識(shí)別問(wèn)題中經(jīng)常使用到fastText 分類(lèi)器,這種頻繁使用模式為研究問(wèn)題和方法的推薦提供了基礎(chǔ)。
圖4 使用功能子網(wǎng)
2)擴(kuò)展功能子網(wǎng)分析
在已有領(lǐng)域知識(shí)基礎(chǔ)上的擴(kuò)展和創(chuàng)新,也是科學(xué)研究中常見(jiàn)的范式,對(duì)擴(kuò)展功能下關(guān)鍵詞引用網(wǎng)絡(luò)進(jìn)行分析,有助于厘清科學(xué)知識(shí)的發(fā)展變遷規(guī)律。同理,可構(gòu)建擴(kuò)展功能敏感的關(guān)鍵詞引用網(wǎng)絡(luò),按邊權(quán)重為1 對(duì)網(wǎng)絡(luò)進(jìn)行剪枝,得到的精簡(jiǎn)后的網(wǎng)絡(luò)包含53個(gè)節(jié)點(diǎn)和41條邊,可視化結(jié)果如圖5所示。
圖5 擴(kuò)展功能子網(wǎng)
從圖5 可以看出,擴(kuò)展功能子網(wǎng)以在線(xiàn)區(qū)分性訓(xùn)練問(wèn)題、貪心算法、機(jī)器翻譯模型、基于圖的方法等關(guān)鍵詞為核心,反映了施引文獻(xiàn)多在這些問(wèn)題或方法上進(jìn)行擴(kuò)展。網(wǎng)絡(luò)整體連通性不強(qiáng),社區(qū)較為分散,沒(méi)有形成明顯的知識(shí)聚集現(xiàn)象,但網(wǎng)絡(luò)中分布的眾多小網(wǎng)絡(luò)或連接對(duì)反映出該領(lǐng)域存在較多小范圍內(nèi)的知識(shí)擴(kuò)展現(xiàn)象,例如,在詞語(yǔ)對(duì)齊研究中常對(duì)集束算法進(jìn)行擴(kuò)展,分布式語(yǔ)義模型和對(duì)話(huà)行為分類(lèi)問(wèn)題均在詞袋模型基礎(chǔ)上進(jìn)行了擴(kuò)展。
3)對(duì)比功能子網(wǎng)分析
在科學(xué)研究中,經(jīng)常需要將該研究的方法、結(jié)果或結(jié)論等部分與其他研究進(jìn)行對(duì)比,以突出該研究的價(jià)值和特色,對(duì)對(duì)比功能下關(guān)鍵詞引用網(wǎng)絡(luò)進(jìn)行分析有助于挖掘領(lǐng)域知識(shí)之間的對(duì)比模式和特點(diǎn)。同樣,對(duì)構(gòu)建的網(wǎng)絡(luò)按照邊權(quán)重閾值為4 進(jìn)行過(guò)濾,剪枝后的網(wǎng)絡(luò)包含57 個(gè)節(jié)點(diǎn)和43 條邊,可視化結(jié)果如圖6 所示。
圖6 對(duì)比功能子網(wǎng)
從圖6 可以看出,對(duì)比功能子網(wǎng)以實(shí)體鏈接模型、Bi-LSTM(bi-directional long-short term memory)模型、LSTM(long short-term memory)模型、共指消解問(wèn)題、句子對(duì)齊方法、超圖模型等知識(shí)節(jié)點(diǎn)為核心,表明NLP 領(lǐng)域較為關(guān)注這些主題方面的對(duì)比情況。網(wǎng)絡(luò)中同樣分散著眾多小網(wǎng)絡(luò)或連接對(duì),體現(xiàn)出NLP 領(lǐng)域中知識(shí)單元之間存在的多方面的對(duì)比關(guān)系,其中比較明顯的有Bi-LSTM、LSTM 和seq2seq這3 個(gè)常用深度神經(jīng)網(wǎng)絡(luò)模型之間的對(duì)比。
傳統(tǒng)關(guān)鍵詞網(wǎng)絡(luò)一般僅依賴(lài)引用或共現(xiàn)等單一化關(guān)系,相關(guān)的分析多集中在網(wǎng)絡(luò)中類(lèi)簇的劃分。本研究通過(guò)對(duì)網(wǎng)絡(luò)中邊的語(yǔ)義功能進(jìn)行細(xì)粒度標(biāo)注,實(shí)現(xiàn)了按邊類(lèi)型對(duì)網(wǎng)絡(luò)的劃分;對(duì)包含某一特定功能關(guān)系的子網(wǎng)的分析,有助于研究人員有針對(duì)性地了解特定關(guān)系類(lèi)型下的領(lǐng)域知識(shí)結(jié)構(gòu);還可以進(jìn)一步對(duì)各功能敏感的子網(wǎng)進(jìn)行社區(qū)劃分,發(fā)現(xiàn)其中的知識(shí)聚集情況。
以特定節(jié)點(diǎn)為中心,獲取與其存在多維關(guān)聯(lián)的其他節(jié)點(diǎn),可組成相應(yīng)知識(shí)的多維關(guān)聯(lián)子網(wǎng)絡(luò),由此可以快速方便地定位與某一個(gè)知識(shí)節(jié)點(diǎn)具有多種細(xì)粒度關(guān)聯(lián)的研究問(wèn)題或方法,進(jìn)而可以系統(tǒng)地揭示特定研究問(wèn)題的發(fā)展情況或特定方法的應(yīng)用情況。本研究以統(tǒng)計(jì)機(jī)器翻譯問(wèn)題和卷積神經(jīng)網(wǎng)絡(luò)方法為例,分別從整體網(wǎng)絡(luò)中抽取與這兩個(gè)節(jié)點(diǎn)相關(guān)的所有節(jié)點(diǎn),并保留邊權(quán)重不小于2 的路徑,組成的特定節(jié)點(diǎn)多維關(guān)聯(lián)子網(wǎng)絡(luò)分別如圖7 和圖8 所示。其中,邊的粗細(xì)與其權(quán)重成正比,邊標(biāo)簽1、2、3分別代表使用、擴(kuò)展和對(duì)比3 種引用功能。
圖7 統(tǒng)計(jì)機(jī)器翻譯的多維關(guān)聯(lián)子網(wǎng)絡(luò)
圖8 卷積神經(jīng)網(wǎng)絡(luò)的多維關(guān)聯(lián)子網(wǎng)絡(luò)
從圖7 可以系統(tǒng)地定位與統(tǒng)計(jì)機(jī)器翻譯問(wèn)題具有使用、擴(kuò)展和對(duì)比關(guān)系的研究問(wèn)題和方法。例如,使用關(guān)系的有最小錯(cuò)誤率訓(xùn)練方法、KenLM 模型、詞匯化重排序模型等,擴(kuò)展關(guān)系的有在線(xiàn)區(qū)分性訓(xùn)練問(wèn)題、動(dòng)態(tài)規(guī)劃算法、skip-gram 模型等,對(duì)比關(guān)系的有語(yǔ)言模型、最小錯(cuò)誤率訓(xùn)練方法、L1正則化方法等。結(jié)合文獻(xiàn)可知,最小錯(cuò)誤率訓(xùn)練方法、KenLM 模型、詞匯化重排序模型均是統(tǒng)計(jì)機(jī)器翻譯問(wèn)題研究中常用的算法和模型,統(tǒng)計(jì)機(jī)器翻譯常在在線(xiàn)區(qū)分性訓(xùn)練、動(dòng)態(tài)規(guī)劃算法、skip-gram 模型方面進(jìn)行擴(kuò)展以提升翻譯性能。此外,語(yǔ)言模型、最小錯(cuò)誤率訓(xùn)練方法、L1 正則化方法等也是不同統(tǒng)計(jì)機(jī)器翻譯研究常進(jìn)行對(duì)比的內(nèi)容。
同樣,從圖8 可以發(fā)現(xiàn),與卷積神經(jīng)網(wǎng)絡(luò)具有使用關(guān)系的有GloVe 模型、神經(jīng)網(wǎng)絡(luò)模型、情感分析問(wèn)題和自動(dòng)問(wèn)答問(wèn)題等,對(duì)比關(guān)系的有循環(huán)神經(jīng)網(wǎng)絡(luò)問(wèn)題/方法、神經(jīng)網(wǎng)絡(luò)模型、實(shí)體和關(guān)系抽取問(wèn)題等。查閱相關(guān)文獻(xiàn)顯示,CNN(convolutional neural network)常使用GloVe 詞向量模型進(jìn)行文本表示,CNN 是神經(jīng)網(wǎng)絡(luò)模型中重要的組成成分,情感分析和自動(dòng)問(wèn)答等問(wèn)題的研究也常引入CNN 作為方法之一。RNN(recurrent neural network)等神經(jīng)網(wǎng)絡(luò)模型經(jīng)常將CNN 作為一個(gè)重要的對(duì)比對(duì)象,實(shí)體和關(guān)系抽取等研究中也常與CNN 模型進(jìn)行對(duì)比。CNN 自提出發(fā)展至今,已經(jīng)成為NLP 領(lǐng)域中一個(gè)受到廣泛關(guān)注和應(yīng)用的模型。
通過(guò)上述實(shí)例發(fā)現(xiàn),在NLP 領(lǐng)域中知識(shí)節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系基本符合該領(lǐng)域常見(jiàn)的知識(shí)實(shí)體作用規(guī)律,特定節(jié)點(diǎn)的多維關(guān)聯(lián)分析能夠輔助科研人員有針對(duì)性地了解領(lǐng)域中某個(gè)關(guān)鍵問(wèn)題或方法的實(shí)際情況。相比于傳統(tǒng)關(guān)鍵詞網(wǎng)絡(luò),考慮詞匯功能和引用功能后,能夠精確揭示特定知識(shí)在領(lǐng)域中與其他知識(shí)的交互功能,該結(jié)果能夠提高實(shí)體推薦等研究的語(yǔ)義化水平。
傳統(tǒng)的知識(shí)演化分析多在宏觀(guān)層面揭示領(lǐng)域主題的發(fā)展變化情況,而細(xì)粒度領(lǐng)域知識(shí)演化關(guān)注的是領(lǐng)域中功能詞匯的發(fā)展脈絡(luò),客觀(guān)把握領(lǐng)域知識(shí)發(fā)展的內(nèi)在規(guī)律,明確知識(shí)發(fā)展演化過(guò)程中的關(guān)鍵信息,為科研人員預(yù)測(cè)領(lǐng)域中特定研究問(wèn)題或研究方法的發(fā)展演變態(tài)勢(shì)提供參考。
細(xì)粒度領(lǐng)域知識(shí)演化的基本思路是將時(shí)間維度引入問(wèn)題-方法詞匯的關(guān)聯(lián)中,賦予每一個(gè)功能詞匯發(fā)揮作用的時(shí)間(施引詞和被引詞均為對(duì)應(yīng)施引文獻(xiàn)的發(fā)表時(shí)間),在此基礎(chǔ)上通過(guò)對(duì)不同階段關(guān)鍵詞及其語(yǔ)義關(guān)聯(lián)的分析,揭示領(lǐng)域研究熱點(diǎn)和預(yù)測(cè)領(lǐng)域未來(lái)的發(fā)展趨勢(shì)。為此,我們通過(guò)原始文獻(xiàn)的發(fā)表年份和文獻(xiàn)間的引用關(guān)系為每一個(gè)功能詞匯標(biāo)記時(shí)間信息,構(gòu)建帶有時(shí)間屬性的細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò),接著選定某一個(gè)研究問(wèn)題或方法,抽取與該節(jié)點(diǎn)相關(guān)聯(lián)的重要鏈路和節(jié)點(diǎn)信息,按照時(shí)間序列繪制細(xì)粒度領(lǐng)域知識(shí)演化圖。
語(yǔ)言模型(language model)是NLP 領(lǐng)域一種基礎(chǔ)且重要的算法,為了探尋該研究方法在領(lǐng)域中與其他方法和問(wèn)題的交互演化情況,本研究以語(yǔ)言模型這一研究方法為例繪制其細(xì)粒度演化路徑圖。在二維坐標(biāo)圖中,橫軸為年份,縱軸為在某個(gè)年份出現(xiàn)的關(guān)聯(lián)關(guān)鍵詞,以語(yǔ)言模型為起點(diǎn),在網(wǎng)絡(luò)中遍歷與其相關(guān)聯(lián)的鏈路,通過(guò)關(guān)聯(lián)強(qiáng)度篩選重要鏈路及節(jié)點(diǎn),并按照關(guān)鍵詞所處的年份在圖中繪制相應(yīng)節(jié)點(diǎn),其中橢圓形節(jié)點(diǎn)代表研究問(wèn)題,矩形節(jié)點(diǎn)代表研究方法,邊的粗細(xì)代表關(guān)聯(lián)強(qiáng)度大小,邊標(biāo)簽1、2、3 分別代表使用、擴(kuò)展和對(duì)比關(guān)系,圖9 展示了語(yǔ)言模型引用路線(xiàn)隨時(shí)間變遷的演化路徑。
結(jié)合圖9,可以將語(yǔ)言模型的演化大體劃分為4個(gè)階段。在第一階段(1979—2007 年)和第二階段(2008—2011 年),這個(gè)時(shí)期的語(yǔ)言模型關(guān)注的是基于傳統(tǒng)方法,如貪心算法、最小錯(cuò)誤率訓(xùn)練方法來(lái)解決語(yǔ)言模型中涉及的詞格解析等相關(guān)問(wèn)題。在第三階段(2012—2015 年),語(yǔ)言模型在使用基礎(chǔ)方法(如對(duì)數(shù)線(xiàn)性方法、自適應(yīng)調(diào)諧算法)和擴(kuò)展基礎(chǔ)方法(FFBS(forward filtering backward sampling)算法、貝葉斯模型)之外,開(kāi)始關(guān)注機(jī)器學(xué)習(xí)算法在語(yǔ)言模型中的應(yīng)用,這個(gè)階段的研究問(wèn)題主要集中于語(yǔ)言模型本身和機(jī)器翻譯問(wèn)題,并常常在這些問(wèn)題中對(duì)不同的方法進(jìn)行對(duì)比。在第四階段(2016—2019 年)可以明顯地看出,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)已經(jīng)成為語(yǔ)言模型研究的熱點(diǎn)和趨勢(shì),注意力機(jī)制、RNN、BPE、計(jì)算語(yǔ)義、表示學(xué)習(xí)等前沿方法被廣泛使用到語(yǔ)言模型中,以解決機(jī)器翻譯、閱讀理解、描述生成等研究問(wèn)題。此外,我們可以發(fā)現(xiàn),BPE 算法在語(yǔ)言模型發(fā)展過(guò)程中扮演著關(guān)鍵角色,除了語(yǔ)言模型研究使用了該方法外,神經(jīng)機(jī)器翻譯和注意力機(jī)制也常使用該方法(在圖9 中進(jìn)行了繪制),彼此間形成了緊密連接的團(tuán)體。結(jié)合文獻(xiàn)可知,BPE 算法[40]在NLP 領(lǐng)域的應(yīng)用始于2016年,用來(lái)解決機(jī)器翻譯任務(wù)中的出現(xiàn)的未登錄詞和罕見(jiàn)詞問(wèn)題,并取得了較好的表現(xiàn),自BPE 在NLP領(lǐng)域中應(yīng)用以來(lái),常被運(yùn)用在機(jī)器翻譯、語(yǔ)言模型等諸多自然語(yǔ)言處理算法中。整體上來(lái)看,語(yǔ)言模型的演化與NLP 領(lǐng)域技術(shù)的發(fā)展基本是同步的,經(jīng)歷了從傳統(tǒng)方法和研究問(wèn)題到當(dāng)前融合神經(jīng)網(wǎng)絡(luò)方法的演變過(guò)程,可以預(yù)測(cè)未來(lái)一段時(shí)期內(nèi)語(yǔ)言模型的研究依然會(huì)重點(diǎn)關(guān)注結(jié)合深度學(xué)習(xí)的相關(guān)應(yīng)用和研究問(wèn)題。
圖9 語(yǔ)言模型的細(xì)粒度演化路徑
為了更好地揭示細(xì)粒度領(lǐng)域知識(shí)演化的特征,本研究同樣以語(yǔ)言模型主題為例,構(gòu)建了傳統(tǒng)基于共詞網(wǎng)絡(luò)方法的主題演化圖進(jìn)行對(duì)比分析。具體來(lái)說(shuō),將關(guān)鍵詞或引用對(duì)象中包含language model 的施引文獻(xiàn)抽取出來(lái),合并施引文獻(xiàn)關(guān)鍵詞和被引對(duì)象作為該施引文獻(xiàn)的關(guān)鍵詞,同樣將共詞網(wǎng)絡(luò)演化劃分為相應(yīng)的4 個(gè)階段,根據(jù)每個(gè)階段中所包含的文獻(xiàn)集分別構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),結(jié)果如圖10所示。
圖10 基于共詞網(wǎng)絡(luò)的語(yǔ)言模型主題演化
通過(guò)對(duì)細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)方法和共詞網(wǎng)絡(luò)方法下實(shí)驗(yàn)結(jié)果的對(duì)比和分析,發(fā)現(xiàn)兩者在對(duì)領(lǐng)域主題的揭示、關(guān)鍵路徑發(fā)現(xiàn)等方面有所差異。在對(duì)主題的揭示方面,各階段兩者關(guān)注的話(huà)題有一部分重疊,但同時(shí)也有部分節(jié)點(diǎn)存在差異。其原因在于基于共現(xiàn)關(guān)系構(gòu)建的關(guān)鍵詞關(guān)聯(lián)關(guān)系中會(huì)包含一部分不存在直接引用關(guān)聯(lián)的節(jié)點(diǎn)關(guān)系對(duì),因此網(wǎng)絡(luò)中會(huì)出現(xiàn)較多相關(guān)性不是很高的節(jié)點(diǎn),影響了對(duì)關(guān)注焦點(diǎn)的判斷。例如,在共詞網(wǎng)絡(luò)第四階段中,盡管也出現(xiàn)了神經(jīng)語(yǔ)言模型、BPE 算法等關(guān)鍵詞,但其并沒(méi)有成為該階段核心主題,影響了對(duì)主題發(fā)展趨勢(shì)的判斷。相反,引用關(guān)系反映了兩個(gè)關(guān)鍵詞之間的直接關(guān)聯(lián),能更加準(zhǔn)確地揭示領(lǐng)域當(dāng)前關(guān)注的焦點(diǎn),結(jié)合關(guān)鍵詞語(yǔ)義功能和語(yǔ)義關(guān)聯(lián)也能提高主題的可解釋性。在關(guān)鍵路徑發(fā)現(xiàn)方面,傳統(tǒng)共詞網(wǎng)絡(luò)中節(jié)點(diǎn)之間都是基于共現(xiàn)關(guān)系,區(qū)別僅在于共現(xiàn)頻次的不同,很難直接對(duì)節(jié)點(diǎn)間交互的作用和功能做出解釋?zhuān)欢谝藐P(guān)系中,明確了一個(gè)節(jié)點(diǎn)出于何種意圖與另一個(gè)節(jié)點(diǎn)發(fā)生關(guān)聯(lián),可以直觀(guān)發(fā)現(xiàn)不同的問(wèn)題和方法在不同的階段發(fā)揮了什么作用,更加容易識(shí)別出主題演變過(guò)程中的重要鏈路信息,例如,BPE 算法的使用在語(yǔ)言模型的發(fā)展演化過(guò)程中扮演了關(guān)鍵角色。
以上對(duì)比結(jié)果表明,從關(guān)鍵詞之間的細(xì)粒度引用關(guān)系出發(fā),可以以一種直接的視角對(duì)領(lǐng)域主題隨時(shí)間變化的特征進(jìn)行分析,揭示領(lǐng)域主題在不同時(shí)期的關(guān)注焦點(diǎn)和演化趨勢(shì)。研究主題本質(zhì)上就是具有不同語(yǔ)義功能的知識(shí)單元及其之間的語(yǔ)義關(guān)聯(lián)構(gòu)成的知識(shí)集合,通過(guò)細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)能夠更深入地理解主題的演變機(jī)理及其內(nèi)部的知識(shí)關(guān)聯(lián)特征,為領(lǐng)域知識(shí)演化分析提供了一個(gè)新的視角。
面對(duì)日益增多的科學(xué)文獻(xiàn),從文本語(yǔ)義功能角度對(duì)學(xué)術(shù)文本進(jìn)行深度語(yǔ)義理解,并從細(xì)粒度、語(yǔ)義化角度構(gòu)建關(guān)鍵詞之間的關(guān)聯(lián)網(wǎng)絡(luò)是一項(xiàng)迫切且有意義的研究工作。為此,本研究以ACL 數(shù)據(jù)集為例構(gòu)建了細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)。接著,從引用功能敏感的子網(wǎng)分析、特定節(jié)點(diǎn)的多維關(guān)聯(lián)分析和細(xì)粒度領(lǐng)域知識(shí)演化分析三個(gè)方面進(jìn)行了實(shí)證分析和可視化呈現(xiàn),一方面在實(shí)踐中驗(yàn)證了本研究提出方法的合理性,另一方面挖掘到了領(lǐng)域知識(shí)分析中涌現(xiàn)的一些新的規(guī)律和特點(diǎn),為科學(xué)知識(shí)網(wǎng)絡(luò)和領(lǐng)域知識(shí)多維分析的研究提供了創(chuàng)新性的視角。
本研究也存在一定的局限。首先,盡管本文初始數(shù)據(jù)集較大,但由于重點(diǎn)選擇了部分功能類(lèi)型以及引用對(duì)象數(shù)據(jù)量較少,使構(gòu)建出來(lái)的網(wǎng)絡(luò)較為稀疏。在接下來(lái)的研究中,將進(jìn)一步擴(kuò)大標(biāo)注數(shù)據(jù)集,從而更加完整、準(zhǔn)確地表示學(xué)科領(lǐng)域知識(shí)關(guān)聯(lián)情況。其次,本文僅從三個(gè)方面探索了細(xì)粒度關(guān)鍵詞引用網(wǎng)絡(luò)在領(lǐng)域知識(shí)多維分析中的應(yīng)用,后續(xù)還可以進(jìn)行網(wǎng)絡(luò)社區(qū)劃分等研究,以發(fā)現(xiàn)科學(xué)知識(shí)發(fā)展變化中更多的特征和規(guī)律。