摘要:作為新的知識表示方法,事理圖譜聚焦于事件及其關(guān)系的動態(tài)性知識研究已吸引國內(nèi)不少學(xué)者關(guān)注。文章從文獻計量的視角出發(fā),利用CiteSpace、SATI3.2等工具,分析事理圖譜相關(guān)研究發(fā)文趨勢、發(fā)文作者及機構(gòu)合作網(wǎng)絡(luò)、高頻關(guān)鍵詞及研究熱點,探究國內(nèi)事理圖譜研究動向。分析結(jié)果表明,當前事理圖譜研究還在成長階段,以局部合作研究為主,尚未形成緊密的科研合作網(wǎng)絡(luò),研究主題聚焦在事理圖譜構(gòu)建流程、關(guān)鍵構(gòu)建技術(shù)與實踐應(yīng)用三方面。
關(guān)鍵詞:事理圖譜;文獻計量;CiteSpace
中圖分類號:G353.1" 文獻標志碼:A
0 引言
事件是發(fā)生在某個特定時間和情形下,由一個或多個個體參與的一個或多個動作組成的事情或者狀態(tài)的改變[1]。它是驅(qū)動人類社會活動的核心概念,也是理解社會和個體行為復(fù)雜性、探索事物演化發(fā)展趨勢的關(guān)鍵。相比靜態(tài)的數(shù)據(jù)或?qū)嶓w,以事件作為知識的基本單元更能反映客觀世界的動態(tài)性和復(fù)雜性。然而,當前的知識圖譜、語義網(wǎng)絡(luò)等知識庫均以實體為研究對象,聚焦于實體的屬性、與實體間的關(guān)系,缺乏對事理邏輯知識的挖掘與事件演化機制和傳播路徑的探究。事理圖譜的出現(xiàn)則為揭示事件之間的邏輯關(guān)系、演化規(guī)律提供了一種可能。有學(xué)者斷言事理圖譜是知識圖譜的下一代[2]。那事理圖譜究竟是什么?其研究進展及應(yīng)用如何?本文通過文獻計量分析,為學(xué)者梳理出事理圖譜研究動態(tài),為后續(xù)研究和實踐應(yīng)用提供參考和借鑒。
1 相關(guān)概念
事理圖譜與知識圖譜有著很大的源遠。自Google公司2012年提出知識圖譜(Knowledge Graph)的概念后,學(xué)術(shù)界開始進行知識圖譜相關(guān)研究。知識圖譜是真實世界中存在的各種實體、概念及其關(guān)系構(gòu)成的語義網(wǎng)絡(luò)圖,以圖譜化形式描述真實世界中各類事物及其關(guān)聯(lián)關(guān)系[3]。但它側(cè)重于實體關(guān)系的描述,在動態(tài)特征描述和推理規(guī)則學(xué)習(xí)方面還有一些不足。因此,學(xué)者們開始投入到以事件為主體的知識圖譜研究。國內(nèi)最初研究起步于哈工大社會計算與信息檢索研究中心劉挺教授團隊,2017年,團隊中Li等[4]首次提出了事件進化圖(Event Evolutionary Graph,EEG)的概念,描述了事件之間的邏輯關(guān)系,并用它來發(fā)現(xiàn)事件的演化規(guī)律并預(yù)測后續(xù)事件。2018年又提出了基于事件鏈構(gòu)建敘事事件演化圖(Narrative Event Evolutionary Graph,NEEG)。2019年,正式提出事理圖譜(Event Logic Graph,ELG)的概念,將事理圖譜定義為描述事件之間演化規(guī)律和模式的事理邏輯知識庫,形式為有向環(huán)圖,圖中的節(jié)點表示抽象事件,定義為泛化、語義完備的謂詞短語或片段;圖中的有向邊表示事件之間的順承、因果、條件或上下位等關(guān)系,邊上標注概率信息、邏輯規(guī)則概率分布[5]。此后,事理圖譜的概念被國內(nèi)較多學(xué)者沿用。
2 研究設(shè)計
2.1 數(shù)據(jù)來源
為梳理國內(nèi)事理圖譜的進展,筆者選擇了中國知網(wǎng)(CNKI)作為文獻來源。鑒于事理圖譜作為一個新興的概念還在探索階段,筆者選取了事理圖譜及其相關(guān)概念進行檢索,構(gòu)建了檢索式為主題=“事理圖譜”or“事理知識圖譜”or“事理圖”or“事件演化圖”,檢索時間為2024年9月8日,共檢索出262篇文獻,通過瀏覽標題與摘要剔除無關(guān)文獻后,共得到相關(guān)研究文獻255篇,其中期刊及會議論文134篇,學(xué)位論文121篇。
2.2 研究方法
本文使用文獻計量方法,綜合運用CiteSpace、SATI3.2、Excel等計量或統(tǒng)計分析軟件,抽取文獻發(fā)表年份、作者、作者機構(gòu)、關(guān)鍵詞等要素進行可視化分析,通過合作網(wǎng)絡(luò)分析發(fā)文核心作者、機構(gòu)及其合作關(guān)系,通過關(guān)鍵詞聚類網(wǎng)絡(luò)分析領(lǐng)域研究熱點,以此探究事理圖譜研究動態(tài)。
3 研究結(jié)果分析
3.1 事理圖譜研究總體特征
3.1.1 發(fā)文趨勢分析
領(lǐng)域內(nèi)相關(guān)論文數(shù)量一定程度上反映了該領(lǐng)域的受關(guān)注程度。圖1展示了國內(nèi)事理圖譜相關(guān)研究發(fā)文趨勢,從中可以看到,國內(nèi)的事理圖譜相關(guān)研究始于2018年,此后文獻量逐年增長。早期處于萌芽階段,2021年受到學(xué)者關(guān)注開始大規(guī)模上升,近3年持續(xù)高漲(占總文獻量的60%以上),這一定程度上說明了事理圖譜的熱度。為觀察未來研究趨勢,使用Excel的FORECAST.ETS函數(shù),基于2018—2023年發(fā)文量,預(yù)測今后3年發(fā)文趨勢。從預(yù)測趨勢線看,事理圖譜相關(guān)研究還在成長階段,未來還有很大的研究空間。
3.1.2 發(fā)文作者及機構(gòu)分析
發(fā)文作者及機構(gòu)分析有助于捕捉領(lǐng)域內(nèi)高產(chǎn)作者群及其合作情況。通過SATI3.2對發(fā)文作者進行統(tǒng)計,255篇論文共計出現(xiàn)479位作者。除學(xué)位論文外,134篇期刊及會議論文出現(xiàn)375位作者,篇均作者3.32人次,表明事理圖譜相關(guān)研究具有一定復(fù)雜性,有較強的合作趨勢。普萊斯定律認為某一領(lǐng)域中大約一半的科學(xué)論文是由總作者數(shù)平方根數(shù)量的作者所撰寫的,用數(shù)學(xué)公式表示為∑im+1n(x)=N,其中:i表示領(lǐng)域內(nèi)發(fā)文最多的作者發(fā)文數(shù);n(x)表示撰寫x篇論文的作者數(shù)量;N表示作者總數(shù)[6]。根據(jù)計算,高產(chǎn)作者總數(shù)為375≈19.4,近似為發(fā)文量排名前20的作者為該領(lǐng)域內(nèi)活躍貢獻者。表1呈現(xiàn)了前10名高產(chǎn)作者分布情況,其中發(fā)文量最高的是吉林大學(xué)商學(xué)與管理學(xué)院張海濤教授,共6篇。從高產(chǎn)作者所屬機構(gòu)來看,具有圖書情報學(xué)科背景或計算機科學(xué)技術(shù)背景的科研人員是事理圖譜研究的主要群體。
圖2為作者及機構(gòu)合作網(wǎng)絡(luò)圖譜,其中學(xué)位論文由作者獨立完成,所以未納入合作分析中。整體來看,網(wǎng)絡(luò)中節(jié)點數(shù)為163,連線數(shù)為206,網(wǎng)絡(luò)密度為0.0156,布局呈現(xiàn)總體分散、局部集中的特點,表明跨機構(gòu)的交流相對較少,合作較為分散,以局部機構(gòu)內(nèi)合作研究為主。觀察局部節(jié)點,發(fā)現(xiàn)當前國內(nèi)事理圖譜研究初步形成一些內(nèi)聚的小型科研合作群體,如吉林大學(xué)張海濤合作群,關(guān)注重大突發(fā)事件的事理圖譜研究;東北師范大學(xué)唐燁偉合作群,聚集于教師教學(xué)領(lǐng)域信息技術(shù)應(yīng)用能力的事理圖譜構(gòu)建研究;北京工業(yè)大學(xué)單曉紅合作群,側(cè)重事理圖譜在網(wǎng)絡(luò)輿情預(yù)測中的應(yīng)用研究。有所突破的是,南京大學(xué)信管院與武漢理工大學(xué)、南京農(nóng)業(yè)大學(xué)展開了跨地域跨機構(gòu)跨學(xué)科的知識交流與科研合作。
3.1.3 關(guān)鍵詞分析
關(guān)鍵詞是論文作者基于對文章整體內(nèi)容的把握而概括總結(jié)的詞語,也是文章內(nèi)容的提煉與濃縮。筆者使用SATI3.2提取論文關(guān)鍵詞,共得到620個關(guān)鍵詞,累計出現(xiàn)1174次,平均出現(xiàn)頻率為1.8。根據(jù)詞頻g指數(shù)[9]確定出現(xiàn)頻次在5及以上的前19個關(guān)鍵詞為高頻詞,如表2所示。
從表2來看,事件抽取、關(guān)系抽取、事件泛化等關(guān)鍵詞頻繁出現(xiàn),表示多數(shù)研究集中為事理圖譜的構(gòu)建流程:從網(wǎng)絡(luò)輿情、重大突發(fā)事件、問答系統(tǒng)等關(guān)鍵詞看,事理圖譜的應(yīng)用領(lǐng)域也受到普遍關(guān)注;從深度學(xué)習(xí)、注意力機制、人工智能等關(guān)鍵詞看,事理圖譜與知識圖譜密切相關(guān),其發(fā)展離不開當今前沿技術(shù)。
為進一步探究研究主題,筆者進行了關(guān)鍵詞聚類分析,使用pathfinder算法剪枝網(wǎng)絡(luò)。從網(wǎng)絡(luò)結(jié)構(gòu)特征來看,網(wǎng)絡(luò)共有220個節(jié)點,288條連線,網(wǎng)絡(luò)密度為0.012,表明各節(jié)點之間聯(lián)系較緊密。從聚類效果來看,聚類模塊值Q=0.8538,大于0.7,表明聚類高效且可信;平均輪廓值S=0.9777,接近1,表明聚類內(nèi)部一致性較高[8]。依據(jù)關(guān)鍵詞相似度計算后共形成了11個聚類群,用對數(shù)似然比LLR算法識別聚類標簽。表3呈現(xiàn)了每個聚類群中所含的主要關(guān)鍵詞。
3.2 事理圖譜研究熱點
通過高頻關(guān)鍵詞及關(guān)鍵詞聚類分析,結(jié)合相關(guān)文獻細讀,發(fā)現(xiàn)當前事理圖譜研究主要聚焦于以下3個研究主題。
3.2.1 事理圖譜構(gòu)建流程
主要包含#0、#1、#4、#9等聚類群,涵蓋知識圖譜、事件抽取、事件關(guān)系抽取、事件融合、事件推理等關(guān)鍵詞。事理圖譜起源于知識圖譜,其構(gòu)建過程與知識圖譜具有相似之處,分為自頂向下和自底向上兩種模式,目前多采用自底向上模式或兩種模式相結(jié)合構(gòu)建。具體構(gòu)建流程包括原始語料獲取與自然語言處理、事件抽取、事件關(guān)系抽取、事件同指消解、事件泛化、圖譜構(gòu)建等步驟。其中,事件抽取及其關(guān)系抽取是不可缺少的步驟:事件抽取就是從預(yù)處理后的語料文本中識別事件觸發(fā)詞和論元,以及論元角色分類;事件關(guān)系抽取則是識別兩個事件之間的順序、因果、條件等邏輯關(guān)系,并判斷每個事件對的關(guān)系方向。事件同指消解是將同一事件的不同表達進行合并,形成一致性表達。事件泛化是將具體的事件實例抽象化,并計算事件轉(zhuǎn)移概率,形成更通用的事件類型或模式,以便發(fā)現(xiàn)更為一般的演化規(guī)律和發(fā)展邏輯。在知識抽取和融合基礎(chǔ)上,借助圖數(shù)據(jù)庫的事件和關(guān)系表示構(gòu)建可視化抽象事理圖譜,輔助節(jié)點及邊的轉(zhuǎn)移概論計算實現(xiàn)事件的演化和推理。
3.2.2 事理圖譜構(gòu)建技術(shù)
主要包含#3、#5、#7等聚類群,涵蓋深度學(xué)習(xí)、注意力機制、實體抽取、事件表示等關(guān)鍵詞。構(gòu)建事理圖譜的關(guān)鍵技術(shù)在于事件抽取及事件關(guān)系抽取技術(shù),主要涉及模式匹配、機器學(xué)習(xí)或深度學(xué)習(xí)等方法?;谀J狡ヅ浞ǖ氖录槿∫蕾囉谑孪榷x的事件模板和抽取匹配規(guī)則,如ACE2005定義的8類事件類別及下屬子類別的事件模板;借鑒復(fù)用領(lǐng)域本體結(jié)合實際需要靈活構(gòu)建模板等,如白璐等[9]歸納了16類政治事件,提出了政治領(lǐng)域事件標注模板,主要由事件類型、觸發(fā)詞、論元3部分組成。對于規(guī)則模板的依賴使得模式匹配法往往適用于某一特定領(lǐng)域,在其他領(lǐng)域的移植性和擴展性較差。機器學(xué)習(xí)方法則是將事件抽取任務(wù)轉(zhuǎn)換成分類問題,利用支持向量機、最大熵等模型識別事件觸發(fā)詞并對其進行分類。此外,事件抽取也可以被建模成為一個序列標注任務(wù),利用條件隨機場(CRF)模型對給定序列進行標注實現(xiàn)事件抽取。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)、圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)、雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)、Transformer等神經(jīng)網(wǎng)絡(luò)模型也被應(yīng)用于事件抽取任務(wù),借助神經(jīng)網(wǎng)絡(luò)強大的表征學(xué)習(xí)能力和上下文理解能力自動提取上下文語義特征,識別事件間隱含關(guān)系。目前,深度學(xué)習(xí)方法是事件抽取的主流方法,尤其是基于Transformer的預(yù)訓(xùn)練語言模型BERT在事件抽取中廣受青睞。
在事件關(guān)系抽取上,關(guān)注較多的是因果關(guān)系和順承關(guān)系(或時序關(guān)系)的抽取。傳統(tǒng)上根據(jù)規(guī)則模板中顯示關(guān)系詞,輔助依存句法分析抽取顯式邏輯關(guān)系對,如王翊臻等[10]采用模式匹配法,總結(jié)了4類順承關(guān)聯(lián)詞,設(shè)計了順承關(guān)系句法模式和抽取規(guī)則,抽取了游記文本中的顯式順承關(guān)系子句。由于模式匹配的關(guān)系抽取難以識別規(guī)則之外的復(fù)雜文本潛在、隱式關(guān)系,當前事件關(guān)系抽取多采用神經(jīng)網(wǎng)絡(luò)的方法,或融合模板匹配和深度學(xué)習(xí)的方法來達到理想的事件關(guān)系抽取目的,在具體的模型應(yīng)用上圖推理機制和注意力機制在顯式關(guān)系和隱式關(guān)系抽取中表現(xiàn)出較好的效能。如金方焱等[11]提出了基于自注意力機制的融合RACNN和BiLSTM的模型用于金融領(lǐng)域事件隱式因果關(guān)系抽取,有效提升了事件關(guān)系抽取的準確性。
3.2.3 事理圖譜實踐應(yīng)用
主要包括#2、#5、#6、#10等聚類群,涵蓋航空安全事故、意圖識別、重大突發(fā)事件、教學(xué)行為、教師信息技術(shù)應(yīng)用能力等關(guān)鍵詞。事理圖譜對事件及事件關(guān)系的挖掘,構(gòu)建出一個概率有向圖,形成了一個可游走、可推理的網(wǎng)絡(luò),使得事理圖譜在輿情預(yù)警、應(yīng)急管理、智能推薦、課堂教學(xué)等領(lǐng)域有著巨大應(yīng)用價值。在輿情預(yù)警方面,通過構(gòu)建事理圖譜可以進行輿情推演預(yù)測工作,對輿情進行綜合研判定義事件等級,發(fā)布預(yù)警建議,從而為輿情管控提供支持[12]。在應(yīng)急管理領(lǐng)域,通過事故災(zāi)難的演化分析,為事故救援協(xié)同調(diào)度、事故善后處理等應(yīng)急響應(yīng)提供決策支持[13]。在智能推薦方面,利用事理圖譜挖掘識別用戶意圖并進行預(yù)測,使得個性化信息推薦更加智能與準確,如旅游路線推薦[14]或在線社區(qū)健康信息推送[15]。在教育領(lǐng)域,基于事件順承關(guān)系構(gòu)建的教學(xué)行為事理圖譜被廣泛應(yīng)用在教育能力測評、教學(xué)行為分析上,通過滯后時序分析計算順承事件的轉(zhuǎn)移概率幫助教師掌握教學(xué)規(guī)律,更好地促進課題教學(xué)[16]。
4 結(jié)語
相比于實體與關(guān)系的描述,專注于事件和事件間關(guān)系表示與學(xué)習(xí)的事理圖譜儼然已成為新一代動態(tài)知識圖譜。事理圖譜在事件邏輯關(guān)系演化和推理方面展現(xiàn)出的潛力為理解、預(yù)警和預(yù)測事件發(fā)展帶來巨大應(yīng)用價值。雖然事理圖譜構(gòu)建與推斷分析研究已經(jīng)取得了一些成果, 但從總體來看,事理圖譜研究還在成長階段,研究主體為圖書情報學(xué)科或計算機科學(xué)與技術(shù)學(xué)科,以機構(gòu)內(nèi)合作為主,尚未形成緊密的科研合作網(wǎng)絡(luò)。從研究內(nèi)容看,以限定域的事理圖譜構(gòu)建應(yīng)用為主,缺乏對理論闡述和框架構(gòu)建的研究。事件抽取聚焦在特定場景特定任務(wù)中,其事件抽取成果難以在其他領(lǐng)域推廣應(yīng)用,未來有必要探索標準的、通用的事件定義和表示框架標準,適用于開放領(lǐng)域的事理圖譜研究。當前,事件關(guān)系抽取與圖譜呈現(xiàn)以因果和順承關(guān)系為主,然而真實世界的事件往往具有復(fù)雜性,多種邏輯關(guān)系并存,因此對隱含的復(fù)雜關(guān)系揭示是事理圖譜面臨的一大挑戰(zhàn)。未來還需要更多的學(xué)者進一步投入這個領(lǐng)域開展研究,逐步明晰事理圖譜的體系框架,攻關(guān)技術(shù)難題,使事理圖譜在實踐應(yīng)用中發(fā)揮更大的價值。
參考文獻
[1]李華昱,畢經(jīng)綸,閆陽.限定域中文事件抽取研究綜述[J].計算機工程與應(yīng)用,2022(18):43-58.
[2]劉煥勇.我們的實踐:事理圖譜,下一代知識圖譜[EB/OL].(2018-12-25)[2024-08-15]. https://blog.csdn.net/lhy2014/article/details/85247268.
[3]田玲,張謹川,張晉豪,等.知識圖譜綜述:表示、構(gòu)建、推理與知識超圖理論[J].計算機應(yīng)用,2021(8):2161-2186.
[4]LI Z Y, ZHAO S D, DING X, et al. EEG: knowledge base for event evolutionary principles and patterns[C]//Social Media Processing. Singapore: Springer Singapore, 2017: 40-52.
[5]王軍平,張文生,王勇飛,等.面向大數(shù)據(jù)領(lǐng)域的事理認知圖譜構(gòu)建與推斷分析[J].中國科學(xué):信息科學(xué),2020(7):988-1002.
[6]陳曉鈺,馬海群.開放政府數(shù)據(jù)領(lǐng)域文獻計量學(xué)相關(guān)定律實證分析[J].圖書館研究與工作,2022(4):26-36.
[7]趙星,高小強,郭吉安,等.基于主題詞頻和g指數(shù)的研究熱點分析方法[J].圖書情報工作,2009(2):59-61.
[8]CHEN C M.CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology, 2006(3):359-377.
[9]白璐,周子雅,李斌陽,等.面向政治領(lǐng)域的事理圖譜構(gòu)建[J].中文信息學(xué)報,2021(4):66-74.
[10]王翊臻,云紅艷,李正民.旅游順承事理圖譜的構(gòu)建及應(yīng)用研究[J].青島大學(xué)學(xué)報(自然科學(xué)版),2022(1):34-39.
[11]金方焱,王秀利.融合RACNN和BiLSTM的金融領(lǐng)域事件隱式因果關(guān)系抽?。跩].計算機科學(xué),2022(7):179-186.
[12]王蘭成,張思龍,許和旭.網(wǎng)絡(luò)輿情事理圖譜構(gòu)建及應(yīng)用[J].中華醫(yī)學(xué)圖書情報雜志,2021(5):17-23.
[13]寧慧涵,眭海剛,王金地,等.顧及時空關(guān)系的事故災(zāi)難事理圖譜構(gòu)建方法研究[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2024(5):831-843.
[14]吳曉丹.融合事理圖譜與知識圖譜的旅游路線推薦方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2021.
[15]張玉潔,丁翔宇.基于事理圖譜下社交媒體重疾知識型行為推薦算法研究[J].現(xiàn)代信息科技,2023(16):151-154.
[16]卜凡麗,唐燁偉,趙一婷,等.跨學(xué)科教學(xué)能力測評事理圖譜:內(nèi)涵、表征與模式[J].電化教育研究,2024(11):108-114.
(編輯 姚 鑫)
Progress and prospects of domestic event logic graph research:visual analysis based on CiteSpace
CAO" Mengyue
(Library, Central China Normal University, Wuhan 430079, China)
Abstract:" As a new knowledge representation method, the event logic graph focuses on the dynamic knowledge research of events and their relationships, which has attracted the attention of many scholars in China. Starting from the perspective of bibliometrics, this article uses tools such as CiteSpace and SATI3.2 to analyze the trend of research publications related to the event logic graph, the collaborative network of authors and institutions, high-frequency keywords, and research hotspots, and explore the research trends of event logic graph in China. The analysis results indicate that the current research on event logic graph is still in its growth stage, mainly focused on local collaborative research, and has not yet formed a close scientific research cooperation network. The research topics focus on the construction process of event logic graph, key construction technologies, and practical applications.
Key words: event logic graph; bibliometrics; CiteSpace
作者簡介:曹孟月(1997—),女,助理館員,碩士;研究方向:文獻計量。