張 衛(wèi),王 昊,鄧三鴻,張寶隆
(1.南京大學(xué)信息管理學(xué)院,南京210023;2.江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室(南京大學(xué)),南京210023)
數(shù)據(jù)驅(qū)動時代,電子政務(wù)信息作為我國政府機構(gòu)的戰(zhàn)略性資源,正伴隨著自動化辦公與社會管理的革新與日俱增。2019年,中央部委成功打通了42個國務(wù)院部門垂直管理信息系統(tǒng)[1],而地方平臺“云上貴州”更是以1387TB的數(shù)據(jù)量實現(xiàn)了省市縣政府9728個部門政務(wù)系統(tǒng)的對接[2]。不難發(fā)現(xiàn),海量電子政務(wù)信息資源在開放共享中日益表現(xiàn)出多源異構(gòu)的特征,這使得傳統(tǒng)的以電子政務(wù)主題詞表為核心的政務(wù)術(shù)語知識體系的不足也越發(fā)凸顯,其特點主要表現(xiàn)為3個方面:①基于內(nèi)容主題的術(shù)語層次較淺。就國內(nèi)具有代表性的《綜合電子政務(wù)主題詞表》而言,其范疇表依據(jù)主題內(nèi)容劃分為21個知識范疇,雖然涉及政務(wù)領(lǐng)域廣,但是術(shù)語層次較淺(僅至3級)。②基于結(jié)構(gòu)關(guān)系的術(shù)語層次缺失。詞表內(nèi)諸多層次術(shù)語具有結(jié)構(gòu)包含關(guān)系(如“保衛(wèi)”與“安全保衛(wèi)”),但尚不全面。③術(shù)語層次關(guān)聯(lián)缺少語料支持。過去在缺少政務(wù)語料的條件下,只能采取人工構(gòu)建詞表的方式。隨著電子政務(wù)的發(fā)展,公眾對政府工作的參與性顯著提高,一方面通過網(wǎng)絡(luò)百科以標準化的形式了解政務(wù)知識;另一方面借助社交媒體關(guān)注實時的政務(wù)信息資源。這些都在當下催生出大量政務(wù)語料,也為在缺少語料庫條件下形成的詞表開拓了較大的術(shù)語層次優(yōu)化空間。
由此可見,傳統(tǒng)詞表中的電子政務(wù)術(shù)語由于缺少在大規(guī)模語料支持下對層次范疇和語義邏輯的深層優(yōu)化[3],難以在大數(shù)據(jù)時代適應(yīng)電子政務(wù)信息資源的標引、檢索以及組織工作,這就使得從語義角度自動化識別電子政務(wù)術(shù)語的深層關(guān)聯(lián)顯得尤為重要。
本體作為語義網(wǎng)體系內(nèi)一種有效的知識組織方式,可以在信息系統(tǒng)的整合過程中將資源解析為機器所能理解的知識,通過語義驅(qū)動實現(xiàn)信息資源在網(wǎng)絡(luò)環(huán)境內(nèi)的交換與共享[4]。因此,本研究以本體學(xué)習(xí)6層次理論[5]中的概念層次為指導(dǎo),采用電子政務(wù)主題詞作為術(shù)語集,首先通過對網(wǎng)絡(luò)百科語料中提取的內(nèi)容特征采取聚類的方式生成具備高召回率的概念層次,稱為基于內(nèi)容的層次關(guān)系;其次,借助術(shù)語共現(xiàn)理論[6]對社交媒體語料建立概念格結(jié)構(gòu)生成具有高準確率的概念層次,稱為基于結(jié)構(gòu)的層次關(guān)系;最后,將二者相融合,以前者為整體框架、后者為修正指導(dǎo),從而形成了一整套電子政務(wù)術(shù)語本體構(gòu)成方案,所形成的電子政務(wù)本體將在信息檢索與推薦、跨部門協(xié)同共享、政務(wù)知識發(fā)現(xiàn)等實際應(yīng)用中提供支持。
采取內(nèi)容與結(jié)構(gòu)相融合的方法,對電子政務(wù)術(shù)語層次關(guān)系進行識別工作的研究基礎(chǔ)主要包括兩個方面:電子政務(wù)術(shù)語層次的組織工作和術(shù)語層次關(guān)系的識別方法。
就我國電子政務(wù)術(shù)語層次的組織工作而言,具有代表性的是中國科學(xué)技術(shù)信息研究所于2005年編制完成的《綜合電子政務(wù)主題詞表》,該詞表由字順表與范疇表所組成,是迄今為止國內(nèi)收詞量最多、專業(yè)覆蓋面最廣的政務(wù)主題詞表[7]。然而,由于詞表由來已久,而且電子政務(wù)信息資源開放共享的訴求日趨強烈[8],學(xué)者們也逐步展開了對詞表的改進工作。賈君枝等[9]運用FAST主題詞分面對詞表進行分面式改造以契合公眾檢索需求。王汀等[10]則基于詞表與百科提出了面向大規(guī)模本體的自動化擴充方案。目前,尚未有學(xué)者對詞表的層次體系進行補充擴展抑或延伸細化??紤]到在缺少語料庫下人工構(gòu)建詞表的主觀性以及現(xiàn)有層次關(guān)系的不完備性[11],例如,在字順表內(nèi),結(jié)構(gòu)層面的術(shù)語“保衛(wèi)工作”并未像“安全保衛(wèi)”那樣歸置為“保衛(wèi)”的下位類,也沒有從內(nèi)容層面細化“安全保衛(wèi)”與“保衛(wèi)工作”二者術(shù)語間的語義聯(lián)系。因此,本文將基于范疇表的知識體系,通過大規(guī)模語料識別內(nèi)容與結(jié)構(gòu)層面的術(shù)語層次關(guān)系,形成具備深層樹狀結(jié)構(gòu)的電子政務(wù)術(shù)語本體。
就本體中術(shù)語層次關(guān)系的識別方法來說,主要包括基于規(guī)則模板的方法與基于統(tǒng)計的方法[12]?;谝?guī)則模板的方法往往與句法依存分析[13]相結(jié)合,需要人工制定語言模板,在面向大規(guī)模非結(jié)構(gòu)化文本所能獲取的層次關(guān)系較為有限[14]。此外,不同領(lǐng)域所制定的模板方案在相互間的可移植性不高[15],這也不利于規(guī)則模板的推廣。因此,本研究對電子政務(wù)術(shù)語層次關(guān)系的識別工作將基于統(tǒng)計的方法展開。由于采取不同的統(tǒng)計方法能夠分別識別內(nèi)容與結(jié)構(gòu)兩者層面上的術(shù)語層次關(guān)系,故將其劃分為與之對應(yīng)的兩個角度:內(nèi)容角度和結(jié)構(gòu)角度。
內(nèi)容角度,是指通過對文檔內(nèi)容所解析出的向量空間進行聚類以達至對術(shù)語聚類的目的。該方法由于對識別術(shù)語關(guān)聯(lián)性具有較高的召回率而得到廣泛應(yīng)用,具體包括:層次聚類[16]、K-means聚類[17]、DBSCAN聚類[18]等。然而,這些方法在大規(guī)模術(shù)語層次關(guān)系的識別中均具有一定局限。如層次聚類是一種小規(guī)模高精度的聚類算法;K-means運行結(jié)果具有較大的隨機性;DBSCAN聚類易將大量獨立點判斷成噪聲,不適合高維稀疏數(shù)據(jù)。相較之下,源于圖論思想的譜聚類[19]逐漸受到學(xué)界的推崇,其核心思想是通過降維將高維空間的數(shù)據(jù)映射到低維,從而實現(xiàn)對樣本數(shù)據(jù)特征向量的聚類,面對高維稀疏矩陣能夠?qū)崿F(xiàn)精準且穩(wěn)定的劃分效果,適用于從內(nèi)容角度識別術(shù)語層次關(guān)系。
結(jié)構(gòu)角度,是指在術(shù)語共現(xiàn)理論的指導(dǎo)下通過形式概念分析(formal concept analysis,F(xiàn)CA)建立能夠抽取出層次關(guān)系的概念格結(jié)構(gòu)。該方法由于具備較高的準確率,在術(shù)語層次識別中也有不俗的表現(xiàn)。如de Farias等[20]通過FCA對巴西莫索羅市犯罪記錄數(shù)據(jù)進行分析并建立具有犯罪模式的概念格,以期規(guī)劃預(yù)防和打擊犯罪的戰(zhàn)略。王昊等[21]以“白血病”為例借助FCA實現(xiàn)了中文醫(yī)學(xué)領(lǐng)域本體層次結(jié)構(gòu)自動構(gòu)建的有效方法,并對面向?qū)W科資源的醫(yī)學(xué)專業(yè)術(shù)語層次關(guān)聯(lián)的抽取進行了詳細論證。
對兩者進行比較。從內(nèi)容角度采取聚類的方式識別層次關(guān)系,有利于提高術(shù)語關(guān)聯(lián)的召回率,但準確率無法得到較好的保障;從結(jié)構(gòu)角度采取FCA方法,能夠有效地提高術(shù)語層次間的準確性,但由于概念格結(jié)構(gòu)相對復(fù)雜使得層次關(guān)系的識別過于嚴格,導(dǎo)致在層次關(guān)系的抽取中會遺漏掉很多上下位關(guān)系??梢园l(fā)現(xiàn),采取基于內(nèi)容或結(jié)構(gòu)的統(tǒng)計方法各有利弊,然而尚未有研究將兩者方法整合以優(yōu)化術(shù)語層次關(guān)系的識別效果。
綜上所述,在電子政務(wù)術(shù)語的組織工作中,鮮有學(xué)者基于大規(guī)模語料對內(nèi)容與結(jié)構(gòu)層面的術(shù)語層次體系進行擴展延伸,更鮮有研究將基于內(nèi)容和結(jié)構(gòu)的統(tǒng)計方法相融合對術(shù)語層次關(guān)系的識別效果進行優(yōu)化改進。因此,本文擬將基于大規(guī)模語料從內(nèi)容與結(jié)構(gòu)雙重視角識別電子政務(wù)術(shù)語層次關(guān)聯(lián),以前者生成的基于內(nèi)容的層次關(guān)系為整體框架,以后者生成的基于結(jié)構(gòu)的層次關(guān)系為修正指導(dǎo),形成一個兼顧層次關(guān)聯(lián)召回率與準確率的電子政務(wù)領(lǐng)域術(shù)語本體。
本研究所采用的方法是針對電子政務(wù)術(shù)語所檢索到的自然語言文本,從內(nèi)容和結(jié)構(gòu)雙重視角識別電子政務(wù)領(lǐng)域中文術(shù)語層次關(guān)系的邏輯流程,如圖1所示。
圖1 電子政務(wù)中文術(shù)語層次關(guān)系識別的邏輯流程
由圖1可知,電子政務(wù)中文術(shù)語層次關(guān)系的識別主要包括3個模塊:①基于內(nèi)容的層次關(guān)系識別。從內(nèi)容特征的角度識別層次關(guān)系需要保證文檔內(nèi)容對電子政務(wù)術(shù)語內(nèi)涵的支撐度,故采用網(wǎng)絡(luò)百科作為語料,按照術(shù)語列表依次獲取百科文檔;隨后,構(gòu)建詞袋模型從文檔內(nèi)容中提取關(guān)鍵詞特征,獲得文檔-詞語矩陣(document word matrix,DWM),并根據(jù)術(shù)語與百科文檔間的獨立匹配關(guān)系將其轉(zhuǎn)化為術(shù)語-詞語矩陣(term word matrix,TWM);接著,使用降維所確定的聚類數(shù)目與TWM所提取的拉普拉斯矩陣(Laplacian matrix,LM)進行譜聚類劃分矩陣類簇,并形成TWM子矩陣;進一步,對子矩陣進行余弦相似度計算以獲取術(shù)語之間的相似度,采用社會網(wǎng)絡(luò)分析(social network analysis,SNA)計算術(shù)語中心度,并將中心度較高的術(shù)語作為子矩陣的類目標簽;最后,使用多層譜聚類的方式,形成一個初步具備理論內(nèi)涵的層次框架。②基于結(jié)構(gòu)的層次關(guān)系識別??紤]到識別基于結(jié)構(gòu)的層次關(guān)系有賴于在每篇文檔中不同術(shù)語之間的共現(xiàn)屬性,可用于揭示實踐場景中電子政務(wù)術(shù)語間的應(yīng)用情況,故采用社交媒體文檔作為語料,并按照術(shù)語列表依次檢索、爬?。浑S后,通過在社交媒體文檔內(nèi)術(shù)語的共現(xiàn)匹配建立形式化背景,并以<文檔-術(shù)語-權(quán)重>三元組的格式存儲;接著,將三元組轉(zhuǎn)化為文檔-術(shù)語矩陣(document term matrix,DTM),使用FCA建立電子政務(wù)術(shù)語的概念格結(jié)構(gòu),并從中抽取出更為精細且具備實踐特性的層次關(guān)系。③語義融合。將基于內(nèi)容與基于結(jié)構(gòu)的層次關(guān)系相融合使其互為擴展、修正,便構(gòu)成了更為完整、準確的電子政務(wù)術(shù)語本體,通過OWL結(jié)構(gòu)存儲即可開展多元的電子政務(wù)知識服務(wù)。下文將對整套流程中所采用的具體方法展開闡述。
從內(nèi)容的角度通過聚類識別電子政務(wù)術(shù)語的層次關(guān)系,需要深入網(wǎng)絡(luò)百科文檔對單個術(shù)語的釋義提取內(nèi)涵特征,同時,要避免單個特征的力度過大,故采用TF-IDF構(gòu)建電子政務(wù)術(shù)語內(nèi)容文本的詞袋模型[22],提取并統(tǒng)計出每個電子政務(wù)術(shù)語所對應(yīng)的釋義文檔中相對于整體語料文檔區(qū)分度較高的關(guān)鍵詞及其權(quán)重,以此作為特征量化其在每個文檔中的重要度。其中,單個文檔的關(guān)鍵詞及關(guān)鍵詞權(quán)重能夠形成一個權(quán)重向量,即文檔特征向量,所有文檔特征向量的集合便構(gòu)建了電子政務(wù)領(lǐng)域的DWM,而由于每個電子政務(wù)術(shù)語能夠與其釋義文檔獨立匹配,故DWM亦可轉(zhuǎn)換為TWM,后續(xù)聚類工作將基于TWM展開。
從結(jié)構(gòu)的角度通過FCA識別層次關(guān)系,需要統(tǒng)計出所有術(shù)語在每條社交媒體文檔內(nèi)的共現(xiàn)情況,故而采取函數(shù)匹配判斷單個社交媒體文檔內(nèi)所有術(shù)語是否出現(xiàn),若出現(xiàn)統(tǒng)計為1,否則為0。若在一篇文檔內(nèi)不止一個術(shù)語出現(xiàn),則稱為術(shù)語共現(xiàn)[23]。其中,單個文檔內(nèi)術(shù)語集合的共現(xiàn)情況能夠形成一個向量,所有文檔向量的集合便構(gòu)建了存儲<文檔-術(shù)語-權(quán)重>三元組的電子政務(wù)領(lǐng)域DTM,后續(xù)FCA工作將基于DTM展開。
對電子政務(wù)術(shù)語TWM聚類之前需要確定聚類數(shù)目,目前受到學(xué)界認可的自動化處理方式是將矩陣降維至二維或三維空間,通過可視化輔助聚類數(shù)目的判斷[24]。
(1)主成分分析(principal component analysis,PCA)是一種對高維數(shù)據(jù)進行線性降維的方法[25],將高維特征映射到低維正交特征上,計算數(shù)據(jù)在正交特征上投影的方差,方差越大,正交特征包含的信息量越多,刪去小特征值方向上的數(shù)據(jù)即可達到降維效果。
(2)T分布隨機鄰域嵌入(T-distributed stochas‐tic neighbor embedding,T-SNE)是一種非線性降維算法[26],通過高維數(shù)據(jù)點之間的概率分布使得相似對象有更高的概率被選中,同時,將對象點映射至低維空間構(gòu)建概率分布,使兩者盡可能相似以達到降維的效果。
首先,用數(shù)據(jù)點間的條件概率表示相似度,以xi為中心構(gòu)建高斯分布(方差為σi),則有高維空間中任意兩點xi、xj間的相似性pj|i均可使得鄰域內(nèi)的點(k)相似性較大,如公式(1)所示:
其次,為克服數(shù)據(jù)點間的“擁擠問題”,對高維數(shù)據(jù)點分布實行對稱化使其與采用t分布的低維概率分布矩陣對稱,用高維空間數(shù)據(jù)點對xi、xj和映射的低維空間重組的數(shù)據(jù)點對yi、yj之間的聯(lián)合概率pij、qij分別表示數(shù)據(jù)點之間的相似度,如公式(2)所示:
再次,采用KL散度(Kullback-Leibler diver‐gence)作為目標函數(shù)測度兩種分布之間的差異,利用隨機梯度計算的方法優(yōu)化迭代目標函數(shù),目標函數(shù)與梯度計算的判別式分別為
最后,T-SNE使用困惑度(prep)描述樣本點的有效近鄰點個數(shù),其通過二分搜索的方式尋找最佳方差,計算公式為
其中,H(pi)是pi的香農(nóng)熵,用來度量樣本數(shù)據(jù)的不確定性。熵值越大,困惑度越大,領(lǐng)域數(shù)據(jù)點的數(shù)量越多,相互之間的概率也越接近。
綜上所述,PCA算法運行高效但特征值分解具有一定局限,降維主元并不一定最優(yōu);T-SNE精確性更優(yōu),而高復(fù)雜度計算會導(dǎo)致訓(xùn)練時間過長。因此,可先行使用PCA對TWM進行線性降維,若降維效果不佳,則進一步采取T-SNE開展非線性降維。
在聚類數(shù)目的指導(dǎo)下,可對電子政務(wù)術(shù)語百科文本的TWM進行譜聚類劃分術(shù)語類簇。譜聚類是一種源于圖論思想的聚類算法,將集中的數(shù)據(jù)點視為無向加權(quán)圖的頂點,從而讓數(shù)據(jù)點之間的相似關(guān)系轉(zhuǎn)化為無向圖的加權(quán)邊,使得數(shù)據(jù)集的聚類轉(zhuǎn)化為無向加權(quán)圖的切分問題[27]。譜聚類的核心在于對數(shù)據(jù)集LM的特征向量進行聚類,以達到更為精準的劃分效果,具體步驟如下:
Step1.輸 入 數(shù) 據(jù) 集TWM={v1,v2,…,vm},聚 類 數(shù)目為l。
Step2.將數(shù)據(jù)集圖譜化,定義任意兩點vi、vj之間的權(quán)重wij來表示兩點之間的相似度,當數(shù)據(jù)點間有連接邊時,wij>0;否則,wij=0,且無向圖的性質(zhì)使得wij=wji。此外,圖形的邊權(quán)重通過高斯距離獲得,計算公式為
Step3.通過數(shù)據(jù)集的邊權(quán)重計算相似度矩陣Sm與對角矩陣Dm,以此構(gòu)建拉普拉斯矩陣(Lm),并將其進行標準化處理(Lstd):
Step4.計算并獲取Lstd前e個最大的特征值與特征向量,將特征向量作為列向量進行集合得到矩陣um×e={u1,u2,…,ue},并對其規(guī)范化得到新矩陣Tm×e,規(guī)范公式為
Step5.對Tm×e的 行 向 量 使 用K-means聚類,輸出類簇C1,C2,…,Cl,各類簇內(nèi)的術(shù)語為通過聚類所劃分的電子政務(wù)術(shù)語集合。
因此,通過譜聚類可構(gòu)建電子政務(wù)術(shù)語TWM的無向加權(quán)圖,并計算LM開展后續(xù)聚類工作,以達到從內(nèi)容層面劃分電子政務(wù)術(shù)語類簇的目的。
在劃分了電子政務(wù)術(shù)語類簇后,緊接著就是提取每個類簇的類目標簽。首先,針對譜聚類所切分TWM的 類 簇C1,C2,…,Cl提 取 出 子 矩 陣TWM1,TWM2,…,TWMl。其次,在每個子矩陣內(nèi)以詞語為屬性構(gòu)建術(shù)語特征向量,通過余弦算法計算術(shù)語特征向量的相似度,獲得表示術(shù)語間相似度的術(shù)語-術(shù)語矩 陣(term-term matrix,TTM)TTM1,TTM2,…,TTMl。最后,將TTM輸入社會網(wǎng)絡(luò)工具借助SNA計算各子矩陣內(nèi)的術(shù)語中心度,提取中心度較高的術(shù)語作為子矩陣的類目標簽,即類簇C1,C2,…,Cl的標簽。
FCA是一種數(shù)學(xué)語言驅(qū)動的本體概念構(gòu)建方法,概念所有對象的集合被認定為概念的外延,而其中公共屬性的集合被稱為概念的內(nèi)涵。從中抽取包括內(nèi)涵和外延在內(nèi)的概念層次結(jié)構(gòu),稱為概念格結(jié)構(gòu)模型[28]。因此,采取FCA便能夠利用對象(政務(wù)文本)與屬性(政務(wù)術(shù)語)之間的二元關(guān)系抽取出基于結(jié)構(gòu)的層次關(guān)系。
若電子政務(wù)術(shù)語集合A(屬性)、社交媒體文檔集合O(對象)以及二者間的關(guān)系R共同構(gòu)建了一個三元組B=(A,O,R),其中,aRo表示在對象o∈O中有屬性a∈A,將三元組B進行轉(zhuǎn)化獲得電子政務(wù)DTM。
那么,在三元組B中,對O、A的冪集定義兩個映射f和h如下:
公式(8)反映了對象集合(Oi)中的共同屬性以及相同屬性(Aj)中的所有對象。此時,若f(Oi)=Aj且h(Aj)=Oi,則認為C=(Oi,Aj)是以O(shè)i為外延、Aj為內(nèi)涵的概念。
若對 于概念C1=(O1,A1)、C2=(O2,A2)有A1?A2,則稱C2是C1的子概念,而這種父子關(guān)系便形成了層次序以揭示概念間的層次關(guān)系。
實質(zhì)上,概念間的父子關(guān)系的判斷是推理DTM內(nèi)以文檔為特征的術(shù)語向量間的包含關(guān)系。因此,采取求與運算實現(xiàn)FCA判斷DTM內(nèi)術(shù)語向量間的父子關(guān)系,可識別基于結(jié)構(gòu)的電子政務(wù)術(shù)語層次關(guān)系。
在將基于內(nèi)容與基于結(jié)構(gòu)的層次關(guān)系進行融合之后,便可以從擴展與修正兩個角度優(yōu)化電子政務(wù)術(shù)語語義融合的上下位關(guān)系,并提煉出4種典型的融合類別,如表1所示。
表1 語義融合類別
在表1中,語義融合的類別主要包括:①上位擴展,即不同的上位術(shù)語(A、B)指向同一個下位術(shù)語(C),以擴展下位詞的上位概念;②下位擴展,即代表一個上位術(shù)語(A)同時指向不同的下位術(shù)語(B、C),以擴展上位詞的下位概念;③上下位擴展,即通過同一個術(shù)語(B)將其上位術(shù)語(A)與下位術(shù)語(C)融合,以擴展上下位概念;④上下位修正,即以FCA結(jié)果為準,對沖突的上下位關(guān)系(A→B、B→A)開展進一步修正。
對電子政務(wù)術(shù)語層次關(guān)系優(yōu)化之后,緊接著就是對所識別術(shù)語層次關(guān)系的召回率與準確率進行評價。如前文所述,現(xiàn)有的標準化主題詞表中,術(shù)語間層次關(guān)系尚存不足,不利于對基于語料庫所識別的術(shù)語層次關(guān)系進行評判。因此,本文將訴諸電子政務(wù)領(lǐng)域?qū)<覍πg(shù)語層次關(guān)系的召回率與準確率進行評價,計算公式為其中,R表示基于術(shù)語實體進行抽樣評價所獲取的召回率;P表示基于術(shù)語關(guān)系進行抽樣評價所獲得的準確率。其中,基于術(shù)語實體進行抽樣評價,是指隨機抽取特定數(shù)量的電子政務(wù)術(shù)語。根據(jù)術(shù)語集內(nèi)所識別出的上下位關(guān)系,領(lǐng)域?qū)<乙环矫嬖u價得到正確識別的術(shù)語層次(TP_entity);另一方面給出術(shù)語集內(nèi)尚未識別出的層次關(guān)系(FN_entity),以此計算得出R。同時,由于當抽取的術(shù)語集中層次關(guān)聯(lián)的數(shù)量較少時會影響準確率的計算精度,故基于術(shù)語關(guān)系隨機抽取特定數(shù)量的層次關(guān)聯(lián)(TP_relation+FP_relation),并由領(lǐng)域?qū)<以u價得出正確識別的數(shù)量(TP_relation),以此計算得到P。
將基于內(nèi)容、結(jié)構(gòu)和融合所得的層次關(guān)系通過OWL語言進行存儲形成電子政務(wù)知識結(jié)構(gòu)。OWL存儲語法 主要有<owl:Class>和<rdfs:SubClassOf>兩種形式[29]。其中,前者用于定義類,后者用于描述類之間的父子關(guān)系,包含兩種知識存儲方法,如圖2所示。
由圖2可知,第一種方法(圖2a)利用語法(10)先行定義父類術(shù)語“保衛(wèi)”,隨后通過式(11)在定義子類術(shù)語“安全保衛(wèi)”的同時規(guī)定二者間的父子關(guān)系;第二種方法(圖2b)運用語法(12)在定義子類的同時定義父類,并描述二者間的父子關(guān)系。第一種編碼語法與第二種編碼語法均可表示“保衛(wèi)”為“安全保衛(wèi)”的上位類,即采用任意一種均可對識別出的電子政務(wù)術(shù)語層次關(guān)系編碼。將所有上下位知識結(jié)構(gòu)存儲為OWL文件,并使用Protégé打開,即可對電子政務(wù)領(lǐng)域術(shù)語的層次關(guān)系進行展示。
圖2 電子政務(wù)術(shù)語層次關(guān)系編碼
本文以《綜合電子政務(wù)主題詞表》內(nèi)“政法、監(jiān)察”類主題詞為術(shù)語集,采用第3節(jié)的邏輯方法,運用Python 3.7、Matlab 2017、Gephi 0.9.2、Protégé5.0等工具,分別從內(nèi)容和結(jié)構(gòu)的識別術(shù)語間的層次關(guān)系,將兩者結(jié)果融合為電子政務(wù)本體以開展深入分析。
基于內(nèi)容層面識別電子政務(wù)術(shù)語層次關(guān)系需要訴諸網(wǎng)絡(luò)百科語料,其中百度百科憑借其詞條收錄數(shù)量、開放編輯機制、搜索引擎用戶基礎(chǔ)等方面的優(yōu)勢已經(jīng)成為全球最大的中文網(wǎng)絡(luò)百科[30],更利于揭示中文領(lǐng)域的術(shù)語知識內(nèi)涵。因此,按照術(shù)語集列表依次檢索并爬取了所有術(shù)語的百度百科,爬取時間為2019年10月3日,在進行數(shù)據(jù)清洗后得到與術(shù)語匹配的1378個釋義文本。接下來,對內(nèi)容層面層次關(guān)系的識別將基于該文檔展開。
(1)電子政務(wù)TWM構(gòu)建。由于詞表已根據(jù)主題內(nèi)容將“政法、監(jiān)察”類術(shù)語劃分為5個二級范疇,故基于此分類標準通過TF-IDF模型分別構(gòu)建這5類術(shù)語集的TWM,一共得到包括“綜合用語”(232×1605)、“公安”(384×1949)、“司法”(522×2320)、“監(jiān)察”(144×629)、“國家安全”(96×426)在內(nèi)的16114個術(shù)語-詞語關(guān)聯(lián)權(quán)重。
(2)PCA與T-SNE聯(lián)合輔助聚類數(shù)目確定。首先,對TF-IDF算法所生成的電子政務(wù)TWM進行PCA降維,將高維矩陣降至2維以展現(xiàn)術(shù)語在平面上的分布,從而輔助聚類數(shù)目的確定。若PCA線性降維的效果不佳,則進一步采取T-SNE非線性降維。以“司法”類術(shù)語為例,結(jié)果如圖3所示。
由圖3可知,“司法”類術(shù)語特征的PCA降維結(jié)果表明,電子政務(wù)術(shù)語在二維空間內(nèi)分布較不均衡,不利于對術(shù)語聚類數(shù)目的可視化劃分;而TSNE降維能夠使得術(shù)語在文本空間內(nèi)達到較好的分布效果。通過可視化不難發(fā)現(xiàn),“司法”類術(shù)語的聚類數(shù)目可設(shè)定為5,其余類簇在確定向下細分的類目時均參照此種方法。
(3)基于內(nèi)容的層次關(guān)系生成。在降維所得聚類數(shù)目的指導(dǎo)下,對電子政務(wù)術(shù)語的TWM進行多重譜聚類,獲得電子政務(wù)術(shù)語的層次關(guān)系,如表2所示。
由表2可知,在內(nèi)容視角下,電子政務(wù)術(shù)語經(jīng)過多重譜聚類已劃分為穩(wěn)定層次,并在原有詞表的基礎(chǔ)上向下細分了3~4層。本研究通過余弦算法計算每個類目內(nèi)術(shù)語間的相似度,再借助SNA計算術(shù)語中心度,將中心度較高的術(shù)語作為類目標簽。以“司法”類第2層中的類簇為例,結(jié)果如圖4所示。
在圖4中,SNA結(jié)果表明該類簇內(nèi)中心度前3的術(shù)語分別為“行政復(fù)議”(196)、“行政司法”(195)及“訴訟代理”(186)。其中,前兩者的中心度最為接近,而從術(shù)語內(nèi)涵的角度來看,“行政司法”是指行政機關(guān)依照司法程序解決糾紛的所有行政行為,其內(nèi)涵廣度超過了作為行政行為一種的“行政復(fù)議”,故擇其為該類簇的標簽。
本研究分別對表2中的第2、3、4層類目采用SNA的方法確定類目標簽,從內(nèi)容視角識別電子政務(wù)術(shù)語的層次關(guān)系,一共得到了1371對上下位關(guān)系。通過圖2中的OWL語法對層次關(guān)系自動編碼,可存儲基于內(nèi)容的電子政務(wù)術(shù)語層次知識結(jié)構(gòu),如圖5所示。
讀取“政法、監(jiān)察”領(lǐng)域內(nèi)由基于內(nèi)容的電子政務(wù)術(shù)語知識結(jié)構(gòu)所存儲的OWL文件,通過Onto‐Graf插件對基于內(nèi)容的層次關(guān)系進行展示,如圖6所示。
圖4 類簇標簽確定
圖5 基于內(nèi)容的電子政務(wù)術(shù)語層次知識結(jié)構(gòu)
images/BZ_73_224_795_1013_1018.png
圖6 基于內(nèi)容的電子政務(wù)術(shù)語層次關(guān)系展示(1~3層)
在圖6中,從外在特征的角度來看,基于內(nèi)容的電子政務(wù)術(shù)語層次具備清晰的知識框架。在“綜合用語”“公安”“司法”術(shù)語集內(nèi),類簇的最大深度可至5層;在“國家安全”“監(jiān)察”術(shù)語集內(nèi),最小層次為2層。在知識框架的118個類目內(nèi),最大簇為“監(jiān)察”類的第3層類目“監(jiān)察工作”,共有44個術(shù)語;最小簇為“監(jiān)察”類第2層類目“行政監(jiān)察”,共有3個術(shù)語。此外,超過一半的知識類目分布于框架的第3層,占整體類目的56.8%,說明采取聚類方法所形成的基于內(nèi)容的層次關(guān)系較為合理。
從內(nèi)在特征的角度而言,本研究將通過例證的方式從電子政務(wù)知識本體橫向擴散的差異性與縱向延伸的繼承性兩個方面分別探索其優(yōu)劣,如表3所示。
表3 基于內(nèi)容的術(shù)語層次內(nèi)在特征分析
一方面,表3展現(xiàn)了“公安”類術(shù)語內(nèi)的一簇知識結(jié)構(gòu)。從橫向擴散的角度來說,“安全保衛(wèi)”知識簇在第4層所拆分的類目標簽可以代表保衛(wèi)工作的針對對象(反動組織)、執(zhí)行主體(隊伍)和具體活動(反恐),能夠體現(xiàn)出較為明顯的差異;從縱向延伸的角度來說,C1_公安→C2_保衛(wèi)工作→C3_安全保衛(wèi)→C4_反動組織/反恐/隊伍,也能在類簇不斷細化的過程中反映出術(shù)語內(nèi)涵的繼承。因此,基于內(nèi)容的層次關(guān)系具備一定的有效性。
另一方面,表3中的知識結(jié)構(gòu)也尚存不足。如底層術(shù)語“防暴警察”歸屬于第4層的“反恐”類在內(nèi)容層面雖無問題但并不全面,這是因為術(shù)語“警察”也可以作為其上位類,因此可進一步對電子政務(wù)本體進行擴展。又如該類簇將“保衛(wèi)工作”設(shè)定為“安全保衛(wèi)”的上位類,然而“保衛(wèi)工作”的定義是指國家安全和公安保衛(wèi)的組成部分,故將其作為“安全保衛(wèi)”的下位類更為合適。此外,術(shù)語“反革命組織”歸屬于“反動組織”的范疇會比作為“隊伍”的下位類顯得更為貼切,所以已有層次關(guān)系亦可進一步修正。
基于結(jié)構(gòu)層面識別電子政務(wù)術(shù)語層次關(guān)系需要訴諸社交媒體語料。其中,以政務(wù)微博為代表的政務(wù)社交媒體歷經(jīng)十年發(fā)展,從2009年的幾十個賬號增長到如今的179930余個,已經(jīng)成為我國最大的移動政務(wù)平臺[31]。因此,按照術(shù)語集列表順序自動檢索并爬取了所有“政法、監(jiān)察”類電子政務(wù)術(shù)語的政務(wù)微博文本,爬取時間為2019年10月3日,獲取從當日起向前回溯10個頁面的微博文檔。本研究通過去除缺失值、重復(fù)值和整理文檔集與術(shù)語集對應(yīng)關(guān)系等數(shù)據(jù)清洗操作,得到與電子政務(wù)術(shù)語相匹配的政務(wù)微博共計21638條,基于結(jié)構(gòu)的層次關(guān)系識別將圍繞這類文檔展開。
(1)術(shù)語共現(xiàn)關(guān)系生成。相較于基于內(nèi)容角度使用單個術(shù)語的百科文檔,基于結(jié)構(gòu)識別層次關(guān)系更強調(diào)不同術(shù)語在文檔內(nèi)的共現(xiàn)情況。若繼續(xù)按照詞表對“政法、監(jiān)察”類術(shù)語二級范疇的劃分方式,會致使5個類簇內(nèi)的術(shù)語相互隔離,同時也會遺漏很多上下位關(guān)系。較為典型的為“綜合用語”類的術(shù)語集合包含有與其他4類術(shù)語集密切相關(guān)的術(shù)語,如“案件”“犯罪”“反貪”等術(shù)語,在實踐場景中均有可能與“公安”“司法”“監(jiān)察”類術(shù)語在政務(wù)文本中共同出現(xiàn)。因此,基于結(jié)構(gòu)視角識別層次關(guān)系將不再采用詞表所提供的二級范疇劃分方式,而是將所有術(shù)語作為一個整體,通過函數(shù)匹配術(shù)語集在21638條政務(wù)微博文本內(nèi)的共現(xiàn)結(jié)果,共得到32592個關(guān)聯(lián)。
(2)形式化背景與FCA。將電子政務(wù)術(shù)語在文檔中統(tǒng)計,得到共現(xiàn)關(guān)聯(lián)以<文檔,術(shù)語,權(quán)重>三元組的形式進行存儲,并將其轉(zhuǎn)化為DTM,形成電子政務(wù)領(lǐng)域的形式化背景EFM={D,T,R}。其中,D中 共 有21638個對象;T中 共 有1378種 屬 性;R中存在32592個關(guān)聯(lián)。通過編寫求與運算程序?qū)FM實現(xiàn)FCA,如圖7所示。
在圖7中,由工作區(qū)的元胞數(shù)組可知,本實驗使 用DTM(21638×1378)存 儲EFM,通 過 對 象(電子政務(wù)文檔)所形成的向量空間判斷屬性(電子政務(wù)術(shù)語)之間的包含關(guān)系,從而實現(xiàn)FCA獲取電子政務(wù)術(shù)語間的上下位關(guān)系,并形成了Result對稱數(shù)組(1378×1378),包括行術(shù)語(LT)、列術(shù)語(CT)和上下位關(guān)系(H),記作:LT為CT的H,例如,“案件”為“案件處理”的上位,如此累計得到1505對上下位關(guān)系。通過數(shù)據(jù)庫連接運算刪去其中冗余關(guān)系,最終獲得1232對上下位關(guān)系。
圖7 基于結(jié)構(gòu)的上下位關(guān)系生成
(3)知識存儲與可視化。通過行列轉(zhuǎn)換,將所獲得的上下位關(guān)系轉(zhuǎn)換到二維,并使用OWL語法進行存儲,展示基于結(jié)構(gòu)的電子政務(wù)術(shù)語層次關(guān)系,如圖8所示。
在圖8中,從外在特征的角度來看,電子政務(wù)術(shù)語基于結(jié)構(gòu)的層次關(guān)系的整體框架尚不完備。在結(jié)構(gòu)層次的392個類目中,僅首層就分裂出247個類目,占總體知識類目的絕大多數(shù)(63%),僅存有2簇最大深度雖也可至第5層,這使得縱向延伸的類目較為有限。此外,類目的最大簇為“案件”,共有49個術(shù)語;最小簇中含有1個術(shù)語,且在首層類目中占據(jù)的比例最大(39.3%)。不難發(fā)現(xiàn),整體框架的層次性與完整性均略顯不足。
從內(nèi)在特征的角度而言,基于結(jié)構(gòu)的層次關(guān)系的精準性較高。延續(xù)對表2中層次關(guān)系的說明,結(jié)構(gòu)層次結(jié)果顯示,“防暴警察”為“警察”的下位類,“安全保衛(wèi)”為“保衛(wèi)工作”的上位類,“反革命組織”歸置為“恐怖組織”的下位類,根據(jù)內(nèi)容層次所識別“恐怖組織”為“反動組織”的下位類,推理可得“反革命組織”也從屬于“反動組織”的范疇,這些均能夠?qū)?nèi)容層次框架進行有效的擴展與修正。此外,結(jié)構(gòu)層次最大深度的2個類簇分別為C1_審判→C2_一審終審→C3_終審制度→C4_兩審終審制度→C5_四級兩審終審制度、C1_案件→C2_特別程序→C3_終審制度→C4_兩審終審制度→C5_四級兩審終審制度,根據(jù)“審判”“案件”的知識內(nèi)涵,類簇在深層次細分過程中同樣也能夠保持較強的準確性。
基于內(nèi)容的層次關(guān)系為電子政務(wù)術(shù)語本體搭建了初步框架,該框架具備有效的完整性與層次性,但準確性尚可優(yōu)化。相較之下,基于結(jié)構(gòu)的層次關(guān)系則更為精準,但對本體框架的支撐性略顯不足。因此,進一步將兩者進行語義融合,前者用于框架搭建,后者旨在修正與擴展,以構(gòu)成一個框架完整、層次深入、精度準確的電子政務(wù)術(shù)語本體。
語義融合一共得到2603對上下位關(guān)系,通過連接運算對合并的上下位關(guān)系進行去重,得到2182對上下位關(guān)系,形成了“政法、監(jiān)察”類電子政務(wù)術(shù)語本體,如圖9所示。
在圖9中,“政法、監(jiān)察”類電子政務(wù)術(shù)語本體具備更為完整、清晰的外在特征,類簇最大深度延伸至11層,語義細分維度大幅加深。在整體框架的638個類目內(nèi),最大簇為“監(jiān)察”類第3層類目的“檢察”以及處于“司法”類第5層或處于“監(jiān)察”類第6層的“監(jiān)察工作”,均聚合有40個術(shù)語,而最小簇含包含1個術(shù)語,占總體類目的39.5%。此外,超過一半的知識類目(52.8%)分布于本體的第4、5層,最多的第4層類目占到整體的29.8%,說明了類目在不同層次間的分布更為均衡。
基于表1中所列舉的語義融合類別,在電子政務(wù)本體中截取囊括所有類別的一個局部進行說明,其內(nèi)容與結(jié)構(gòu)層面的層次關(guān)系如表4所示。
在表4中,內(nèi)容與結(jié)構(gòu)兩者層次關(guān)系的語義融合主要有4種代表形式:①上位擴展,即“出入境”“安全員”“保衛(wèi)工作”多個上位術(shù)語指向同一下位術(shù)語“民航安全保衛(wèi)”;②下位擴展,即同一上位術(shù)語“治安”指向“出入境”“治安處罰”多個下位術(shù)語;③上下位擴展,即通過同一術(shù)語“保衛(wèi)”將其上位術(shù)語“打擊犯罪”與下位術(shù)語“安全保衛(wèi)”連接為同一個類簇;④上下位修正,以FCA為準對“安全保衛(wèi)”與“保衛(wèi)工作”的上下位關(guān)系進行修正。根據(jù)表4中內(nèi)容與結(jié)構(gòu)視角下層次關(guān)系的語義融合,從電子政務(wù)術(shù)語本體中抽取出經(jīng)過擴展與修正后的上下位關(guān)系,如圖10所示。
表4 電子政務(wù)術(shù)語層次關(guān)系融合(局部)
圖10 電子政務(wù)術(shù)語本體擴展與修正(局部)
在圖10中,語義融合主要展現(xiàn)了電子政務(wù)本體中“公安”類與“綜合用語”類術(shù)語的擴展與修正情況。由①可知,在“公安”類術(shù)語集內(nèi),通過擴展上位概念“C3_出入境”“C4_安全員”及“C6_保衛(wèi)工作”,使得類簇“C2_治安”以及由“C2_嚴打”所細分的“C3_破案”“C3_打擊犯罪”分別指向了同一下位術(shù)語“民航安全保衛(wèi)”,該術(shù)語處于“C2_治安”的第4層,“C3_破案”的第5層,“C3_打擊犯罪”的第7層;由②可知,在“公安”類術(shù)語集內(nèi),“C3_出入境”“C3_治安處罰”擴展了其上位術(shù)語“C2_治安”的下位概念;由③可知,在“公安”“綜合用語”類術(shù)語集內(nèi),上位術(shù)語“C4_保衛(wèi)”及下位術(shù)語“C6_保衛(wèi)工作”分別擴展了“C5_安全保衛(wèi)”的上下位概念;由④可知,通過FCA所抽取層次關(guān)系的指導(dǎo),將“C5_安全保衛(wèi)”修正為“C6_保衛(wèi)工作”的上位類。此外,在整體局部中可以進一步發(fā)現(xiàn)與①同屬于上位擴展的編號⑤,其通過擴展上位概念“C2_嚴打”及“C2_犯罪”致使“C1_公安”與“C1_綜合用語”分別指向了同一下位術(shù)語“C3_打擊犯罪”,使得原本詞表中不同二級范疇內(nèi)的術(shù)語得以關(guān)聯(lián),也驗證了以整體術(shù)語集進行FCA的必要性與有效性。
綜上所述,①~⑤表明語義融合能夠切實有效地擴展并修正術(shù)語的層次內(nèi)涵,繼而提升電子政務(wù)術(shù)語本體層次關(guān)系的召回率與準確率。
在形成了電子政務(wù)術(shù)語本體之后,接下來就是測度本體中層次關(guān)系的召回率與準確率,繼而對本體所識別的層次關(guān)系進行評價分析。本體中1~3層術(shù)語、3~7層術(shù)語和7~11層術(shù)語的數(shù)量分布大致滿足1∶3∶1,故可大致分為1~3層的大類術(shù)語、3~7層的中層術(shù)語和7~11層的深層術(shù)語。其中,大類術(shù)語代表著電子政務(wù)本體的整體知識架構(gòu),中層術(shù)語在整體框架的基礎(chǔ)上廣泛擴散知識關(guān)聯(lián),深層術(shù)語則將擴散的知識進一步細化延伸。因此,從這3個層面測度術(shù)語層次的召回率和準確率能夠有效評價電子政務(wù)本體的整體質(zhì)量。
基于術(shù)語的分布規(guī)律,本研究采取隨機抽樣的方式,分別從1~3層、3~7層、7~11層中分別抽取出20、60、20個術(shù)語實體以及術(shù)語集中所識別的上下位關(guān)系,總共抽取5次,取樣過程中秉持每層術(shù)語的抽取數(shù)量相對均衡,如此便得到了用于評價召回率的5組術(shù)語實體樣本;采取相同的方式從1~3層、3~7層、7~11層 中分別抽 取出20、60、20對層次關(guān)系,總共抽取5次,得到用于評價準確率的5組術(shù)語關(guān)系樣本。結(jié)合論文發(fā)表數(shù)量、被引次數(shù)、代表性著作以及所在機構(gòu)遴選出5位電子政務(wù)領(lǐng)域?qū)<遥?組樣本分別發(fā)予領(lǐng)域?qū)<覍πg(shù)語層次關(guān)系進行評價,收回反饋統(tǒng)計評價結(jié)果如圖11所示。
圖11 電子政務(wù)術(shù)語本體抽樣評價結(jié)果
由圖11可知,從整體來看,電子政務(wù)本體層次關(guān)系的評價結(jié)果良好,5位專家評價的綜合召回率均在80%以上,綜合準確率在90%以上,這表明將內(nèi)容與結(jié)構(gòu)的層次關(guān)系相融合取得了較好的應(yīng)用效果。從召回率而言,處于1~3層、3~7層、7~11層的術(shù)語關(guān)聯(lián)的召回率較為均衡,并未體現(xiàn)出明顯差異;從準確率來看,處于1~3層術(shù)語層次的準確率最高,3~7層次之,7~11層最低但也均在80%以上,這一方面說明了電子政務(wù)本體具備良好的知識擴展性與延伸性,同時,也反映了術(shù)語層次關(guān)系的準確率會隨著層次加深逐級遞減。基于此,在電子政務(wù)術(shù)語本體內(nèi)各大類中進一步遴選出深層類簇進行準確性分析,如表5所示。
由表5可知,從整體上來說,電子政務(wù)術(shù)語層次關(guān)系的準確性較高。就“綜合用語類”與“公安類”而言,兩者分別通過“C2_犯罪”與“C2_嚴打”所細分的下位術(shù)語“C3_打擊犯罪”在第3層合并為一簇,并自上而下深化至第10層,包含保衛(wèi)、執(zhí)法隊伍、犯罪案件等子類術(shù)語;就“司法類”而言,術(shù)語細化主要包含依法行政、訴訟過程、實例案件等方面的內(nèi)容,能至第11層;就“監(jiān)察類”而言,術(shù)語依據(jù)監(jiān)察工作與監(jiān)察部門的內(nèi)涵演化至第8層;就“國家安全類”而言,術(shù)語延伸的軌跡圍繞間諜工作展開并達至第8層。
基于內(nèi)容角度的層次關(guān)系大幅加深,同時也促使諸如“放火”“放火案”“放火案件”抑或“監(jiān)察”“監(jiān)察部”“監(jiān)察部門”“紀檢監(jiān)察部門”等基于結(jié)構(gòu)角度的層次關(guān)系得以關(guān)聯(lián),這說明采用電子政務(wù)語料識別術(shù)語層次關(guān)系有效彌補了人工詞表的不足。
本文基于內(nèi)容與結(jié)構(gòu)視角,首先,通過對網(wǎng)絡(luò)百科內(nèi)容所提取出的特征詞語采取譜聚類的方式,生成基于內(nèi)容的層次關(guān)系;其次,根據(jù)術(shù)語集在社交媒體文檔中的共現(xiàn)匹配情況,采用FCA建立概念格結(jié)構(gòu),從而提取基于結(jié)構(gòu)的層次關(guān)系,以前者具有高召回率的層次關(guān)系為整體框架、后者高準確率的層次關(guān)系為修正指導(dǎo)進行語義融合,形成了一整套電子政務(wù)領(lǐng)域中文術(shù)語本體識別方案。對“政法、監(jiān)察”類電子政務(wù)主題詞的實驗表明,內(nèi)容與結(jié)構(gòu)層面的語義融合,則達到了很好的擴展與修正效果,專家評價結(jié)果顯示電子政務(wù)本體中層次關(guān)系的整體召回率(≥80%)與準確率(≥90%)均較高,術(shù)語在語義內(nèi)涵的延伸過程中較好地彌補了原有詞表在內(nèi)容與結(jié)構(gòu)層面上的不足,這說明采用大規(guī)模語料所形成的電子政務(wù)本體具備良好的知識擴展性與延伸性。
表5 電子政務(wù)術(shù)語本體深部層次準確性分析
本文針對“政法、監(jiān)察”領(lǐng)域所形成的電子政務(wù)術(shù)語層次關(guān)系識別方法,是一種可以在短時間內(nèi)面向更多政務(wù)領(lǐng)域(“科技教育”“對外事務(wù)”“軍事國防”)、更大規(guī)模術(shù)語開展知識組織工作的自動化體系,所構(gòu)成的電子政務(wù)術(shù)語本體也將在后續(xù)知識管理工作中開啟更為智能的應(yīng)用,本文暫列出3點:①信息檢索與推薦。利用電子政務(wù)本體的推理功能,一方面,通過關(guān)鍵詞擴展助力于用戶信息需求表達;另一方面,根據(jù)本體內(nèi)術(shù)語的上下位關(guān)聯(lián)實現(xiàn)政務(wù)信息的個性化推薦。②跨部門信息共享?;凇肮病薄八痉ā薄氨O(jiān)察”“國家安全”等領(lǐng)域的關(guān)聯(lián)術(shù)語,指導(dǎo)公安部、司法部、監(jiān)察部、國家安全部等跨部門信息系統(tǒng)之間的政務(wù)信息資源共享,以開展不同部門間的政務(wù)合作。③政務(wù)知識發(fā)現(xiàn)。通過電子政務(wù)術(shù)語關(guān)聯(lián),探索未被發(fā)掘的政務(wù)知識資源,繼而洞悉并提取出電子政務(wù)領(lǐng)域的新興知識,以期為優(yōu)化未來國家行政管理的工作效率提供參考。
另外,本研究也存在可完善之處。第一,通過機器識別層次關(guān)系通常對語料要求較為嚴苛,而百度百科與政務(wù)微博均源于網(wǎng)絡(luò)文本,在無人工干涉的條件下會致使語料內(nèi)容較為粗糙,后續(xù)將著重提高語料質(zhì)量以展開對比實驗;第二,文章對術(shù)語層次關(guān)系的識別來自現(xiàn)有詞表,而長期以來,在政務(wù)工作中所產(chǎn)生的新主題詞并未被詞表收錄,接下來的研究將試圖識別未登錄詞間的關(guān)聯(lián)以擴充電子政務(wù)本體的層次體系。