楊椋 柯楓 劉新明 信希濤
摘 ?要:面向企業(yè)知識(shí)圖譜的構(gòu)建與分析,通過獲取企業(yè)信息、企業(yè)高管信息、企業(yè)新聞資訊信息等,自動(dòng)構(gòu)建企業(yè)—高管—資訊知識(shí)圖譜。在構(gòu)建過程中,對(duì)實(shí)體的正確引用是推導(dǎo)、分析、構(gòu)建知識(shí)庫的基礎(chǔ)和保障。構(gòu)建過程中出現(xiàn)的部分實(shí)體重名的問題,對(duì)應(yīng)于實(shí)體指稱項(xiàng)的歧義性,會(huì)造成圖譜中部分節(jié)點(diǎn)重合、鏈接錯(cuò)誤,進(jìn)而對(duì)整體知識(shí)庫的構(gòu)建產(chǎn)生負(fù)影響。為此,提出一種基于隨機(jī)游走的方法解決知識(shí)圖譜中的實(shí)體消歧問題,取得很好的消歧效果。
關(guān)鍵詞:知識(shí)圖譜;實(shí)體消歧;隨機(jī)游走;文本向量
中圖分類號(hào):TP391 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)23-0100-03
Multi-source Data Fusion Analysis Based on Enterprise Knowledge Map
YANG Liang,KE Feng,LIU Xinming,XIN Xitao
(Institute of Network Technology,ICT(YANTAI),Yantai ?264003,China)
Abstract:For the construction and analysis of enterprise knowledge map,the enterprise-enterprise executives-information knowledge map is automatically constructed through acquiring enterprise information,enterprise executive information and enterprises news information. In the construction process,the correct reference to the entity is the basis and guarantee of derivation,analysis and construction of knowledge base. The problem of duplicate name of some entities appeared in the construction process,which corresponds to the ambiguity of entity references,will cause some nodes overlap and link errors in the map,and thus has negative effects on the construction of the whole knowledge base. To this end,a method based on random walk is proposed to solve the problem of entity disambiguation in knowledge map,and get better disambiguation effect.
Keywords:knowledge map;entity disambiguation;random walk;text vector
0 ?引 ?言
互聯(lián)網(wǎng)時(shí)代,人類在與自然和社會(huì)的交互過程中會(huì)產(chǎn)生龐雜的數(shù)據(jù)。然而,互聯(lián)網(wǎng)中大量的信息在計(jì)算機(jī)中的存儲(chǔ)和傳播形式是計(jì)算機(jī)不擅長的非結(jié)構(gòu)化形式。圖能夠有效表示數(shù)據(jù)和數(shù)據(jù)之間結(jié)構(gòu)的表達(dá)形式,數(shù)據(jù)的結(jié)構(gòu)化與已有的結(jié)構(gòu)化數(shù)據(jù)相互關(guān)聯(lián),就構(gòu)成了知識(shí)圖譜。本單位以產(chǎn)業(yè)信息作為支撐,構(gòu)建產(chǎn)業(yè)知識(shí)圖譜,形成一個(gè)網(wǎng)絡(luò)關(guān)系圖,直觀立體展現(xiàn)企業(yè)關(guān)聯(lián),衡量企業(yè)內(nèi)部各要素之間關(guān)系的密切度,進(jìn)一步應(yīng)用于產(chǎn)業(yè)地圖與技術(shù)撮合。產(chǎn)業(yè)知識(shí)圖譜的構(gòu)建首先需要實(shí)現(xiàn)多源數(shù)據(jù)融合。
知識(shí)獲取是從文本數(shù)據(jù)中通過信息抽取實(shí)現(xiàn)的,是構(gòu)建知識(shí)圖譜的核心技術(shù)。對(duì)非結(jié)構(gòu)化數(shù)據(jù)的抽取又包括實(shí)體識(shí)別、實(shí)體消歧、關(guān)系抽取和事件抽取,如圖1所示。其中,實(shí)體消歧對(duì)于知識(shí)圖譜構(gòu)建和應(yīng)用有著非常重要的作用,也是建立語言表達(dá)和知識(shí)圖譜聯(lián)系的關(guān)鍵環(huán)節(jié)。
實(shí)體消歧可以通過向量空間模型的方法將實(shí)體表示成特征向量,獲取不同實(shí)體之間的相似性。但如何準(zhǔn)確獲取實(shí)體的特征向量,各種不同方式均有其優(yōu)缺點(diǎn)且沒有最優(yōu)解決方法,此外,針對(duì)本項(xiàng)目中的企業(yè)及高管數(shù)據(jù)能夠提取的特征向量更少。
1 ?歧義網(wǎng)絡(luò)構(gòu)建
在企查查、東方財(cái)富網(wǎng)、新聞庫等平臺(tái)獲取企業(yè)、高管、資訊等信息,根據(jù)資訊中提取的企業(yè)名稱建立企業(yè)與新聞中其他實(shí)體間的聯(lián)系,如果新聞中的企業(yè)沒有重名的高管,則根據(jù)企業(yè)高管信息建立企業(yè)與高管實(shí)體的聯(lián)系,完成初步消歧。
2 ?問題的定義
實(shí)體的集合H={h1,…,hk},其中hk表示的實(shí)體可以是能夠觀察到的顯示實(shí)體,也可以是不能被觀察到的潛在實(shí)體。名稱是對(duì)實(shí)體的引用,實(shí)體和名稱之間通過源進(jìn)行連接。源的集合S={s1,s2,…,sk},其中每個(gè)源sk都包含一個(gè)名稱的集合Ni。在S當(dāng)中所包含的所有名稱的集合為E={e1,e2,…,en}=N1∪N2∪…∪Nm。一個(gè)名稱在整體中可能指向多個(gè)實(shí)體,但該名稱在一個(gè)源中的實(shí)例只能指向一個(gè)實(shí)體。如果有k個(gè)不同的實(shí)體擁有同一個(gè)名稱,則表示該名稱是k歧義的,如圖2所示。
3 ?解決方法
3.1 ?相對(duì)熵隨機(jī)游走相似性度量模型
獲取不同實(shí)體之間的相似性可參考基于隨機(jī)游走的節(jié)點(diǎn)相似性度量方法。即在通過構(gòu)建的企業(yè)高管社會(huì)歧義網(wǎng)絡(luò)對(duì)每個(gè)名稱進(jìn)行消歧時(shí),單獨(dú)對(duì)該名稱構(gòu)建一個(gè)社會(huì)網(wǎng)絡(luò),通過隨機(jī)游走模型計(jì)算名稱間的相似性。
隨機(jī)游走過程中,節(jié)點(diǎn)的度越大被訪問的概率越高,針對(duì)隨機(jī)游走過程中存在的這個(gè)問題,使用基于相對(duì)熵的隨機(jī)游走相似性度量模型[2]RE-model,利用隨機(jī)游走策略中節(jié)點(diǎn)的局部特征進(jìn)行相似性度量,可以降低對(duì)度較大節(jié)點(diǎn)的依賴性,這樣節(jié)點(diǎn)與節(jié)點(diǎn)間的結(jié)構(gòu)相似性可以更好地量化。首先通過局部隨機(jī)游走算法計(jì)算得出轉(zhuǎn)移概率矩陣,然后將矩陣進(jìn)行轉(zhuǎn)置并進(jìn)行歸一化,構(gòu)造出在t步后每一個(gè)節(jié)點(diǎn)vi到達(dá)任一節(jié)點(diǎn)的概率分布pt(vi):
pt(vi)=[pt(vi,v1),pt(vi,v2),…,pt(vi,vn)] ?(1)
其中,n為網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù),pt(vi,vj)=,v為網(wǎng)絡(luò)中節(jié)點(diǎn)的集合,pvi,vj(t)為節(jié)點(diǎn)vi經(jīng)過t步隨機(jī)游走到達(dá)vj的概率按照網(wǎng)絡(luò)度中心性的降序排序選擇r個(gè)節(jié)點(diǎn),計(jì)算經(jīng)過k步游走后每一個(gè)節(jié)點(diǎn)到達(dá)這r個(gè)中心節(jié)點(diǎn)的轉(zhuǎn)移概率分布。根據(jù)轉(zhuǎn)移概率矩陣M,計(jì)算在t時(shí)刻節(jié)點(diǎn)vi隨機(jī)游走到中心節(jié)點(diǎn)集合D={v1′,v2′,…,vr′}中任一節(jié)點(diǎn)的轉(zhuǎn)移概率,形成r維向量,通過歸一化得到r維轉(zhuǎn)移概率分布:
pt(vi)=[pt(vi,v1′),pt(vi,v2′),…,pt(vi,vr′)]
其中,pt(vi,vj′)=,根據(jù)隨機(jī)游走策略得到的節(jié)點(diǎn)的轉(zhuǎn)移概率計(jì)算相對(duì)熵,使用相對(duì)熵量化節(jié)點(diǎn)間的結(jié)構(gòu)差異。定義pt(vi)對(duì)pt(vj)的相對(duì)熵為:
DKL(pt(vi)∥pt(vj))= (2)
規(guī)定當(dāng)x=0或y=0時(shí),。由于相對(duì)熵是非對(duì)稱度量,定義網(wǎng)絡(luò)的差異矩陣W=(wij)n×n為:
wij=DKL(pt(vi)∥pt(vj))+DKL(pt(vj)∥pt(vi)) (3)
最后,將差異矩陣轉(zhuǎn)為相似性矩陣SRE-model=(sij)n×n,矩陣項(xiàng)定義為:
(4)
其中,wmax為差異矩陣W中的最大值。并給出算法框架:
輸入:網(wǎng)絡(luò)G=(V,E),隨機(jī)游走部署t,按度中心性所獲得的概率分布維度r。其中V={v1,v2,…,vn}
輸出:網(wǎng)絡(luò)的相似性矩陣SRE-model
步驟1,使用隨機(jī)游走算法,計(jì)算在t時(shí)刻節(jié)點(diǎn)的轉(zhuǎn)移概率矩陣W;
步驟2,按照節(jié)點(diǎn)度中心性選擇r個(gè)中心節(jié)點(diǎn),根據(jù)式(1)計(jì)算每個(gè)節(jié)點(diǎn)的r維概率分布;
步驟3,對(duì)1≤i,j≤n,根據(jù)相對(duì)熵(式(2)和式(3))計(jì)算每對(duì)節(jié)點(diǎn)的wij以構(gòu)造圖G的差異矩陣W,并找到W中的最大值;
步驟4,對(duì)1≤i,j≤n,根據(jù)式(4)計(jì)算每對(duì)節(jié)點(diǎn)的Sij以構(gòu)造圖G的相似矩陣。
3.2 ?聚類分析
3.2.1 ?凝聚式層次聚類
由于高管姓名會(huì)分為多少個(gè)無法預(yù)測,因此使用層次聚類來完成高管姓名的消歧。將每個(gè)高管姓名看作一個(gè)小聚簇,然后不斷地對(duì)簇進(jìn)行合并,直到所有聚簇都合并成一個(gè)或者所有分組的相似性小于預(yù)定義的閾值為止。
3.2.2 ?聚類終止條件控制
可以通過設(shè)置最后的分組個(gè)數(shù)或者所有分組的相似性最小閾值來控制聚類過程的終止,但如何設(shè)置這兩個(gè)值,需要根據(jù)數(shù)據(jù)類型及數(shù)據(jù)規(guī)模等多個(gè)數(shù)據(jù)屬性進(jìn)行設(shè)置,這需要豐富的經(jīng)驗(yàn)。針對(duì)這一問題,設(shè)定了多個(gè)遞減的簇內(nèi)相似度值,來控制聚類的終止。并獲取層次聚類結(jié)果的F評(píng)價(jià)值、詳細(xì)聚類結(jié)果記錄簇內(nèi)對(duì)象的相似度平均值等。隨著層數(shù)的增加,平均相似度值逐層衰減。衰減策略包括最大值、最小值和平均值衰減,以及它們之間的融合衰減方法。
通過對(duì)比各類衰減方式獲取的聚類結(jié)果評(píng)價(jià),得出結(jié)論使用三種衰減方式相融合的衰減方式RAll能得到最優(yōu)的聚類結(jié)果。在此基礎(chǔ)上,選取了4個(gè)候選的衰減度閾值,分別在這4個(gè)閾值的基礎(chǔ)上得出聚類的評(píng)測結(jié)果,最終得出在衰減度閾值設(shè)為0.5時(shí)能夠得到最優(yōu)的結(jié)果。
4 ?實(shí)驗(yàn)與分析
4.1 ?實(shí)驗(yàn)設(shè)置
使用資訊數(shù)據(jù)來源于權(quán)威網(wǎng)站,如和訊網(wǎng)、東方財(cái)富網(wǎng)、新聞庫等,選取相關(guān)資訊數(shù)據(jù)共5萬條,取其中300家企業(yè)約4萬條資訊集作為實(shí)驗(yàn)訓(xùn)練數(shù)據(jù),100家企業(yè)約1萬條資訊用作評(píng)價(jià)使用。對(duì)資訊數(shù)據(jù)進(jìn)行實(shí)體抽取,構(gòu)建知識(shí)網(wǎng)絡(luò)平均度32,抽取實(shí)驗(yàn)數(shù)據(jù)如表3所示。
4.2 ?評(píng)價(jià)標(biāo)準(zhǔn)
評(píng)價(jià)指標(biāo)有:精準(zhǔn)率(Precision)、召回率(Recall)和F1-Score,F(xiàn)1-Score計(jì)算公式為:
F1-Score= ? ? ? ? ? ? ? ? ? ? ? ? ? ?(4)
其中,P是精準(zhǔn)率,R是召回率。
4.3 ?實(shí)驗(yàn)過程
使用訓(xùn)練集數(shù)據(jù),通過設(shè)定最大游走步數(shù)t獲取不同的相似性結(jié)果。第一輪設(shè)定t∈(5,10,20,30,40,50,60,70),將結(jié)果與實(shí)際標(biāo)準(zhǔn)數(shù)據(jù)庫進(jìn)行比較,當(dāng)t=30時(shí),結(jié)果更準(zhǔn)確。第二輪設(shè)定t∈(25,26,27,28,29,30,31,32,33,34,35),通過比較驗(yàn)證,當(dāng)t=30時(shí)效果最佳,與真實(shí)數(shù)據(jù)對(duì)比精準(zhǔn)率較高,F(xiàn)1-Score最高。
接下來,使用相對(duì)熵隨機(jī)游走模型進(jìn)行實(shí)驗(yàn),其精準(zhǔn)率、召回率隨相似性閾值變化的實(shí)驗(yàn)結(jié)果如圖3所示。通過不斷變化相似性閾值觀察變化情況,結(jié)合試驗(yàn)數(shù)據(jù)和圖表變化趨勢(shì),相對(duì)熵隨機(jī)游走方式在相似度閾值為0.82時(shí),F(xiàn)1-Score最高,達(dá)到82.5%。
4.4 ?實(shí)驗(yàn)結(jié)果與分析
將隨機(jī)游走步數(shù)設(shè)為30,相對(duì)熵隨機(jī)游走相似度閾值設(shè)為0.82后,對(duì)測試集數(shù)據(jù)進(jìn)行處理,跟標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行比對(duì)結(jié)果如表4所示。
5 ?結(jié) ?論
本文通過相對(duì)熵隨機(jī)游走模型獲取真實(shí)數(shù)據(jù)的相似性,根據(jù)凝聚式層次聚類算法對(duì)其進(jìn)行分組。通過與標(biāo)準(zhǔn)庫進(jìn)行比對(duì)分析,發(fā)現(xiàn)通過相對(duì)熵隨機(jī)游走獲取相似性,再通過凝聚式層次聚類進(jìn)行分組消歧,能夠得到較理想的效果。
抽取資訊中的實(shí)體時(shí),語料庫會(huì)直接影響實(shí)體抽取的質(zhì)量,進(jìn)而會(huì)影響歧義網(wǎng)絡(luò)的構(gòu)建以及后續(xù)數(shù)據(jù)的消歧。所以,后期將深入研究如何提高實(shí)體的抽取質(zhì)量,并將現(xiàn)有算法遷移至大數(shù)據(jù)處理平臺(tái),提高準(zhǔn)確度。
參考文獻(xiàn):
[1] 姜麗麗.實(shí)體搜索與實(shí)體解析方法研究 [D].蘭州:蘭州大學(xué),2012.
[2] 鄭文萍,劉韶倩,穆俊芳.一種基于相對(duì)熵的隨機(jī)游走相似性度量模型 [J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),2019,55(6):984-999.
[3] ZHU X Y,YANG X M,YING C Z,et al. A New Classification Algorithm Recommendation Method Based on Link Prediction [J].Knowledge-Based Systems,2018,159:171-185.
[4] HASHMI A,ZAIDI F,SALLABERRY A,et al. Are All Social Networks Structurally Similar? [C]//2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining.Istanbul:IEEE,2012:310-314.
[5] HE Z,LIU S,MU L,et al. Learning Entity Representation for Entity Disambiguation [C]//NLP-NABD 2015:Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.Guangzhou:Springer Nature,2013:267-278.
作者簡介:楊椋(1989—),男,漢族,山東煙臺(tái)人,信息系統(tǒng)項(xiàng)目管理師高級(jí)職稱,本科,研究方向:大數(shù)據(jù)自然語言領(lǐng)域。