佟 強(qiáng), 劉旭紅, 陳雨婷, 陳玉立,2
(1.北京信息科技大學(xué)數(shù)據(jù)與科學(xué)情報(bào)分析實(shí)驗(yàn)室, 北京 100101; 2.北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市 重點(diǎn)實(shí)驗(yàn)室, 北京 100101; 3.北京信息科技大學(xué)北大方正集團(tuán)有限公司數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 北京 100101)
為了能夠使人工智能更好地分析現(xiàn)有知識(shí),以圖結(jié)構(gòu)化表示知識(shí)的知識(shí)圖譜開始被研究者用來解決相關(guān)問題。知識(shí)圖譜采用圖結(jié)構(gòu)化表示知識(shí)的形式,描述知識(shí)資源和載體,通過數(shù)據(jù)挖掘、信息處理等手段,挖掘、分析以及繪制知識(shí)以及知識(shí)間的關(guān)系,以更具認(rèn)知性的形式表達(dá)復(fù)雜的知識(shí)領(lǐng)域,揭示知識(shí)領(lǐng)域規(guī)律的同時(shí)也為學(xué)科研究提供幫助。近些年,知識(shí)圖譜技術(shù)已快速普及并廣泛應(yīng)用于搜索、問答等實(shí)際場(chǎng)景[1]。而伴隨著互聯(lián)網(wǎng)上的信息爆發(fā)式涌現(xiàn),知識(shí)圖譜中的實(shí)體及實(shí)體關(guān)系不斷擴(kuò)增,知識(shí)圖譜逐漸顯露出結(jié)構(gòu)稀疏、連通性不足等問題,使得許多具有豐富價(jià)值的隱含知識(shí)無法被發(fā)現(xiàn)。知識(shí)圖譜補(bǔ)全(knowledge graph completion)是相關(guān)學(xué)者為解決上述問題提出的重要研究課題。
知識(shí)圖譜補(bǔ)全是利用現(xiàn)有知識(shí)圖譜的知識(shí)結(jié)構(gòu)和語義信息,借助知識(shí)表示與知識(shí)推理技術(shù),發(fā)掘知識(shí)圖譜中隱藏的事實(shí)關(guān)系,豐富、擴(kuò)展已有知識(shí)圖譜的一個(gè)過程[2-3]。知識(shí)圖譜補(bǔ)全也視為知識(shí)圖譜的鏈接預(yù)測(cè)問題,即對(duì)知識(shí)圖譜三元組不同位置上的缺失對(duì)象進(jìn)行預(yù)測(cè),以獲取更多有效的知識(shí)圖譜三元組[4-5]。
基于路徑搜索策略的知識(shí)圖譜補(bǔ)全方法使用了路徑搜索技術(shù)。Das等[6]提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的學(xué)習(xí)和推理路徑算法,通過提取知識(shí)圖譜中由實(shí)體和關(guān)系構(gòu)成的有向路徑的特征,自動(dòng)挖掘?qū)嶓w間的關(guān)聯(lián)規(guī)則,提高了知識(shí)推理性能。由于大規(guī)模知識(shí)圖譜實(shí)體間的關(guān)系路徑較導(dǎo)致知識(shí)稀疏問題,所以使用該方法進(jìn)行知識(shí)推理和預(yù)測(cè)存在一定局限性。除此之外,還可以從邏輯規(guī)則、統(tǒng)計(jì)特征、本體約束等方面實(shí)現(xiàn)知識(shí)圖譜的補(bǔ)全[7]。
在目前主流的知識(shí)表示學(xué)習(xí)方法中,最初是Bordes等[8]利用詞向量的平移不變現(xiàn)象提出TransE模型,在低維向量空間中嵌入實(shí)體與關(guān)系,學(xué)習(xí)實(shí)體和關(guān)系的語義信息,具有更好的推理能力。在此模型的基礎(chǔ)上,結(jié)合復(fù)雜關(guān)系問題,Wang等[9]提出了實(shí)體在不同關(guān)系中具有不同表示的TransH模型,將頭尾實(shí)體向量投影到特定關(guān)系的超平面中,一定程度上解決了TransE處理復(fù)雜映射關(guān)系(1∶N、N∶1)的局限性,但該方法僅通過關(guān)系向量與實(shí)體向量的法向量近似正交選定超平面,導(dǎo)致每個(gè)關(guān)系會(huì)有多個(gè)超平面。為此,Lin等[10]提出了TransR模型,該模型認(rèn)為不同關(guān)系關(guān)注實(shí)體所具有的不同屬性,不同的關(guān)系具有不同的語義空間,有效區(qū)別相似實(shí)體,但定義投影矩陣僅與關(guān)系有關(guān)的合理性欠佳并且空間投影使得模型計(jì)算復(fù)雜度大大提高。TransD模型進(jìn)一步提出構(gòu)建與頭、尾實(shí)體和關(guān)系分別相關(guān)的兩個(gè)動(dòng)態(tài)變化的投影矩陣,以更好地解決同一關(guān)系具有不同語義的問題[11];并將矩陣運(yùn)算轉(zhuǎn)化為向量間的計(jì)算,減少了模型參數(shù),更適用于大規(guī)模知識(shí)圖譜。目前,Trans系列模型在知識(shí)圖譜補(bǔ)全研究應(yīng)用上已成為學(xué)術(shù)界的熱點(diǎn)。TransA、KG2E等也從不同維度提出了翻譯模型的優(yōu)化方法[12-13]。
基于上述問題,在總結(jié)現(xiàn)有知識(shí)圖譜補(bǔ)全研究成果的基礎(chǔ)上,結(jié)合傳統(tǒng)的基于路徑的知識(shí)推理規(guī)則和基于TransD模型的知識(shí)向量表示學(xué)習(xí),提出一種基于圖結(jié)構(gòu)和關(guān)系描述的知識(shí)圖譜補(bǔ)全方法,在知識(shí)表示學(xué)習(xí)中集成了實(shí)體和關(guān)系的類型以及語義特征,以此提升知識(shí)推理效果。首先結(jié)合實(shí)體關(guān)系抽取有關(guān)方法,構(gòu)建領(lǐng)域知識(shí)圖譜,將多源異構(gòu)數(shù)據(jù)之間的關(guān)系通過可視化技術(shù)進(jìn)行顯示;再進(jìn)一步基于圖結(jié)構(gòu)和關(guān)系描述提出知識(shí)圖譜補(bǔ)全方法,結(jié)合領(lǐng)域知識(shí)圖譜結(jié)構(gòu)、類型和語義信息,為情報(bào)獲取提供更完善的數(shù)據(jù)支持。
泛娛樂領(lǐng)域數(shù)據(jù)具有多源、異構(gòu)、碎片化等特征,知識(shí)圖譜的稀疏性尤為突出,各節(jié)點(diǎn)間的連通性不足。為了驗(yàn)證本文所提方法的有效性,以泛娛樂領(lǐng)域知識(shí)情報(bào)為例,通過實(shí)驗(yàn)驗(yàn)證與分析所提方法。采用富含泛娛樂領(lǐng)域情報(bào)的新聞資訊作為數(shù)據(jù)源,引入商業(yè)分析模型構(gòu)建商業(yè)分析標(biāo)簽,通過與資訊內(nèi)容進(jìn)行匹配,實(shí)現(xiàn)資訊分類;并提出“情報(bào)要素”概念,旨在基于實(shí)體及關(guān)系類型,更為有效地挖掘出泛娛樂情報(bào)領(lǐng)域?qū)嶓w、屬性及實(shí)體間關(guān)系,以輔助后續(xù)的情報(bào)獲取與分析任務(wù)。
情報(bào)是解決特定問題所需要的知識(shí),而知識(shí)圖譜可利用可視化技術(shù)梳理知識(shí)。知識(shí)圖譜構(gòu)建技術(shù)對(duì)情報(bào)獲取的意義重大,其中圖譜構(gòu)建環(huán)節(jié)實(shí)現(xiàn)了對(duì)現(xiàn)有知識(shí)的關(guān)系的充分掃描和可視化呈現(xiàn),以便于人們更好地理解知識(shí),乃至獲取其中蘊(yùn)含的更有價(jià)值的情報(bào)。
以泛娛樂領(lǐng)域知識(shí)為例,根據(jù)圖1所示的泛娛樂情報(bào)領(lǐng)域?qū)嶓w、關(guān)系及屬性實(shí)例關(guān)系,采用文獻(xiàn)[14]中提出的基于因子圖模型的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法,結(jié)合泛娛樂情報(bào)領(lǐng)域數(shù)據(jù)特點(diǎn),對(duì)泛娛樂領(lǐng)域公開資訊進(jìn)行了信息抽取,并在此基礎(chǔ)上進(jìn)行知識(shí)融合、知識(shí)處理,采用Neo4j圖數(shù)據(jù)庫(kù)初步構(gòu)建了泛娛樂情報(bào)領(lǐng)域知識(shí)圖譜(pan-entertainment knowledge graph, PanEKG),并在后續(xù)以該知識(shí)圖譜為基礎(chǔ),研究知識(shí)補(bǔ)全方法。通過以下兩個(gè)步驟完成對(duì)該知識(shí)圖譜的構(gòu)建。
(1)構(gòu)建實(shí)體及屬性要素實(shí)例。按照實(shí)體要素類型構(gòu)建8類實(shí)體節(jié)點(diǎn)(資訊、商分標(biāo)簽、一級(jí)行業(yè)名稱、二級(jí)行業(yè)名稱、企業(yè)、產(chǎn)品、事件和人物),各個(gè)實(shí)體節(jié)點(diǎn)具有各自的屬性描述。
(2)構(gòu)建關(guān)系要素實(shí)例。基于實(shí)體要素節(jié)點(diǎn),按照7類關(guān)系要素,分別構(gòu)建實(shí)體關(guān)系邊,將實(shí)體要素關(guān)聯(lián)起來,其中關(guān)系要素具體描述如表1所示。
圖1 泛娛樂情報(bào)領(lǐng)域?qū)嶓w、關(guān)系及屬性實(shí)例關(guān)系Fig.1 Entity, relationship and attribute instance relationship in the field of pan-entertainment information
表1 關(guān)系要素描述Table 1 Description of relationship elements
在構(gòu)建好的泛娛樂情報(bào)領(lǐng)域知識(shí)圖譜PanEKG中包含了大量情報(bào)要素。將圖結(jié)構(gòu)和關(guān)系描述相融合,提出一種新的知識(shí)圖譜補(bǔ)全方法,來更好地從快速擴(kuò)增的實(shí)體及實(shí)體關(guān)系中發(fā)現(xiàn)更多具有價(jià)值的隱含知識(shí)。首先,根據(jù)知識(shí)圖譜結(jié)構(gòu),設(shè)定推理路徑規(guī)則,通過路徑搜索獲得關(guān)鍵路徑子圖,提高后續(xù)知識(shí)表示學(xué)習(xí)效率;然后,為進(jìn)一步提高知識(shí)表示學(xué)習(xí)的質(zhì)量,基于TransD模型的知識(shí)向量表示學(xué)習(xí),在知識(shí)的語義向量表示學(xué)習(xí)中增加“關(guān)系描述”的概念,進(jìn)而實(shí)現(xiàn)知識(shí)圖譜補(bǔ)全。
采用有界深度優(yōu)先搜索策略獲取關(guān)鍵路徑子圖Gr,對(duì)PanEKG中的關(guān)鍵關(guān)系路徑進(jìn)行子圖的表示學(xué)習(xí),并結(jié)合泛娛樂領(lǐng)域情報(bào)需求,設(shè)定推理路徑規(guī)則,以確定有界深度d的取值。
首先結(jié)合泛娛樂領(lǐng)域的情報(bào)需求,對(duì)推理路徑進(jìn)行分析。泛娛樂領(lǐng)域情報(bào)圍繞行業(yè)趨勢(shì)洞察、企業(yè)戰(zhàn)略把控和新興產(chǎn)品孵化展開。在PanEKG中存在的實(shí)體要素“資訊”“商分標(biāo)簽”“行業(yè)”“企業(yè)”“產(chǎn)品”“人物(高管)”“事件”其間具有豐富的語義關(guān)聯(lián)。通過信息抽取方法獲取大量泛娛樂情報(bào)領(lǐng)域?qū)嶓w及實(shí)體關(guān)系構(gòu)成的知識(shí),但仍存在遺漏或隱含。圖2展示了以企業(yè)A為核心實(shí)體的完善關(guān)系路徑。其中綠色有向箭頭表示“隱含關(guān)系”,即知識(shí)圖譜中尚未定義的關(guān)系類型,是現(xiàn)有實(shí)體間隱含的關(guān)系路徑;紅色有向箭頭表示“遺漏關(guān)系”,即已定義的關(guān)系類型,是現(xiàn)有實(shí)體間缺失的關(guān)系路徑。
圖2 建立泛娛樂情報(bào)領(lǐng)域主體完備關(guān)系路徑示意圖Fig.2 Schematic diagram of the complete relationship path of the subject in the pan-entertainment intelligence field
結(jié)合實(shí)際場(chǎng)景來看,對(duì)于“隱含關(guān)系”的補(bǔ)全:如企業(yè)對(duì)應(yīng)一個(gè)或多個(gè)產(chǎn)品,而產(chǎn)品又普遍涉足多個(gè)行業(yè),因此可通過“企業(yè)→產(chǎn)品→行業(yè)”這一關(guān)系鏈,準(zhǔn)確獲取隱含關(guān)系“企業(yè)→行業(yè)”。而對(duì)于“遺漏關(guān)系”的補(bǔ)全:如某篇資訊提及產(chǎn)品和企業(yè)事件,即獲取關(guān)系“資訊→產(chǎn)品”和“資訊→事件”,再借助“企業(yè)→產(chǎn)品”這一中介關(guān)系,則可挖掘出遺漏關(guān)系“資訊→企業(yè)”和“企業(yè)→事件”。
為獲取高質(zhì)量的關(guān)鍵路徑子圖GS,首先對(duì)泛娛樂情報(bào)領(lǐng)域的實(shí)際情報(bào)需求進(jìn)行研究,并分析PanEKG中實(shí)體關(guān)系的傳遞層級(jí)及對(duì)應(yīng)的實(shí)體類型;然后基于知識(shí)圖譜中的關(guān)系示例,抽象化構(gòu)建關(guān)系推理路徑規(guī)則集Rule,其中包含待推理目標(biāo)Rchain_demo和該目標(biāo)對(duì)應(yīng)的由實(shí)體類型type(e)組成的關(guān)系鏈,形如Rchain_demo:e1→r1→…→en;最后采用有界深度優(yōu)先方法實(shí)現(xiàn)圖的搜索,獲得關(guān)鍵路徑子圖GS,其中有界深度由各關(guān)系鏈鏈長(zhǎng)len(Rchain)確定。具體算法如算法1所述。
算法1:有界深度優(yōu)先搜索算法輸入::泛娛樂情報(bào)領(lǐng)域知識(shí)圖譜PanEKG:節(jié)點(diǎn),G中實(shí)體:頭節(jié)點(diǎn):尾節(jié)點(diǎn)(的關(guān)系指向節(jié)點(diǎn)):關(guān)系推理路徑規(guī)則集:Rule中的一條關(guān)系鏈:實(shí)例關(guān)系鏈輸出::關(guān)鍵路徑子圖集
算法步驟:按照關(guān)系推理路徑規(guī)則集,啟發(fā)式遍歷知識(shí)圖譜,獲取各實(shí)例關(guān)系鏈Rchain及最終子圖GS。
foreinG:
//選擇圖中任一節(jié)點(diǎn)作為頭節(jié)點(diǎn)
Sh=S0←e;
//設(shè)定動(dòng)態(tài)有界深度
IfSt≠null&&type(Sh) inRchain_demo∈ Rule:
fordin len(Rchain_demo):
//選擇Sh指向的節(jié)點(diǎn)作為尾節(jié)點(diǎn)
St←find(Sh,Rchain_demo);
r←(Sh,St);
//存入關(guān)系實(shí)例,迭代獲取實(shí)例關(guān)系鏈
Rchain[d].append(r);
Sh←St;
else:
Sh←(re_select(e)≠S0);
//存入實(shí)例關(guān)系鏈,獲取關(guān)鍵路徑子圖述。
GS.append(Rchain);
如第2節(jié)對(duì)知識(shí)表示學(xué)習(xí)相關(guān)技術(shù)的介紹,TransD模型延續(xù)了“不同關(guān)系擁有各自的語義空間”的思想進(jìn)行建模,為每個(gè)實(shí)體h、t和關(guān)系r分別構(gòu)建一個(gè)表征語義的向量hi,ti,r∈Rd和一個(gè)用于從實(shí)體空間映射到關(guān)系空間的投影向量hip,tip,rp∈Rd,即關(guān)系三元組(hi,r,ti)對(duì)應(yīng)頭、尾實(shí)體的動(dòng)態(tài)投影矩陣:
Mrh=rphip+Im×n,Mrt=rptip+Im×n
(1)
式(1)中:Im×n表示m×n的單位向量。從而,頭、尾實(shí)體從實(shí)體空間映射到關(guān)系空間的表示為
hi⊥=Mrhi×hi,ti⊥=Mrti×ti
(2)
此外,TransD模型同樣構(gòu)造了正、負(fù)例三元組,并定義得分函數(shù)為
(3)
該方法解決了TransR模型投影矩陣僅考慮到實(shí)體間的關(guān)系以及矩陣向量參數(shù)過多的弊端。結(jié)合泛娛樂情報(bào)領(lǐng)域數(shù)據(jù),考慮到各類關(guān)系的頭、尾實(shí)體類型及屬性具有一定差別。首先提出關(guān)系描述(relation description)這一概念,關(guān)系描述包含關(guān)系的結(jié)構(gòu)信息(即實(shí)體對(duì)的指向性、實(shí)體類型)和關(guān)系實(shí)體對(duì)的類型和語義信息(即實(shí)體屬性),以此可計(jì)算各關(guān)系類型中的頭、尾實(shí)體的相似度,用于約束實(shí)體及關(guān)系的向量表示學(xué)習(xí),使得語義相似度越高的實(shí)體在對(duì)應(yīng)關(guān)系的低維嵌入空間中距離更近。
由此,進(jìn)一步提出基于TransD模型對(duì)圖結(jié)構(gòu)的表示和Doc2Vec模型對(duì)關(guān)系描述的表示,組合構(gòu)建得分函數(shù),以提高模型的知識(shí)推理能力。融合關(guān)系描述的知識(shí)表示模型如圖3所示。
例如,“投資”1∶N的有向關(guān)系r,屬于情報(bào)要素中定義的關(guān)系要素“企業(yè)→企業(yè)”類型。有關(guān)系實(shí)例“投資(字節(jié)跳動(dòng)公司,互動(dòng)百科公司)”,其關(guān)系描述即為:實(shí)體間關(guān)系指向?yàn)椤癶→t(1∶N)”,頭實(shí)體h和尾實(shí)體t的實(shí)體類型均為“Company”,實(shí)體屬性“簡(jiǎn)介”包含的文本信息如圖4所示。
根據(jù)上述關(guān)系描述,本文首先通過h和t的實(shí)體類型判斷是否符合關(guān)系r的限定,然后借助Doc2Vec的分布記憶模型(distributed memory model of paragraph vectors,PV-DM),提取關(guān)系描述中實(shí)體(對(duì)應(yīng)模型中的“paragraph id”)及實(shí)體屬性(對(duì)應(yīng)模型中的“paragraph”)的文本特征,用于頭、尾實(shí)體的語義向量表示,分別記為hs、ts(對(duì)應(yīng)模型中共享的“paragraph vector”);距離計(jì)算方法與TransD模型保持一致,即可定義關(guān)系描述表示的三元組(hi,r,ti)得分函數(shù)為
圖3 融入關(guān)系描述的知識(shí)表示模型Fig.3 Knowledge Representation Model Incorporated into Relationship Description
圖4 實(shí)體屬性“簡(jiǎn)介”包含的文本信息Fig.4 Text information contained in the "Introduction" entity attribute
(4)
由此,定義融合關(guān)系描述的知識(shí)表示模型的得分函數(shù)為
F(h,t)=f(h,t)+ωs(h,t)
(5)
式(5)中:ω∈[0,1]是權(quán)重系數(shù)。模型訓(xùn)練的目標(biāo)函數(shù)為
(h,t)+γ]
(6)
最終模型迭代學(xué)習(xí)出最終的知識(shí)表示向量,以有效實(shí)現(xiàn)知識(shí)圖譜補(bǔ)全任務(wù)。
采用研搜大數(shù)據(jù)情報(bào)檢索平臺(tái)作為構(gòu)造泛娛樂情報(bào)領(lǐng)域知識(shí)圖譜PanEKG的數(shù)據(jù)來源,該平臺(tái)旨在為互聯(lián)網(wǎng)企業(yè)提供泛娛樂領(lǐng)域新聞資訊、研究報(bào)告等信息支持,并提供摘要抽取、內(nèi)容分類等服務(wù)。經(jīng)統(tǒng)計(jì),平臺(tái)中經(jīng)過處理的泛娛樂領(lǐng)域公開資訊共計(jì)40 820篇。
在實(shí)驗(yàn)中,將知識(shí)表示模型的向量維度設(shè)定為dim=200,得分函數(shù)中的權(quán)重系數(shù)設(shè)定為ω=0.5。采用隨機(jī)梯度下降算法對(duì)模型進(jìn)行訓(xùn)練,其中優(yōu)化函數(shù)的邊距margin=4,學(xué)習(xí)速率α=0.5。
首先對(duì)本文方法在推理補(bǔ)全隱含/遺漏關(guān)系路徑任務(wù)上的表現(xiàn)進(jìn)行評(píng)價(jià),并將其與TransE、TransH和TransD方法在該任務(wù)上的表現(xiàn)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。在實(shí)驗(yàn)中,采用平均排名Mean Rank和前10位擊準(zhǔn)率Hits@10作為評(píng)價(jià)指標(biāo)[15]。對(duì)于含有預(yù)測(cè)實(shí)體的三元組,Mean Rank表示正確三元組的平均排名,Hits@10表示排名前10位中的正確三元組的占比。因此,Mean Rank越小,Hits@10越高,則模型性能越好??紤]到負(fù)例三元組構(gòu)建的隨機(jī)性,在下面兩個(gè)訓(xùn)練集上面進(jìn)行實(shí)驗(yàn):當(dāng)驗(yàn)證集或測(cè)試集中存在訓(xùn)練集中構(gòu)建的負(fù)例三元組時(shí),記訓(xùn)練集為“Raw”;當(dāng)去除與驗(yàn)證集或測(cè)試集存在沖突的負(fù)例三元組后,記該訓(xùn)練集為“Filter”。
表2 推理補(bǔ)全隱含/遺漏關(guān)系路徑結(jié)果
由表2看出,在推理補(bǔ)全隱含/遺漏關(guān)系路徑任務(wù)中,本文方法在Mean Rank和Hits@10兩項(xiàng)指標(biāo)上相比另外幾種模型均具有一定優(yōu)勢(shì)。特別是在Filter訓(xùn)練集上,在兩項(xiàng)指標(biāo)上均有明顯的改善。這表明本文方法能夠更好地通過推理來發(fā)現(xiàn)并補(bǔ)全知識(shí)圖譜結(jié)構(gòu)中的隱含與遺漏關(guān)系路徑。
知識(shí)圖譜補(bǔ)全任務(wù)最終可轉(zhuǎn)化為對(duì)三元組的分類任務(wù),即可通過測(cè)試集中各三元組的得分情況判別是否為正確三元組。三元組分類實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)是通過多次實(shí)驗(yàn)設(shè)定一個(gè)閾值δ,若三元組得分高于δ,則記為正確三元組,否則記為錯(cuò)誤三元組。進(jìn)而采用分類任務(wù)中的常用評(píng)價(jià)指標(biāo)準(zhǔn)確率P驗(yàn)證實(shí)驗(yàn)效果。針對(duì)三元組分類任務(wù)進(jìn)行了相應(yīng)實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如表3所示。
由表3不難發(fā)現(xiàn),相比現(xiàn)有的Trans系列方法,本文方法在三元組分類的準(zhǔn)確率上略有提高??梢姡谌腙P(guān)系描述的知識(shí)表示方法能夠優(yōu)化知識(shí)表示模型的學(xué)習(xí)效果,并且證明了本文方法在一定程度上能夠解決知識(shí)圖譜隨著數(shù)據(jù)實(shí)體和實(shí)體關(guān)系的快速擴(kuò)增所產(chǎn)生的數(shù)據(jù)稀疏問題。
表3 三元組分類實(shí)驗(yàn)結(jié)果Table 3 The results of the triple classification experiment
隨著互聯(lián)網(wǎng)信息的爆發(fā)式增長(zhǎng),其中的數(shù)據(jù)實(shí)體和實(shí)體關(guān)系存在著快速擴(kuò)增現(xiàn)象,原有的知識(shí)圖譜逐漸凸顯出了圖結(jié)構(gòu)稀疏、結(jié)點(diǎn)連通性不足等問題。提出一種基于路徑分析和關(guān)系描述的知識(shí)圖譜補(bǔ)全方法,結(jié)合領(lǐng)域知識(shí)圖譜語義信息及其結(jié)構(gòu)和類型,增強(qiáng)了知識(shí)圖譜對(duì)實(shí)體之間隱藏關(guān)系的發(fā)現(xiàn)能力,能夠很好地發(fā)現(xiàn)具有豐富價(jià)值的隱含知識(shí),使得從圖譜中自動(dòng)獲取知識(shí)情報(bào)更加有效。為了驗(yàn)證本文算法的有效性,根據(jù)泛娛樂領(lǐng)域知識(shí)數(shù)據(jù)構(gòu)建了泛娛樂情報(bào)領(lǐng)域知識(shí)圖譜,并在該圖譜上應(yīng)用本文方法對(duì)其進(jìn)行知識(shí)圖譜補(bǔ)全實(shí)驗(yàn)進(jìn)行驗(yàn)證。從實(shí)驗(yàn)結(jié)果可以看出,本文方法與目前流行的Trans系列方法相比,不僅提高了模型訓(xùn)練的效率,還能夠更好地推理補(bǔ)全知識(shí)圖譜中的隱含與遺漏路徑,在一定程度上能夠解決知識(shí)圖譜隨著數(shù)據(jù)實(shí)體和實(shí)體關(guān)系的快速擴(kuò)增所產(chǎn)生的數(shù)據(jù)稀疏問題,能夠幫助各互聯(lián)網(wǎng)企業(yè)更好地洞察行業(yè)趨勢(shì),實(shí)現(xiàn)更準(zhǔn)確的規(guī)劃。