錢涵笑,韓 斌
(江蘇科技大學計算機學院,江蘇 鎮(zhèn)江 212000)
智能化應用的深入研究令包含海量知識內容的知識圖譜成為滿足用戶實際信息應用需求的主要工具[1],被普遍應用于各個領域中。知識圖譜利用資源表達框架數據模型,以圖結構形式展示知識[2],圖內節(jié)點與有向邊可分別代表不同類別的實體和實體間的關系。用戶在利用知識圖譜獲取所需信息的過程中,通過在知識庫內檢索實體關系獲取相關信息的實際答案[3]。但實體關系檢索過程中由于知識庫內文檔包含大量碎片化信息,導致當前普遍使用的基于圖數據庫的實體關系檢索方法和結合實體詞與句子語義的實體關系檢索方法等[4,5]均存在效率差以及檢索效果不佳等問題。針對此類問題,研究一種基于本體的低冗余知識圖譜實體關系檢索方法,期望通過所研究方法為知識圖譜應用的拓展提供新的研究方向。
基于本體的低冗余知識圖譜實體關系檢索方法體系架構如圖1所示,由左向右可劃分為三個主要部分,分別是:數據源、圖譜及索引構建與檢索應用。
圖1 實體關系檢索方法體系架構
2.2.1 本體模型關系構建
1)本體模型構建
數據源內包含的各類基礎數據大多存在不同種類的本體模型,這些本體存儲過程中的單位一般為表,不同本體間的相關性構建以主外鍵為工具[6,7]。在獲取數據表內全部表結構的基礎上,依照表的存儲信息構建本體模型,利用字段間的相關性在本體模型內引入關聯信息,構建若干個具有對象對立特征的本體模型[8],以此提升數據源內數據結構信息獲取的速度,并依照需求訪問數據。
2)本體模型關系構建
圖2所示為個體本體與組織本體間的相關性。
圖2 個體與組織本體模型關系
成功構建本體模型后將產生若干個具有獨立特征的本體,這些本體間具有較大相關性,這些相關性在數據源內通常以關聯表形式展示[9]。在構建個體與組織本體模型關系時采用基于知識圖譜的本體模型關系構建方法,詳細過程如下:
1)選取需構建相關性的若干個數據模型,模型數量可表示為M1,M2,M3,…,MN。
2)確定不同模型的相關性字段,構建字段間的相關性。
3)在圖數據庫內存儲本體模型關系,其中包含本體模型的字段信息、具有相關性的模型名稱與參數等。
2.2.2 實體關系構建
完成本體模型關系構建后,即可依照關系參數構建實體關系,詳細構建過程如下:
1)利用統一的數據訪問接口獲取全部參與實體關系構建中各本體模型的全部數據;
2)為提升全部數據表現的直觀性,依照數據庫內表與表內字段的描述轉換實體數據屬性名(由英文轉換為中文);
3)在圖數據庫內存儲全部本體模型的實體數據;
4)構建實體關系,具體構建過程中以本體模型的相關參數為依據[10];
5)循環(huán)1)—4)過程,至全部本體模型關系均完成對應實體關系構建為止。
知識圖譜數據量的顯著提升,令其中包含的實體數量顯著提升,在部分需直觀展示實體信息的應用中,以防止產生用戶信息過載及滿足展示空間約束為目的[11,12],需采用ESSTER法生成具有高可讀性和低冗余性的實體摘要。
2.3.1 結構重要性
知識圖譜內屬性的流行度可描述其通用性,能夠表現此知識圖譜內著重關注的關鍵含義。針對存在高流行度屬性的三元組,區(qū)分當前實體和知識圖譜內其他實體較為困難,用y表示三元組,ppopg(y)∈[0,1]和vpop(y)∈[0,1]分別表示知識圖譜內y屬性的整體流行度和取值的流行度,則可利用式(1)描述此類度量
ch(y)=ppopg(y)·(1-vpop(y))
(1)
為提升實體摘要內容的多樣性,可依照局部結構內屬性的流行度劃分多值屬性,設置相應懲罰。同時針對高流行度的取值可設置相應獎勵,以防止所選y存在過度偏重技術應用的問題。利用ppopl(y)∈[0,1]表示y的屬性在實體描述所對應局部結構內的流行度,其計算過程如下
div(y)=(1-ppopl(y))·vpop(y)
(2)
為優(yōu)化知識圖譜內不同數據集對整體流行度與局部流行度偏好的差異性,引入參數φ∈[0,1],由此可利用式(3)確定y的重要性
Ws(y)=φ·ch(y)+(1-φ)·div(y)
(3)
2.3.2 文本可讀性
量化知識圖譜內文本可讀性,可確定不同y在用戶閱讀感受上的差異性。以G(y)表示y的可讀性,其計算過程需以屬性prop(y)的文本為基礎,不同屬性的理解對知識儲備的需求也有所差異。在仿真用戶日常閱讀環(huán)境時需參考開放域文本語料,若語料內文檔數量為B,則b(y)和n(y)分別能夠分別表示語料庫內文檔屬性為prop(y)的文本的數量和b(y)個文檔內用戶可獲取的文檔數量。由此可將G(y)理解為n(y)的函數,公式描述如下
G(y)=familiarity(n(y))
(4)
式(4)內,familiarity表示與n(y)相關的非遞減函數,其取值范圍為[0,1],其計算過程如下
(5)
實際應用過程中,可將G(y)作為y分值確定的輔助權重。通過對數函數優(yōu)化G(y)的取值,可防止其取值分布傾斜過量導致的懲罰過度問題,優(yōu)化后知識圖譜內文本可讀性權重計算公式如下
Wt=log(G(y)+1)
(6)
2.3.3 低冗余度
1)由于本體知識存在屬性與類別間的相關性,因此,可基于本體知識確定邏輯冗余。實體關系表示過程中,屬性為rdf:type的y可表示實體關系所屬類別,假設兩個y表示的實體關系類別具有相關性,那么以其中一個y為基礎可推導獲取另一個y,由此確定這兩個y間具有邏輯冗余。
2)針對其他冗余關系,分別確定y屬性間或取值間的一致度確定其冗余程度。以simp(yi,yj)∈[-1,1]和simv(yi,yj)∈[-1,1]分別表示兩個y屬性間的一致度和取值間的一致度,可分別通過字符串一致度指標和數值大小獲取。
3)以ovlp(yi,yj)∈[0,1]表示基于以上過程獲取的兩個y間的冗余度,其值與兩個y間冗余度呈正比例相關。通過實體關系內y間成對冗余度確定實體摘要冗余度。
2.3.4 實體關系檢索實現
以S表示實體摘要,基于上述各指標的量化方式,可利用式(7)表示S的質量分值,將其作為生成高重要性、高可讀性與低冗余性實體摘要的依據。
(7)
式(8)內,λ表示待調參數,其取值范圍為[0,1],主要功能是優(yōu)化實體摘要對冗余的認可度。設定score(S)閾值,當計算score(S)值高于閾值時即可確定所生成的實體摘要滿足低冗余要求。
針對所生成的低冗余實體關系摘要構建索引,依照低冗余摘要索引類別快速檢索知識圖譜內的數據與文檔數據中的實體關系。
實驗為驗證本文所提出的基于本體的低冗余知識圖譜實體關系檢索方法在實際知識圖譜實體關系檢索中的應用效果,利用Java語言在Elasticsearch系統之上對本文方法進行仿真實驗。選取油茶樹為仿真對象,采用本文方法構建油茶知識圖譜,采用本文方法檢索油茶樹知識圖譜內的實體關系,實驗結果如下。
針對仿真對象油茶樹,采用本文方法構建其知識圖譜,圖3所示為仿真對象知識本體模型。
圖3 實驗對象知識本體模型
圖3所示的仿真對象知識本體模型內包含實驗對象培育、加工與應用全產業(yè)鏈的知識,其中“工作單位”“研究成果”“培育人”“發(fā)明人”“作者”與“來源”均為本文方法所生成的低冗余實體摘要。知識本體內包含的不同類別數據均來自于國家相關部門或平臺文件數據。
基于圖3所示的知識本體模型,依照關系參數構建實驗對象實體關系。針對知識本體模型內包含的工作單位與研究成果數據集,以二值相關度、召回率以及平均準確率均值為判斷指標判斷本文方法檢索結果,各指標值與實體關系檢索結果之間呈正比例相關,也就是判斷指標值越高,本文方法實體關系檢索性能越好。表1所示為本文方法實體關系檢索結果。
表1 本文方法實體關系檢索結果
分析表1得到,采用本文方法對本體模型中包含的兩個主要數據集進行實體關系索引,本文方法下實體關系檢索的二值相關度等各指標值均在0.8以上,滿足實際應用需求,說明本文方法具有較好的實體關系檢索效果。
為進一步驗證本文方法知識圖譜實體關系檢索的性能,選取文獻[4]中基于圖數據庫的實體關系檢索方法和文獻[5]中結合實體詞與句子語義的實體關系檢索方法為對比方法,采用對比方法檢索兩個主要數據集內的實體關系,兩種對比方法實體關系檢索結果的各判斷指標如表2所示。
表2 兩種對比方法實體關系檢索結果
結合表1與表2內數據可知,采用結合實體詞與句子語義的實體關系檢索方法檢索數據集內實體關系時,二值相關度指標結果稍高于本文方法,但召回率與平均準確率均值均低于本文方法與基于圖數據庫的實體關系檢索方法;而基于圖數據庫的實體關系檢索方法與本文方法相比各判斷指標值均有一定差距。上述實驗結果可充分說明本文方法具有較好的實體關系檢索性能。
本文方法中采用低冗余實體摘要生成方法生成知識圖譜內實體關系摘要。以F-measure為衡量實體關系摘要質量的指標,以S′和S*分別為生成時實體關系摘要與理想實體關系摘要,對比本文方法與兩種對比方法針對工作單位與研究成果數據集所生成的實體關系摘要質量,結果如表3所示。
衡量指標計算過程如下:
(8)
(9)
(10)
表3為不同方法下實體關系摘要質量對比結果。
表3 實體關系摘要質量對比結果
分析表3得到,三種不同方法所生成的實體關系摘要質量排序為:本文方法>結合實體詞與句子語義的實體關系檢索方法>基于圖數據庫的實體關系檢索方法;三種不同方法檢索實體關系摘要所花費的時間排序為:結合實體詞與句子語義的實體關系檢索方法>基于圖數據庫的實體關系檢索方法>本文方法。由此可知本文方法所生成的實體關系摘要質量高于對比方法,并且可以顯著提升實體關系摘要檢索的效率。
本文研究基于本體的低冗余知識圖譜實體關系檢索方法,基于本體與實體關系構建知識圖譜,采用低冗余摘要生成方法生成實體關系摘要。仿真結果顯示本文方法具有較好的檢索性能,說明該方法具有較高的應用價值。