高國偉 王亞杰 李永先
[摘要]隨著數(shù)據(jù)和信息的日益增長,找到恰當(dāng)?shù)闹R已成為真正的挑戰(zhàn)和急待解決的任務(wù)。如何表示知識元則是實現(xiàn)知識檢索的關(guān)鍵問題,這一問題一直困擾著人們從數(shù)據(jù)檢索、信息檢索向知識檢索跨越。本文在對現(xiàn)有知識元表示研究評述的基礎(chǔ)上,提出了“概念、關(guān)系、問題”三元組的知識元表示方法,介紹了該方法的特點,并分別對概念、關(guān)系、問題表示進(jìn)行了形式化描述,最后通過應(yīng)用實例證明了該表示方法的有效性和實用性。
[關(guān)鍵詞]知識檢索;知識元;知識元表示;知識庫
DOI:10.3969/j.issn.1038-0821.2015.03.003
[中圖分類號]G302 [文獻(xiàn)標(biāo)識碼]A [文章編號]1008-0821(2015)03-0015-04
知識元的表示是一個符號化和形式化的過程,如何構(gòu)建相應(yīng)的知識元形式化描述方法和知操作方法是實現(xiàn)知識檢索的關(guān)鍵問題。隨著知識管理領(lǐng)域的不斷發(fā)展,眾多學(xué)者提出不同的知識元表示方法,并在知識元研究領(lǐng)域取得了一定進(jìn)展。文獻(xiàn)[2]提出用樹結(jié)構(gòu)來組織和表示知識元;文獻(xiàn)[3]采用了框架表示法,利用二元組標(biāo)記知識元;文獻(xiàn)[4]采用面向?qū)ο蠓?,利用三元組表示數(shù)值型知識元的結(jié)構(gòu);文獻(xiàn)[5]采用基于本體的知識表示方法建立文本知識元的抽取實驗提出了四層知識元模型;文獻(xiàn)[6]采用謂詞邏輯表示法,利用五元組來表示知識元的結(jié)構(gòu);文獻(xiàn)[7]采用產(chǎn)生式表示法,利用六元組表示數(shù)值型知識元;文獻(xiàn)[8-9]定義了一個七元組知識元模型:KE:=(id,T,CT,st,tc,title,did);文獻(xiàn)[10]抽象地給出了一系列關(guān)于模型和知識的概念,進(jìn)而提出了模型知識元的概念;文獻(xiàn)[11]給出面向非常規(guī)突發(fā)事件演化分析的知識元表示模型;文獻(xiàn)[12]通過不同層次模型參數(shù)與知識元屬性之間的映射,實現(xiàn)通過模型組合網(wǎng)絡(luò)進(jìn)行模型組合。
以上研究為知識元表示方法提供了很好的研究思路和方法,但仍存在以下問題:(1)二元組、三元組表示方法局限于文本知識元的表示及建構(gòu),僅側(cè)重于對知識元客體的描述,忽略了對知識元之間關(guān)系的表達(dá);(2)四元組、六元組、七元組的表示方法,使得知識元的結(jié)構(gòu)化程度日益增高的同時,表達(dá)方式顯得冗長,知識元之間關(guān)系的描述工作量大,造成推理不完備的隱患;也增加了計算機(jī)對自然語言處理的難度,造成在實際的中文文本知識元抽取過程中,計算機(jī)對語義內(nèi)容的誤解,使得知識元抽取的準(zhǔn)確率下降,造成文本結(jié)構(gòu)的破壞。
本文借鑒本體論和認(rèn)識論,從客觀知識世界本原角度出發(fā),從實體和關(guān)系層面約束知識元,進(jìn)而對這些約束的知識元進(jìn)行分析,在模型知識元的基礎(chǔ)上,進(jìn)行相應(yīng)擴(kuò)展,提出了“概念、關(guān)系、問題”的知識元表示方法。該表示方法主要揭示了知識元屬性間約束,以及知識元之間的關(guān)系,對知識元的粒度性做出形式化的描述,從根本上提高了計算機(jī)對文本知識元抽取的準(zhǔn)確率。endprint