朱杰
摘? 要:本體學(xué)習(xí)的數(shù)據(jù)源有多種多樣,其中基于文本的本體學(xué)習(xí)是目前本體學(xué)習(xí)中研究的重點(diǎn),該文從本體學(xué)習(xí)分類(lèi)、本體學(xué)習(xí)內(nèi)容、本體學(xué)習(xí)過(guò)程以及目前本體學(xué)習(xí)研究中存在的主要問(wèn)題等本體學(xué)習(xí)技術(shù)進(jìn)行了研究。本體越來(lái)越多的應(yīng)用在知識(shí)工程、人工智能等多個(gè)領(lǐng)域。目前本體采用的最廣泛的定義為“本體是共享概念模型的形式化規(guī)范說(shuō)明”。本體是描述某個(gè)領(lǐng)域甚至更廣范圍內(nèi)的概念及概念之間的關(guān)系,使得這些概念和關(guān)系在共享的范圍內(nèi)具有大家認(rèn)可的、明確的、唯一的定義,這樣,人機(jī)之間以及機(jī)器之間就可以進(jìn)行交流。目前本體的構(gòu)建基本都是基于手工方式完成的,手工構(gòu)建方式需要依靠專(zhuān)家意見(jiàn)和計(jì)算機(jī)技術(shù),雖然可以保證質(zhì)量,但費(fèi)時(shí)費(fèi)力,嚴(yán)重影響了本體的應(yīng)用推廣。本體學(xué)習(xí)是解決本體構(gòu)建的重要手段,它綜合使用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等技術(shù)自動(dòng)或半自動(dòng)地構(gòu)建本體。
關(guān)鍵詞:本體學(xué)習(xí)分類(lèi)? 本體學(xué)習(xí)內(nèi)容? 本體學(xué)習(xí)過(guò)程
中圖分類(lèi)號(hào):TPl81 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)10(a)-0255-02
1? 本體學(xué)習(xí)分類(lèi)
因本體學(xué)習(xí)中需要處理的數(shù)據(jù)源結(jié)構(gòu)的不同,本體學(xué)習(xí)技術(shù)分為以下三大類(lèi)。
1.1 基于結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)
面向結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)主要針對(duì)一些結(jié)構(gòu)規(guī)范、關(guān)聯(lián)明確的數(shù)據(jù)。主要包括關(guān)系數(shù)據(jù)庫(kù)等其他類(lèi)型數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
1.2 基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)
非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有固定結(jié)構(gòu),主要包括純文本、圖形、音視頻等。其中文本數(shù)據(jù)是大量存在并且非常重要的一類(lèi)非結(jié)構(gòu)化數(shù)據(jù)。由于文本數(shù)據(jù)含有豐富的語(yǔ)義信息,需要通過(guò)統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)等方向進(jìn)行本體學(xué)習(xí)。
1.3 基于半結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)
半結(jié)構(gòu)化數(shù)據(jù)是指缺乏嚴(yán)格結(jié)構(gòu)的數(shù)據(jù)。如Web中的HTML數(shù)據(jù)和XML數(shù)據(jù)。對(duì)這些數(shù)據(jù)可以綜合使用結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的處理方法進(jìn)行處理。
2? 本體學(xué)習(xí)內(nèi)容
Alexander Maedche等[1]將本體的結(jié)構(gòu)描述為一個(gè)五元組:O:={C,R,Hc,rel,Ao},其中C表示概念集合、R表示關(guān)系集合、Hc表示概念間的分類(lèi)關(guān)系,rel表示非分類(lèi)關(guān)系,Ao表示本體的公理集合。因此,概念的獲取、概念關(guān)系的獲取以及公理是本體學(xué)習(xí)研究的重點(diǎn)內(nèi)容。
2.1 概念的抽取
從純文本中抽取概念是利用本體學(xué)習(xí)技術(shù)進(jìn)行構(gòu)建本體的關(guān)鍵。
2.1.1 基于語(yǔ)言學(xué)方法
通過(guò)分析概念、術(shù)語(yǔ)的詞法規(guī)則,構(gòu)建相關(guān)匹配模板,然后利用匹配模板進(jìn)行概念抽取。這種方法的主要依據(jù)是:領(lǐng)域概念具有特殊的語(yǔ)法模板或語(yǔ)法結(jié)構(gòu),而且這是和特定語(yǔ)言相關(guān)聯(lián)的。
2.1.2 基于統(tǒng)計(jì)的方法
利用特定領(lǐng)域概念出現(xiàn)的頻率來(lái)抽取領(lǐng)域概念。這種方法的依據(jù)是:普通詞匯和領(lǐng)域詞匯之間在統(tǒng)計(jì)特征上是有很大差別的,這種方法可以識(shí)別領(lǐng)域概念。
2.1.3 混合方法
混合方法是將語(yǔ)言學(xué)和統(tǒng)計(jì)學(xué)的方法結(jié)合起來(lái),利用兩種方法的優(yōu)點(diǎn)來(lái)進(jìn)行相關(guān)概念的抽取。
根據(jù)目前的研究狀況,國(guó)內(nèi)外研究中只要是基于統(tǒng)計(jì)的方法。
2.2 概念關(guān)系的抽取
杜小勇等人[2]在獲取本體中概念之間關(guān)系時(shí)主要考慮兩種類(lèi)型的關(guān)系: 分類(lèi)關(guān)系和非分類(lèi)關(guān)系。其中分類(lèi)關(guān)系是構(gòu)成本體的基本骨架,使得本體具有明確的層次結(jié)構(gòu),目前常用的分類(lèi)關(guān)系包含以下幾種。
(1)基于模板的方法。
基于模板的方法是對(duì)相關(guān)領(lǐng)域文檔進(jìn)行分析,總結(jié)出那些頻繁出現(xiàn)的模式作為規(guī)則,對(duì)文本中的詞序列與某個(gè)模式進(jìn)行匹配判斷,若含有則識(shí)別出相應(yīng)的關(guān)系。采用基于規(guī)則的方法優(yōu)點(diǎn)是:可將符合規(guī)則的語(yǔ)言模式準(zhǔn)確地匹配出來(lái);缺點(diǎn)是:由于語(yǔ)言的復(fù)雜性及多樣性,匹配的準(zhǔn)確度相對(duì)較低。
(2)概念聚類(lèi)的方法。
聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí),能夠?qū)⑾嗨频膶?duì)象歸到同一類(lèi)中。聚類(lèi)時(shí)對(duì)概念間的語(yǔ)義距離進(jìn)行計(jì)算,依據(jù)數(shù)據(jù)對(duì)象的相似性進(jìn)行分類(lèi)。目前主要的聚類(lèi)方法有[3]:層次聚類(lèi)算法、劃分式聚類(lèi)算法、基于網(wǎng)格和密度的聚類(lèi)算法等。
2.3 公理的學(xué)習(xí)
當(dāng)前對(duì)公理的學(xué)習(xí)還比較少,這也是本體學(xué)習(xí)后續(xù)需要重點(diǎn)研究的方向。
2.3.1 本體學(xué)習(xí)過(guò)程
圖1是本體學(xué)習(xí)系統(tǒng)框架,在該框架下本體學(xué)習(xí)的主要步驟。
(1)預(yù)處理模塊:將各種數(shù)據(jù)源進(jìn)行分詞、詞性標(biāo)注等預(yù)處理。
(2)學(xué)習(xí)模塊:利用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)等算法進(jìn)行本體學(xué)習(xí)。
(3)將學(xué)習(xí)得到的本體呈現(xiàn)給用戶(hù)。
(4)用戶(hù)采用評(píng)價(jià)、編輯模塊對(duì)本體學(xué)習(xí)結(jié)果進(jìn)行判斷與評(píng)價(jià)。
(5)將學(xué)習(xí)完成的本體添加到本體庫(kù)中。
2.3.2 本體學(xué)習(xí)研究中存在的問(wèn)題
目前本體學(xué)習(xí)主要面向的是領(lǐng)域本體,可擴(kuò)展性不強(qiáng),很難直接應(yīng)用于其他領(lǐng)域,但對(duì)于一般通用本體的自動(dòng)、半自動(dòng)構(gòu)建研究不多。目前概念關(guān)系的抽取主要是分類(lèi)關(guān)系,對(duì)于非分類(lèi)關(guān)系的抽取研究不夠深入,并且現(xiàn)有的方法主要依靠淺層語(yǔ)言處理,很難發(fā)現(xiàn)概念之間深層次的關(guān)系[4]。目前本體學(xué)習(xí)工具的功能都比較簡(jiǎn)單,由于中文的復(fù)雜性,比如中文分詞問(wèn)題、一詞多性、一詞多義等,目前針對(duì)中文的本體學(xué)習(xí)工具很少,并且基本都處于原型階段。目前對(duì)本體學(xué)習(xí)效果的評(píng)價(jià)標(biāo)準(zhǔn)還比較缺乏,如何對(duì)本體學(xué)習(xí)結(jié)果進(jìn)行評(píng)價(jià),是后續(xù)需要重點(diǎn)研究的方向。
參考文獻(xiàn)
[1] Maedche A,Staab S.Ontology Learning for the Semantic Web[A].In:Proceedings of the IEEE Intelligent Systems[C].2001.
[2] 杜小勇,李曼,王珊,等.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào),2006,17(9):1837-1847.
[3] 孫吉貴,劉杰,趙連宇,等.聚類(lèi)算法研究[J].軟件學(xué)報(bào),2008,19(1):48-61.
[4] 劉柏嵩,高濟(jì).面向知識(shí)網(wǎng)格的本體學(xué)習(xí)研究[J].計(jì)算機(jī)工程與應(yīng)用,2005(20):1-5.
[5] Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering,PrineiPlesAnd methods[J].Data and Knowledge Engineering,1998(25):161-197.