• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本的本體學(xué)習(xí)技術(shù)研究

      2019-12-10 09:02:16朱杰
      科技資訊 2019年28期

      朱杰

      摘? 要:本體學(xué)習(xí)的數(shù)據(jù)源有多種多樣,其中基于文本的本體學(xué)習(xí)是目前本體學(xué)習(xí)中研究的重點(diǎn),該文從本體學(xué)習(xí)分類(lèi)、本體學(xué)習(xí)內(nèi)容、本體學(xué)習(xí)過(guò)程以及目前本體學(xué)習(xí)研究中存在的主要問(wèn)題等本體學(xué)習(xí)技術(shù)進(jìn)行了研究。本體越來(lái)越多的應(yīng)用在知識(shí)工程、人工智能等多個(gè)領(lǐng)域。目前本體采用的最廣泛的定義為“本體是共享概念模型的形式化規(guī)范說(shuō)明”。本體是描述某個(gè)領(lǐng)域甚至更廣范圍內(nèi)的概念及概念之間的關(guān)系,使得這些概念和關(guān)系在共享的范圍內(nèi)具有大家認(rèn)可的、明確的、唯一的定義,這樣,人機(jī)之間以及機(jī)器之間就可以進(jìn)行交流。目前本體的構(gòu)建基本都是基于手工方式完成的,手工構(gòu)建方式需要依靠專(zhuān)家意見(jiàn)和計(jì)算機(jī)技術(shù),雖然可以保證質(zhì)量,但費(fèi)時(shí)費(fèi)力,嚴(yán)重影響了本體的應(yīng)用推廣。本體學(xué)習(xí)是解決本體構(gòu)建的重要手段,它綜合使用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等技術(shù)自動(dòng)或半自動(dòng)地構(gòu)建本體。

      關(guān)鍵詞:本體學(xué)習(xí)分類(lèi)? 本體學(xué)習(xí)內(nèi)容? 本體學(xué)習(xí)過(guò)程

      中圖分類(lèi)號(hào):TPl81 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)10(a)-0255-02

      1? 本體學(xué)習(xí)分類(lèi)

      因本體學(xué)習(xí)中需要處理的數(shù)據(jù)源結(jié)構(gòu)的不同,本體學(xué)習(xí)技術(shù)分為以下三大類(lèi)。

      1.1 基于結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)

      面向結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)主要針對(duì)一些結(jié)構(gòu)規(guī)范、關(guān)聯(lián)明確的數(shù)據(jù)。主要包括關(guān)系數(shù)據(jù)庫(kù)等其他類(lèi)型數(shù)據(jù)庫(kù)中的數(shù)據(jù)。

      1.2 基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)

      非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有固定結(jié)構(gòu),主要包括純文本、圖形、音視頻等。其中文本數(shù)據(jù)是大量存在并且非常重要的一類(lèi)非結(jié)構(gòu)化數(shù)據(jù)。由于文本數(shù)據(jù)含有豐富的語(yǔ)義信息,需要通過(guò)統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)等方向進(jìn)行本體學(xué)習(xí)。

      1.3 基于半結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)

      半結(jié)構(gòu)化數(shù)據(jù)是指缺乏嚴(yán)格結(jié)構(gòu)的數(shù)據(jù)。如Web中的HTML數(shù)據(jù)和XML數(shù)據(jù)。對(duì)這些數(shù)據(jù)可以綜合使用結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的處理方法進(jìn)行處理。

      2? 本體學(xué)習(xí)內(nèi)容

      Alexander Maedche等[1]將本體的結(jié)構(gòu)描述為一個(gè)五元組:O:={C,R,Hc,rel,Ao},其中C表示概念集合、R表示關(guān)系集合、Hc表示概念間的分類(lèi)關(guān)系,rel表示非分類(lèi)關(guān)系,Ao表示本體的公理集合。因此,概念的獲取、概念關(guān)系的獲取以及公理是本體學(xué)習(xí)研究的重點(diǎn)內(nèi)容。

      2.1 概念的抽取

      從純文本中抽取概念是利用本體學(xué)習(xí)技術(shù)進(jìn)行構(gòu)建本體的關(guān)鍵。

      2.1.1 基于語(yǔ)言學(xué)方法

      通過(guò)分析概念、術(shù)語(yǔ)的詞法規(guī)則,構(gòu)建相關(guān)匹配模板,然后利用匹配模板進(jìn)行概念抽取。這種方法的主要依據(jù)是:領(lǐng)域概念具有特殊的語(yǔ)法模板或語(yǔ)法結(jié)構(gòu),而且這是和特定語(yǔ)言相關(guān)聯(lián)的。

      2.1.2 基于統(tǒng)計(jì)的方法

      利用特定領(lǐng)域概念出現(xiàn)的頻率來(lái)抽取領(lǐng)域概念。這種方法的依據(jù)是:普通詞匯和領(lǐng)域詞匯之間在統(tǒng)計(jì)特征上是有很大差別的,這種方法可以識(shí)別領(lǐng)域概念。

      2.1.3 混合方法

      混合方法是將語(yǔ)言學(xué)和統(tǒng)計(jì)學(xué)的方法結(jié)合起來(lái),利用兩種方法的優(yōu)點(diǎn)來(lái)進(jìn)行相關(guān)概念的抽取。

      根據(jù)目前的研究狀況,國(guó)內(nèi)外研究中只要是基于統(tǒng)計(jì)的方法。

      2.2 概念關(guān)系的抽取

      杜小勇等人[2]在獲取本體中概念之間關(guān)系時(shí)主要考慮兩種類(lèi)型的關(guān)系: 分類(lèi)關(guān)系和非分類(lèi)關(guān)系。其中分類(lèi)關(guān)系是構(gòu)成本體的基本骨架,使得本體具有明確的層次結(jié)構(gòu),目前常用的分類(lèi)關(guān)系包含以下幾種。

      (1)基于模板的方法。

      基于模板的方法是對(duì)相關(guān)領(lǐng)域文檔進(jìn)行分析,總結(jié)出那些頻繁出現(xiàn)的模式作為規(guī)則,對(duì)文本中的詞序列與某個(gè)模式進(jìn)行匹配判斷,若含有則識(shí)別出相應(yīng)的關(guān)系。采用基于規(guī)則的方法優(yōu)點(diǎn)是:可將符合規(guī)則的語(yǔ)言模式準(zhǔn)確地匹配出來(lái);缺點(diǎn)是:由于語(yǔ)言的復(fù)雜性及多樣性,匹配的準(zhǔn)確度相對(duì)較低。

      (2)概念聚類(lèi)的方法。

      聚類(lèi)是一種無(wú)監(jiān)督學(xué)習(xí),能夠?qū)⑾嗨频膶?duì)象歸到同一類(lèi)中。聚類(lèi)時(shí)對(duì)概念間的語(yǔ)義距離進(jìn)行計(jì)算,依據(jù)數(shù)據(jù)對(duì)象的相似性進(jìn)行分類(lèi)。目前主要的聚類(lèi)方法有[3]:層次聚類(lèi)算法、劃分式聚類(lèi)算法、基于網(wǎng)格和密度的聚類(lèi)算法等。

      2.3 公理的學(xué)習(xí)

      當(dāng)前對(duì)公理的學(xué)習(xí)還比較少,這也是本體學(xué)習(xí)后續(xù)需要重點(diǎn)研究的方向。

      2.3.1 本體學(xué)習(xí)過(guò)程

      圖1是本體學(xué)習(xí)系統(tǒng)框架,在該框架下本體學(xué)習(xí)的主要步驟。

      (1)預(yù)處理模塊:將各種數(shù)據(jù)源進(jìn)行分詞、詞性標(biāo)注等預(yù)處理。

      (2)學(xué)習(xí)模塊:利用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)等算法進(jìn)行本體學(xué)習(xí)。

      (3)將學(xué)習(xí)得到的本體呈現(xiàn)給用戶(hù)。

      (4)用戶(hù)采用評(píng)價(jià)、編輯模塊對(duì)本體學(xué)習(xí)結(jié)果進(jìn)行判斷與評(píng)價(jià)。

      (5)將學(xué)習(xí)完成的本體添加到本體庫(kù)中。

      2.3.2 本體學(xué)習(xí)研究中存在的問(wèn)題

      目前本體學(xué)習(xí)主要面向的是領(lǐng)域本體,可擴(kuò)展性不強(qiáng),很難直接應(yīng)用于其他領(lǐng)域,但對(duì)于一般通用本體的自動(dòng)、半自動(dòng)構(gòu)建研究不多。目前概念關(guān)系的抽取主要是分類(lèi)關(guān)系,對(duì)于非分類(lèi)關(guān)系的抽取研究不夠深入,并且現(xiàn)有的方法主要依靠淺層語(yǔ)言處理,很難發(fā)現(xiàn)概念之間深層次的關(guān)系[4]。目前本體學(xué)習(xí)工具的功能都比較簡(jiǎn)單,由于中文的復(fù)雜性,比如中文分詞問(wèn)題、一詞多性、一詞多義等,目前針對(duì)中文的本體學(xué)習(xí)工具很少,并且基本都處于原型階段。目前對(duì)本體學(xué)習(xí)效果的評(píng)價(jià)標(biāo)準(zhǔn)還比較缺乏,如何對(duì)本體學(xué)習(xí)結(jié)果進(jìn)行評(píng)價(jià),是后續(xù)需要重點(diǎn)研究的方向。

      參考文獻(xiàn)

      [1] Maedche A,Staab S.Ontology Learning for the Semantic Web[A].In:Proceedings of the IEEE Intelligent Systems[C].2001.

      [2] 杜小勇,李曼,王珊,等.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào),2006,17(9):1837-1847.

      [3] 孫吉貴,劉杰,趙連宇,等.聚類(lèi)算法研究[J].軟件學(xué)報(bào),2008,19(1):48-61.

      [4] 劉柏嵩,高濟(jì).面向知識(shí)網(wǎng)格的本體學(xué)習(xí)研究[J].計(jì)算機(jī)工程與應(yīng)用,2005(20):1-5.

      [5] Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering,PrineiPlesAnd methods[J].Data and Knowledge Engineering,1998(25):161-197.

      蓬安县| 枣强县| 桐梓县| 锡林郭勒盟| 阿克陶县| 乐平市| 铜陵市| 德庆县| 凤城市| 桐城市| 海伦市| 商河县| 信宜市| 库车县| 库伦旗| 延吉市| 淮北市| 固安县| 徐水县| 榆社县| 娄烦县| 南投县| 南木林县| 琼结县| 华蓥市| 荆门市| 丰顺县| 绵竹市| 亚东县| 花垣县| 渝北区| 双峰县| 常德市| 神农架林区| 八宿县| 威海市| 桐城市| 梁平县| 鹿泉市| 老河口市| 加查县|