• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞語(yǔ)共現(xiàn)的改進(jìn)的本體構(gòu)建方法研究

      2014-12-16 03:12:12裴厚偉丁沖沖
      電腦知識(shí)與技術(shù) 2014年32期

      裴厚偉 丁沖沖

      摘要:本體在處理海量異構(gòu)信息,實(shí)現(xiàn)知識(shí)的共享和復(fù)用,更好的實(shí)現(xiàn)語(yǔ)義的推理有著天然的優(yōu)越性,然而目前本體構(gòu)建的過程仍然需要大量的人工參與,因此如何實(shí)現(xiàn)本體的自動(dòng)構(gòu)建正成為學(xué)術(shù)界研究的熱點(diǎn)問題。該文提出了一種改進(jìn)的基于詞語(yǔ)共現(xiàn)的領(lǐng)域本體構(gòu)建方法,實(shí)驗(yàn)表明,該構(gòu)建方法對(duì)于解決本體構(gòu)建問題有著較好的可信度。

      關(guān)鍵詞:領(lǐng)域本體;自動(dòng)構(gòu)建;詞語(yǔ)共現(xiàn)

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7562-05

      本體這一概念最早起源于哲學(xué)領(lǐng)域,其最初出現(xiàn)是為了回答萬(wàn)物本質(zhì)問題,后被引入計(jì)算機(jī)領(lǐng)域。目前針對(duì)本體尚無(wú)一種統(tǒng)一的定義,Gruber認(rèn)為本體是形式化的,對(duì)于共享概念體系的明確而又詳細(xì)的說(shuō)明[1]。Studer擴(kuò)展了此概念,他認(rèn)為本體是共享概念模型的明確的形式化規(guī)范說(shuō)明[2]。作為一種能在語(yǔ)義和知識(shí)層次上描述領(lǐng)域知識(shí)的有效工具,本體在知識(shí)表示、電子商務(wù)、人工智能、圖書情報(bào)上有著廣泛的應(yīng)用價(jià)值。但是目前真正投入使用的本體還很少。其主要原因是本體大多依靠領(lǐng)域?qū)<覅⑴c手動(dòng)構(gòu)建,費(fèi)時(shí)費(fèi)力,因此如何利用現(xiàn)有技術(shù),實(shí)現(xiàn)本體的自動(dòng)構(gòu)建越來(lái)越受到人們的關(guān)注。

      目前針對(duì)本體自動(dòng)構(gòu)建主要有兩種方法:第一種是利用現(xiàn)成的語(yǔ)料庫(kù)進(jìn)行概念及關(guān)系獲取,如Philipp Cimiano[3],Roberto Navigli[4]等利用領(lǐng)域詞典WordNet獲取概念以及概念之間關(guān)系,其本體構(gòu)建結(jié)果往往高度依賴于詞典本身,國(guó)內(nèi)劉柏嵩[5],肖奎[6]等也針對(duì)此方法進(jìn)行了相關(guān)研究。另一種方法直接從信息源進(jìn)行抽取,具體方法主要可分為:基于統(tǒng)計(jì)學(xué)方法、基于規(guī)則匹配方法、基于關(guān)聯(lián)規(guī)則方法。其中前兩種方法較為主流,其主要原因是基于關(guān)聯(lián)規(guī)則方法往往具有較高的時(shí)間復(fù)雜度,同時(shí)構(gòu)建結(jié)果亦不理想。Navigli R[7]、Dan Crow [8]使用預(yù)定義的規(guī)則,針對(duì)非結(jié)構(gòu)數(shù)據(jù)進(jìn)行規(guī)則匹配,以此實(shí)現(xiàn)本體自動(dòng)構(gòu)建。耿騫[9]利用詞語(yǔ)共現(xiàn)獲取領(lǐng)域概念,是該方法仍然需要利用詞典進(jìn)行分詞,同時(shí)對(duì)字典的層次結(jié)構(gòu)有嚴(yán)格的要求。

      本文提出了一種改進(jìn)的本體構(gòu)建方法,從圖情文獻(xiàn)數(shù)據(jù)庫(kù)抽取領(lǐng)域知識(shí),利用詞語(yǔ)共現(xiàn)以及改進(jìn)的有向親和系數(shù)實(shí)現(xiàn)領(lǐng)域本體的自動(dòng)構(gòu)建,并給出了可視化實(shí)驗(yàn)結(jié)果。

      1 基本思路

      本體自動(dòng)構(gòu)建主要包括術(shù)語(yǔ)的自動(dòng)抽取及術(shù)語(yǔ)關(guān)系的獲取。

      術(shù)語(yǔ)的抽取的研究方法有基于規(guī)則[10]、基于統(tǒng)計(jì)學(xué)[11]以及二者融合的方法[12]。對(duì)于情報(bào)領(lǐng)域領(lǐng)等專業(yè)學(xué)科領(lǐng)域,關(guān)鍵詞是較為有效地本體術(shù)語(yǔ)。然而一篇學(xué)術(shù)文獻(xiàn)的關(guān)鍵詞往往較少,這對(duì)于構(gòu)建術(shù)語(yǔ)關(guān)系遠(yuǎn)遠(yuǎn)不夠,因此必須設(shè)計(jì)出一種關(guān)鍵詞擴(kuò)展方法用以獲得更多的關(guān)鍵詞信息。

      術(shù)語(yǔ)關(guān)系抽取是指從一定規(guī)模的語(yǔ)料庫(kù)中抽取出反應(yīng)某一領(lǐng)域文本特征的兩兩詞語(yǔ)間的語(yǔ)義關(guān)系。目前,針對(duì)術(shù)語(yǔ)關(guān)系抽取方法,總體上可以分為3種:手工獲取方法、模版匹配方法、統(tǒng)計(jì)學(xué)方法。手工獲取方法需要大量專家參與,效率低。模版匹配方法需要提前定義好一組通用性較強(qiáng)并且要求模版無(wú)歧義,對(duì)模版依賴性強(qiáng)。統(tǒng)計(jì)學(xué)方法是目前主流的術(shù)語(yǔ)關(guān)系抽取方法,根據(jù)一些經(jīng)典的統(tǒng)計(jì)分布方法,給出術(shù)語(yǔ)之間的語(yǔ)義關(guān)系。詞語(yǔ)共現(xiàn)指詞與詞之間在同一種語(yǔ)境中同時(shí)出現(xiàn)的組合關(guān)系,如果兩個(gè)詞語(yǔ)在文獻(xiàn)中共現(xiàn)的次數(shù)越頻繁,則說(shuō)明這兩個(gè)詞語(yǔ)之間越可能具有親密的關(guān)系,即兩個(gè)詞語(yǔ)共現(xiàn)頻率越大,這兩個(gè)詞語(yǔ)越相關(guān)。在一個(gè)本體模型中,層次關(guān)系是最為重要的組成部分,我們認(rèn)為語(yǔ)義層次高的關(guān)鍵詞往往頻率較高,語(yǔ)義層次低的關(guān)鍵詞往往頻率較低,可以借此構(gòu)造層次語(yǔ)義模型。同時(shí)對(duì)于兩個(gè)不同的關(guān)鍵詞術(shù)語(yǔ),如果兩術(shù)語(yǔ)擁有相同的術(shù)語(yǔ)部件,并且前者擁有的術(shù)語(yǔ)部件少于后者,那么我們認(rèn)為后者是前者的下位詞[13],如圖書館、高校圖書館,顯而易見,圖書館是高校圖書館的上位詞。

      2 具體算法

      3.3 本體的可視化結(jié)果

      本體的可視化是反映本體層次結(jié)構(gòu)、屬性關(guān)系最直觀、最簡(jiǎn)潔的方式,可以為用戶提供最直觀的推理結(jié)果,筆者利用prefuse開源包,給出了本體的可視化結(jié)果,實(shí)驗(yàn)證明,該方法具有較好的效果。為了確保共現(xiàn)關(guān)系的有效性,我們只取和關(guān)鍵詞共現(xiàn)強(qiáng)度最大的十個(gè)相關(guān)關(guān)鍵詞,通過調(diào)節(jié)節(jié)點(diǎn)相關(guān)度以及節(jié)點(diǎn)頻率,以尋求相關(guān)關(guān)鍵詞的共現(xiàn)關(guān)系。如圖1所示,可以通過調(diào)節(jié)節(jié)點(diǎn)相關(guān)度、文檔頻率發(fā)現(xiàn)共現(xiàn)詞之間的共現(xiàn)關(guān)系。實(shí)驗(yàn)結(jié)果較為理想,概念以圖書館為中心,向外擴(kuò)散。我們根據(jù)2.2.3節(jié)所介紹本體層次模型構(gòu)建方法,構(gòu)建結(jié)果如圖2,通過此方法,我們可以很直觀的看出本體間概念以及概念之間的關(guān)系。

      4 總結(jié)

      本文針對(duì)本體自動(dòng)構(gòu)建開展了全面的剖析與研究,首先分析了目前本體自動(dòng)構(gòu)建的相關(guān)方法,并提出了一種基于詞語(yǔ)共現(xiàn)的改進(jìn)的本體構(gòu)建方法,同時(shí)給出了本體可視化結(jié)果,實(shí)驗(yàn)證明,該方法是有效的。

      參考文獻(xiàn):

      [1] Tom Gruber.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993(5):199-220.

      [2] Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge Engineering:Principles and Methods [J].Data and Knowledge Engineering,1998(1-2):161-197.

      [3] Philipp Cimiano,J V?lker.Text2Onto - A Framework for Ontology Learning and Data-driven Change Discovery.Natural Language Processing and Information Systems[C].10th International Conference on Applications of Natural Language to Information Systems,Alicante,Spain,NLDB 2005: 227—238.

      [4] Roberto Navigli,Paola Velardi.Learning domain ontologies from document warehouses and dedicated web sites[J]. Association for Computational Linguistics, 2004(2):151-179.

      [5] Liu Baisong,Gao ji.General ontology learning framework[J].Journal of Southeast University (English Edition),2006,22(3):381 -384.

      [6] 肖奎,譚小虎,吳天吉,等.一種面向領(lǐng)域的本體自動(dòng)構(gòu)建方法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(7):14-17.

      [7] Navigli R,Velardi P,Gangemi.A Ontology learning and its application to automated terminology translation[J].Intelligent Systems,IEEE ,2003(1):22-31.

      [8] Dan Crow,John DeSanto. A hybrid approach to concept extraction and recognition-based matching in the domain of human resources[C].6th IEEE International Conference,2004:535- 541.

      [9] 耿騫,耿崇.利用詞語(yǔ)共現(xiàn)進(jìn)行Ontology的概念獲取[J].現(xiàn)代圖書情報(bào)技術(shù),2006, 1(2) :43-45.

      [10] Gacitua R,Sawyer P,Rayson P.A flexible framework to experiment with ontology learning techniques[M].Research and Development in Intelligent Systems XXIV,2008:153-166.

      [11] 孫繼鵬,賈民,劉增寶,等.一種面向文本的概念抽取方法的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(9):28-30.

      [12] 張雷瀚,呂學(xué)強(qiáng),李卓,等.領(lǐng)域本體術(shù)語(yǔ)的抽取方法研究[J].情報(bào)學(xué)報(bào),2014,33(2):167-174.

      [13] 唐曉波.肖璐.基于詞語(yǔ)共現(xiàn)的多用戶興趣本體構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2012(5):99-102.

      [4] Roberto Navigli,Paola Velardi.Learning domain ontologies from document warehouses and dedicated web sites[J]. Association for Computational Linguistics, 2004(2):151-179.

      [5] Liu Baisong,Gao ji.General ontology learning framework[J].Journal of Southeast University (English Edition),2006,22(3):381 -384.

      [6] 肖奎,譚小虎,吳天吉,等.一種面向領(lǐng)域的本體自動(dòng)構(gòu)建方法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(7):14-17.

      [7] Navigli R,Velardi P,Gangemi.A Ontology learning and its application to automated terminology translation[J].Intelligent Systems,IEEE ,2003(1):22-31.

      [8] Dan Crow,John DeSanto. A hybrid approach to concept extraction and recognition-based matching in the domain of human resources[C].6th IEEE International Conference,2004:535- 541.

      [9] 耿騫,耿崇.利用詞語(yǔ)共現(xiàn)進(jìn)行Ontology的概念獲取[J].現(xiàn)代圖書情報(bào)技術(shù),2006, 1(2) :43-45.

      [10] Gacitua R,Sawyer P,Rayson P.A flexible framework to experiment with ontology learning techniques[M].Research and Development in Intelligent Systems XXIV,2008:153-166.

      [11] 孫繼鵬,賈民,劉增寶,等.一種面向文本的概念抽取方法的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(9):28-30.

      [12] 張雷瀚,呂學(xué)強(qiáng),李卓,等.領(lǐng)域本體術(shù)語(yǔ)的抽取方法研究[J].情報(bào)學(xué)報(bào),2014,33(2):167-174.

      [13] 唐曉波.肖璐.基于詞語(yǔ)共現(xiàn)的多用戶興趣本體構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2012(5):99-102.

      [4] Roberto Navigli,Paola Velardi.Learning domain ontologies from document warehouses and dedicated web sites[J]. Association for Computational Linguistics, 2004(2):151-179.

      [5] Liu Baisong,Gao ji.General ontology learning framework[J].Journal of Southeast University (English Edition),2006,22(3):381 -384.

      [6] 肖奎,譚小虎,吳天吉,等.一種面向領(lǐng)域的本體自動(dòng)構(gòu)建方法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(7):14-17.

      [7] Navigli R,Velardi P,Gangemi.A Ontology learning and its application to automated terminology translation[J].Intelligent Systems,IEEE ,2003(1):22-31.

      [8] Dan Crow,John DeSanto. A hybrid approach to concept extraction and recognition-based matching in the domain of human resources[C].6th IEEE International Conference,2004:535- 541.

      [9] 耿騫,耿崇.利用詞語(yǔ)共現(xiàn)進(jìn)行Ontology的概念獲取[J].現(xiàn)代圖書情報(bào)技術(shù),2006, 1(2) :43-45.

      [10] Gacitua R,Sawyer P,Rayson P.A flexible framework to experiment with ontology learning techniques[M].Research and Development in Intelligent Systems XXIV,2008:153-166.

      [11] 孫繼鵬,賈民,劉增寶,等.一種面向文本的概念抽取方法的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(9):28-30.

      [12] 張雷瀚,呂學(xué)強(qiáng),李卓,等.領(lǐng)域本體術(shù)語(yǔ)的抽取方法研究[J].情報(bào)學(xué)報(bào),2014,33(2):167-174.

      [13] 唐曉波.肖璐.基于詞語(yǔ)共現(xiàn)的多用戶興趣本體構(gòu)建研究[J].情報(bào)理論與實(shí)踐,2012(5):99-102.

      桃园县| 彭山县| 扎赉特旗| 奉贤区| 年辖:市辖区| 仙桃市| 曲水县| 南通市| 晋宁县| 普兰店市| 福泉市| 浮梁县| 边坝县| 海伦市| 济阳县| 富蕴县| 镇江市| 鹿泉市| 庆安县| 贵溪市| 周口市| 甘南县| 抚远县| 徐汇区| 嘉善县| 南昌市| 张掖市| 阜宁县| 康定县| 祁阳县| 无锡市| 平远县| 二连浩特市| 满洲里市| 武川县| 阿合奇县| 永善县| 商水县| 金昌市| 随州市| 南雄市|