• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      WordNet應(yīng)用問題研究

      2014-01-13 07:10:16周悅文
      關(guān)鍵詞:本體語義

      周悅文

      【摘 要】本文介紹WordNet的來源與發(fā)展,闡述以半自動方法設(shè)計(jì)WordNet,討論了意義排歧過程的復(fù)雜性,最后展望WordNet的發(fā)展趨勢與應(yīng)用。

      【關(guān)鍵詞】語義;本體;同義詞;排歧

      0.引言

      隨著信息技術(shù)的發(fā)展,對電子計(jì)算機(jī)依賴的群體越來越大,更多的人都希望自己編寫的自然語言能夠與計(jì)算機(jī)直接對話,而實(shí)際上要使計(jì)算機(jī)能夠接受這些自然語言或者偽代碼,必須讓計(jì)算機(jī)本身具備語法、語義、詞法、句法等語境,而詞匯語義的構(gòu)建就是基于WordNet的,WordNet一直是知識工程研究的重點(diǎn),下面對它分別做一些分析和討論。

      1.WordNet的來源與發(fā)展

      WordNet[1]原本是由Princeton 大學(xué)的心理學(xué)家,語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語言學(xué)的英語詞典。它不是把單詞以字母排列順序?yàn)樵瓌t,而是基于心理學(xué)和語言學(xué)的數(shù)據(jù)庫,組織形式是用戶在認(rèn)知過程中所表現(xiàn)出的義類原則即詞以義聚,按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”。 它是一個(gè)覆蓋范圍寬廣的英語詞匯語義網(wǎng),以一種“網(wǎng)“的形式來描述詞語的意義,可以是利用語義成分表示語義[2],也可以是利用關(guān)系表示語義,比如:“碗”(bowl)和“餐具”(tableware)代表兩個(gè)節(jié)點(diǎn)(node),而這兩個(gè)節(jié)點(diǎn)之間有一個(gè)箭頭(dart)來表示這樣的命題:碗是一種餐具(a bowl is a kind of tableware),即“Is-A-KIND-OF”這樣的語義關(guān)系 , 名詞,動詞,形容詞和副詞各自被組織成一個(gè)同義詞的網(wǎng)絡(luò),每個(gè)同義詞集合都代表一個(gè)基本的語義概念,即在詞的形式和意義之間建立起映射關(guān)系(mapping)用于描述詞匯矩陣,并且這些集合之間也由各種關(guān)系連接。一個(gè)多義詞就有可能出現(xiàn)在它的每個(gè)意思的同義詞集合中,對于這樣一個(gè)復(fù)雜的詞庫該如何創(chuàng)建呢,是手工編制還是機(jī)器自動生成,選擇手工構(gòu)建詞典的優(yōu)點(diǎn)之一是便于創(chuàng)建更為豐富的詞條信息;其次是便于控制,下面我們將闡述以非手動的方式來設(shè)計(jì)WordNet。

      2.半自動方法設(shè)計(jì)WordNet

      人工編制顯然工程浩大,必然時(shí)間長,要花費(fèi)大量的人力、物力、財(cái)力,而對于機(jī)器完全自動生成,就是讓機(jī)器本身獨(dú)立判斷一個(gè)個(gè)的概念,準(zhǔn)確的定位各種關(guān)系,這樣產(chǎn)生的結(jié)果往往是準(zhǔn)確性不高,在目前多方面受限制的前提下可以試著以本體半自動的設(shè)計(jì)方法。

      在設(shè)計(jì)方法前先講述“本體”和“關(guān)系”概念。

      本體:本體目前還沒有規(guī)范化的統(tǒng)一定義,它是一種概念模型的明確規(guī)范說明,而這個(gè)概念模型又是共享的,它主要表達(dá)了四個(gè)方面的含義:概念模型、明確、形式化、共享。概念模型指通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型;明確是指所使用的概念及使用這些概念的約束都有明確的定義;形式化指必須是計(jì)算機(jī)可讀的;共享指概念模型所體現(xiàn)的是共同認(rèn)可的知識,反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集。

      關(guān)系:Hypernyms關(guān)系表達(dá)的是目標(biāo)詞匯作為實(shí)體的隸屬關(guān)系,表示目標(biāo)詞匯與上類詞匯是一種a kind of 關(guān)系。

      Holongms關(guān)系表達(dá)的是目標(biāo)詞匯作為一部分所隸屬的上位關(guān)系,表示目標(biāo)詞匯與上系詞匯是一種 a part of 關(guān)系。

      Meronyms關(guān)系表達(dá)的是目標(biāo)詞匯作為一個(gè)實(shí)體的一個(gè)部分,表示下位詞與目標(biāo)詞匯的是一種a part of 關(guān)系。

      Coordinate terms關(guān)系表達(dá)的是哪些與目標(biāo)詞匯有相同上類詞的詞匯,表示的是同族關(guān)系;

      Troponyms關(guān)系表達(dá)的是目標(biāo)詞匯的近義詞,表示的是近義關(guān)系。

      Antonyms關(guān)系表達(dá)的是與目標(biāo)詞匯相反的關(guān)系。表示的是反義關(guān)系。

      2.1抽取核心子本體、擴(kuò)展、編輯以達(dá)到完善本體的方法

      以領(lǐng)域數(shù)據(jù)字典為依據(jù),從wordnet中抽取一個(gè)子本體,從wordnet抽取world本體核心概念為示例,這個(gè)過程其實(shí)就是一個(gè)概念發(fā)現(xiàn)的過程,必須有本體雛形作為抽取子本體的基礎(chǔ),也就是通常所說的middle-out方法;在抽取出的子本體基礎(chǔ)上,對其進(jìn)行擴(kuò)展與分析,wordnet是一部同義詞典,其有jwordnet和JWNL API作為詞典的訪問函數(shù),wordnet只具有上下位等關(guān)系,沒有objectproperty這種關(guān)系,概念可以抽取出來,關(guān)系的獲取還有一定的困難,通過抽取出的種子概念的相關(guān)概念為候選概念,利用種子概念與候選概念出現(xiàn)的概率,運(yùn)用語料庫推算兩種子緊密度,以此確認(rèn)候選概念是否擴(kuò)展到本體中,wordnet獲取本體其實(shí)已經(jīng)獲取了本體的關(guān)系,而無分類關(guān)系的可利用的方法是關(guān)聯(lián)規(guī)則挖掘法;最后用可視化工具protégé處理,這也是目前應(yīng)用最廣泛的本體編輯工具[3]。

      2.2其它方法簡述

      上述的方法是基于語義字典的生成本體的方法,其實(shí)生成本體的方法也可以基于文本甚至是基于知識庫的,如果是基于文本的話可以利用聚類算法把相關(guān)詞集合在一起,選擇使用頻率高的詞代表這個(gè)類,而基于知識庫的則是先構(gòu)建知識庫,運(yùn)用知識庫已有的規(guī)則組合小型本體,運(yùn)用的方法是自然語言處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等等。

      3.意義排歧過程的復(fù)雜性

      構(gòu)建的wordnet由于是作為語義知識創(chuàng)建的,幾乎沒有句法信息,它是用同義詞的集合體表達(dá)詞匯的概念,并描述詞匯的矩陣,即在詞性與意義上建立起了一一對應(yīng),在一篇文章中,取某一個(gè)多義詞的意義的排歧的過程卻是相當(dāng)?shù)膹?fù)雜,只有通過內(nèi)部結(jié)構(gòu)本身利用概念密度加以計(jì)算才能排歧,使用目標(biāo)周圍的詞來確定本詞的意義,一般說來主要有三種方法可以實(shí)現(xiàn)[4、5]。

      方法一,通過選擇約束性規(guī)則來確定詞匯在文章的不同位置的詞義進(jìn)行選擇,可以是選擇性限定規(guī)則(selectional restriction)、決策樹(decision trees)、決策表(decision lists)等,當(dāng)然這一定性的方法在理論上依賴語言學(xué)知識庫的,實(shí)際操作構(gòu)建這個(gè)知識庫并不是意見簡單的事。

      方法二,通過統(tǒng)計(jì)每個(gè)詞匯候選詞匯在文章出現(xiàn)的概率權(quán)值,這種基于定量的方法,是將最大概率權(quán)值的詞匯作為結(jié)果,可能是獨(dú)立于語言學(xué)的,局限性是統(tǒng)計(jì)數(shù)據(jù)稀梳是基于帶標(biāo)語的人工構(gòu)造獲取知識。

      方法三,將方法一與方法二結(jié)合起來,主要依靠的是統(tǒng)計(jì)學(xué)算法處理文字的文本切分和詞性標(biāo)注問題,可以是根據(jù)語言學(xué)對詞匯進(jìn)行首次劃分,再應(yīng)用統(tǒng)計(jì)學(xué)的算法進(jìn)行二次劃分,推算段落起點(diǎn)終點(diǎn)。

      4.WordNet的發(fā)展趨勢與應(yīng)用

      說到底,wordnet的構(gòu)建還是需要創(chuàng)建一個(gè)知識庫,包含無數(shù)的概念的,但在關(guān)系上很難順利進(jìn)行直接推理,比如:在饑餓(hungry)與廚房(kitchen)之間存在一條路徑,因?yàn)檫@兩個(gè)詞在食物(food)這個(gè)節(jié)點(diǎn)上有碰撞,從而可以把饑餓(hungry)與廚房(kitchen)間接聯(lián)系在一起進(jìn)行常識判斷。對于wordnet的更深層次的研究與應(yīng)用還是很有意義的,盡最大的可能去解決語意分類的全球化處理與眾多的詞義排歧,力求全局范圍內(nèi)準(zhǔn)確的處理語言信息,在未來的發(fā)展上檢索方式正朝著越來越多的方向發(fā)展,對于模糊檢索、同義檢索更是方便用戶,真正做到以語義為本體,聚集與詞目在語義關(guān)聯(lián)的所有詞匯,實(shí)現(xiàn)以詞為中心的、發(fā)散式的、描述詞目所有基本語義關(guān)系的語義網(wǎng)絡(luò)集。 [科]

      【參考文獻(xiàn)】

      [1]梁健,吳丹.種子概念方法及其在基于文本的本體學(xué)習(xí)中的應(yīng)用[J].圖書情報(bào)工作,2006,50(9):l8-21.

      猜你喜歡
      本體語義
      Abstracts and Key Words
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      語言與語義
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      認(rèn)知范疇模糊與語義模糊
      專題
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      “深+N季”組配的認(rèn)知語義分析
      語義分析與漢俄副名組合
      长汀县| 行唐县| 广东省| 舟曲县| 泰和县| 永川市| 广丰县| 苏尼特左旗| 郑州市| 元江| 奇台县| 华容县| 海盐县| 富蕴县| 德令哈市| 保亭| 漯河市| 仁怀市| 清涧县| 巍山| 尼玛县| 如东县| 大同市| 元氏县| 濮阳市| 虞城县| 福建省| 灵台县| 中方县| 河南省| 马龙县| 吉安县| 乌什县| 灌阳县| 靖江市| 扎囊县| 宁南县| 翁牛特旗| 恩平市| 新龙县| 汨罗市|