• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于領(lǐng)域本體知識(shí)庫(kù)的語(yǔ)義檢索研究

    2018-02-07 09:51:05楊清琳錢文標(biāo)楊曉雷
    山東工業(yè)技術(shù) 2018年4期
    關(guān)鍵詞:檢索系統(tǒng)知識(shí)庫(kù)本體

    楊清琳+錢文標(biāo)+楊曉雷

    摘 要:通過(guò)建立領(lǐng)域本體知識(shí)庫(kù),改進(jìn)傳統(tǒng)檢索系統(tǒng)基于關(guān)鍵詞匹配存在的缺陷,將用戶輸入的自然語(yǔ)言查詢經(jīng)分析推理后上升到語(yǔ)義層面,構(gòu)建了一個(gè)基于領(lǐng)域本體知識(shí)庫(kù)的語(yǔ)義檢索模型,提高了檢索性能。

    關(guān)鍵詞:本體;知識(shí)庫(kù);語(yǔ)義檢索

    DOI:10.16640/j.cnki.37-1222/t.2018.04.196

    0 引言

    傳統(tǒng)的搜索引擎技術(shù)雖然日趨成熟,但其主要是通過(guò)關(guān)鍵詞機(jī)械式的匹配進(jìn)行檢索,存在如下問(wèn)題:返回大量與檢索主題無(wú)關(guān)或關(guān)聯(lián)很小的結(jié)果,用戶還需要二次篩選才能獲得所需信息;用戶需要的重要信息被漏檢;跟檢索主題無(wú)關(guān)的信息卻被作為結(jié)果檢索出來(lái)。本文結(jié)合領(lǐng)域本體知識(shí)庫(kù),設(shè)計(jì)一個(gè)面向特定領(lǐng)域的語(yǔ)義檢索模型,將用戶輸入的自然語(yǔ)言查詢語(yǔ)句上升到語(yǔ)義層面,把握用戶真正的檢索意圖,提高檢索性能。

    1 語(yǔ)義檢索的研究現(xiàn)狀

    語(yǔ)義檢索技術(shù)為訪問(wèn)Web信息提供了有效思路,關(guān)于該技術(shù)近幾年的研究工作,大致有基于本體的語(yǔ)義檢索、自然語(yǔ)言處理和基于概念的方法等。Voorhees使用本體中的同義詞和概念的子類關(guān)系對(duì)查詢擴(kuò)展進(jìn)行探索[1];Fernández利用本體層次結(jié)構(gòu)進(jìn)行語(yǔ)義相似度的計(jì)算,并對(duì)文檔使用本體概念進(jìn)行標(biāo)注后建立索引,實(shí)現(xiàn)了增強(qiáng)式的語(yǔ)義檢索。國(guó)內(nèi)的相關(guān)研究如宋俊峰[2]提出的基于本體的信息檢索模型;武成崗在本體技術(shù)的基礎(chǔ)上建立的多主體信息檢索服務(wù)器。自然語(yǔ)言處理和基于概念的方法是另外兩種常用的語(yǔ)義檢索方法。分詞、短語(yǔ)識(shí)別和詞義消歧是自然語(yǔ)言處理中最為主要的技術(shù)[3]。

    2 基于領(lǐng)域本體知識(shí)庫(kù)的語(yǔ)義檢索研究

    2.1 本體知識(shí)庫(kù)

    本體作為一種概念建模的手段,能夠利用本體節(jié)點(diǎn)中概念之間的關(guān)系描述出概念語(yǔ)義,而且還能實(shí)現(xiàn)邏輯推理。領(lǐng)域本體知識(shí)庫(kù)是通過(guò)將特定領(lǐng)域中的概念和關(guān)系進(jìn)行抽象提取,作為一種領(lǐng)域信息資源有效的組織框架。基于本體技術(shù)來(lái)構(gòu)建領(lǐng)域知識(shí)庫(kù),通過(guò)邏輯推理可以發(fā)掘概念之間不明確的信息和隱含語(yǔ)義關(guān)聯(lián)。將本體知識(shí)庫(kù)引入到信息檢索中,使用推理機(jī)制來(lái)擴(kuò)展用戶查詢,實(shí)現(xiàn)從語(yǔ)義層面把握用戶輸入的查詢語(yǔ)言,通過(guò)推理理解用戶真正的檢索意圖,以排除自然語(yǔ)言表達(dá)描述存在的歧義,獲得用戶真正需要的有用信息,實(shí)現(xiàn)信息的智能語(yǔ)義檢索。

    本文采用本體編輯工具Protege手動(dòng)建立本體。抽取特定領(lǐng)域的概念來(lái)設(shè)計(jì)本體模型,編輯本體中的元素,包括類、屬性、實(shí)例,其中概念之間的主要關(guān)系為“同位”和“下位”。對(duì)構(gòu)建好的領(lǐng)域本體利用Jena進(jìn)行相應(yīng)的推理操作。

    2.2 語(yǔ)義檢索模型設(shè)計(jì)

    本文設(shè)計(jì)的語(yǔ)義檢索模型,主要由四大關(guān)鍵模塊組成,分別為:查詢自然語(yǔ)言預(yù)分析處理、本體知識(shí)推理、語(yǔ)料文檔前期處理和檢索結(jié)果排序,本體知識(shí)庫(kù)語(yǔ)義檢索模型如圖1所示。

    2.2.1 查詢自然語(yǔ)言預(yù)分析處理

    查詢自然語(yǔ)言預(yù)分析處理模塊接收用戶輸入的自然語(yǔ)言,采用ICTCLAS漢語(yǔ)分詞系統(tǒng)對(duì)用戶查詢語(yǔ)句請(qǐng)求進(jìn)行分詞,并過(guò)濾查詢語(yǔ)句中的停用詞、特殊字符和無(wú)意義的詞,將用戶查詢語(yǔ)句分解為獨(dú)立的詞匯集合。

    2.2.2 本體知識(shí)推理

    具有語(yǔ)義推理能力是基于本體知識(shí)庫(kù)的語(yǔ)義檢索系統(tǒng)較基于關(guān)鍵字的檢索系統(tǒng)的最大優(yōu)勢(shì),也是語(yǔ)義檢索系統(tǒng)模型的核心。推理系統(tǒng)通過(guò)將推理規(guī)則、策略編寫(xiě)成程序代碼,實(shí)現(xiàn)語(yǔ)義自動(dòng)推理。推理系統(tǒng)接收前期經(jīng)過(guò)查詢自然語(yǔ)言預(yù)分析處理的關(guān)鍵字后,結(jié)合本體知識(shí)庫(kù)中的推理策略實(shí)現(xiàn)語(yǔ)義推理。在本文的檢索模型中,由于所建立概念之間的主要關(guān)系為“同位”和“下位”,所以本文檢索模型只能實(shí)現(xiàn)這兩種邏輯關(guān)系的推理。原始檢索關(guān)鍵字經(jīng)過(guò)推理機(jī)進(jìn)行語(yǔ)義推理后可以將本體知識(shí)庫(kù)中與概念相關(guān)的類、對(duì)應(yīng)的實(shí)例及關(guān)系加入到檢索關(guān)鍵詞中,擴(kuò)展原始查詢,再提交給檢索引擎進(jìn)行檢索。

    2.2.3 語(yǔ)料文檔前期處理

    建立語(yǔ)義索引庫(kù)是語(yǔ)料文檔前期處理的最終目的。本文利用網(wǎng)絡(luò)爬蟲(chóng)工具Crawler從互聯(lián)網(wǎng)上收集到近萬(wàn)個(gè)Web文檔,存入檢索信息庫(kù)中作為測(cè)試語(yǔ)料,其處理過(guò)程如下:預(yù)處理web文檔,然后去除HTML標(biāo)簽、停用詞等,提取存儲(chǔ)文檔中的文本信息;對(duì)文本信息進(jìn)行分詞,并將特征信息作為特征詞提取出來(lái);然后將特征詞比較匹配知識(shí)庫(kù)中的概念節(jié)點(diǎn),并將概念的同義詞添加到文檔概念集中,形成文檔概念集;文檔概念集的權(quán)重利用TF-IDF算法來(lái)進(jìn)行計(jì)算,在一定閾值內(nèi)的概念才作為文檔的語(yǔ)義向量;構(gòu)建倒排索引,其中概念列表存儲(chǔ)在內(nèi)存,而倒排列表和文檔集則存在磁盤(pán)。

    2.2.4 檢索結(jié)果排序

    檢索系統(tǒng)檢索出來(lái)的大量結(jié)果,用戶通常只關(guān)注排在前面的那些檢索結(jié)果,因此如何將用戶最關(guān)心的返回結(jié)果排在前面關(guān)系到檢索系統(tǒng)性能好壞。本文利用查詢與文檔之間的相關(guān)度(即文檔得分)來(lái)對(duì)結(jié)果進(jìn)行排序,并采用TF-IDF特征項(xiàng)權(quán)重計(jì)算方法來(lái)計(jì)算文檔得分,其核心思想是:不同的概念在查詢和文檔中的重要程度是不一樣的,因此如何給查詢中的概念分配權(quán)重是文檔得分計(jì)算的基礎(chǔ)。最終進(jìn)入到檢索系統(tǒng)的查詢向量由用戶原始查詢概念和經(jīng)過(guò)推理系統(tǒng)推理后的擴(kuò)展查詢概念組成,本文分別計(jì)算原始查詢概念和擴(kuò)展后查詢概念的權(quán)重,后對(duì)查詢向量中每個(gè)概念的權(quán)重進(jìn)行求和得到文檔得分。

    3 結(jié)束語(yǔ)

    本文對(duì)傳統(tǒng)的信息檢索系統(tǒng)進(jìn)行了改進(jìn),引入了本體知識(shí)庫(kù),建立了一種基于領(lǐng)域本體知識(shí)庫(kù)的語(yǔ)義檢索模型。后續(xù)的研究工作是如何完善本體知識(shí)庫(kù),實(shí)現(xiàn)對(duì)查詢關(guān)鍵詞更好更優(yōu)的語(yǔ)義查詢擴(kuò)展,提高檢索系統(tǒng)性能;并對(duì)檢索到的文檔的排序算法進(jìn)行深入研究,結(jié)合用戶的喜好,返回相關(guān)度高的結(jié)果文檔。

    參考文獻(xiàn):

    [1]王旭陽(yáng),尉醒醒.基于本體的語(yǔ)義檢索方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(09):2538-2542.

    [2]宋峻峰,張維明,肖衛(wèi)東等.基于本體的信息檢索模型研究[J].南京大學(xué)學(xué)報(bào),2005,41(02):189-197.

    [3]陳振標(biāo).基于本體的語(yǔ)義檢索技術(shù)研究[J].情報(bào)探索,2011(166):96-98.

    作者簡(jiǎn)介:楊清琳,工程師,研究方向:知識(shí)庫(kù)、本體論。endprint

    猜你喜歡
    檢索系統(tǒng)知識(shí)庫(kù)本體
    Abstracts and Key Words
    對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
    基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
    收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫(kù)
    收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫(kù)
    本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫(kù)收錄
    本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫(kù)收錄
    高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
    《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
    基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
    和龙市| 鸡西市| 桑日县| 拜泉县| 民权县| 白水县| 射阳县| 即墨市| 商水县| 清新县| 南靖县| 新乡市| 韶关市| 龙里县| 德江县| 南充市| 德钦县| 合阳县| 福清市| 信丰县| 岢岚县| 古浪县| 商洛市| 万盛区| 弋阳县| 新巴尔虎左旗| 霍州市| 乡城县| 婺源县| 南岸区| 湟源县| 商城县| 资阳市| 辽中县| 山东省| 钦州市| 平定县| 会东县| 长治县| 宁武县| 休宁县|