杜夢(mèng)影 楊志來(lái)
中國(guó)兵器工業(yè)標(biāo)準(zhǔn)化研究所,北京,100089
基于物資采購(gòu)本體的問(wèn)答系統(tǒng)設(shè)計(jì)
杜夢(mèng)影 楊志來(lái)
中國(guó)兵器工業(yè)標(biāo)準(zhǔn)化研究所,北京,100089
通過(guò)物資采購(gòu)領(lǐng)域本體的研究和討論,確定構(gòu)建一種以物資采購(gòu)本體為基礎(chǔ)的問(wèn)答系統(tǒng)。該系統(tǒng)共分為問(wèn)題處理、檢索和答案抽取三個(gè)模塊,各模塊協(xié)同工作完成用戶提問(wèn)的答案搜索和顯示工作。系統(tǒng)根據(jù)領(lǐng)域本體的特殊性改進(jìn)了一種關(guān)鍵詞權(quán)重的計(jì)算公式,以關(guān)鍵詞匹配和自然語(yǔ)言處理相結(jié)合的方法進(jìn)行問(wèn)答系統(tǒng)設(shè)計(jì)。
物資采購(gòu);問(wèn)答系統(tǒng) ;信息檢索
物資采購(gòu)本體作為問(wèn)答系統(tǒng)的研究對(duì)象有以下優(yōu)勢(shì):一、目前大型企業(yè)物資采購(gòu)業(yè)務(wù)越來(lái)越多元化,管理者對(duì)物資采購(gòu)的關(guān)注度逐漸增加;二、物資采購(gòu)領(lǐng)域的概念豐富,且關(guān)聯(lián)度大,識(shí)別度高;三,物資采購(gòu)領(lǐng)域中的知識(shí)層次比較清晰,便于構(gòu)建本體。
研究構(gòu)建物資采購(gòu)本體的目的在于:解決企業(yè)各部門對(duì)物資采購(gòu)相關(guān)知識(shí)的需求問(wèn)題并彌補(bǔ)物資采購(gòu)領(lǐng)域問(wèn)答系統(tǒng)的空白。具體而言即幫助采辦者找到其想要得到的準(zhǔn)確答案。
1.1 選取術(shù)語(yǔ)、定義概念
通過(guò)研究物資采購(gòu)領(lǐng)域知識(shí),選取物資采購(gòu)領(lǐng)域的專業(yè)術(shù)語(yǔ)。實(shí)施方式為向用戶發(fā)放調(diào)查問(wèn)卷和查閱專業(yè)文獻(xiàn)。具體選取術(shù)語(yǔ)和定義概念時(shí),首先查閱物資采購(gòu)領(lǐng)域的信息資源,通過(guò)總結(jié)與物資采購(gòu)相關(guān)的信息,概括出物資采購(gòu)領(lǐng)域的術(shù)語(yǔ),再將術(shù)語(yǔ)制成表格,發(fā)放給網(wǎng)絡(luò)用戶進(jìn)行網(wǎng)絡(luò)調(diào)查,要求用戶根據(jù)自身的理解和需求選擇他們認(rèn)為與自己相關(guān)的術(shù)語(yǔ)。最后通過(guò)綜合問(wèn)卷、結(jié)合文獻(xiàn)以及查詢術(shù)語(yǔ)分類表等手段將結(jié)果進(jìn)行比對(duì),最終確定出本系統(tǒng)需要的物資采購(gòu)術(shù)語(yǔ)。
此方法提取出了98%用戶關(guān)注的物資采購(gòu)信息,這些信息并不包含所有的物資采購(gòu)領(lǐng)域知識(shí),但可達(dá)到一般用戶需要的物資采購(gòu)知識(shí)。因此,本系統(tǒng)只保留了這些領(lǐng)域知識(shí),從而根據(jù)這些知識(shí)定義物資采購(gòu)本體的概念,最終構(gòu)建合理的、符合用戶需求的概念體系。
設(shè)計(jì)物資采購(gòu)本體時(shí)需要注意的問(wèn)題有:收集相關(guān)學(xué)科知識(shí)時(shí),確保所用術(shù)語(yǔ)為該學(xué)科內(nèi)公認(rèn)并從不同的層面形式化術(shù)語(yǔ)之間相互關(guān)系的明確定義。
1.2 定義類名、屬性及實(shí)例
術(shù)語(yǔ)本身包含了本體中的概念(類名)、屬性和以上兩項(xiàng)內(nèi)外在的相互關(guān)系(邏輯關(guān)系)。對(duì)于屬性,要依據(jù)應(yīng)用范圍對(duì)其進(jìn)行規(guī)范的定義。對(duì)于邏輯關(guān)系,為構(gòu)成一個(gè)完整的邏輯關(guān)系體系應(yīng)將其明確分為三類:概念與概念之間的關(guān)系;屬性與屬性之間的關(guān)系及概念和屬性之間的關(guān)系。本文以邏輯推理為基礎(chǔ),并實(shí)施試驗(yàn)驗(yàn)證的手段,最終構(gòu)成了一個(gè)立體的、直觀的邏輯關(guān)系網(wǎng)。物資采購(gòu)資源本體還給出了具體的物資采購(gòu)資源實(shí)例以及他們所屬的資源類別。
1.3 構(gòu)建物資采購(gòu)領(lǐng)域本體
完成自然語(yǔ)言層次的本體規(guī)劃后,將利用Protege軟件對(duì)物資采購(gòu)本體進(jìn)行實(shí)體構(gòu)建。構(gòu)建的步驟如下:①打開protege軟件,“文件” —“新建項(xiàng)目”,選擇OWL文件格式。②通過(guò)在“OWL”欄內(nèi)選擇“preference”,并在 “OWLPreference"對(duì)話框中選擇“OWLDL”。
1.4 命名概念
當(dāng)新建OWL文件時(shí),系統(tǒng)自動(dòng)生成一個(gè)things類,隨后由用戶建立的所有類均為things的子類。物資采購(gòu)領(lǐng)域本體以“物資采購(gòu)資源”作為主體概念(類)。用戶首先可以通過(guò)類關(guān)系窗口對(duì)已建立的類層次關(guān)系進(jìn)行添加,添加對(duì)象可為同級(jí)類、子類,同時(shí)還可對(duì)已有類進(jìn)行刪除、查看等操作。隨后用戶可通過(guò)類編輯窗口,實(shí)現(xiàn)輸入類名、描述和定義類以及類不相交等功能。
1.5 物資采購(gòu)本體設(shè)計(jì)
本步驟是建立概念層次結(jié)構(gòu)模型。在物資采購(gòu)資源本體中,設(shè)計(jì)者一共提出了八類主要的概念,分別是:采購(gòu)形式、采購(gòu)因素、采購(gòu)人員、采購(gòu)對(duì)象、采購(gòu)商、供應(yīng)商、采購(gòu)產(chǎn)品。
本段列出了基于物資采購(gòu)本體的問(wèn)答系統(tǒng)的相關(guān)知識(shí)庫(kù)模型。在本體的各種關(guān)系中,本文分別設(shè)計(jì)和構(gòu)建了類屬種關(guān)系、整體—部分關(guān)系、屬性關(guān)系等。
(1)類屬種關(guān)系
分別以上提到的概念。
(2)整體-部分關(guān)系
整體—部分關(guān)系表示概念之間組成關(guān)系。
(3)類-實(shí)例關(guān)系
類-實(shí)例關(guān)系表示類的實(shí)例與類之間的關(guān)系,即個(gè)體作為類的實(shí)例與類建立關(guān)系,其中屬于某一類的實(shí)例具有這個(gè)類的所有屬性。舉例說(shuō)明:在子集團(tuán)類中,北方工業(yè)集團(tuán)、遼寧華景集團(tuán)和信息控制集團(tuán)等等就是它的實(shí)例,即與子集團(tuán)類屬于類實(shí)例關(guān)系。
(4)類屬性關(guān)系
類屬性關(guān)系表示某個(gè)概念是另一個(gè)概念的屬性,即某個(gè)類所具有的屬性。如“軍械裝備總裝”類擁有“廠名”、“廠址”、“級(jí)別”、“主營(yíng)業(yè)務(wù)”等屬性。
基于本體的問(wèn)答系統(tǒng)需要采集用戶提出的問(wèn)題,經(jīng)過(guò)問(wèn)題處理模塊形成查詢關(guān)鍵詞;再對(duì)問(wèn)句進(jìn)行二次分析,根據(jù)分析結(jié)果判斷采用何種查詢機(jī)制。本文對(duì)查詢模塊設(shè)計(jì)了兩種查詢機(jī)制,一種是基于問(wèn)句本身的推理,另一種是基于關(guān)鍵詞的推理。
基于問(wèn)句本身的推理通過(guò)語(yǔ)義算法求出問(wèn)句的語(yǔ)義表達(dá)式。處理過(guò)程為:第一步,在問(wèn)句集合中查找與用戶問(wèn)句相似的模板;第二步,對(duì)比用戶問(wèn)句和模板的句式結(jié)構(gòu)得到二者的匹配程度,并以向量的形式來(lái)表示用戶輸入的問(wèn)句;第三步,利用生成的向量模型檢索問(wèn)句集中對(duì)應(yīng)這種模型的答案形式。
基于關(guān)鍵詞的推理過(guò)程由查詢處理模塊和答案提取模塊共同完成。查詢模塊首先提取問(wèn)句中的關(guān)鍵詞,再進(jìn)行淺層規(guī)則推理,推導(dǎo)出有語(yǔ)義關(guān)系的語(yǔ)義向量;再將語(yǔ)義向量傳遞到答案提取模塊,通過(guò)答案模式匹配抽取與答案最相關(guān)的語(yǔ)義向量作為答案因子,最后將這些答案因子帶入知識(shí)庫(kù)中解析。由于知識(shí)庫(kù)以本體的組織方式構(gòu)成,在解析過(guò)程中,可實(shí)現(xiàn)在知識(shí)庫(kù)內(nèi)的二次推理,通過(guò)二次推理最終可得到準(zhǔn)確率較高的答案。
以下是上述幾個(gè)模塊的作用。
(1)問(wèn)題處理模塊
對(duì)用戶的自然語(yǔ)言提問(wèn)進(jìn)行處理,其中包括:對(duì)句子的詞、句法的分析;對(duì)關(guān)鍵詞的提取(提問(wèn)關(guān)鍵詞、擴(kuò)展關(guān)鍵詞、…);經(jīng)過(guò)句模匹配,確定問(wèn)句所關(guān)注焦點(diǎn)和問(wèn)題的類型等。
(2)檢索模塊
輸入問(wèn)題處理模塊提取出的關(guān)鍵詞,通過(guò)關(guān)鍵詞匹配等信息檢索技術(shù)獲得答案可能所在的段落、句群,再對(duì)這些文檔進(jìn)行處理,最后得到范圍小的段落、句群。
(3)答案抽取模塊
對(duì)檢索模塊中找到的段落、句群進(jìn)行語(yǔ)法和語(yǔ)義分析,并根據(jù)在問(wèn)題處理模塊中確定的問(wèn)句類別,抽取出與問(wèn)句類型一致的實(shí)體,并根據(jù)與答案的符合程度將其排序,將次序靠前的實(shí)體作為答案返回給用戶。本系統(tǒng)采用基于搜索、匹配和自然語(yǔ)言處理相結(jié)合的方法進(jìn)行問(wèn)答系統(tǒng)設(shè)計(jì)。在本系統(tǒng)中,首先將關(guān)鍵詞分類為:普通關(guān)鍵詞(ord)、擴(kuò)展關(guān)鍵詞(ex)、基本關(guān)鍵詞(basic)、引用關(guān)鍵詞(quote)和其他關(guān)鍵詞(other)。普通和基本關(guān)鍵詞是從問(wèn)句中通過(guò)分詞處理直接抽取出來(lái)的關(guān)鍵詞;擴(kuò)展關(guān)鍵詞是通過(guò)網(wǎng)絡(luò)擴(kuò)展得到的關(guān)鍵詞;引用關(guān)鍵詞是問(wèn)句中引號(hào)內(nèi)的詞。
以下公式即對(duì)關(guān)鍵詞權(quán)重的計(jì)算方法:
式中的v1~v5分別代表普通關(guān)鍵詞、擴(kuò)展關(guān)鍵詞、基本關(guān)鍵詞、引用關(guān)鍵詞和其他關(guān)鍵詞的加權(quán)因子,體現(xiàn)各種關(guān)鍵詞對(duì)排序的重要程度。通常,weight(ord)> weight(ex)>weight(quote)> weight(basic)>weight(other)。式中的ord、ex、basic、quote和other是各種關(guān)鍵詞本身的得分。在系統(tǒng)運(yùn)行時(shí),系統(tǒng)會(huì)通過(guò)分析判斷當(dāng)前問(wèn)句的模式,根據(jù)判斷結(jié)果將與此類問(wèn)句有直接關(guān)系的答案模式集中抽取出來(lái),再通過(guò)語(yǔ)義等其他要素驗(yàn)證哪個(gè)答案模式真正與問(wèn)句匹配,最后得到用戶想要的答案。例如,問(wèn)句“某國(guó)成立于哪年哪月哪日?”,其對(duì)應(yīng)的部分答案模式如下:
a.<國(guó)家>于<答案>成立
b.<國(guó)家>成立于<答案>
c.<國(guó)家>在<答案>成立
d.<答案>成立了<國(guó)家>
e.<答案><國(guó)家>成立了
對(duì)于自然語(yǔ)言處理,本系統(tǒng)利用本體知識(shí)庫(kù)對(duì)用戶問(wèn)句進(jìn)行淺層語(yǔ)義推理,根據(jù)推理結(jié)果返回答案。
仍需改進(jìn):第一、本系統(tǒng)目前僅支持文字輸入;第二,本系統(tǒng)為模擬系統(tǒng),并未上線進(jìn)行實(shí)際應(yīng)用,因此并未討論負(fù)載能力、用戶體驗(yàn)等方面的問(wèn)題;第三,本系統(tǒng)算法邏輯較為簡(jiǎn)單,后期需要加強(qiáng)對(duì)此的研究和討論。
[1]張玉琴.企業(yè)采購(gòu)管理系統(tǒng)的設(shè)計(jì)[J].企業(yè)技術(shù)開發(fā).2014(13):70-71.
[2]劉紅梅.基于C/S和B/S體系結(jié)構(gòu)應(yīng)用系統(tǒng)的開發(fā)方法[J].計(jì)算機(jī)與現(xiàn)代化.2007(11):52-54.
[3]曾學(xué)軍.淺析B/S和C/S結(jié)構(gòu)的開發(fā)與應(yīng)用[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流.2007(08):407-408.
[4]葛昂揚(yáng).試論高校設(shè)備招標(biāo)采購(gòu)的管理[J].浙江教育學(xué)院學(xué)報(bào).2005(03):105-108.
[5]羅海濱,范玉順,cims.tsinghua.edu.cn,等.工作流技術(shù)綜述[J].軟件學(xué)報(bào).2000(07):899-907.
杜夢(mèng)影/1987年生/女/北京人/本科/工程師/研究方向?yàn)樾畔⒒芾?/p>