鄭 穎,金松林,張自陽,王 斌,茹振鋼*(.河南科技學院 信息工程學院,河南 新鄉(xiāng) 453003; .河南科技學院 生命科技學院,河南 新鄉(xiāng) 453003)
基于本體的小麥病蟲害問答系統(tǒng)構建與實現(xiàn)
鄭 穎1,金松林1,張自陽2,王 斌2,茹振鋼2*
(1.河南科技學院 信息工程學院,河南 新鄉(xiāng) 453003; 2.河南科技學院 生命科技學院,河南 新鄉(xiāng) 453003)
為了能夠及時、方便地解決農民在小麥種植過程中遇到的病蟲害問題,研究并設計了一個關于小麥病蟲害問題的自動問答系統(tǒng)。首先,將小麥的病蟲害知識進行資源整合,在領域專家指導下構建小麥病蟲害本體,將其作為問答系統(tǒng)的知識庫。然后,利用自然語言處理相關技術對用戶提出的問題進行分析并找到相應答案返回給用戶。該系統(tǒng)操作方便,對小麥病蟲害預防有重要作用。
小麥病蟲害; 本體; 問句分析; 問答系統(tǒng)
小麥作為北方地區(qū)重要的糧食作物,其產量直接影響到我國經濟發(fā)展和社會穩(wěn)定[1]。長期以來,病蟲害一直是影響小麥產量的主要問題,有效預防和控制病蟲害的發(fā)展對于提高小麥產量有著重要意義。小麥種植過程中,農民會遇到許多難以解決的問題,這就需要有專門的技術人員進行指導,由于技術人員有限,又受制于時空因素,不可能實現(xiàn)一對一的指導。隨著互聯(lián)網的發(fā)展,農村地區(qū)互聯(lián)網也得到普及,很多農民開始通過搜索引擎搜索問題。但是通過搜索引擎通常會搜索到許多與問題無關的答案,效果并不理想。近幾年國內也出現(xiàn)了許多與農業(yè)相關的網站,例如中國農業(yè)信息網、農林網等,這些網站雖然提供了專家在線服務,然而這種方式不僅時效性差,而且專家對于共通的問題逐一解答浪費了寶貴的時間。問答系統(tǒng)是將人工智能、信息檢索、自然語言處理等技術相結合的智能系統(tǒng),它提供一個簡單的接口供用戶輸入問題,通過分析問題自動返回答案,因其既克服了時空限制又能準確返回問題答案而備受關注。因此,有必要針對小麥生產中的病蟲害問題設計開發(fā)問答系統(tǒng)。
國外對于網絡支持下問答系統(tǒng)的研究起步較早,20個世紀60年代出現(xiàn)了2個著名的問答系統(tǒng),分別是能回答籃球相關問題的BASEBALL系統(tǒng)和回答阿波羅月球探測問題的LUNAR系統(tǒng)。目前,比較著名的問答系統(tǒng)有Askjeeves、Start、FAQFind[2]等。國內近幾年在此方面的研究也取得了長足的進步,如雅虎公司開發(fā)的雅虎知識堂、百度公司的百度知道等社區(qū)問答、清華大學開發(fā)的EasyNav校園導航系統(tǒng)、北京理工大學開發(fā)的金融領域問答系統(tǒng)。但是,目前關于小麥病蟲害方面的問題還沒有較為成熟的問答系統(tǒng)。
知識庫是問答系統(tǒng)的關鍵,系統(tǒng)的好壞直接取決于知識庫的質量。傳統(tǒng)問答系統(tǒng)以問題答案數(shù)據(jù)庫為基礎進行檢索、匹配,這種問答系統(tǒng)只利用了問句的表層特征信息并沒有考慮問句的語義特征,檢索到的答案準確率較低[3]。本體是一種語義層次的領域知識建模工具,對概念以及這些概念之間所具有的關系進行了明確定義[4]。本體不僅使知識的語義信息更加豐富[5],還具有較強的推理能力和重用的特點。因此,本研究首先將小麥病蟲害問題進行資源整合構建病蟲害本體,然后再根據(jù)農民提出的問題,通過分析并匹配知識庫問題自動返回準確答案。該問答系統(tǒng)方便簡潔,農民不需要掌握過多的搜索技術便可操作,可為農民在種植過程中解決病蟲害問題提供實時指導。
問答系統(tǒng)是指對用戶所提問題進行語義分析,在問答庫中進行匹配并返回正確答案給用戶。問答系統(tǒng)一般有3個組成部分:問題分析、答案檢索和返回答案[6]。問題分析又分為問句預處理、特征詞抽取及特征詞擴展,答案檢索是根據(jù)用戶所提問題與本體庫中的問題進行相似度計算,最后將得到的最佳答案返回給用戶。系統(tǒng)整體結構如圖1所示。
圖1 問答系統(tǒng)結構
2.1 小麥病蟲害本體構建
2.1.1 小麥病蟲害本體知識的獲取 將從小麥相關的書籍,如《中國小麥栽培學》、《中國小麥品種志》,以及科技文獻、網站中獲取到的與小麥病蟲害預防相關的知識作為構建本體知識來源。最后,由領域專家對知識進行檢查整理,去除抽取錯誤的知識,合并重復知識,確保構建本體的準確性。
2.1.2 小麥病蟲害本體的構建 小麥病蟲害本體包括類、屬性和實例3個組成部分。類即概念,需要將要定義的概念按照合理的層次結構組織起來。本體最頂層的類為小麥,其子類包含小麥品種、病害種類、蟲害種類、生長期以及預防措施,其中小麥品種30類,病害類又分為特征和名稱2個子類,其中病害的名稱分為10個子類,病害特征分為顏色和部位2個子類,蟲害類與病害類相似,蟲害的名稱分為8個子類,生長期分12個子類。本體概念層次如圖2所示。屬性是描述類之間的關系,例如小麥與生長期是時間—事件關系,特征和顏色表示值—屬性關系。創(chuàng)建的本體中也應該包含實例,例如小麥病蟲害預防采用的各項措施都是預防措施類的實例。
構建本體需要借助一定的開發(fā)工具,本研究采用的本體開發(fā)工具為日本大阪大學開發(fā)的Hozo本體開發(fā)工具。Hozo能夠表達豐富的語義信息,使用簡單方便,支持JDBC以及Oracle、MySQL、SQL和Access數(shù)據(jù)庫。構建的小麥病蟲害本體如圖3所示。
圖2 小麥病蟲害本體概念層次圖
圖3 小麥病蟲害本體
2.2 問句預處理
用戶提出的問題均以句子為單位,而計算機處理的信息則以詞語為單位,因此必須對句子進行詞語切分并提取出關鍵詞以便進一步處理。預處理是語義分析的基礎,包括分詞、詞性標注、去停用詞。
分詞是文本處理的關鍵問題,其效果好壞直接影響語義分析的結果。漢語中詞語之間并無分割,因此需要借助工具將相連的詞語分隔開,本研究所用的分詞工具是張華平博士開發(fā)的分詞工具NLPIR(ICTCLAS2015),該工具可自動完成分詞及詞性標注。另外,NLPIR還具有添加用戶詞典的功能。針對小麥領域的問答系統(tǒng)研究中,涉及很多專業(yè)領域詞匯,為了確保分詞的準確性,將本研究構建的本體概念都添加到用戶詞典中,并標注其詞性。漢語中有許多類似“的”“了”“啊”等停用詞,這些停用詞對文本理解沒有實際意義,但出現(xiàn)頻率卻非常高,去除停用詞可以大大縮小特征詞的處理空間。如,對于句子“麥蚜,一直是小麥灌漿期集中在穗部危害的主要害蟲,如果控制不當對小麥的粒質量影響很大?!边M行預處理后為“麥蚜/n 一直/d 小麥/n 灌漿期/t 集中/v 穗部/n 危害/n 主要/b 害蟲/n 控制/v 不/d 當/v 小麥/n 粒質量/n 影響/vn 很/d 大/a”。
2.3 特征詞抽取
特征詞對句子理解起著關鍵作用。預處理后的句子雖然降低了句子詞語的維數(shù),但是詞語數(shù)量仍然很多,處理過多的詞語會對結果造成一定誤差,因此,需要對預處理后的句子進一步提取特征詞。
特征詞抽取主要考慮詞語在文本中出現(xiàn)的頻率,如TF-IDF特征詞抽取方法[7]。在特定領域內,一些領域詞語出現(xiàn)的頻率雖然不高,但是它們對句子的理解有重要作用,如果忽略了這些領域詞語將會直接影響到系統(tǒng)的準確性。因此,本研究利用構建的本體來識別領域內特征詞,提高抽取特征詞的精確度。首先利用TF-IDF的方法抽取特征詞,然后利用小麥病蟲害本體進行領域特征詞抽取,將2次抽取的結果進行合并即為特征詞。例如,句子“麥蚜,一直是小麥灌漿期集中在穗部危害的主要害蟲,如果控制不當對小麥的粒質量影響很大?!钡奶卣髟~為“麥蚜/n 小麥/n 灌漿期/t 穗部/n 粒質量/n”。
2.4 相似度計算
句子以詞語為基礎,句子相似度計算以詞語的相似度為基礎。并不是所有詞語都對句子相似度計算起關鍵作用,經過處理后的特征詞才是計算的關鍵。句子相似度計算不能只考慮句子中相同特征詞的個數(shù)的表層信息,還需要考慮特征詞所表達的深層語義信息,另外特征詞所處的位置、特征詞的個數(shù)對句子相似度都有不同程度的影響。為此,本研究綜合特征詞的語義信息、結構特征提出一種計算句子相似度的方法。
2.4.1 語義相似度 特征詞匹配是語義相似度計算的關鍵,匹配不是簡單的一一對應,因為需要計算相似度的2個句子特征詞數(shù)量不同,有時一個句子中某個特征詞與另一個句子中的多個特征詞相似度一致,這時確定特征詞的匹配關系就成為關鍵問題。特征詞間的相似度計算按照劉群等[8]基于知網提出的計算方法。假設句子A的特征詞分別為{a1,a2,…,am},句子B的特征詞分別為{b1,b2,…,bn},m≥n,句子相似度矩陣表示為:
其中,S(aibj)表示句子A中特征詞ai與句子B中特征詞bj的相似度。此時,特征詞相似度即在矩陣中尋找最優(yōu)匹配路徑[9],該匹配路徑的相似度之和即為句子特征詞的語義相似度。
2.4.2 結構特征相似度 結構特征相似度包括詞形相似度、詞序相似度和特征詞個數(shù)相似度三方面。
2.4.2.1 詞形相似度 2個句子中相同特征詞的個數(shù)即為詞形相似度。2個句子中含有相同特征詞個數(shù)越少則相似度越低,反之相似度越高。設句子A、B特征詞個數(shù)分別為NA、NB,NSame表示句子A、B中相同特征詞的個數(shù),則詞形相似度WordS的計算方法為:
2.4.2.2 詞序相似度 特征詞的順序反映了句子的結構信息。2個句子的組成詞語相同,若其順序不同則表達的意思大相徑庭。句子A、B特征詞詞序的相似度OrdS(A,B)計算方法為:
OrdS(A,B)=1-Inv(A,B)/maxInv(A,B)
其中,Inv(A,B)表示句子A的特征詞在句子B中的位置構成的逆序數(shù)。逆序數(shù)用文獻[10]中的方法計算。maxInv(A,B)表示兩句中相同特征詞個數(shù)的最大自然逆序數(shù)。
2.4.2.3 個數(shù)相似度 特征詞的個數(shù)是判斷句子形態(tài)相似度不可或缺的因素[11]。2個句子中的特征詞個數(shù)越接近則其形態(tài)越相似,反之亦然。2個句子特征詞個數(shù)相似度NS(A,B)計算方法為:
綜合以上因素并考慮各因素對結構相似度的影響,句子A、B的結構相似度Sim2(A,B)計算方法為:
2.4.3 句子相似度 綜合特征詞的語義信息和結構特征信息,句子相似度計算方法為:
Sim(A,B)=αSim1(A,B)+(1-α)Sim2(A,B)
其中,α為可調參數(shù),且0<α<1,Sim1(A,B)為句子特征詞語義相似度。
本系統(tǒng)采用C/S體系結構模型,前臺主要為用戶問答系統(tǒng)界面,支持用戶提問,并且把答案返回給用戶,后臺為服務器,負責領域本體知識儲存,對問句分析,并把對應答案反饋給前臺用戶。圖4為問答系統(tǒng)的問題搜索界面,用戶在問題欄中輸入問題“小麥蚜蟲發(fā)病時間”進行提問,系統(tǒng)直接返回該問題的答案。該問答系統(tǒng)界面簡潔,操作方便,農民不需要掌握過多的操作技術便可操作。
圖4 用戶問答系統(tǒng)界面
本研究首先構建小麥病蟲害本體,然后將本體知識應用到小麥病蟲害問答系統(tǒng)中,該問答系統(tǒng)可以根據(jù)用戶提出的問題自動搜索并返回準確的答案,不僅對小麥病蟲害預防具有現(xiàn)實指導意義,而且促進了農業(yè)信息化的發(fā)展[12]。但是,本研究仍存在一些問題,例如,小麥病蟲害本體如何實現(xiàn)自動化構建及動態(tài)更新,如何減少人工構建本體的工作量等。解決這些問題將是下一步工作的重點。
[1] 李春喜.糧食安全與小麥栽培發(fā)展趨勢探討[J].河南農業(yè)科學,2012,41(3):16-20.
[2] Burke R D,Hammond K J,Kulyukin V A.Question-answering from qrequently-asked question files:Experiences with the FAQ-Finder system[R]//Technical report TR-97-05.Chicago:University of Chicago,1997.
[3] 廖夢.面向問答系統(tǒng)的金融本體構建技術研究[D].哈爾濱:哈爾濱工業(yè)大學,2013.
[4] 鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學學報(自然科學版),2002,38(5):730-738.
[5] Li S P,Yin Q W,Hu Y J,etal.Overview of researches on ontology[J].Journal of Computer Research and Development,2004,41(7):1041-1052.
[6] 王超,李書琴,肖紅.基于文獻的農業(yè)領域本體自動構建方法研究[J].計算機應用與軟件,2014,31(8):71-74.
[7] 黃賢英,陳紅陽,劉英濤,等.一種新的微博短文本特征詞選擇算法[J].計算機工程與科學,2015,37(9):1761-1767.
[8] 劉群,李素建.基于《知網》的詞匯語義相似度計算[C]//臺北第三屆漢語詞匯語義學研討會論文集.臺北:[出版者不詳],2002:59-76.
[9] 鄭穎.基于模板匹配的文本傾向性研究[D].新鄉(xiāng):河南師范大學,2013.
[10] 王曉東,李永波,鄭穎.基于模板匹配的網絡評論傾向性分析[J].計算機工程與應用,2012,48(32):136-139,199.
[11] 趙臻,吳寧,宋盼盼.基于多特征融合的句子語義相似度計算[J].計算機工程,2012,38(1):171-173.
[12] 孫巖,馬中杰,鄭國清.河南省農業(yè)信息服務現(xiàn)狀及發(fā)展對策[J].河南農業(yè)科學,2013,42(12):158-161.
Construction of Question Answering System Related to Wheat Diseases and Insect Pests Based on Ontology
ZHENG Ying1,JIN Songlin1,ZHANG Ziyang2,WANG Bin2,RU Zhengang2*
(1.College of Information Engineering,Henan Institute of Science and Technology,Xinxiang 453003,China;2.College of Life Science,Henan Institute of Science and Technology,Xinxiang 453003,China)
In this paper,a question answering system about wheat diseases and insect pests was designed in order to timely and conveniently solve wheat diseases and insect pests problems for farmers.First,the knowledge of wheat diseases and insect pests was integrated.With the guidance of domain experts,the wheat diseases and insect pests ontology was built,which was used in question answering system as a knowledge base.Then,the user questions were analyzed using the relevant technology of natural language,and the corresponding answers were found and returned to the user.The system was operated easily,and had an important function in preventing wheat diseases and insect pests.
wheat diseases and insect pests; ontology; question analysis; question answering system
2015-12-02
科技部創(chuàng)新方法專項(2015IM010400)
鄭 穎(1987-),女,河南新野人,助教,碩士,主要從事自然語言處理、農業(yè)信息化研究。 E-mail:zhengying198766@126.com
*通訊作者:茹振鋼(1958-),男,河南沁陽人,教授,主要從事小麥遺傳育種研究。
S126;S435.12
A
1004-3268(2016)06-0143-04