劉志 郝克俊
摘 要:基于本體編輯工具Protégé,設(shè)計了人工影響天氣術(shù)語本體知識庫。按照本體構(gòu)造的“七步法”,定義了術(shù)語類,明確了術(shù)語類層次關(guān)系,定義了術(shù)語類的對象屬性和數(shù)據(jù)屬性;基于自定義的對象屬性,利用HermiT推理機(jī)對本體進(jìn)行了一致性檢查。文章系統(tǒng)組織了人工影響天氣領(lǐng)域的專業(yè)術(shù)語,為該領(lǐng)域術(shù)語研究、人機(jī)翻譯、基于語義的信息檢索奠定了基礎(chǔ)。
關(guān)鍵詞:人工影響天氣術(shù)語;本體知識庫;本體一致性;Protégé
中圖分類號:H083;P48文獻(xiàn)標(biāo)識碼:ADOI:10.3969/j.issn.1673-8578.2019.06.003
Abstract:Based on the edit tool Protégé, we designed the ontology knowledge base of weather modification terminology. According to the “seven-step” method of ontology construction, we defined the term class, the hierarchical relationship, the object properties, and data properties. Based on the custom object properties, we used HermiT Reasoner to check the ontology consistency. The terms in the field of weather modification were organized, which could provide a basis for the term research, human-computer translation and semantic-based information retrieval in this field.
Keywords:weather modification terminology;knowledge ontology base;ontology consistency;Protégé
本體又稱為“實體”[1],源于哲學(xué)概念,用于研究客觀事物的抽象本質(zhì),本體的作用是表達(dá)知識,方便知識的重用和交互。在本體中,知識可以被正式地表達(dá)為一系列的領(lǐng)域相關(guān)概念,以及這些概念之間的相互關(guān)系。本體組織結(jié)構(gòu)是層次結(jié)構(gòu)化的,Gruber提出 “本體是概念模型的明確的規(guī)范說明” [2]。本體可以當(dāng)作某個領(lǐng)域內(nèi)不同主體(人、機(jī)器等)之間進(jìn)行交流的一種語義基礎(chǔ)[3],即由本體提供明確定義的詞匯表,描述概念和概念之間的關(guān)系,作為使用者之間達(dá)成的共識。
本體可以被用來為一個知識領(lǐng)域建立模型,并且支持對這個模型中的實體進(jìn)行推理。目前,本體已經(jīng)被廣泛應(yīng)用于知識工程、自然語言處理、數(shù)字圖書館、信息檢索和Web異構(gòu)信息的處理、軟件復(fù)用、面向?qū)ο蠹夹g(shù)和語義Web等領(lǐng)域。本體提供的是一種共享詞表,也就是特定領(lǐng)域之中那些存在著的對象類型或概念及其屬性和相互關(guān)系;或者說,本體就是一種特殊類型的術(shù)語集,具有結(jié)構(gòu)化的特點,且更加適合于在計算機(jī)系統(tǒng)中使用[4]。
目前術(shù)語的應(yīng)用范圍從純語言學(xué)研究拓展到機(jī)器翻譯、信息檢索、數(shù)據(jù)挖掘等領(lǐng)域[2]。對術(shù)語進(jìn)行抽取和標(biāo)注需要構(gòu)建語料庫。本體描述概念和概念之間的關(guān)系,通過本體知識庫,能夠描述術(shù)語間關(guān)系和術(shù)語的屬性信息,將某一領(lǐng)域的術(shù)語系統(tǒng)合理整合起來。
一 人工影響天氣術(shù)語本體知識庫
人工影響天氣是指在一定的有利時機(jī)和條件下,通過人工催化等技術(shù)手段,對局部區(qū)域內(nèi)大氣中的物理過程施加影響,使其發(fā)生某種變化,從而達(dá)到減輕或避免氣象災(zāi)害目的的一種科技措施[5]。例如,在我國很多地區(qū)利用飛機(jī)或高炮、火箭等運(yùn)載工具向云中播撒碘化銀、干冰等催化劑進(jìn)行的人工增雨、防雹作業(yè)。目前,中國還沒有人工影響天氣術(shù)語本體知識庫,本文嘗試?yán)脤I(yè)資料構(gòu)建該領(lǐng)域的術(shù)語本體知識庫,對人工影響天氣領(lǐng)域相關(guān)術(shù)語及術(shù)語間的關(guān)系進(jìn)行描述,以實現(xiàn)對人工影響天氣領(lǐng)域知識的系統(tǒng)組織,為該領(lǐng)域術(shù)語研究、人機(jī)翻譯、基于語義的信息檢索提供基礎(chǔ)。
1.本體知識庫構(gòu)建方法
本體知識庫的構(gòu)造過程稱為“本體工程”,需要完整的工程化、系統(tǒng)化的方法來支持,Gruber從實踐出發(fā)提出了有益于構(gòu)建本體的標(biāo)準(zhǔn):明確性、一致性、可擴(kuò)展性、最小編碼偏好和最小承諾[6],基于該標(biāo)準(zhǔn),研究者提出了多種構(gòu)建本體的方法,有KACTUS法、七步法、“骨架”法、TOVE法、MethOntolog法。其中美國斯坦福大學(xué)醫(yī)學(xué)院提出的七步法[7]應(yīng)用最廣泛,基本流程見圖1。
本文設(shè)計的本體知識庫的領(lǐng)域術(shù)語部分參考了氣象行業(yè)標(biāo)準(zhǔn)《人工影響天氣作業(yè)術(shù)語》(QX/T 151-2012),部分來源于從文獻(xiàn)、專業(yè)書籍中抽取的術(shù)語。
2.本體編輯工具
Protégé軟件[8]是斯坦福大學(xué)醫(yī)學(xué)院生物信息研究中心基于Java語言開發(fā)的本體編輯工具,提供了本體概念類、關(guān)系、屬性和實例的構(gòu)建界面,屏蔽了具體的本體描述語言,用戶只需在概念層次上進(jìn)行領(lǐng)域本體模型的構(gòu)建。有可自行設(shè)置的數(shù)據(jù)輸入模式,可以將Protégé的內(nèi)部表示轉(zhuǎn)制成多種形式的文本表示格式,如:XML、RDF(S)、OIL、DAML、DAML+OIL、OWL等系統(tǒng)語言。Protégé 工具本身沒有嵌入推理工具,不能實現(xiàn)推理,但它具有很強(qiáng)的可擴(kuò)展性,可以插入插件來擴(kuò)展一些特殊的功能,如推理、提問、XML轉(zhuǎn)換等。目前最新版本是Protégé 5.5.0 beta 8[8]。
3.本體描述語言
本體描述語言通過定義類以及類的屬性來形式化某個領(lǐng)域,并說明它們之間的屬性,以便對類和個體進(jìn)行推理。本體描述語言有RDFS、OWL,都是W3C(World Wide Web Consortium)的推薦標(biāo)準(zhǔn)[9],用于對本體進(jìn)行語義描述。資源描述框架(Resource Description Framework,RDF)[10]使用XML語法和RDF Schema(RDFS)將元數(shù)據(jù)描述成為數(shù)據(jù)模型。 通過RDF,人們可以使用自己的詞匯表描述任何資源。一個RDF文件包含多個資源描述,而一個資源描述是由多個語句構(gòu)成,一個語句是由資源、屬性類型、屬性值組成的三元組,表示資源具有的一個屬性。RDFS,即“Resource Description Framework Schema”,是最基礎(chǔ)的模式語言,RDFS本質(zhì)上就是RDF詞匯的一個擴(kuò)展。RDFS比較重要的詞匯見表1。
OWL(Ontology Web Language)[11]是一種本體語言,是RDFS的一個擴(kuò)展,其添加了額外的預(yù)定義詞匯, 常用的詞匯見表2。
二 術(shù)語類設(shè)計及編碼
1.類及其層級
為了準(zhǔn)確定義人工影響天氣領(lǐng)域中各個術(shù)語的位置,為術(shù)語進(jìn)行語義限定和語義擴(kuò)展奠定基礎(chǔ),需要明確術(shù)語層次關(guān)系,就是明確類的層次關(guān)系,使類之間的語義關(guān)系更加清晰。本文以人工影響天氣(weather_modification)作為根節(jié)點,根節(jié)點下添加雷達(dá)觀測(radar_meteorology_observation)、作業(yè)監(jiān)測(operation_monitor)、作業(yè)裝備(operation_equipment)、作業(yè)技術(shù)(operation_technology)、地面作業(yè)(ground_operation)、飛機(jī)作業(yè)(plane_operation)、催化技術(shù)(seeding_technology)、效果評估(performance_evaluation)、業(yè)務(wù)管理(business_management)、技術(shù)研發(fā)(technology_development)10個大類。作業(yè)裝備分為飛機(jī)(plane)、高炮(antiaircraft_gun)、火箭(rocket)、發(fā)生器(ground_generator)4個類,業(yè)務(wù)管理類下面又分作業(yè)人員(operator)、作業(yè)設(shè)施(facility)、相關(guān)機(jī)構(gòu)(institution)、規(guī)章制度(regulations)4個類。其中,相關(guān)機(jī)構(gòu)下面分為業(yè)務(wù)管理機(jī)構(gòu)(business_management_organization)、作業(yè)指揮機(jī)構(gòu)(operation_command_organization)、空域申報部門(airspace_declare_organization)、民爆物品管理部門(industrial_explosive_management_organization)4個類;作業(yè)設(shè)施下面分作業(yè)點(operating_spot)、硬件設(shè)施(hardware_facility)、軟件條件(software_conditon)3個類。硬件設(shè)施下面分休息室(waiting_room)、值班室(duty_room)、射擊平臺(fire_platform)、彈藥庫(ammunition_depot)、裝備庫(equipment_dept)5個類。軟件條件下面分作業(yè)點編碼(code)、安全射界圖(safety_shot_chart_cartographic)2個類。Protégé可以將層級結(jié)構(gòu)可視化,圖2為上述部分的層次結(jié)構(gòu)。
2.對象屬性
除了明確類之間的層級,還需要限定類之間的關(guān)系,將類之間的語義信息顯性地表現(xiàn)出來。對象屬性就是指類之間的關(guān)系,對象屬性是自行定義的,屬性與屬性之間的關(guān)系由本體描述語言詞匯限定。
對前文描述的術(shù)語部分,定義“裝備配備”(be equipped with),說明作業(yè)點配備了哪些作業(yè)裝備。該屬性是屬于作業(yè)點(rdfs:domain),取值范圍(rdf:range)是裝備。
定義“強(qiáng)制性具備”(mandatory),說明作業(yè)點必須配備硬件設(shè)施。該屬性是屬于固定作業(yè)點(rdfs:domain),取值范圍(rdf:range)是硬件設(shè)施。
定義“下轄”(have jurisdiction over),說明管理部門管轄的業(yè)務(wù)管理部門或作業(yè)指揮部門或作業(yè)點,該屬性具有傳遞性(owl:TransitiveProperty):若A下轄B,B下轄C,那么A肯定下轄C。
定義“隸屬”(be subordinated to),說明管理部門或作業(yè)點的上級機(jī)構(gòu),該屬性與“下轄”是相反的(owl:inverseOf)。
“業(yè)務(wù)往來”(related)是指業(yè)務(wù)管理部門與相關(guān)機(jī)構(gòu)之間有業(yè)務(wù)往來關(guān)系,說明管理部門下轄所有作業(yè)點都向某個空域管制部門申請作業(yè)空域,下轄所有作業(yè)點都向某個民爆物品部門申請彈藥儲運(yùn)許可。定義對象屬性見圖3,“related”屬性的參數(shù)設(shè)置見圖4。
“related”屬性設(shè)置對應(yīng)的OWL描述為:
rdf:resource="….#operating_spot"/> 根據(jù)自定義的對象屬性,部分類的關(guān)系結(jié)構(gòu)見圖5。 3.數(shù)據(jù)屬性 要完整描述類本身的特性,還需要定義類的數(shù)據(jù)屬性。為了對數(shù)據(jù)屬性的屬性值進(jìn)行規(guī)范,Protégé提供了6種數(shù)據(jù)類型,分別是布爾型(boolean)、整數(shù)型(int)、單精度浮點型(float)、字符型(string)、時間型(date)、日期時間型(date Time)。