張桂平,刁麗娜,王裴巖
(沈陽(yáng)航空航天大學(xué)知識(shí)工程研究中心,遼寧 沈陽(yáng) 110136)
語(yǔ)義知識(shí)庫(kù)(如機(jī)器詞典、句法規(guī)則庫(kù)等)是自然語(yǔ)言處理系統(tǒng)的重要組成部分,其規(guī)模與質(zhì)量是自然語(yǔ)言處理系統(tǒng)成敗的關(guān)鍵[1]。因此構(gòu)建語(yǔ)義知識(shí)庫(kù)成為自然語(yǔ)言處理的基礎(chǔ)工作。
目前國(guó)內(nèi)外成功構(gòu)建了許多大規(guī)模語(yǔ)義知識(shí)庫(kù),包括WordNet[2]、MindNet[3]、FrameNet[4]、Cyc常識(shí)知識(shí)庫(kù)[5]、YAGO[6]等,但大多都以自然語(yǔ)言形式進(jìn)行表述,在自然語(yǔ)言處理系統(tǒng)中不易對(duì)其進(jìn)行處理和計(jì)算。
HowNet[7]利用義原揭示了概念之間的關(guān)系,利用KDML描述語(yǔ)言[8]將概念的自然語(yǔ)言的表述形式描述成計(jì)算機(jī)可讀的語(yǔ)言,這種描述形式使得計(jì)算機(jī)處理系統(tǒng)更容易進(jìn)行相似度計(jì)算[9]、相關(guān)度計(jì)算[10]、傾向性計(jì)算[11]等,因此,HowNet被廣泛的應(yīng)用于自然語(yǔ)言處理的各個(gè)領(lǐng)域。
但是現(xiàn)有的大規(guī)模知識(shí)庫(kù)包括HowNet大都關(guān)于通用領(lǐng)域知識(shí),不能滿足特定領(lǐng)域的自然語(yǔ)言處理系統(tǒng)對(duì)問(wèn)題求解的知識(shí)需求。為了更好的處理面向特定領(lǐng)域的信息,需要獲取專業(yè)領(lǐng)域知識(shí),即構(gòu)建領(lǐng)域知識(shí)庫(kù)。
本文針對(duì)航空領(lǐng)域在HowNet基礎(chǔ)上進(jìn)行了擴(kuò)展,構(gòu)建了航空領(lǐng)域的術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù),包括 1 000條術(shù)語(yǔ)定義描述信息,總結(jié)了航空術(shù)語(yǔ)構(gòu)建的基礎(chǔ)規(guī)則和動(dòng)態(tài)角色/特征的選擇規(guī)則。
本文第2節(jié)簡(jiǎn)要介紹了HowNet和KDML(Knowledge Database Mark-up Language)描述語(yǔ)言,第3節(jié)詳細(xì)介紹了航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的術(shù)語(yǔ)構(gòu)建步驟,對(duì)構(gòu)建過(guò)程中使用的基礎(chǔ)規(guī)則和動(dòng)態(tài)角色/特征選取規(guī)則進(jìn)行了詳細(xì)介紹,第4節(jié)根據(jù)本文構(gòu)建的航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)對(duì)所構(gòu)建的航空術(shù)語(yǔ)進(jìn)行了相似度計(jì)算,最后是本文的結(jié)論。
“知網(wǎng)”從1988年提出至今已有20多年的歷史,被公認(rèn)為規(guī)模最大,收錄詞語(yǔ)最多,提供信息最多的語(yǔ)義詞典[12]。 KDML是由“HowNet”研發(fā)并使用的一種知識(shí)描述規(guī)范體系,“知網(wǎng)”的成功更加證實(shí)了KDML具有很強(qiáng)的描述能力。香港科技大學(xué)顏國(guó)偉博士給予了KDML很高的評(píng)價(jià),他指出: “知網(wǎng)的知識(shí)表達(dá)模式是針對(duì)計(jì)算機(jī)的信息處理特點(diǎn)而制定的”[13]。
在“知網(wǎng)”2006版中共描述了84 826個(gè)中文概念,對(duì)于概念的描述需要滿足概括性與一般性的特點(diǎn),同時(shí)也要保證概念描述的一致性與準(zhǔn)確性要求,為此給出如下規(guī)定[8]。
(1) 任一概念的描述都以“DEF=”為開(kāi)始。任一概念中出現(xiàn)的所有義原或符號(hào)必須是在知網(wǎng)的 Taxonomy中定義的義原或符號(hào)或者由知網(wǎng)知識(shí)系統(tǒng)描述語(yǔ)言所規(guī)定的特定標(biāo)識(shí)符;
(2) 概念描述中的第一個(gè)義原必須指出該概念的最基本的意義,并用事件、實(shí)體、屬性和屬性值這四類義原中的一個(gè)標(biāo)注出來(lái);
(3) 對(duì)于簡(jiǎn)單概念直接標(biāo)注該概念的意義;
(4) 利用動(dòng)態(tài)角色與特征來(lái)標(biāo)注復(fù)雜概念;
(5) 屬性類概念必須標(biāo)明它的宿主;
(6) 整體部分類型的概念必須標(biāo)明該部分的 整體;
(7) 概念描述中定義的特性至少一個(gè),但也可以是多個(gè),數(shù)量沒(méi)有限制,只要內(nèi)容合理且形式合乎規(guī)范即可。
KDML允許使用以下 7 種標(biāo)識(shí)符,它們都是英文字符,包括“{”、“}”、“:”、“=”、“;”、“,”和“"”,其中“{”表示一個(gè)概念描述的開(kāi)始,“}”表示一個(gè)概念描述的結(jié)束,“:”后邊的內(nèi)容是對(duì)其前邊義原的具體描述,“,”表示一個(gè)關(guān)系描述的結(jié)束,“=”表示一個(gè)動(dòng)態(tài)角色或特征所具有的具體的值,“;”表示某一概念是由多個(gè)概念組合而成的組合型復(fù)雜概念,每個(gè)“;”分割的必須是一個(gè)獨(dú)立、完整的概念,“"”引號(hào)中的內(nèi)容是具有特殊意義的義原[8]。
除上述7種特定標(biāo)識(shí)符之外,KDML描述語(yǔ)言對(duì)概念的描述還存在三個(gè)特殊的指示符號(hào): “~”、“?”和“$”[8]。
利用“~”進(jìn)行概念描述的特定形式是:
其中,Yi表示義原,EF表示動(dòng)態(tài)角色與特征。
這種描述方式表明Y1與Y2有關(guān),Y1為Y2的動(dòng)態(tài)角色的值,用“~”代替前邊的義原Y1。
利用“?”進(jìn)行描述的模式是:
這種描述表示在某一語(yǔ)境中“?”所充當(dāng)?shù)膭?dòng)態(tài)角色的演員一定會(huì)出現(xiàn),但在此孤立的概念描述中并沒(méi)有體現(xiàn)出來(lái)。
利用義元“$”進(jìn)行描述的模式是:
“$”用來(lái)充當(dāng)某一個(gè)動(dòng)態(tài)角色的演員?!?”代表這個(gè)概念所描述的對(duì)象。
KDML通過(guò)89種動(dòng)態(tài)角色與特征來(lái)描述概念所表述的義原間的關(guān)系,下面列出其中使用頻度較高的動(dòng)態(tài)角色/特征的具體含義[8]。
(1) “patient”(受事)表示行動(dòng)的事件類型中“變關(guān)系”、“變狀態(tài)”、“變屬性”和“使之動(dòng)”4類事件中的充當(dāng)“被改變”這一功能的實(shí)體。
(2) “content”(內(nèi)容)表示“泛動(dòng)”、“精神狀態(tài)”和“變精神”等類事件中被涉及的實(shí)體,它與“受事”的區(qū)別在于: “內(nèi)容”不承受“改變”;也可表示實(shí)體的屬性等。
(3) “agent”(施事)表示行動(dòng)的事件類型中“變關(guān)系”、“變狀態(tài)”、“變屬性”和“使之動(dòng)”4類事件中的充當(dāng)“變”這一功能的實(shí)體。
(4) “condition”(條件)事件發(fā)生或進(jìn)行的條件。
(5) “modifier”(描述)為被修飾對(duì)象增加某種屬性值。
(6) “CoEvent”(對(duì)應(yīng)之事件)說(shuō)明一個(gè)實(shí)體類的概念與一個(gè)事件享有完全相同的義原。
(7) “whole”(整體)表示“蘊(yùn)涵關(guān)系”或表示行動(dòng)事件中“選擇”類事件中的實(shí)體的整體。
(8) “AccordingTo”(根據(jù))事件發(fā)生或進(jìn)行的根據(jù)。
(9) “time”(時(shí)間)事件發(fā)生的時(shí)間。
(10) “l(fā)ocation”(處所)事件發(fā)生的空間。
(11) “RelateTo”(相關(guān))表示一個(gè)概念與什么樣的信息有關(guān),但是這種關(guān)系可能是不清晰的。
(12) “host”(宿主)屬性的主人即宿主。
(13) “purpose”(目的)事件發(fā)生進(jìn)行的目的。
(14) “instrument”(工具)事件發(fā)生或進(jìn)行所依賴的工具。
(15) “material”(材料)事件發(fā)生或進(jìn)行所依賴的材料。
(16) “whole”(整體)表示“蘊(yùn)涵關(guān)系”或表示行動(dòng)事件中“選擇”類事件中的實(shí)體的整體。
從上述對(duì)“知網(wǎng)”和KDML描述語(yǔ)言的介紹,可以知道KDML描述語(yǔ)言的描述能力很強(qiáng),義原關(guān)系清楚,而且具有計(jì)算機(jī)可讀性、直觀易懂、易于計(jì)算的優(yōu)點(diǎn),是比較理想的知識(shí)描述語(yǔ)言。
航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)相對(duì)于通用領(lǐng)域的語(yǔ)義知識(shí)庫(kù)來(lái)說(shuō)具有很強(qiáng)的專業(yè)領(lǐng)域特性,對(duì)于此類知識(shí)庫(kù)的構(gòu)建現(xiàn)在主要有兩種方法: (1)直接構(gòu)建該專業(yè)領(lǐng)域的知識(shí)庫(kù); (2)利用現(xiàn)在比較成熟的知識(shí)庫(kù)為基準(zhǔn)進(jìn)行該領(lǐng)域知識(shí)的擴(kuò)建[12]。本文的知識(shí)庫(kù)構(gòu)建選擇上述第2種方法,以“知網(wǎng)”為基準(zhǔn)向航空領(lǐng)域知識(shí)進(jìn)行擴(kuò)建。
這主要基于以下兩點(diǎn)考慮。首先,所需描述的航空術(shù)語(yǔ)是以自然語(yǔ)言的形式描述,包含大量常識(shí)概念,而“知網(wǎng)”涵蓋了這些概念,所以不需要再重新構(gòu)建。其次,“知網(wǎng)”揭示了概念內(nèi)部屬性之間的關(guān)系,而本知識(shí)庫(kù)構(gòu)建的目的是實(shí)現(xiàn)航空領(lǐng)域的術(shù)語(yǔ)內(nèi)部的語(yǔ)義關(guān)系的知識(shí)庫(kù)。這與知網(wǎng)類似,都是以描述術(shù)語(yǔ)的語(yǔ)義特性為重點(diǎn)。
本文構(gòu)建航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)所采用的術(shù)語(yǔ)來(lái)源于航空百科辭典,其中包括術(shù)語(yǔ)名稱和自然語(yǔ)言表述的術(shù)語(yǔ)定義,形式如下:
“剎車裝置”: “利用摩擦來(lái)制動(dòng)機(jī)輪轉(zhuǎn)動(dòng)的裝置”。
航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建過(guò)程主要包括3部分: 術(shù)語(yǔ)預(yù)處理、義原獲取、義原整合。
首先,術(shù)語(yǔ)預(yù)處理的主要任務(wù)是將術(shù)語(yǔ)定義進(jìn)行分詞,根據(jù)漢語(yǔ)的語(yǔ)言特點(diǎn),中心詞大多在句尾,并且考慮到“知網(wǎng)”所涵蓋的詞語(yǔ)量比較大,所以依據(jù)“知網(wǎng)”詞表對(duì)術(shù)語(yǔ)定義進(jìn)行最大逆向匹配分詞。
例如,術(shù)語(yǔ)“剎車裝置”,航空詞典中給出的定義是: “利用摩擦來(lái)制動(dòng)機(jī)輪轉(zhuǎn)動(dòng)的裝置”。分詞結(jié)果是: “利用摩擦來(lái)制動(dòng)機(jī)輪轉(zhuǎn)動(dòng)的裝置”。
第二,義原獲取是根據(jù)分詞以后的術(shù)語(yǔ)詞語(yǔ)集從中選擇核心詞語(yǔ),并從“知網(wǎng)”的義原庫(kù)中提取與之相關(guān)的義原。上述例子從知網(wǎng)中獲得的核心詞語(yǔ)和相關(guān)義原是:
摩擦: “rub|摩擦”、制動(dòng): “TurnOff|止動(dòng)”、轉(zhuǎn)動(dòng): “rotate|轉(zhuǎn)動(dòng)”、機(jī): “machine|機(jī)器”、裝置: “tool|用具”。
第三,義原整合是根據(jù)已有義原,選擇合適的動(dòng)態(tài)角色/特征,根據(jù)描述規(guī)則將義原進(jìn)行組合,形成完整的術(shù)語(yǔ)表述形式,是航空術(shù)語(yǔ)庫(kù)構(gòu)建過(guò)程中的主要過(guò)程。可以得到上述例子的描述形式是:
DEF={tool|用具:{TurnOff|止動(dòng):ResultEvent={rotate|轉(zhuǎn)動(dòng):agent={machine|機(jī)器}},RelateT={rub|摩擦},instrument={~}}}
從上述步驟可以看出要將義原按照一定的規(guī)則進(jìn)行整合,形成規(guī)范的描述形式。其中基礎(chǔ)規(guī)則和動(dòng)態(tài)角色/特征選取規(guī)則是十分重要的,因此,在 3.2節(jié)中詳細(xì)介紹了航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建的基礎(chǔ)規(guī)則。
在術(shù)語(yǔ)庫(kù)的構(gòu)建過(guò)程中根據(jù)航空術(shù)語(yǔ)的特點(diǎn),結(jié)合“知網(wǎng)”的7條總規(guī)定,延伸出符合航空術(shù)語(yǔ)知識(shí)庫(kù)構(gòu)建的5條基礎(chǔ)規(guī)則。
1. 整體部分類型的概念必須標(biāo)明該部分的整體,如果明確屬于整體的哪一部分,要用“PartPo-sition={}”表示出來(lái)。例如,
安全結(jié)構(gòu): DEF={part|部件:modifier={important|重要},PartPosition={bone|骨},whole={aircraft|飛行器}}
2. 如果術(shù)語(yǔ)的第一個(gè)義原是“fact|事情”和“affairs|事務(wù)”必須用動(dòng)態(tài)角色“對(duì)應(yīng)之事件CoEvent={}”來(lái)描述具體事件。例如,
程序制導(dǎo): DEF={fact|事情:CoEvent={guide|引導(dǎo):instrument={software|軟件:{control|控制:instrument={~},AccordingTo={software|軟件:{MakeAppointment|約定:instrument={~},content={time|時(shí)間}}}}},patient={weapon|武器:{shoot|發(fā)射:patient={~}}}}}
3. 術(shù)語(yǔ)的第一個(gè)義原“tool|用具”后一定要有事件類的義原和“instrument={~}” 來(lái)表示出具體是什么用途的工具。例如,
測(cè)試設(shè)備: DEF={tool|用具:{check|查:instrument={~}}}
4. 描述術(shù)語(yǔ)實(shí)體所起作用、功效的時(shí)候用 “BeAble|能夠”來(lái)描述。事件義原的目的用動(dòng)態(tài)角色“purpose”來(lái)描述。例如,
鞭狀天線: DEF={tool|用具:{BeAble|能夠:agent={~},content={curved|彎}},modifier={linear|線}{LengthLong|長(zhǎng)}{fine|纖},{transmit|傳送:instrument={~}, patient= {electricity|電}}}
校準(zhǔn)設(shè)備: DEF={tool|用具:{check|查:purpose={amend|改正},instrument={~}}}
5. 任意一個(gè)概念的描述,兩個(gè)義原都不能直接連接,必須由動(dòng)態(tài)角色描述出兩個(gè)義原之間的關(guān)系,除非在利用“~”的情況下,形式如下:
自動(dòng)測(cè)試設(shè)備: DEF={tool|用具:{check|查: instrument= {~},modifier={automatic|自動(dòng)}}}
本術(shù)語(yǔ)庫(kù)的所有概念描述都是基于“知網(wǎng)”的7條總規(guī)則,和此處提到的5條基礎(chǔ)規(guī)則下進(jìn)行的。
在術(shù)語(yǔ)描述中如何選擇合適的動(dòng)態(tài)角色/特征是構(gòu)建過(guò)程中的難點(diǎn),在本術(shù)語(yǔ)庫(kù)的構(gòu)建過(guò)程中根據(jù)航空術(shù)語(yǔ)的特點(diǎn)對(duì)一些動(dòng)態(tài)角色的用法進(jìn)行了新的規(guī)定,這些規(guī)定可以分為5類,在3.3~3.7節(jié)詳細(xì)介紹,包括: 動(dòng)態(tài)角色的使用、易混淆動(dòng)態(tài)角色的區(qū)分、動(dòng)態(tài)角色的選擇、特殊義原的用法和特殊情況的表述形式。
1. “belong”和“domain”都有表示歸屬領(lǐng)域的意思,但是“domain”有固定搭配的義原(這些義原屬于“Secondary Feature”,只能接在“domain”后),而且所表示的范圍都比較大,表示某一特定領(lǐng)域,“belong”表示成員歸屬一個(gè)整體,后邊所接可以是完整的定義描述,核心義原(一條定義描述的第一個(gè)義原)只要求是實(shí)體。格式如下:
“s.t.”代表特定的情況和條件。
遠(yuǎn)距操縱炮塔系統(tǒng): DEF={facilities|設(shè)施:{control|控制:instrument={~},patient={facilities|設(shè)施:domain={military|軍},{firing|射擊:instrument={~}}},manner={far|遠(yuǎn)}}}
金屬中氣體分析: DEF={fact|事情:CoEvent={analyze|分析:content={gas|氣:location={location|位置:belong={metal|金屬}}}}}
2. “PatientAttribute”(受事屬性)表示改變實(shí)體的某一屬性。結(jié)構(gòu)如下:
壓氣機(jī): DEF={machine|機(jī)器:{MakeHigher|提高:PatientAttribute={Strength|力量:host={gas|氣},scope={press|按壓}},instrument={~}}}
3. “ResultEvent”表示“使之動(dòng)”等事件所導(dǎo)致的并由其受事施行的事件,多用于“事件類義原+事件類義原”的情況,即“動(dòng)詞+動(dòng)詞”。結(jié)構(gòu)如下:
導(dǎo)航: DEF={guide|引導(dǎo):ResultEvent={VehicleGo|駛}(cāng)}
4. “CoEvent”(對(duì)應(yīng)之事件)后只能接事件類義原。結(jié)構(gòu)如下:
衛(wèi)星通信: DEF={fact|事情:CoEvent={communicate|交流},RelateTo={aircraft|飛行器}}
5. “modifier”(描述)為被修飾對(duì)象增加某種屬性值。后接的義原一定是屬性值類的。結(jié)構(gòu)如下:
高超聲速風(fēng)洞: DEF={facilities|設(shè)施:{check|查:content={wind|風(fēng)},instrument={~}},{speed|速度:modifier={high|高:degree={very|很}},ContentCompare={sound|聲}}
6. “manner”(方式)描述事件類義原,其值的核心義原是屬性值類的義原。結(jié)構(gòu)如下:
攀升: DEF={BecomeMore|增多:manner={continuous|連續(xù)}}
7. “means”(手段)描述事件類義原,其值是事件類的義原。結(jié)構(gòu)如下:
調(diào)配: DEF={produce|制造:means={mix|混合}}
8. “host”(宿主)表示屬性的主人?!癶ost”的值多為實(shí)體類義原,也有屬性類的義原。結(jié)構(gòu)如下:
長(zhǎng)度限制: DEF={Boundary|界限:host={Distance|距離}{Length|長(zhǎng)度}{Width|寬度}}
9. “patient”(受事) 表示行動(dòng)的事件類型中“變關(guān)系”,“變狀態(tài)”,“變屬性”,“使之動(dòng)”4類事件中的充當(dāng)“被改變”這一功能的實(shí)體。
露頭角: DEF={CauseToAppear|顯現(xiàn):patient={Ability|能力}}
上述例子中“Ability|能力”是屬性類的義原,這種情況在本術(shù)語(yǔ)庫(kù)的構(gòu)建中不采用“patient=”而用“content=”,屬性的宿主用host={}表示,“con-
tent={Ability|能力:host={}}”。結(jié)構(gòu)如下:
防濺結(jié)構(gòu): DEF={part|部件:{obstruct|阻止:ResultEvent={jet|噴出:patient={water|水}},instrument={~}},PartPosition={bone|骨},whole={aircraft|飛行器}}
1. “patient”、“content”、“PatientAttribte”的用法和區(qū)別: “patient”承受“改變”,“conte-nt”不承受“改變”;如果屬性值改變則用“Patie-ntAttribute”,“PatientAttribute”后之接“屬性值”類的義原;如果屬性值沒(méi)有變化則用“content”來(lái)表示,“content”后接“實(shí)體”類和“事件”類義原。結(jié)構(gòu)如下:
空氣調(diào)節(jié)系統(tǒng)試飛: DEF={fact|事情:CoEvent={experiment|實(shí)驗(yàn):content={fly|飛},manner={try|嘗試}},purpose={check|查:patient={part|部件:{adjust|調(diào)整:instrument={~},PatientAttribute={Temperature|溫度}}},whole={aircraft|飛行器}}}}
2. “target”(目標(biāo))事件中涉及到的,但沒(méi)有被改變的實(shí)體,與“patient”的區(qū)別在于不承受改變,而且?guī)в袃A向性和目的性。
磁性材料: DEF={physical|物質(zhì):HostOf={Performance|性能:scope={attract|吸引:target={metal|金屬}}}}
3. “partner”指兩個(gè)或多個(gè)在一起,“Sourc-eWhole”指一個(gè)大的整體去掉小部分對(duì)整體幾乎無(wú)影響。
環(huán)山: DEF={BeNear|靠近:partner={land|陸地:modifier={protruding|凸}}}
退伍: DEF={withdraw|退出:SourceWhole={army|軍隊(duì)}, domain={military|軍}}
1. “AlterPossession|變領(lǐng)屬”的事件義原的被領(lǐng)屬者用動(dòng)態(tài)角色“possession”和“patient”表示,結(jié)構(gòu)如下:
兩者區(qū)別在“possession”表示Y1是Y3的擁有者,而“patient”只表示Y3是Y2動(dòng)作的受事,不一定是屬于Y1。
電力公司: DEF={InstitutePlace|場(chǎng)所:domain={economy|經(jīng)濟(jì)},{provide|供:agent={~},possession={electricity|電}}}
信息員: DEF={human|人:{provide|供:agent={~},patient={information|信息}}}
2. “change|變”如果是屬性變化用“StateIni”(初始狀態(tài))、“StateFin”(終狀態(tài)),如果是實(shí)體變化則用“experiencer”(經(jīng)驗(yàn)者)表示事件的主體,結(jié)構(gòu)如下:
遇難呈祥: DEF={change|變:StateFin={fortunate|好運(yùn)},StateIni={unfortunate|不幸}}
振蕩: DEF={change|變:experiencer={electricity|電},time={time|時(shí)間:modifier={regular|定期}}}
3. “separate|分離”如果是分離出去的東西對(duì)原來(lái)的整體影響不大(例如: 從湖里分離出一杯水)則用“SourceWhole” (來(lái)源整體),如果分離出去的東西對(duì)原來(lái)的整體數(shù)量影響比較大(例如: 從一杯水中分出半杯)則用“patient”,如果是分離兩個(gè)相對(duì)獨(dú)立的整體(例如: 分開(kāi)兩個(gè)人) 則用“partner”(相伴體),結(jié)構(gòu)如下:
DEF={Y1:patient/SourceWhole/partner={Y2}}
光譜分析: DEF={fact|事情:CoEvent={analyze|分析:content={phenomena|現(xiàn)象:{forming|形成:PatientProduct={~}},means={separate|分離:SourceWhole={lights|光}{sound|聲},patient={Color|顏色}}}}}
隔聲結(jié)構(gòu): DEF={part|部件:{separate|分離:patient={sound|聲}},PartPosition={bone|骨},whole={aircraft|飛行器}}
分離速度: DEF={Speed|速度:host={physical|物質(zhì):modifier={hang|懸掛}},TimeSect={separate|分離:partner={implement|器具:{hang|懸掛:instrument={~}}}}}
4. 關(guān)于義原“feed|喂”所“喂”的東西用“patient”描述,接收所“喂”的東西的主體用“target”表示,結(jié)構(gòu)如下:
鍘草: DEF={break|折斷:patient={physical|物質(zhì):{feed|喂:patient={~},target={animal|獸}}}}
1. “direction|方向”屬于實(shí)體類義原,“direction|方向”在表示實(shí)體前進(jìn)方向的時(shí)候具有屬性類義原的特性,在這種情況下可以把“direction|方向”認(rèn)為是屬性類原后邊用“host”標(biāo)明其宿主。
導(dǎo)向: DEF={direction|方向:host={information|信息}{thinking|思想},scope={guide|引導(dǎo)}}
2. “able|能”: 是屬性值類的義原,表示一種能力,用于描述實(shí)體所具有的的某種特性,該特性與事件有關(guān)不能直接用屬性值來(lái)描述。結(jié)構(gòu)如下:
旋翼: DEF={part|部件:modifier={able|能:scope={rotate|轉(zhuǎn)動(dòng)}},PartPosition={wing|翅},whole={aircraft|飛行器}}}
3. “own|有”表示屬于某一實(shí)體的東西,不一定是實(shí)體也可能包括知識(shí)等。與“OfPart”的區(qū)別是不一定是這個(gè)實(shí)體的一部分,結(jié)構(gòu)如下:
DEF={Y1:{own|有:possessor={~},
possession={Y2}}}
s.t. Y1is {(entity|實(shí)體)}
Y2belong Y1
園藝家: DEF={human|人:domain={agricultural|農(nóng)},{own|有:possession={knowledge|知識(shí):concerning={FlowerGrass|花草}{vegetable|蔬菜}},possessor={~}}}
鴨式飛機(jī): DEF={aircraft|飛行器:{fly|飛:instrument={~}},OfPart={wing|翅:modifier={horizontal|橫}{small|小}}}
4. “~”多用于描述實(shí)體與事件之間的關(guān)系的關(guān)系,即 “做…的東西”,結(jié)構(gòu)如下:
“~”代表Y1,表示Y1是Y2的一個(gè)具體動(dòng)態(tài)角色的值。
天線: DEF={tool|用具:modifier={linear|線},{transmit|傳送: instrument={~},patient={electricity|電}}}
1. 如果描述某一實(shí)體,要具體描述實(shí)體的屬性,用動(dòng)態(tài)角色“modifier=”加義原“{PropertyValue|特性值:}”用動(dòng)態(tài)角色“scope={}”描述具體屬性。結(jié)構(gòu)如下:
高密度物體: DEF={physical|物質(zhì):modifier={PropertyValue|特性值:scope={Density|密度},modifier={GreaterThanNormal|高于正常}}}
2. 動(dòng)詞作為修飾成分來(lái)修飾名詞,例如: “約定的位置”、“反射的光”和被動(dòng)的結(jié)構(gòu),例如: “可以被檢驗(yàn)的結(jié)構(gòu)”。在本術(shù)語(yǔ)庫(kù)中規(guī)定這類情況,如果要描述的實(shí)體有相應(yīng)的動(dòng)態(tài)角色如: “l(fā)ocation|位置”和“l(fā)ocation”、“material|材料”和“material”等可用如下結(jié)構(gòu)來(lái)表示:
DEF={Y1:{Y2:相應(yīng)動(dòng)態(tài)角色={~}}}
飛向約定的位置: DEF={fly|飛:target={location|位置:{fixed|已定:location={~}}}}
如果沒(méi)有相應(yīng)的動(dòng)態(tài)角色,則用“RelateTo”描述。
DEF={Y1:{Y2:RelateTo={~}}}
利用反射的激光: DEF={use|利用:patient={lights|光:RelateTo={respond|回應(yīng)}}}
3. 如果定義的第一個(gè)義原是屬性類的義原則必須用“host”指出其宿主,如果其他的地方出現(xiàn)屬性類義原,如果能確定其宿主則用“host”指出,如果不確定則不用標(biāo)明。
4. 涉及到很多航空、物理、化學(xué)、機(jī)械領(lǐng)域的專業(yè)知識(shí),而且許多涉及人名的專業(yè)術(shù)語(yǔ),例如, “多普勒導(dǎo)航雷達(dá)天線”,很難準(zhǔn)確描述。在本術(shù)語(yǔ)庫(kù)的構(gòu)建中對(duì)與專業(yè)知識(shí)和帶人名的專業(yè)術(shù)語(yǔ)只需指出屬于某一領(lǐng)域或與某一事物相關(guān)即可,不需要深入描述專業(yè)的知識(shí)。
多普勒導(dǎo)航雷達(dá)天線: DEF={tool|用具:modifier={linear|線},domain={physics|物理},{transmit|傳送:instrument={~},patient={electricity|電}}}
根據(jù)上述構(gòu)建規(guī)則構(gòu)建了航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù),從中選取了8組有代表性的術(shù)語(yǔ)描述形式見(jiàn)表1。
表1 術(shù)語(yǔ)描述形式
續(xù)表
續(xù)表
對(duì)上述8組術(shù)語(yǔ)描述形式,利用文獻(xiàn)[14]提出的相似度的計(jì)算方法[14]進(jìn)行相似度計(jì)算,相似度計(jì)算結(jié)果見(jiàn)表2。
表2 相似度計(jì)算結(jié)果
由上述相似度計(jì)算結(jié)果可以看出所構(gòu)建的術(shù)語(yǔ)使計(jì)算機(jī)基本能夠理解人類對(duì)于該術(shù)語(yǔ)的解釋,這也驗(yàn)證了本術(shù)語(yǔ)庫(kù)構(gòu)建的準(zhǔn)確性。
本文提出了一種基于“HowNet”的領(lǐng)域知識(shí)庫(kù)構(gòu)建方法,詳細(xì)介紹了航空術(shù)語(yǔ)知識(shí)庫(kù)的構(gòu)建流程、構(gòu)建規(guī)則和動(dòng)態(tài)角色選取的規(guī)則,對(duì)“HowNet”進(jìn)行了航空領(lǐng)域的擴(kuò)展,使其在航空領(lǐng)域可以發(fā)揮更大的作用,從相似度的計(jì)算結(jié)果可以看出本術(shù)語(yǔ)庫(kù)的構(gòu)建方法取得了較好的結(jié)果。
將航空術(shù)語(yǔ)表示為計(jì)算機(jī)能夠理解和處理的形式,使其能夠作為判斷航空領(lǐng)域的術(shù)語(yǔ)語(yǔ)義相似相關(guān)程度的依據(jù),從而為面向航空領(lǐng)域的自然語(yǔ)言處理工作,以及航空術(shù)語(yǔ)間語(yǔ)義計(jì)算等工作提供了一個(gè)知識(shí)庫(kù)資源。
由于本術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)是人工構(gòu)建的,耗時(shí)耗力,效率較低,不能快速的構(gòu)建大規(guī)模的知識(shí)庫(kù),現(xiàn)在計(jì)算機(jī)科學(xué)領(lǐng)域發(fā)展迅速,大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái),對(duì)于知識(shí)庫(kù)的需求會(huì)更大。因此下一步工作要解決高效地收集、存儲(chǔ)和歸納處理知識(shí),同時(shí)智能地分析知識(shí),迅速、準(zhǔn)確構(gòu)建面向?qū)I(yè)領(lǐng)域的語(yǔ)義知識(shí)庫(kù)的問(wèn)題。
[1] 劉云, 俞士汶, 朱學(xué)鋒, 等. 現(xiàn)代漢語(yǔ)虛詞知識(shí)庫(kù)的建設(shè)[J]. 語(yǔ)言文字應(yīng)用, 2005 (1): 130-136.
[2] Fellbaum C. WordNet: An electronic lexical database[M]. MIT Press,1998.
[3] Richardson S D, Dolan W B, Vanderwende L. MindNet: acquiring and structuring semantic information from text[C]//Proceedings of the 17th international conference on Computational linguistics Volume 2. Association for Compu-tational Linguistics, 1998: 1098-1102.
[4] Baker C F, Fillmore C J, Lowe J B. The be-rkeley framenet project[C]//Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th Internatio-nal Conference on Computational Linguistics Volume 1. Associat-ion for Computational Li-nguistics, 1998: 86-90.
[5] http://www.opencyc.org/,[DB/OL].
[6] Suchanek F M, Kasneci G, Weikum G. Yago: a core of semantic knowledge[C]//Proceeding-s of the 16th international conference on Wor-ld Wide Web. ACM, 2007: 697-706.
[7] Dong Z, Dong Q. HowNet and the Computat-ion of Meaning[M]. Singapore: World Scienti-fic, 2006.
[8] 董振東, 董強(qiáng). KDML—知網(wǎng)知識(shí)系統(tǒng)描述語(yǔ)言[DB/OL]. http://www. keenage.com/html/e_i-ndex. html.
[9] 劉群, 李素建. 基于《 知網(wǎng)》 的詞匯語(yǔ)義相似度計(jì)算[J]. 中文計(jì)算語(yǔ)言學(xué), 2002, 7(2): 59-76.
[10] 李素建. 基于語(yǔ)義計(jì)算的語(yǔ)句相關(guān)度研究[J].計(jì)算機(jī)工程與應(yīng)用, 2002, 38(7): 75-76.
[11] 熊德蘭, 程菊明, 田勝利. 基于 HowNet 的句子褒貶傾向性研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009, 44(22): 143-145.
[12] 王瑩瑩, 白宇, 丁長(zhǎng)林, 等. 面向語(yǔ)義檢索的中醫(yī)理論知識(shí)庫(kù)構(gòu)建方法的研究[J]. 中文信息學(xué)報(bào), 2012, 26(5): 72-78.
[13] 董振東, 董強(qiáng). 面向信息處理的詞匯語(yǔ)義研究中的若干問(wèn)題[J]. 語(yǔ)言文字應(yīng)用, 2001, 3: 27-32.
[14] 夏天. 漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算研究[J]. 計(jì)算機(jī)工程, 2007, 33(06): 191-194.