• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于描述邏輯本體推理的語(yǔ)義級(jí)中文校對(duì)方法①

      2017-05-17 10:00:19莊潤(rùn)鈸吳燁凡朱玲萱北京師范大學(xué)珠海分校管理學(xué)院珠海519087
      關(guān)鍵詞:語(yǔ)料庫(kù)本體語(yǔ)義

      姜 贏, 莊潤(rùn)鈸, 吳燁凡, 朱玲萱(北京師范大學(xué)珠海分校 管理學(xué)院, 珠海 519087)

      基于描述邏輯本體推理的語(yǔ)義級(jí)中文校對(duì)方法①

      姜 贏, 莊潤(rùn)鈸, 吳燁凡, 朱玲萱
      (北京師范大學(xué)珠海分校 管理學(xué)院, 珠海 519087)

      近年來(lái)中文校對(duì)技術(shù)雖然在字詞級(jí)和語(yǔ)法級(jí)層面取得了較好效果, 但是對(duì)于語(yǔ)義級(jí)層面研究相對(duì)薄弱,目前相關(guān)研究都有一定局限性. 提出利用本體技術(shù)將中文文本中的語(yǔ)義內(nèi)容提取出來(lái)轉(zhuǎn)換為結(jié)構(gòu)化本體, 再與正確的領(lǐng)域背景本體庫(kù)融合, 通過(guò)描述邏輯推理機(jī)來(lái)判斷提取的語(yǔ)義內(nèi)容的邏輯一致性, 并將檢測(cè)出的邏輯一致性錯(cuò)誤映射為中文語(yǔ)義錯(cuò)誤. 此方法在政治敏感錯(cuò)誤等領(lǐng)域進(jìn)行了測(cè)試, 與其他相關(guān)研究相比, 具有語(yǔ)義查錯(cuò)的透明性、語(yǔ)義模型的完整性、語(yǔ)義推理的智能型等優(yōu)勢(shì).

      中文校對(duì); 語(yǔ)義校對(duì); 本體推理; 描述邏輯; 推理機(jī)

      隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展, 報(bào)刊、圖書等傳統(tǒng)媒體的文字錄入、編輯、排版、校對(duì)和印刷已經(jīng)電子化了. 包括辦公室和家庭在內(nèi)的各種互聯(lián)網(wǎng)用戶在中文文字處理及校對(duì)軟件上的需求量也非常大. 現(xiàn)有的中文校對(duì)軟件(例如, 黑馬校對(duì)系統(tǒng)、金山WPS)可以根據(jù)中文詞法關(guān)系和語(yǔ)法結(jié)構(gòu), 自動(dòng)分析中文文本中的詞句并將疑問(wèn)處標(biāo)紅, 可以一次濾掉大量的文字錄入錯(cuò)誤, 包括丟字、多字、錯(cuò)字和語(yǔ)句不通等, 特別適合二、三連校中的而校及終校把關(guān)[1]. 但是目前中文校對(duì)軟件還不能完成替代人工校對(duì), 其中一個(gè)重要原因在于, 雖然其字詞級(jí)和語(yǔ)法級(jí)層面取得了較好效果,但是語(yǔ)義級(jí)層面中文校對(duì)技術(shù)研究相對(duì)薄弱[2]. 例如,“馬英九在臺(tái)灣的職務(wù)是總統(tǒng)”這個(gè)句子既沒有字詞錯(cuò)誤, 也沒有語(yǔ)法錯(cuò)誤, 但是其語(yǔ)義錯(cuò)誤的原因在于:“由于臺(tái)灣不是一個(gè)國(guó)家, 所以它不能有總統(tǒng)”, 需要在“總統(tǒng)”前添加“所謂”, 但這樣的背景知識(shí)只有專業(yè)校對(duì)人員來(lái)進(jìn)行人工判斷, 而中文校對(duì)軟件通過(guò)簡(jiǎn)單的關(guān)鍵詞過(guò)濾是無(wú)法準(zhǔn)確處理的: 如果只是簡(jiǎn)單判斷同時(shí)包含“馬英九”和“總統(tǒng)”的句子為錯(cuò)誤語(yǔ)句, 將導(dǎo)致“馬英九給美國(guó)總統(tǒng)致電”這樣的正確句子錯(cuò)判.

      1 語(yǔ)義錯(cuò)誤與語(yǔ)義校對(duì)的定義

      由于英文文本的詞與詞之間是以空格符為分隔符的, 所以英文自動(dòng)校對(duì)基本以詞的校對(duì)為核心, 是在非詞錯(cuò)誤和真詞錯(cuò)誤這兩個(gè)層次上進(jìn)行的. 研究發(fā)現(xiàn)英文文本中非詞錯(cuò)誤占60%, 真詞錯(cuò)誤占40%[3]. 其中,非詞錯(cuò)誤即字串不是詞典中存在的; 真詞錯(cuò)誤即字串是詞典中存在的詞[4], 但它與上下文搭配不當(dāng), 引起句法的語(yǔ)義錯(cuò)誤, 故真詞錯(cuò)誤也是語(yǔ)義錯(cuò)誤的一種.國(guó)內(nèi)也一般認(rèn)為語(yǔ)義錯(cuò)誤是指一些語(yǔ)言錯(cuò)誤是體現(xiàn)在語(yǔ)義的層面上, 即在字詞層面和語(yǔ)法搭配上不存在問(wèn)題, 而是在語(yǔ)義層面上的搭配有誤[2], 包括一些表達(dá)的內(nèi)容在某個(gè)具體的語(yǔ)境中不該出現(xiàn)的搭配(例如,“聰明的手”). 文本校對(duì)類型分為字詞級(jí)、語(yǔ)法級(jí)和語(yǔ)義級(jí)3類[5]. 綜上所述, 本文研究的語(yǔ)義級(jí)中文校對(duì)是指針對(duì)漢語(yǔ)文本中上述語(yǔ)義錯(cuò)誤而進(jìn)行的文本校對(duì),簡(jiǎn)稱中文語(yǔ)義校對(duì).

      2 國(guó)內(nèi)外研究現(xiàn)狀

      中文語(yǔ)義校對(duì)研究始于2003年, 鄭逢斌教授在2003年指出: “辨識(shí)一個(gè)語(yǔ)句的意義首先要了解其中每一個(gè)詞素或詞的語(yǔ)義, 積詞成句, 再了解句子的語(yǔ)義,然后按上下文的語(yǔ)義來(lái)理解全篇. 讓機(jī)器能完全理解和表示自然語(yǔ)言當(dāng)然是一條求之不得的途徑, 但由于自然語(yǔ)言的復(fù)雜性, 這條途徑困難很大. ”[4]. 2003年羅振生教授指出文本自動(dòng)校對(duì)中的語(yǔ)義錯(cuò)誤檢查仍相當(dāng)困難, 但不是無(wú)從著手[3], 張仰森教授于2006年也提出同樣觀點(diǎn), 并指出在未來(lái)這方面仍需深入研究, 呼吁加強(qiáng)句法、語(yǔ)義層次的校對(duì)策略研究[6]. 根據(jù)各個(gè)專家研究?jī)?nèi)容和思路的不同將國(guó)內(nèi)外語(yǔ)義校正研究劃分成以下三類.

      2.1 模糊語(yǔ)義對(duì)比方法(黑箱模型)

      2003年鄭逢斌等給出了用句子語(yǔ)義骨架表示句子語(yǔ)義的具體方法和表示形式, 然后計(jì)算文本中語(yǔ)句與知識(shí)庫(kù)中相關(guān)知識(shí)進(jìn)行模糊匹配而得出語(yǔ)句的錯(cuò)誤程度[4]. 2010年Kai A. Olsen等也提出通過(guò)模糊比較目標(biāo)句子與大型文本庫(kù)中相似句子的方法來(lái)鑒別文本拼寫、語(yǔ)法甚至語(yǔ)義錯(cuò)誤的方法[7]. 以上兩種都屬于模糊語(yǔ)義對(duì)比方法, 他們的出發(fā)點(diǎn)在于認(rèn)為完全精確的理解句子語(yǔ)義可行性不高, 因此采取繞過(guò)精確語(yǔ)義理解的思路, 通過(guò)建立某種模糊語(yǔ)義模型, 將知識(shí)庫(kù)或文本庫(kù)中的正確句子與目標(biāo)句子進(jìn)行模糊匹配來(lái)判斷語(yǔ)義錯(cuò)誤. 這種方法本質(zhì)上是一種黑箱模型, 雖然知道有語(yǔ)義錯(cuò)誤, 也可以計(jì)算語(yǔ)義錯(cuò)誤程度值并選擇性的糾正錯(cuò)誤, 但是其局限性在于不知道具體有什么語(yǔ)義錯(cuò)誤, 語(yǔ)義錯(cuò)誤類型是什么, 為什么是語(yǔ)義錯(cuò)誤, 以及為什么糾錯(cuò)之后的是正確的語(yǔ)義.

      2.2 精確語(yǔ)義匹配方法(白箱模型)

      2009年程顯毅教授提出基于HNC的中文文本校對(duì)系統(tǒng)模型[5]. HNC 是由中科院聲學(xué)研究所的黃曾陽(yáng)先生專門針對(duì)漢語(yǔ)的特點(diǎn)而提出來(lái)的一種用于自然語(yǔ)言理解的理論[8], 該理論由語(yǔ)言概念空間考察自然語(yǔ)言空間, 以概念聯(lián)想脈絡(luò)為主線, 建立一種模擬大腦語(yǔ)言感知過(guò)程的自然語(yǔ)言表述模式和計(jì)算機(jī)理解處理模式. 但是由于HNC本身并沒有語(yǔ)義推理機(jī)制, 需要通過(guò)窮舉57種句式語(yǔ)義來(lái)判斷語(yǔ)義錯(cuò)誤, 不適合大規(guī)模語(yǔ)義校對(duì)應(yīng)用. 此類屬于精確語(yǔ)義匹配方法, 即使用某種語(yǔ)義知識(shí)表示模型提取文本中的語(yǔ)義對(duì)象以及語(yǔ)義對(duì)象之間的關(guān)系, 精確判斷文本的語(yǔ)義錯(cuò)誤類型和錯(cuò)誤原因. 這是基于白箱模型思路的一種解決語(yǔ)義錯(cuò)誤的方法[5].

      2.3 語(yǔ)義搭配校對(duì)方法

      2003年羅振聲等提出統(tǒng)計(jì)和規(guī)則相結(jié)合的校對(duì)策略, 既能檢查局部語(yǔ)義限制, 也能檢查長(zhǎng)距離的語(yǔ)義搭配[4]. 2010年張仰森等提出了一種基于《知網(wǎng)》義原搭配的有效的自動(dòng)查錯(cuò)方法[9]. 2012年張仰森等進(jìn)一步提出基于知識(shí)庫(kù)的多層級(jí)中文文本查錯(cuò)推理模型[2].對(duì)于此類研究, 羅振聲教授明確指出: “這里的語(yǔ)義檢查同傳統(tǒng)的語(yǔ)義分析是兩個(gè)完全不同的概念, 它并不試圖建立句子的語(yǔ)義框架, 只是從成分的搭配關(guān)系上加以考察”[4]. 也就是說(shuō)此類方法只能檢查單一的語(yǔ)義搭配錯(cuò)誤, 而無(wú)法處理其他語(yǔ)義錯(cuò)誤.

      3 總體思路

      自2004年OWL第1個(gè)版本被W3C聯(lián)盟推薦為國(guó)際標(biāo)準(zhǔn)以來(lái), 基于描述邏輯的本體一致性推理理論研究非常熱門, 目前其推理算法研究已相對(duì)成熟. OWL本體能夠描述各個(gè)領(lǐng)域常見語(yǔ)義對(duì)象及其語(yǔ)義關(guān)系, 是解決各個(gè)領(lǐng)域語(yǔ)義問(wèn)題廣泛應(yīng)用的理論模型,被認(rèn)為是下一代語(yǔ)義網(wǎng)技術(shù)基石[10]. OWL建立在嚴(yán)格的描述邏輯基礎(chǔ)之上, 只要語(yǔ)義推理規(guī)則制定正確,其推理結(jié)果準(zhǔn)確度可達(dá)100%. 利用本體推理技術(shù)分析和診斷本體中的邏輯不一致性, 最終使之成為邏輯上一致的本體, 成為本體論的一個(gè)重要理論任務(wù).

      本文提出基于描述邏輯本體推理的中文語(yǔ)義校對(duì)方法總體思路如下: 利用本體學(xué)習(xí)技術(shù)將中文文本中的語(yǔ)義內(nèi)容提取出來(lái)轉(zhuǎn)換為結(jié)構(gòu)化本體, 再與正確的領(lǐng)域背景本體庫(kù)融合, 通過(guò)描述邏輯推理機(jī)來(lái)判斷提取的語(yǔ)義內(nèi)容的邏輯一致性, 并將檢測(cè)出的邏輯一致性錯(cuò)誤知識(shí)映射為中文語(yǔ)義錯(cuò)誤. 此方法的基本假設(shè)和基本觀點(diǎn)如下:

      (1) 基于本體論的中文語(yǔ)義校對(duì)模型, 發(fā)揮了本體論在語(yǔ)義描述、語(yǔ)義推理、語(yǔ)義演化等方面的優(yōu)勢(shì),是白箱模型思路的一種徹底解決中文語(yǔ)義錯(cuò)誤的根本辦法, 是中文語(yǔ)義校對(duì)技術(shù)發(fā)展趨勢(shì)之一.

      (2) 隨著本體論、語(yǔ)義Web和語(yǔ)義技術(shù)的不斷發(fā)展, 各種領(lǐng)域本體庫(kù)將會(huì)越來(lái)越多, 獲取方式的開放化和數(shù)量的規(guī)模化是領(lǐng)域本體庫(kù)未來(lái)發(fā)展趨勢(shì). 即使沒有可以通過(guò)免費(fèi)協(xié)議獲取或商業(yè)途徑購(gòu)買的特定領(lǐng)域本體庫(kù), 也可以通過(guò)人工方法或半自動(dòng)方法自行構(gòu)建特定領(lǐng)域本體庫(kù), 以滿足不同中文語(yǔ)義校對(duì)應(yīng)用場(chǎng)景的需求, 相關(guān)工具軟件和技術(shù)方法也將越來(lái)越成熟.

      (3) 中文語(yǔ)義提取是中文語(yǔ)義校對(duì)的核心步驟之一, 但它不需要對(duì)中文語(yǔ)句進(jìn)行完全的語(yǔ)義分析, 只需針對(duì)特定領(lǐng)域本體庫(kù)提取關(guān)鍵三元組語(yǔ)義信息用于中文語(yǔ)義查錯(cuò)即可, 可以通過(guò)不斷提高中文語(yǔ)義錯(cuò)誤的召回率和準(zhǔn)確率來(lái)逐步完善中語(yǔ)義提取算法, 這比進(jìn)行完全的語(yǔ)義分析可行性要高.

      (4) 近幾年基于描述邏輯的本體一致性推理, 其瓶頸在于對(duì)海量數(shù)據(jù)的大規(guī)模推理算法優(yōu)化問(wèn)題上.而中文語(yǔ)義校對(duì)一般用于文字處理軟件編輯環(huán)境, 一般針對(duì)的特定領(lǐng)域中文文本數(shù)據(jù)量也不會(huì)大(篇幅較大的中文文本也可先做切割處理), 因此對(duì)于邏輯一致性驗(yàn)證推理性能要求不高. 此方法將中文語(yǔ)義校對(duì)問(wèn)題轉(zhuǎn)換為OWL本體一致性驗(yàn)證推理的邏輯問(wèn)題, 充分利用了后者語(yǔ)義查錯(cuò)準(zhǔn)確度高的優(yōu)勢(shì), 而其性能上的劣勢(shì)也不是大問(wèn)題.

      4 關(guān)鍵技術(shù)實(shí)現(xiàn)方法

      4.1 基于本體學(xué)習(xí)的中文語(yǔ)義提取實(shí)現(xiàn)方法

      利用自然語(yǔ)言處理和本體學(xué)習(xí)技術(shù), 從非結(jié)構(gòu)化的中文自然語(yǔ)言中提取語(yǔ)義內(nèi)容, 進(jìn)而轉(zhuǎn)換成基于RDF三元組的本體結(jié)構(gòu)化形式, 提供給下一步語(yǔ)義查錯(cuò)處理. 中文語(yǔ)義內(nèi)容的提取包括語(yǔ)義對(duì)象(類和個(gè)體)和語(yǔ)義關(guān)系(語(yǔ)義屬性以及語(yǔ)義關(guān)聯(lián)). 具體來(lái)說(shuō), 有以下兩種實(shí)現(xiàn)方法.

      (1) 基于規(guī)則的中文本體學(xué)習(xí): 2006年研發(fā)了一個(gè)中文本體學(xué)習(xí)Protégé插件: OntoLTCn[11], 它將中文文本進(jìn)行詞法、句法分析, 通過(guò)總結(jié)語(yǔ)義模式XML規(guī)則, 使用XPath匹配的方法抽取出語(yǔ)義對(duì)象和語(yǔ)義關(guān)系. 第一步, 利用ictclas4j中文詞法分析API對(duì)中文文本進(jìn)行中文自動(dòng)分詞和自動(dòng)詞性標(biāo)注. 第二步, 定義XML模式匹配規(guī)則(Mappings). 每一個(gè)匹配規(guī)則都包含兩個(gè)部分: XPath模式匹配條件(Conditions)和自動(dòng)創(chuàng)建本體的操作(Operators). OntoLTCn能夠通過(guò)XML模式匹配的方式將這些特征詞匯和關(guān)聯(lián)映射到領(lǐng)域本體庫(kù)中的類、個(gè)體和屬性等等語(yǔ)義內(nèi)容.

      (2) 基于機(jī)器學(xué)習(xí)的中文本體學(xué)習(xí): 基于規(guī)則的本體學(xué)習(xí)技術(shù)在語(yǔ)義對(duì)象提取效果較好, 而對(duì)于語(yǔ)義關(guān)系效果一般. 2011和2012年在基于機(jī)器學(xué)習(xí)的語(yǔ)義關(guān)系提取這個(gè)瓶頸問(wèn)題上有重大突破. 基本思路是,利用DBpedia等LOD關(guān)聯(lián)數(shù)據(jù)和語(yǔ)料庫(kù)作為背景知識(shí)庫(kù), 對(duì)于給定語(yǔ)義關(guān)系從LOD中提取實(shí)例并從語(yǔ)料庫(kù)中抽取中文本特征進(jìn)行模式學(xué)習(xí), 再通過(guò)模式檢索、排序、篩選等步驟, 從語(yǔ)料庫(kù)中匹配文本獲得新的語(yǔ)義關(guān)系實(shí)例, 轉(zhuǎn)而再回饋輸入LOD關(guān)聯(lián)數(shù)據(jù), 這樣形成迭代循環(huán)機(jī)器學(xué)習(xí)過(guò)程.

      4.2 基于本體一致性驗(yàn)證推理的中文語(yǔ)義查錯(cuò)實(shí)現(xiàn)方法

      對(duì)于被檢測(cè)的中文文本采取基于段落掃描緩沖區(qū)的逐段處理模式來(lái)處理, 而不是傳統(tǒng)中文語(yǔ)法校正的逐句處理模式. 將每個(gè)段落中提取的若干RDF三元組與正確的領(lǐng)域本體庫(kù)進(jìn)行融合, 利用選取的本體一致性驗(yàn)證推理規(guī)則在推理機(jī)中進(jìn)行推理, 兩者產(chǎn)生一致性邏輯矛盾即為檢測(cè)出來(lái)的中文語(yǔ)義錯(cuò)誤. 實(shí)驗(yàn)可供選擇的推理機(jī)包括Pellet或Jena等等. 針對(duì)備選本體一致性驗(yàn)證推理規(guī)則, 可以利用本體修正增量式驗(yàn)證推理機(jī)制, 即采取基于緩沖區(qū)和時(shí)間窗口的互動(dòng)式推理排序方法對(duì)進(jìn)行推理性能進(jìn)行優(yōu)化. 具體來(lái)說(shuō), 為每條推理規(guī)則建立影響度關(guān)聯(lián)機(jī)制, 在推理緩沖區(qū)之內(nèi)調(diào)度語(yǔ)義錯(cuò)誤所映射的一致性驗(yàn)證邏輯錯(cuò)誤, 使影響度高的先進(jìn)性推理運(yùn)算, 影響度低的根據(jù)前者運(yùn)算采取跳過(guò)或簡(jiǎn)化等方法提高效率, 完成一輪排序之后,時(shí)間窗口向后移動(dòng), 最終完成所有的一致性驗(yàn)證推理.

      以政治敏感語(yǔ)義錯(cuò)誤及其語(yǔ)義校對(duì)作為例子來(lái)闡述具體實(shí)現(xiàn)方法, 主要包括以下兩個(gè)技術(shù)步驟:

      (1) 政治敏感信息本體庫(kù)構(gòu)建: 構(gòu)建領(lǐng)域本體庫(kù)之前, 首先要搜集政治敏感信息. 由于政治類信息的敏感性和特殊性, 難以通過(guò)百度搜索等常規(guī)途徑在國(guó)內(nèi)一般網(wǎng)絡(luò)上調(diào)研相關(guān)內(nèi)容. 例如, 直接在關(guān)鍵字搜索框輸入“政治類敏感信息”, 這樣是收集不到想要的信息. 那么就需要具備查找信息的一些技巧, 可以委婉一點(diǎn)輸入“如何避免政治類敏感信息”或“如何避免政治性錯(cuò)誤”. 在涉及政治性問(wèn)題的用語(yǔ)規(guī)范方面,參考了新華社新聞報(bào)道中的禁用詞. 另外, 還通過(guò)使用谷歌收集完善了相關(guān)政治敏感信息.

      其次, 在領(lǐng)域?qū)<业膮f(xié)助之下, 使用OWL對(duì)中文政治敏感信息進(jìn)行語(yǔ)義建模, 構(gòu)建相應(yīng)的OWL領(lǐng)域本體庫(kù). 對(duì)政治敏感信息本體庫(kù)語(yǔ)義內(nèi)容進(jìn)行調(diào)研和歸納總結(jié), 在借鑒政治敏感信息監(jiān)測(cè)實(shí)驗(yàn)基礎(chǔ)之上,建立了知識(shí)分類, 包括“機(jī)構(gòu)”、“人物”, “職務(wù)”, 其他一切“國(guó)家”級(jí)別的稱謂和內(nèi)容, 如“國(guó)歌”、“國(guó)旗”; 建立的具體的實(shí)例涉及黨政機(jī)構(gòu)名稱, 國(guó)家領(lǐng)導(dǎo)人姓名職務(wù), 涉及領(lǐng)土主權(quán)、對(duì)外關(guān)系問(wèn)題、港澳臺(tái)問(wèn)題等; 建立的實(shí)例關(guān)系主要是政治概念的邏輯關(guān)系, 如“總統(tǒng)是”的源代碼如圖1所示, 共和制國(guó)家和政治人物之間的邏輯關(guān)系, 只有“共和制國(guó)家”才有“總統(tǒng)”(Domain語(yǔ)義約束).

      圖1 “總統(tǒng)是”實(shí)例關(guān)系本體OWL源代碼

      (2) 政治敏感錯(cuò)誤本體一致性推理

      使用Protégé 4.1進(jìn)行實(shí)驗(yàn), 綁定Pellet的 OWL推理機(jī), 并提供一致性驗(yàn)證推理解釋功能. 差分算法實(shí)驗(yàn)的基準(zhǔn)詞庫(kù)可以選用《人民日?qǐng)?bào)》公開的1998年1月份語(yǔ)料庫(kù). 一般來(lái)說(shuō), 詞和某領(lǐng)域的相關(guān)度, 與它在基本詞庫(kù)統(tǒng)計(jì)表的詞頻成反比, 而與它在OntoLTCn的XML模式匹配得到的詞頻成正比. 例如, 通過(guò)OntoLTCn中文語(yǔ)義提取文本“馬英九在臺(tái)灣的職務(wù)是總統(tǒng)”獲得RDF三元組“臺(tái)灣->總統(tǒng)->馬英九”. 如圖2所示, Protégé能夠通過(guò)可視化方式展示語(yǔ)義錯(cuò)誤的解釋: “臺(tái)灣是(rdf:type)一個(gè)地區(qū)而不是一個(gè)共和制國(guó)家,國(guó)家和地區(qū)是語(yǔ)義不想交的(DisjointWith語(yǔ)義約束),只有“共和制國(guó)家”才有“總統(tǒng)”(Domain語(yǔ)義約束), 所以作為地區(qū)的臺(tái)灣不能有總統(tǒng)馬英九(Inconsistency語(yǔ)義錯(cuò)誤)”.

      圖2 “馬英九在臺(tái)灣的職務(wù)是總統(tǒng)”本體一致性推理校對(duì)結(jié)果

      中文語(yǔ)義糾正首先需要本體推理回溯, 即通過(guò)SPARQL語(yǔ)句查詢知識(shí)庫(kù)中正確語(yǔ)義內(nèi)容, 例如, “臺(tái)灣->當(dāng)局領(lǐng)導(dǎo)人->馬英九”. 再將正確語(yǔ)義內(nèi)容與語(yǔ)義錯(cuò)誤對(duì)比, 進(jìn)而自動(dòng)形成中文語(yǔ)義糾正建議提供給用戶選擇修改: 將文本中的“總統(tǒng)是”糾正為“當(dāng)局領(lǐng)導(dǎo)人是”即可.

      5 計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)過(guò)程

      在攻克上述關(guān)鍵技術(shù)問(wèn)題的基礎(chǔ)之上, 利用一系列開源軟件和自研軟件, 使用Java 語(yǔ)言完成了基于描述邏輯本體推理的語(yǔ)義級(jí)中文校對(duì)方法的計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn), 使得計(jì)算機(jī)能夠自動(dòng)運(yùn)行中文語(yǔ)義校對(duì).

      5.1 相關(guān)軟件介紹

      如表1所示, 利用了本體處理引擎Jena和語(yǔ)法校對(duì)LanguageTool等開源軟件, 極大提高了研發(fā)效率.另外, 對(duì)于三元組抽取等關(guān)鍵技術(shù)的核心算法, 采取自主研發(fā)或二次開發(fā)的策略.

      表1 計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)所使用的相關(guān)軟件

      在進(jìn)行軟件架構(gòu)設(shè)計(jì)的時(shí)候, 采取面向接口的原則, 避免依賴于某個(gè)具體的軟件工具. 也就是說(shuō), 如果今后能找到替換相應(yīng)功能的、更好的軟件工具, 可以按照相應(yīng)接口要求進(jìn)行研發(fā), 嵌入到系統(tǒng)中即可,其他模塊程序不需重寫代碼. 例如, ictclas4j可替換為Stanford NLP, Jena可替換為Pellet等.

      5.2 具體實(shí)現(xiàn)過(guò)程

      首先, ictclas4j進(jìn)行初始化加載SegTag類(一次性加載). 利用SentenceSeg類的getSens()方法對(duì)中文文本分句. 利用SegTag. Split()方法對(duì)分句之后的每個(gè)句子進(jìn)行中文自動(dòng)分詞和自動(dòng)詞性標(biāo)注.

      圖3 計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)過(guò)程流程圖

      其次, 三元組提取采取基于規(guī)則的中文本體學(xué)習(xí)思路, 利用自主研發(fā)的OntoLTCn的XML模式匹配工具進(jìn)行自動(dòng)提取. 另外, 加入了一些算法優(yōu)化: (1)索引優(yōu)化: 對(duì)正確的本體庫(kù)中的類Class、實(shí)例Instance、關(guān)系ObjectProperty和屬性DatatypeProperty等文字Literal建立索引, 每次提取之前掃描一下索引, 至少保證被提取的三元組包含一個(gè)本體庫(kù)中的文字Literal才進(jìn)行下一步推理(如果一個(gè)都不包含, 表明句子與本體庫(kù)領(lǐng)域完全無(wú)關(guān), 則可以跳過(guò)推理); (2)差分優(yōu)化:采取差分算法(chi-square)將詞頻低而領(lǐng)域相關(guān)度高的詞抽取出來(lái)、將詞頻高領(lǐng)域相關(guān)度高的詞剔除(一般來(lái)說(shuō), 詞和某領(lǐng)域的相關(guān)度, 與它在基本詞庫(kù)統(tǒng)計(jì)表的詞頻成反比, 而與它在OntoLTCn的XML模式匹配得到的詞頻成正比)

      然后, 使用Jena將正確的本體庫(kù)讀取到OntModel中, 并將本體語(yǔ)言設(shè)置為OWL_DL_MEM_RULE_INF (其中, DL表示使用Disctiption Logics描述邏輯推理).將提取的三元組利用OntModel.addStatement()方法加入到正確的本體庫(kù)OntModel中. 調(diào)用OntModel的validate()方法, 獲得描述邏輯推理結(jié)果ValidityReport類對(duì)象, 如果它的isValid()結(jié)果是false則表明有語(yǔ)義錯(cuò)誤. 利用ValidityReport.getReports()方法獲得語(yǔ)義錯(cuò)誤列表, 然后使用迭代器循環(huán)輸出到LanguageTool錯(cuò)誤報(bào)告中.

      最后, 在LanguageTool傳統(tǒng)的語(yǔ)法校對(duì)功能上擴(kuò)展XML語(yǔ)義錯(cuò)誤規(guī)則解析模塊, 即在其語(yǔ)法檢查工具org.languagetool.rules包中添加類似于針對(duì)語(yǔ)語(yǔ)義錯(cuò)誤規(guī)則patterns包, 其中包括(1)XML語(yǔ)義錯(cuò)誤規(guī)則數(shù)據(jù)結(jié)構(gòu)類SemanticRule及其(2)解析匹配算法類PatternRuleHandler. 然后研發(fā)繼承于語(yǔ)法檢查工具org.languageTool.rules.Rule類的語(yǔ)義校對(duì)規(guī)則解析的子類, 覆蓋其getMatches()方法. 然后增加OWL推理機(jī)調(diào)用程序模塊、OWL領(lǐng)域本體庫(kù)加載解析模塊, 使得語(yǔ)義錯(cuò)誤在能夠映射到OWL描述邏輯推理.

      6 實(shí)驗(yàn)測(cè)試與分析

      6.1 實(shí)驗(yàn)測(cè)試步驟

      實(shí)驗(yàn)是基于LanguageTool中文本語(yǔ)法校對(duì)XML規(guī)則定制方法[12], 主要利用上下文的字、詞或詞性等特征信息的提取的方法來(lái)實(shí)現(xiàn). 在XML規(guī)則中使用有可能出現(xiàn)語(yǔ)義錯(cuò)誤的關(guān)鍵字詞進(jìn)行搭配模型, 來(lái)檢測(cè)一個(gè)句子是否存在錯(cuò)誤.

      首先選擇一個(gè)適當(dāng)?shù)纳Z(yǔ)料庫(kù)1(生語(yǔ)料庫(kù)1選取“搜狗實(shí)驗(yàn)室的文本分類語(yǔ)料庫(kù)”), 用所編寫的本體庫(kù)進(jìn)行推理來(lái)檢測(cè)里面所存在的語(yǔ)義錯(cuò)誤. 然后對(duì)所檢測(cè)出的語(yǔ)義錯(cuò)誤結(jié)果再進(jìn)行計(jì)算機(jī)自動(dòng)判斷與統(tǒng)計(jì), 那么出現(xiàn)的結(jié)果會(huì)有三種情況: ①檢測(cè)出句子錯(cuò)誤的內(nèi)容正是預(yù)期想要的語(yǔ)義錯(cuò)誤內(nèi)容; ②檢測(cè)出句子錯(cuò)誤的內(nèi)容不是預(yù)期想要的語(yǔ)義錯(cuò)誤內(nèi)容;③存在的語(yǔ)義錯(cuò)誤沒有被檢測(cè)出. 然后對(duì)所收集到的三類數(shù)據(jù)分別進(jìn)行計(jì)數(shù)統(tǒng)計(jì), 計(jì)算第一次檢測(cè)生語(yǔ)料庫(kù)1的正確率A1和覆蓋率B1. 接著根據(jù)所得到的檢測(cè)結(jié)果修改規(guī)則內(nèi)容, 把修改好的規(guī)則拿來(lái)重新檢測(cè)生語(yǔ)料庫(kù)1, 統(tǒng)計(jì)第二次結(jié)果的準(zhǔn)確率A2和覆蓋率B2較第一次統(tǒng)計(jì)是否有所提高. 換n個(gè)(本次測(cè)試取n=2, 生語(yǔ)料庫(kù)2選取“新浪微博積極、消極、矛盾數(shù)據(jù)”)生語(yǔ)料庫(kù)在進(jìn)行循環(huán)測(cè)試, 不斷的修改和完善本體庫(kù)和推理規(guī)則, 從而有效提高檢錯(cuò)的覆蓋率和正確率. 正確率是: ①/(①+②), 覆蓋率為①/(①+③).

      6.2 實(shí)驗(yàn)測(cè)試結(jié)果分析

      表2 實(shí)驗(yàn)測(cè)試數(shù)據(jù)結(jié)果表

      配不當(dāng)政治類 涉及港澳臺(tái)問(wèn)題 2 5 1 2涉及領(lǐng)土主權(quán)問(wèn)題 5 4涉及黨政名稱問(wèn)題 1 0 5涉及前蘇聯(lián)問(wèn)題 1 1涉及黨和國(guó)家方針問(wèn)題 2 1涉及民族宗教問(wèn)題 1 4 9涉及國(guó)際組織提法 1 3 8涉及法律問(wèn)題 6 2涉及重要人物史實(shí)問(wèn)題 4 1總計(jì) 1 6 1 7 1

      將政治類和通識(shí)類語(yǔ)義錯(cuò)誤利用本體推理分別對(duì)生語(yǔ)料庫(kù)1和生語(yǔ)料庫(kù)2進(jìn)行檢測(cè), 其中由于生語(yǔ)料庫(kù)2的數(shù)據(jù)內(nèi)容過(guò)于龐大, 于是在其中隨機(jī)抽取一部分內(nèi)容, 其數(shù)據(jù)量在175MB的內(nèi)容來(lái)進(jìn)行檢測(cè). 如表2所示, 第一次檢測(cè)生語(yǔ)料庫(kù)1時(shí), 通識(shí)類和政治類所得到的正確率都比較低, 主要的原因是第一次編寫本體庫(kù)時(shí), 沒有意識(shí)到一些符合推理錯(cuò)誤條件的文本內(nèi)容但是正確句子的情況, 導(dǎo)致檢測(cè)的結(jié)果中存在較多的誤檢結(jié)果. 通過(guò)具體實(shí)例來(lái)實(shí)現(xiàn)修改完善本體庫(kù),將一些誤檢結(jié)果最大程度的排除. 于是在修改后的本體庫(kù)第二次檢測(cè)生語(yǔ)料庫(kù)1, 通識(shí)類與政治類的正確率得到了明顯的提升, 都在78%以上. 生語(yǔ)料庫(kù)2是“新浪微博積極、消極、矛盾微博數(shù)據(jù)”. 由于在微博上人們的言論相對(duì)自由, 故會(huì)存在比較多的語(yǔ)義級(jí)錯(cuò)誤.并且是基于生語(yǔ)料庫(kù)1的本體庫(kù)已較為完善, 第一次檢測(cè)生語(yǔ)料2庫(kù)兩類都取得了較高的正確率. 但通過(guò)計(jì)算機(jī)進(jìn)一步的自動(dòng)比對(duì), 還是存在一些誤檢的結(jié)果,通過(guò)修改本體庫(kù)正確率都得到了一定的提升, 但是無(wú)法做到100%正確率, 原因是一些檢測(cè)的語(yǔ)句需要判斷具體語(yǔ)境的語(yǔ)義錯(cuò)誤, 而所選擇的語(yǔ)料庫(kù)內(nèi)容中一些是不符合該語(yǔ)境于是無(wú)法排除該校對(duì)錯(cuò)誤的檢測(cè)結(jié)果, 這也是實(shí)驗(yàn)的局限性所在.

      7 結(jié)語(yǔ)

      綜上所述, 與其他現(xiàn)有方法相比, 此方法在以下三個(gè)方面具有明顯的優(yōu)勢(shì): (1)語(yǔ)義查錯(cuò)的透明性: 此方法利用OWL本體提取文本中的語(yǔ)義對(duì)象以及語(yǔ)義對(duì)象之間的關(guān)系, 精確判斷文本的語(yǔ)義錯(cuò)誤類型、錯(cuò)誤原因以及如何糾錯(cuò), 不存在模糊性和不可知性. 這種白箱模型的透明性是模糊語(yǔ)義對(duì)比方法無(wú)法比擬的. (2)語(yǔ)義模型的完整性: 選擇的OWL本體, 是一個(gè)體系結(jié)構(gòu)非常完整的語(yǔ)義知識(shí)表示和語(yǔ)義推理模型模型. OWL本體能夠描述包含語(yǔ)義搭配校對(duì)在內(nèi)的各種常見語(yǔ)義對(duì)象及其關(guān)系(語(yǔ)義搭配校對(duì)可以使用“對(duì)象定義域/值域”建立映射). (3)語(yǔ)義推理的智能性; 語(yǔ)義推理基于描述邏輯, 它內(nèi)置一致性邏輯推理機(jī)制, 其本體推理算法相對(duì)成熟, 可以直接利用Pellet或Racer等描述邏輯推理機(jī)進(jìn)行智能自動(dòng)語(yǔ)義查錯(cuò), 無(wú)需額外窮舉句式或者建立模糊語(yǔ)義骨架. 未來(lái)擬將此方法整合到現(xiàn)有的面向詞法和語(yǔ)法的中文校對(duì)軟件中, 使其提供語(yǔ)義級(jí)中文校對(duì)增值服務(wù); 另外, 還將進(jìn)一步測(cè)試此方法在其他不同領(lǐng)域中的應(yīng)用情況并加以改進(jìn).

      1 吳明.最新版黑馬校對(duì)軟件在新聞出版單位使用. http://data.chinaxwcb.com/epaper/2011/2011-06-20/11589. html. [2015-12-18].

      2 吳林,張仰森.基于知識(shí)庫(kù)的多層級(jí)中文文本查錯(cuò)推理模型.計(jì)算機(jī)工程,2012,20:21–25.

      3 駱衛(wèi)華,羅振聲,龔小謹(jǐn).中文文本自動(dòng)校對(duì)的語(yǔ)義級(jí)查錯(cuò)研究.計(jì)算機(jī)工程與應(yīng)用,2003,12:115–118.

      4 鄭逢斌,陳志國(guó),姜保慶等.語(yǔ)義校對(duì)系統(tǒng)中的句子語(yǔ)義骨架模糊匹配算法.電子學(xué)報(bào),2003,8:1130–1140.

      5 程顯毅,孫萍,朱倩.基于HNC的中文文本校對(duì)系統(tǒng)模型的研究.微電子學(xué)與計(jì)算機(jī),2009,10:49–52.

      6 張仰森,俞士汶.文本自動(dòng)校對(duì)技術(shù)研究綜述.計(jì)算機(jī)應(yīng)用研究,2006,6:8–12.

      7 Olsen KA. A smart proofreader for all natural languages: Achieving semantic understanding by majority vote. ISRN Artificial Intelligence, 2012: 1–6.

      8 史燕,程顯毅,楊天明,等.知網(wǎng)、HNC和框架網(wǎng)的語(yǔ)義知識(shí)表示異同.廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,1:173–176.

      9 郭充,張仰森.基于《知網(wǎng)》義原搭配的中文文本語(yǔ)義級(jí)自動(dòng)查錯(cuò)研究.計(jì)算機(jī)工程與設(shè)計(jì),2010,17:3924–3928.

      10 Cuenca Grau B, Horrocks I, Motik B, et al. OWL 2: The next step for OWL. Journal of Web Semantics, 2008, 6(4): 309–322.

      11 Jiang Y, Dong H, Xiong H. OntoLTCn: A chinese text oriented semi-auto ontology knowledge discovery tool. Proc. of International Conference on Computer Science and Software Engineering (CSSE 2008) Volume 6. Los Alamitos. IEEE Computer Society. 2008. 18–22.

      12 姜贏,曾杰,林啟紅,郭穎珊,廖文生.LanguageTool中文本語(yǔ)法校對(duì)XML規(guī)則定制方法.圖書情報(bào)工作,2014,(3):86–91.

      Semantic Level Chinese Proofreading Method Based on Description Logics Ontology Reasoning

      JIANG Ying, ZHUANG Run-Bo, WU Ye-Fan, ZHU Ling-Xuan
      (School of Management, Beijing Normal University(Zhuhai), Zhuhai 519087, China)

      In recent years, the Chinese proofreading technology has achieved good results at the word-level and the grammar-level, while it’s relatively weak at the semantic level. This paper provides a new method of Chinese proofreading powered by the ontology technology. The semantic contents are firstly extracted from the Chinese texts and transformed into some kind of structured ontology, which is combined with the correct background ontology. The logical consistency of the extracted semantic content is determined by description logic reasoning machine, with the detected logical consistency error mapped into some Chinese semantic errors. This method is tested in the domain of political sensitive information. Compared with other methods, it has obvious advantages of the transparency of the semantic proofreading, the integrity of the semantic model and the intelligence of the semantic reasoning.

      Chinese proofreading; semantic proofreading; ontology reasoning; description logics; reasoning machine

      國(guó)家社會(huì)科學(xué)基金青年項(xiàng)目(14CTQ041)

      2016-07-10;收到修改稿時(shí)間:2016-08-31

      10.15888/j.cnki.csa.005680

      猜你喜歡
      語(yǔ)料庫(kù)本體語(yǔ)義
      Abstracts and Key Words
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      語(yǔ)言與語(yǔ)義
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開發(fā)與實(shí)現(xiàn)
      認(rèn)知范疇模糊與語(yǔ)義模糊
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      林芝县| 吉水县| 尚志市| 炉霍县| 手游| 黄浦区| 莱州市| 平舆县| 临安市| 东海县| 天镇县| 左权县| 额济纳旗| 涿鹿县| 于田县| 天等县| 南部县| 米易县| 图片| 仁怀市| 理塘县| 泰州市| 正定县| 永平县| 临高县| 荣成市| 鸡东县| 鄂温| 萝北县| 噶尔县| 秭归县| 青龙| 敖汉旗| 富民县| 兴国县| 达尔| 朔州市| 阳曲县| 昌乐县| 时尚| 抚松县|