• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于《知網》的中文信息結構消歧研究

      2012-06-29 06:29:14張瑞霞莊晉林楊國增
      中文信息學報 2012年4期
      關鍵詞:消歧信息結構中文信息

      張瑞霞,莊晉林,楊國增

      (1. 華北水利水電學院 信息工程學院,河南 鄭州 450011;2.鄭州師范學院 數學系,河南 鄭州 450044)

      1 引言

      語義分析在中文信息處理領域中占有重要地位,特別是隨著一些知識庫和語義分析理論的成熟,使得語義分析的自動化成為可能?!吨W》是一個以英漢雙語所代表的概念以及概念的特征為基礎的常識知識庫,它主要描述了概念與概念之間以及概念所具有的特性之間的關系[1],在中文信息處理中得到廣泛應用[2];而其中的重要組成部分之一,中文信息結構(簡記為CMS)描述了中文詞語的各個組成部分之間由《知網》所規(guī)定的動態(tài)角色關系或屬性,其揭示了中文的語言結構規(guī)律[3],可以作為中文語義分析的規(guī)則庫;然而在《中文信息結構庫》[4]中包含眾多CMS,因此對其消歧是應用的必要前提之一;文獻[5]應用了CMS的消歧,但沒有說明如何對其進行消歧;文獻[6]構建了基于《知網》的中文信息結構抽取器,但其規(guī)則形式不簡練且規(guī)則中忽略了動態(tài)角色,其次消歧策略不明了;鑒于此,本文首先以《中文信息結構庫》為藍本形式化了CMS;然后根據CMS的構成形式對其進行優(yōu)先級劃分,并提出了不同的消歧方法: 如詞性序列消歧法、圖相容匹配消歧法、圖相容度計算消歧法及基于實例的語義相似度計算消歧法;最后描述了信息結構集的消歧流程。實驗證明此消歧是有效的。

      2 CMS的形式化描述

      在《中文信息結構庫》中每個CMS由四部分組成,即: SYN_S,表示相應的句法結構;SEM_S,表示語義結構;Query 和Answer,表示該信息結構模式傳達的真正信息,并由此可產生的問與答; 例子,給出符合該信息結構模式的真實語料的實例。例如:

      SYN_S=V <-- N

      SEM_S=(事件,烹調) <-- [成品受事] (食物/植物/獸/部件,%動物/部件,% 植物)

      Query1: 什么食品?

      Answer1: V+N

      例子: 炒-菜,烤-鴨,鹵-蛋,烤-白薯,烤-面包,拌-涼菜,炒-雞蛋

      為了便于消歧,在不改變信息結構表達意義的基礎上,對信息結構中的SYN_S和SEM_S進行形式化描述,以使其與《知網》2005版知識詞典的描述一致,從而能夠充分利用知網中的語義資源進行消歧;約定在形式化描述式中,“|”表示或者,“...”表示省略,其他符號均表示出現在描述式中的實際符號。并對信息結構中的例子進行了詞性、詞義、語義角色標注。

      2.1 句法結構的形式化描述

      在CMS中,SYN_S中使用弧表示了短語或詞語間的修飾關系,即弧指向部分是修飾語,弧的離開部分是被修飾語,在SYN_S的形式化描述中,用“L”代替指向SYN_S左部分的弧,用“R”代替指向SYN_S右部分的弧,SYN_S形式化描述如下所示。

      SYN_S::=Syntax Direction Syntax | Syntax Direction {SYN_S} |{SYN_S} Direction Syntax | {SYN_S}Direction {SYN_S}

      Syntax::=《知網》的詞性標記

      Direction::= L | R

      例如: SYN_S=V <-- N,可形式化為: SYN_S=V L N

      2.2 語義結構的形式化描述

      SEM_S主要包含了三種信息,即: 詞語的語義信息,用義原或義原的組合形式表示;短語或詞語間的修飾關系,用弧表示;短語或詞語間的語義關系,用動態(tài)角色表示。因此對SEM_S的形式化描述主要就是對這三方面的形式化描述。

      對詞語語義信息的形式化描述,采用《知網》2005版本知識詞典中對概念項的描述方法;對短語或詞語間的修飾關系的形式化描述與句法結構形式化描述相同;短語或詞語間的語義關系,均采用《知網》中動態(tài)角色對應的英文形式。SEM_S的形式化描述如下所示:

      DEF1::=(sememe) | (sememe/sememe/...) | (sememe:label1=(word)) | (#:label2=(punc))

      DEF2::=(sememe:role=DEF1) | (sememe:role=DEF2) | DEF1/DEF 2

      DEF::=DEF1 | DEF2

      SEM_S::=DEF direction DEF |{SEM_S} direction DEF | DEF direction{SEM_S}| {SEM_S} direction {SEM_S}

      sememe::=《知網》中的義原

      word::=《知網》概念詞典中的中文詞語

      punc::=標點符號

      role::=《知網》中的動態(tài)角色

      label1::=ALI

      label2::= PUNC

      direction:=[role] L | R [role]

      例如:

      SEM_S=(事件,烹調) <-- [成品受事] (食物/植物/獸/部件,%動物/部件,% 植物)

      可形式化為:

      SEM_S=(烹調) [ProductPatient] L (食物/植物/獸)/(部件:whole=(動物/植物))

      3 基于《知網》的CMS消歧方法

      CMS消歧主要是對給定的短語選擇最優(yōu)的CMS,例如,“教學生”,如何選擇最優(yōu)CMS?這里主要涉及三個問題:

      (1) 在眾多CMS中,應該按照怎樣的次序進行消歧,即CMS優(yōu)先級的問題;

      (2) 設計怎樣的消歧方法,即消歧方法的設計問題;

      (3) 如何綜合應用這些消歧方法,即消歧的流程問題;

      3.1 CMS的優(yōu)先級

      對CMS劃分優(yōu)先級的目的是確定CMS消歧的次序,即優(yōu)先級高的CMS先消歧;對CMS劃分優(yōu)先級的依據是根據其SEM_S的構成形式。

      第一優(yōu)先級: SEM_S中含有具體詞語,例如: SEM_S= (文字/姓) [modifier] L (人:ALI=(嫌/員/局/隊/處/婦/女)),此信息結構集中共含有29條CMS,記為PRISET1.

      第二優(yōu)先級:SEM_S中含有的義原均為義原樹上的葉節(jié)點,例如: SEM_S= (度過) R [patient] (時間),此信息結構集中共含有38條CMS,記為PRISET2。

      第三級: SEM_S的中心義原為義原層次樹上的葉節(jié)點,例如: SEM_S=(事件) [duration] L (時間),此信息結構集中共含有33條CMS,記為PRISET3。

      第四級: SEM_S的非中心節(jié)點含有葉節(jié)點義原,例如: SEM_S= (性別值) [modifier] L (動物/植物/團體),此信息結構集中共含有42條CMS,記為PRISET4。

      第五級為未包含在前四級內的CMS,例如: SEM_S= (使之是) R [ResultIsa] (萬物),此信息結構集中共含有124條CMS,記為PRISET5。

      規(guī)定優(yōu)先級數越低,其優(yōu)先級越高,優(yōu)先級高的CMS先進入消歧流程,即依次對PRISET1、PRISET2、PRISET3、PRISET4、PRISET5進行消歧。對CMS進行了優(yōu)先級劃分后,就可以對不同優(yōu)先級別的信息結構集采用不同的消歧方法。

      3.2 CMS的消歧方法

      由于《知網》知識詞典對詞語概念項的描述均采用遞歸層次形式描述,形式化描述后的CMS中的SEM_S也是采用遞歸層次形式描述,所以可以用圖結構表示詞語的概念項[7]及CMS的SEM_S,因此信息結構集消歧過程中就是對圖結構的處理,可以利用成熟的圖理論,結合《知網》和圖理論擴展了圖理論中的相關定義。

      設G1與G2均為概念圖,其中G1=,G2=

      定義1:G1等相容于G2: 若存在雙射函數f:V1→V2,對于vi,vj∈V1,∈E1當且僅當∈E2,并且vi、vj所代表的義原分別與f(vi)、f(vj)所代表義原相同,則稱G1等相容于G2,vi等相容于f(vi),vj等相容于f(vj),分別記作G1≈G2、vi≈f(vi)、vj≈f(vj)

      從圖等相容的定義易知: 圖的等相容性具有自反性、對稱性和傳遞性。

      定義2:G1上相容于G2: 若存在雙射函數f:V1→V2,對于vi,vj∈V1,∈E1當且僅當∈E2,并且vi、vj所代表的義原分別是f(vi)、f(vj)所代表義原的子孫義原,則稱G1上相容于G2,vi上相容于f(vi),vj上相容于f(vj),分別記作G1≤G2、vi≤f(vi)、vj≤f(vj)。

      從圖上相容的定義易知: 圖的上相容性具有自反性、反對稱性和傳遞性。

      如圖1、圖2、圖3、圖4、圖5分別表示概念圖G1、G2、G3、G4、G5,由以上定義則有G1≈G2、G1≤G3、G1|≈G4、G1|≤G5.

      圖1 G1 圖2 G2 圖3 G3

      圖4 G4 圖5 G5

      為了量化概念圖G1、G2的相容性,引入相容度的概念。令G1、G2的相容度為com(G1,G2),設在不考慮節(jié)點所代表義原意義的情況下: 若G2?G1,則G1可能相容于G2,此時com(G1,G2)≥0;若G1?G2,則G2可能相容于G1,此時com(G1,G2)≤0;若G1?G2且G2?G1,則G1和G2不可能存在相容關系,此時com(G1,G2)=0。

      計算comVex(v1i,f(v1i))時,當兩個節(jié)點表示詞語時,若表示相同詞語,則comVex(v1i,f(v1i))=1,否則comVex(v1i,f(v1i))=0;當兩個節(jié)點表示義原時,若表示相同義原,則comVex(v1i,f(v1i))=1;若表示的義原不具有子孫關系,則它們是不相容的,所以comVex(v1i,f(v1i))=0;若表示的義原具有子孫關系,那么兩個節(jié)點的相容度與其相似度有一定關系,即兩義原越相似,其相容度越大,所以參照相似度計算方法計算comVex(v1i,f(v1i)),如式(2)所示:

      在式(2)中,s(v1i)表示節(jié)點v1i所代表的義原;depth(s(v1i))表示義原s(v1i)在義原樹上的深度;min取兩者的最小值;depthTree表示s(v1i)所在義原樹的高度;λ1為調節(jié)參數;dis(s(v1i),s(f(v1i))計算兩義原的距離。

      計算dis(s(v1i),s(f(v1i))時,當s(v1i)是s(f(v1i))的子孫義原時,則dis(s(v1i),s(f(v1i))為s(v1i)在義原樹上到s(f(v1i)的最短路徑長度;當s(v1i)是s(f(v1i))的祖先義原時,則dis(s(v1i),s(f(v1i)))= - dis(s(f(v1i)),s(v1i)),同時令λ1=-λ1。

      若G1?G2,則com(G1,G2)=-com(G2,G1)。

      以上對圖相容性進行了研究,接下來根據SEM_S的構成形式及圖理論提出四種信息結構消歧方法,分別為: 詞性序列消歧法、圖相容匹配消歧法、圖相容度計算消歧法及基于實例的語義相似度計算消歧法。設輸入短語為phrase,某一信息結構CMS中的語義結構為SEM_S、句法結構為SYN_S,具體消歧方法如下所示。

      詞性序列消歧法: 若SYN_S的詞性序列與phrase的詞性序列一致,則該CMS有可能成為較優(yōu)信息結構,否則不能成為較優(yōu)信息結構。

      圖相容匹配消歧法: 主要是通過對圖相容關系的定性分析進行消歧,即若phrase中的詞圖與SEM_S中對應的詞圖滿足一定的相容關系,則該CMS有可能成為較優(yōu)語義結構,否則不能成為較優(yōu)信息結構;根據圖的相容關系,圖相容匹配消歧法可分為圖局部等相容匹配消歧法、圖局部上相容匹配消歧法。

      圖相容度計算消歧法: 按照圖相容度的計算方法,經過實驗驗證兩個圖越相容,則其相容度越大,而兩個圖的相容度越大,則其語義結構越相似,所以此消歧法是通過計算phrase的概念圖與SEM_S概念圖的相容度,進而選擇相容度較大的n個SEM_S所對應的CMS構成較優(yōu)信息結構集。因此此方法關鍵是計算phrase和SEM_S的相容度。根據SYN_S可構造一顆完全二叉樹SYN_TREE,并且在構造SYN_TREE時,遵循右子樹修飾同一根節(jié)點左子樹的原則;若把SEM_S中每一詞語的概念圖看成一節(jié)點,則SEM_S的圖結構與SYN_TREE在表示節(jié)點間的修飾關系方面是一致的;若phrase選取SEM_S作為其語義結構,則phrase的圖結構與SEM_S相同;所以計算phrase與SEM_S的相容度,即計算兩者圖結構的相容度,設phrase中含有m個詞語,各個詞圖組成的集合GS1={G1i|1≤i≤m},SEM_S各個概念圖組成的集合GS2={G2j|1≤j≤m},令G2i為SEM_S中心詞語的概念圖,則G1i為phrase中心詞語的概念圖,中心詞語概念圖的相容度對整體相容度影響要高于非中心詞語概念圖對整體相容度的影響;而關于非中心詞語對整體相容度影響與其距中心詞語的距離有關,即距離中心詞語越近,影響越大;所以GS1和GS2的相容度comGs(GS1,GS2)如式(3)所示:

      comGs(GS1,GS2)=com(G1i,G2i)+β2×

      (3)

      式(3)中,n=|GS2|,com(G1i,G2i)表示概念圖G1i和G2i的相容度,按照式(1)計算;λ2為調節(jié)參數;disG(G2k,G2i)表示在SYN_TREE中代表G2k的葉節(jié)點到代表G2i葉節(jié)點的最短路徑長度,即表示了非中心詞語與中心詞語間的距離。

      基于實例的相似度計算消歧法: 由語言學規(guī)律易知,兩個短語的語義相似度越大,其語義結構越相近,所以此方法主要通過比較phrase與CMS附帶短語實例的相似度進行消歧。即對于待消歧的每個CMS,先計算phrase與CMS附帶例子中每個短語example的相似度,然后選擇最大相似度加入相似度比較序列,最后從相似度比較序列中選取n個較大相似度對應的CMS構成較優(yōu)信息結構集。因此關鍵是計算phrase與example的相似度,由于可根據SYN_S構造完全二叉樹SYN_TREE,同概念圖相容度計算分析,phrase與example中詞語間的修飾關系與SYN_TREE是一致的;為了使相似度計算與語義結構相關,在合成整體相似度時,參照SYN_TREE的結構進行合成;計算它們概念圖的相似度可分為兩步:

      第一步: 參照文獻[8]計算phrase與example對應位置詞語概念圖的相似度,放入數組simPart中;

      第二步: 根據SYN_TREE的結構合成整體相似度,其算法為simTree(SYN_TREE,simPart,a,b),其中SYN_TREE為SYN_S的樹結構,a、b為參數,分別表示中心詞語與非中心詞語在整體相似度計算過程中的權重,a+b=1,a>0.5,則simTree 的基本思想為:

      當SYN_TREE.lChild!=null&& SYN.TREE.rChild!=null時,

      sim =simTree(SYN_TREE.lChild,sim,a,b)×a+simTree(SYN_TREE.rChild,sim,a,b)×b;

      當SYN_TREE.lChild==null&& SYN.TREE.rChild==null時,sim =(SYN_TREE的對應位置詞圖的相似度)。

      3.3 信息結構集的消歧流程

      假設輸入的短語為phrase,令備選信息結構集為PRO_CMS,較優(yōu)信息結構集為SUP_ CMS。

      首先檢測phrase是否在某個信息結構CMS附帶的例子中,若在,則把該CMS加入SUP_ CMS,消歧結束;否則按照信息結構集的優(yōu)先級次序分別進行消歧;對于每一優(yōu)先級的信息結構集,均先通過詞性序列消歧法獲得PRO_ CMS,然后進行不同的消歧流程。

      PRISET1: PRO_ CMS中的每個信息結構CMS,若通過圖局部上相容匹配消歧法,則加入SUP_ CMS;最后若|SUP_ CMS |大于0且不大于n,則消歧結束,否則應用圖相容度計算消歧方法對SUP_ CMS進行消減,消歧結束;

      PRISET2: 對于PRO_ CMS中的每個信息結構CMS,若通過圖局部等相容匹配消歧法,則加入到SUP_ CMS中;最后若|SUP_ CMS |大于0且不大于n,則消歧結束,否則利用圖相容度計算消歧法對SUP_ CMS進行消減,消歧結束;

      PRISET3: 對于PRO_ CMS中的每一個CMS,若phrase中心詞圖與SEM_S的中心詞圖通過圖的局部等相容匹配消歧法,其他對應位置的詞圖通過圖的局部上相容匹配消歧法,則把CMS加入SUP_ CMS;最后若|SUP_ CMS |等于1,直接進入PRISET4消歧過程,否則利用圖相容度計算消歧法對SUP_ CMS進行消減后,再進入PRISET4消歧過程。

      PRISET4: 對于 PRO_ CMS中,若phrase的對應位置的詞圖與CMS的SEM_S含有葉義原的詞圖通過圖的局部等相容匹配消歧法,其他對應位置的詞圖通過圖的局部上相容匹配消歧法,則把該CMS加入SUP_ CMS;進入PRISET5消歧過程;

      PRISET5: 對于PRO_ CMS中的每個CMS,若phrase的每個詞圖與SEM_S對應位置的詞圖均通過圖的局部上相容匹配消歧法,則把CMS加入到SUP_CMS中;最后若|SUP_ CMS |不大于n,則消歧結束,否則利用基于實例的相似度計算消歧方法對SUP_CMS進行消減,消歧結束。

      4 實驗與分析

      4.1 信息結構消歧舉例

      實驗中參數的設置,參數n表示較優(yōu)信息結構集SUP_ CMS中CMS的個數,理想狀態(tài)是n=1,但通過實驗發(fā)現若令n=1,則消歧效果不是很好,所以根據經驗,各參數值如下所示: 令n=3,η1=1.2,λ1=1.8,λ2=1.6,a=0.6,b=0.4。

      表1例舉了信息結構消歧結果,若|SUP_CMS|>1,則用“√”標注出實際應該選擇的信息結構。

      表1 信息結構消歧例表

      在表1中,對于含有動詞的短語例1-10,其消歧結果分為四類。

      (1) |SUP_ CMS|=1,并且與實際最優(yōu)信息結構一致,如例5、7、9;

      (2) |SUP_ CMS|>1,且第一個較優(yōu)信息結構為實際最優(yōu)信息結構,選擇第一個信息結構即完成消歧工作,如例2、4、8;

      (3) |SUP_ CMS|>1,但第一個較優(yōu)信息結構不為實際最優(yōu)信息結構,但若進一步研究事件的語義角色,利用其進行消歧均可以得到唯一的最優(yōu)信息結構,如例1、3、10。

      (4) |SUP_ CMS|> 1,需要結合事件更深層次的內容或結合上、下文環(huán)境進一步消歧,如例6。

      對于不含有動詞的名詞性短語,其消歧結果中所含有的信息結構數大多為1,如例11、12、13、16、17,主要原因有二,一是在于《知網》的知識詞典中對名詞性概念描述的較詳盡;二是在信息結構庫中描述名詞性短語的語義結構較細致;對于名詞性短語如例14,雖然出現了兩個信息結構,但這兩個信息結構的內在形式是一致的,即其詞語間的修飾關系是一致的,所以無論選擇哪個信息結構對于例14語義表示的效果是一樣的。

      對于其他類型短語,如例18,在PRISET1的消歧過程中即可選定對應的信息結構。

      4.2 實驗結果分析

      本實驗的實驗集由兩部分組成,第一部分來自《PFR人民日報標注語料》,從中抽取出符合CMS語義結構的短語8 000個,其中含有動詞的短語4 000個,不含動詞的名詞性短語3 000個,其他種類的短語1 000個;第二部分來自哈工大信息檢索研究室語言技術平臺的標注語料,從中抽取出符合CMS語義結構的短語6 000個,其中含有動詞的短語3 000個,不含動詞的名詞性短語2 500個,其他種類的短語500個;并對這些短語進行半自動化語義標注。

      為了對實驗結果進行評價,提出準確率和精確率,其計算方法如式(4)、式(5)所示。

      (4)

      (5)

      實驗過程中的主要參數設定如4.1中參數設定,則實驗結果如表2所示。

      表2 實驗結果

      由實驗結果可知,對于含有動詞的短語,信息結構消歧的準確率較高,這是因為在含有動詞的信息結構中,SEM_S的語義描述較豐富,并且附帶了大量的例子;而精確率相對較低,是因為動詞本身語義豐富,有些語義要根據語言使用的習慣特征、語境特征來確定。

      對于不含動詞的名詞性短語,信息結構消歧的準確率較低,主要是因為此種類型信息結構的數量較多,其次名詞性短語構成較靈活,再者由于CMS中例子的局限性,使用基于實例的相似度計算消歧也會產生誤差;精確率較高,是因為此類型的CMS大都含有一些描述較細致的語義結構,并且附帶豐富的例子。

      其他類型短語,準確率和精確率較高,主要是因為這些類型的信息結構數量相對少,并且其語義結構描述很細致,所以計算效果較好。

      5 結束語

      對中文信息結構消歧進行了研究,首先形式化描述了信息結構;接著根據語義結構的構成形式對信息結構進行了優(yōu)先級劃分;然后根據信息結構的特點提出了不同的消歧方法,如詞性序列消歧法、圖相容匹配消歧法、圖相容度計算消歧法、基于實例的相似度計算消歧法;最后設計了消歧流程。實驗表明對信息結構消歧的準確率達到了90%以上,為其實際應用奠定了基礎。

      在下一步的工作中,需要繼續(xù)完善消歧方法,特別是提高消歧的精確率。例如,研究動詞的角色,設計基于角色標注的消歧方法;從語法角度,結合《現代漢語語法詞典》,研究基于語法規(guī)則的消歧方法;參照韻律信息,研究韻律對消歧的影響;再者從提高算法效率角度,研究高效的消歧算法。

      [1] 董振東,董強. 《知網》——《知網》簡介[R].http://www.keenage.com.

      [2] 董振東,董強,郝長伶. 《知網》的理論發(fā)現[J].中文信息學報,2007,21(4):3-9.

      [3] 董振東,董強. 關于《知網》——中文信息結構庫[R]. http://www.keenage.com.

      [4] 董振東,董強. 《知網》——中文信息結構庫[R]. http://www.keenage.com.

      [5] 董強,郝長伶,董振東. 基于《知網》的中文語塊抽取器[C]//全國第七屆語言學聯和學術會議論文集:234-239.

      [6] 董強,郝長伶,董振東. 基于《知網》的中文信息結構抽取[R]. http://www.keenage.com.

      [7] 張瑞霞,肖漢. 基于《知網》的詞圖構造[J].華北水利水電學院學報,2008,29(3): 53-56.

      [8] 張瑞霞,朱貴良,楊國增. 基于知識圖的漢語詞匯語義相似度計算[J]. 中文信息學報,2009,23(3):116-120.

      猜你喜歡
      消歧信息結構中文信息
      命名實體消歧研究綜述
      基于關聯圖和文本相似度的實體消歧技術研究*
      基于半監(jiān)督集成學習的詞義消歧
      中國中文信息學會2019年活動計劃2019年活動計劃表
      中國中文信息學會2018年學術活動計劃
      藏文歷史文獻識別過程中藏文自由虛詞的自動識別及消歧算法的研究
      對外漢語教材編寫中信息結構知識的應用
      基于調節(jié)聚焦理論的生物農藥推廣有效性研究
      事件結構、信息結構與句法表征*——領主屬賓句的認知語法分析
      外語學刊(2016年4期)2016-01-23 02:34:09
      信息結構與句法異位
      當代修辭學(2014年3期)2014-01-21 02:30:46
      石家庄市| 西城区| 栾城县| 石家庄市| 牡丹江市| 苏州市| 玉林市| 蓝山县| 翁牛特旗| 辽源市| 赤城县| 珠海市| 广灵县| 河北区| 崇州市| 长垣县| 宝丰县| 隆德县| 安阳市| 鲁山县| 满洲里市| 伊吾县| 天台县| 锦州市| 东乡县| 呼玛县| 米林县| 高碑店市| 新化县| 铁岭市| 花垣县| 怀远县| 济南市| 拜泉县| 广州市| 白沙| 巴彦淖尔市| 西青区| 凯里市| 滁州市| 承德市|