• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      框架元素語(yǔ)義核心詞自動(dòng)識(shí)別研究

      2011-06-28 06:37:20康旭珍李雙紅
      中文信息學(xué)報(bào) 2011年4期
      關(guān)鍵詞:短語(yǔ)語(yǔ)義框架

      康旭珍,李 茹,李雙紅

      (山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006)

      1 引 言

      隨著中文信息處理技術(shù)的不斷發(fā)展,自然語(yǔ)言處理研究逐漸從句法處理轉(zhuǎn)移到語(yǔ)義處理和語(yǔ)用處理方面,許多研究工作者嘗試以新的角度來(lái)觀察、發(fā)現(xiàn)新的語(yǔ)言問(wèn)題。其中基于框架語(yǔ)義學(xué)理論構(gòu)建的框架語(yǔ)義網(wǎng)絡(luò)知識(shí)庫(kù)為自然語(yǔ)言處理開辟了一條新的道路?;跐h語(yǔ)框架網(wǎng),將一個(gè)漢語(yǔ)句子形式化表示成框架依存圖,用來(lái)表示依存于目標(biāo)詞的各個(gè)框架元素的語(yǔ)義依存關(guān)系,也是進(jìn)行語(yǔ)義理解的一種有效方法。由于在每個(gè)框架元素中不同的詞對(duì)整個(gè)框架元素的語(yǔ)義理解起著不同程度的作用,所以本文旨在通過(guò)不同的機(jī)器學(xué)習(xí)方法對(duì)短語(yǔ)型框架元素的語(yǔ)義核心詞進(jìn)行識(shí)別,從而進(jìn)一步將框架依存圖轉(zhuǎn)化為框架核心依存圖。

      近年來(lái),不少研究者已經(jīng)開始重視這方面的研究,而且取得了一定的成就,但是主要集中于對(duì)短語(yǔ)中心詞和短語(yǔ)結(jié)構(gòu)等方面的相關(guān)研究。程月,陳小荷基于條件隨機(jī)場(chǎng)的漢語(yǔ)動(dòng)賓搭配自動(dòng)識(shí)別,驗(yàn)證了條件隨機(jī)場(chǎng)模型在詞語(yǔ)搭配實(shí)例自動(dòng)識(shí)別方面有效可行性[1]。周雅倩、郭以昆等使用了基于最大熵的方法識(shí)別中文基本名詞短語(yǔ)[2]。目前對(duì)于框架元素語(yǔ)義核心詞提取的研究已經(jīng)有了一定的基礎(chǔ),文獻(xiàn)[3]中結(jié)合了多詞塊技術(shù),大大提高了識(shí)別效率,利用多詞塊中的關(guān)系標(biāo)注、序列標(biāo)注找到一個(gè)短語(yǔ)中的核心成分,在本質(zhì)上就是分析這個(gè)短語(yǔ)的語(yǔ)義依存關(guān)系。本文就是在此基礎(chǔ)上,考慮到目前多詞塊標(biāo)注技術(shù)不夠成熟,其標(biāo)注結(jié)果只能達(dá)到83%左右,有一定的限制性,在做下一步工作時(shí),為了避免錯(cuò)誤累積,綜合考慮效率、訓(xùn)練時(shí)間等各方面因素,將不使用多詞塊技術(shù),直接利用CRF、最大熵模型、SVM等機(jī)器學(xué)習(xí)方法進(jìn)行框架元素核心詞的識(shí)別,以期達(dá)到更好的識(shí)別效果。另外,本文研究的另一大優(yōu)勢(shì)就是可以更好的處理語(yǔ)料中復(fù)雜短語(yǔ)類型的框架元素。

      關(guān)于本文中框架元素語(yǔ)義核心詞的提取問(wèn)題既可看作一個(gè)序列標(biāo)注,也可以看作一個(gè)分類問(wèn)題。短語(yǔ)型框架元素中包含有兩類詞: 一是這個(gè)短語(yǔ)的核心詞,二是非核心詞。本文的任務(wù)就是對(duì)框架元素中的核心詞進(jìn)行識(shí)別。而基于統(tǒng)計(jì)學(xué)習(xí)理論CRF模型、ME模型以及SVM模型,其具有理論完備、適應(yīng)性強(qiáng)、泛化性能好等優(yōu)點(diǎn),尤其對(duì)于分詞[4]、詞性標(biāo)注[5]、文本分類[6]等這些中文信息處理方面尤為有效,所以本文通過(guò)實(shí)驗(yàn)對(duì)這三種常用的方法進(jìn)行了驗(yàn)證與比較。

      2 框架元素

      漢語(yǔ)框架網(wǎng)[7](Chinese FrameNet,CFN)是以Fillmore的框架語(yǔ)義學(xué)作為理論基礎(chǔ),以伯克利FrameNet為參照,以真實(shí)語(yǔ)料為依據(jù)的機(jī)器可讀的漢語(yǔ)語(yǔ)義詞典。漢語(yǔ)框架網(wǎng)由框架庫(kù),詞元庫(kù)和句子庫(kù)組成??蚣軒?kù)的每個(gè)框架包括核心框架元素和非核心框架元素以及包含在這個(gè)框架中的若干詞元??蚣苤猩婕暗母鞣N參與者、外部條件和其他概念角色,稱為框架元素(Frame Elements)。

      框架元素[8]分為核心框架元素、非核心框架元素和通用的非核心框架元素。本文的研究對(duì)象就是從經(jīng)過(guò)CFN三層標(biāo)注的句子庫(kù)中提取的6 750個(gè)簡(jiǎn)單短語(yǔ)類型和1 338個(gè)復(fù)合短語(yǔ)類型的框架元素,并不區(qū)分其中的框架元素類別。

      2.1 框架依存圖

      框架依存圖[3]( Frame Dependency Graph, FDG) 是對(duì)于一個(gè)句子中基于一個(gè)目標(biāo)詞和依存于這個(gè)目標(biāo)詞的各個(gè)框架元素的語(yǔ)義依存關(guān)系的圖形化表示。框架依存圖中的節(jié)點(diǎn)包含有目標(biāo)詞以及依存于這個(gè)目標(biāo)詞的框架元素,圖中每條邊上標(biāo)有相應(yīng)的語(yǔ)義角色。

      框架核心依存圖(Frame Kernel Dependency Graph, FKDG)是由目標(biāo)詞、依存于目標(biāo)詞的框架元素的語(yǔ)義核心成分組成。從給定句子中抽取的核心依存圖,可以看作是這個(gè)句子深層語(yǔ)義的圖形化表示。它是在框架依存圖的基礎(chǔ)上,對(duì)每個(gè)依存項(xiàng)代表的框架元素提取其語(yǔ)義核心詞。

      為了更好地對(duì)一個(gè)句子進(jìn)行語(yǔ)義理解,可以將框架依存圖轉(zhuǎn)化為框架核心依存圖,這就需要我們對(duì)圖中每個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的框架元素進(jìn)行核心詞的提取。

      2.2 框架元素語(yǔ)義核心詞描述

      本文中對(duì)核心詞給出如下描述: 在特定的短語(yǔ)中,對(duì)短語(yǔ)語(yǔ)義起決定性的那些詞。例如,形容詞性短語(yǔ)“很好”中的“好”就是核心詞。需要說(shuō)明的是,在漢語(yǔ)短語(yǔ)結(jié)構(gòu)中并不是所有的短語(yǔ)都有核心詞,有些并列結(jié)構(gòu)的短語(yǔ)就沒有核心詞,如名詞性短語(yǔ)“方針路線”等。

      文獻(xiàn)[3]中對(duì)框架元素語(yǔ)義核心詞的定義,一個(gè)框架元素中的詞可以分成兩部分: 一部分是核心詞,這些詞對(duì)理解這個(gè)框架元素的語(yǔ)義是必要的;另一部分是修飾核心詞的詞語(yǔ)以及各種功能詞,如: 嘆詞、語(yǔ)氣詞、助詞、標(biāo)點(diǎn)符號(hào)等。

      3 框架元素語(yǔ)義核心詞識(shí)別中的模型描述及特征表示

      3.1 CRF模型

      條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)是John Lafferty 在2001年提出的一個(gè)基于統(tǒng)計(jì)的序列標(biāo)記和分割的方法。CRF是一個(gè)無(wú)向圖模型的框架,它能夠被用來(lái)定義在給定一組需要標(biāo)記的觀察序列的條件下,一個(gè)標(biāo)記序列的聯(lián)合概率分布。假設(shè)X,Y分別表示需要標(biāo)記的觀察序列和它相應(yīng)的標(biāo)記序列的聯(lián)合分布隨機(jī)變量,那么CRF(X,Y)就是一個(gè)以觀察序列X為條件的無(wú)向圖模型[9]。在給定觀察序列X的條件下,標(biāo)記序列Y的聯(lián)合分布為:

      其中每個(gè)fk(i,yi-1,yi,x)是整個(gè)觀察序列和相應(yīng)標(biāo)記序列中位置為i和i-1的標(biāo)記的特征,而每個(gè)gk(i,yi,x)是在位置為i的標(biāo)記和觀察序列的特征。λ和μ是特征函數(shù)的權(quán)重,Z是歸一化因子。

      3.1.1 特征的選擇以及特征模板的設(shè)置

      特征選擇是使用CRF進(jìn)行框架元素核心詞自動(dòng)識(shí)別的核心步驟,特征選擇的好壞將直接影響CRF模型識(shí)別的性能,我們可以通過(guò)一些模板來(lái)定義特征。模板是對(duì)上下文的特定位置和特定信息的考慮。而CRF模型最大的優(yōu)點(diǎn)就是,不僅能夠使用字、詞、詞性等上下文信息,還能綜合利用這些特征的組合特征。由于本文研究的目標(biāo)是針對(duì)詞,所以在進(jìn)行特征選擇時(shí)主要考慮了以下幾個(gè)基本特征:

      (1) 詞,當(dāng)前詞以及前后一定窗口內(nèi)的詞;

      (2) 詞性,當(dāng)前詞以及其前后各個(gè)詞的詞性;

      (3) 短語(yǔ)類型,當(dāng)前詞所屬的短語(yǔ)類型信息;

      根據(jù)這些特征,我們定義如表1中的基本特征。

      表1 特征選擇中的基本特征

      續(xù)表

      在實(shí)驗(yàn)中我們運(yùn)用上表中的基本特征進(jìn)行組合,根據(jù)本文任務(wù)的具體要求構(gòu)成以下七種復(fù)合特征來(lái)進(jìn)行實(shí)驗(yàn)。復(fù)合特征如表2:

      表2 CRF模型中的復(fù)合特征

      3.2 最大熵模型

      模型描述: 設(shè)最終輸出值構(gòu)成的語(yǔ)言學(xué)類別有限集為Y,對(duì)于每個(gè)y∈Y,其生成均受上下文信息x的影響和約束。已知與y有關(guān)的所有上下文信息組成的集合為X,則模型的目標(biāo)是: 給定上下文x∈X,計(jì)算輸出為y∈Y的條件概率p(y|x)[10]。

      進(jìn)行框架元素核心詞的提取,我們所用的訓(xùn)練集就是以詞為研究單位的,假設(shè)有一個(gè)樣本集{(x1,y1),(x2,y2),…(xn,yn)},每一個(gè)xi(1≤i≤n)表示一個(gè)將分類的詞的上下文,yi(1≤i≤n)表示該詞被標(biāo)注的結(jié)果。根據(jù)最大熵原理,概率值p(y|x)的取值符合下面的指數(shù)模型:

      3.2.1 最大熵模型的特征選取

      最大熵模型的關(guān)鍵在于如何針對(duì)特定的任務(wù)為模型選取特征集合,所以在框架元素語(yǔ)義核心詞的提取過(guò)程中所選的特征主要采用前面敘述的表1中的若干個(gè)基本特征,在此不重復(fù)描述。

      在實(shí)驗(yàn)過(guò)程中使用的復(fù)合特征如表3所示:

      表3 最大熵模型中的復(fù)合特征

      3.3 SVM模型

      支持向量機(jī)(Support Vector Machine,SVM)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的新型機(jī)器學(xué)習(xí)方法,是借助于最優(yōu)化方法解決機(jī)器學(xué)習(xí)問(wèn)題的新工具。SVM的主要思想是針對(duì)兩類分類問(wèn)題,在高維空間中尋找一個(gè)超平面作為兩類的分割,以保證最小的分類錯(cuò)誤率,由于其具有全局最優(yōu)、結(jié)構(gòu)簡(jiǎn)單、推廣能力強(qiáng)等優(yōu)點(diǎn),近幾年得到了廣泛的研究并廣泛應(yīng)用于模式識(shí)別、自然語(yǔ)言處理等領(lǐng)域,而且取得了不錯(cuò)的效果。所以對(duì)于本文中的識(shí)別任務(wù),使用SVM模型也是我們的重要方法之一。

      3.3.1 SVM模型的特征選取

      根據(jù)目前語(yǔ)料庫(kù)的狀況,可選的特征有表1中的若干個(gè)基本特征以及這些特征的復(fù)合特征,選擇不同長(zhǎng)度的觀察窗口。實(shí)驗(yàn)中,對(duì)于語(yǔ)料中的核心與非核心的識(shí)別問(wèn)題,選定其中一類為正例,則另一類相應(yīng)的為負(fù)例。隨機(jī)選擇500個(gè)正例樣本和500個(gè)負(fù)例樣本作為初始訓(xùn)練集,用于訓(xùn)練初始SVM分類器。

      4 框架元素語(yǔ)義核心詞識(shí)別的實(shí)驗(yàn)設(shè)計(jì)及分析

      4.1 CFN中框架元素的統(tǒng)計(jì)分析

      本文實(shí)驗(yàn)所用的語(yǔ)料庫(kù)是從CFN標(biāo)注的句子庫(kù)中隨機(jī)抽取了包含六種基本短語(yǔ)結(jié)構(gòu)類型[11]的框架元素6 750個(gè),并對(duì)這些框架元素的短語(yǔ)類型和分布進(jìn)行了統(tǒng)計(jì),結(jié)果如表4所示。

      表4 框架元素的短語(yǔ)類型及長(zhǎng)度分布統(tǒng)計(jì)

      根據(jù)文獻(xiàn)[3]中的框架元素核心詞規(guī)則集,對(duì)這6 750個(gè)框架元素的進(jìn)行了語(yǔ)義核心詞的人工標(biāo)記,標(biāo)記集為T={h,n},其中h代表核心詞,n代表非核心詞。例如:

      par-np-obj 大量 m-n 的 u-n 中國(guó) nsh-n 古代 nt-n 典籍 n-h

      manr-ap-adva 很 d-n 難 aq-h

      其中,“par-np-obj”分別表示CFN三層標(biāo)注中的框架元素名、短語(yǔ)類型、句法功能,“m-n”中的“m”表示“大量”這個(gè)詞的詞性,“-n”表示“大量”這個(gè)詞為非核心詞。

      4.2 利用CRF模型的實(shí)驗(yàn)設(shè)計(jì)及結(jié)果

      本文實(shí)驗(yàn)中首先將上述的6 750個(gè)短語(yǔ)型框架元素按照不同類型分類,分為6種基本的類型,每種類型的框架元素都按照訓(xùn)練集/測(cè)試集8∶2的比例進(jìn)行切分。在實(shí)驗(yàn)過(guò)程中,我們使用了CRF工具包,在選定特征空間的基礎(chǔ)上,設(shè)置了T0~T6七個(gè)特征模板,在這七個(gè)模板上分別進(jìn)行了實(shí)驗(yàn),其中將T0模板作為實(shí)驗(yàn)的Baseline實(shí)驗(yàn)。由于本文中對(duì)于任何一個(gè)待識(shí)別的詞都會(huì)有一個(gè)識(shí)別結(jié)果,所以我們使用正確率及平均正確率對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)測(cè):

      正確率(precision)=正確識(shí)別的詞的個(gè)數(shù)/測(cè)試集中詞的總數(shù)×100%

      (4)

      (5)

      其中,l是測(cè)試集中框架元素的短語(yǔ)類型的總數(shù)。

      表5 利用CRF模型對(duì)不同短語(yǔ)類型框架元素實(shí)驗(yàn)結(jié)果

      4.2.1 結(jié)果分析

      從實(shí)驗(yàn)結(jié)果可以看出,在語(yǔ)料庫(kù)中占較重比例的名詞性短語(yǔ)框架元素的識(shí)別結(jié)果比較高,這是因?yàn)槊~性短語(yǔ)的結(jié)構(gòu)比較簡(jiǎn)單,其中大多以定中結(jié)構(gòu)出現(xiàn),核心詞比較容易判斷。動(dòng)詞和介詞短語(yǔ)型框架元素相比較其他短語(yǔ)型的框架元素的分析復(fù)雜,正確率較低。而形容詞和處所詞短語(yǔ)類型,因其構(gòu)成比較簡(jiǎn)單,正確率一般能達(dá)到100%。

      在上述實(shí)驗(yàn)中,本文做了一個(gè)Baseline實(shí)驗(yàn)(T0模板),在該特征模板中只考慮了詞和詞性這兩個(gè)基本特征,然后在此基礎(chǔ)上增加了CFN三層標(biāo)注中的短語(yǔ)類型這一特征。實(shí)驗(yàn)結(jié)果表明,對(duì)于本文的識(shí)別任務(wù),短語(yǔ)類型這一特征起著重要的作用,識(shí)別效果得到比較大的提高。

      通過(guò)分析錯(cuò)誤實(shí)例,我們發(fā)現(xiàn)首先是語(yǔ)料庫(kù)中人工標(biāo)注的錯(cuò)誤,所以進(jìn)行了語(yǔ)料庫(kù)的進(jìn)一步修改,使得實(shí)驗(yàn)結(jié)果提高了2%左右。其次,基于統(tǒng)計(jì)的方法建立模型,應(yīng)盡可能的選擇比較豐富的框架元素作為訓(xùn)練集,本文采用隨機(jī)抽樣的方法從CFN句子庫(kù)中抽取的框架元素,很難避免數(shù)據(jù)稀疏問(wèn)題,也導(dǎo)致一些錯(cuò)誤。另一方面因?yàn)镃RF模型的訓(xùn)練結(jié)果并不是選取的特征數(shù)越多,正確率越高。所以在上述實(shí)驗(yàn)結(jié)果中模板T3取得的識(shí)別效果最好。

      4.3 利用最大熵模型的實(shí)驗(yàn)設(shè)計(jì)及結(jié)果

      表6 利用最大熵模型對(duì)不同短語(yǔ)類型框架元素實(shí)驗(yàn)結(jié)果

      4.3.1 結(jié)果分析

      從表中可以看出,model2識(shí)別的效率較好一些,這是因?yàn)樽畲箪啬P椭凶詈蟮姆诸惤Y(jié)果與其上下文信息密切相關(guān),但是由于存在過(guò)擬合現(xiàn)象,所以并不是窗口越大,效率就會(huì)越高,所以窗口為2的識(shí)別效率最好。由實(shí)驗(yàn)得知,在本文任務(wù)中,分別考慮當(dāng)前詞的前兩個(gè)和后兩個(gè)詞及詞性,達(dá)到的識(shí)別效果最好。

      4.4 利用SVM模型的實(shí)驗(yàn)設(shè)計(jì)及結(jié)果

      在實(shí)驗(yàn)的訓(xùn)練過(guò)程中我們使用了RBF核函數(shù),而RBF核的C和σ2是兩個(gè)可以人為調(diào)節(jié)的參數(shù),參數(shù)取值不同,對(duì)應(yīng)的分類器性質(zhì)以及推廣識(shí)別率也將有很大差別。利用“窮舉法”求解出最佳的參數(shù)組合(C,σ2)。

      表7 利用SVM模型對(duì)不同短語(yǔ)類型框架元素實(shí)驗(yàn)結(jié)果

      4.4.1 結(jié)果分析

      對(duì)于本文的實(shí)驗(yàn)?zāi)康模ㄟ^(guò)對(duì)比以上三種模型下的識(shí)別結(jié)果,SVM模型的效率明顯不如另外兩種。這其中可能一方面是因?yàn)橛帽疚倪x取的特征模板來(lái)訓(xùn)練SVM的分類器,不是最佳的;另一方面,SVM不能確定數(shù)據(jù)中哪些知識(shí)是冗余的,哪些是有用的,對(duì)于特征選擇造成很大的困難,導(dǎo)致實(shí)驗(yàn)結(jié)果降低。再者,SVM對(duì)特征空間要求較高,而實(shí)際應(yīng)用中很多數(shù)據(jù)的特征都是非數(shù)值性的,不連續(xù)也無(wú)序的關(guān)系,在數(shù)據(jù)預(yù)處理階段造成很大的誤差。

      4.5 復(fù)合型短語(yǔ)結(jié)構(gòu)類型的框架元素的核心詞識(shí)別過(guò)程

      在CFN語(yǔ)料庫(kù)中,框架元素不只包含有簡(jiǎn)單的短語(yǔ)類型,也有可能是由若干個(gè)短語(yǔ)構(gòu)成的,長(zhǎng)度大于5的復(fù)合短語(yǔ)型框架元素主要分布在np,vp,pp這三種類型中。例如:

      “empee-np-obj 成百 m 的 u 非洲 ns 人 n 、亞洲 ns 人 n 和 c 阿拉伯 ns 人 n”

      “cont-vp-obj 不要 d 向 p 任何 r 人 n 提 v 起 v 小箱子 n 的 u 來(lái)歷 n”

      所以本文在對(duì)簡(jiǎn)單短語(yǔ)型框架元素語(yǔ)義核心詞進(jìn)行識(shí)別研究的基礎(chǔ)上,進(jìn)一步對(duì)復(fù)合短語(yǔ)型的框架元素進(jìn)行分析研究。在實(shí)驗(yàn)過(guò)程中,從CFN語(yǔ)料庫(kù)中隨機(jī)選取了1 338個(gè)復(fù)合短語(yǔ)型框架元素,按短語(yǔ)類型分類為np(720個(gè)),pp(448個(gè)),vp(170個(gè)),按照訓(xùn)練集/測(cè)試集8∶2的比例進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中三種模型使用的特征模板分別是上述實(shí)驗(yàn)結(jié)果中得到的識(shí)別效果較好的T3和model2。

      表8 不同模型對(duì)于復(fù)合型短語(yǔ)結(jié)構(gòu)類型的框架元素實(shí)驗(yàn)結(jié)果

      4.5.1 實(shí)驗(yàn)分析

      通過(guò)對(duì)語(yǔ)料庫(kù)中大量存在的復(fù)合型短語(yǔ)類型的框架元素的核心詞進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果比較滿意,在CRF模型下識(shí)別結(jié)果達(dá)到了93.17%。本文與文獻(xiàn)[3]中基于多詞塊的框架元素語(yǔ)義核心詞自動(dòng)識(shí)別研究進(jìn)行對(duì)比分析,結(jié)果表明,基于統(tǒng)計(jì)學(xué)習(xí)方法比基于規(guī)則的學(xué)習(xí)方法具有優(yōu)越性,尤其是處理復(fù)合型短語(yǔ)類型框架元素時(shí),識(shí)別效果得到較大的提高。但是同時(shí)也面臨一個(gè)很大的困難,即需要大量的標(biāo)注語(yǔ)料的支持,而創(chuàng)建新的標(biāo)注語(yǔ)料庫(kù)資源也是件很費(fèi)時(shí)費(fèi)力的工作。

      在分析標(biāo)注錯(cuò)誤的框架元素過(guò)程中,我們發(fā)現(xiàn)其中有大部分識(shí)別錯(cuò)誤的框架元素的短語(yǔ)類型屬于并列結(jié)構(gòu)。引起這一錯(cuò)誤識(shí)別的原因可能是因?yàn)閿?shù)據(jù)稀疏的問(wèn)題,這也是機(jī)器學(xué)習(xí)方法中的有待解決的問(wèn)題之一,所以我們還有待于進(jìn)一步擴(kuò)大語(yǔ)料庫(kù),完善規(guī)則集。

      4.6 特征模板的改進(jìn)

      由以上實(shí)驗(yàn)結(jié)果得知,影響平均準(zhǔn)確率的重要因素是由于動(dòng)詞和介詞短語(yǔ)型框架元素的識(shí)別正確率較低,所以,為了進(jìn)一步提高其準(zhǔn)確率,首先需要針對(duì)這兩類短語(yǔ)類型進(jìn)行專門的分析。我們選擇在最優(yōu)的模型CRF基礎(chǔ)上,對(duì)特征模板做出改進(jìn)。我們?cè)谶M(jìn)行特征選擇的時(shí)候不只是選擇當(dāng)前詞的前后各兩個(gè)詞的信息,而是選擇與它相鄰的前后兩個(gè)實(shí)詞的信息,也就是遠(yuǎn)距離實(shí)詞信息。在這個(gè)改進(jìn)的模板上,我們分別對(duì)簡(jiǎn)單及復(fù)雜的動(dòng)詞和介詞短語(yǔ)型框架元素做了實(shí)驗(yàn),得到以下結(jié)果。

      表9 改進(jìn)的特征模板對(duì)于動(dòng)詞和介詞短語(yǔ)結(jié)構(gòu)類型的框架元素實(shí)驗(yàn)結(jié)果

      4.6.1 實(shí)驗(yàn)分析

      由以上結(jié)果得知,在改進(jìn)的特征模板基礎(chǔ)上,識(shí)別結(jié)果得到了一定的提高。這是因?yàn)镃RF模型一個(gè)最主要的優(yōu)點(diǎn)就是特征模板中可以包含各種長(zhǎng)距離的、顆粒度很細(xì)的基于詞的特征,并且對(duì)于動(dòng)詞和介詞短語(yǔ)型框架元素中包含有許多作為修飾成分的虛詞,這些詞對(duì)于核心詞的提取并沒有起到很大的作用,而決定當(dāng)前詞是否為核心詞的重要因素是與它距離最近的一些實(shí)詞。所以我們?cè)谶x擇上下文信息的時(shí)候,選取了實(shí)詞這一信息。結(jié)果證明,這一想法是可行的。在動(dòng)詞和介詞短語(yǔ)型框架元素的識(shí)別效率提高的基礎(chǔ)上,平均正確率分別提高了0.47,0.86個(gè)百分點(diǎn)。

      5 結(jié)束語(yǔ)

      自動(dòng)提取框架元素語(yǔ)義核心詞,能夠?qū)崿F(xiàn)框架依存圖到框架核心依存圖的轉(zhuǎn)化,對(duì)進(jìn)一步語(yǔ)義分析起到重要的作用。本文在分析現(xiàn)有研究的基礎(chǔ)上,通過(guò)對(duì)比CRF模型、最大熵模型以及SVM模型對(duì)簡(jiǎn)單短語(yǔ)類型以及復(fù)雜短語(yǔ)類型的框架元素進(jìn)行框架元素語(yǔ)義核心詞識(shí)別,實(shí)驗(yàn)結(jié)果表明,使用CRF模型進(jìn)行學(xué)習(xí)得到的識(shí)別結(jié)果優(yōu)于另外兩種學(xué)習(xí)模型,在CRF模型上做了進(jìn)一步的改進(jìn)。在今后的研究中,一是學(xué)習(xí)新的特征選擇方法,豐富其特征組合,選擇最優(yōu)參數(shù)估計(jì)方法,進(jìn)一步提高其識(shí)別性能。二是鑒于現(xiàn)在很多研究表明,使用多學(xué)習(xí)器集成的方法能夠比使用單個(gè)學(xué)習(xí)器的系統(tǒng)具有更好的性能,我們嘗試將幾種不同的學(xué)習(xí)模型集成學(xué)習(xí),以期得到一個(gè)最適合于本文任務(wù)的學(xué)習(xí)模型,為以后構(gòu)建框架核心依存圖做充分的準(zhǔn)備。

      [1] 程月,陳小荷. 基于條件隨機(jī)場(chǎng)的漢語(yǔ)動(dòng)賓搭配自動(dòng)識(shí)別[J]. 中文信息學(xué)報(bào),2009,23(1): 9-15.

      [2] 周雅倩,郭以昆,黃萱菁,等. 基于最大熵方法的中英文基本名詞短語(yǔ)識(shí)別[J]. 計(jì)算機(jī)研究與發(fā)展,2003,40(3): 440-446.

      [3] 李雙紅,李茹,鐘立軍,等. 基于多詞塊的框架元素語(yǔ)義核心詞自動(dòng)識(shí)別研究[J]. 中文信息學(xué)報(bào), 2010,24(1): 30-37.

      [4] 遲程英,于長(zhǎng)遠(yuǎn),戰(zhàn)學(xué)剛. 基于條件隨機(jī)場(chǎng)的中文分詞方法[J]. 情報(bào)雜志,2008,27(5): 79-81.

      [5] 周強(qiáng). 規(guī)則和統(tǒng)計(jì)相結(jié)合的漢語(yǔ)詞類標(biāo)注方法[J]. 中文信息學(xué)報(bào),1995,9(3): 1-10.

      [6] 都云琪,肖詩(shī)斌. 基于支持向量機(jī)的中文文本自動(dòng)分類研究[J]. 計(jì)算機(jī)工程,2002,11: 137-138.

      [7] 劉開瑛,由麗萍. 漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)構(gòu)建工程[C]//中文信息處理前沿進(jìn)展,中國(guó)中文信息學(xué)會(huì)成立二十五周年學(xué)術(shù)會(huì)議論文集. 2006: 64-71.

      [8] 郝曉燕,劉偉,李茹,等. 漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)及軟件描述體系[J]. 中文信息學(xué)報(bào),2007,21(5): 96-100.

      [9] F. Sha, F. Pereira. Shallow Parsing with Conditional Random Fields[C]//Proceedings of HLT-NAACL. 2003(5-6):134-141.

      [10] R. Koeling. Chunking with Maximum Entropy Models[C]//Proceedings of CoNLL-2000, Lisbon, Portugal. 2000:139-141.

      [11] 周強(qiáng),俞士汶. 漢語(yǔ)短語(yǔ)標(biāo)注標(biāo)記集的確定[J]. 中文信息學(xué)報(bào),1996,10(4): 1-11.

      猜你喜歡
      短語(yǔ)語(yǔ)義框架
      框架
      廣義框架的不相交性
      語(yǔ)言與語(yǔ)義
      WTO框架下
      法大研究生(2017年1期)2017-04-10 08:55:06
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      一種基于OpenStack的云應(yīng)用開發(fā)框架
      認(rèn)知范疇模糊與語(yǔ)義模糊
      語(yǔ)義分析與漢俄副名組合
      平谷区| 岢岚县| 都兰县| 阳谷县| 喀喇| 广昌县| 万荣县| 康平县| 长岛县| 枣阳市| 和政县| 永宁县| 林周县| 东乡县| 昭觉县| 博兴县| 扶风县| 青神县| 察雅县| 新河县| 柘荣县| 中山市| 卢湾区| 宁强县| 黄陵县| 双桥区| 罗田县| 武穴市| 集安市| 阜城县| 玛多县| 汝南县| 阳信县| 若尔盖县| 德化县| 故城县| 磐石市| 会泽县| 五指山市| 咸丰县| 理塘县|