王倩,羅森林,韓磊,潘麗敏
(北京理工大學(xué)信息與電子學(xué)院信息系統(tǒng)安全對抗實(shí)驗(yàn)中心,北京100081)
自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域和人工智能領(lǐng)域中的一個(gè)重要方向,它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效的通信的各種理論和方法。計(jì)算語言學(xué)發(fā)展至今,已能夠達(dá)到較為熟練的詞法和句法分析并大量的應(yīng)用到實(shí)際應(yīng)用中,在一定程度上能夠滿足人機(jī)交互的需求,而要讓計(jì)算機(jī)能夠真正的理解自然語言還必須從語義上進(jìn)行分析。語義分析從20世紀(jì)70年代起就有人開始研究,然而到現(xiàn)在為止仍然是自然語言處理研究的一個(gè)難以跨越的瓶頸。本文進(jìn)行的句義類型識別研究就是語義研究中句義分析的一項(xiàng)內(nèi)容。為了讓計(jì)算機(jī)能夠自動(dòng)分析漢語句子并得出句義結(jié)構(gòu)模型[1],從而對漢語句子進(jìn)行進(jìn)一步的研究和應(yīng)用,本課題組對句義分析相關(guān)工作進(jìn)行了分步研究(課題組將其分為謂詞識別、句義類型識別、句義結(jié)構(gòu)框架提取、語義格識別等9個(gè)步驟)。其中,句義類型的識別作為在整體上對句義結(jié)構(gòu)進(jìn)行描述的方式之一,是對漢語句子進(jìn)行完整句義結(jié)構(gòu)分析的重要步驟。
由于語言學(xué)家對于漢語句子分類的目的和要求不同,漢語句子存在多種分類方式,最常見的有:按句子結(jié)構(gòu)進(jìn)行的分類、按句子語氣進(jìn)行的分類、按句子成分進(jìn)行的分類、按句子在語段中的地位和作用進(jìn)行的分類、按句子意思的復(fù)雜程度進(jìn)行的分類等。其中,按結(jié)構(gòu)進(jìn)行分類的方法還可以細(xì)分為:按句子結(jié)構(gòu)的復(fù)雜程度將句子分為單句和復(fù)句;按句子結(jié)構(gòu)特征將句子分為“把”字句、“被”字句、連動(dòng)句、兼語句、雙賓句、存現(xiàn)句等;按句子的語氣不同進(jìn)行的分類,可將句子分為陳述句、疑問句、祈使句和感嘆句;按句子成分進(jìn)行的分類又可以細(xì)分為:按句子成分在句中的排列順序?qū)渥舆M(jìn)行的分類,按組成句子成分的詞性或短語的功能屬性對句子進(jìn)行的分類,按句子成分是否按照常規(guī)順序排列將句子分為常式句和變式句,按句子成分是否完整將句子分為完全句和省略句等;按句子在語段中的地位和作用可以將句子分為始發(fā)句、后續(xù)句、終止句、中心句和獨(dú)立句等[2]。本文中句義類型的概念來源于賈彥德先生的《漢語語義學(xué)》[3],即句義結(jié)構(gòu)的類型。句義類型是根據(jù)句義的復(fù)雜程度以及分句義之間的組合方式,將句子分為簡單句義、復(fù)雜句義、復(fù)合句義和多重句義4類[3]。
在中文信息處理領(lǐng)域,對其他句子類型識別已有不少人做出研究,如句型識別和句式識別的研究就有很多,句類識別主要集中在進(jìn)行HNC(概念層次網(wǎng)絡(luò))研究的相關(guān)研究機(jī)構(gòu)。對漢語句子類型識別研究目前采用較多的是規(guī)則匹配的方法和統(tǒng)計(jì)的方法,文獻(xiàn)[4-8]均是采用規(guī)則的方法或利用規(guī)則構(gòu)建正則表達(dá)式對句子類型進(jìn)行識別。相比于規(guī)則的方法,統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法已經(jīng)逐漸被中文信息處理研究者青睞,并運(yùn)用到句子類型識別中,文獻(xiàn)[9-10]即是采用統(tǒng)計(jì)的方法進(jìn)行識別研究。漢語句子的靈活多變性使得利用規(guī)則的方法進(jìn)行句子類型識別存在一定的局限性,且規(guī)則的方法本身就存在無法窮盡的缺點(diǎn),統(tǒng)計(jì)學(xué)習(xí)的方法具有自學(xué)習(xí)和自適應(yīng)性,避免了規(guī)則方法的缺點(diǎn),適用于漢語句子分類研究,因此,本文對于句義類型識別采用了統(tǒng)計(jì)的方法。
對于句義類型的識別僅文獻(xiàn)[10]做了一些研究,本文是在其基礎(chǔ)上以提高識別準(zhǔn)確率和效率為目標(biāo)進(jìn)行的改進(jìn)。
句義類型即句義結(jié)構(gòu)的類型[3],分為簡單句義、復(fù)雜句義、復(fù)合句義和多重句義4種類型。簡單句義表現(xiàn)為一個(gè)命題,通常包含一個(gè)謂詞或并列謂詞,只有一層句義結(jié)構(gòu);復(fù)雜句義指的是一個(gè)句義中又包含著句義,包含兩層句義結(jié)構(gòu)的情況;復(fù)合句義是指兩個(gè)或兩個(gè)以上的簡單句義按照某種語義關(guān)系緊密地聯(lián)接在一起的情況,也包含兩層句義結(jié)構(gòu);多重句義包含三層或三層以上的句義結(jié)構(gòu),如果復(fù)雜句義的成分句義包含更多層的句義結(jié)構(gòu)則為多重句義,同樣的,如果復(fù)合句義的分句義包含更多層次的句義結(jié)構(gòu)則為多重句義。
馮揚(yáng)按照賈彥德先生《漢語語義學(xué)》中句義結(jié)構(gòu)的理論將漢語句子在語義上進(jìn)行結(jié)構(gòu)化分析,提出并構(gòu)建了漢語句義結(jié)構(gòu)模型[1]。圖1為BFS-CTC漢語標(biāo)注語料庫[11](Beijing Forest Studio-Chinese Tag Corpus)中句義結(jié)構(gòu)模型的一個(gè)標(biāo)注實(shí)例。
如圖1所示,粗邊框所示的即是句義結(jié)構(gòu)模型中的句義類型塊,其中,頂層句義類型塊的內(nèi)容即是整個(gè)句子的句義類型。本文要做的工作即是在已知謂詞和句子的詞法、句法標(biāo)注的情況下,給出整個(gè)句子的句義類型。
圖1中有灰色底紋的框是謂詞塊,其中的內(nèi)容即是句子中的謂詞。為了表述方便,在句義結(jié)構(gòu)模型的樹形結(jié)構(gòu)中,從謂詞出發(fā)向上搜索,經(jīng)過的句義類型塊的個(gè)數(shù)用Numofsen表示,例如,圖1中謂詞“利用”和“推薦”的Numofsen均為2,謂詞“發(fā)表”的Numofsen為3;句子中所有謂詞的Numofsen的最大值用Maxnumofsen表示。在大量的句義標(biāo)注工作中,總結(jié)出這樣一條規(guī)律:當(dāng)Maxnumofsen=1時(shí),必定是簡單句義;當(dāng)Maxnumofsen≥3時(shí),必定是多重句義;當(dāng)Maxnumofsen=2時(shí),必定是復(fù)雜句義或復(fù)合句義中的一種。同樣,在句法分析中可以總結(jié)出這樣一條規(guī)律:句法標(biāo)注中的頂端句子節(jié)點(diǎn)(Top-Sentence)(包括單句(dj)和復(fù)句(fj)兩種,在3.1節(jié)的特征提取中會(huì)有圖示說明。)如果為dj,則其相對應(yīng)的句義標(biāo)注中的頂層句義類型必定為簡單句義、復(fù)雜句義和多重句義中的一種;而句法標(biāo)注的頂端句子節(jié)點(diǎn)如果為fj,則其對應(yīng)的句義標(biāo)注中的頂層句義類型必定為復(fù)合句義或多重句義。其中,dj指的是最基本的句型組合情況,包括最為常見的主謂結(jié)構(gòu)、由狀語加上主謂結(jié)構(gòu)形成的狀中結(jié)構(gòu)、包含有連詞的結(jié)構(gòu)以及主謂結(jié)構(gòu)加上語氣詞所組成的結(jié)構(gòu)等;fj指的是有多個(gè)dj通過連詞或標(biāo)點(diǎn)符號連接而成的情況。綜合以上兩條規(guī)律,我們可以得出句義類型判定的一個(gè)判決方法,如式(1)所示。
圖1 句義結(jié)構(gòu)模型的一個(gè)標(biāo)注實(shí)例
根據(jù)第2節(jié)的分析,在已知Maxnumofsen值和句法標(biāo)注中頂端句子節(jié)點(diǎn)的基礎(chǔ)上,可以利用式(1)所示的判決方法直接判斷出句義類型,這樣,句義類型識別的工作重心就轉(zhuǎn)移到Maxnumofsen值的獲取上了。這里,我們采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,選用計(jì)算較為簡單、速度快且利于探測式發(fā)現(xiàn)的C4.5決策樹算法[12]。由于只包含一個(gè)謂詞的句子必定是簡單句,且含有一個(gè)謂詞的簡單句又占常見簡單句的絕大部分,因此可以在求Maxnumofsen值之前先判斷句子中謂詞的個(gè)數(shù),進(jìn)行一個(gè)初步識別,將謂詞個(gè)數(shù)為1的句子直接判斷為簡單句而不需要進(jìn)行后面的步驟,從而進(jìn)一步提高識別效率。句義類型識別的算法原理如圖2所示。
整個(gè)原理圖分為兩個(gè)大的模塊,即訓(xùn)練模塊和識別模塊。訓(xùn)練模塊的輸入是經(jīng)過完整句法和句義標(biāo)注的句子,輸出的是用于識別Numofsen的判定模型(C4.5分類器);識別模塊的輸入是經(jīng)過完整句法標(biāo)注且已知謂詞的句子,輸出的是句子的句義類型判定結(jié)果。
訓(xùn)練模塊包括預(yù)處理、特征提?。ㄓ?xùn)練)和C4.5訓(xùn)練三個(gè)步驟。其中,預(yù)處理是刪除謂詞個(gè)數(shù)為1的句子,僅用剩下的句子進(jìn)行訓(xùn)練,原因是識別階段僅對謂詞個(gè)數(shù)大于1的句子進(jìn)行Numofsen判定;訓(xùn)練階段的特征提取是根據(jù)句法和句義標(biāo)注的句子提取出每個(gè)謂詞相應(yīng)的特征和句義中對應(yīng)的Numofsen值;C4.5訓(xùn)練是根據(jù)特征提取得到的帶標(biāo)號的特征訓(xùn)練出用于Numofsen值判定的分類模型。
圖2 句義類型識別算法原理
識別模塊分為兩步識別。第一步識別即初步識別,是根據(jù)句中的謂詞個(gè)數(shù)進(jìn)行判定,如果謂詞個(gè)數(shù)為1則直接判定為簡單句,否則進(jìn)行第二步識別;第二步識別包括特征提?。ㄗR別)、Numofsen值判定、頂端句子節(jié)點(diǎn)提取和判決4個(gè)步驟。其中,識別階段的特征提取是根據(jù)句法標(biāo)注的句子提取出與已知的謂詞相應(yīng)的特征;Numofsen判定是利用訓(xùn)練階段得到的判定模型對提取的特征進(jìn)行分類,得出Numofsen的判定值;頂端句子節(jié)點(diǎn)提取是從句法標(biāo)注的句子中直接讀取出頂端句子節(jié)點(diǎn);最后的判決是將句子中所有謂詞對應(yīng)的Numofsen值的最大值Maxnumofsen和得到的頂端句子節(jié)點(diǎn)值作為輸入,利用式(1)所示的判決方法進(jìn)行判定,最終給出句義類型的判定結(jié)果。
1)特征選擇
本文用于謂詞的Numofsen值判斷的特征主要來源于人工標(biāo)注的經(jīng)驗(yàn),即選取標(biāo)注者在人工標(biāo)注過程中常關(guān)注的一些特征。特征全部來源于句法標(biāo)注的句子,圖3即為BFS-CTC漢語標(biāo)注語料庫[11]中句法樹的一個(gè)標(biāo)注實(shí)例。
圖3 句法樹的一個(gè)標(biāo)注實(shí)例
如圖3所示的句法標(biāo)注中的頂端句子節(jié)點(diǎn)如果是復(fù)合句,則謂詞的Numofsen值必定大于1,因此,頂端句子節(jié)點(diǎn)可以作為一個(gè)特征;又如謂詞的詞性不同,其句法標(biāo)注的結(jié)果也會(huì)有很大差異,這樣在訓(xùn)練模型的過程中,詞性不同可能會(huì)結(jié)合不同的特征進(jìn)行組合,因此,謂詞的詞性也可以作為一個(gè)特征;此外,在句法樹中還有一些路徑數(shù)目特征與謂詞的Numofsen值判斷有一定的關(guān)系。所有的特征列表如表1所示。其中,路徑數(shù)目特征中的“路徑”指的是句法樹中從謂詞所在節(jié)點(diǎn)向上搜索直到根節(jié)點(diǎn)所經(jīng)過的各個(gè)標(biāo)注節(jié)點(diǎn),如圖3中虛線箭頭所示的謂詞“推薦”到頂端句子節(jié)點(diǎn)的路徑。
表1 特征列表
2)特征篩選
為了得到最優(yōu)的特征組合,對選取的特征進(jìn)行特征篩選。特征篩選分為兩步。第一步是利用Weka平臺中InfoGain的屬性選擇類對屬性進(jìn)行選擇,然后利用Ranker類對屬性進(jìn)行了一個(gè)簡單的排序;第二步是針對第一步排序后的特征進(jìn)行按信息增益率從低到高依次去除特征的實(shí)驗(yàn),最后根據(jù)實(shí)驗(yàn)結(jié)果分析給出最優(yōu)特征組合。
其中,Weka的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一個(gè)免費(fèi)的,非商業(yè)化的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。軟件中的InfoGain屬性選擇類(InfoGainAttributeEval)主要是計(jì)算出各個(gè)屬性的InfoGain信息。在Weka中為屬性選擇方法配備有搜索算法(seacher method),這里我們用最簡單的Ranker類對特征進(jìn)行簡單的排序。
實(shí)驗(yàn)數(shù)據(jù)來自于BFS-CTC漢語標(biāo)注語料庫[11]。相比于目前在漢語語義角色標(biāo)注領(lǐng)域主要使用的CPB語料庫(Chinese Proposition Bank)[13],BFS-CTC中的語料增加了對句子句義類型的標(biāo)注,并且提供了完整的語義角色標(biāo)注以及各句義成分之間的組合關(guān)系。
BFS-CTC由北京理工大學(xué)信息安全與對抗技術(shù)實(shí)驗(yàn)室自行開發(fā),其原始語料來源于新聞?wù)Z料中的句子(如Sohu、Sina、人民日報(bào)等),所有的句子均經(jīng)過了詞法、句法、句義結(jié)構(gòu)的標(biāo)注。其中,詞法標(biāo)注集采用北京大學(xué)的詞性標(biāo)注規(guī)范[14-15];句法標(biāo)注集采用北京大學(xué)計(jì)算語言學(xué)研究所規(guī)范[16];句義結(jié)構(gòu)標(biāo)注集則依據(jù)賈彥德先生的漢語語義學(xué)理論制定,定義了句義類型(4種,包括簡單句義、復(fù)雜句義、復(fù)合句義、多重句義)、語義格類型(基本格7種,如施事格、受事格等,一般格12種,如時(shí)間格、空間格等)、謂詞類型(4種,包括0目、1目、2目、多目)、謂詞時(shí)態(tài)(3種,包括過去時(shí)、現(xiàn)在時(shí)、將來時(shí))等,并規(guī)范了漢語句義成分之間的關(guān)系。目前BFS-CTC的規(guī)模為10 000句,約92 000詞,涵蓋了漢語中的主謂句、非主謂句、把字句、被字句、連動(dòng)句、兼語句等各種句式。圖4是BFS-CTC的一個(gè)句子標(biāo)注實(shí)例。
圖4 BFS-CTC中的一個(gè)句子標(biāo)注實(shí)例
實(shí)驗(yàn)采用BFS-CTC中10 221個(gè)句子,其中包括簡單句4 338個(gè),復(fù)雜句2 171個(gè),復(fù)合句1 512個(gè),多重句2 200個(gè)。
特征篩選實(shí)驗(yàn)的輸入是對10 221個(gè)句子進(jìn)行預(yù)處理并對每個(gè)謂詞進(jìn)行特征提取后得到的特征文件。實(shí)驗(yàn)采用十折交叉驗(yàn)證的方法,以Numofsen值的整體識別準(zhǔn)確率為指標(biāo)進(jìn)行評價(jià),其計(jì)算方法如式(2)所示。
第一步實(shí)驗(yàn)得到的特征排序列表如表2所示。
表2 屬性按信息增益排序結(jié)果
從表2中可以看出,編號為4、10和11的三個(gè)特征信息增益為0,因此可以考慮去掉這三個(gè)特征。
實(shí)驗(yàn)證明在去除這三個(gè)特征之后識別結(jié)果沒有任何改變,因此先排除這三個(gè)屬性,進(jìn)行第二步實(shí)驗(yàn),即將剩下的11個(gè)特征,按照信息增益由低到高依次去除,再利用剩下特征進(jìn)行識別。識別結(jié)果如圖5所示。
圖5 按信息增益由低到高依次去除特征Numofsen值識別結(jié)果
由圖5可知,在不斷去除信息增益率較低的特征后,識別結(jié)果越來越差,在去除編號為13的特征N_RBBISAP_NVD和編號為7的特征N_RBBISAP_VD時(shí)識別結(jié)果沒有變化,即與11個(gè)特征的識別結(jié)果相同,而在去除編號為14的特征N_ RBBISDJ_NVD時(shí),識別準(zhǔn)確率降低了0.6個(gè)百分點(diǎn)。由此可得,去除編號為13和7的兩個(gè)特征在現(xiàn)有的數(shù)據(jù)源下并沒有影響,因此可以去除這兩個(gè)特征,最終保留剩下的9個(gè)特征。
1)分類算法
目前,各種機(jī)器學(xué)習(xí)算法都已經(jīng)比較成熟,而且在語義分析領(lǐng)域也得到了越來越多的應(yīng)用。決策樹方法是挖掘分類規(guī)則的有效方法。第一步,從一組帶有類標(biāo)記的訓(xùn)練樣本學(xué)習(xí)建立決策樹;第二步,使用決策樹模型對待測樣本進(jìn)行分類。決策樹的構(gòu)造算法有很多,Quinlan于1986年提出的ID3算法,是國際上最早的、具有影響力的決策樹算法。1993年,Quinlan又提出了ID3的改進(jìn)版本C4.5算法,C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并且增加了其他的一些功能,如對未知屬性的處理、對連續(xù)屬性的離散化和產(chǎn)生規(guī)則[12]。
本文采用C4.5決策樹算法[12]進(jìn)行訓(xùn)練判定Numofsen值決策樹模型,主要有以下幾點(diǎn)原因。
①Numofsen值識別方法沒有先驗(yàn)知識可借鑒,而決策樹的構(gòu)造不需要任何領(lǐng)域知識和參數(shù)設(shè)置,適合于探測式發(fā)現(xiàn);
② 決策樹計(jì)算較為簡單,速度較快,并且容易轉(zhuǎn)化為分類規(guī)則。
在C4.5中,需要調(diào)節(jié)的參數(shù)有兩個(gè):ConfidenceFactor和MinObj,以下簡稱C和M。C影響剪枝的程度,其值越小剪枝越少,值越大剪枝越多,值為0時(shí)為不剪枝。M是在節(jié)點(diǎn)上能夠產(chǎn)生分枝的最小支撐樣本數(shù),例如M值為3時(shí),則某一節(jié)點(diǎn)上的樣本數(shù)大于等于3時(shí),才會(huì)繼續(xù)向下劃分。
2)參數(shù)選取
參數(shù)選取的實(shí)驗(yàn)數(shù)據(jù)源和評價(jià)方法同3.1節(jié)。
實(shí)驗(yàn)采用網(wǎng)格分析法進(jìn)行參數(shù)選擇,首先將C以步長0.05從0.1增長到1,M以步長10從0增長到100,獲得對應(yīng)參數(shù)下的識別準(zhǔn)確率,如圖6所示。然后根據(jù)結(jié)果分布縮小C和M的取值范圍和步長進(jìn)行進(jìn)一步實(shí)驗(yàn),最后分析實(shí)驗(yàn)結(jié)果給出最優(yōu)參數(shù)。
由圖6可以看出,固定M值變化C,識別準(zhǔn)確率變化不大,在C=0.55時(shí)會(huì)有一個(gè)小的上升;固定C變化M時(shí),識別準(zhǔn)確率跳變較大,在M=10時(shí)達(dá)到最大值。由于M的初步取值步長較大,為了進(jìn)一步確定M的最佳取值,固定C為0.55,將M以步長為1從1增長到19做進(jìn)一步實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7所示。
圖6 參數(shù)選擇實(shí)驗(yàn)結(jié)果1
圖7 參數(shù)選擇實(shí)驗(yàn)結(jié)果2
由圖7可得,當(dāng)M為14或15時(shí),達(dá)到最高識別準(zhǔn)確率。因?yàn)镸為最小支撐事例數(shù),一般越大越好,因此最終選擇M為15,C為0.55為最優(yōu)參數(shù)。
對句義類型的識別僅有文獻(xiàn)[10]進(jìn)行了一些研究,因此本文將在相同的數(shù)據(jù)源下與文獻(xiàn)[10]中的C4.5-SVM算法進(jìn)行對比實(shí)驗(yàn),以驗(yàn)證本文算法的有效性。
C4.5-SVM方法的主要思想是綜合C4.5算法和SVM算法對不同句義類型識別的優(yōu)勢。其使用了詞法和句法近50個(gè)特征,分別用C4.5算法和SVM算法進(jìn)行識別,最后將兩份識別結(jié)果融合給出句義類型的判定結(jié)果。
實(shí)驗(yàn)采用BFS-CTC中10 221個(gè)句子,包括簡單句4 338個(gè),復(fù)雜句2 171個(gè),復(fù)合句1 512個(gè),多重句2 200個(gè)。其中9 198個(gè)用于訓(xùn)練,1 023條用于測試。由于C4.5-SVM算法[10]沒有對復(fù)合句進(jìn)行識別,因此在與C4.5-SVM算法進(jìn)行對比實(shí)驗(yàn)時(shí),去掉其中的復(fù)合句。對比實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)分布如表3所示。
表3 對比實(shí)驗(yàn)數(shù)據(jù)分布說明
實(shí)驗(yàn)以單個(gè)類別的準(zhǔn)確率、召回率、F值及整體準(zhǔn)確率為指標(biāo)對結(jié)果做出評價(jià)。假設(shè)類別A(簡單句義、復(fù)雜句義、復(fù)合句義和多重句義其中之一),其準(zhǔn)確率、召回率、F值計(jì)算方法如式(3)~式(5)所示。
最后綜合所有類別的分類結(jié)果,得出算法的整體識別準(zhǔn)確率,計(jì)算方法如式(6)所示。
與C4.5-SVM算法的對比實(shí)驗(yàn)結(jié)果如表4所示。
表4 對比實(shí)驗(yàn)結(jié)果
其中,F(xiàn)值(F-Score)為準(zhǔn)確率(Precision)和召回率(Recall)的綜合體現(xiàn),因此,將F值的對比結(jié)果另用柱形圖更直觀的表示,如圖8所示。
圖8 F值結(jié)果對比
由表4和圖8可知,本文的算法不僅能夠識別出C4.5-SVM算法不能識別的復(fù)合句,而且其他三種句義類型的識別結(jié)果也得到了大幅度的提升;總體識別準(zhǔn)確率提升了11個(gè)百分點(diǎn),達(dá)到了97%以上;單個(gè)句義類型的識別結(jié)果也得到了不同程度的提升,其中復(fù)雜句的準(zhǔn)確率和多重句的召回率提高了40多個(gè)百分點(diǎn),除了復(fù)合句義的識別準(zhǔn)確率為93.7%以外,簡單句義、復(fù)雜句義和多重句義的識別準(zhǔn)確率均達(dá)到了97%以上。以上結(jié)論充分證明了本文所用算法的有效性。
句義類型是現(xiàn)代漢語語義學(xué)中從語義角度對句子句義結(jié)構(gòu)的劃分,包括簡單句義、復(fù)雜句義、復(fù)合句義和多重句義4類。對句義類型進(jìn)行識別是構(gòu)建完整的句義結(jié)構(gòu),進(jìn)行深層次句義分析的必要步驟,為句義結(jié)構(gòu)的深入研究,包括句義成分識別、句義結(jié)構(gòu)框架提取等提供了基礎(chǔ)條件。本文基于經(jīng)過詞法、句法和句義結(jié)構(gòu)標(biāo)注的漢語標(biāo)注語料庫,通過總結(jié)人工標(biāo)注經(jīng)驗(yàn),設(shè)計(jì)并實(shí)現(xiàn)了基于謂詞和句義類型塊的句義類型識別方法。該方法先利用“只含有一個(gè)謂詞的句子一定是簡單句”這一規(guī)律對待測句子進(jìn)行第一步識別,對于沒有給出句義類型的句子才會(huì)對其進(jìn)行第二步識別;第二步識別是先利用C4.5機(jī)器學(xué)習(xí)算法得到一個(gè)中間結(jié)果(謂詞經(jīng)過的句義類型塊的個(gè)數(shù)Numofsen),再結(jié)合句法標(biāo)注中頂端句子節(jié)點(diǎn)進(jìn)行判決,最終給出剩余句子的句義類型判定結(jié)果。本文利用Weka數(shù)據(jù)挖掘軟件進(jìn)行了特征篩選實(shí)驗(yàn)和參數(shù)選取實(shí)驗(yàn),最終確定了9個(gè)特征和最優(yōu)的參數(shù)組合。在BFS-CTC漢語標(biāo)注語料庫中10 221條數(shù)據(jù)的基礎(chǔ)上做了與C4.5-SVM算法的對比實(shí)驗(yàn),取得了97.6%的整體識別準(zhǔn)確率,提升了11個(gè)百分點(diǎn),驗(yàn)證了本文算法的有效性。綜上所述,本文提出的句義類型識別方法,能夠有效地識別4種句義類型,從而為基于語義學(xué)的句義分析研究奠定了基礎(chǔ)。
[1] 馮揚(yáng).漢語句義模型構(gòu)建及若干關(guān)鍵技術(shù)研究[D].北京理工大學(xué)碩士學(xué)位論文,2010.
[2] 北京市語臺學(xué)會(huì).教學(xué)語法系列講座[C].北京:中國和平出版社,1987.
[3] 賈彥德.漢語語義學(xué)[M].北京:北京大學(xué)出版社,1995.
[4] 林世平,許細(xì)清.面向中文文本的觀點(diǎn)檢索技術(shù)研究[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,38(05):681-687.
[5] 張濤.基于HNC理論的句子語義分析[D].北京理工大學(xué)碩士學(xué)位論文,2010.
[6] 吳鋒文.面向中文信息處理的三句式有標(biāo)復(fù)句層次關(guān)系自動(dòng)識別研究[D].華中師范大學(xué)博士學(xué)位論文,2010.
[7] 徐斌.基于PCFG-HDSM模型的語義句式識別[D].南京航空航天大學(xué)碩士學(xué)位論文,2008.
[8] 羅振聲,鄭碧霞.漢語句型自動(dòng)分析和分布統(tǒng)計(jì)算法與策略研究[J].中文信息學(xué)報(bào),1994,8(2):1-19.
[9] 李祖樞,劉朝濤.基于句型系統(tǒng)的中文問題理解研究[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2010,42(01):53-56.
[10] 劉莉莉.漢語句義類型及謂詞時(shí)態(tài)識別算法研究[D].北京理工大學(xué)碩士學(xué)位論文,2010.
[11] 羅森林,劉盈盈,馮揚(yáng)等.BFS-CTC漢語句義結(jié)構(gòu)標(biāo)注語料庫[J].北京理工大學(xué)學(xué)報(bào),2012(3):311-315.
[12] Quinlan J R.Induction of Decision Trees[J].Machine Learning,1986,1(1):81-106.
[13] Xue N,Palmer M.Annotating the Propositions in the Penn Chinese Treebank[C]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing.Sapporo,Japan,2003:47-54.
[14] 俞士汶,段慧明,朱學(xué)鋒,等.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學(xué)報(bào),2002,16(5):49-64.
[15] 俞士汶,段慧明,朱學(xué)鋒,等.北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范(續(xù))[J].中文信息學(xué)報(bào),2002,16(6):58-64.
[16] 周強(qiáng).漢語語料庫的短語自動(dòng)劃分和標(biāo)注研究[D].北京大學(xué)博士學(xué)位論文,2002.