李 源 刁勝權(quán) 汪春紅 鄭 印 劉鳳嬌
(華中師范大學(xué)計(jì)算機(jī)學(xué)院 武漢 430079)
?
基于搭配關(guān)系的有標(biāo)復(fù)句層次關(guān)系分析*
李源刁勝權(quán)汪春紅鄭印劉鳳嬌
(華中師范大學(xué)計(jì)算機(jī)學(xué)院武漢430079)
摘要為解決由于長復(fù)句以及搭配關(guān)系所導(dǎo)致的復(fù)句層次自動識別準(zhǔn)確率下降問題,論文分析了復(fù)句中的標(biāo)點(diǎn)使用規(guī)律,提出了基于SVM的分句界定方法;并基于復(fù)句關(guān)系詞搭配規(guī)則,建立了復(fù)句的上下文無關(guān)文法形式化模型;依據(jù)該模型,提出一種改進(jìn)的移進(jìn)-歸約算法;以期提高復(fù)句層次關(guān)系識別的準(zhǔn)確率。
關(guān)鍵詞復(fù)句; 層次關(guān)系; 自動識別; 分句劃分; 移進(jìn)規(guī)約
Class NumberTP391
復(fù)句作為一種漢語語法的重要實(shí)體單位,其所表達(dá)的語義信息豐富而復(fù)雜。復(fù)句的層次分析,是自然語言處理領(lǐng)域很有意義且極具挑戰(zhàn)性的課題之一。對復(fù)句進(jìn)行層次關(guān)系的研究,不僅會加深對復(fù)句內(nèi)部聯(lián)結(jié)規(guī)律的認(rèn)識,準(zhǔn)確理解復(fù)句語義,也將會對復(fù)句信息工程的縱深化發(fā)展起到很大的促進(jìn)作用[1]。
關(guān)于復(fù)句層次關(guān)系,前人已有很多研究,語言本體和應(yīng)用層面如汪國勝、劉秀明、胡金柱,沈威,吳鋒文,羅進(jìn)軍,魯松、白碩等分別對復(fù)句關(guān)系層次[2~4]、結(jié)構(gòu)分析、關(guān)系詞標(biāo)注及自動識別的研究與探討,為我們進(jìn)一步分析復(fù)句層次關(guān)系作出了可貴探索。理論與基礎(chǔ)性工程方面如漢語復(fù)句關(guān)系詞庫的建設(shè)及其利用[5],漢語復(fù)句語料庫,現(xiàn)代漢語介詞知識庫,清華大學(xué)的SDN和TCT973樹庫等成果,為我們提供了資源支撐。同時杜超華、胡金柱等、胡金柱、沈威等對復(fù)句關(guān)系詞的識別研究[6],為我們分析復(fù)句層次關(guān)系做了相應(yīng)的前期準(zhǔn)備工作。
復(fù)句層次關(guān)系的分析需要以分句的準(zhǔn)確界定為前提[8],然后利用關(guān)系詞這一復(fù)句邏輯語義標(biāo)志分析各分句間的依屬關(guān)系,而分句的界定又需要充分把握標(biāo)點(diǎn)符號這一語法成分。分句間以逗號、分號間隔,通常情況下,逗號、分號可以作為分句界定的標(biāo)志,但排除下述情況:逗號也用于主語與謂語之間的停頓、謂語與狀語之間的停頓等。漢語復(fù)句不僅標(biāo)點(diǎn)豐富而復(fù)雜,而且復(fù)句關(guān)系詞使用起來靈活多變,又包含多種隱現(xiàn)形式;復(fù)句關(guān)系詞語是“復(fù)句中用來聯(lián)結(jié)分句標(biāo)明關(guān)系的詞語”[9]。它是分句間邏輯關(guān)聯(lián)和語義關(guān)系的形式標(biāo)志,所以復(fù)句層次關(guān)系分析必須著重依靠關(guān)系詞這一標(biāo)志。
因此本文在研究漢語標(biāo)點(diǎn)使用規(guī)律的基礎(chǔ)上,首先針對分句界定問題提出了基于SVM的分句界定方法。最后,對復(fù)句的上下文無關(guān)文法形式化模型與基于搭配關(guān)系的移進(jìn)-歸約算法進(jìn)行了分析和改進(jìn),提出一種基于搭配關(guān)系的有標(biāo)復(fù)句層次分析方法。
復(fù)句是包含兩個或兩個以上分句的句子[9]。復(fù)句中各分句間語義上互相依存,結(jié)構(gòu)上相互獨(dú)立。分句間以逗號、分號間隔。根據(jù)《中華人民共和國國家標(biāo)點(diǎn)符號用法》,分號僅用作復(fù)句中各分句間的分隔符號。因此界定分句只需分析逗號的抽象特征。
2.1逗號的形式化定義
復(fù)句由逗號分割出各個語言塊,判斷一個逗號是否可以界定分句必須依靠與其相鄰的兩個語言塊。根據(jù)逗號兩側(cè)語言塊的抽象特征,對逗號作如下定義。
定義
復(fù)句中逗號左右兩側(cè)的語塊各有兩種可能:分句或短語,在這里把逗號定義為其左右語塊的有序?qū)?〈L,R〉。L和R的取值各有兩種:短語P(Phrase)或者分句C(Clause),因此,逗號的值空間為:〈P,P〉,〈P,C〉,〈C,P〉,〈C,C〉。
如例1,逗號兩側(cè)的語言塊皆為分句,逗號值為〈C,C〉。例2中逗號表示主語和謂語之間的停頓,逗號值為〈P,P〉。
1) 政府的預(yù)算方案可能難以在貨幣議會獲得通過【,/w】但政府仍決定要求議會于正月5日就貨幣該方案進(jìn)行表決。/w
2) 完成祖國統(tǒng)一【,/w】是/v大勢所趨。/w
對于〈P,C〉與〈C,P〉逗號兩側(cè)語言塊不同質(zhì)的兩種情況。在觀察實(shí)際語料的基礎(chǔ)上進(jìn)行分析和總結(jié),對它們進(jìn)一步細(xì)分:〈P,C〉與〈C,P〉分別細(xì)分為〈P,C〉-Ⅰ、〈P,C〉-Ⅱ與〈C,P〉-Ⅰ、〈C,P〉-Ⅱ。分別示例如下:
〈P,C〉-Ⅰ:
3) 我喜歡在春天去觀賞桃花,/w在夏天去欣賞荷花,在秋天去觀賞紅葉【,/w】但更喜歡在冬天去欣賞雪景。/w
〈P,C〉-Ⅱ:
4) 自1997年4月以來【,/w】長沙市紡織系統(tǒng)共有1.1萬名位下崗職工被重新安排就業(yè)。/w
〈C,P〉-Ⅰ:
5) 在家里,/w他是乖孩子【,/w】在學(xué)校,/w他是好學(xué)生。/w
〈C,P〉-Ⅱ:
6) 學(xué)生們來到了操場【,/w】高高興興地。/w
〈P,C〉-Ⅰ如例3,逗號左側(cè)為狀語塊,右側(cè)為分句。例4中逗號在狀語和其修飾的句子之間,我們把這類句子歸為〈P,C〉-Ⅱ。例5為〈C,P〉-Ⅰ,句子中逗號左側(cè)是分句,右側(cè)是一個狀語塊?!碈,P〉-Ⅱ如例6所示,逗號左側(cè)是一個分句,右側(cè)為一個狀語。
總結(jié)上述規(guī)律:當(dāng)逗號是用來連接并列的兩個短語或者作為同一個分句中兩個成分的分隔符時,逗號值為〈P,P〉,〈P,C〉-Ⅱ,〈C,P〉-Ⅱ,為分句內(nèi)分隔符。當(dāng)逗號值為〈C,C〉,〈P,C〉-Ⅰ和〈C,P〉-Ⅰ時,逗號作為分句之間的停頓。
2.2SVM分類器的構(gòu)建及訓(xùn)練測試
依據(jù)上述規(guī)律,選用SVM算法對句子中的每個逗號進(jìn)行分類,進(jìn)而可以確定出其復(fù)句中各分句間的切分點(diǎn),為后續(xù)復(fù)句關(guān)系的自動判定做好準(zhǔn)備。至于判定逗號屬性的SVM分類器[10],下面僅以線性可分的情況進(jìn)行構(gòu)建:
定義分類函數(shù)為:f(x)=wTx+b。f(x)=0則x為超平面上的點(diǎn);f(x)≥0時對應(yīng)分類值為1;f(x)<0時對應(yīng)分類值為-1。
尋求分類函數(shù)f(x)=wTx+b的問題轉(zhuǎn)化為對w,b的最優(yōu)化問題,訓(xùn)練集中一個點(diǎn)距離超平面的遠(yuǎn)近可以表示為分類預(yù)測的確信程度;對于給定的訓(xùn)練集T和超平面(w,b),超平面關(guān)于樣本點(diǎn)(x,y)的幾何間隔為
r=(wTx+b)/‖w‖=f(x)/‖w‖
(1)
定義超平面(w,b)關(guān)于訓(xùn)練集T的幾何間隔為超平面(w,b)關(guān)于T中所有樣本點(diǎn)(xi,yi)的幾何間隔最小值:
r=minri,i=1,2,…,n
(2)
尋求唯一的幾何間隔最大分離超平面問題可以表示為下面的約束最優(yōu)化問題:
maxr,w,br1/‖w‖
s.t.yi(wTxi+b)≥r1,i=1,2,…,m
(3)
式(3)中r1為函數(shù)間隔。
函數(shù)間隔的取值不影響最優(yōu)化問題的解,取r1=1代入前面的最優(yōu)化問題,即將離超平面最近的點(diǎn)的距離定義為1/‖w‖,最大化1/‖w‖和最小化1/2·‖w‖2等價,于是得出下面線性可分支持向量機(jī)學(xué)習(xí)的最優(yōu)化模型:
maxr,w,b1/2·‖w‖2
s.t.yi(wTxi+b)≥r1,i=1,2,…,m
(4)
式(4)中凸二次規(guī)劃問題求解w*與b*,涉及到條件極值、拉格朗日乘法等,由于篇幅問題不再列出。最終分類函數(shù)為
(5)
式(5)中αi為Lagrange乘子。
根據(jù)f(x)的符號來確定x(即根據(jù)逗號兩邊的語言片段而提取的特征向量)的歸屬。
所有的SVM訓(xùn)練和測試過程基本一致,都是根據(jù)訓(xùn)練集進(jìn)行訓(xùn)練,產(chǎn)生最優(yōu)模型并將模型信息儲存在“model”文檔中,然后依據(jù)該模型預(yù)測測試文本中的數(shù)據(jù)。SVM進(jìn)行訓(xùn)練之前,必須從現(xiàn)有語料中提取有利于分類的特征并將其轉(zhuǎn)換成SVM所需要的格式。SVM對逗號的分類僅作為對復(fù)句邏輯語義關(guān)系分析所用語料的預(yù)處理,由于時間問題,對逗號屬性特征向量的抽象提取這部分僅參照前人已有的技術(shù)。
本文從CCCS語料庫中抽取了復(fù)句1221條,依次使用SVM進(jìn)行了分句界定,并人工校驗(yàn);準(zhǔn)確率達(dá)94.04%以上,已達(dá)到下一步分析復(fù)句層次關(guān)系的要求。
本文對有標(biāo)復(fù)句層次關(guān)系的分析是基于復(fù)句的上下文無關(guān)文法模型之上。上下文無關(guān)文法是用一組規(guī)則進(jìn)行運(yùn)算的語言生成器,它是由一個四元組(V,Σ,R,S)構(gòu)成,其中V是一個字母表,Σ是終結(jié)符(V的子集),R是規(guī)則的集合(為(V-Σ)×的有窮子集),S∈(V-Σ)是起始符,V-Σ表示非終結(jié)符集合。由上下文無關(guān)文法G生成的語言L(G),稱做上下文無關(guān)語言。
3.1改進(jìn)的復(fù)句上下文無關(guān)文法描述
復(fù)句關(guān)系詞是復(fù)句邏輯語義關(guān)系的重要形式標(biāo)記[8],對有標(biāo)復(fù)句進(jìn)行層次關(guān)系的自動判定,必須依靠關(guān)系詞這一資源。因此下文基于關(guān)系詞采用上下文無關(guān)文法對復(fù)句進(jìn)行形式化描述:
G=(V,R,P,S),其中V={S,R,Cf,Cb},
R={因果,轉(zhuǎn)折,并列等},
S={S1,S2,S3…},
P={S→R,R→Cf+Cb,
R=Cf+φ,R=Cf+R,
R=φ+Cb,R=R+Cb,
R=φ+φ,Cf=因?yàn)閨只要|只有|……
Cb=所以|就|才|……
}
對上面復(fù)句的文法G的解釋如下:
V表示所有元素的集合,包括關(guān)系類型集合(因果、并列等)和分句集合(S1,S2等)。R為關(guān)系類型的集合。S代表復(fù)句,是起始符。P為規(guī)則的集合:復(fù)句由關(guān)系構(gòu)成,關(guān)系由因果、并列轉(zhuǎn)折等構(gòu)成,因果關(guān)系由因果類前呼標(biāo)和因果類后應(yīng)標(biāo)構(gòu)成,因果類前呼標(biāo)包括“因?yàn)椤?、“因”?因果類后應(yīng)標(biāo)包括“所以”、“因此”等……。
說明:由于當(dāng)在語義環(huán)境信息已足夠時,復(fù)句經(jīng)常出現(xiàn)關(guān)系詞隱現(xiàn)的情況。針對此問題該文法對原有復(fù)句上下文無關(guān)文法進(jìn)行了改進(jìn)[7],將零關(guān)系詞〈1〉作為一個實(shí)體,與其他關(guān)聯(lián)詞同等對待;規(guī)則中引入了關(guān)系詞的前呼標(biāo)Cf和后應(yīng)標(biāo)Cb。
3.2基于搭配關(guān)系的移動歸約算法分析
有標(biāo)復(fù)句層次分析是基于文法L(G)構(gòu)造的。基本數(shù)據(jù)結(jié)構(gòu)包括棧和隊(duì)列,隊(duì)列主要存放待處理數(shù)據(jù)(關(guān)系詞五元組對象〈2〉),棧記錄已移進(jìn)的數(shù)據(jù),操作包括移進(jìn)、歸約、拒絕和接受四種。針對關(guān)系詞搭配規(guī)則的移進(jìn)-歸約過程,依據(jù)歸約條件和歸約方式,把歸約分為關(guān)系歸約和句法歸約兩大類。
1) 關(guān)系歸約即關(guān)系搭配表中的兩個關(guān)系詞歸約為相應(yīng)的邏輯關(guān)系,假設(shè)P1為前呼標(biāo)對象,P2為后應(yīng)標(biāo)對象,則P1,P2歸約為R(P1,P2)=相應(yīng)邏輯關(guān)系LR(因果、并列、轉(zhuǎn)折等)。
句法歸約是對同一分句的關(guān)系詞對象進(jìn)行歸約,同一分句關(guān)系詞對象沒有邏輯關(guān)系即R(P1,P2)沒返回值。
下面根據(jù)關(guān)系搭配規(guī)則,因程序編碼的需要,將歸約情形歸納如下(設(shè)S1為棧頂元素,S2為棧頂?shù)诙€元素,q1為待入棧的元素,S為歸約后產(chǎn)生的的五元組對象):
1〉條件:連續(xù)三分句,S2前呼標(biāo),S1零關(guān)系詞,q1前呼標(biāo)。歸約為:R(S1,S2)=“并列關(guān)系”;S入棧;重新申請q1入棧。
21〉條件:連續(xù)三分句,S2前呼標(biāo),S1零關(guān)系詞,q1后應(yīng)標(biāo);且S2與q1有匹配的邏輯關(guān)系。歸約為:R(S1,S2)=“并列關(guān)系”;S入棧;重新申請q1入棧。
22〉條件:連續(xù)三分句,S2前呼標(biāo),S1零關(guān)系詞,q1后應(yīng)標(biāo);且S2與q1不匹配。歸約為:R(S1,S2)=相應(yīng)邏輯關(guān)系;申請S入棧;重新申請q1入棧。
3〉條件:連續(xù)三分句,S2后應(yīng)標(biāo),S1零關(guān)系詞,q1后應(yīng)標(biāo)。歸約為:R(S1,S2)=“并列關(guān)系”;S申請入棧;重新申請q1入棧。
4〉條件:連續(xù)三分句,S1是零關(guān)系詞,q1零關(guān)系詞。歸約為:R(S1,q1)=“并列關(guān)系”;S入棧。
5〉條件:連續(xù)三分句,S2關(guān)系詞,S1后應(yīng)標(biāo),q1前呼標(biāo)。歸約為:R(S1,S2)=相應(yīng)邏輯關(guān)系;申請S入棧;重新申請q1入棧。
6〉條件:連續(xù)三分句,S2關(guān)系詞,S1后應(yīng)標(biāo),q1后應(yīng)標(biāo)。歸約為:R(S1,S2)=相應(yīng)邏輯關(guān)系;申請S入棧;重新申請q1。
7〉條件:連續(xù)兩分句,S1前呼標(biāo),q1后應(yīng)標(biāo)。歸約為:R(S1,q1)=相應(yīng)邏輯關(guān)系;申請S入棧。
8〉條件:連續(xù)三分句,S2關(guān)系詞,S1是前呼標(biāo),q1后應(yīng)標(biāo);且S2和S1名稱相同。歸約為:R(S1,S2)=“并列關(guān)系”;S入棧;重新申請q1入棧。
9〉條件:連續(xù)兩分句,S1前呼標(biāo),q1為前呼標(biāo);S1和q1的名稱相同。歸約為:R(S1,q1)=“并列關(guān)系”;S入棧。
10〉條件:同一分句,S1為前呼標(biāo),q1為待入棧關(guān)系詞。歸約為:R(S1,q1)句法歸約;S入棧。
11〉條件:同一分句,S1后應(yīng)標(biāo),q1為待入棧關(guān)系詞。歸約為:R(S1,q1)句法歸約;S入棧。
12〉條件:連續(xù)兩分句,進(jìn)行關(guān)系歸約,S1關(guān)系詞,q1后應(yīng)標(biāo)。歸約為:R(S1,q1)=相應(yīng)邏輯關(guān)系;申請S入棧。
13〉條件:隊(duì)列為空,S2和S1為連續(xù)兩分句,S2關(guān)系詞,S1后應(yīng)標(biāo)。歸約為:R(S2,S1)=相應(yīng)邏輯關(guān)系;S入棧。
14〉條件:隊(duì)列為空,S2和S1為連續(xù)兩分句,S2為零關(guān)系詞,S1為后應(yīng)標(biāo)。歸約為:R(S2,S1)=相應(yīng)邏輯關(guān)系;S入棧。
15〉條件:隊(duì)列為空,S2和S1為連續(xù)兩分句,S2前呼標(biāo),S1零關(guān)系詞。歸約為:R(S2,S1)=相應(yīng)邏輯關(guān)系;S入棧。
3.3有標(biāo)復(fù)句移進(jìn)-歸約實(shí)例分析
例7我們寧可少打點(diǎn)糧食,多吃點(diǎn)虧,也不能把黨的性質(zhì)改了!
該復(fù)句經(jīng)預(yù)處理過程中的分句界定,關(guān)系詞提取并調(diào)用詞庫中配位字段后得到三個關(guān)系詞元素〈3〉:[寧可1-f],[φ2],[也3-b]。依據(jù)上文中16種歸約情形進(jìn)行決策判斷。詳細(xì)的移進(jìn)歸約步驟如圖1所示。
圖1 有標(biāo)復(fù)句移進(jìn)歸約實(shí)例分析
上文移進(jìn)-歸約方法實(shí)現(xiàn)了復(fù)句層次關(guān)系的判定;現(xiàn)從語料庫中選擇多種類型的復(fù)句,首先進(jìn)行分句界定、關(guān)系詞提取等預(yù)處理,最后進(jìn)行層次關(guān)系的實(shí)驗(yàn)測試與結(jié)果分析。
語料庫選用CSSS〈4〉,庫中有65萬多條復(fù)句,很難對所有的復(fù)句進(jìn)行處理;因此,按照復(fù)句的復(fù)雜程度,從單重到多重抽取部分復(fù)句作為語料,進(jìn)行實(shí)驗(yàn)。本文選取語料庫中1000條復(fù)句作為層次分析的測試用例,進(jìn)行開放性測試,實(shí)驗(yàn)結(jié)果如表1所示。
表1 實(shí)驗(yàn)結(jié)果表
魯松等在文獻(xiàn)中選擇了因果、讓步、目的等十種關(guān)系的328條復(fù)句進(jìn)行開放性測試,正確率達(dá)到了93.8%;本文選擇語料庫中復(fù)句,從單重到多重分類進(jìn)行實(shí)驗(yàn)和統(tǒng)計(jì)分析,單重復(fù)句的正確率最高達(dá)到98.8%;其次是出現(xiàn)頻率較高的二重復(fù)句,準(zhǔn)確率達(dá)到97.2%;四重及以上復(fù)句,正確率88.4%;整體準(zhǔn)確率達(dá)到了94.7%。錯誤原因包括分句界定、關(guān)系
詞標(biāo)注出錯,還有相關(guān)的語義語境等方面。
本文在中文分詞與詞性標(biāo)注的基礎(chǔ)上,對有標(biāo)復(fù)句進(jìn)行層次關(guān)系分析,提出了一種基于關(guān)系詞搭配的移進(jìn)-歸約算法。在分句界定問題上使用基于SVM的分句劃分方法,達(dá)到了較高的準(zhǔn)確率;并構(gòu)建了復(fù)句的上下文無關(guān)文法形式化模型,改進(jìn)了移進(jìn)-歸約算法,推導(dǎo)出復(fù)句的層次關(guān)系樹。層次識別整體準(zhǔn)確率達(dá)到94.7%。
本文對有標(biāo)復(fù)句層次關(guān)系的分析是基于邏輯關(guān)系的二義性與關(guān)系詞的就近匹配原則;但有些關(guān)系詞比如“……一邊……一邊……一邊……”等情況,構(gòu)建相應(yīng)的規(guī)則表必須要借助于語義分析。下一步工作將針對此問題進(jìn)行語義關(guān)系方面的研究。
參 考 文 獻(xiàn)
[1] 姚雙云.小句中樞理論的應(yīng)用與復(fù)句信息工程[J].漢語學(xué)報,2005(4):73-81.
YAO Shuangyun. Application of the Theory of Clausal Pivot and Complex Information Engineering[J]. Chinese Linguistics,2005(4):73-81.
[2] 魯松,白碩,李素建,等.漢語多重關(guān)系復(fù)句的關(guān)系層次分析[J].軟件學(xué)報,2001,12(7):39-47.
LU Song, BAI Shuo, LI Sujian, et al. Parsing the Logical Embedded Complex Sentences in Chinese[J]. Journal of Software,2001,12(7):39-47.
[3] 吳鋒文.面向信息處理的“一標(biāo)三句式”復(fù)句層次關(guān)系判定[J].北方論叢,2012(1):69-73.
WU Fengwen. Recognition of hierarchy and semantic relatirelations of compound sentence made up of one mark and three clauses faced to Chinese information processing[J].The Northern Forum,2012(1):69-73.
[4] 胡金柱,陳江曼,楊進(jìn)才,等.基于規(guī)則的連用關(guān)系標(biāo)記的自動標(biāo)識研究[J].計(jì)算機(jī)科學(xué),2012,39(7):196-200.
HU Jinzhu, CHEN Jiangman, YANG Jincai, et al. Research on Auto-identifying of Adjoining Relation Markers Based on Rule[J]. Computer Science,2012,39(7):196-200.
[5] 胡金柱,吳鋒文,李瓊,等.漢語復(fù)句關(guān)系詞庫的建設(shè)及其利用[J].語言科學(xué),2010,9(2):25-34.
HU Jinzhu, WU Fengwen, LI Qiong, et al. Establishment and Exploitation of Relationship Marked for Chinese Complex Sentences[J]. Linguistic Sciences,2010,9(2):25-34.
[6] 杜超華,胡金柱,沈威,等.基于復(fù)句語料庫分詞系統(tǒng)研究[J].計(jì)算機(jī)數(shù)字與工程,2007,35(5):7,56-57,94.
DU Chaohua, HU Jinzhu, SHEN Wei, et al. Research on the segmentation system based on the Corpus of Chinese Compound[J]. Computer & Digital Engineering,2007,35(5):7,56-57,94.
[7] 邢福義.漢語語法學(xué)[M].長春:東北師范大學(xué)出版社,1996.
XING Fuyi. Chinese grammar[M]. Changchun: Northeast Normal University Press,1996.
[8] 吳鋒文,胡金柱,肖明,等.基于規(guī)則的漢語復(fù)句層次關(guān)系自動識別研究[J].華文教學(xué)與研究,2010(1):89-96.
WU Fengwen, HU Jinzhu, XIAO Ming, et al. Research on auto-matic recognition of Chinese compound sentences based on Rules[J]. TCSOL Studies,2010(1):89-96.
[9] 邢福義.漢語復(fù)句研究[M].北京:商務(wù)印書館,2001.
XING Fuyi. Research on Chinese sentence[M]. Beijing: The Commercial Press,2010.
[10] 羅強(qiáng),奚建清.一種結(jié)合SVM學(xué)習(xí)的產(chǎn)生式依存分析方法[J].中文信息學(xué)報,2007,21(4):23-28,43.
LUO Qiang, XI Jianqing. An SVM-Based Generative Statistical Algorithm for Chinese Dependency Analysis[J]. Journal of Chinese Information Processing,2007,21(4):23-28,43.
收稿日期:2015年10月7日,修回日期:2015年11月27日
基金項(xiàng)目:教育部人文社會科學(xué)研究規(guī)劃基金項(xiàng)目:現(xiàn)代漢語復(fù)句依存句法自動分析方法研究(編號:14YJA740020)資助。
作者簡介:李源,男,博士,副教授,碩士生導(dǎo)師,研究方向:中文信息處理,軟件工程等。刁勝權(quán),男,碩士研究生,研究方向:中文信息處理。汪春紅,女,碩士研究生,研究方向:中文信息處理。鄭印,男,碩士研究生,研究方向:中文信息處理。劉鳳嬌,女,碩士研究生,研究方向:中文信息處理。
中圖分類號TP391
DOI:10.3969/j.issn.1672-9722.2016.04.027
Analysis of Marked Complex Sentence Hierarchy Based on Collocation Relationship
LI YuanDIAO ShengquanWANG ChunhongZHENG YinLIU Fengjiao
(School of Computer, Huazhong Normal University, Wuhan430079)
AbstractIn order to solve the accuracy decline of automatic recognition caused by long sentence and collocation relation, punctuation rules are analyzed, on this basis, a kind of clause-partitioning method is proposed based on SVM classification, and a formal model of sentence context free grammar is established based on collocation relationship. According to the model, an improved shift-reduce algorithm is proposed to increase the accuracy of automatic identification.
Key Wordssentence, hierarchy, automatic recognition, classification clause, shift and reduce