李艷翠,谷晶晶,周國(guó)棟
(1. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;3. 蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)
標(biāo)點(diǎn)符號(hào)是書(shū)面語(yǔ)言的重要組成部分,同一種標(biāo)點(diǎn)往往有不同的句法或篇章功能,例如,逗號(hào)有分隔小句、主謂關(guān)系和短語(yǔ)并列等不同的語(yǔ)言功能[1]。有效識(shí)別標(biāo)點(diǎn)的功能,有助于句法分析、篇章分析、機(jī)器翻譯等自然語(yǔ)言處理技術(shù)效果的提高。
在句法分析方面,李辛等[2]引入標(biāo)點(diǎn)處理進(jìn)行漢語(yǔ)長(zhǎng)句句法分析,利用部分標(biāo)點(diǎn)符號(hào)的特殊功能將復(fù)雜長(zhǎng)句分割成子句序列,把整句的句法分析分成兩級(jí)來(lái)進(jìn)行,從而提高了復(fù)雜長(zhǎng)句分析的正確率和召回率。Jin等[3]提出利用逗號(hào)對(duì)漢語(yǔ)長(zhǎng)句進(jìn)行劃分,通過(guò)漢語(yǔ)句子的上下文識(shí)別逗號(hào)左右兩邊的子句是并列關(guān)系還是從屬關(guān)系,并利用這兩種關(guān)系對(duì)逗號(hào)進(jìn)行分類,進(jìn)而提高句法分析的性能。在篇章分析方面,Xue等[4]進(jìn)行表示句子邊界的逗號(hào)識(shí)別研究,提出逗號(hào)可等同于句子邊界時(shí)要滿足兩點(diǎn)要求: 一是逗號(hào)前后子句有完整的句法結(jié)構(gòu)(即具有一個(gè)完整的IP結(jié)構(gòu),存在主謂賓);二是具有獨(dú)立的句義且逗號(hào)前后子句間沒(méi)有緊密的句法關(guān)系。Yang等[5]對(duì)逗號(hào)的使用方法進(jìn)行了更詳細(xì)的分類,共分為七類: SB、IP_COORD、VP_COORD、ADJ、COMP、SBJ和Other。Yang等采用了兩種基于句法信息的方法實(shí)現(xiàn)逗號(hào)的自動(dòng)分類。谷晶晶等[6]提出一種基于漢語(yǔ)句子的分詞與詞性標(biāo)注信息做逗號(hào)自動(dòng)分類的方法,結(jié)果表明利用詞與詞性進(jìn)行逗號(hào)分類的方法是可行的。在機(jī)器翻譯方面,黃河燕等[7]利用標(biāo)點(diǎn)符號(hào)和關(guān)聯(lián)詞等把復(fù)雜長(zhǎng)句進(jìn)行切分,簡(jiǎn)化為多個(gè)獨(dú)立的簡(jiǎn)單句,再進(jìn)行翻譯處理,以此提高機(jī)器翻譯的性能。
從以上的研究可以發(fā)現(xiàn),逗號(hào)功能識(shí)別是標(biāo)點(diǎn)研究中的重點(diǎn)和難點(diǎn),本文主要研究漢語(yǔ)逗號(hào)的功能分類。文獻(xiàn)[8]統(tǒng)計(jì)顯示漢語(yǔ)賓州樹(shù)庫(kù)(CTB6.0)中句號(hào)、問(wèn)號(hào)、嘆號(hào)、分號(hào)、逗號(hào)和冒號(hào)等標(biāo)點(diǎn)的使用頻率,其中句號(hào)、問(wèn)號(hào)、嘆號(hào)共占29.55%,逗號(hào)高達(dá)67.17%,其次是冒號(hào)(1.69%)和分號(hào)(1.85%)。由于逗號(hào)所占比例較大并且具有較多不同的功能,因此非常有必要進(jìn)行逗號(hào)的功能分類研究。漢語(yǔ)句子中使用頻率最高的除了逗號(hào),還有冒號(hào)和分號(hào),本文分別將CTB6.0語(yǔ)料中含有冒號(hào)和分號(hào)的句子抽取出來(lái),進(jìn)行逗號(hào)的自動(dòng)分類識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)(見(jiàn)表1),含冒號(hào)句子的語(yǔ)料和分號(hào)句子的語(yǔ)料中,逗號(hào)自動(dòng)分類的總體正確率都嚴(yán)重低于全體語(yǔ)料的總體正確率,尤其是句子邊界(SB)分類逗號(hào)的F值嚴(yán)重下降。說(shuō)明含有冒號(hào)或分號(hào)的句子中逗號(hào)多元分類的自動(dòng)識(shí)別效果不好,文獻(xiàn)[6]中的錯(cuò)誤分析也指出了IP_COORD類與SB分類容易混淆。
表1 全體語(yǔ)料與局部語(yǔ)料總體正確率對(duì)比
說(shuō)明: 實(shí)驗(yàn)采用文獻(xiàn)[6]的特征和最大熵分類器。含冒號(hào)語(yǔ)料是指從全體語(yǔ)料中抽取出來(lái)每個(gè)句子中至少包含一個(gè)冒號(hào)的語(yǔ)料;含分號(hào)語(yǔ)料是指從全體語(yǔ)料中抽取出來(lái)的每個(gè)句子中至少包含一個(gè)分號(hào)的語(yǔ)料。
逗號(hào)、冒號(hào)和分號(hào)在使用上存在一定的層次關(guān)系。通常情況下,分號(hào)的層次比逗號(hào)更接近根節(jié)點(diǎn)。在冒號(hào)作用域內(nèi),分號(hào)層次低于冒號(hào),高于逗號(hào)。這些標(biāo)點(diǎn)符號(hào)豐富的使用方法導(dǎo)致了漢語(yǔ)句子長(zhǎng)度較長(zhǎng)且語(yǔ)義復(fù)雜。逗號(hào)分類是標(biāo)點(diǎn)分析的一個(gè)重要工作,由表1可知,含有冒號(hào)和分號(hào)的語(yǔ)料中逗號(hào)的分類效果較差,所以有必要專門進(jìn)行處理,看能否增加逗號(hào)分類的正確率。
本文主要研究添加冒號(hào)和分號(hào)分類標(biāo)簽為特征后的逗號(hào)自動(dòng)分類。主要從以下3方面進(jìn)行展開(kāi): 首先給出標(biāo)點(diǎn)分類方法;然后介紹基于此分類方法的標(biāo)點(diǎn)分類語(yǔ)料庫(kù);最后給出冒號(hào)和分號(hào)對(duì)逗號(hào)分類影響的實(shí)驗(yàn)結(jié)果與分析。
本文借鑒Yang等[5]提出的逗號(hào)分類標(biāo)準(zhǔn),將逗號(hào)使用方法劃分為7類。首先把逗號(hào)的使用方法在總體上分為兩種,即所連接的兩子句之間存在關(guān)系和不存在關(guān)系。兩子句之間存在的關(guān)系又分為并列關(guān)系和從屬關(guān)系。并列關(guān)系有3種類型(SB、IP_COORD與VP_COORD),從屬關(guān)系也有3種類型(ADJ、COMP與SBJ)。每種類別的具體說(shuō)明見(jiàn)文獻(xiàn)[6],圖1展示了逗號(hào)分類類別。下面對(duì)每種類別進(jìn)行簡(jiǎn)單說(shuō)明,實(shí)例中屬于此類的逗號(hào)用c1...cn標(biāo)識(shí),如例1中的c1和c2屬于類別SB,例2中的c3屬于IP_COORD類。
圖1 逗號(hào)分類類別
SB(SentenceBoundary): 分割句子邊界的逗號(hào)。該類逗號(hào)是指在某些語(yǔ)境下,起句子邊界的作用。該類逗號(hào)要求逗號(hào)左右的子句都是IP結(jié)構(gòu),父節(jié)點(diǎn)為根節(jié)點(diǎn)。如例1中的c1和c2。
例1陜西省目前批準(zhǔn)的外資項(xiàng)目已達(dá)兩千四百多個(gè),c1協(xié)議利用外資額四十多億美元,c2實(shí)際引進(jìn)外資超出十六億美元。
IP_COORD(IPCoordination): 分割父節(jié)點(diǎn)為非根節(jié)點(diǎn)的并列IP結(jié)構(gòu)的逗號(hào)。如c3和c4。
例2他指出,中國(guó)共產(chǎn)黨在農(nóng)村改革中形成了一整套基本政策,c3實(shí)踐證明是正確的,c4必須保持穩(wěn)定性和連續(xù)性。
VP_COORD(VPCoordination): 分割并列動(dòng)賓短語(yǔ)的逗號(hào)。這一類的逗號(hào)與IP_COORD類逗號(hào)相似,都是分割嵌套結(jié)構(gòu)中的并列結(jié)構(gòu)。
例3中國(guó)銀行是四大國(guó)有商業(yè)銀行之一,c5也是中國(guó)主要的外匯銀行。
ADJ(Adjunction): 分割附屬?gòu)木渑c主句的逗號(hào)。附屬?gòu)木涫侵冈诰渥又袚?dān)當(dāng)某種句子成分的主屬結(jié)構(gòu)。雖然從句部分的句子結(jié)構(gòu)是完整的,但它并不能脫離主句部分獨(dú)立完整地表達(dá)意思。
例4為了在運(yùn)行機(jī)制上與保護(hù)區(qū)相配套,c6寧波保護(hù)區(qū)率先在中國(guó)實(shí)施了企業(yè)依法注冊(cè)直接登記制的試行一站式管理。
COMP(Complementation): 分割句子謂語(yǔ)與賓語(yǔ)的逗號(hào)。通常出現(xiàn)在“表示”、“指出”、“認(rèn)為”、“介紹”等提示性動(dòng)詞之后。
例5業(yè)內(nèi)人士認(rèn)為: c7它將為中韓兩國(guó)經(jīng)貿(mào)界提供一次擴(kuò)大交流與合作的良機(jī)。
SBJ(SententialSubject): 分割句子主語(yǔ)和謂語(yǔ)的逗號(hào)。SBJ類逗號(hào)表示的是逗號(hào)分割開(kāi)了句子的主語(yǔ)與動(dòng)賓結(jié)構(gòu)。
例6出口快速增長(zhǎng),c8成為推動(dòng)經(jīng)濟(jì)增長(zhǎng)的重要力量。
Other: 其他類型。本文將不屬于上述6種類型的逗號(hào)都劃分為Other類型。
[1],本文將冒號(hào)的使用方法歸納為7類(如圖2): 引用、動(dòng)賓、邊界、總分、解說(shuō)、提示、Other。其中引用、動(dòng)賓和邊界又歸為話語(yǔ)引用類,而總分、長(zhǎng)解說(shuō)和短解說(shuō)又歸為解釋說(shuō)明類。Other分類是對(duì)冒號(hào)的一些不經(jīng)常使用的用法歸類。下面對(duì)每種類別的冒號(hào)進(jìn)行舉例說(shuō)明。
圖2 冒號(hào)分類標(biāo)準(zhǔn)
例7秦牧: c9要學(xué)好語(yǔ)文,必須注意多讀、多寫(xiě)、多思索。
動(dòng)賓(VP): 該類冒號(hào)分割開(kāi)了謂語(yǔ)動(dòng)詞與賓語(yǔ)。常用的謂語(yǔ)動(dòng)詞有: 問(wèn)、答、說(shuō)、曰、云、想、是、證明、宣布、例如、如下等。
例8克萊因說(shuō): c10“普遍的觀點(diǎn)是人以群分,人們總喜歡和自己相似的人,所以有理論提出多樣化不利于團(tuán)結(jié)?!?/p>
邊界(SB): 該類冒號(hào)被定義為句子邊界,冒號(hào)前后的句子都是一個(gè)完整的IP結(jié)構(gòu),可獨(dú)立存在。冒號(hào)后的句子一般是對(duì)冒號(hào)前句中主語(yǔ)的話語(yǔ)引用,由左右雙引號(hào)界定。
例9鳳姐連忙告訴小丫頭傳飯: c11“我和太太都跟著老太太吃?!?/p>
總分(ZF): 冒號(hào)前的句子是總說(shuō),冒號(hào)后面的句子是對(duì)前面句子的分說(shuō)。
例10本文將冒號(hào)的使用方法歸納為七類: c12引用、動(dòng)賓、邊界、總分、短解說(shuō)、提示、Other。
解說(shuō)(LJ): 后面的句子是對(duì)冒號(hào)前面的詞語(yǔ)的解釋說(shuō)明。
例11有人曾做過(guò)對(duì)比實(shí)驗(yàn): c13兩個(gè)病情相近,年齡和體重相差無(wú)幾的手術(shù)患者,每天食用一只海參的患者,會(huì)比另一個(gè)患者提前20天左右全面康復(fù)。
提示(SJ): 該類是生活中常用的、位于提示短語(yǔ)后的冒號(hào)。該類冒號(hào)是從解說(shuō)類中分離出來(lái)的一類,冒號(hào)后的內(nèi)容也是對(duì)冒號(hào)前詞或短語(yǔ)的解說(shuō),該類冒號(hào)前通常只有一個(gè)詞或短語(yǔ)。
例12電話: c14 8888888
Other: 本文設(shè)置一個(gè)Other類,是因?yàn)榇嬖谝恍┦褂梅椒ǔ霈F(xiàn)頻率較低的冒號(hào),有分總類冒號(hào)、呼語(yǔ)類冒號(hào)以及作者與作品之間的冒號(hào),例如,“朱自清: 《背影》”。這些使用方法的冒號(hào)都可單獨(dú)作為一類,但由于實(shí)際語(yǔ)料中出現(xiàn)的頻率較低,故將這些使用方法統(tǒng)歸為Other類。
參考文獻(xiàn)[1],本文對(duì)分號(hào)設(shè)置3類標(biāo)注標(biāo)簽,分別是: 并列關(guān)系(BL)、非并列關(guān)系(FB)和條款類(TK)。其中,并列關(guān)系是指分號(hào)兩邊的多個(gè)子句是并列的關(guān)系,而非并列關(guān)系是指兩邊的多個(gè)子句間存在轉(zhuǎn)折、因果等非并列關(guān)系。條款類是指分條或分行列舉的分句之間使用的分號(hào),這類分號(hào)通常用在冒號(hào)的作用域內(nèi)。標(biāo)注方法與標(biāo)注冒號(hào)的分類標(biāo)簽方法相同。
例13語(yǔ)言,人們用來(lái)抒情達(dá)意;c15文字,人們用來(lái)記言記事。
例14我國(guó)年滿十八周歲的公民,不分民族、種族、性別、職業(yè)、家庭出身、宗教信仰、教育程度、財(cái)產(chǎn)狀況、居住年限,都有選舉權(quán)和被選舉權(quán);c16但是依照法律被剝奪政治權(quán)力的人除外。
例15中華人民共和國(guó)行政區(qū)域劃分如下: c17(一)全國(guó)分為省、自治區(qū)、直轄市;c18(二)省、自治區(qū)分自治州、縣、自治縣、市;c19(三)縣、自治縣分鄉(xiāng)、民族鄉(xiāng)、鎮(zhèn)。
例13中的分號(hào)為并列關(guān)系類,例14中的分號(hào)屬于非并列關(guān)系類,例15中的分號(hào)屬于條款類。對(duì)于條款類的分號(hào),有時(shí)一個(gè)分句為一行,如例15中的(一)(二)(三)可以分別作為一個(gè)段落,這時(shí)的分號(hào)相當(dāng)于段落間的分割符號(hào)。識(shí)別該類分號(hào)對(duì)于基于段落的篇章分析有一定的幫助。
據(jù)統(tǒng)計(jì),CTB 6.0語(yǔ)料中共有51 886個(gè)逗號(hào),各分類所占的逗號(hào)數(shù)量比例如表2所示。采用與文獻(xiàn)[6]中相同的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料劃分方式,訓(xùn)練語(yǔ)料包含了42 497個(gè)逗號(hào),測(cè)試語(yǔ)料包含了5 436個(gè)逗號(hào)。
表2 CTB 6.0語(yǔ)料中各類逗號(hào)分布
本文的冒號(hào)語(yǔ)料實(shí)驗(yàn)數(shù)據(jù)是從逗號(hào)自動(dòng)分類與識(shí)別語(yǔ)料(CTB6.0)中抽取出來(lái)的。抽取出的冒號(hào)語(yǔ)料大小為原始全體語(yǔ)料的9%,具體標(biāo)注的冒號(hào)數(shù)量和冒號(hào)語(yǔ)料中逗號(hào)的數(shù)量如表3所示。由表3可以看出,語(yǔ)料中含有的冒號(hào)的個(gè)數(shù)只是逗號(hào)個(gè)數(shù)的50%左右,但是位于冒號(hào)后的逗號(hào)占逗號(hào)總數(shù)的78%。由此也可以預(yù)見(jiàn),添加冒號(hào)分類標(biāo)簽特征后,將對(duì)逗號(hào)的自動(dòng)分類與識(shí)別產(chǎn)生影響。在逗號(hào)分類的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料中分別抽出所有包含冒號(hào)的句子,構(gòu)成新的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。對(duì)抽取出來(lái)的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,首先分別進(jìn)行預(yù)處理,再分別進(jìn)行人工標(biāo)注漢語(yǔ)冒號(hào)分類標(biāo)簽。所標(biāo)注的冒號(hào)分類標(biāo)簽參考2.2中的冒號(hào)分類,主要標(biāo)注7類標(biāo)簽,分別是引用(Nm)、動(dòng)賓(VP)、邊界(SB)、總分(ZF)、解說(shuō)(LJ)、提示(SJ)和Other。
表3 冒號(hào)語(yǔ)料中各標(biāo)點(diǎn)個(gè)數(shù)
冒號(hào)語(yǔ)料中存在與例16類似的句子,即句子中只含有冒號(hào)而沒(méi)有逗號(hào),且冒號(hào)位于句末,這種情況的句子不在本文實(shí)驗(yàn)的考察范圍之內(nèi)。類似例16中的冒號(hào)一般是位于一個(gè)段落的結(jié)尾處,下面緊跟著的一個(gè)段落或者是多個(gè)段落都在該冒號(hào)作用域內(nèi),但這些段落中的逗號(hào)分類與識(shí)別已經(jīng)不受該冒號(hào)的影響,故該類冒號(hào)不在本文的考察范圍之內(nèi)。
例16港臺(tái)會(huì)師看新局:
分號(hào)語(yǔ)料同樣是從逗號(hào)自動(dòng)分類與識(shí)別語(yǔ)料中抽取出來(lái)的。采取和冒號(hào)語(yǔ)料同樣的處理方法,經(jīng)過(guò)預(yù)處理后再進(jìn)行人工標(biāo)注。
分號(hào)語(yǔ)料中含有的分號(hào)和逗號(hào)個(gè)數(shù)統(tǒng)計(jì)結(jié)果如表4所示。據(jù)統(tǒng)計(jì),抽取出的分號(hào)語(yǔ)料大小為原始全體語(yǔ)料的5.5%。相比于冒號(hào),分號(hào)數(shù)量更少。
表4 分號(hào)語(yǔ)料中各標(biāo)點(diǎn)個(gè)數(shù)
本節(jié)分別進(jìn)行了添加冒號(hào)分類標(biāo)簽特征、添加分號(hào)分類標(biāo)簽特征和同時(shí)添加這兩種標(biāo)點(diǎn)分類標(biāo)簽特征的實(shí)驗(yàn)。這3個(gè)實(shí)驗(yàn)采用了基本相同的方法,流程如圖3所示。根據(jù)Yang等人[5]一文中介紹的逗號(hào)各分類對(duì)應(yīng)的句法模型,預(yù)處理系統(tǒng)每次讀入一個(gè)帶句法信息的句子,對(duì)句中逗號(hào),分別提取逗號(hào)分類的三元組文件,即[句子標(biāo)號(hào),逗號(hào)序號(hào),逗號(hào)分類標(biāo)簽]。通過(guò)對(duì)CTB 6.0句法樹(shù)庫(kù)的自動(dòng)提取(即預(yù)處理系統(tǒng)),可以得到該實(shí)驗(yàn)訓(xùn)練模型時(shí)所需要的逗號(hào)訓(xùn)練樣例(即三元組文件)和測(cè)試樣例。
圖3 添加冒號(hào)(分號(hào))分類標(biāo)簽特征的逗號(hào)分類流程圖
本文基本特征選取和文獻(xiàn)[6]相同: 1) 子句主干特征,從分詞與詞性標(biāo)注的序列中,選取3個(gè)能表示子句主干的詞;2) 當(dāng)前逗號(hào)序號(hào)及序號(hào)前的逗號(hào)分類類別,通過(guò)提取這些特征可以間接反映句子的層次結(jié)構(gòu);3) 詞匯特征,提取詞匯特征是為了得到體現(xiàn)逗號(hào)左右子句特點(diǎn)的詞,比如存在介詞、連詞、副詞等。另外,分別添加冒號(hào)或分號(hào)的分類標(biāo)簽為一組新特征。
4.1.1 冒號(hào)語(yǔ)料的實(shí)驗(yàn)結(jié)果
按照文獻(xiàn)[6]的最大熵模型實(shí)驗(yàn)提取上下文特征的方法,在提取原特征的基礎(chǔ)上,將當(dāng)前逗號(hào)前的冒號(hào)分類標(biāo)簽作為一個(gè)新的特征加入到特征集合中。實(shí)驗(yàn)的結(jié)果如表5所示。
表5 冒號(hào)語(yǔ)料中逗號(hào)自動(dòng)識(shí)別結(jié)果
從表5可以看出,逗號(hào)分類的自動(dòng)識(shí)別整體正確率提高了9.9%,說(shuō)明通過(guò)添加冒號(hào)分類標(biāo)簽特征來(lái)提高逗號(hào)自動(dòng)識(shí)別正確率的方法是可行的,而這兩類標(biāo)點(diǎn)符號(hào)之間是存在影響的。表5中,各分類逗號(hào)的F值都有不同程度的提高,尤其是SB分類和IP_COORD分類,分別提高了32.3%和23.0%。說(shuō)明添加的冒號(hào)分類標(biāo)簽,對(duì)這兩類逗號(hào)識(shí)別正確率影響最大,一些被錯(cuò)分為SB分類的逗號(hào),在本實(shí)驗(yàn)中被正確識(shí)別為IP_COORD分類。至于SBJ分類的自動(dòng)識(shí)別F值為零,是由于屬于該分類的逗號(hào)在訓(xùn)練樣例中只出現(xiàn)了3次,在測(cè)試樣例中只有1個(gè)。
4.1.2 全體語(yǔ)料的實(shí)驗(yàn)結(jié)果
在冒號(hào)語(yǔ)料的實(shí)驗(yàn)取得成功后,本實(shí)驗(yàn)將標(biāo)注了冒號(hào)分類標(biāo)簽的語(yǔ)料帶入到全體語(yǔ)料中,替換沒(méi)有被標(biāo)注的冒號(hào)句子。在標(biāo)注了冒號(hào)分類標(biāo)簽的全體語(yǔ)料上,再次進(jìn)行實(shí)驗(yàn),新實(shí)驗(yàn)同樣是在添加冒號(hào)分類標(biāo)簽特征后進(jìn)行多元逗號(hào)分類。實(shí)驗(yàn)結(jié)果如表6所示。
表6列出了添加冒號(hào)分類標(biāo)簽前后,分別采用最大熵模型和CRF模型的實(shí)驗(yàn)結(jié)果?;谧畲箪啬P偷娜w語(yǔ)料整體正確率提高了0.7%,基于CRF模型的全體正確率提高了0.8%,由此也再次說(shuō)明基于CRF模型的自動(dòng)分類識(shí)別正確率要高于基于最大熵模型的自動(dòng)識(shí)別正確率。由表3統(tǒng)計(jì)的數(shù)據(jù)可知,冒號(hào)語(yǔ)料中的逗號(hào)個(gè)數(shù)占全體語(yǔ)料中逗號(hào)個(gè)數(shù)的6.9%,而由表5添加冒號(hào)分類標(biāo)簽特征的冒號(hào)語(yǔ)料逗號(hào)分類總體正確率提高9.9%,表6全體語(yǔ)料總體正確率提高0.8%,實(shí)驗(yàn)說(shuō)明冒號(hào)語(yǔ)料和全體語(yǔ)料在添加冒號(hào)分類標(biāo)簽特征后,提高的總體正確率是成比例的。
同時(shí),SB分類和IP_COORD分類的逗號(hào)在全體語(yǔ)料的實(shí)驗(yàn)中,結(jié)果都有一定的提高。在全體語(yǔ)料上,SB分類并沒(méi)有IP_COORD分類F值提高的多,因?yàn)樵谌w語(yǔ)料中,SB分類共有1311個(gè),而IP_COORD分類只有506個(gè)。
4.1.3 邊界識(shí)別
引言中提到冒號(hào)對(duì)IP_COORD分類和SB分類的逗號(hào)存在明顯影響,由于SB分類屬于逗號(hào)標(biāo)示句子邊界的情況,所以本文將同樣考察冒號(hào)對(duì)識(shí)別逗號(hào)作為句子邊界情況存在的影響。識(shí)別SB分類,即為識(shí)別句子邊界(EOS,End Of a Sentence)。結(jié)合本文的實(shí)驗(yàn),只需將SB分類歸為EOS,余下的6類歸為非句子邊界(Non-EOS,Not the End Of a Sentence)。表7列出了基于最大熵模型的全體語(yǔ)料在添加冒號(hào)標(biāo)簽特征前后,識(shí)別逗號(hào)標(biāo)示句子邊界的實(shí)驗(yàn)結(jié)果。
由表7可以看出,在添加冒號(hào)標(biāo)簽特征后,逗號(hào)標(biāo)示句子邊界的實(shí)驗(yàn)結(jié)果在總體正確率上提高1.2%,EOS和NEOS分類的F值也分別有所提高。再次說(shuō)明,冒號(hào)分類標(biāo)簽對(duì)逗號(hào)的分類自動(dòng)識(shí)別存在影響。
表7 逗號(hào)標(biāo)示句子邊界的識(shí)別結(jié)果
4.2.1 分號(hào)語(yǔ)料的實(shí)驗(yàn)結(jié)果
添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)與添加冒號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)類似。在提取原有特征的基礎(chǔ)上,將當(dāng)前逗號(hào)前的分號(hào)分類標(biāo)簽作為一組新的特征添加到特征集合中。實(shí)驗(yàn)結(jié)果如表8所示。
表8 分號(hào)語(yǔ)料中逗號(hào)分類自動(dòng)識(shí)別結(jié)果及對(duì)比
表8中分號(hào)語(yǔ)料基準(zhǔn)系統(tǒng)的實(shí)驗(yàn)是基于最大熵模型的,添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)分別采用了最大熵和CRF兩種模型。CRF模型的自動(dòng)識(shí)別正確率比最大熵模型的更高,但這里主要對(duì)比添加分號(hào)分類標(biāo)簽特征前后的最大熵模型的實(shí)驗(yàn)結(jié)果。由表8可知,基于最大熵模型的實(shí)驗(yàn)結(jié)果中,逗號(hào)分類的自動(dòng)識(shí)別整體正確率提高了4.6%。
表8中,各分類逗號(hào)的F值都有不同程度的提高,但并不像添加冒號(hào)分類標(biāo)簽的實(shí)驗(yàn)結(jié)果中SB分類和IP_COORD分類正確率提高的幅度那樣大。正確率提高相對(duì)較高的是ADJ類逗號(hào)和VP_COORD類逗號(hào)。實(shí)驗(yàn)表明添加分號(hào)分類標(biāo)簽特征提高逗號(hào)自動(dòng)識(shí)別正確率的方法是可行的。
4.2.2 全體語(yǔ)料的實(shí)驗(yàn)結(jié)果
在分號(hào)語(yǔ)料的實(shí)驗(yàn)取得成功后,本文同樣將已標(biāo)注的分號(hào)語(yǔ)料反饋到原語(yǔ)料中。同樣的方法,實(shí)驗(yàn)結(jié)果如表9所示。
表9 添加分號(hào)標(biāo)簽后的全體語(yǔ)料實(shí)驗(yàn)結(jié)果及對(duì)比
由表9可知,添加新特征后最大熵模型的總體正確率提高了0.2%,而CRF模型的總體正確率提高了0.5%。在添加冒號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)結(jié)果(表6)中,CRF模型和最大熵模型分別提高了0.7%和0.8%。添加分號(hào)分類標(biāo)簽特征效果沒(méi)有添加冒號(hào)分類標(biāo)簽特征明顯與它們?cè)谡Z(yǔ)料中所占的比例有關(guān),由3.2和3.3節(jié)可知,冒號(hào)語(yǔ)料占全體語(yǔ)料的9%,而分號(hào)語(yǔ)料明顯較小,占全體語(yǔ)料的5.5%。
比較表6和表9可知,CRF模型比最大熵模型效果要好。因?yàn)镃RF模型計(jì)算了全局最優(yōu)的輸出節(jié)點(diǎn)的條件概率,而不是只通過(guò)當(dāng)前的狀態(tài)來(lái)定義下一個(gè)節(jié)點(diǎn)的狀態(tài)。通過(guò)分析冒號(hào)和分號(hào)的作用域可以發(fā)現(xiàn),冒號(hào)的作用域是從冒號(hào)后的第一個(gè)字符開(kāi)始到句末標(biāo)點(diǎn)結(jié)束;而分號(hào)的作用域不止包含在分號(hào)后面的句子部分,它的作用域?yàn)楫?dāng)前分號(hào)前后相鄰的兩個(gè)分號(hào)(相鄰不是分號(hào)時(shí),為句子開(kāi)始字符和句子結(jié)束字符)之間。故在添加分號(hào)分類標(biāo)簽特征的實(shí)驗(yàn)中,更能體現(xiàn)CRF模型的優(yōu)越性。
同時(shí)添加冒號(hào)和分號(hào)分類標(biāo)簽為特征的實(shí)驗(yàn),是指同時(shí)添加當(dāng)前逗號(hào)前的冒號(hào)的分類標(biāo)簽和分號(hào)的分類標(biāo)簽作為一組新的特征進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表10所示。
通過(guò)對(duì)全體語(yǔ)料的基準(zhǔn)系統(tǒng)和分別添加其中某一個(gè)標(biāo)點(diǎn)的分類結(jié)果對(duì)比,該綜合實(shí)驗(yàn)的總體正確率及各項(xiàng)的分類的F值都有所提高,說(shuō)明本文提出的添加其他標(biāo)點(diǎn)符號(hào)的分類標(biāo)簽特征輔助逗號(hào)多元分類的自動(dòng)識(shí)別方法是可行的,且取得了相對(duì)較好的成績(jī)。CRF模型的總體正確率達(dá)到69.2%,已經(jīng)非常接近Yang等基于句法信息的71.5%的總體正確率。
本文主要研究了分別添加冒號(hào)和分號(hào)分類標(biāo)簽,以及同時(shí)添加兩類標(biāo)點(diǎn)的分類標(biāo)簽特征后,對(duì)逗號(hào)自動(dòng)分類結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明,在分別添加冒號(hào)或分號(hào)分類標(biāo)簽特征后,逗號(hào)多元分類的自動(dòng)識(shí)別正確率都有所提高。在同時(shí)添加這兩類標(biāo)點(diǎn)分類標(biāo)簽特征時(shí),逗號(hào)識(shí)別的正確率達(dá)到69.2%。本文實(shí)驗(yàn)說(shuō)明分號(hào)和冒號(hào)分類對(duì)逗號(hào)分類是存在影響的,合理地利用冒號(hào)或分號(hào)分類標(biāo)簽可以提高逗號(hào)分類的正確率。
參考文獻(xiàn)
[1] 中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局、中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì). GB/T15834-2011標(biāo)點(diǎn)符號(hào)用法[M].北京:中國(guó)標(biāo)準(zhǔn)出版社, 2011.
[2] 李幸, 宗成慶. 引入標(biāo)點(diǎn)處理的層次化漢語(yǔ)長(zhǎng)句句法分析方法[J]. 中文信息學(xué)報(bào), 2006, 20(4): 8-15.
[3] Mei xunjin,Mi-Yong kim,Dongi kim, et al. Segmentation of Chinese long sentences using commas[C]// Proceedings of 3rd ACL SIGHAN Workshop. Barcelona,2004: 1-8.
[4] Nianwen Xue, Yaqin Yang. Chinese sentence segmentation as comma classification. [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 631-635.
[5] Yaqin Yang, Nianwen Xue. Chinese Comma Disambiguation for Discourse Analysis. [C]//Proceedings of Annual Meeting on Association for Computational Linguistics (ACL), 2012: 786-794
[6] 谷晶晶, 周國(guó)棟. 基于分詞與詞性標(biāo)注的漢語(yǔ)逗號(hào)自動(dòng)分類[J]. 計(jì)算機(jī)工程與應(yīng)用,http://www.cnki.net/kcms/doi/10.3778/j.ssn.1002-8331,2014: 1310-0034.
[7] 黃河燕, 陳肇雄. 基于多策略分析的復(fù)雜長(zhǎng)句翻譯處理算法[J]. 中文信息學(xué)報(bào), 2002, 16(3): 1-7.
[8] 李艷翠, 馮文賀, 周國(guó)棟. 基于逗號(hào)的漢語(yǔ)子句識(shí)別研究[J].北京大學(xué)學(xué)報(bào),2013,49(1): 7-14.