石 民,李 斌,陳小荷
(南京師范大學(xué)文學(xué)院,江蘇南京,210097)
中文信息處理研究在現(xiàn)代漢語(yǔ)領(lǐng)域已經(jīng)取得了比較豐碩的成果,但古代漢語(yǔ)信息處理還有待探索。目前,先秦文獻(xiàn)的信息處理大體還處于字處理階段,以解決古文字的輸入輸出、文獻(xiàn)逐字索引等問(wèn)題為主要內(nèi)容,實(shí)用成果僅限于古籍文獻(xiàn)的專(zhuān)題索引和查詢(xún)。
我們正在實(shí)施的項(xiàng)目是“先秦漢語(yǔ)詞匯統(tǒng)計(jì)與知識(shí)檢索系統(tǒng)”,準(zhǔn)備對(duì)25種最重要的先秦傳世文獻(xiàn)進(jìn)行詞語(yǔ)切分、詞性標(biāo)注、個(gè)別常用詞(包括古今字和通假字)的詞義標(biāo)注,建立先秦文獻(xiàn)的詞匯知識(shí)庫(kù)以及歷史知識(shí)庫(kù),并研制相應(yīng)的檢索系統(tǒng)。要實(shí)現(xiàn)這一目標(biāo),古文獻(xiàn)的切分標(biāo)注是古漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的一項(xiàng)基礎(chǔ)性工作。先秦漢語(yǔ)以單字詞為主,也存在著一定量的多字詞,在缺少分詞詞典和訓(xùn)練語(yǔ)料的條件下,分詞標(biāo)注仍有難度。正如古漢語(yǔ)計(jì)算語(yǔ)言學(xué)家尉遲治平的呼吁:“我們期望能有可以用于漢語(yǔ)史電子文獻(xiàn)自動(dòng)分詞、自動(dòng)斷句、自動(dòng)標(biāo)注的軟件早日問(wèn)世,專(zhuān)家只需對(duì)結(jié)果刊謬補(bǔ)缺,這將大大減輕屬性式標(biāo)注的勞動(dòng)強(qiáng)度,加快工作進(jìn)度[1]。”
針對(duì)古漢語(yǔ)的自動(dòng)分詞,已經(jīng)有了一些研究成果。臺(tái)北中研院的“漢籍電子文獻(xiàn)”對(duì)以《十三經(jīng)》為主的先秦文獻(xiàn)進(jìn)行了分詞和詞性標(biāo)注,可以通過(guò)“瀚典全文檢索系統(tǒng)”對(duì)文獻(xiàn)進(jìn)行檢索、統(tǒng)計(jì)、搭配[2]。但文獻(xiàn)數(shù)量還較少,分詞標(biāo)注方法也以較為傳統(tǒng)的最大概率和隱馬爾科夫模型為主。邱冰則提出一種啟發(fā)式的混合分詞方法,以反向最大匹配分詞為主,同時(shí)統(tǒng)計(jì)已出現(xiàn)詞語(yǔ)的頻率和漢字間的互信息,一方面對(duì)高頻詞進(jìn)行直接的提取,另一方面調(diào)整詞表增加新的詞語(yǔ)[3]。由于采用《漢語(yǔ)大詞典》作為通用分詞詞典,存在一定的局限性。
漢語(yǔ)的分詞和詞性標(biāo)注工作,通常是在自動(dòng)分詞的基礎(chǔ)上,再進(jìn)行詞性標(biāo)注。這種“兩步走”的方法,存在錯(cuò)誤擴(kuò)散問(wèn)題,會(huì)影響到最后的標(biāo)注精度。白栓虎給出了漢語(yǔ)詞切分和詞性標(biāo)注一體化的隱馬爾科夫模型,并進(jìn)行了小規(guī)模試驗(yàn)[4]。Hwee Tou Ng和Jin Kiat Low則深入比較了兩步走和一體化的優(yōu)劣,提出基于字標(biāo)注的一體化方法是最佳的方案,其分詞系統(tǒng)獲得Sighan2003四個(gè)測(cè)試語(yǔ)料中的三項(xiàng)封閉測(cè)試第一,同時(shí)又肯定了兩步方案在訓(xùn)練和測(cè)試時(shí)間上的優(yōu)勢(shì)[5]。Yue Zhang和 Stephen Clark提出使用單一感知器模型的分詞和標(biāo)注一體化方法,由于充分利用了詞性信息,分詞準(zhǔn)確率和召回率均有大幅提高[6]。這些研究表明,在現(xiàn)代漢語(yǔ)語(yǔ)料上,分詞標(biāo)注一體化方法效果較好,只是訓(xùn)練時(shí)間開(kāi)銷(xiāo)較大。
本文著力研究面向先秦文本的分詞和詞性標(biāo)注,以人工標(biāo)校的《左傳》作為實(shí)驗(yàn)對(duì)象。首先進(jìn)行了語(yǔ)料分析,然后分別設(shè)計(jì)了基于條件隨機(jī)場(chǎng)模型(CRF)的自動(dòng)分詞、詞性標(biāo)注、分詞標(biāo)注一體化實(shí)驗(yàn),以尋找適合古漢語(yǔ)分詞標(biāo)注的最佳方案。研究成果可以服務(wù)于古籍文獻(xiàn)的語(yǔ)料庫(kù)建設(shè),將研究人員從繁重的語(yǔ)料標(biāo)注工作中解脫出來(lái),僅需校對(duì)機(jī)器自動(dòng)處理的結(jié)果,也可以有效緩解人工標(biāo)注一致性較差的問(wèn)題。
《左傳》是先秦文獻(xiàn)的經(jīng)典之作,內(nèi)容是傳《春秋》的,即春秋時(shí)期各國(guó)的歷史。篇幅約23萬(wàn)字,是先秦傳世文獻(xiàn)中單本字?jǐn)?shù)最多的文獻(xiàn),非常適合用來(lái)作為機(jī)器學(xué)習(xí)的對(duì)象,服務(wù)于先秦其他文獻(xiàn)的自動(dòng)標(biāo)注。
本文使用的語(yǔ)料底本,是由香港中文大學(xué)中國(guó)古籍研究中心建設(shè)的漢達(dá)文庫(kù)的《左傳》的“傳”文。該文庫(kù)收錄的文獻(xiàn)版本,均為舊刻善本,后由研究人員重新標(biāo)點(diǎn)、??薄榱吮WC語(yǔ)料質(zhì)量,我們參照了古文獻(xiàn)界較為公認(rèn)的楊伯峻的《春秋左傳注》[7],以解決異文(添字、缺字、異體字等)問(wèn)題,不一致處按中華書(shū)局版校正。語(yǔ)料采用Unicode編碼存儲(chǔ)。
確定古漢語(yǔ)的分詞標(biāo)準(zhǔn)及詞類(lèi)體系,是分詞標(biāo)注的基本前提。我們參照了臺(tái)北中研院的《資訊處理用分詞規(guī)范》,采用詞匯意義和語(yǔ)法功能兼顧的標(biāo)準(zhǔn),確定出適合古漢語(yǔ)的分詞單位及詞類(lèi)體系①可以查閱南京師范大學(xué)CIPP中文信息處理平臺(tái)網(wǎng)站《先秦漢語(yǔ)分詞標(biāo)注規(guī)范》,http://www.cipp.cn/new s_view.asp?id=76。。和中研院的主要差別是,將數(shù)詞進(jìn)行了捆綁處理,區(qū)分了三種常見(jiàn)的詞類(lèi)活用方式,共設(shè)立了21個(gè)詞類(lèi)標(biāo)記(見(jiàn)表1)。
表1 先秦漢語(yǔ)詞類(lèi)標(biāo)注基本集及詞類(lèi)統(tǒng)計(jì)信息
續(xù)表
四位語(yǔ)言學(xué)專(zhuān)業(yè)的研究生,參照楊伯峻的注釋和《春秋左傳詳解詞典》[8],對(duì)語(yǔ)料進(jìn)行了人工切分標(biāo)注和校對(duì)。本文所用語(yǔ)料版本為V 2.0①CNCCL2009會(huì)議論文所用語(yǔ)料為V 1.0,詳見(jiàn)《中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展》,P46-P51,清華大學(xué)出版社,2009年7月出版。會(huì)后對(duì)語(yǔ)料進(jìn)行了一次校對(duì)工作,形成現(xiàn)在的版本V 2.0。。《左傳》的傳文部分,共179 792個(gè)漢字,除去標(biāo)點(diǎn),共3 308個(gè)字型、14 600個(gè)詞型(區(qū)分詞性)。其中,多字詞有9 973個(gè)詞型,占全部詞型的68.31%,但只占詞例數(shù)的21.02%(見(jiàn)表2),平均詞長(zhǎng)為1.81字。由此可見(jiàn),先秦漢語(yǔ)的基本特點(diǎn)是以單字詞為主的,同時(shí),多字詞也是不可忽視的。如果整個(gè)語(yǔ)料按照單字來(lái)切分,正確率大約只有79%。因此,如何處理多字詞應(yīng)成為分詞的重點(diǎn)研究對(duì)象。
表2 左傳詞型、詞例統(tǒng)計(jì)(除去標(biāo)點(diǎn),區(qū)分詞性)
《左傳》按照魯國(guó)12個(gè)國(guó)君的謚號(hào),共分12卷。在實(shí)驗(yàn)中,本文將前十卷作為訓(xùn)練語(yǔ)料,后兩卷作為測(cè)試語(yǔ)料,訓(xùn)練測(cè)試比約為6∶1(見(jiàn)表3)。
表3 訓(xùn)練測(cè)試語(yǔ)料情況
本文采用由字構(gòu)詞原理進(jìn)行漢語(yǔ)自動(dòng)分詞,將分詞問(wèn)題轉(zhuǎn)化為詞位信息的序列標(biāo)注問(wèn)題。CRF是一個(gè)應(yīng)用廣泛的序列標(biāo)注模型,該模型允許增加復(fù)雜特征,可以有效地處理標(biāo)記偏置問(wèn)題。實(shí)驗(yàn)采用Taku Kudo開(kāi)發(fā)的“CRF++0.53”工具包進(jìn)行訓(xùn)練和測(cè)試。②下載地址為:h ttp://crfpp.sou rceforge.net/ 。由于《左傳》的平均詞長(zhǎng)為1.81字,且存在三字以上的詞,因此使用四詞位標(biāo)注集,即T={B,M,E,S},其中B代表詞首第一個(gè)字,E代表詞尾最末字,M代表一個(gè)詞中間的任意字,S代表單字詞和標(biāo)點(diǎn)。語(yǔ)料樣例見(jiàn)表5的“字符”列和“分詞格式”列。
仿照SIGHAN競(jìng)賽,我們給分詞精度設(shè)定了Baseline和Topline。分別為采用訓(xùn)練和測(cè)試語(yǔ)料的詞表,對(duì)測(cè)試語(yǔ)料進(jìn)行正向最大匹配法分詞,F值分別為83.39%和96.46%。
實(shí)驗(yàn)一 采用字面信息作為特征,比較了上下文窗口為左右1~3個(gè)字,以及二字、三字同現(xiàn)情況下的分詞結(jié)果。
從表4可以看出,任何一個(gè)分詞結(jié)果都超過(guò)了Baseline。增加二元、三元同現(xiàn)特征,比單字上下文特征效果要好。在窗口為±1個(gè)字、二元字同現(xiàn)(1W+2)的情況下,精度最高,達(dá)到了93.75%。
表4 基于字面特征的分詞評(píng)測(cè)結(jié)果
實(shí)驗(yàn)二 為了獲得更佳的分詞效果,以分詞效果較好的“1W+2”、“2W+2” 、“3W+2”3 個(gè)模板為基礎(chǔ),增加了一些語(yǔ)言學(xué)特征進(jìn)行實(shí)驗(yàn)。這些特征包括字符分類(lèi)、聲、韻、調(diào)、部首。我們將字符分為“漢字(HZ)、普通標(biāo)點(diǎn)(Punc)、句末標(biāo)點(diǎn)(Sen-Punc)、西文數(shù)字(Num)、漢字?jǐn)?shù)字(CNum)、干支(CCNum)”等類(lèi)別。由于先秦漢語(yǔ)的聲、韻、調(diào)皆為擬音推測(cè),也沒(méi)有比較公認(rèn)的數(shù)據(jù)庫(kù),因此選取了描寫(xiě)中古漢語(yǔ)的《廣韻》作為基本數(shù)據(jù)庫(kù)來(lái)近似,為了保證字符的覆蓋率,部首信息取自《康熙字典》。語(yǔ)料樣例見(jiàn)表5(“分詞標(biāo)注一體化格式”列除外)。
表5 增加語(yǔ)言學(xué)特征的分詞/一體化訓(xùn)練和測(cè)試語(yǔ)料樣例
根據(jù)是否采用字符分類(lèi)特征以及不同的特征組合、上下文窗口,分別進(jìn)行了四組實(shí)驗(yàn)(見(jiàn)表6)。第一組與第二、三組的區(qū)別為是否增加字符分類(lèi),二至四組主要是上下文窗口長(zhǎng)度不同。
從實(shí)驗(yàn)結(jié)果來(lái)看:
(1)增加字符分類(lèi)特征有助于提高分詞精度。使用字符分類(lèi)特征的結(jié)果普遍好于不使用的結(jié)果。在“2W+2+C1”和“2W+2+C123”下,精度最高,F值達(dá)到了93.79%,且以“2W+2+C1”為基礎(chǔ)的模板性能最為穩(wěn)定,實(shí)驗(yàn)效果普遍較好。因此,我們進(jìn)一步增加了字符分類(lèi)的二元同現(xiàn)特征,F值提高到93.92%(見(jiàn)表7前三列)。
(2)“2W+2+C1”效果好也說(shuō)明,字符二元同現(xiàn)是有效的特征。而宋彥在現(xiàn)代漢語(yǔ)分詞實(shí)驗(yàn)中,六詞位標(biāo)記集在字符三元同現(xiàn)條件下效果最好[9]。這可能正是先秦漢語(yǔ)的特點(diǎn)造成的?,F(xiàn)代漢語(yǔ)以多字詞為主,三元同現(xiàn)可以提供充足的構(gòu)詞信息,而在古漢語(yǔ)中單字詞居多,三元同現(xiàn)可能是冗余信息。
(3)在字符分類(lèi)基礎(chǔ)上再增加聲韻、聲韻調(diào)、聲韻調(diào)及部首,實(shí)驗(yàn)效果差別不大,特別是增加部首后,甚至出現(xiàn)了下降。究其原因,聲韻調(diào)這三個(gè)特征本身也需要消除歧義。每個(gè)字的聲韻調(diào),在不同的詞性或義項(xiàng)下往往是不同的,還需要仔細(xì)分析。而漢字的部首是不需要消歧的,分詞精度的下降,說(shuō)明部首特征對(duì)于分類(lèi)并無(wú)貢獻(xiàn)。
表6 增加語(yǔ)言學(xué)特征模板的分詞評(píng)測(cè)結(jié)果1
實(shí)驗(yàn)三 先秦漢語(yǔ)的聲韻系統(tǒng)本身就比較復(fù)雜,我們使用的《廣韻》是中古音系,有206韻,對(duì)于先秦漢語(yǔ)的聲韻來(lái)說(shuō)可能不太準(zhǔn)確,但調(diào)類(lèi)只有“平、上、去、入”四類(lèi),消歧也許相對(duì)容易,為此本文在聲韻調(diào)內(nèi)部又做了對(duì)比實(shí)驗(yàn)。在模板選擇上,以“2W+2+C1′”為基礎(chǔ)模板,然后分別增加聲、韻、調(diào)特征(見(jiàn)表7)。
表7 增加語(yǔ)言學(xué)特征模板的分詞評(píng)測(cè)結(jié)果2
通過(guò)表7與表6的對(duì)比,我們發(fā)現(xiàn)字符分類(lèi)二元同現(xiàn)特征能夠提高分詞精度,F值最多提高了0.15個(gè)百分點(diǎn)。增加聲、調(diào)特征后也有不同程度提高 ,而加韻后明顯降低,“2W+2+C1′24”模板實(shí)驗(yàn)效果最佳,F值達(dá)到了93.94%??梢?jiàn)聲、調(diào)對(duì)于漢字也是有效的特征,但作用并不顯著,還需要進(jìn)一步探討??梢缘贸龅某醪浇Y(jié)論是:基于上下文兩個(gè)漢字、二字同現(xiàn)、字符分類(lèi)二元同現(xiàn)的模板“2W+2+C1′”,最適合《左傳》的自動(dòng)分詞。
詞性標(biāo)注是CRF模型的典型應(yīng)用,可以將詞性標(biāo)注問(wèn)題視為詞語(yǔ)的詞類(lèi)屬性的序列化標(biāo)注問(wèn)題,這里不再詳述。特征選擇上,僅使用詞形信息,分別在上下文詞語(yǔ)觀(guān)察窗口為[-1,1]、[-2,2]、[-3,3]的基礎(chǔ)上增加詞語(yǔ)二元同現(xiàn)。為了驗(yàn)證“兩步走”方案在先秦語(yǔ)料上是否存在弊端,在詞性標(biāo)注時(shí),分別對(duì)標(biāo)準(zhǔn)分詞文本(Right,即人工校對(duì)過(guò)的標(biāo)準(zhǔn)答案)和實(shí)驗(yàn)得到的最佳分詞文本(BestSeg,由3.2節(jié)復(fù)雜特征模板“2W+2+C1′24”得到)進(jìn)行了評(píng)測(cè)。
表8 CRF詞性標(biāo)注評(píng)測(cè)結(jié)果
與單純使用字面信息的分詞實(shí)驗(yàn)一樣,表8中“1W+2”特征模板下的詞性標(biāo)注效果最好。在BestSeg和Right分詞文本基礎(chǔ)上,F值分別達(dá)到了86.82%和91.95%。如果把BestSeg文本的分詞精度93.94%和Right文本的詞性標(biāo)注精度91.95%相乘,則可得到BestSeg文本詞性標(biāo)注的預(yù)測(cè)值86.38%,和實(shí)際測(cè)得的86.82%是相近的。實(shí)際測(cè)得的精度略高,是由于標(biāo)點(diǎn)部分的詞性標(biāo)注都是正確的,不會(huì)受到分詞錯(cuò)誤的影響。
我們將“由字構(gòu)詞”的方案應(yīng)用到詞性標(biāo)注問(wèn)題上,讓漢字承載分詞和詞性的雙重信息,即該字所屬詞的詞性標(biāo)記(n、v等)以及該字在詞中的詞位信息(B、M 、E、S)。例如:“范獻(xiàn)子/nr” ,“范”為詞首 B,“子”為詞尾E,“獻(xiàn)”為詞內(nèi)字M 。則詞性標(biāo)注格式為“范 B-nr,獻(xiàn) M-nr,子 E-nr”。語(yǔ)料樣例見(jiàn)表 5(“分詞格式”列除外)。
在3.2節(jié)的分詞實(shí)驗(yàn)中,使用語(yǔ)言學(xué)特征時(shí),我們得出模板“2W+2+C1′”最適合《左傳》的自動(dòng)分詞,分別增加聲、調(diào)特征也都有不同程度提高,在模板“2W+2+C1′24”上效果最佳,因此在基于字的一體化標(biāo)注時(shí),我們?cè)O(shè)計(jì)了“2W+2”、“2W+2+C1”、“2W+2+C1′” 、“2W+2+C1′2” 、“2W+2+C1′4” 、“2W+2+C1′24”六個(gè)模板進(jìn)行對(duì)比實(shí)驗(yàn)。為了和上文的實(shí)驗(yàn)結(jié)果對(duì)比,對(duì)一體化標(biāo)注分別給出了分詞和詞性標(biāo)注的評(píng)測(cè)結(jié)果。
從實(shí)驗(yàn)結(jié)果來(lái)看:
(1)分詞精度有較大提升。表9與表7相比,一體化實(shí)驗(yàn)效果均優(yōu)于單獨(dú)分詞,F值最多提高了0.66個(gè)百分點(diǎn),說(shuō)明一體化方法能將漢字的詞位信息和所屬詞的詞性信息結(jié)合起來(lái),有效提高分詞效果。
(2)詞性標(biāo)注精度明顯提升。表9與表8中基于BestSeg文本的詞性標(biāo)注最好結(jié)果相比,F值提高了2.83個(gè)百分點(diǎn),說(shuō)明一體化方法能有效減少“兩步走”方法分詞錯(cuò)誤導(dǎo)致的擴(kuò)散。
表9 一體化分詞標(biāo)注評(píng)測(cè)結(jié)果
(3)字符分類(lèi)依然是有效特征,增加聲、調(diào)特征性能并不穩(wěn)定。由于測(cè)試語(yǔ)料的標(biāo)準(zhǔn)切分單位總數(shù)是固定的,從召回率上考慮,分詞最佳模板為“2W+2+C1′2” ,詞性標(biāo)注最佳模板為“2W+2+C1′4” ;從綜合性能上考慮,“2W+2+C1′”是比較穩(wěn)定的方式,研究者可以根據(jù)側(cè)重點(diǎn)的不同進(jìn)行取舍。當(dāng)然,更好的特征模板仍然是我們進(jìn)一步尋找的目標(biāo)。
從平均時(shí)間消耗(Tave)上來(lái)看,一體化方法在時(shí)間開(kāi)銷(xiāo)上,確實(shí)比較大。本文實(shí)驗(yàn)采用的硬件配置為Intel四核處理器,4G內(nèi)存。3.2節(jié)分詞實(shí)驗(yàn)Tave為326秒;3.3節(jié)詞性標(biāo)注實(shí)驗(yàn)Tave為6 732秒,約1.87小時(shí);3.4節(jié)一體化方法Tave為98 945秒,約27.48小時(shí)。雖然分詞標(biāo)注一體化方法性能優(yōu)于兩步方法,但由于分類(lèi)的類(lèi)別數(shù)量大,時(shí)間消耗也大了很多。
總的來(lái)說(shuō),一體化方法不僅提高了分詞精度,詞性標(biāo)注效果也有了明顯提升。由于先秦語(yǔ)料庫(kù)的建設(shè),往往是人工標(biāo)校出一部分語(yǔ)料作為訓(xùn)練數(shù)據(jù),使用一體化方法來(lái)標(biāo)注,可以滿(mǎn)足實(shí)際需要。而在訓(xùn)練時(shí)間的開(kāi)銷(xiāo)方面,問(wèn)題并不是很大,因?yàn)?0多種先秦文本的規(guī)??偣仓挥?00多萬(wàn)字,訓(xùn)練語(yǔ)料的數(shù)量更是有限的。
本節(jié)對(duì)一體化最佳標(biāo)注結(jié)果的分詞和詞性標(biāo)注錯(cuò)誤類(lèi)型做了分類(lèi)統(tǒng)計(jì)(見(jiàn)表10)。在分詞錯(cuò)誤中,未登錄詞和分詞標(biāo)準(zhǔn)問(wèn)題導(dǎo)致的錯(cuò)誤占到77.97%。測(cè)試語(yǔ)料中未出現(xiàn)于訓(xùn)練語(yǔ)料的未登錄詞(OOV)共1817個(gè),OOV率為8.75%,切分個(gè)數(shù)為1 693個(gè),正確個(gè)數(shù)為1214個(gè),準(zhǔn)確率為71.70%,召回率為66.81%,F值為69.17%。在錯(cuò)誤的603個(gè)未登錄詞中,多字詞占97.18%。同時(shí),多字詞的錯(cuò)誤率占全部錯(cuò)誤總數(shù)的70.87%??梢?jiàn),多字詞是古漢語(yǔ)信息處理的難點(diǎn)。分詞標(biāo)準(zhǔn)問(wèn)題是指,機(jī)器自動(dòng)切分的結(jié)果,分與合在意義上是兩可的,只是與人工標(biāo)注不同。切分歧義中,交集型歧義很少,組合型歧義居多。我們采用全切分算法統(tǒng)計(jì)了測(cè)試語(yǔ)料中的交集型歧義字段,總計(jì)只有84個(gè)段型和128個(gè)段例,其中錯(cuò)誤的僅為9例。組合型歧義錯(cuò)誤,則多是將二字詞誤切為兩個(gè)單字,這主要是這些字在訓(xùn)練語(yǔ)料中多為單字詞。人工標(biāo)注錯(cuò)誤而機(jī)器標(biāo)注正確的詞也有部分存在,這也可以看到自動(dòng)標(biāo)注具有一定的自動(dòng)糾錯(cuò)能力。
表10 分詞標(biāo)注錯(cuò)誤統(tǒng)計(jì)
在詞性標(biāo)注錯(cuò)誤中,n、ns、nr三個(gè)詞類(lèi)之間混淆錯(cuò)標(biāo)的占全部標(biāo)注錯(cuò)誤的37.04%,這源于《左傳》中的姓氏多取自爵位、職官、封邑等,造成識(shí)別困難。由n、v混淆錯(cuò)標(biāo)以及錯(cuò)標(biāo)為n或 v的共占43.89%,其中“v → n” 占 13.43%,“n → v”占9.48%。這是由于古漢語(yǔ)詞的兼類(lèi)和活用現(xiàn)象比較頻繁,造成詞類(lèi)消歧困難。
本文在古代漢語(yǔ)自然語(yǔ)言處理領(lǐng)域進(jìn)行了新的探索。在《左傳》傳文上的一系列實(shí)驗(yàn)表明,基于CRF的分詞標(biāo)注一體化方法可以用于古代漢語(yǔ)語(yǔ)料庫(kù)建設(shè)。與兩步方法相比,分詞、詞性標(biāo)注性能均有明顯提高,開(kāi)放測(cè)試的F值分別達(dá)到了94.60%和89.65%。該方法可以應(yīng)用于先秦其他語(yǔ)料的自動(dòng)標(biāo)注工作,有效降低人工標(biāo)注的工作量,加快語(yǔ)料庫(kù)的建設(shè)。從《左傳》得到的訓(xùn)練模型,可以用于先秦語(yǔ)料中內(nèi)容相近的語(yǔ)料的自動(dòng)標(biāo)注,如《公羊傳》、《谷梁傳》和《呂氏春秋》等,給我們的項(xiàng)目進(jìn)展帶來(lái)了巨大的效益。
我們下一步的工作主要是:(1)考慮先秦語(yǔ)料中詩(shī)詞、語(yǔ)錄體、典章制度等與《左傳》差異較大的文本的自動(dòng)標(biāo)注。采取“人工標(biāo)注訓(xùn)練語(yǔ)料→機(jī)器學(xué)習(xí)自動(dòng)標(biāo)注→人工校對(duì)”的方式,完成先秦25種傳世文獻(xiàn)的切分標(biāo)注和后期校對(duì),建立起先秦文獻(xiàn)切分標(biāo)注語(yǔ)料庫(kù)。(2)繼續(xù)探索改善CRF標(biāo)注性能的特征模板和方法,如采用多分類(lèi)器集成技術(shù)和遷移學(xué)習(xí)技術(shù)。(3)進(jìn)一步細(xì)化詞類(lèi)體系。本文分詞標(biāo)注遵循的是《先秦漢語(yǔ)分詞標(biāo)注規(guī)范基本集》,僅僅給出了21個(gè)詞類(lèi)標(biāo)記,對(duì)各詞類(lèi)的內(nèi)部子類(lèi)沒(méi)有細(xì)分,今后要嘗試對(duì)詞類(lèi)進(jìn)一步擴(kuò)展,制定出《擴(kuò)展集》,將先秦漢語(yǔ)的語(yǔ)料庫(kù)加工技術(shù)研究深入下去,在此基礎(chǔ)上進(jìn)行詞匯統(tǒng)計(jì)和知識(shí)檢索的工作。
致謝 感謝碩士生于麗麗、汪青青、肖磊同學(xué)在語(yǔ)料標(biāo)注校對(duì)方面所做的大量工作。
[1] 尉遲治平.計(jì)算機(jī)技術(shù)和漢語(yǔ)史研究[J].古漢語(yǔ)研究,2000,3:56-60.
[2] 魏培泉,黃居仁,等.建構(gòu)一個(gè)以共時(shí)與歷時(shí)語(yǔ)言研究為導(dǎo)向的歷史語(yǔ)料庫(kù)[J].中文計(jì)算語(yǔ)言學(xué)期刊,1997,2(1):131-145.
[3] 邱冰.基于中文信息處理的古代漢語(yǔ)分詞研究[J].微計(jì)算機(jī)信息,2008,1:100-102.
[4] 白拴虎.漢語(yǔ)詞切分及詞性標(biāo)注一體化方法[C]//計(jì)算語(yǔ)言學(xué)進(jìn)展與應(yīng)用.北京:清華大學(xué)出版社,1995:56-61.
[5] Hwee Tou Ng and Jin K iat Low.Chinese Part-of-Speech Tagging:One-at-a-Time or A ll-at-Once?Word-Based or Character-Based?[C]//Proceedings of ACL-04:277-284.
[6] Yue Zhang and Stephen Clark.Joint Word Segmentation and POS Tagging using a Sing le Percep tron[C]//Proceedings of ACL-08:888-896.
[7] 楊伯峻.春秋左傳注(修訂版)[M].北京:中華書(shū)局,1990.
[8] 陳克炯.春秋左傳詳解詞典[M].河南:中州古籍出版社,2004.
[9] 宋彥,等.一種基于字詞聯(lián)合解碼的中文分詞方法[J].軟件學(xué)報(bào),2009,9:2366-2375.