李 娜
(南京林業(yè)大學(xué) 人文社會(huì)科學(xué)學(xué)院,江蘇 南京 210037)
命名實(shí)體識(shí)別(named entity recognition, NER)作為一種常用的文本挖掘技術(shù),用于識(shí)別文本中為人們感興趣的專有詞和特定的數(shù)量詞。它包含具體和抽象的實(shí)體。例如,人名、地名、機(jī)構(gòu)名、時(shí)間、數(shù)量等[1],在信息檢索和抽取、機(jī)器翻譯和問答系統(tǒng)等自然語言處理上,有著廣泛的應(yīng)用。
近年來,隨著數(shù)字人文的快速發(fā)展,中文古籍的數(shù)字化和深度挖掘需求越來越迫切。在自然語言處理中,命名實(shí)體識(shí)別的研究語料以現(xiàn)代漢語為主[2-3],藏語[4]、哈薩克語[5]、蒙古語[6]、維吾爾語[7]、越南語[8]等其他語言也有涉及,識(shí)別對(duì)象有地名[9]、人名[10]、疾病名[11]、機(jī)構(gòu)名[12]、時(shí)間[13]等信息單元。古籍文獻(xiàn)在繁簡(jiǎn)字、標(biāo)點(diǎn)符號(hào)、句式表達(dá)等多個(gè)方面與現(xiàn)代文獻(xiàn)差異明顯,智能化識(shí)別難度更大,研究成果較少。石民等對(duì)《左傳》進(jìn)行了詞匯處理和考察分析,采用條件隨機(jī)場(chǎng)模型,進(jìn)行自動(dòng)分詞、詞性標(biāo)注、分詞標(biāo)注一體化的對(duì)比試驗(yàn)[14];肖磊、汪青青分析了《左傳》地名和人名結(jié)構(gòu)的特點(diǎn),基于CRF模型,分別實(shí)現(xiàn)了地名和人名的自動(dòng)識(shí)別[15-16];馬創(chuàng)新通過模型構(gòu)建和結(jié)構(gòu)分析,實(shí)現(xiàn)了《十三經(jīng)注疏》中引文文獻(xiàn)的識(shí)別和分析[17];錢智勇等基于隱馬爾科夫模型,進(jìn)行了楚辭的自動(dòng)分詞標(biāo)注實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)情況設(shè)計(jì)了一個(gè)分詞標(biāo)注輔助軟件[18];黃水清等基于先秦語料庫,分別使用條件隨機(jī)場(chǎng)和最大熵模型對(duì)地名進(jìn)行了識(shí)別研究,結(jié)果表明條件隨機(jī)場(chǎng)的識(shí)別效果優(yōu)于最大熵模型[19];王錚將條件隨機(jī)場(chǎng)模型應(yīng)用到《三國(guó)演義》的地名識(shí)別中,識(shí)別結(jié)果的準(zhǔn)確率為99.16%[20];朱鎖玲以《方志物產(chǎn)》廣東、福建、臺(tái)灣三省資料為語料,通過整理文中地名出現(xiàn)的規(guī)則,構(gòu)建規(guī)則庫與文本內(nèi)容進(jìn)行匹配,實(shí)現(xiàn)了地名的識(shí)別,精確率為63.38%,召回率為82.89%[21];衡中青以《方志物產(chǎn)》廣東分卷為例,通過基于規(guī)則的方法,分別識(shí)別了文中的引書[22]和別名[23]。其中,引書識(shí)別的召回率和精確率分別為84.95%和72.88%,別名的召回率為88.60%、精確率為71.60%;Bol及其研究團(tuán)隊(duì)以220余部地方志為語料,基于語言模型和條件隨機(jī)場(chǎng),挖掘文本中的人名、字號(hào)、官職、地名等傳記信息,并將結(jié)果與中國(guó)歷代人物傳記數(shù)據(jù)庫(China Biographical Database, CBDB)進(jìn)行對(duì)比和補(bǔ)充[24]。上述研究表明,基于條件隨機(jī)場(chǎng)模型的中文命名實(shí)體識(shí)別正在不斷深入,但中文古籍的命名實(shí)體研究多集中在文學(xué)作品等較為規(guī)范的古籍本文中。而在方志古籍的整理、挖掘利用研究方面,尚處于探索階段,成果分散且精準(zhǔn)度有待提高。
本文以命名實(shí)體識(shí)別技術(shù)中的條件隨機(jī)場(chǎng)模型為基礎(chǔ),對(duì)摘抄自地方志的《方志物產(chǎn)》語料庫中物產(chǎn)別名進(jìn)行自動(dòng)識(shí)別實(shí)驗(yàn),拓展語料的研究方法,延伸方法的應(yīng)用范圍,具有一定的創(chuàng)新價(jià)值和探索意義,為深入開發(fā)和利用方志資料提供實(shí)體數(shù)據(jù)。
方志,又稱地方志,為我國(guó)古籍文獻(xiàn)之大宗,是按照一定體例記載了特定時(shí)空下,自然和社會(huì)各個(gè)方面歷史與現(xiàn)狀的綜合性著述,被譽(yù)為“一方之全史”,是我國(guó)乃至世界的一座重要文化遺產(chǎn)寶庫,為后世提供了取之不竭的史料資源[25]。
中國(guó)自古就有參考利用地方文獻(xiàn)的實(shí)踐。20世紀(jì)50年代,我國(guó)著名農(nóng)史學(xué)家、農(nóng)史學(xué)科創(chuàng)始人之一萬國(guó)鼎先生,組織數(shù)十人先后前往全國(guó)40多個(gè)大中型城市、100多個(gè)文史單位,歷時(shí)數(shù)年從數(shù)千部地方志中手工整理摘抄了其中的物產(chǎn)部分,編纂成農(nóng)業(yè)專題資料《方志物產(chǎn)》[26]。作為目前世界上唯一一套明清方志農(nóng)業(yè)專題資料,《方志物產(chǎn)》具有獨(dú)特的史料價(jià)值: 一是唯一性,自摘抄以來,經(jīng)歷半個(gè)多世紀(jì)的變遷,尤其是“文革”時(shí)期的沖擊,部分原始文獻(xiàn)已經(jīng)散佚;二是廣泛性,橫向地域范圍廣,涵蓋了建國(guó)初期全國(guó)所有的省份;三是持續(xù)性,縱向時(shí)間跨度大,從宋熙寧九年(1076年)至民國(guó)三十八年(1949年),記載了長(zhǎng)達(dá)近900年間的物產(chǎn)情況;四是豐富性,全文共431卷、3 000余萬字,涉及動(dòng)植物的品種資源和種植飼養(yǎng)方法等農(nóng)業(yè)生產(chǎn)的各個(gè)方面,尤其以動(dòng)植物的品種資源和種植、飼養(yǎng)、利用技術(shù)為主;五是多樣性,行文風(fēng)格和本文結(jié)構(gòu)呈現(xiàn)出多樣性,是古籍文獻(xiàn)中比較有特色和代表性的語料[27]。
《方志物產(chǎn)》中蘊(yùn)含著豐富的信息資源,物產(chǎn)別名就是其中之一。物產(chǎn)別名是相對(duì)于物產(chǎn)正名而言的,是由于物產(chǎn)特性、古籍記載、時(shí)代變遷、地域差異、民俗文化、人口流動(dòng)、文化交流等多種歷史原因,造成的同物異名現(xiàn)象[28]??疾煳锂a(chǎn)的名稱及其變化是植物史、動(dòng)物史、貨物史研究的重要任務(wù),梳理《方志物產(chǎn)》所載物產(chǎn)的別名,有利于開展物產(chǎn)的起源和傳播、生物學(xué)特征和用途、記載方式變遷、地方性知識(shí)等內(nèi)容的研究,從而更加全面地認(rèn)識(shí)和分析物產(chǎn)。
物產(chǎn)別名梳理是物產(chǎn)研究的重要組成部分,但往往是在研究某一物產(chǎn)時(shí)專門查找該物產(chǎn)的別名信息,鮮有專門整理物產(chǎn)別名的研究。本文以《方志物產(chǎn)》山西分卷為語料,在格式化處理的前提下,對(duì)物產(chǎn)別名進(jìn)行全文人工標(biāo)注?;诿麑?shí)體識(shí)別技術(shù)中的條件隨機(jī)場(chǎng)理論,構(gòu)建物產(chǎn)別名的自動(dòng)識(shí)別模型,實(shí)現(xiàn)物產(chǎn)別名的自動(dòng)抽取,探索方志古籍內(nèi)容挖掘的新途徑,為物產(chǎn)研究提供資料支撐。
目前,常用的命名實(shí)體識(shí)別方法主要有基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。對(duì)比而言,基于規(guī)則的方法實(shí)現(xiàn)簡(jiǎn)單、速度快,但主觀性較大,對(duì)規(guī)則庫的完善程度要求高,適合小規(guī)模語料;基于統(tǒng)計(jì)的方法實(shí)現(xiàn)代價(jià)低,數(shù)據(jù)依賴性小,且具有較好的移植性,適用于較大規(guī)模語料?!斗街疚锂a(chǎn)》時(shí)間長(zhǎng)、范圍廣、數(shù)量大、類型多,基于統(tǒng)計(jì)的方法較為適用。隱馬爾可夫模型、最大熵模型和條件隨機(jī)場(chǎng)模型是基于統(tǒng)計(jì)的方法中比較常用的模型。其中,條件隨機(jī)場(chǎng)模型是Lafferty[29]等在最大熵模型和隱馬爾可夫模型的基礎(chǔ)上提出來的,解決了隱馬爾可夫模型嚴(yán)格的獨(dú)立性假設(shè)限制和最大熵模型標(biāo)注偏差問題。通過靈活結(jié)合上下文的多項(xiàng)特征,在分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等自然語言處理方面有著較好的應(yīng)用。
本文以《方志物產(chǎn)》山西分卷為例,探討條件隨機(jī)場(chǎng)模型在方志古籍內(nèi)容挖掘中的應(yīng)用情況。有“三晉”之稱的山西,位于黃河之濱,處于中原大地,是中華民族的發(fā)祥地之一。它有著長(zhǎng)達(dá)3 000余年的文字記載史,農(nóng)業(yè)發(fā)達(dá)、物產(chǎn)豐富,被譽(yù)為“華夏文明搖籃”和“中國(guó)古代文化博物館”。因此,山西能夠反映出中原地區(qū)、黃河流域甚至更廣范圍的情況,具有一定的代表性。
《方志物產(chǎn)》山西分卷共13卷,43萬字,記載了明成化二十一年(1485年)至民國(guó)二十九年(1940年)間山西境內(nèi)51 545條物產(chǎn)信息。物產(chǎn)信息包含志書名稱、記載時(shí)間、物產(chǎn)名稱、物產(chǎn)備注、物產(chǎn)分類等多項(xiàng)內(nèi)容。本文主要考察物產(chǎn)名稱和物產(chǎn)備注兩項(xiàng)信息,其目的是通過計(jì)算機(jī)對(duì)人工標(biāo)注信息的學(xué)習(xí),基于條件隨機(jī)場(chǎng)的構(gòu)建物產(chǎn)別名自動(dòng)識(shí)別模型。
受文字變遷和記載方志的影響,方志文獻(xiàn)中物產(chǎn)信息不盡完備。首先,物產(chǎn)備注信息存在缺失現(xiàn)象,即有的物產(chǎn)有備注信息,有的物產(chǎn)沒有備注信息,如圖1所示。而本文研究的目的是從物產(chǎn)的備注信息中抽取別名信息,故沒有備注信息的物產(chǎn)記錄對(duì)本研究無意義。51 545條物產(chǎn)信息中,有備注信息的物產(chǎn)共有9 085條,約占總物產(chǎn)量的17.54%;其次,物產(chǎn)名稱存在不完整現(xiàn)象。山西分卷中記載的51 545條物產(chǎn),部分物產(chǎn)名稱中除漢字以外,還包含“?、+、(、)、□”等其他符號(hào),表示該處為“缺字”或者“造字”等。例如,“□鵝、天□□、(班+鳥)、□□、??”等。此類物產(chǎn)共計(jì)有273條,約占總物產(chǎn)數(shù)量的0.53%。為了保證數(shù)據(jù)的原始性和完整性,我們?nèi)匀粚⑵浔A簦L試通過數(shù)據(jù)關(guān)聯(lián)的方式,補(bǔ)全缺失的物產(chǎn)名稱。
圖1 隨機(jī)選取的10條物產(chǎn)信息樣例
在對(duì)物產(chǎn)的備注信息進(jìn)行標(biāo)注時(shí),用“Alias”表示別名?!癆”代表標(biāo)注之處為別名,用“【”、“】”表示別名的左右邊界,完整的標(biāo)志結(jié)構(gòu)為“【A別名】”。例如,“螽斯蝗類也長(zhǎng)而色青長(zhǎng)角長(zhǎng)股翼鳴者也亦有斑黑者其股似瑇瑁五月中以兩翅相切作聲聲聞數(shù)十步者是也俗名【A螞蚱】以其形似馬而鳴聲咋咋然也”,最終計(jì)算機(jī)識(shí)別出的螽斯的別名為螞蚱。標(biāo)注完成后,9 085條物產(chǎn)信息中含有別名信息的有2 522條,這就是本研究的最終語料。
2 522條語料共標(biāo)注出別名3 458次。去重后,共得到891個(gè)物產(chǎn)名稱和1 485個(gè)別名。平均每個(gè)物產(chǎn)名稱約有1.67個(gè)別名,物產(chǎn)至少有一個(gè)別名。如“百足蟲”的別名為“錢龍”等,最多有42個(gè)別名,如物產(chǎn)“稷”。平均每個(gè)別名出現(xiàn)約2.33次,最少出現(xiàn)1次,如“羊胡草”等853個(gè)別名,最多出現(xiàn)46次,如“小米”和“諸葛菜”。
在手工標(biāo)注的基礎(chǔ)上,識(shí)別構(gòu)建模型所需要的標(biāo)注。計(jì)算別名的加權(quán)長(zhǎng)度,可以明確標(biāo)注集長(zhǎng)度。生成標(biāo)注集如式(1)所示。
(1)
其中,Lik為當(dāng)i≤k時(shí),別名平均加權(quán)后的長(zhǎng)度,Ni為語料庫中長(zhǎng)度為i的別名出現(xiàn)的次數(shù)。k和j分別代表語料庫中別名長(zhǎng)度的最大值和最小值,N為語料庫中別名出現(xiàn)的總次數(shù)。通過計(jì)算和實(shí)驗(yàn)測(cè)試,本文確定在別名的自動(dòng)識(shí)別中,使用四詞位的標(biāo)注集,具體表示為P={B,M,E,S}。其中,B為別名的初始詞,M為中間詞,E為結(jié)束詞,S為別名標(biāo)記以外的詞。經(jīng)過手工標(biāo)記的語句“樗鷄 一名【A紅娘子】俗呼【A瞎眼婆婆】”,標(biāo)注集的結(jié)果,如表1所示。
表1 標(biāo)注集樣例
標(biāo)注集生成后,對(duì)別名的邊界詞進(jìn)行統(tǒng)計(jì)分析。假設(shè),我們把一條語料的構(gòu)成序列表示成“SLn,…,SLi,…,SL1,【R,R1,…,Rn】,SR1,…,SRj,…,SRn”。其中,【R,R1,…,Rn】表示標(biāo)注集,SLi表示標(biāo)注集的左邊界,SRj表示標(biāo)注集的右邊界。那么,SL1和SR1就是標(biāo)注集的左右一元邊界詞,SL2SL1和SR1SR2為標(biāo)注集的左右二元邊界詞,SL3SL2SL1和SR1SR2SR3為標(biāo)注集的左右三元邊界詞。在判定線性序中的別名時(shí),主要使用了左右一元邊界詞特征。別名的左右一元邊界詞的分布狀況運(yùn)用式(2)獲取。
(2)
其中,pc(ω)為ω在語料中作為一元邊界詞出現(xiàn)的概率,fβ(ω)為ω在一元邊界詞位置上出現(xiàn)的次數(shù),∑ωfβ(ω)為ω在語料庫中出現(xiàn)的總次數(shù)。
《方志物產(chǎn)》山西分卷的語料經(jīng)過人工標(biāo)注后,編寫計(jì)算機(jī)程序,提取物產(chǎn)的別名和別名的左右一元邊界詞。在詞頻和詞長(zhǎng)統(tǒng)計(jì)的基礎(chǔ)上,對(duì)物產(chǎn)別名的長(zhǎng)度和左右一元邊界詞等內(nèi)外部特征進(jìn)行分析。
經(jīng)過標(biāo)注,共提取出人工標(biāo)注的別名3 458次。去除重復(fù)后,總計(jì)有1 485個(gè)不同的別名,每個(gè)別名出現(xiàn)的平均次數(shù)約為3次。別名的長(zhǎng)度主要有五種,即長(zhǎng)度為1、2、3、4、5,數(shù)字表示一個(gè)別名由幾個(gè)漢字組成。從詞頻統(tǒng)計(jì)結(jié)果看,長(zhǎng)度為2的別名最多,有2 001個(gè),約占總別名的57.87%;長(zhǎng)度為5的別名最少,只有9個(gè),僅占總別名的0.26%。別名的長(zhǎng)度主要集中在1、2、3上,共有3 353個(gè),約占總別名的96.96%,涵蓋了絕大多數(shù)的別名。
左右一元邊界詞分析有助于精確定位詞的邊界。別名的左右一元邊界詞及其出現(xiàn)的概率統(tǒng)計(jì)結(jié)果(按照出現(xiàn)次序由多到少排序各取前十)如表2所示。
表2 別名的左、右一元邊界詞信息統(tǒng)計(jì)結(jié)果(前十)
結(jié)果顯示,物產(chǎn)別名的左一元邊界詞高度集中。頻次最高的10個(gè)左一元邊界詞占所有一元邊界詞的比例高達(dá)91.73%。其中,“名”的頻次和出現(xiàn)次數(shù)均為最高,如“大力子 一名牛旁子又名鼠粘子”等;物產(chǎn)別名的右一元邊界詞較為分散,頻次最高的10個(gè)右一元邊界詞占所有右一元邊界詞的比例為44.02%。其中,“也”的出現(xiàn)次數(shù)最多,如“鳳仙 即海納也”等。而“李”的頻次最高,如“長(zhǎng)松草 亦名【A仙茅】李時(shí)珍曰長(zhǎng)松生古松下根色如薺苨長(zhǎng)五六寸味甘微苦類人葠清香可愛”等。
條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)是一種判別式的無向概率圖模型,用于在給定需要標(biāo)記的觀察序列的條件下,預(yù)測(cè)標(biāo)簽序列的概率分布。
本研究在構(gòu)建條件隨機(jī)場(chǎng)模型時(shí),假設(shè)變量x是方志物產(chǎn)語料庫中經(jīng)過人工標(biāo)注的別名實(shí)體,變量y是別名實(shí)體中每一個(gè)分布序列。一串變量y對(duì)一串變量x,將多個(gè)變量x作為一個(gè)整體,用于確定y和y之間的轉(zhuǎn)移概率,即當(dāng)變量x取值為x時(shí),變量y取值為y的概率。計(jì)算如式(3)所示。
(3)
在構(gòu)建CRF模型時(shí),語料中的上下文特征都應(yīng)該被加進(jìn)特征函數(shù)中去,以提高模型的性能。本研究的模型中需要加入上文所分析的別名的內(nèi)外部特征,例如,出現(xiàn)頻次、長(zhǎng)度、邊界詞等。
1. 別名長(zhǎng)度。如上文統(tǒng)計(jì),最常見的別名長(zhǎng)度為2,如“鳳仙 俗名【A海納】”。大多數(shù)的別名長(zhǎng)度都在1至3的范圍之內(nèi),長(zhǎng)度為1的如“榖 即【A粟】為秋橡之主東北一帶村莊半居岡阜地瘠苦寒種麥者僅十之一惟河西及南鄉(xiāng)澤鹵之地多種”,長(zhǎng)度為3的如“榖精草 即【A文星草】可餧馬令肥”。別名長(zhǎng)度用阿拉伯?dāng)?shù)字表示,作為一個(gè)特征加入模型中。
2. 一元邊界詞。命名實(shí)體的識(shí)別其實(shí)就是確定命名實(shí)體的左右邊界的過程。一旦左右邊界確定了,那么命名實(shí)體就順理成章地被識(shí)別出來了。因此,別名的左右一元邊界詞作為一個(gè)非常重要的特征,成為模型的一部分。在前文的統(tǒng)計(jì)中,“名、即、曰、呼、為、之、謂、稱、有、作”是別名的左一元邊界詞的前十名,“也、一、又、有、俗、亦、以、種、李、即”是別名右一元邊界詞的前十名。在處理訓(xùn)練語料的時(shí)候,標(biāo)注出左右一元邊界詞,左一元邊界詞標(biāo)注為L(zhǎng),右一元邊界詞標(biāo)注為R,非一元邊界詞則標(biāo)注為N,并作為特征加入到模型之中。例如,語料“花紅 即【A奈】也俗名【A紅果】即謂【A文官果】也”,標(biāo)注左右一元邊界詞的結(jié)果,如表3所示。
表3 左右一元邊界詞的標(biāo)注樣例
命名實(shí)體識(shí)別的評(píng)價(jià)指標(biāo)有三個(gè): 精確率P、召回率R及調(diào)和平均數(shù)F。精確率是指識(shí)別結(jié)果中正確的命名實(shí)體所占的比例,召回率是指識(shí)別結(jié)果中正確的命名實(shí)體數(shù)量占語料中所有命名實(shí)體總量的比例,調(diào)和平均數(shù)是精確率和召回率的加權(quán)幾何平均值。計(jì)算公式如式(4)~式(6)所示。
其中,識(shí)別正確的命名實(shí)體數(shù)量,是指模型識(shí)別的結(jié)果中是別名的個(gè)數(shù);識(shí)別錯(cuò)誤的命名實(shí)體數(shù)量,是指模型識(shí)別的結(jié)果中不是別名的個(gè)數(shù);沒有識(shí)別的命名實(shí)體數(shù)量,是指模型沒有識(shí)別出的別名個(gè)數(shù)。
在利用精確率和召回率進(jìn)行別名識(shí)別模型的性能評(píng)價(jià)時(shí),單方面提高精確率,會(huì)導(dǎo)致召回率下降,反之亦然。本文采用精確率和召回率的加權(quán)幾何平均數(shù)F作為別名識(shí)別模型的綜合評(píng)價(jià)指標(biāo)。
(6)
其中,α為P和R的相對(duì)權(quán)重。當(dāng)α>1時(shí),P的權(quán)重較R大,當(dāng)α<1時(shí),R的權(quán)重較P大,當(dāng)α=1時(shí),P與R具有相同的權(quán)重。
《方志物產(chǎn)》山西分卷中物產(chǎn)的備注信息中有別名信息的共有2 522條。為了提高調(diào)和平均數(shù)的值,本文采用交叉驗(yàn)證的方式構(gòu)建和測(cè)評(píng)識(shí)別模型。將2 522條語料分成10等份,進(jìn)行10次實(shí)驗(yàn)。每次選取其中的9份作為訓(xùn)練語料,構(gòu)建模型,將剩余的1份作為測(cè)試語料,對(duì)模型的性能進(jìn)行測(cè)試和評(píng)價(jià)。針對(duì)識(shí)別結(jié)果計(jì)算P、R、F值,結(jié)果如表4所示。
表4 物產(chǎn)別名自動(dòng)識(shí)別模型的測(cè)試結(jié)果
整體而言,基于CRF的模型識(shí)別精確率最高,平均值達(dá)到了93.52%,而召回率相對(duì)較低,為80.63%。即模型的識(shí)別結(jié)果中別名正確率較高,但占全部應(yīng)識(shí)別出的別名比例稍低。就單次測(cè)試結(jié)果而言,第7份測(cè)試的整體效果較好。該次測(cè)試的語料中,別名的內(nèi)外部特征與識(shí)別模型的特征模板高度吻合。別名長(zhǎng)度在1~3之間,符合別名長(zhǎng)度的分布趨勢(shì);73.50%的左右一元邊界詞都是總體排名前十的字,有利于別名左右邊界的精確定位。
測(cè)試結(jié)果顯示,條件隨機(jī)場(chǎng)模型在《方志物產(chǎn)》山西分卷的物產(chǎn)別名識(shí)別中發(fā)揮了較好的作用,取得了良好的實(shí)驗(yàn)效果。不過還有一定的提升空間,主要是由于以下幾個(gè)方面的原因。
(1) 別名單獨(dú)出現(xiàn)。別名前后沒有明顯的標(biāo)識(shí)字符,且出現(xiàn)次數(shù)較少,不足以形成規(guī)律。例如,以下三條語料“滴溜 甘露子”、“醋注 長(zhǎng)柄瓠”、“白鱔 鰻鱺”等,“滴溜、醋注、白鱔”為物產(chǎn)名稱,“甘露子、長(zhǎng)柄瓠、鰻鱺”分別是三種物產(chǎn)的別名,這三個(gè)別名在整個(gè)語料當(dāng)中都只出現(xiàn)了一次,別名兩側(cè)又沒有任何標(biāo)識(shí)字符。因此,計(jì)算機(jī)模型無法將其識(shí)別出來。
(2) 別名與物產(chǎn)名相同。人工標(biāo)注過程中,一旦發(fā)現(xiàn)物產(chǎn)備注信息中出現(xiàn)的別名與物產(chǎn)名稱相同,就放棄對(duì)該名稱的標(biāo)注,認(rèn)為它是物產(chǎn)名稱在備注信息中重復(fù)出現(xiàn)。但計(jì)算機(jī)模型識(shí)別的時(shí)候,只要判斷符合別名特征,就會(huì)被當(dāng)作別名識(shí)別出來。例如,“半癡 俗名半翅檢徐天地集名半癡因其性也”,人工標(biāo)注的時(shí)候只標(biāo)注出“半翅”,而計(jì)算機(jī)模型識(shí)別的結(jié)果為“半翅”、“半癡”。
(3) 別名重復(fù)出現(xiàn)。在同一個(gè)物產(chǎn)的同一條備注信息中,某別名多次出現(xiàn),人工標(biāo)注僅標(biāo)注一次,而計(jì)算機(jī)模型不會(huì)判斷別名是否重復(fù)出現(xiàn)。例如,“鳲鳩 俗呼布穀身灰色翅尾俱有黑斑辳夫侯此鳥鳴乃布種其榖故名布穀”,人工只對(duì)“俗呼布穀”進(jìn)行標(biāo)注,結(jié)果為“布穀”,而計(jì)算機(jī)模型識(shí)別的結(jié)果為“布穀”、“布穀”。
(4) 別名與其它信息混淆。在物產(chǎn)的備注信息中,有品種、地名等其它類型的命名實(shí)體出現(xiàn)的規(guī)則與別名相似,在計(jì)算機(jī)模型分析判斷之后,成為識(shí)別結(jié)果的一部分。例如,“赭石 生河?xùn)|山中別錄曰出代郡者名代赭李時(shí)珍曰赭赤色也代即雁門也俗呼土朱鐵”,人工識(shí)別的結(jié)果為“代赭、土朱鐵”,而計(jì)算機(jī)模型識(shí)別的結(jié)果為“代赭、雁門、土朱鐵”。顯而易見,“雁門”并非物產(chǎn)“赭石”的別名,而是地點(diǎn)“代”表示的地名。
(5) 別名的長(zhǎng)度判斷錯(cuò)誤。物產(chǎn)的別名長(zhǎng)度大多數(shù)為2~3個(gè)字,但也有一些較長(zhǎng)的別名,在計(jì)算機(jī)模型進(jìn)行判斷時(shí),識(shí)別的完整性較低。例如,“玄精石 出解州塩池本草曰乃鹹鹵至陰之精凝結(jié)而成故名又名太乙玄清石”,計(jì)算機(jī)模型只識(shí)別出“太乙”。
(6) 別名并列連續(xù)出現(xiàn)。即一個(gè)物產(chǎn)有數(shù)個(gè)別名,這些別名在備注信息中是并列連續(xù)出現(xiàn)的。別名之間沒有任何標(biāo)識(shí)字符,計(jì)算機(jī)模型無法準(zhǔn)確判斷別名個(gè)數(shù),不能實(shí)現(xiàn)自動(dòng)分詞。例如,“黃精 葉似竹每葉傍生二黑子一名重樓又有莬竹雞格救窮鹿竹等名宋僧延一舊志云出西臺(tái)”,人工標(biāo)注的結(jié)果為“重樓、莬竹、雞格、救窮、鹿竹”,而計(jì)算機(jī)模型僅僅識(shí)別出“重樓”,“莬竹、雞格、救窮、鹿竹”在計(jì)算機(jī)模型中被判定為無效字段。
物產(chǎn)的別名,關(guān)系著物產(chǎn)的起源、分布范圍和傳播路徑,蘊(yùn)含著文化的交流與變遷狀況,對(duì)于全面認(rèn)識(shí)物產(chǎn)具有重要的價(jià)值和意義。
首先,本研究自動(dòng)抽取出的物產(chǎn)別名可以直接為物產(chǎn)研究人員提供別名信息,只要明確物產(chǎn)名稱,就可以快速而精確地展示出方志物產(chǎn)中記載的該物產(chǎn)的別名信息,圖2即是物產(chǎn)“菠菜”的別名信息。
圖2 物產(chǎn)“菠菜”的別名信息
其次,根據(jù)物產(chǎn)與別名之間的關(guān)系,可以清晰地梳理出不同物產(chǎn)之間具有相同別名的信息,有助于領(lǐng)域人員開辟不同物產(chǎn)之間的相關(guān)性研究,促進(jìn)物產(chǎn)研究的體系化。圖3是物產(chǎn)與別名信息中抽取出的一部分網(wǎng)絡(luò)。結(jié)果顯示,芍藥與萊菔具有相同的別名蟲媒花。
圖3 物產(chǎn)—?jiǎng)e名共用網(wǎng)絡(luò)
本文以《方志物產(chǎn)》山西分卷為例,在數(shù)據(jù)格式化處理和全文人工標(biāo)注的基礎(chǔ)上,通過特征分析,完成了基于條件隨機(jī)場(chǎng)的別名自動(dòng)識(shí)別模型構(gòu)建。并通過十次交叉驗(yàn)證法,對(duì)模型的識(shí)別性能進(jìn)行測(cè)試,取得了較好的實(shí)驗(yàn)結(jié)果,驗(yàn)證了條件隨機(jī)場(chǎng)模型在方志古籍的內(nèi)容挖掘中具有良好的可行性和應(yīng)用前景。
在進(jìn)一步的研究中,主要通過兩個(gè)方面提升命名實(shí)體的識(shí)別效果。一是擴(kuò)大語料規(guī)模。將研究語料從山西一個(gè)省擴(kuò)展至華北地區(qū)多個(gè)省甚至全國(guó)范圍,增加語料的多樣性;二是完善特征模板,作為構(gòu)建識(shí)別模型的基礎(chǔ)。特征模板越完善,識(shí)別模型的性能越高。隨著研究的逐步深入,智能識(shí)別效果會(huì)越來越精確。
內(nèi)容抽取是古籍整理的中間環(huán)節(jié),連接著數(shù)字化建設(shè)和知識(shí)發(fā)現(xiàn)結(jié)果。古籍中凝聚著古人的經(jīng)驗(yàn)和智慧,挖掘其中蘊(yùn)含的信息,可以更好地了解過去、認(rèn)識(shí)現(xiàn)在、指導(dǎo)未來。數(shù)字圖書館和現(xiàn)代信息技術(shù)的發(fā)展為基于內(nèi)容的古籍整理提供了堅(jiān)實(shí)的資料基礎(chǔ)和技術(shù)支持,推動(dòng)了古籍文獻(xiàn)服務(wù)社會(huì)的進(jìn)程。但仍有待于進(jìn)一步深入探索,充分挖掘古籍資料的價(jià)值。