• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向數(shù)字人文的館藏方志古籍地名自動(dòng)識(shí)別模型構(gòu)建*

      2018-05-24 11:10:36
      圖書(shū)館 2018年5期
      關(guān)鍵詞:物產(chǎn)自動(dòng)識(shí)別方志

      李 娜 包 平

      (1.南京林業(yè)大學(xué)人文社會(huì)科學(xué)學(xué)院 南京 210037;2.南京農(nóng)業(yè)大學(xué)中華農(nóng)業(yè)文明研究院 南京210095;3.南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院 南京 210095)

      1 引言

      數(shù)字人文(Digital Humanities)由計(jì)算人文和人文計(jì)算領(lǐng)域演變而來(lái)[1],是針對(duì)計(jì)算工具與所有文化產(chǎn)品交叉領(lǐng)域的研究[2]。作為一個(gè)跨學(xué)科的領(lǐng)域,數(shù)字人文涉及了文學(xué)、計(jì)算機(jī)科學(xué)、歷史學(xué)、語(yǔ)言學(xué)等多個(gè)學(xué)科,新的研究方法和研究范式在文獻(xiàn)與技術(shù)的結(jié)合中重疊創(chuàng)新[3],增加了人文學(xué)科研究的廣度和深度[4]。近年來(lái),國(guó)內(nèi)外相繼成立了數(shù)字人文聯(lián)盟、協(xié)會(huì)、學(xué)會(huì)等組織,一些高校創(chuàng)設(shè)了數(shù)字人文研究中心,為人文研究提供技術(shù)和數(shù)據(jù)支撐,有效地推動(dòng)了新興交叉學(xué)科的發(fā)展。

      圖書(shū)館作為人文研究所需原始資料的保存和服務(wù)機(jī)構(gòu),經(jīng)過(guò)20余年的數(shù)字化建設(shè),積累了大量的數(shù)字資源和高度結(jié)構(gòu)化、規(guī)范化的元數(shù)據(jù)記錄,為數(shù)字人文項(xiàng)目的開(kāi)展奠定了數(shù)據(jù)基礎(chǔ)[5]。

      作為圖書(shū)館館藏古籍文獻(xiàn)的大宗,地方志是按照一定體例記載特定時(shí)空下自然和社會(huì)各個(gè)方面歷史與現(xiàn)狀的綜合性著述,是我國(guó)傳統(tǒng)歷史文獻(xiàn)中具有代表性的資料。它起源早、持續(xù)久、類(lèi)型全,客觀地反映不同時(shí)期的思想文化、自然開(kāi)發(fā)、科學(xué)技術(shù)等社會(huì)和生活狀況,被譽(yù)為“一方之全史”,是中國(guó)乃至世界文化遺產(chǎn)的重要組成部分,為后世提供取之不竭的史料資源。白壽彝提出要善于利用歷史文獻(xiàn),把大量的歷史文獻(xiàn)聯(lián)系起來(lái),觀察規(guī)律性的東西,發(fā)現(xiàn)至今仍有生命力的內(nèi)容[6]。在信息化背景下,地方志開(kāi)發(fā)利用應(yīng)引入數(shù)字人文的新方法,輔助傳統(tǒng)的手工研究,對(duì)資料進(jìn)行深入加工和整理,提高利用效率,實(shí)現(xiàn)價(jià)值最大化。

      面對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化的信息,如何從中抽取人們感興趣的內(nèi)容,發(fā)現(xiàn)內(nèi)在規(guī)律,越來(lái)越受到學(xué)術(shù)界關(guān)注,命名實(shí)體識(shí)別在這一過(guò)程中發(fā)揮著關(guān)鍵作用。近年來(lái),作為命名實(shí)體識(shí)別三大任務(wù)之一的地名識(shí)別研究得到了有效推動(dòng),催生了一系列學(xué)術(shù)成果。

      關(guān)于中文地名的自動(dòng)識(shí)別,前人的研究主要集中在現(xiàn)代漢語(yǔ)語(yǔ)料上。唐旭日等以北大語(yǔ)料庫(kù)為對(duì)象,基于條件隨機(jī)場(chǎng)模型,構(gòu)建了以篇章為單位的中文地名識(shí)別系統(tǒng),封閉和開(kāi)放測(cè)試的F值分別達(dá)到了92.87%和89.76%[7];孫虹和陳俊杰基于雙層條件隨機(jī)場(chǎng)模型識(shí)別地名,再使用規(guī)則對(duì)識(shí)別結(jié)果進(jìn)行過(guò)濾,在MSRA語(yǔ)料上進(jìn)行開(kāi)放測(cè)試,獲得了較好的識(shí)別效果[8];邱莎等人以《人民日?qǐng)?bào)》為語(yǔ)料,使用條件隨機(jī)場(chǎng)模型在字一級(jí)粒度上構(gòu)建了中文地名識(shí)別模型,多次閉合和開(kāi)放測(cè)試的結(jié)果F值均達(dá)到了90%左右[9];李麗雙等以MSRA語(yǔ)料為例,采用遞增式學(xué)習(xí)策略對(duì)條件隨機(jī)場(chǎng)的特征模板進(jìn)行優(yōu)化,結(jié)合基于規(guī)則的方法,實(shí)現(xiàn)了統(tǒng)計(jì)與規(guī)則相結(jié)合的中文地名識(shí)別系統(tǒng),提高了識(shí)別性能[10];黃德根以《人民日?qǐng)?bào)》為語(yǔ)料,通過(guò)規(guī)則統(tǒng)計(jì),計(jì)算地名構(gòu)詞和接續(xù)的可信度,完成了中文地名的識(shí)別[11-12];李穎等以作戰(zhàn)文書(shū)為研究對(duì)象,通過(guò)分析語(yǔ)料的特點(diǎn)歸納和句類(lèi)分析,基于規(guī)則的方法對(duì)地名進(jìn)行了識(shí)別[13];鄔倫等從中文地名用字特征出發(fā),采用傳統(tǒng)地名與通名結(jié)合的方法,將詞素特征融入條件隨機(jī)場(chǎng)模型,完成了《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料中地名的識(shí)別[14]。

      以古代漢語(yǔ)為語(yǔ)料的中文地名識(shí)別研究較少。肖磊以先秦語(yǔ)料《左傳》為研究對(duì)象,設(shè)計(jì)了基于條件隨機(jī)場(chǎng)模型的地名識(shí)別流程,構(gòu)建了地名知識(shí)庫(kù)[15];黃水清等以《春秋左氏傳》為語(yǔ)料庫(kù),分別構(gòu)建了最大熵模型和條件隨機(jī)場(chǎng)模型,完成了地名自動(dòng)識(shí)別,并在《國(guó)語(yǔ)》文本集合上進(jìn)行測(cè)試,結(jié)果顯示,CRF模型優(yōu)于ME模型,基于人工標(biāo)注語(yǔ)料構(gòu)建CRF模型能取得較好的識(shí)別效果[16];王錚將條件隨機(jī)場(chǎng)模型應(yīng)用到《三國(guó)演義》的地名識(shí)別中,識(shí)別結(jié)果的準(zhǔn)確率為99.16%[17];朱鎖玲等以《方志物產(chǎn)》為語(yǔ)料,通過(guò)基于規(guī)則的方法,完成了方志古籍中地名的識(shí)別,準(zhǔn)確率為63.38%[18-19]。

      從上述文獻(xiàn)梳理發(fā)現(xiàn),地名自動(dòng)識(shí)別研究主要采用命名實(shí)體識(shí)別技術(shù)中基于統(tǒng)計(jì)的方法。現(xiàn)階段,基于統(tǒng)計(jì)的方法比較常用的模型有三種,即隱馬爾科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)和條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)。其中,條件隨機(jī)場(chǎng)模型是J.Lafferty等[20]在隱馬爾科夫模型和最大熵模型的基礎(chǔ)上提出的,突破了隱馬爾科夫模型的嚴(yán)格獨(dú)立性假設(shè)限制,優(yōu)化了最大熵模型的歸一化處理,從而解決了標(biāo)注偏差的問(wèn)題,能夠靈活地融合上下文的多種特征,基于條件概率處理序列標(biāo)注問(wèn)題,有成熟的開(kāi)源工具,在中文分詞領(lǐng)域有著良好的性能和廣泛的應(yīng)用。

      方志古籍語(yǔ)料在行文結(jié)構(gòu)和時(shí)空范圍等方面具有獨(dú)特性,其數(shù)字化整理尚處于起步階段,面向數(shù)字人文領(lǐng)域的新方法應(yīng)用具有積極的探索意義。本文以《方志物產(chǎn)》山西分卷為語(yǔ)料,在全文人工標(biāo)注的基礎(chǔ)上,基于條件隨機(jī)場(chǎng)和標(biāo)注語(yǔ)料庫(kù)構(gòu)建地名自動(dòng)識(shí)別模型;采用10次交叉驗(yàn)證方法測(cè)試模型的識(shí)別性能,尋找最優(yōu)方案。本研究通過(guò)探討條件隨機(jī)場(chǎng)模型在方志古籍地名自動(dòng)識(shí)別的應(yīng)用前景,以期為方志古籍整理與利用提供新的途徑。

      2 語(yǔ)料庫(kù)介紹及地名特征分析

      2.1 語(yǔ)料庫(kù)介紹

      目前,有關(guān)古漢語(yǔ)地名自動(dòng)識(shí)別的研究成果相對(duì)較少,且使用的語(yǔ)料庫(kù)在規(guī)模、類(lèi)型上各有不同,尚未發(fā)現(xiàn)基于全文手工標(biāo)注的方志古籍地名自動(dòng)識(shí)別研究。方志古籍是我國(guó)古籍文獻(xiàn)的大宗,據(jù)《中國(guó)地方志聯(lián)合目錄》統(tǒng)計(jì),保存至今的宋至民國(guó)時(shí)期的方志多達(dá)8 264種,11萬(wàn)余卷,約占中國(guó)古籍的十分之一。20世紀(jì)50年代,我國(guó)著名農(nóng)史學(xué)家、農(nóng)史學(xué)科創(chuàng)始人之一萬(wàn)國(guó)鼎先生,組織數(shù)十人前往全國(guó)40多個(gè)大中型城市的100多個(gè)文史單位,從近7 000部地方志中手工摘抄物產(chǎn)部分,編纂成《方志物產(chǎn)》叢書(shū),藏于南京農(nóng)業(yè)大學(xué)圖書(shū)館。目前,《方志物產(chǎn)》是國(guó)內(nèi)外唯一一套手工整理的方志農(nóng)業(yè)專(zhuān)題資料,全文共431卷、3 000余萬(wàn)字,包含省志、府州志、縣志、鄉(xiāng)志、邊關(guān)志、山川志等多種類(lèi)型的志書(shū),記載從宋熙寧九年(1076)至民國(guó)三十八年(1949)全國(guó)范圍內(nèi)動(dòng)物、植物、貨物等物產(chǎn)信息,尤其以品種資源和種植、飼養(yǎng)、利用技術(shù)為主,為農(nóng)業(yè)史、區(qū)域史等人文學(xué)科研究提供了豐富的資料[21]375。《方志物產(chǎn)》語(yǔ)料樣例見(jiàn)圖1。

      2.2 語(yǔ)料庫(kù)數(shù)字化整理概況

      近年來(lái),借助現(xiàn)代信息技術(shù),《方志物產(chǎn)》數(shù)字化整理研究取得了一定進(jìn)展。王思明教授研究團(tuán)隊(duì)完成了《方志物產(chǎn)》從紙質(zhì)手抄本到電子文本的數(shù)字化工作,解決了資料多形態(tài)保存的問(wèn)題,促進(jìn)了資源的檢索、傳播和利用[22];衡中青以《方志物產(chǎn)》廣東分卷為語(yǔ)料,探索了基于規(guī)則的命名實(shí)體識(shí)別方法在別名、引書(shū)自動(dòng)識(shí)別上的應(yīng)用,開(kāi)辟了《方志物產(chǎn)》數(shù)字化整理的先河[23]。黃建年以包括《方志物產(chǎn)》廣東分卷在內(nèi)的13種農(nóng)業(yè)古籍為數(shù)據(jù)來(lái)源,進(jìn)行了自動(dòng)分詞研究,《方志物產(chǎn)》,分詞正確率達(dá)到了92%[24];朱鎖玲以廣東、福建、臺(tái)灣三省的《方志物產(chǎn)》為研究對(duì)象,在地名識(shí)別的基礎(chǔ)上,嘗試引入GIS技術(shù),可視化展示物產(chǎn)在地域上的分布和傳播,進(jìn)一步推動(dòng)了《方志物產(chǎn)》的數(shù)字化整理工作[25]。筆者以《方志物產(chǎn)》山西分卷為例,在梳理和分析物產(chǎn)的分類(lèi)信息特征的前提下,重構(gòu)了一套物產(chǎn)分類(lèi)體系,并實(shí)現(xiàn)了物產(chǎn)分類(lèi)信息的自動(dòng)化完善,為基于分類(lèi)的物產(chǎn)信息處理打下了基礎(chǔ)[26]。

      《方志物產(chǎn)》手抄紙本數(shù)字化工作為本研究的開(kāi)展提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),基于文本內(nèi)容的數(shù)字化整理探索為本文進(jìn)行研究方法的選擇和研究思路的設(shè)計(jì)提供了借鑒。

      2.3 語(yǔ)料庫(kù)中地名分析

      中文地名起源早、類(lèi)型多,處于不斷的發(fā)展演變進(jìn)程中,具有明顯的普遍性、地域性、民族性、穩(wěn)定性、時(shí)代性等特征[27],且數(shù)量龐大、用字自由、長(zhǎng)度不一、結(jié)構(gòu)復(fù)雜,導(dǎo)致中文地名的識(shí)別難度較大。現(xiàn)代漢語(yǔ)中地名自動(dòng)識(shí)別可以參考地名庫(kù)、前綴介詞以及結(jié)束詞等內(nèi)容,其中,地名庫(kù)收錄了絕大部分的現(xiàn)用地名,有助于識(shí)別結(jié)果的判別;前綴介詞如“去、在”等,有助于地名起始位置的判斷;結(jié)束詞為“省、市、區(qū)、縣、鄉(xiāng)、鎮(zhèn)、村、莊”等,有助于地名結(jié)束位置的判斷。

      相比較而言,古漢語(yǔ)地名自動(dòng)識(shí)別要復(fù)雜得多,沒(méi)有成熟的地名庫(kù)為參照,正異體字或者訛字等現(xiàn)象的存在導(dǎo)致識(shí)別難度更大。尤其是方志古籍,時(shí)間跨度大、空間范圍廣,時(shí)代性和地域性較為突出,地名特征呈現(xiàn)多樣化。

      (1)舊名為主。文中出現(xiàn)的地名多為舊稱(chēng),與現(xiàn)代地名有著很大的差別,例如市級(jí)行政單位,山西省如今有“大同市、朔州市、忻州市、呂梁市、太原市、陽(yáng)泉市、臨汾市、晉中市、長(zhǎng)治市、晉城市、運(yùn)城市”等11個(gè),而方志古籍中對(duì)應(yīng)級(jí)別的府州有19個(gè),分別是“大同府、朔平府、保德州、寧武府、代州、忻州、平定州、太原府、遼州、汾州、沁州、隰州、霍州、潞安州、平陽(yáng)府、澤州府、絳州、蒲州、解州”。

      (2)范圍多樣。方志古籍中包含的地名表示的地域范圍大小不一,有些地名表示的范圍較大,有國(guó)家級(jí)單位如“西域、頗陵國(guó)、大宛國(guó)”等,有省級(jí)單位如“山西、河南”等、有府州級(jí)單位如“太原府、平陽(yáng)府、保德州”等、有縣級(jí)單位如“陽(yáng)曲縣、河津縣”等、有村級(jí)單位如“下石門(mén)村、翟家橋村”等,也有特定的山川河流寺廟如“汾州眾香寺、石姑山、晉祠”等,還有一些泛指的地名如“河?xùn)|山谷、北鄉(xiāng)近水村落、北山一帶”等。

      (3)簡(jiǎn)、全并存。在方志古籍的記載中,地名表達(dá)的完善程度不統(tǒng)一,有些地名記述的比較完整,如“太原縣、廣昌縣”等,有些地名則是使用的簡(jiǎn)稱(chēng),如“澤、潞”等,這種現(xiàn)象導(dǎo)致一部分地名有特定的結(jié)尾詞,而另一部分則沒(méi)有,如“府、州、縣、村、山”等。

      (4)左右邊界。經(jīng)過(guò)文本分析,部分地名在上下文中有一定的規(guī)律性,即有著比較明顯的前后綴詞,如“出……、俱……出、產(chǎn)于……、……貢”等。

      (5)出現(xiàn)方式。地名出現(xiàn)的方式有多種,有單獨(dú)出現(xiàn),如“冬瓜 出太原縣”,有多個(gè)地名組合出現(xiàn),如“丁香 左云馬邑有”。

      除了上述幾種典型的情況,方志古籍中地名還有其他類(lèi)型特征??偠灾?,古今地名的差異大,無(wú)法參照現(xiàn)有地名庫(kù)進(jìn)行結(jié)果判別;語(yǔ)料書(shū)寫(xiě)采用繁體字,夾雜著大量的正異體字、訛字、組成字等,復(fù)雜程度高;文本中沒(méi)有任何句讀,分析難度大。所以,方志古籍中地名自動(dòng)識(shí)別相對(duì)困難。已有研究使用基于規(guī)則的方法進(jìn)行了地名自動(dòng)抽取探索,準(zhǔn)確率、召回率和F值分別為63.38%、82.89%、71.83%[25]95,識(shí)別效果還有很大的提升空間。

      3 語(yǔ)料預(yù)處理及地名內(nèi)外部特征分析

      3.1 人工標(biāo)注

      本文以《方志物產(chǎn)》山西分卷作為研究語(yǔ)料。語(yǔ)料庫(kù)共13卷,約43萬(wàn)字,記載了自明成化二十一年(1485)至民國(guó)二十九年(1940)山西境內(nèi)的51 545條物產(chǎn)信息,分為植物、動(dòng)物、貨物三大類(lèi)別。山西,又稱(chēng)“三晉”,地處中原,位于黃河之濱,是中華民族的發(fā)祥地之一,有文字記載的歷史達(dá)三千余年,自古以來(lái),農(nóng)業(yè)發(fā)達(dá),物產(chǎn)豐富,被譽(yù)為“華夏文明搖籃”,有“中國(guó)古代文化博物館”之稱(chēng)。因此,以山西分卷為例進(jìn)行地名自動(dòng)識(shí)別研究,能夠代表黃河流域甚至更廣范圍的情況,為全國(guó)范圍內(nèi)《方志物產(chǎn)》中命名實(shí)體識(shí)別提供借鑒。

      進(jìn)行地名人工標(biāo)注的過(guò)程中,首先,要從語(yǔ)料庫(kù)中篩選出具有備注信息的物產(chǎn),共得到9 085條語(yǔ)料。然后,制定標(biāo)注規(guī)范,“L”標(biāo)注類(lèi)型為地名,“【”與“】 ”表示地名的左右邊界,因此,完整的地名標(biāo)注方式為“……【L地名】……”,如“桐出【L汾陽(yáng)】【L介休】【L孝義】一名白桐體最輕虛不生蟲(chóng)蛀斲琴最良一名青桐即梧桐也其子可炒作果立秋日必墜一葉詩(shī)云梧桐一葉落天下盡知秋”。最終,與物產(chǎn)“桐”相關(guān)的地名標(biāo)注結(jié)果為“汾陽(yáng)”“介休”“孝義”,所有語(yǔ)料中共標(biāo)注出地名2 287次。

      3.2 標(biāo)注集的生成

      在進(jìn)行地名識(shí)別模型的構(gòu)建和自動(dòng)識(shí)別之前,要先對(duì)標(biāo)注語(yǔ)料進(jìn)行預(yù)處理,把語(yǔ)料拆分成單字并添加標(biāo)識(shí)符,生成標(biāo)注集。為了區(qū)分地名和非地名用字的差別,本文采用四位標(biāo)注集,即P={B,M,E,S},其中,B代表地名的初始字,M代表地名的中間字,E代表地名的結(jié)束字,S代表地名以外的字,M位于B、E之間,S位于B、E之外,可以是B之前,也可以是E之后。如經(jīng)過(guò)手工標(biāo)記的語(yǔ)料“五靈脂 即寒號(hào)蟲(chóng)糞出【L太原諸山】 ”,標(biāo)注集的生成結(jié)果如表1所示:

      表1 方志古籍地名標(biāo)注集樣例

      經(jīng)過(guò)標(biāo)注集的生成,將標(biāo)注語(yǔ)料處理成具有特定標(biāo)識(shí)符的單字,能夠?yàn)榈孛笥疫吔缣卣鞯慕y(tǒng)計(jì)提供便利,左右邊界是特征模板的重要組成部分,影響地名自動(dòng)識(shí)別模型的功能完善和識(shí)別效果。

      3.3 地名內(nèi)外部特征分析

      在人工標(biāo)注和標(biāo)注集的基礎(chǔ)上,對(duì)地名的外部特征進(jìn)行統(tǒng)計(jì)分析,將結(jié)果作為參數(shù)融入模型構(gòu)建中,以保證地名自動(dòng)識(shí)別模型的準(zhǔn)確率和召回率。本研究中,地名的內(nèi)部特征主要是指地名的長(zhǎng)度和出現(xiàn)的頻次,外部特征主要是指地名的左右一元邊界詞。

      (1)地名的內(nèi)部特征分析

      地名的長(zhǎng)度就是組成地名的漢字個(gè)數(shù)。通過(guò)地名長(zhǎng)度的統(tǒng)計(jì)分析,可以幫助確定識(shí)別序列的跨度。標(biāo)注語(yǔ)料中共提取出人工標(biāo)注的地名2 287個(gè)。經(jīng)過(guò)長(zhǎng)度統(tǒng)計(jì),地名的長(zhǎng)度有“1、2、3、4、5、6、7、11”等八種類(lèi)型。從詞頻統(tǒng)計(jì)結(jié)果看,長(zhǎng)度為1的地名有226個(gè),約占全部地名的9.88%;長(zhǎng)度為2的地名數(shù)量最多,有1 635個(gè),約占全部地名的71.49%;長(zhǎng)度為3的地名有307,約占全部地名的13.42%;長(zhǎng)度為7和11的地名最少,分別只有3個(gè)和2個(gè),如“芮城北山地黃村”“壽陽(yáng)縣西南六十里建工村”??梢?jiàn),地名的長(zhǎng)度主要集中在1、2、3上,共有2 168個(gè),約占地名總數(shù)的94.80%,涵蓋了絕大多數(shù)的地名。地名長(zhǎng)度的統(tǒng)計(jì)分析有助于識(shí)別過(guò)程中地名長(zhǎng)度的判斷。

      地名的頻次是指地名的記載次數(shù)。對(duì)語(yǔ)料庫(kù)中人工標(biāo)注的地名進(jìn)行去重處理,得到430個(gè)不同的地名,平均每個(gè)地名出現(xiàn)約5.32次。其中,出現(xiàn)次數(shù)高于15的地名共有27個(gè),出現(xiàn)次數(shù)最高的為“太原”,共出現(xiàn)了93次,其次是“平陽(yáng)”,出現(xiàn)了89次,第三是“安邑”和“夏縣”各出現(xiàn)了20次。這27個(gè)高頻地名共出現(xiàn)了926次,約占整個(gè)地名的40.49%。高頻地名的準(zhǔn)確識(shí)別,是地名自動(dòng)識(shí)別模型性能的基本保證。

      (2)地名的外部特征分析

      假設(shè)我們把一條語(yǔ)料表示成“SLn,…,SLi,…,SL1,【R,R1,…Rn】,SR1,…,SRj,…,SRn”,其中【R,R1,…Rn】表示地名,SLi表示地名的左邊界,SRj表示地名的右邊界,如SL1、SR1分別為地名的左右一元邊界詞,SL1、SL1和SR1、SR1分別為地名的左二元邊界詞。本研究使用的機(jī)器學(xué)習(xí)模型主要參考左右一元邊界詞。方志古籍中地名的左右一元邊界詞,即SL1、SR1,可以運(yùn)用公式(1)獲取和分析。

      其中,為在語(yǔ)料中出現(xiàn)的頻率,為邊界詞在邊界詞位置上出現(xiàn)的次數(shù),為邊界詞在語(yǔ)料庫(kù)中出現(xiàn)的總次數(shù)。經(jīng)過(guò)計(jì)算統(tǒng)計(jì),地名高頻左右一元邊界詞的分布情況如表2所示。

      表2 地名的左、右一元邊界詞統(tǒng)計(jì)結(jié)果

      統(tǒng)計(jì)結(jié)果顯示,地名的左一元邊界詞比較集中,頻次最高的10個(gè)左一元邊界詞占所有左一元邊界詞的比例為55.94%,其中,“出”的出現(xiàn)次數(shù)最多,如“出太原縣”等,而“載”的出現(xiàn)概率最高,如“即馬藺子也俗呼馬揀子平陽(yáng)出本草載冀州”等;地名的右一元邊界詞相對(duì)分散,頻次最高的10個(gè)右一元邊界詞占所有右一元邊界詞的比例僅為39.71%,其中,仍然是“出”的出現(xiàn)次數(shù)最多,如“五臺(tái)山出”等,而“境”的出現(xiàn)頻次最高,如“出太原府境”等。

      4 地名自動(dòng)識(shí)別模型的構(gòu)建與測(cè)評(píng)

      4.1 模型構(gòu)建

      條件隨機(jī)場(chǎng)是一種判別式的概率圖模型,主要用于在給定需要標(biāo)記的觀察序列的條件下,定義標(biāo)簽序列的概率分布。設(shè)圖G=(V,E)是一個(gè)無(wú)向圖,Y為標(biāo)注序列,X為待標(biāo)注序列,令如果服從馬爾科夫?qū)傩?,則(X,Y)構(gòu)成一個(gè)條件隨機(jī)場(chǎng),滿(mǎn)足表示是相鄰的節(jié)點(diǎn)。

      在構(gòu)建CRF模型時(shí),語(yǔ)料中上下文的特征都應(yīng)該加進(jìn)去,以提高模型的性能。本研究的模型中主要加入上文所分析的地名內(nèi)外部特征,即長(zhǎng)度、頻次、邊界詞等。

      (1)地名長(zhǎng)度。如上所述,方志古籍語(yǔ)料中,最常見(jiàn)的地名長(zhǎng)度為2,如“酸棗仁 【L太原】【L迤南】【L平陽(yáng)】【L汾】【L沁】【L澤州】俱出本草載【L河?xùn)|】”,絕大多數(shù)的地名長(zhǎng)度都在1至3的范圍內(nèi),長(zhǎng)度為1的如“兔絲子 【L蒲】 【L絳】二州出”,長(zhǎng)度為3的如“銅出【L鳳游峪】并出蟾酥”。地名長(zhǎng)度用阿拉伯?dāng)?shù)字表示,作為一個(gè)重要特征加入識(shí)別模型。

      (2)一元邊界詞。地名的識(shí)別過(guò)程中,一旦確定了左右一元邊界詞,地名的具體位置就鎖定了,地名也就被識(shí)別出來(lái)了。因此,地名的左右一元邊界詞是模型構(gòu)建中一個(gè)極為重要的特征。在前文的統(tǒng)計(jì)中,地名的左一元邊界詞和右一元邊界詞的前10名分別為“出、有、者、平、俱、馬、貢、境、等、潞”和“出、有、者、平、俱、馬、貢、境、等、潞”。在模型訓(xùn)練時(shí),標(biāo)注出左右一元邊界詞,左一元邊界詞標(biāo)注為L(zhǎng),右一元邊界詞標(biāo)注為R,非一元邊界詞則標(biāo)注為N,并作為特征加入模型之中,例如語(yǔ)料“棗 史記雲(yún)【L安邑】千樹(shù)棗其人與千戶(hù)侯等”,語(yǔ)料訓(xùn)練結(jié)果如表3所示。

      表3 一元邊界詞的標(biāo)注樣例

      4.2 模型測(cè)評(píng)

      命名實(shí)體識(shí)別采用三個(gè)指標(biāo)對(duì)模型的識(shí)別效果進(jìn)行綜合評(píng)價(jià),分別是精確率P、召回率R和調(diào)和平均數(shù)F[28]。見(jiàn)公式(2)-(4):

      其中,Correct是機(jī)器識(shí)別正確的地名數(shù)量,Incorrect是機(jī)器識(shí)別錯(cuò)誤的地名數(shù)量,Unrecognized是機(jī)器沒(méi)有識(shí)別出來(lái)的地名數(shù)量。

      為了得到更加科學(xué)和合理的測(cè)試結(jié)果,本研究采用10次交叉法驗(yàn)證模式的識(shí)別性能。將語(yǔ)料打亂順序隨機(jī)排列后,平均分成10等份,每次選取其中的9份作為訓(xùn)練語(yǔ)料,用于構(gòu)建地名自動(dòng)識(shí)別模型,將剩余的1份作為測(cè)試語(yǔ)料,對(duì)模型的性能進(jìn)行訓(xùn)練和評(píng)價(jià),共進(jìn)行10次實(shí)驗(yàn),以獲得最優(yōu)的地名自動(dòng)識(shí)別模型。實(shí)驗(yàn)結(jié)果見(jiàn)表4。

      整體而言,基于CRF模型識(shí)別的精確率最高,平均值達(dá)到了95.48%,召回率相對(duì)較低,為86.04%,調(diào)和平均值達(dá)到了90%以上,即模型的識(shí)別結(jié)果中地名正確率較高,但是占全部應(yīng)識(shí)別出的地名比例稍低。就單次測(cè)試結(jié)果而言,第9份測(cè)試的整體效果最好,該測(cè)試語(yǔ)料中,地名的內(nèi)外部特征與識(shí)別模型的特征模板吻合度最高,為更大規(guī)模、更多類(lèi)型的語(yǔ)料庫(kù)進(jìn)行更加精準(zhǔn)的人工標(biāo)注、語(yǔ)料劃分和模型構(gòu)建提供了研究基礎(chǔ)和借鑒。

      表4 地名自動(dòng)識(shí)別模型的測(cè)試結(jié)果

      對(duì)錯(cuò)誤的識(shí)別結(jié)果進(jìn)行分析,發(fā)現(xiàn)錯(cuò)誤的原因主要集中在以下幾個(gè)方面。一是非常規(guī)地名,如“惟西山中間有之”,句中“西山中間”不是一個(gè)具體的地名;二是不常見(jiàn)地名,如“訓(xùn)峪後溝等十?dāng)?shù)村均産”,句中“訓(xùn)峪後溝等十?dāng)?shù)村”屬于較少出現(xiàn)的小級(jí)別行政單位;三是長(zhǎng)度較大地名,如“產(chǎn)縣西石明村藺相如墓上俗言童子入學(xué)佩之多聰慧”,句中“縣西石明村藺相如墓”為長(zhǎng)度較長(zhǎng)的地名,以上三種屬于容易漏識(shí)的情況。還有容易錯(cuò)識(shí)的情況,一種情況是單字地名并列出現(xiàn),如“忻代岢嵐遼州翼城縣諸山上出”,句中“忻代”被錯(cuò)誤地作為一個(gè)地名識(shí)別出來(lái);另一種情況是長(zhǎng)度判斷偏差,如“一統(tǒng)志出代州鳳游峪今閉塞”,模型僅識(shí)別出“代州”,而不是完整地名“代州鳳游峪”。在未來(lái)的研究中,要降低甚至消除錯(cuò)誤情況的影響,不斷提升模型的識(shí)別性能。

      5 結(jié)語(yǔ)

      本文以《方志物產(chǎn)》山西分卷為例,在全文人工標(biāo)注的基礎(chǔ)上,統(tǒng)計(jì)分析地名特征,基于條件隨機(jī)場(chǎng)構(gòu)建了方志古籍地名自動(dòng)識(shí)別模型,并通過(guò)10次交叉方法,測(cè)試了模型的識(shí)別性能。結(jié)果顯示,本研究能夠取得較好的識(shí)別效果,其中,準(zhǔn)確率、召回率和F值分別為98.16%、91.55%、94.57%的模型為方志古籍地名識(shí)別的最佳模型,相較于已有研究中基于規(guī)則的方法平均提高了20%以上。

      方志古籍類(lèi)型多、規(guī)模大,本文僅以山西一省語(yǔ)料為例完成探索,語(yǔ)料規(guī)模和地域范圍較小,識(shí)別效果仍有提升的空間,可以從以下幾個(gè)方面逐步完善識(shí)別模型。

      (1)提高人工標(biāo)注的準(zhǔn)確度。人工標(biāo)注是地名自動(dòng)識(shí)別模型構(gòu)建的基礎(chǔ)工作,其準(zhǔn)確程度影響特征模板內(nèi)容、模型功能和測(cè)試結(jié)果,因此,要盡可能地減少錯(cuò)標(biāo)、漏標(biāo)的次數(shù),保證標(biāo)注的準(zhǔn)確率。

      (2)提高地名長(zhǎng)度判斷功能。方志古籍中,地名的表述不統(tǒng)一,同一個(gè)地名有時(shí)會(huì)以不同的稱(chēng)呼出現(xiàn),有些是因?yàn)槊Q(chēng)變遷,有些是因?yàn)槿Q(chēng)和簡(jiǎn)稱(chēng)的使用,例如“潞安府”就有“潞安”“潞安府”“潞州”“潞”等不同的名稱(chēng),因此,在地名識(shí)別的過(guò)程中,如何更加準(zhǔn)確地判斷一個(gè)地名的長(zhǎng)度,是一項(xiàng)仍需加強(qiáng)的研究。

      (3)提高邊界區(qū)分能力。在描述一個(gè)多處均有產(chǎn)出的物產(chǎn)時(shí),往往會(huì)連續(xù)記載一系列地名,而且不同地名之間沒(méi)有明顯的字符隔開(kāi),難以判斷左右邊界,如“柘 【L太原】【L平陽(yáng)】【L潞安】【L汾】【L沁】【L遼】【L澤】境內(nèi)俱出惟【L高平縣】有萬(wàn)條桑”,并列出現(xiàn)的地名之中,長(zhǎng)短不一,識(shí)別難度大,需要更加深入的探索。

      (4)擴(kuò)大語(yǔ)料庫(kù)規(guī)模?!斗街疚锂a(chǎn)》山西分卷作為本研究的語(yǔ)料,包含地名信息的物產(chǎn)信息僅有1 308條,規(guī)模相對(duì)較小。隨著研究的逐步深入,逐步擴(kuò)大研究的地域范圍,在更大規(guī)模人工標(biāo)注的語(yǔ)料上,基于條件隨機(jī)場(chǎng)的方志古籍地名自動(dòng)識(shí)別模型將會(huì)取得更好的效果。

      多年來(lái)圖書(shū)館數(shù)字化建設(shè)成果,為數(shù)字人文的開(kāi)展奠定了數(shù)據(jù)基礎(chǔ),各種數(shù)字人文方法和工具的不斷成熟,為館藏資源的開(kāi)發(fā)利用提供了技術(shù)保障。在數(shù)字人文研究不斷探索的過(guò)程中,圖書(shū)館要做好館藏資料的保護(hù)開(kāi)發(fā)和開(kāi)放利用,逐漸拓展研究視野和研究方法,更要重視文獻(xiàn)之間的關(guān)聯(lián)性和多學(xué)科融合合作,逐步提升服務(wù)和創(chuàng)新能力,成為人和社會(huì)全面發(fā)展的知識(shí)庫(kù)和信息源。

      (來(lái)稿時(shí)間:2017年9月)

      參考文獻(xiàn):

      1.Digital humanities [EB/OL].[2017-05-29].https://en.wikipe dia.org/wiki/Digital_humanities.

      2.Library and information science and digital humanities: two disciplines, joint future? [EB/OL].[2017-05-29].https://core.ac.uk/download/pdf/30446946.pdf.

      3.Dalbello M.A genealogy of digital humanities [J].Journal of Documentation, 2011, 67(3):480-506.

      4.李啟虎,尹力,張全.信息時(shí)代的人文計(jì)算[J].科學(xué),2015, 67(1):35-39.

      5.吳建中.再議圖書(shū)館發(fā)展的十個(gè)熱門(mén)話(huà)題[J].中國(guó)圖書(shū)館學(xué)報(bào), 2017, 43(4):4-17.

      6.白壽彝.中國(guó)通史(第1卷)導(dǎo)論[M].上海:上海人民出版社,1989:292-294.

      7.唐旭日,陳小荷,許超,等.基于篇章的中文地名識(shí)別研究[J].中文信息學(xué)報(bào),2010, 24(2):24-33.

      8.孫虹,陳俊杰.雙層CRF與規(guī)則相結(jié)合的中文地名識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(11):175-177.

      9.邱莎,阿圓,王付艷,等.基于統(tǒng)計(jì)的中文地名自動(dòng)識(shí)別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011, 21(11):35-38.

      10.李麗雙,黨延忠,廖文平,等.CRF與規(guī)則相結(jié)合的中文地名識(shí)別[J].大連理工大學(xué)學(xué)報(bào),2012, 52(2):285-289.

      11.黃德根,岳廣玲,楊元生.基于統(tǒng)計(jì)的中文地名識(shí)別[J].中文信息學(xué)報(bào),2003, 17(2):37-42.

      12.黃德根,孫迎紅.中文地名的自動(dòng)識(shí)別[J].計(jì)算機(jī)工程,2006, 32(3):220-222.

      13.李穎,王青海,池毓煥.句類(lèi)分析準(zhǔn)則在作戰(zhàn)文書(shū)地名識(shí)別中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2013, 34(8):2903-2907.

      14.鄔倫,劉磊,李浩然,等.基于條件隨機(jī)場(chǎng)的中文地名識(shí)別方法[J].武漢大學(xué)學(xué)報(bào)·信息科學(xué)版,2017, 42(2):150-156.

      15.肖磊.先秦地名知識(shí)庫(kù)構(gòu)建[D].南京師范大學(xué),2010.

      16.黃水清,王東波,何琳.基于先秦語(yǔ)料庫(kù)的古漢語(yǔ)地名自動(dòng)識(shí)別模型構(gòu)建研究[J].圖書(shū)情報(bào)工作,2015(12):135-140.

      17.王錚.基于CRF的古籍地名自動(dòng)識(shí)別研究[D].廣西民族大學(xué),2008.

      18.朱鎖玲,包平.方志類(lèi)古籍地名識(shí)別及分析研究——以《 方志物產(chǎn)》(廣東分卷)為例[J].圖書(shū)館論壇,2012, 32(4):171-176.

      19.朱鎖玲,包平.方志類(lèi)古籍地名識(shí)別及系統(tǒng)構(gòu)建[J].中國(guó)圖書(shū)館學(xué)報(bào),2011, 37(3):118-124.

      20.Lafferty J D, Mccallum A, Pereira FCN.Conditional Random Fields: Probabilistic Models For Segmenting And Labeling Sequence Data [C].2001:282-289.

      21.王思明,陳少華.萬(wàn)國(guó)鼎文集[M].北京:中國(guó)農(nóng)業(yè)科學(xué)技術(shù)出版社,2005:375.

      22.胡以濤,宋葉.抄寫(xiě)本方志古籍?dāng)?shù)字化整理與實(shí)踐[J].圖書(shū)館理論與實(shí)踐,2014(8):101-103.

      23.衡中青.地方志知識(shí)組織及內(nèi)容挖掘研究[D].南京農(nóng)業(yè)大學(xué),2007.

      24.黃建年.農(nóng)業(yè)古籍的計(jì)算機(jī)斷句標(biāo)點(diǎn)與分詞標(biāo)引研究[D].南京農(nóng)業(yè)大學(xué),2009.

      25.朱鎖玲.命名實(shí)體識(shí)別在方志內(nèi)容挖掘中的應(yīng)用研究[D].南京農(nóng)業(yè)大學(xué),2011.

      26.李娜,包平.基于《方志物產(chǎn)》的物產(chǎn)分類(lèi)體系智能化研究——以《方志物產(chǎn)》山西分卷為例[J].中國(guó)農(nóng)史,2016,35(4):31-38.

      27.董曉曉.中國(guó)地名的人文地理特征及其空間分布研究[D].山西師范大學(xué),2012.

      28.Atterer M, Schütze H.Prepositional phrase attachment without oracles [J].Computational Linguistics, 2007, 33(4):469-476.

      猜你喜歡
      物產(chǎn)自動(dòng)識(shí)別方志
      飛速發(fā)展的順平縣物產(chǎn)有限公司
      Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
      物產(chǎn)環(huán)能:凈利潤(rùn)兩版本 業(yè)績(jī)陷“羅生門(mén)”
      黑龍江民國(guó)方志所刊名家墨跡選
      自動(dòng)識(shí)別系統(tǒng)
      特別健康(2018年3期)2018-07-04 00:40:18
      嘉絨藏族地區(qū)的舊方志編纂
      西藏研究(2017年1期)2017-06-05 09:26:11
      金屬垃圾自動(dòng)識(shí)別回收箱
      物產(chǎn)美食
      基于IEC61850的配網(wǎng)終端自動(dòng)識(shí)別技術(shù)
      Average Incremenral Correlarion Analysis Model and Irs Applicarion in Faulr Diagnosis
      应用必备| 犍为县| 黎川县| 宜章县| 广南县| 湘西| 南江县| 拉萨市| 沙河市| 崇文区| 福海县| 望城县| 镇安县| 香格里拉县| 平乡县| 临漳县| 双牌县| 特克斯县| 仪征市| 博兴县| 广水市| 饶平县| 红河县| 德钦县| 诸暨市| 福州市| 清水县| 呼图壁县| 太湖县| 桂平市| 耒阳市| 樟树市| 宝山区| 平遥县| 泽普县| 乐山市| 尼木县| 牟定县| 集贤县| 鱼台县| 鄂托克前旗|