李文英 曹斌 曹春水 黃永禎
青銅器是商周時(shí)代社會(huì)祭祀和戰(zhàn)爭(zhēng)的主要工具,通過對(duì)青銅器的造型、工藝、紋飾、銘文等的研究,可以深入了解古代社會(huì)的政治經(jīng)濟(jì)文化.其中,鑄有銘文的青銅器,因其遺留了古文字材料,更是古文字學(xué)、語言學(xué)、考古學(xué)及古代史研究的重要研究對(duì)象.目前保存的青銅器中,鑄有銘文的有上萬件[1],其中西周至春秋時(shí)期,可供研究的古文字材料主要都是青銅器銘文,可見青銅器銘文無論從其本身的古文字學(xué)意義,還是其所著述的內(nèi)容而言,都具有極大的研究?jī)r(jià)值.釋讀古文字,一般先識(shí)其形,通其音,然后識(shí)其義[2].古文字形體筆畫復(fù)雜,變化繁多,且古文字是不統(tǒng)一的,各地方各時(shí)代都有不同的寫法,想要釋讀古文字,須得熟知古文字最初的形狀,如象形字、形聲字、假借字,以及指事、會(huì)意、轉(zhuǎn)注等構(gòu)字方法[3],還須參證甲骨文、戰(zhàn)國(guó)文字,熟讀《說文解字》等這種古文字字典,難度很大,有學(xué)者甚至將其歸之為“絕學(xué)以內(nèi)”.簡(jiǎn)而言之,釋讀青銅器銘文要求研究者具有廣博的知識(shí)基礎(chǔ)和訓(xùn)練,是一項(xiàng)極具挑戰(zhàn)的任務(wù).
隨著計(jì)算機(jī)技術(shù)特別是圖像識(shí)別技術(shù)的高速發(fā)展,以圖像識(shí)別技術(shù)為基礎(chǔ),結(jié)合古文字特別是甲骨文的研究基礎(chǔ),進(jìn)行古文字識(shí)別已成為可能.本文提出一種新的青銅器銘文識(shí)別研究方法,應(yīng)用圖像識(shí)別技術(shù)來識(shí)別青銅器銘文,以期望能更準(zhǔn)確、更廣泛地識(shí)別出青銅器銘文,或得出銘文的最大相似度文字,為進(jìn)一步釋讀文字提供基礎(chǔ).其主要方法是:采集青銅器銘文文字圖像,同時(shí)也采集《古文字類編》[4]中甲骨文、金文以及《說文解字》中相同文字的圖像,提取出每個(gè)古文單字,然后采用深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)提取圖像特征來識(shí)別青銅器銘文,得出識(shí)別的結(jié)果或者推薦結(jié)果.
本文的主要貢獻(xiàn)有以下幾個(gè)方面:1)首次提出了一種基于CNN的青銅器銘文識(shí)別模型,采用兩階段距離約束對(duì)應(yīng),相應(yīng)地設(shè)計(jì)了兩階段特征映射的神經(jīng)網(wǎng)絡(luò)模型來提取每個(gè)文字的形體特征,最后對(duì)比目前已知的文字研究成果,取得了令人滿意的效果,大幅縮小了考古研究者的搜索推測(cè)空間,有效提高了考古過程青銅銘文識(shí)別的效率和準(zhǔn)確性;2)構(gòu)建了首個(gè)數(shù)字化的青銅器銘文數(shù)據(jù)庫(kù),包含77個(gè)古文字共2102張圖片.該數(shù)據(jù)庫(kù)對(duì)采用深度學(xué)習(xí)模型進(jìn)行青銅銘文識(shí)別的技術(shù)路線提供了一個(gè)很好的試驗(yàn)田,也為將來采集更大規(guī)模數(shù)據(jù)庫(kù)奠定了基礎(chǔ).
本文的組織架構(gòu)如下:首先,在第1節(jié)簡(jiǎn)單介紹了圖像識(shí)別在古文字識(shí)別方面的研究現(xiàn)狀;然后,在第2節(jié)分?jǐn)⒐盼淖謳?kù)的搭建和銘文識(shí)別模型的設(shè)計(jì);并在第3節(jié)用定量和定性的實(shí)驗(yàn)分析了利用古文字偏旁分析法優(yōu)化銘文識(shí)別的模型效果;最后,總結(jié)該方法可改進(jìn)之處以及應(yīng)用前景.
青銅器銘文研究悠久,據(jù)史書記載最早的銘文考釋者是西漢晚期的張敞,至北宋即有專書著錄,描錄文字并加以考釋,或編為字典.近代以來,羅振玉和王國(guó)維參證甲骨文字研究銘文,郭沫若編成《兩周金文辭大系》,綜合兩周青銅器銘文,研究?jī)芍苌鐣?huì)的政治經(jīng)濟(jì)文化.在銘文考釋方面,容庚參照甲骨文字,編錄《金文編》,楊樹達(dá)的《積微居金文說》通釋銘文,中國(guó)社會(huì)科學(xué)院考古研究所編纂《殷周金文集成》,張亞初在《殷周金文集成引得》中提出12種銘文考釋之法[5]等.但商周青銅器金文仍有近四成未辨識(shí),有待考釋和解讀的字還有近三千個(gè);此外,青銅器銘文與甲骨文的對(duì)照研究,成果也尚屬有限[2].
當(dāng)前,多數(shù)研究仍以單個(gè)青銅器或某個(gè)考古地出土的青銅器物為對(duì)象進(jìn)行銘文的考釋、集釋或補(bǔ)釋為主要對(duì)象,研究范圍較小而局限,如劉源的“逨盤銘文考釋”、連劭名的“眉縣楊家村窖藏青銅器銘文考述”、祝振雷的《安徽壽縣蔡侯墓出土青銅器銘文集釋》、胡長(zhǎng)春、吳勁松的“近十年來(2001–2010)的殷周青銅器銘文研究綜述”、吳勁松的《近十年新出殷周青銅器銘文的整理輿研究》等;在研究方法上仍未有創(chuàng)新,多數(shù)研究者一般先引用王國(guó)維、楊樹達(dá)、唐蘭、郭沫若、容庚、陳夢(mèng)家、李學(xué)勤、裘錫圭等前輩學(xué)者的研究觀點(diǎn),而后佐證《說文》、《詩(shī)經(jīng)》、《爾雅》、《呂氏春秋》、《周易》等經(jīng)史典籍,最后從釋義、語法、構(gòu)字法上進(jìn)行簡(jiǎn)要分析,以得出自己的解釋.
在計(jì)算機(jī)識(shí)別古文字領(lǐng)域,目前多數(shù)的研究論文為甲骨文相關(guān)的,如周新綸的“甲骨文計(jì)算機(jī)識(shí)別方法研究”[6]、李峰的“甲骨文自動(dòng)識(shí)別的圖論方法”[7]、顧紹通的“基于拓?fù)渑錅?zhǔn)的甲骨文字形識(shí)別方法”[8]、呂肖慶的“一種基于圖形識(shí)別的甲骨文分類方法”[9]等,從研究成果來看,一般為應(yīng)用了計(jì)算機(jī)圖形、圖形拓?fù)涞确椒?有一定識(shí)別效果,但還難以達(dá)到滿意結(jié)果.在應(yīng)用最新的圖像識(shí)別技術(shù)方面,有王嘉梅“基于圖像分割的古彝文字識(shí)別系統(tǒng)研究”[10]、孫華的“基于多特征融合SVM 的古漢字圖像識(shí)別研究”[11]、孫瑩瑩的“基于混合核LS-SVM的古漢字圖像識(shí)別”[12]等,它們應(yīng)用了圖像分割、支持向量機(jī)等圖像識(shí)別技術(shù),識(shí)別古漢字,其研究對(duì)象為古彝文或古籍記錄的古文字,尚不知樣本采用規(guī)模(比如文獻(xiàn)[11])或者采用的樣本規(guī)模較小(文獻(xiàn)[12]僅用20個(gè)字共計(jì)140個(gè)樣本進(jìn)行測(cè)試),算法雖有效且準(zhǔn)確率不高(文獻(xiàn)[12]給出的最高準(zhǔn)確率為73%),此外這些研究均未結(jié)合古文字研究成果,未針對(duì)特定的考古材料進(jìn)行研究,因此研究成果尚無法有效應(yīng)用于考古.
在青銅器銘文識(shí)別方面,尚未發(fā)現(xiàn)有針對(duì)性的相關(guān)論文,僅發(fā)現(xiàn)陜西省考古研究院吳鎮(zhèn)鋒課題組開發(fā)的《金文通檢》系統(tǒng),利用輸入文字檢索和查閱青銅器銘文資料,尚未做到自動(dòng)識(shí)別和圖像識(shí)別.
圖像識(shí)別技術(shù)是人工智能的一個(gè)重要領(lǐng)域.近年來,深度學(xué)習(xí)的興起讓圖像識(shí)別技術(shù)越來越實(shí)用,特別地,卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛使用.CNN最早可以追溯到20世紀(jì)80年代末,其創(chuàng)建是基于20世紀(jì)60年代早期的人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)和多層感知機(jī)(Multi-layer perceptron,MLP).圖形處理器(Graphics processing unit,GPU)崛起以及GPU處理重復(fù)性任務(wù)的速度使得CNN開始大量投入使用.2012年,計(jì)算機(jī)視覺智能領(lǐng)域的工作取得了重大的飛躍,Krizhevsky[13]使用Deep CNN贏得了ImageNet[14]競(jìng)賽,成為了基于深度學(xué)習(xí)圖像識(shí)別技術(shù)發(fā)展的里程碑事件.經(jīng)過近幾年的研究發(fā)展,Deep CNN在目標(biāo)識(shí)別、目標(biāo)檢測(cè)、目標(biāo)分割等任務(wù)上都有非常出色的表現(xiàn),在ImageNet上,Deep CNN對(duì)普通物體的識(shí)別已經(jīng)超越了人類的表現(xiàn)[15],特別地,深度學(xué)習(xí)在文字識(shí)別方面也有了長(zhǎng)足的進(jìn)步[16?17].相關(guān)研究表明[15,18?20],Deep CNN是一個(gè)大型的復(fù)雜神經(jīng)網(wǎng)絡(luò),經(jīng)過海量數(shù)據(jù)訓(xùn)練后,Deep CNN內(nèi)部的神經(jīng)元學(xué)會(huì)了表達(dá)各種具有抽象語義的概念,比如各類目標(biāo)物的局部肢體,各種各樣的表征紋理等,甚至某些神經(jīng)元能夠表達(dá)完整的目標(biāo)物.這些抽象概念分布在神經(jīng)網(wǎng)絡(luò)不同層中,并最后形成了對(duì)目標(biāo)物整體的感知.Deep CNN具有強(qiáng)大的特征歸納能力,能夠抽取不同目標(biāo)的本質(zhì)特征并進(jìn)行準(zhǔn)確的目標(biāo)分類.
考古學(xué)及古文字學(xué)的研究發(fā)現(xiàn),古文字字體的演化過程是有跡可循的,古文字字體形態(tài)和書體風(fēng)格在各個(gè)時(shí)期的演化過程中是保留有一些特征和風(fēng)格的.如圖1所示,我們以“?!弊值母鞣N演化變體為例子.
圖1 “?!弊值母鞣N演化變體(包括甲骨文、青銅器銘文、篆書等)Fig.1 Various evolutionary shapes of character“?!?including oracle-bone,bronze inscription,seal character,etc.)
從圖1可以看出,“?!弊值难莼凅w在形態(tài)上不同,但都保持有一種內(nèi)在的特征一致性,尤其是其中的偏旁“人”,如圖2所示,很明顯具有相似的特征.
圖2 單人旁的不同形態(tài)Fig.2 Different shapes of character component“人”
再觀察“女”字(圖3)與“婦”字、“好”字(圖4),可以看出作為偏旁部首的“女”,在以它為基礎(chǔ)構(gòu)成的字中都具有顯著的一致性.
上述研究過程屬于古文字偏旁分析法,受這種研究思路的啟發(fā),我們將Deep CNN用于古文字識(shí)別的任務(wù):通過兩階段特征映射讓Deep CNN去學(xué)習(xí)古文字整體或部分(如偏旁)各種變體的一致性特征,然后將訓(xùn)練好的Deep CNN用于識(shí)別模型沒有見過的其他變體.模型設(shè)計(jì)細(xì)節(jié)將在后文展開描述.
圖3 “女”字的不同形態(tài)Fig.3 Different shapes of character“女”
圖4 “婦”字和“好”字的不同形態(tài)Fig.4 Different shapes of character“婦”and“好”
為了能夠量化分析本文所提出的基于Deep CNN的古文字推測(cè)方法,我們收集歸納并整理出了一個(gè)以青銅器銘文為主的小規(guī)模古文字庫(kù),包括商周時(shí)代的甲骨文,商周時(shí)代的青銅器銘文,商周時(shí)代的陶器、石刻等文字以及《說文解字》所錄的篆書、古籀文.每一種字體或字形的圖片為一個(gè)古文字的變體,文字圖片主要來源于高明、涂白奎的《古文字類編》,部分為青銅器銘文拓片圖像.考慮深度學(xué)習(xí)模型的需要,筆者從手頭資料中隨機(jī)選取樣本較多、尤其是青銅器銘文較多的字構(gòu)成字庫(kù),此外考慮青銅器銘文的內(nèi)容主要涉及分封諸侯、朝覲王室、祭祀典禮、方國(guó)征伐、勝利紀(jì)功、世官尊容、家族的祭享等,筆者還挑選在青銅器銘文中常用的字構(gòu)成字庫(kù).截至目前,已搭建了包含77個(gè)古文字的圖片庫(kù),一共包含2102張圖片,平均每個(gè)字有27個(gè)變體,其中青銅器銘文840張,甲骨文483張,陶器石刻等678張,《說文》101張,部分字庫(kù)圖片如下圖5所示.
我們將77個(gè)古文字列舉如下圖6所示.
在圖像識(shí)別領(lǐng)域,神經(jīng)網(wǎng)絡(luò)的深度至關(guān)重要.研究表明,隨著網(wǎng)絡(luò)深度的增加,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和模式表達(dá)能力會(huì)不斷增強(qiáng).比如從掀起深度學(xué)習(xí)熱潮的Alex Net開始到VggNet[20],GoogleNet[21]再到ResNet[22]等模型,網(wǎng)絡(luò)越來越深,性能也越來越好.另外,我們也注意到在大型圖片數(shù)據(jù)庫(kù)ImageNet領(lǐng)先的團(tuán)隊(duì)都利用了很深的模型,特別地,ResNet被廣泛使用.ResNet采用了跳躍連接的網(wǎng)絡(luò)結(jié)構(gòu),它有效地解決了超深網(wǎng)絡(luò)在優(yōu)化學(xué)習(xí)時(shí)梯度消失的問題,并且大幅增加了網(wǎng)絡(luò)表達(dá)圖像模式的容量.這使得采用這一結(jié)構(gòu)的網(wǎng)絡(luò)深度可以達(dá)到1000層,人工神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表達(dá)能力被充分的發(fā)揮出來.具體地,ResNet與傳統(tǒng)網(wǎng)絡(luò)相比較,其加入了y=x層(恒等映射層),其主要作用是使得網(wǎng)絡(luò)隨著深度的增加而表達(dá)能力不退化,并且還具有較好的收斂效果.因此,ResNet通??梢苑浅I?而它取得的識(shí)別效果在各大數(shù)據(jù)庫(kù)評(píng)測(cè)中目前也是很好的.除此之外,ResNet還具有泛化能力強(qiáng),結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練收斂迅速等特征.
圖5 字庫(kù)圖片示例Fig.5 Example images of the character database
圖6 77個(gè)古文字庫(kù)Fig.6 Ancient character database with 77 characters
從我們構(gòu)建的古文字庫(kù)可以看出,每個(gè)字平均有27種變體,每個(gè)字的形態(tài)不固定意味著神經(jīng)網(wǎng)絡(luò)要表達(dá)的模式不固定,這就要求神經(jīng)網(wǎng)絡(luò)需要有強(qiáng)大的學(xué)習(xí)容量,能夠細(xì)粒度地表達(dá)各種不同但本質(zhì)又存在類似的模式.進(jìn)一步,在我們?cè)O(shè)定的任務(wù)中,我們希望讓網(wǎng)絡(luò)學(xué)習(xí)每個(gè)字的部分形態(tài)特征,然后期望它對(duì)沒有見過的新的形態(tài)能做出正確的預(yù)測(cè).換而言之,古文字各種演變體具有“萬變不離其宗”的特點(diǎn),我們希望網(wǎng)絡(luò)能在“萬變”中學(xué)會(huì)求同存異,歸納推理,這就要求網(wǎng)絡(luò)需要強(qiáng)大的抽象映射能力和泛化能力,使圖片像素空間經(jīng)過不斷映射最終走向更抽象更高層的語義空間.
基于以上分析,我們認(rèn)為ResNet將比較適合完成古文字的識(shí)別任務(wù),同時(shí)為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的泛化能力,我們精心設(shè)計(jì)了一套網(wǎng)絡(luò)模型學(xué)習(xí)的策略.下圖7是我們方法的示意圖:
如圖7所示,由于總的古文字圖片數(shù)量較少,我們采用了主干網(wǎng)絡(luò)包含18個(gè)卷積網(wǎng)絡(luò)層的相對(duì)比較輕量級(jí)的ResNet神經(jīng)網(wǎng)絡(luò),并且我們進(jìn)一步限制了卷積層的每一層的通道數(shù)最多為16.
圖7 基于18層ResNet的古文字識(shí)別模型示意Fig.7 Pipeline of ancient character recognition based on 18-level ResNet
模型設(shè)計(jì)核心思想:為了獲得更好的模型泛化能力,我們希望網(wǎng)絡(luò)對(duì)每一類的古漢字提取的特征能夠滿足以下兩個(gè)特點(diǎn):1)同一類的漢字特征在特征空間盡可能聚在一起,模型能夠完成這樣的映射,需要盡可能提取同一類漢字的內(nèi)部共通性;2)不同類的漢字特征在特征空間的聚簇彼此盡可能離得遠(yuǎn)一些,這樣不同漢字之間能留有足夠?qū)挼目臻g給分類器,使得分類器對(duì)于新來的未見過的漢字具有更高的概率將其分對(duì).基于以上動(dòng)機(jī),我們?cè)O(shè)計(jì)了如圖7模型右側(cè)兩階段特征映射的結(jié)構(gòu).訓(xùn)練以Batch的方式進(jìn)行.首先我們把ResNet18最后一層的特征Feature1作為基礎(chǔ)進(jìn)行第一階段的特征映射:以Feature1為輸入,一方面我們通過一層全連接層(fc)結(jié)合Softmax loss訓(xùn)練第一個(gè)分類器,另一方面我們根據(jù)一個(gè)Batch內(nèi)的漢字類別標(biāo)簽來抽取特征對(duì),結(jié)合Contrastive loss實(shí)現(xiàn)距離約束,比如一個(gè)Batch內(nèi)取了3個(gè)漢字:“比”、“古”、“國(guó)”,每個(gè)漢字有4張不同的圖片,則每個(gè)漢字內(nèi)部可以采樣6個(gè)正對(duì),共24個(gè)正對(duì),而負(fù)對(duì)的數(shù)量要多很多,我們采取困難負(fù)對(duì)挖掘的做法使得正負(fù)對(duì)比例為1:1.5,以此來實(shí)現(xiàn)訓(xùn)練.為了進(jìn)一步達(dá)到映射同類特征的目的,我們更進(jìn)一步做第二階段的特征映射,做法是將Feature1通過一層簡(jiǎn)單的非線性全連接映射(fc+ReLU)轉(zhuǎn)換到Feature2,然后對(duì)Feature2同樣做類似Feature1上的分類和距離Loss約束.4個(gè)損失同時(shí)優(yōu)化,來實(shí)現(xiàn)特征表達(dá)的映射再映射,如圖8所示.
圖8 兩階段映射示意(第一個(gè)Loss有能力把雜亂的原始數(shù)據(jù)聚類得比較好;第二個(gè)Loss進(jìn)一步聚類數(shù)據(jù))Fig.8 Demonstration of two-stage mapping(The first loss has the ability to originally cluster the messy raw data and the second further clusters the data.)
我們采用圖7的模型結(jié)構(gòu)進(jìn)行訓(xùn)練,基于mxnet平臺(tái)使用梯度下降法進(jìn)行模型參數(shù)學(xué)習(xí).我們將所有文字的圖片尺寸歸一化到寬高都是128個(gè)像素,并且由彩色圖片轉(zhuǎn)換成灰度圖片,我們同時(shí)計(jì)算了所有圖片的均值圖片.一張圖片減去均值圖片后送入神經(jīng)網(wǎng)絡(luò)進(jìn)行特征表達(dá)和學(xué)習(xí).
而對(duì)于訓(xùn)練和評(píng)測(cè),將每個(gè)文字的變體圖片中的60% 作為訓(xùn)練集,共1290張圖片,而剩余的40%作為測(cè)試集,共812張.即每個(gè)文字用60%的變體圖片進(jìn)行學(xué)習(xí),讓模型歸納總結(jié)出每個(gè)文字的內(nèi)在一致性特征,然后讓模型對(duì)沒有見過的40%測(cè)試集進(jìn)行識(shí)別與預(yù)測(cè).我們模型在所建數(shù)據(jù)庫(kù)上迭代學(xué)習(xí)了100輪,然后分析識(shí)別結(jié)果.
由于訓(xùn)練圖片數(shù)量較少,為了避免過擬合,我們采取了如下措施:1)精簡(jiǎn)ResNet18卷積核的個(gè)數(shù),使得任何一層不能超過16個(gè)卷積核.同時(shí)中間層全連接層的節(jié)點(diǎn)數(shù)設(shè)置為64或者128;2)基礎(chǔ)ResNet18網(wǎng)絡(luò)結(jié)構(gòu)的預(yù)訓(xùn)練.我們收集了8000個(gè)印刷體簡(jiǎn)體漢字的80000張圖片以分類任務(wù)為目標(biāo)來預(yù)訓(xùn)練我們的ResNet18,在我們的古漢字?jǐn)?shù)據(jù)集上以0.0001的學(xué)習(xí)率微調(diào),ResNet18外的其他可學(xué)習(xí)層的學(xué)習(xí)率設(shè)置為0.001;3)我們同時(shí)采用Dropout和較大的Weight decay來進(jìn)一步降低過擬合.
模型學(xué)習(xí)完成后,我們?cè)跍y(cè)試集上對(duì)它進(jìn)行識(shí)別準(zhǔn)確率的測(cè)試.如前所述,測(cè)試集一共870張圖片,77個(gè)字.我們將每個(gè)字設(shè)為一個(gè)類別,共77個(gè)類別,給定一張圖片,經(jīng)模型測(cè)試,會(huì)給出這張圖片屬于每個(gè)類的準(zhǔn)確率,定義k為類別數(shù),一張圖片的真實(shí)類別在前k個(gè)預(yù)測(cè)類別中的準(zhǔn)確率為Top-k.我們?cè)诒?中報(bào)告Top-1、Top-3、Top-5、Top-8、Top-10這5種情況下基準(zhǔn)分類器、分類器I和分類器II的識(shí)別準(zhǔn)確率.其中基準(zhǔn)分類器指的是:保留圖7中的第一階段分類器,刪除兩階段距離約束和第二階段分類器.分類器I指的是:保留圖7中的第一階段分類器和第一階段距離約束.分類器II指的是:保留圖7中的第二階段分類器和兩階段距離約束.
表1 測(cè)試集的識(shí)別準(zhǔn)確率Table 1 Recognition accuracy in the testing dataset
從基準(zhǔn)分類器和分類器I的實(shí)驗(yàn)結(jié)果對(duì)比可以得出:引入樣本對(duì)之間的距離約束是有效的,能夠提高模型的泛化能力.從基準(zhǔn)分類器I和基準(zhǔn)分類器II的實(shí)驗(yàn)結(jié)果對(duì)比可以看出:第二個(gè)分類器的分類效果明顯好于第一個(gè)分類器的分類效果,說明我們提出的兩階段映射是有效的,進(jìn)一步的特征映射有助于提升模型的泛化能力.
綜合來看,模型有效學(xué)習(xí)到了各個(gè)文字變體內(nèi)在的一致性特征.在Top-1測(cè)試條件下,模型判別的最高正確率為58.3%(隨機(jī)判別Top-1的正確率僅為1/77=1.3%),而在Top-10的測(cè)試條件下,準(zhǔn)確率可以做到94.2%(隨機(jī)判別Top-10的正確率僅為10/77=13.0%),這表明,當(dāng)古文字研究者碰到新的文字變體時(shí),本文提出的方法能夠以很高的概率將該文字的識(shí)別結(jié)果限定在大約10個(gè)已知文字內(nèi),這將大幅縮減研究者的搜索推測(cè)空間,有效提高效率和準(zhǔn)確性.
為了形象地理解整個(gè)方法的過程,我們舉一個(gè)例子加以說明.圖9展示了“母”字的訓(xùn)練和識(shí)別過程.
圖9 “母”字的網(wǎng)絡(luò)學(xué)習(xí)與預(yù)測(cè)過程示意圖Fig.9 Illustration of learning and prediction of character“母”
在我們收集的數(shù)據(jù)集中,“母”字一共有27張圖片,如圖9所示,按照我們的實(shí)驗(yàn)設(shè)置,隨機(jī)抽選其中16張作為訓(xùn)練圖片提供給模型學(xué)習(xí),而剩余11圖片將留為測(cè)試集.當(dāng)模型完成學(xué)習(xí)后,我們將對(duì)每一張測(cè)試圖片進(jìn)行預(yù)測(cè),11張中成功預(yù)測(cè)了其中8張,錯(cuò)誤識(shí)別其中3張.分類正確的圖片大多在訓(xùn)練集中能找到形體類似的例子,而識(shí)別錯(cuò)誤的3個(gè)字分別來源于《上海博物館藏戰(zhàn)國(guó)楚竹書》中《民之父母》的“母”字、《古璽匯編》所收的“母”字、《甲骨文合集》所收的“母”字,如下圖10所示.
圖10 識(shí)別錯(cuò)誤的3個(gè)“母”字Fig.10 Three cases of wrong recognition of character“母”
這3個(gè)字均不是來源于青銅器銘文,而分是竹書、玉璽和甲骨文,直觀上看,與其他“母”字的特征不相似甚至不一致.如確認(rèn)此3字仍為“母”字的話,可以看出:1)楚國(guó)竹書的書寫風(fēng)格、字體構(gòu)造確與中原國(guó)家不同,如果見字如形的話,這個(gè)“母”字沒有其他母字那樣婀娜的姿態(tài),沒有女性特征的形態(tài),也不著裙裝,基本沒有相似特征,難以識(shí)別;2)在玉璽上篆刻文字,與青銅銘文或者甲骨鉆文,在書寫方式上很不一樣,可能會(huì)囿于玉璽形狀對(duì)文字進(jìn)行變形,造成特征在此字上表現(xiàn)非常弱,故較難識(shí)別;3)最后一個(gè)甲骨文“母”字,4個(gè)點(diǎn)在類似女性胸部形體的外側(cè),與所有其他母字的特征完全不一致,確實(shí)難以識(shí)別為同一個(gè)字.
從這個(gè)例子中我們看到網(wǎng)絡(luò)具有較強(qiáng)的抽象概括能力,能夠從給定的圖片中求同存異地抽取一些本質(zhì)特征,從而實(shí)現(xiàn)從訓(xùn)練集到測(cè)試集的遷移.這對(duì)于古文字識(shí)別具有重要價(jià)值.
在分析實(shí)驗(yàn)結(jié)果并對(duì)比古文字庫(kù)的過程中,我們發(fā)現(xiàn)有一種現(xiàn)象較為嚴(yán)重地影響了識(shí)別結(jié)果,那就是鳥文的存在.鳥文又稱“鳥書”,是出現(xiàn)于春秋中期,盛行于春秋晚期至戰(zhàn)國(guó)中期的一種書法體,通常會(huì)添加鳥紋來修飾文字,類似現(xiàn)在的裝飾字、藝術(shù)字.圖11中舉了3個(gè)例子.
圖11 “子”、“吉”、“名”3個(gè)字的甲骨文、金文和鳥文的對(duì)比Fig.11 The comparison of oracle-bone,bronze inscriptions and bird-writing for character“子”,“吉” and “名”
從圖11可以看出,每個(gè)字的甲骨文和青銅器銘文具有某種程度上的神似,但是鳥文卻差別非常大,鳥文很大程度上是字與畫的結(jié)合,因此我們的模型很難從類似甲骨文和青銅器銘文的形態(tài)中推斷出一個(gè)鳥文古文字的真實(shí)含義.
本文在搭建古文字庫(kù)時(shí),受手頭資料所限,除錄入了青銅器銘文外,也大量錄入了陶器、石刻、竹簡(jiǎn)、帛書、璽印等文字,同時(shí)青銅器銘文中還錄入了不少鳥文銘文,從實(shí)驗(yàn)結(jié)果看,一定程度上造成了模型識(shí)別古文字的難度增加,今后在進(jìn)一步優(yōu)化模型時(shí),將首先調(diào)整古文字庫(kù)的收字范圍,盡可能以青銅器銘文為主,輔以甲骨文,暫時(shí)去除地域特征過于明顯的鳥文銘文等文字.此外,結(jié)合深度學(xué)習(xí)技術(shù)的特點(diǎn),還應(yīng)擴(kuò)大字庫(kù)收錄字?jǐn)?shù),盡可能多地錄入字頻較高的古文字,幫助模型更好地學(xué)習(xí)古文字特征及演變規(guī)律.
漢字大多數(shù)為合體字,即多數(shù)字由獨(dú)體字以及固定的偏旁部首構(gòu)成,因此,在利用模型分析古文字的形體特征時(shí),可搭建單獨(dú)的獨(dú)體字庫(kù)并設(shè)計(jì)模型先識(shí)別獨(dú)體字,待模型訓(xùn)練完成后,測(cè)試合體字識(shí)別效果,同時(shí)進(jìn)一步深入研究獨(dú)體字特征對(duì)于識(shí)別古文字的作用,優(yōu)化模型的識(shí)別效果.
此外,本文提出的方法是構(gòu)建在單個(gè)文字特征識(shí)別的基礎(chǔ)上的.文字的識(shí)別除形體識(shí)別之外,還需借助其他研究方法,綜合相關(guān)因素進(jìn)行分析.單個(gè)青銅器銘文的識(shí)別與推測(cè)除了可以依賴它本身的特征之外,還可以依據(jù)偏旁構(gòu)造分析、字音、字義、語法、上下文、青銅器器物類別、分期與出土地點(diǎn)等進(jìn)行綜合釋讀.對(duì)于其中尤其重要上下文文字間的關(guān)聯(lián)信息,深度學(xué)習(xí)領(lǐng)域另外一個(gè)分支:遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN[23]),具有巨大的潛力,它能同時(shí)綜合單個(gè)文字變體本身的特征和其使用環(huán)境的上下文文字特征,使得推斷的準(zhǔn)確率能大幅提高.
本文提出了一種基于圖像識(shí)別技術(shù)進(jìn)行青銅銘文識(shí)別的方法,是人工智能與青銅銘文考古的一次有意義的交叉學(xué)科研究.受古文字偏旁分析法所啟發(fā),我們?cè)O(shè)計(jì)了基于兩階段特征映射的深度學(xué)習(xí)模型.該方法利用大量字例樣本,有效吸收消化古文字研究,特別是甲骨文及青銅器銘文的研究成果,準(zhǔn)確、快速地識(shí)別未知古文字,有效地提高古文字研究者的研究效率,很好地輔助新發(fā)掘古文字的推斷釋讀與解義.
我們認(rèn)為,基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)在古文字識(shí)別中具有重要應(yīng)用價(jià)值.實(shí)驗(yàn)證明,它能夠有效地識(shí)別未知古文字,并給出準(zhǔn)確率很高的推測(cè)識(shí)別結(jié)果,能夠極大地提升古文字識(shí)別的準(zhǔn)確性和識(shí)別效率.有效擴(kuò)大古文字圖片數(shù)據(jù)庫(kù),進(jìn)一步優(yōu)化模型,并結(jié)合考古學(xué)及古文字學(xué)的已有研究成果,可以積極地應(yīng)用于新出土的考古青銅器銘文識(shí)別,推動(dòng)現(xiàn)場(chǎng)考古研究的發(fā)展,也可以幫助普通大眾去識(shí)別了解陳列在博物館的青銅器銘文釋義,甚至判別識(shí)別有爭(zhēng)議的古文字或疑難字詞,幫助識(shí)別未知的古文字.在將來的工作中,我們會(huì)考慮擴(kuò)大數(shù)據(jù)庫(kù)或者從深度學(xué)習(xí)小樣本學(xué)習(xí)的角度來探索青銅銘文識(shí)別.