我的工作是用計(jì)算機(jī)破譯甲骨文。
甲骨文是一種刻在龜甲或獸骨上的古文字。3000"多年前的商朝王室熱衷占卜,占卜官在龜甲和牛骨的背面鉆出圓形的深窩或者淺槽,火烤之后產(chǎn)生裂紋,以此判斷吉兇,然后把占卜結(jié)果刻在這片龜甲或者牛骨之上。甲骨卜辭的內(nèi)容很豐富,是關(guān)于商代歷史的真實(shí)記錄,把中國(guó)的信史往前推了1000"年。
現(xiàn)存于世的甲骨文物大約"16"萬片,主要來自殷墟。殷墟,就是殷商都城的廢墟,位于現(xiàn)在的安陽(yáng)。
別看我是安陽(yáng)人,一直在安陽(yáng)師范學(xué)院工作,但我的專業(yè)是數(shù)學(xué)和計(jì)算機(jī),對(duì)歷史本來是完全不感興趣的。我們有一個(gè)副校長(zhǎng)叫屈凌波,和殷墟考古隊(duì)隊(duì)長(zhǎng)唐際根是北京大學(xué)的同學(xué),他一到周末就拉著我去考古隊(duì)。這讓我對(duì)商朝的文化,對(duì)青銅器、玉器漸漸熟悉起來。
有一年冬天,非常冷,我?guī)е氯タ脊抨?duì)時(shí),他們正在挖掘洹北商城,遺址上的土很多都是紅顏色的。我問為啥是紅顏色?唐隊(duì)長(zhǎng)回答:3000"年前這里發(fā)生過一場(chǎng)大火,把洹北商城全部燒掉了。我摸了一下這種土,感覺好像能夠穿越時(shí)間,太奇妙了。甲骨文權(quán)威宋鎮(zhèn)豪老師說,安陽(yáng)是一潭活水。他一年至少有一半的時(shí)間都待在我們實(shí)驗(yàn)室。
甲骨文研究就是穿越"3000"年的對(duì)話,是“尋找我們從何而來”的關(guān)鍵?,F(xiàn)已發(fā)現(xiàn)的甲骨文字有"4000"多個(gè),破譯的卻只有"1/3,剩下的都是硬骨頭。2018"年中國(guó)文字博物館向社會(huì)公布了一批未釋文字,每個(gè)字給出10"萬元人民幣的懸賞,但當(dāng)時(shí)只有一個(gè)人完全拿到獎(jiǎng)金。他譯出了一個(gè)“蠢”字。
世界上最難的拼圖游戲
甲骨文是真正的冷門絕學(xué),國(guó)內(nèi)做甲骨文研究的專家不超過"50"人,全世界加起來可能不超過"80"人。我"2000"年從西北工業(yè)大學(xué)研究生畢業(yè),回到安陽(yáng)師范學(xué)院,當(dāng)時(shí)只有幾個(gè)研究甲骨文的老師,彼時(shí)甲骨文只有圖片,沒法用電腦輸入,也沒法檢索,他們問我:“你能不能解決這個(gè)問題?”我想漢字能進(jìn)入計(jì)算機(jī),甲骨文也是一種符號(hào),也應(yīng)該能夠進(jìn)入計(jì)算機(jī),就開始研究,花了"3"年時(shí)間做出了甲骨文的輸入法。
從甲骨文中,我們能夠理解一些文字的本源。我經(jīng)常舉“爭(zhēng)”這個(gè)字為例,上面是一只手,中間也是一只手,豎鉤是一樣?xùn)|西,“爭(zhēng)”就是兩只手在爭(zhēng)東西;商戶的“戶”,就是一片窗戶。對(duì)我們先人造字的智慧,我感到非常佩服,他們把事物的特征抓得非常好。比如說“狗”的尾巴是向上卷的,“豬”的尾巴是往下的,古人肯定是經(jīng)過仔細(xì)觀察的,我為先人們感到自豪,這就是文化自信。
我最大心愿就是未來能用計(jì)算機(jī)破譯甲骨文。那時(shí)候只有我一個(gè)人,力量不夠。我找了一位研究甲骨文的退休老師,把計(jì)算機(jī)學(xué)院的年輕老師們集中到一起,大概有十幾個(gè)人,周六在一起上課。這樣,我們就形成一個(gè)團(tuán)隊(duì)了,這個(gè)團(tuán)隊(duì)按照我的思路做語(yǔ)料庫(kù)、字形分析、語(yǔ)法分析,做了好多工具和軟件。
現(xiàn)在,我們的甲骨文信息處理實(shí)驗(yàn)室有"22"個(gè)人,學(xué)計(jì)算機(jī)專業(yè)的占多數(shù),研究古文字的有兩三個(gè),還有體育博士、法律博士、建筑工程博士、音樂博士、舞蹈博士。殷商是個(gè)社會(huì),有戰(zhàn)爭(zhēng)、農(nóng)業(yè)、天文、地理,當(dāng)然也有音樂舞蹈。舞蹈博士在研究一種祭祀舞蹈,化學(xué)博士研究的是文物黏合劑。
2018"年,實(shí)驗(yàn)室引進(jìn)了計(jì)算機(jī)博士張展,我讓他用計(jì)算機(jī)做甲骨文的“綴合”。由于甲骨脆弱易碎,經(jīng)過鉆孔和燒灼,以及"3000"多年的時(shí)間,很多在出土?xí)r已經(jīng)裂成碎片,只有盡可能地將這些碎片拼接在一起,才能了解其中的內(nèi)容。
綴合是甲骨學(xué)里一個(gè)重要分支,被稱為“甲骨文的再發(fā)掘”,就好像發(fā)現(xiàn)了新的甲骨文片一樣。原來都是由專家通過分析甲骨文片的材料、年代、文字等信息來綴合,堪稱“世界上最難的拼圖游戲”。
張展通過計(jì)算機(jī)圖像技術(shù)分析甲骨片的邊緣吻合度進(jìn)行綴合,2019"年安陽(yáng)舉行甲骨文發(fā)現(xiàn)"120"周年國(guó)際學(xué)術(shù)研討會(huì),他宣讀了使用計(jì)算機(jī)輔助第一次成功綴合甲骨碎片的論文。截至目前,已經(jīng)綴合了"50"組甲骨文片,都是人類專家沒有綴合成功的。張展告訴我,其中有一組非常重要,經(jīng)過專家研究,卜辭的體例很罕見,講的是五月丙戌日出現(xiàn)日偏食,商王占卜之后認(rèn)為不詳,要舉行祭祀消除災(zāi)禍。這一則甲骨卜辭為商代天文歷法研究提供了非常寶貴的材料。
安陽(yáng)師范學(xué)院的甲骨文信息處理在國(guó)內(nèi)外都是比較領(lǐng)先的。這兩年隨著國(guó)家的重視,也有一些高校進(jìn)入相關(guān)研究領(lǐng)域,但是都是一兩個(gè)人,成團(tuán)隊(duì)的只有我們實(shí)驗(yàn)室,涉及甲骨文信息化的項(xiàng)目都會(huì)聯(lián)系我們。
人工智能加速度
2022年3月,《自然》雜志以封面文章形式報(bào)道了DeepMind團(tuán)隊(duì)的最新突破。這個(gè)以開發(fā)AlphaGo人工智能擊敗人類圍棋冠軍而聞名的研究機(jī)構(gòu),此次成功研發(fā)出名為“伊薩卡”(Ithaca)的深度神經(jīng)網(wǎng)絡(luò)。該人工智能系統(tǒng)在考古學(xué)領(lǐng)域展現(xiàn)出驚人能力——通過分析殘存筆跡、銘文位置及歷史背景等要素,成功復(fù)原了多件破損古希臘石碑上的缺失文字。這項(xiàng)技術(shù)突破不僅為文物修復(fù)提供了新工具,更開創(chuàng)了人工智能在歷史文獻(xiàn)研究中的創(chuàng)新應(yīng)用。
這篇文章對(duì)計(jì)算機(jī)界影響很大,廈門大學(xué)的紀(jì)榮嶸老師想,能不能用人工智能破譯甲骨文?他找到我們合作,我們又通過紀(jì)老師跟騰訊建立了聯(lián)系。最終,我們合作的項(xiàng)目叫“人機(jī)協(xié)同甲骨文破譯”。這種新一代數(shù)字技術(shù)的發(fā)展,讓我們?cè)谖幕z產(chǎn)很多問題上找到了新的解法。騰訊有個(gè)數(shù)字文化實(shí)驗(yàn)室,這幾年圍繞文化遺產(chǎn)數(shù)字化做了很多探索,也承擔(dān)起了探尋文字源頭這個(gè)時(shí)代命題。
破譯甲骨文有很多思路,其中之一是漢字演變的思路,尋找甲骨文字和后世金文、戰(zhàn)國(guó)文字的相似度,通過這種聯(lián)系來破譯。和騰訊合作以后,我們做了“以字搜字”,用計(jì)算機(jī)把甲骨文字與金文、戰(zhàn)國(guó)文字一個(gè)一個(gè)去匹配,從字形上找到和它接近的文字,看字的整體相似度和部分相似度。
現(xiàn)在甲骨文材料有"16"萬片,但是我們數(shù)據(jù)庫(kù)中的拓片有"23"萬張,其中很多是重復(fù)的。原因有很多,有些是重拓,這片甲骨在山東博物館拓了一遍,在國(guó)家博物館又拓了一遍。另外,以前做拓片時(shí)只重視甲骨字,只拓了有字的地方,沒有字的地方就沒有拓,后來又做了全拓,后期還拍攝了彩色照片,所以一片甲骨可能有多個(gè)圖像。還有一種情況是本來完整的甲骨碎了,完整的時(shí)候拓過,各個(gè)碎片又分別被不同人拓過。
查重是非常重要的工作,是甲骨文數(shù)據(jù)的科學(xué)整理。之前微軟研究院出過一個(gè)程序,按照紋理圖像查重,現(xiàn)在我們已經(jīng)把"153"部甲骨文著錄上搜集的拓片文字全部提取出來,有"143"萬字,之前專家預(yù)估只有"80"萬字,短時(shí)間里把甲骨文語(yǔ)料庫(kù)的庫(kù)存提高了將近一倍。用重復(fù)的文字檢查重復(fù)的甲骨文拓片是一種新思路,目前我們已經(jīng)查出了一部分重片,我們的目標(biāo)是要把"23"萬張拓片全部查一遍。
在甲骨文的活化利用上,騰訊作為一家互聯(lián)網(wǎng)企業(yè),在這方面有優(yōu)勢(shì)。2024年"4"月"20"日,我們共同推出了“了不起的甲骨文”微信小程序,可以在上面學(xué)習(xí)甲骨文,還可以根據(jù)造字原理創(chuàng)造文字,甚至試著破譯甲骨文,這是甲骨文大眾傳播的一個(gè)成果。圍繞“了不起的甲骨文”,我們也做了一些工作,比如甲骨文進(jìn)入中小學(xué)課堂,老師可以使用數(shù)字資源進(jìn)行教學(xué),還能夠以小程序?yàn)榛A(chǔ)組織甲骨文挑戰(zhàn)賽。此外,我們還有甲骨文進(jìn)博物館項(xiàng)目,安陽(yáng)的“殷墟博物館”中就有高清的甲骨文宣傳片進(jìn)行互動(dòng)展示。
破譯甲骨文的珠穆朗瑪峰
2025年到2026年,我們有兩項(xiàng)任務(wù),其一是“全球甲骨數(shù)字回歸計(jì)劃”。作為甲骨文信息處理實(shí)驗(yàn)室,搜集數(shù)據(jù)、提高數(shù)據(jù)質(zhì)量是我們的職責(zé),要為甲骨文研究提供高質(zhì)量數(shù)據(jù)。我們計(jì)劃把現(xiàn)存于世界200多個(gè)機(jī)構(gòu)的16萬甲骨文片全部做成高清的電子照片,讓它們以數(shù)字形式回歸安陽(yáng)。
“甲骨三維模型”的工作在疫情前就開始了,現(xiàn)在甲骨文著錄里的拓片都是平面圖,我們一直想做甲骨文的三維建模,把國(guó)內(nèi)的掃描儀全部試了一遍,都不行。后來在波蘭一家公司訂做了一臺(tái)設(shè)備,耗資"97"萬買回來,掃描得確實(shí)比較清楚。但是有一個(gè)缺點(diǎn),太慢,掃描一份甲骨要半個(gè)小時(shí),將來我們做甲骨文的數(shù)字化回歸,數(shù)據(jù)量很大,肯定不行。
現(xiàn)在我們跟騰訊合作,決定用“光照變換矩陣”的方法給甲骨片拍攝高清圖:環(huán)繞甲骨文片"360"度,每"2"度拍一張照片,最后合成一張照片,拍照的速度要比掃描快得多。甲骨文都是刻在骨頭上的,不同角度的光照對(duì)刻痕的展示是不一樣的,根據(jù)照片我們可以提取刻痕的深度,數(shù)倍提高甲骨刻痕的辨識(shí)度。
“光照變換矩陣”對(duì)微痕、刻痕的展示好一些,但是整體建模也有局限,比如對(duì)甲骨文片的邊緣展示還不行。我們?cè)谟懻撘粋€(gè)新的方案,就是“多視圖三維建模技術(shù)”,可以集成“光照變換矩陣”和三維建模技術(shù),自動(dòng)合成數(shù)據(jù)。要全世界跑,設(shè)備也不能太大,我們正在跟騰訊一起開發(fā)這項(xiàng)設(shè)備。
甲骨文的全球數(shù)字化回歸意義有兩點(diǎn)。其一是數(shù)字化保護(hù)。甲骨是"3000"多年前的文物,非常脆弱,宋鎮(zhèn)豪老師說,在中國(guó)社會(huì)科學(xué)院有一片甲骨,原來有"3"個(gè)字,現(xiàn)在去看只剩"2"個(gè)字了,如果現(xiàn)在不保護(hù)有些材料就會(huì)消失。其二是通過高清拍攝,能夠看到原來看不見、看不清的信息,從而推進(jìn)甲骨學(xué)的研究。
我們合作的另外一個(gè)目標(biāo)就是甲骨文破譯,我希望這"3"年里能夠破譯出一個(gè)甲骨文字。甲骨文破譯一直是我們實(shí)驗(yàn)室的夢(mèng)想,這是世界難題,是甲骨文研究界的珠穆朗瑪峰,非常非常難。為什么非要做這件事?就像人為什么非要攀登最高峰,我感覺有點(diǎn)相似。
很多古文字專家不相信計(jì)算機(jī)可以破譯甲骨文,但我一直想證明人工智能可以做到。日思夜想,半夜有什么想法也會(huì)馬上記在手機(jī)上。今天凌晨"4點(diǎn)我就醒了,還在琢磨,能不能從數(shù)學(xué)的角度建立一個(gè)大模型呢?
責(zé)任編輯:周瑩瑩