鄭雯鍇 田子禾
關(guān)鍵詞:文物識(shí)別;知識(shí)圖譜;可視化;畫作;前端
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)10-0040-04
0 引言
目前,以數(shù)字化博物館為主體的App通常是對(duì)實(shí)體物品進(jìn)行拍照、掃描、建模等方式,將其轉(zhuǎn)化為數(shù)字化的電子媒介,并且通過(guò)圖像、文字、聲音及影像等形式進(jìn)行展示。在這些App進(jìn)行數(shù)據(jù)檢索大致分為兩種方式。第一種是用戶自主查詢的方式。這種類型的檢索方式優(yōu)點(diǎn)在于,給用戶足夠多的自主性,可根據(jù)自己的意愿去搜索。但是其缺點(diǎn)也很明顯,若用戶不知道文物的名稱或者只知道文物的模糊信息,就無(wú)法檢索出想要的文物信息。這類檢索方式查出來(lái)的信息相互之間也沒(méi)有關(guān)系??傮w來(lái)說(shuō),這類檢索方式不具備針對(duì)性并且效率極低,給用戶帶來(lái)的體驗(yàn)感也不好。該類型App缺少成體系的結(jié)構(gòu)化知識(shí),導(dǎo)致其內(nèi)容檢索更偏向于對(duì)文物知識(shí)有一定基礎(chǔ)的人群。第二種是基于GPS的館內(nèi)電子導(dǎo)游型,例如中國(guó)國(guó)家博物館的App,這種類型的App有詳細(xì)的解說(shuō),以及較為系統(tǒng)的知識(shí)體系,通過(guò)聲音的方式傳遞信息給用戶,不會(huì)妨礙用戶正常地觀賞文物。通過(guò)使用其App,游客可將自己的可移動(dòng)設(shè)備當(dāng)作講解器,在需要的地方通過(guò)掃碼來(lái)觸發(fā)語(yǔ)音講解功能,甚至通過(guò)AR 參與館內(nèi)互動(dòng)。這類App更注重游客在館內(nèi)瀏覽文物時(shí)對(duì)實(shí)體文物的知識(shí)介紹,沒(méi)有將各種實(shí)體之間的知識(shí)聯(lián)系起來(lái)。而且,這種方式僅限于在博物館內(nèi)使用,并對(duì)用戶移動(dòng)設(shè)備的信號(hào)強(qiáng)度以及電池的續(xù)航能力要求高。隨著人們對(duì)知識(shí)文化需求的提高,如何以更便捷的方式為用戶提供文物知識(shí)檢索,并在檢索的同時(shí)為用戶提供更多相關(guān)聯(lián)知識(shí),是未來(lái)智慧博物館需要解決的問(wèn)題。
圖像檢索和知識(shí)圖譜技術(shù)可以作為解決上述問(wèn)題有效的技術(shù)途徑。本文提出一種基于圖像檢索和知識(shí)圖譜的現(xiàn)代化博物館系統(tǒng)設(shè)計(jì)方案。
1 相關(guān)技術(shù)
1.1 圖像檢索
圖像檢索被廣泛用于圖像識(shí)別等應(yīng)用領(lǐng)域,其主要實(shí)現(xiàn)的步驟如下:首先,對(duì)圖片特征進(jìn)行提??;第二,對(duì)圖片特征信息進(jìn)行編碼;第三,運(yùn)用匹配算法進(jìn)行比對(duì)。其關(guān)鍵在于圖像的編碼和匹配算法的設(shè)計(jì)。本項(xiàng)目采用的是為圖片生成一個(gè)特定的64位整數(shù),然后將得到的數(shù)字和數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì),如果不同的位數(shù)越少,說(shuō)明兩張圖片的相似度越高。在比對(duì)的過(guò)程中,還會(huì)設(shè)置一個(gè)臨界值,筆者設(shè)置的臨界值為:兩個(gè)64位整數(shù)所相差的位數(shù)為10,當(dāng)超過(guò)這個(gè)臨界值,就說(shuō)明兩張圖片的相似度較低,判定為兩張不同的圖片。
1.2 知識(shí)圖譜的技術(shù)介紹
知識(shí)圖譜則是把一組數(shù)據(jù)轉(zhuǎn)換成實(shí)體,實(shí)體是有屬性的,在不同實(shí)體之間會(huì)存在各種聯(lián)系。比如西瓜,知道它的屬性是水果,那么與它相關(guān)聯(lián)的就有如葡萄、橙子等其他水果,它又是季節(jié)性水果,也可以想到與它同季節(jié)的水果有哪些,同時(shí)西瓜視頻還是中國(guó)的IT公司,屬于視頻娛樂(lè)性產(chǎn)品,又可以想到如騰訊視頻、愛奇藝、優(yōu)酷等視頻娛樂(lè)影音類產(chǎn)品,這些關(guān)系用傳統(tǒng)手段是無(wú)法展示出來(lái)的,而知識(shí)圖譜可視化工具可以將它們的聯(lián)系清晰地展示出來(lái),如同一張網(wǎng)一樣,將所能聯(lián)想到的信息都關(guān)聯(lián)起來(lái),這些數(shù)據(jù)之間的關(guān)系也就簡(jiǎn)單明了地呈現(xiàn)在眼前?,F(xiàn)在知識(shí)圖譜技術(shù)已經(jīng)很成熟了,最早的知識(shí)圖譜技術(shù)主要應(yīng)用于搜索引擎。
2 基于圖像檢索和知識(shí)圖譜的現(xiàn)代化博物館系統(tǒng)設(shè)計(jì)
2.1 系統(tǒng)整體設(shè)計(jì)思路
本系統(tǒng)的核心目的是根據(jù)用戶上傳的圖片進(jìn)行圖像檢索,并將文物的信息以及橫向信息全部返回給用戶。大致流程如圖2所示,首先,用戶進(jìn)入界面首頁(yè)會(huì)看到搜索框,在該處可進(jìn)行文本和圖像搜索方式的選擇。若進(jìn)行文本的搜索,可支持文物的作者和文物的名字的搜索;若選擇圖像的搜索,會(huì)從用戶本地獲取一張圖片上傳。因?yàn)椴煌脩襞臄z的水平不同,拍攝出圖片的質(zhì)量也不同,所以第一步先進(jìn)行圖像處理。其中包括灰度化、二值化、去噪、歸一化等一系列操作;第二步進(jìn)行圖像的識(shí)別,采用圖像感知哈希算法,它會(huì)為每一張圖片生成其自己特定一個(gè)稱之為“指紋”的64位整數(shù),然后通過(guò)計(jì)算漢明距離來(lái)檢索圖像(就是比較不同圖片的指紋)。相差的位數(shù)越少,就說(shuō)明圖片越相似。將用戶上傳的圖片與圖片庫(kù)進(jìn)行比較,當(dāng)結(jié)果值非常接近時(shí),即可判定識(shí)別成功。并將識(shí)別的結(jié)果返回。然后根據(jù)查詢到的結(jié)果,到知識(shí)圖譜中進(jìn)行查找其關(guān)聯(lián)的信息。最后將知識(shí)圖譜查詢到的內(nèi)容一并返回給用戶。
2.2 知識(shí)圖譜的構(gòu)建
2.2.1 概要
本圖譜主要基于名畫和作者中的關(guān)系抽取,數(shù)據(jù)源于http://www.youhuadaquan.org/和https://www.dpm.org.cn/Home.html本圖譜基于LSTM長(zhǎng)短期記憶模型,如圖3所示,對(duì)畫家和畫作的描述文本進(jìn)行分類,抽取出畫家畫作實(shí)體和關(guān)系,存入neo4j數(shù)據(jù)庫(kù)后,通過(guò)業(yè)務(wù)規(guī)則描述新的關(guān)系。
2.2.2 數(shù)據(jù)標(biāo)注
數(shù)據(jù)的預(yù)測(cè)類別有7種:
主語(yǔ)開頭:B-SUBJECT
主語(yǔ)非開頭:I-SUBJECT
謂語(yǔ)開頭:B-PREDICATE
謂語(yǔ)非開頭:I-PREDICATE
賓語(yǔ)開頭:B-OBJECT
賓語(yǔ)非開頭:I-OBJECT
其他:O
舉例:
凡·高來(lái)到法國(guó)小鎮(zhèn)阿爾,創(chuàng)作了《阿爾的吊橋》,被標(biāo)注為:
B-SUBJECT I-SUBJECT O O O O O O O O BPREDICATE I-PREDICATE O
B-OBJECT I-OBJECT I-OBJECT I-OBJECT IOBJECT
2.2.3數(shù)據(jù)預(yù)處理
1)詞典映射實(shí)現(xiàn)包括低頻詞過(guò)濾、字與ID的映射(word2id)、預(yù)測(cè)類別與ID的映射(lable2id),實(shí)現(xiàn)ID-詞-類別的映射綁定。
2)從訓(xùn)練文件中獲取句子和標(biāo)簽并轉(zhuǎn)化為ID 實(shí)現(xiàn)將文件中存儲(chǔ)的標(biāo)簽訓(xùn)練集加載到詞典中來(lái),通過(guò)詞典將句子和標(biāo)注轉(zhuǎn)換為ID,實(shí)現(xiàn)句子和標(biāo)簽的離散化,同時(shí),為了保證數(shù)據(jù)的維度一致,在行向量中進(jìn)行句子填充。
2.2.4 構(gòu)建模型
利用PyTorch中RNN的LSTM類,傳入數(shù)據(jù)量,詞嵌入和標(biāo)簽的行向量,標(biāo)簽大小等超參數(shù)后,利用model等Sequential()函數(shù)進(jìn)行序列化,在CRF層,利用tag參數(shù)進(jìn)行l(wèi)oss函數(shù)的構(gòu)建。最后,將數(shù)據(jù)集導(dǎo)入模型中訓(xùn)練40個(gè)epoch[1]。
2.2.5 圖譜存儲(chǔ)
利用爬蟲[2]引擎scrapy和元素解析引擎jsoup進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)源網(wǎng)站上的文本進(jìn)行持久化,導(dǎo)入MySQL中,按batch進(jìn)入模型進(jìn)行識(shí)別,輸出形式化結(jié)果,利用正則表達(dá)式篩選合并后存入CSV文件中,利用neo4j圖數(shù)據(jù)庫(kù)提供的import工具進(jìn)行導(dǎo)入和存儲(chǔ)。存儲(chǔ)的實(shí)體類型和屬性包括:作品(作品名、作者名、創(chuàng)作時(shí)間、類型、圖片URL、博物館名稱)、作者(姓名、國(guó)籍、出生年份、死亡年份、頭像圖片URL、描述),關(guān)系類型和屬性包括:相同時(shí)期(SAME_ERA)、相同博物館(SAME_MUSEUM)、被創(chuàng)作(MADE_BY)、同作者(SAME_MAKER)[1]。如圖5、圖6所示。
2.3 圖像檢索方法的設(shè)計(jì)
2.3.1 感知哈希算法(Perceptual Hash Algorithm)
其主要的功能是給每一張圖片生成一個(gè)特定的字符串,可以稱之為“指紋”。不同的圖片會(huì)生成不同的特定字符串,就可以用已有的特定字符串,和數(shù)據(jù)庫(kù)中圖片的特定字符串進(jìn)行比較,如果比對(duì)的值越相似,就會(huì)判定兩張圖片就越相似。具體的實(shí)現(xiàn)步驟如下所示:首先,將圖片進(jìn)行縮小,比如將圖片縮小為8×8,一共為64個(gè)像素。這么做的目的在于,去除具體的細(xì)節(jié),只要大概的結(jié)構(gòu)信息(例如明暗信息等),同時(shí)也可以排除一些非必要因素對(duì)算法的影響,例如用不同大小的圖片或者比例相差很大的圖片所帶來(lái)的差異;其次,將其顏色簡(jiǎn)化,將第一步所得到的圖片進(jìn)行灰度轉(zhuǎn)化,讓其所有的像素點(diǎn)只有64種顏色;然后,對(duì)這64個(gè)像素的灰度平均值進(jìn)行計(jì)算,并將計(jì)算得到的結(jié)果和每一個(gè)像素的灰度值進(jìn)行比對(duì)。假設(shè)“1”表示平均值小于等于每個(gè)像素的灰度值,“0”表示平均值大于等于每個(gè)像素的灰度值;最后,直接計(jì)算哈希值,這一步將之前得到的結(jié)果和剛才計(jì)算的結(jié)果進(jìn)行組合,得到了一張圖片的指紋(是一個(gè)具有64位的整數(shù))。在組合時(shí),并不用考慮其組合的先后順序,主要考慮所有的圖片是否都是用一種順序組合的。
根據(jù)以上步驟,會(huì)為每一張圖片生成一個(gè)特定的64位整數(shù),當(dāng)進(jìn)行圖像檢索時(shí),只需要為用戶上傳的圖片生成一個(gè)特定的64位的整數(shù),用生成的整數(shù)來(lái)和數(shù)據(jù)庫(kù)中的所有64位整數(shù)對(duì)比,重點(diǎn)關(guān)注有多少位置是不一樣的。其實(shí)質(zhì)是在計(jì)算漢明距離[3]——如果發(fā)現(xiàn)兩張圖片所具有的64位整數(shù)不同的位數(shù)相差超過(guò)10位,就判定為不同的圖片;如果這兩個(gè)整數(shù)相差的位數(shù)小于等于5,那就說(shuō)明兩張圖片相似。
本算法的優(yōu)點(diǎn)在于能夠快速檢索出圖片,同樣也不會(huì)受到圖片尺寸的影響。當(dāng)然也有一定缺點(diǎn),如果對(duì)圖片內(nèi)容進(jìn)行修改,會(huì)導(dǎo)致64位的整數(shù)和數(shù)據(jù)庫(kù)中的數(shù)字相差很多的位數(shù),最后導(dǎo)致檢索失敗。所以,本算法適用于給出縮略圖找原圖[4]。
3 原型系統(tǒng)實(shí)現(xiàn)
3.1 系統(tǒng)框架圖
3.1.1 系統(tǒng)架構(gòu)
本系統(tǒng)采用B/S架構(gòu)(Browser/Server)[5],在此架構(gòu)下,用戶通過(guò)使用瀏覽器瀏覽,基于HTTP協(xié)議提供的服務(wù)。Server通過(guò)提供api接口的方式響應(yīng)請(qǐng)求、傳遞數(shù)據(jù),前端通過(guò)AJAX發(fā)送GET、POST、PUT等請(qǐng)求調(diào)用這些API接口,Server接收請(qǐng)求并響應(yīng)后,前端將數(shù)據(jù)展示給用戶?;贖TTP協(xié)議,也可以將Server提供的API接口方便提供給其他平臺(tái)使用,最終實(shí)現(xiàn)跨平臺(tái)[1]。模式結(jié)構(gòu)如圖7所示:
3.1.2 系統(tǒng)環(huán)境
1)硬件環(huán)境
CPU: 1.4 GHz Inter Core i5 處理器;內(nèi)存: 8 GB2133 MHz LPDDR3 主板集成內(nèi)存;圖形處理器: IntelIris Plus Graphics 645 圖形處理器;外置存儲(chǔ)設(shè)備:512 GB SSD;操作系統(tǒng): MacOS Catalina。
2)軟件環(huán)境
NodeJS 12.18.2、Webpack、Vue 2.6.6、ElementUI2.4.5、Echart 4.8.0、Vue-Axios 2.1.5、Vue-Router 3.4.3、Vue-Cookie 1.1.4。
3.2 原型系統(tǒng)展示
以查詢蒙娜麗莎為例,如圖9所示,進(jìn)入首頁(yè)后,會(huì)有點(diǎn)擊上傳的按鈕,點(diǎn)擊上傳后。跳轉(zhuǎn)到文物信息界面(圖10):在這個(gè)界面能看到左上角是文物的圖片展示;左下方是文物作者信息的介紹;右上方是文物重點(diǎn)信息的介紹以及文物詳細(xì)信息介紹;右下方是文物的知識(shí)圖譜展示。如果查詢文物的作者,會(huì)看到圖11、圖12的界面。
4 結(jié)束語(yǔ)
本文提出了一種基于圖像檢索和知識(shí)圖譜的現(xiàn)代化博物館系統(tǒng)設(shè)計(jì)方案,并通過(guò)原型系統(tǒng)驗(yàn)證了方案的可行性。通過(guò)本文的文物識(shí)別檢索方式,可以通過(guò)上傳文物圖片的方式輕松檢索出系統(tǒng)化的知識(shí)體系。相比于傳統(tǒng)的檢索方式以及單一知識(shí)的方式,圖像識(shí)別更便于用戶檢索,知識(shí)圖譜關(guān)系表達(dá)能力更強(qiáng),并且它能像人一樣分析數(shù)據(jù)。本文只是對(duì)該方案進(jìn)行了初步嘗試,目前知識(shí)規(guī)模較小,后期需要擴(kuò)展并更深入地分析和發(fā)掘文物知識(shí)的文化內(nèi)涵。