于 翔,沈 美
(南通科技職業(yè)學(xué)院,江蘇 南通 226007)
目前,利用數(shù)字技術(shù)將文字、音頻、視頻等信息集為一體,通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)高效傳播,實(shí)現(xiàn)對(duì)非遺的傳承與保護(hù),具有傳統(tǒng)保護(hù)方法無(wú)法比擬的優(yōu)勢(shì),即高互動(dòng)性、高時(shí)效性、內(nèi)容豐富性、傳播途徑多樣性等。因此,通過(guò)非物質(zhì)文化遺產(chǎn)數(shù)字化,實(shí)現(xiàn)數(shù)字化保護(hù)方法替代傳統(tǒng)保護(hù)方法,無(wú)疑是非物質(zhì)文化遺產(chǎn)傳承與保護(hù)新的重要途徑之一。然而,隨著數(shù)字化技術(shù)的發(fā)展,新的技術(shù)在非遺保護(hù)與傳承上發(fā)揮的作用也會(huì)有所不同,也會(huì)對(duì)非遺數(shù)字化的概念與內(nèi)涵產(chǎn)生影響[1]。且非遺數(shù)字化,尤其是傳統(tǒng)手工藝數(shù)字化的重點(diǎn)工作,應(yīng)當(dāng)是實(shí)現(xiàn)并傳播文化內(nèi)涵[2]。對(duì)于這些問(wèn)題,利用近年來(lái)快速發(fā)展的人工智能、機(jī)器學(xué)習(xí)等新技術(shù),結(jié)合藝術(shù)、人文等其他學(xué)科,是解決該問(wèn)題的重要方向。例如有些學(xué)者利用機(jī)器學(xué)習(xí)對(duì)民族文化圖案進(jìn)行語(yǔ)義標(biāo)注[3],還有的利用深度學(xué)習(xí)對(duì)少數(shù)民族繪畫(huà)進(jìn)行情感分析[4]等。然而,數(shù)據(jù)的有效性是深度神經(jīng)網(wǎng)絡(luò)成功運(yùn)行的關(guān)鍵[5],數(shù)據(jù)歸一化編碼,尤其是大規(guī)模數(shù)據(jù)的歸一化編碼,一直是制約人工智能、機(jī)器學(xué)習(xí)在非遺上應(yīng)用的重要因素。
本研究以我國(guó)非遺之一的南通藍(lán)印花布為例,通過(guò)從網(wǎng)絡(luò)收集、手工采集藍(lán)印花布紋樣照片,包括植物、人物、動(dòng)物、傳統(tǒng)紋樣、基礎(chǔ)元素紋樣等多種主題,針對(duì)每一個(gè)紋樣,總結(jié)歸納出基礎(chǔ)底色、結(jié)構(gòu)規(guī)則、位置規(guī)則以及內(nèi)容等四大屬性,并為這些屬性歸一化編碼,為今后的深度學(xué)習(xí)奠定基礎(chǔ)。
圖像的識(shí)別與檢測(cè)是機(jī)器視覺(jué)中很重要的一個(gè)分支。目前,這方面的研究與應(yīng)用主要集中在人臉、文字等公共領(lǐng)域方面。對(duì)于非遺中的個(gè)例—南通藍(lán)印花布紋樣,尤其是針對(duì)南通藍(lán)印花布紋樣的收集、整理,仍處于空白階段。因此,在實(shí)地調(diào)研的基礎(chǔ)上收集一手資料,通過(guò)對(duì)藍(lán)印花布的紋樣和素材進(jìn)行數(shù)字化采集、數(shù)字化處理,并對(duì)紋樣進(jìn)行分類、分析、整理以及拆分、提取,歸一化后建立紋樣數(shù)據(jù)編碼。
研究對(duì)象:通過(guò)尼康數(shù)碼相機(jī)5100進(jìn)行數(shù)字化采集,包括拍照與攝影。拍照的圖像格式為JPEG格式,像素為1 800萬(wàn),分辨率約為1 790萬(wàn)像素(5 184×3 456)。數(shù)據(jù)通過(guò)數(shù)據(jù)線或者讀卡器導(dǎo)入計(jì)算機(jī),高質(zhì)量的圖片方便后期數(shù)字化處理。
根據(jù)大量的分析與研究,南通藍(lán)印花布分為白底藍(lán)花以及藍(lán)底白花兩大類。根據(jù)南通藍(lán)印花布紋樣的構(gòu)圖規(guī)則,分成對(duì)稱、重復(fù)、發(fā)散和環(huán)繞4種結(jié)構(gòu)。每個(gè)紋樣分為主體、外框、裝飾三大屬性以及植物、動(dòng)物、人物以及基礎(chǔ)元素、傳統(tǒng)元素等子屬性。因此,分別從色彩、題材、組織形式以及相對(duì)位置4個(gè)維度對(duì)南通藍(lán)印花布紋樣進(jìn)行歸納與總結(jié)。
南通藍(lán)印花布在色彩上僅用單純的藍(lán)、白二色創(chuàng)設(shè)和諧之美,包括藍(lán)底白花和白底藍(lán)花兩種形式[6],如圖1、表1所示。
圖1 藍(lán)底白花與白底藍(lán)花的藍(lán)印花布紋樣
表1 色彩對(duì)比
藍(lán)印花布的印染技藝作為一種民間藝術(shù)形式,通過(guò)植物、動(dòng)物、人物以及其他題材[6]來(lái)表現(xiàn)獨(dú)具魅力的紋樣。其中,其他題材又可細(xì)分為基礎(chǔ)元素和傳統(tǒng)元素兩種題材[7](表2)。
表2 題材
南通藍(lán)印花布多變又有個(gè)性的紋樣組織形式,也是南通藍(lán)印花布的藝術(shù)特色之一。除此之外,還有用單純的藍(lán)白相間和活潑靈動(dòng)的點(diǎn)、線鏤刻的不規(guī)則的紋樣,主要包括對(duì)稱、重復(fù)、發(fā)散、環(huán)繞4種形式[6](表3)。
表3 組織形式
大量的研究表明,南通藍(lán)印花布紋樣的相對(duì)位置可分為主體、裝飾以及外框三大類(表4)。
表4 相對(duì)位置
One-Hot編碼,又稱為一位有效編碼,主要是采用N位狀態(tài)寄存器來(lái)對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都由獨(dú)立的寄存器位,并且在任意時(shí)候只有一位有效。One-Hot編碼是分類變量作為二進(jìn)制向量的表示。
眾所周知,算法是基于向量空間中的度量來(lái)進(jìn)行計(jì)算的,尤其是在回歸、分類、聚類等機(jī)器學(xué)習(xí)算法中,特征之間距離的計(jì)算或相似度的計(jì)算是非常重要的,而常用的距離或相似度的計(jì)算都是在歐式空間[8]。使用One-Hot編碼,將離散特征通過(guò)One-Hot編碼映射到歐式空間,使非偏序關(guān)系的特征取值不具有偏序性,使特征之間的距離計(jì)算更加合理,并且到圓點(diǎn)是等距的;離散特征的某個(gè)取值就對(duì)應(yīng)歐式空間的某個(gè)點(diǎn);編碼后的特征,每一維度的特征都可以看作是連續(xù)的特征,就可以和對(duì)連續(xù)型特征的歸一化方法一樣,對(duì)每一維特征進(jìn)行歸一化。比如歸一化到[-1,1]或歸一化到均值為0,方差為1。
2.2.1 優(yōu)點(diǎn)
獨(dú)熱編碼解決了分類器不好處理屬性數(shù)據(jù)的問(wèn)題,在一定程度上也起到了擴(kuò)充特征的作用。其值只有0和1,不同的類型存儲(chǔ)在垂直的空間。
2.2.2 缺點(diǎn)
當(dāng)類別的數(shù)量很多時(shí),特征空間會(huì)變得非常大。在這種情況下,一般可以用PCA來(lái)減少維度。且One-Hot encoding+PCA組合在實(shí)際中也非常有用。
采用One-Hot編碼來(lái)對(duì)南通藍(lán)印花布數(shù)字化紋樣進(jìn)行編碼,南通藍(lán)印花布數(shù)字化紋樣的歸一化編碼的應(yīng)用如圖2所示。
圖2 歸一化編碼應(yīng)用
大量的實(shí)踐表明,在藍(lán)印花布的發(fā)展過(guò)程中,藍(lán)印花布紋樣數(shù)量、種類不同,導(dǎo)致分布密度不同,而且是隨機(jī)變化的。對(duì)藍(lán)印花布數(shù)字化紋樣進(jìn)行歸一化編碼處理后,有效地調(diào)整了藍(lán)印花布紋樣數(shù)量分布的密度,不僅在時(shí)間效率上有顯著提高,在準(zhǔn)確性方面也取得了突破性的進(jìn)展。