師躍普 西熱旦增 陳瑤 強(qiáng)巴旦增 西藏大學(xué)
關(guān)鍵字:深度學(xué)習(xí) 藏文手寫字符 CNN
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的重要組成部分深度學(xué)習(xí)的主要結(jié)構(gòu)是含有多層類似人腦的感知器,可以通過大量的數(shù)據(jù)來觀察和學(xué)習(xí)其中隱含的信息,并做出與之相適應(yīng)的反應(yīng)。本文主要通過構(gòu)建和運(yùn)用卷積神經(jīng)網(wǎng)絡(luò) [2](Convolutional Neural Networks,CNN)對手寫藏文字符進(jìn)行訓(xùn)練及其識別。本文主要識別的字符有10個數(shù)字:
深度學(xué)習(xí)是模擬人的大腦分層次處理信息的生理機(jī)制,構(gòu)建一個不少于兩個隱含層的神經(jīng)網(wǎng)絡(luò)對輸入進(jìn)行“端到端”的非線性變換或表示學(xué)習(xí)的技術(shù),包括多種架構(gòu)模型:MLP,CNN,R-CNN,RNN,LSTM,GAN等。
假設(shè)一個模型M包含了n個隱含層,各層分別標(biāo)記為Li(i=1,2,…,n),輸入為I,輸出為O,則該模型可以簡單表示為I=>L1=> L2=>…=>Ln=>O。在數(shù)據(jù)流動中Li層的輸入總是Li-1層的輸出,Li層的數(shù)據(jù)輸出作為Li+1層的數(shù)據(jù)輸入,通過訓(xùn)練調(diào)整各層參數(shù)使輸出結(jié)果更接近輸入,最后利用分類器對O中的特征信息進(jìn)行分類識別。
圖1 CNN模型
卷積神經(jīng)網(wǎng)絡(luò)可以通過大量訓(xùn)練,計(jì)算出輸入和輸出之間的關(guān)系。CNN是交替組成的卷積層和池化層[3],網(wǎng)絡(luò)中的每一層包括多個特征提取器。卷積層中的每一神經(jīng)元與其上一層的神經(jīng)元的連接屬于局部性的連接,且位于同一層中某些神經(jīng)元的權(quán)值具有共享性。通過卷積層的運(yùn)算,可以提取到輸入數(shù)據(jù)的特征信息,并且能夠減少噪聲對已提取特征的影響。池化層對輸入的數(shù)據(jù)進(jìn)行抽樣,使其分辨率降低,能夠在在盡量保留原數(shù)據(jù)特征信息的同時降低數(shù)據(jù)處理時的維度,以提高處理信息時的速度。
將所有數(shù)據(jù)處理后,按train : test=7:3劃分?jǐn)?shù)據(jù)集,代碼如下
本模型主要包括:輸入輸出層,兩個卷積層,兩層池化層和一個全連接層共七個層次。
下面介紹主要幾層,卷積層代碼如下:
通過對不同樣本同一人書寫和相同樣本同一人書寫建立的數(shù)據(jù)庫中7000張圖片的訓(xùn)練。由準(zhǔn)確率從第一次訓(xùn)練的60%左右,邊訓(xùn)練邊調(diào)整參數(shù)經(jīng)過15次訓(xùn)練后的準(zhǔn)確率基本穩(wěn)定在92%。(見表1)
表1 訓(xùn)練20次數(shù)據(jù)表
藏文信息處理作為中文信息處理的重要組成部分,藏文文獻(xiàn)數(shù)量在國內(nèi)僅次于漢文文獻(xiàn),藏文文獻(xiàn)能夠較短時間內(nèi)完成電子化存貯是當(dāng)下亟待解決的一個重大課題。隨著深度學(xué)習(xí)和圖像識別領(lǐng)域的發(fā)展,希望藏文信息處理方面的研究利用深度學(xué)習(xí)技術(shù)能夠快速完成古籍保護(hù)傳承工作。