高飛+沈淑濤
摘 要 藏文古籍是藏文化的重要載體,種類(lèi)復(fù)雜,內(nèi)容龐大,在對(duì)藏族文化進(jìn)行研究時(shí),必須要對(duì)藏文古籍的圖像信息進(jìn)行分類(lèi)。研究了一種藏文古籍圖像信息自動(dòng)分類(lèi)方法,通過(guò)對(duì)藏文古籍傳播圖像信息進(jìn)行預(yù)處理提取出具有明顯特點(diǎn)的圖像傳播信息,利用文本表示法表示出不同的圖像信息,從而完成整個(gè)分類(lèi),借助檢測(cè)儀計(jì)算分類(lèi)的召回率和準(zhǔn)確率,判斷分類(lèi)準(zhǔn)確性。
關(guān)鍵詞 藏文古籍;圖像信息;自動(dòng)分類(lèi)方法
中圖分類(lèi)號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2017)199-0182-02
目前我國(guó)藏文古籍卷秩浩繁,數(shù)量驚人,內(nèi)容廣博,成為偉大中華民族文化遺產(chǎn)的重要組成部分,也代表了先輩偉大的思想理念。但是藏文古籍涉及內(nèi)容過(guò)多,種類(lèi)復(fù)雜,在研究藏族知識(shí)時(shí),想要從海量藏文古籍中選取出有用的藏文古籍是一項(xiàng)極為困難的事情,學(xué)者一直尋求有效的方法高效準(zhǔn)確的對(duì)藏文古籍圖像傳播信息進(jìn)行分類(lèi)。本文給出了一種藏文古籍圖像信息自動(dòng)分類(lèi)方法,首選對(duì)藏文古籍傳播圖像信息進(jìn)行預(yù)處理,然后提取出具有明顯特點(diǎn)的圖像傳播信息,利用文本表示法表示出不同的圖像信息,從而完成整個(gè)分類(lèi),最后再用檢測(cè)儀計(jì)算分類(lèi)的召回率和準(zhǔn)確率,找出不足,并不斷優(yōu)化[ 1 ]。
1 藏文古籍傳播圖像信息預(yù)處理
藏文古籍傳播圖像信息自動(dòng)分類(lèi)方法分為分類(lèi)和檢測(cè)兩個(gè)階段,利用文獻(xiàn)調(diào)研法對(duì)藏文古籍傳播圖像的相關(guān)信息進(jìn)行研究,通過(guò)機(jī)器將得到的古籍傳播圖像信息進(jìn)行分類(lèi)。圖像信息分類(lèi)總體框架如圖1所示。
圖1中,分類(lèi)階段利用分類(lèi)器對(duì)圖像信息的特征進(jìn)行提取,經(jīng)過(guò)文本處理、信息設(shè)置、文獻(xiàn)研究等階段實(shí)現(xiàn)圖像的分類(lèi),測(cè)試階段利用測(cè)試儀調(diào)查準(zhǔn)確率和召回率,完成對(duì)分類(lèi)結(jié)果的檢測(cè)。藏文古籍傳播圖像信息自動(dòng)分類(lèi)過(guò)程主要包括圖像信息預(yù)處理、圖像信息特征提取、圖像信息文本表示、圖像信息自動(dòng)分類(lèi)評(píng)測(cè),其中,最重要的一步為圖像信息特征提取,最困難的一步為圖像信息文本表示[2]。
藏文古籍傳播圖像信息預(yù)處理是從藏文古籍中提取出特征圖像傳播信息進(jìn)而對(duì)藏文古籍進(jìn)行處理的過(guò)程,主要目的是從大量信息中提取有用信息,剔除和中心關(guān)系不大的文字、符號(hào)和圖像。通常會(huì)設(shè)計(jì)一個(gè)關(guān)鍵信息表格,然后將藏文古籍中與關(guān)鍵信息有關(guān)的部分篩選出來(lái),進(jìn)一步處理圖像信息,也可以將藏文古籍中與關(guān)鍵信息無(wú)關(guān)的部分剔除掉,從而留下處理圖像信息的空間。
2 藏文古籍傳播圖像信息特征提取
藏文古籍的文章篇幅往往較短,但是每一篇藏文古籍中都會(huì)涉及到不同的圖像,累計(jì)出來(lái)有大量的圖像信息,圖像信息會(huì)導(dǎo)致得到的向量空間維數(shù)特別高。每本藏文古籍中的圖像信息都具有相關(guān)性,不同類(lèi)型的藏文古籍也可能包含相同或者不同的相關(guān)圖像信息,對(duì)藏文古籍分類(lèi)起到關(guān)鍵性作用,是必不可少的一步。藏文古籍傳播圖像信息特征提取的難點(diǎn)在于特征圖像的選擇以及權(quán)值的計(jì)算。藏文古籍的特征空間維數(shù)過(guò)大,會(huì)嚴(yán)重影響分類(lèi)的效率和結(jié)果的準(zhǔn)確率,因此在進(jìn)行信息分類(lèi)時(shí),必須要降低藏文古籍圖像信息的空間維數(shù),選取出能夠?yàn)榉诸?lèi)提供較大貢獻(xiàn)的圖像信息,從而進(jìn)行特征提取。
對(duì)藏文古籍傳播圖像信息進(jìn)行特征提取時(shí)首先要計(jì)算出藏文古籍傳播圖像頻率,計(jì)算公式如下:
3 藏文古籍傳播圖像信息文本表示
藏文古籍傳播圖像信息文本表示就是對(duì)圖像文本進(jìn)行形式化處理,利用計(jì)算機(jī)理解圖像信息文本,制造索引模型。目前比較常用的模型有空間向量模型、自然圖像模型和概率模型。經(jīng)過(guò)大量實(shí)踐證明,空間向量模型在表示圖像信息文本中最為有效。應(yīng)用在SMART圖像信息檢測(cè)系統(tǒng)??臻g向量模型能夠?qū)⒋罅總鞑D像信息表示為特征詞矩陣,將相似圖像轉(zhuǎn)化為特征向量相似度比較,分類(lèi)過(guò)程將會(huì)變得更加清晰明了。特征信息矩陣如下表1所示。
4 藏文古籍傳播圖像信息自動(dòng)分類(lèi)評(píng)測(cè)
傳播圖像信息自動(dòng)分類(lèi)評(píng)測(cè)是自動(dòng)分類(lèi)的關(guān)鍵步驟,通過(guò)評(píng)測(cè)分類(lèi)效果,尋找到信息分類(lèi)過(guò)程中的不足之處,然后對(duì)分類(lèi)器加以改進(jìn),從而制造出更加準(zhǔn)確的分類(lèi)器。
通常會(huì)對(duì)分類(lèi)后圖像信息的召回率和準(zhǔn)確率進(jìn)行計(jì)算,從而評(píng)測(cè)自動(dòng)分類(lèi)精度。數(shù)學(xué)公式如下:
5 結(jié)論與討論
通過(guò)本文的探討分析可以了解到藏文古籍是藏文化的重要載體,目前我國(guó)收藏的藏文古籍種類(lèi)過(guò)于復(fù)雜,內(nèi)容龐大,學(xué)者在對(duì)藏族文化進(jìn)行研究時(shí),必須要對(duì)藏文古籍的圖像信息進(jìn)行分類(lèi)。研究了一種藏文古籍圖像信息自動(dòng)分類(lèi)方法,首先要對(duì)藏文古籍傳播圖像信息進(jìn)行預(yù)處理,然后提取出具有明顯特點(diǎn)的圖像傳播信息,利用文本表示法表示出不同的圖像信息,從而完成整個(gè)分類(lèi),最后借助檢測(cè)儀計(jì)算分類(lèi)的召回率和準(zhǔn)確率,判斷分類(lèi)準(zhǔn)確性,本文給出的方法效率高,耗時(shí)短,是未來(lái)研究藏文化必然使用的方法之一。
參考文獻(xiàn)
[1]施艷蕊,單廣榮.藏文古籍書(shū)籍類(lèi)數(shù)字圖書(shū)館元數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)研究[J].甘肅科技,2009,25(11):10-12.
[2]索南多杰.中國(guó)民族圖書(shū)館藏文古籍文獻(xiàn)的開(kāi)發(fā)和研究[J].西藏民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2013,34(2):103-107.endprint