沈淑濤,高飛,梁家瑞
(1. 西藏大學(xué),信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000;2.太原理工大學(xué),軟件學(xué)院,山西 榆次 030600 )
我國的藏文古籍?dāng)?shù)量多,且內(nèi)容豐富,是中華民族文化遺產(chǎn)的主要組成部分。但是藏文古籍涉及的種類復(fù)雜,在研究藏文古籍時,想要從中挑選出所需的古籍十分困難,國內(nèi)學(xué)者一直在研究有效的解決方法。
文獻(xiàn)[1]提出了通過學(xué)習(xí)向量量化算法對藏文古籍進(jìn)行分類的方法。首先根據(jù)需要篩選出古籍因子,采用學(xué)習(xí)向量量化算法對因子進(jìn)行分類,再使用列文夸特算法建造古籍模型對其分類。但該方法并沒有將兩種方法融合,導(dǎo)致出現(xiàn)分類不精準(zhǔn)的問題。文獻(xiàn)[2]提出了通過表示法對迭代加權(quán)圖像的藏文古籍進(jìn)行分類的方法,首先研究藏文古籍圖像的信息分類方法,然后提取藏文古籍中有明顯特點的圖像信息,最后使用表示法表示出不同的藏文古籍迭代加權(quán)圖像信息。但是該方法在提取明顯特點的圖像時,因沒有篩選過程,導(dǎo)致提取出冗余圖像,浪費了大量篩選時間。文獻(xiàn)[3]提出先通過對藏文古籍進(jìn)行調(diào)整,并進(jìn)行歸屬判定,再通過統(tǒng)計操作對其判定結(jié)果進(jìn)行統(tǒng)計。但該方法因藏文古籍的種類復(fù)雜,該方法只能針對其實驗?zāi)窟M(jìn)行判定,該方法不具有普適性。
針對上述問題本文提出了一種基于迭代加權(quán)圖像的藏文古籍逐級分類方法,該方法能更精準(zhǔn)的分類藏文古籍,且分類效率較高。
針對藏文古籍逐級分類問題,傳統(tǒng)方法通常使用廣義內(nèi)積值的樣本選取方法對藏文古籍進(jìn)行逐級分類。但此類方法依賴協(xié)方差矩陣的分類準(zhǔn)度。如果初始分類存在較大誤差,便很難分類出有用的樣本。且需要長時間對樣本進(jìn)行大量的協(xié)方差矩陣訓(xùn)練,但只能粗略地去除訓(xùn)練樣本的合數(shù),導(dǎo)致分類性能下降。
為了解決上述問題,本文采用基于迭代加權(quán)圖像的藏文古籍逐級分類方法。為便于分析,假設(shè)環(huán)境由兩種區(qū)域組成。
(1-α0)00+α001
(1)
在最少均方誤差要求下計算式(2)最優(yōu)權(quán)問題。
(2)
由傳統(tǒng)方法知式(2)的最優(yōu)質(zhì)權(quán)為
(3)
通過式(3)能看出,最優(yōu)權(quán)的分子只能與均勻樣本相關(guān),當(dāng)樣本總數(shù)到達(dá)一定數(shù)量時,最優(yōu)權(quán)與不均衡出現(xiàn)反比。可能使不均勻程度達(dá)到最大化,不均勻程度的樣本因不均勻程度達(dá)到最大化,導(dǎo)致其所加的權(quán)值出現(xiàn)最少量。
廣義內(nèi)積值與其本身的均值差距越大,則不均衡的效果越強,同時在樣本總數(shù)目有限的狀態(tài)中,其廣義內(nèi)積的均值即不是理論均值。
通過以上分析可知,本文所使用迭代加權(quán)方法中的統(tǒng)計均值與廣義內(nèi)積值中的方差對所有樣本進(jìn)行加權(quán)處理,消除相對不均衡樣本在協(xié)方差矩陣?yán)锏谋戎?,?dǎo)致更改樣本升高產(chǎn)生的逐級分類精準(zhǔn)度下降,為了調(diào)整不均衡壞點對與廣義內(nèi)積的影響,應(yīng)先利用構(gòu)建的廣義內(nèi)積直方圖對廣義內(nèi)積值進(jìn)行評估。再考慮樣本在總數(shù)量有限的情況下利用協(xié)方差矩陣會出現(xiàn)的差度。本文使用迭代模式對協(xié)方差矩陣的分類進(jìn)行準(zhǔn)度提高。方法的流程如圖1所示。
下列為本文方法的操作流程:
1)設(shè)定起始協(xié)方差矩陣:利用傳統(tǒng)方法的樣本協(xié)方差矩陣計算起始協(xié)方差矩陣
(4)
式中M代表總數(shù)訓(xùn)練樣本。
2)對廣義內(nèi)積值進(jìn)行計算,再統(tǒng)計其幾率分布情況:先使用獲取的協(xié)方差矩陣算出全部樣本單元的廣義內(nèi)積值zi
(5)
接著利用直方圖來計算出廣義內(nèi)積值的幾率分布狀況P(zi),i=1,2,…,M。
3)權(quán)值計算:每一種樣本的權(quán)重經(jīng)過計算其廣義內(nèi)積值的誤差以及廣義內(nèi)積值所得到的數(shù)據(jù),其合理權(quán)值的重要點是獲得的反應(yīng)均衡數(shù)據(jù)廣義內(nèi)積值。
正常情況下,可理解訓(xùn)練樣本內(nèi)的均衡數(shù)據(jù)占據(jù)大部分位置,不均勻數(shù)據(jù)占比略小。因為均勻數(shù)據(jù)的廣義內(nèi)均值與不均衡數(shù)據(jù)之間的廣義內(nèi)積值相似度較高,包含較大差異,所以在對廣義內(nèi)積值的計算幾率分布內(nèi),其均衡數(shù)據(jù)的幾率要大于不均勻數(shù)據(jù)。
為了能夠獲取較為適當(dāng)?shù)膹V義內(nèi)積值,避免受到不均衡樣本的廣義內(nèi)積值對均值的影響,只使用樣本幾率較大的均值進(jìn)行計算。
(6)
式中θ={i|P(zi)≥p},m代表集合θ中古籍的數(shù)量,p=μP(zi)代表設(shè)置的幾率值,μP(zi)代表(zi)的均值。
每一種樣本的權(quán)值為
(7)
4)改進(jìn)協(xié)方差矩陣:利用獲取的權(quán)值對樣本進(jìn)行加權(quán)處理,即可得到分類的協(xié)方差j。
(8)
綜上,本文使用迭代加權(quán)算法建立樣本并對其進(jìn)行迭代加權(quán)自適應(yīng),使后續(xù)的逐級分類更簡單,提高了后續(xù)逐級分類的精準(zhǔn)度和分類性能。
藏文古籍的章篇較短,所有藏文古籍會累積出大量的圖像信息,圖像信息會導(dǎo)致獲得的向量空間維度較高。藏文古籍迭代加權(quán)信息特征提取的難度在于特征圖像的選擇和權(quán)值計算。藏文古籍的特征空間維度過大,會干擾逐級分類的精準(zhǔn)度與效率,所以在進(jìn)行分類時,需調(diào)低藏文古籍迭代加權(quán)圖像信息的空間維度,挑選出可以為分類提供較大貢獻(xiàn)的圖像信息,從而進(jìn)行特征提取。
對藏文古籍迭代加權(quán)圖像進(jìn)行特征提取時,需計算出藏文古籍圖像的頻率,計算公式如下所示
(9)
其中,D(n)表示藏文古籍迭代加權(quán)圖像特征的問本數(shù),D(t)代表藏文古籍的數(shù)量,DF代表藏文古籍迭代加權(quán)圖像頻率。DF代表經(jīng)過計算藏文古籍的復(fù)雜度來測出藏文古籍文本信息特征,復(fù)雜程度越低,適用性越廣泛。當(dāng)復(fù)雜程度和藏文古籍總數(shù)呈線性關(guān)系時,集成速度快,有用信息少。當(dāng)DF值升高時,有用信息越多。計算出藏文古籍迭代加權(quán)頻率后,需對迭代加權(quán)圖像信息與藏文古籍種類的相關(guān)性進(jìn)行判斷,判斷公式如下所示。
(10)
其中,ML代表藏文古籍類別和迭代加權(quán)圖像信息的關(guān)聯(lián)性,在特征選擇時擬定計算特征詞t與估計類比ci,從而判斷特征和類別的相關(guān)聯(lián)度。藏文古籍的某種類別ci出現(xiàn)的幾率較高,相關(guān)性就越高,P(ci)代表第i類出現(xiàn)的幾率,p(t|ci)代表特征詞t與估計類別ci同時出現(xiàn)的幾率。這種過程受邊緣幾率影響較大,可能會出現(xiàn)評估函數(shù)不選擇高頻而使用稀有,對后面的計算過程產(chǎn)生干擾。使用IG融入分類信息,融入的分類信息越多,該特征就越重要,IG融入分類用下列公式表示
(11)
式中,P(ki)代表包括特征信息的藏文古籍,P(ti)代表不包含特征信息的藏文古籍。IG相對高頻特征圖像信息的提取所含利成分越多,迭代加權(quán)特征圖像的IG值越高,對逐級分類提供的貢獻(xiàn)就越高。所以在對迭代圖像信息進(jìn)行特征選擇時,通常提取IG值較高的特征圖像提取特征信息,定制特征向量。反之對于沒有特征信息的迭代加權(quán)圖像無法計算IG值,提取信息的精準(zhǔn)度較低。
藏文古籍迭代圖像代表對圖像文本進(jìn)行形式化處理,使用計算機理解迭代加權(quán)圖像信息文本,制造索引模型。當(dāng)前使用較為廣泛的模型有空間向量模型、自然圖像模型與概率模型。通過大量實驗證明,空間向量模型在表示迭代加權(quán)圖像時更有效??臻g向量模型可以把大量迭代加權(quán)圖像表達(dá)為特征信息矩陣,把類似圖像變換為特征向量相似度比較,逐級分類過程將更清晰。特征信息矩陣如表1所示
表1 特征信息矩陣
在特征矩陣中,t代表特征圖像,k代表藏文古籍,n代表藏文古籍迭代加權(quán)圖像的數(shù)量,m代表有待分類的藏文古籍,將所有古籍中的迭代加權(quán)圖像表示為三維空間中的某個點,示例k(d)=((t1,k1),(tj,k1),(tm,k1)…(tn,km)),M代表向量的特征值,經(jīng)過矩陣判斷特征信息在藏文古籍內(nèi)的重要性,計算出迭代加權(quán)圖像和藏文古籍的相關(guān)性。經(jīng)過對迭代加權(quán)圖像賦予的概率值計算出其在藏文古籍中的貢獻(xiàn)程度,從而對藏文古籍進(jìn)行逐級分類。
實驗環(huán)境為Intel Celeron Tulatin1GHz CPU和384MBSD內(nèi)存的硬件環(huán)境和MATLAB6.1的軟件環(huán)境。本文實驗中,為了評測本文方法的性能,使用文獻(xiàn)[2]方法與本文方法進(jìn)行較比。書籍樣本總數(shù)是651,共分為4類,其中每種分類區(qū)域的藏文所占比列分別是60%,40%,30%,20%。
為了更為簡單的觀察本文方法的收斂性能,給出輸出收斂性的計算公式:
(12)
其中Rs代表目標(biāo)古籍的協(xié)方差矩陣,Rcn代表迭代加權(quán)圖像的協(xié)方差矩陣。設(shè)定輸出SCNR權(quán)對SCNR最大值的差進(jìn)行處理。
圖2 迭代加權(quán)方法收斂曲線圖
圖3是研究方法和傳統(tǒng)方法的逐級分類結(jié)果對比圖。分別對藏文古籍進(jìn)行編碼,1-353是第一區(qū)域,354-417是第二區(qū)域,418-545是第三區(qū)域,546-641是第四區(qū)域。圖3(a)中顯示的是傳統(tǒng)方法的分類結(jié)果,雖然分類了所有古籍,但是第2區(qū)域與第3區(qū)域的權(quán)值顯然大于第1區(qū)域。所以,傳統(tǒng)方法并不會有效的對藏文古籍進(jìn)行逐級分類,而圖3(b)為研究方法的分類結(jié)果圖,圖中第2區(qū)域的權(quán)值顯然要小于第1權(quán)值,第4區(qū)域和第3區(qū)域的權(quán)值則明顯小于第1區(qū)域,就是不均勻程度越高加權(quán)值就越小,這證明本文方法可以有效的逐級分類藏文古籍。
圖3 不同方法分類藏文古籍結(jié)果圖
通過上述實驗?zāi)軌蚩闯?,通過本文方法逐級分類的迭代加權(quán)圖像藏文古籍,能夠清楚看的到各階級的分類階梯,而使用傳統(tǒng)方法分類出的藏文古籍,區(qū)域較為雜亂并且分類并不完整。
為進(jìn)一步驗證研究方法的應(yīng)用有效性,將該方法運用到實際藏文古籍檢索中。該方法可對古籍題名、作者、語種、類別及收藏情況進(jìn)行篩選檢索,檢索界面如圖4所示。
圖4 藏文古籍檢索界面
以檢索藏文著作《藏歷時論學(xué)智者生悅論》為例,運用迭代加權(quán)圖像的藏文古籍逐級分類方法進(jìn)行檢索。結(jié)果表明該方法能快速有效地進(jìn)行分類檢索,且分類層級明晰,說明對藏文古籍檢索是有幫助的。檢索結(jié)果如圖5所示。
圖5 檢索結(jié)果
為了進(jìn)一步驗證研究方法分類藏文古籍的有效性,利用傳統(tǒng)方法與研究方法對逐漸增加的1600份藏文古籍樣本進(jìn)行分類,對比兩種方法的分類時長。具體實驗結(jié)果如圖6所示。
圖6 不同方法分類藏文古籍時長結(jié)果圖
通過上述實驗?zāi)軌蚩闯觯瑑煞N方法的分類時長隨著藏文古籍樣本增多而增加。在樣本數(shù)量個數(shù)為200個~1600個區(qū)間內(nèi),傳統(tǒng)方法的分類時長約為6~10s,而研究方法的分類時長約為1~4s,遠(yuǎn)遠(yuǎn)小于傳統(tǒng)方法的分類時間。說明本文基于迭代加權(quán)圖像的藏文古籍逐級分類方法能對藏文古籍進(jìn)行高效分類,具有一定的科研意義。
針對藏文古籍分類中存在的分類不完整和分類效率低的問題,本文提出了一種基于迭代加權(quán)圖像的藏文古籍逐級分類方法。該方法首先使用迭代加權(quán)算法,基于藏文古籍構(gòu)建出迭代加權(quán)模型,從而使其自適應(yīng)處理需要大量訓(xùn)練樣協(xié)方差矩陣,然后通過訓(xùn)練出協(xié)方差矩陣和廣義內(nèi)積進(jìn)行融合,之后對迭代加權(quán)圖像進(jìn)行計算,從而改進(jìn)后續(xù)分類時出現(xiàn)的分類準(zhǔn)度下降問題,最后通過對藏文古籍迭代加權(quán)圖像進(jìn)行信息特征提取,來達(dá)到逐級分類的目的,實驗證明本文方法,能夠完整的對藏文古籍進(jìn)行逐級分類,并且分類的速度較為迅速。