王艷+周小平+王睿+孫冰雪
摘要:目的 研究基于視覺詞袋的圖像檢索方法并應用于長白山中草藥植物圖像檢索領域。方法 采用SURF算法提取圖像視覺特征,稀疏編碼方法構造視覺詞典,并提出支持向量機(SVM)和近似最近鄰(ANN)相結合的改進方法完成分類器分類訓練。結果 選取2500張中草藥圖像作為檢索樣本,在視覺單詞數(shù)量為500的情況下,平均檢索時間為481 ms,平均查準率為88.95%。結論 本方法能有效提高圖像檢索效率與準確度,同時表現(xiàn)出較好的魯棒性。
關鍵詞:中草藥;圖像檢索;視覺詞袋
DOI:10.3969/j.issn.1005-5304.2018.02.021
中圖分類號:R2-05;R282.74 文獻標識碼:A 文章編號:1005-5304(2018)02-0095-04
Research on Image Retrieval Method of Wild Chinese Herbal Medicine Plants
in Changbai Mountain
WANG Yan, ZHOU Xiao-ping, WANG Rui, SUN Bing-xue
College of Pharmacy, Jilin University, Changchun 130012, China
Abstract: Objective To study the visual word bag based image retrieval method and apply it in the field of image retrieval of wild Chinese herbal medicine plants in Changbai Mountain. Methods SURF operator was used to extract visual features. Then sparse coding method was used to structure visual dictionary. The classifier was trained by combination of support vector machine (SVM) and approximate nearest neighbors (ANN) method. Results Totally 2500 photos of Chinese herbal medicine plants were chosen. When the visual word number was 500, the average retrieval time was 481 ms, and the average query accuracy was 88.95%. Conclusion The method can effectively improve the efficiency and accuracy of image retrieval, and has better robust.
Keywords: Chinese herbal medicine; image retrieval; visual word bag
長白山位于吉林省東南部,屬國家級自然保護區(qū),森林資源豐富、植物種類繁多,共有野生植物2700余種,其中藥用植物1000余種,名貴藥用植物有人參、黨參、東北刺參、黃芪、天麻、紅景天和靈芝等,是我國著名的北藥基地[1]。為高效檢索和鑒別中草藥植物圖像,本研究探索基于內(nèi)容的圖像檢索方法在中草藥圖像檢索領域的應用。
傳統(tǒng)圖像檢索過程中,先通過人工對圖像文字標注,再用關鍵字檢索圖像,這種依據(jù)圖像描述的字符匹配程度提供檢索結果的方法,簡稱為“字找圖”,既耗時又主觀多義?;趦?nèi)容的圖像檢索可克服“字找圖”方式的不足,直接從待檢索的圖像視覺特征出發(fā),在圖像庫中找出與之相似的圖像,這種依據(jù)視覺相似程度給出圖像檢索結果的方法,簡稱為“圖找圖”[2-3]。在基于內(nèi)容的圖像檢索中,視覺詞袋模型(bag of visual word,BoVW)已成為較常見的方法。針對傳統(tǒng)基于SIFT(scale invariant feature transform)圖像特征提取耗時過長的問題,本研究采用基于SURF(speeded up robust features)的圖像特征快速提取方法。此外,對基于BoVW的視覺詞典構造方法和分類器訓練方法進行改進優(yōu)化,從而有效提升中草藥圖像信息檢索的效率與準確度。
1 視覺詞袋模型基本原理
BoVW基本原理是將圖像理解為一組視覺特征單詞的集合,統(tǒng)計每個視覺特征單詞在圖像中出現(xiàn)的頻率并生成頻率直方圖向量,以該向量對圖像進行表示,然后將特征向量導入分類器進行分類[4],算法流程見圖1。
算法流程具體表述如下:
步驟1:特征提取與描述。圖像特征主要包括圖像的顏色、形狀、紋理和空間關系等一些定量的特征,這些特征可以通過圖像特征檢測算法自動提取與描述,一般采用SIFT算法進行特征提取[5]。
步驟2:視覺詞典構造。利用K-means算法將圖像特征描述子進行聚類形成視覺詞典,每個聚類中心對應視覺詞典中的1個單詞[6]。
視覺詞典構造的具體步驟:
①給定圖像特征描述子待聚類數(shù)據(jù)集,隨機選取K個對象作為初始聚類中心。
②根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離,并根據(jù)最小距離重新對相應對象進行劃分。
③重新計算每個有變化聚類的均值。
④計算標準測度函數(shù),當滿足一定條件,如函數(shù)收斂時,則算法終止;如果不滿足條件則返回到步驟②。endprint
步驟3:圖像映射到視覺詞典。視覺詞典生成后,統(tǒng)計每幅圖像對應詞典中的單詞出現(xiàn)的頻率,將每幅圖像映射成1個K維的圖像描述向量,其中K表示聚類中心的數(shù)量,即視覺單詞的數(shù)量。
步驟4:訓練分類器分類。主要采用支持向量機(support vector machine,SVM)進行分類[7]。SVM的學習策略是間隔最大化,可形式化為求解凸二次規(guī)劃問題,利用尋優(yōu)算法求解目標函數(shù)全局最小值。
2 基于視覺詞袋的圖像檢索改進方法
2.1 基于SURF的圖像特征提取與描述
SURF算法是基于尺度空間理論,該算法是對SIFT算法的一種改進,優(yōu)勢在于能夠大大提升特征提取速率,同時表現(xiàn)出更好的魯棒性[8]。
2.1.1 圖像特征提取
SURF算法采用方框濾波器構造fast-Hessian矩陣,9×9方框濾波器模板見圖2。在原圖上,通過擴大濾波器尺寸形成不同尺度的圖像金字塔,并使用積分對圖像卷積進行加速。
2.1.2 圖像特征描述
首先計算每個特征點主方向。然后,選定一個以特征點為中心的正方形區(qū)域,把該區(qū)域劃分為4×4個子區(qū)域,計算每個子區(qū)域5×5個采樣點相對于主方向的水平和垂直方向的Harr小波響應值,分別計為dx和dy,并給這些響應值賦予不同的高斯權重系數(shù),得到1個四維矢量V:
由①式可知,SURF特征描述向量的維數(shù)是16×4=64維。為了保持對光照不變性,需要對向量進行歸一化處理,得到特征描述子,見圖3。
2.2 基于稀疏編碼的視覺詞典構造
基于K-means聚類的視覺詞典構造方法存在的主要問題是將圖像特征硬性劃分到一個與其距離最近的視覺單詞類中,未考慮該特征可能與多個類中的視覺單詞距離最近,降低了與其他類視覺單詞的相似度和自身表達的準確性。本研究采用基于稀疏編碼(sparse coding)視覺詞典構造方法[9],可使圖像特征用與其最近的多個視覺單詞進行線性表示。稀疏編碼本質(zhì)是一個目標向量可以由少量的基向量經(jīng)線性擬合而成,線性擬合中非零元素表示該圖像特征與相對應的視覺單詞的相似度,使輸入特征與輸出特征表示之間的差值最小。稀疏編碼通常構造一個目標函數(shù),如②式所示。
②式中加了一個對ui的L1正則化約束,λ為正則化參數(shù),向量ui只有一個元素為1,其余為0,||ui||1為稀疏懲罰項。
基于稀疏編碼的視覺詞典構造過程分為訓練階段和編碼階段。訓練階段通過不斷迭代,使目標函數(shù)收斂到最小值,從而得到一組能夠表示輸入特征的特征基向量即視覺詞典。編碼階段首先固定視覺詞典V并調(diào)整U,使目標函數(shù)最小值時得到輸入量所對應的稀疏向量,該稀疏向量就是輸入特征對應于視覺詞典的稀疏表示。
2.3 圖像映射到視覺詞典
圖像表示是將圖像特征及語義內(nèi)容表示出來的過程,視覺詞典生成后,統(tǒng)計每幅圖像對應詞典中的單詞出現(xiàn)的頻率,將每幅圖像映射成一個K維的圖像描述向量,其中K表示聚類中心的數(shù)量,即視覺詞典中視覺單詞的個數(shù)。
BoVW中的圖像表示是一個將圖像特征與視覺詞典中的視覺單詞進行匹配的過程,在特征匹配過程中,采用了快速最近鄰逼近(fast approximate nearest neighbors,F(xiàn)ANN)搜索策略,該算法指出最佳近鄰搜索與數(shù)據(jù)集特性有關,采用分層聚類樹算法用于搜索特定數(shù)據(jù)集[10]。采用該方法可實現(xiàn)快速圖像特征匹配。
2.4 訓練分類器分類
圖像特征表示為頻率直方圖向量后,選擇分類器進行分類。為精細化對同一種類中草藥植物進行分類檢索,需要采用細粒度的圖像分類檢索方案。本研究采用一種將SVM和近似最近鄰(approximate nearest neighbors,ANN)分類相結合的方法完成分類器分類訓練[11-12]。在分類階段計算輸入特征樣本和最優(yōu)分類超平面的距離,如果距離差大于給定閾值直接應用SVM分類,否則代入以每類所有的SVM作為代表點的ANN分類。該方法比單獨采用SVM分類具有更高的分類準確率。
3 結果與分析
3.1 實驗測試環(huán)境
實驗測試采用操作系統(tǒng)Windows 7 SP1 64位旗艦版,處理器Intel Core i7-4790K,內(nèi)存32GB(DDR3 1333 MHz),顯卡芯片華碩GeForce GTX980 Ti,程序開發(fā)工具為MATLAB R2016b。
3.2 實驗測試方案
為驗證本研究提出算法的有效性,選取吉林大學長白山野外實習中草藥圖像數(shù)據(jù)庫中2500張圖像構建檢索圖像樣本庫,單張圖像大小為640×480像素。待檢索圖像類別直接從樣本庫中隨機選取,每次檢索結果按照相似度由高到低排序,前9幅圖像作為檢索結果。長白山五味子圖像檢索結果見圖4,第一幅圖像為待檢索圖像本身。
結果的量化評價指標為查準率和檢索時間。查準率指檢索結果中用戶滿意圖像數(shù)量與檢索返回全部圖像的比值。檢索時間指圖像檢索程序CPU運行時間。分別采用不同數(shù)量視覺單詞進行圖像檢索實驗,計算平均查準率和平均檢索時間,實驗測試量化評價結果見表1。 表1顯示,隨著視覺單詞數(shù)量的增加,平均查準率逐漸增高,檢索時間也相應增長。基本可以滿足用戶對圖像檢索查準率及檢索效率的要求。
4 結語
本研究對基于BoVW的圖像檢索方法在中草藥圖像檢索中的應用進行了探索,提出了基于改進的BoVW圖像檢索方法。采用基于SURF方法提取和描述圖像的視覺特征,并利用稀疏編碼方法構造視覺詞典,然后提出了一種SVM和ANN相結合的方法用于提升分類器分類訓練的細粒度。結果表明,上述方法能有效提升圖像檢索效率和準確率,并保持傳統(tǒng)BoVW算法的魯棒性。
參考文獻:endprint
[1] 劉富貴,于俊林.長白山區(qū)野生中草藥信息庫的構建[J].東北林業(yè)大學學報,2010,38(12):124-126.
[2] 王建勤,張興運.基于內(nèi)容的圖像檢索原理與應用于中藥顯微鑒定的前景展望[J].中草藥,2001,32(2):180-182.
[3] 木提拉·哈米提,孫靜,嚴傳波,等.基于內(nèi)容的醫(yī)學圖像檢索技術在維吾爾藥材圖像檢索中的應用前景[J].新疆醫(yī)科大學學報,2015,38(7):819-822.
[4] 張禎偉,石朝俠.改進視覺詞袋模型的快速圖像檢索方法[J].計算機應用,2016,25(12):126-131.
[5] PANCHAL P M, PANCHAL S R, SHAH S K. A comparison of SIFT and SURF[J]. Computer and Communication Engineering,2013,1(2):323- 327.
[6] 趙潔,涂泳秋,周蘇娟,等.基于聚類-反饋機制的植物鮮藥圖像檢索系統(tǒng)設計[J].中國中醫(yī)藥信息雜志,2016,23(8):10-12.
[7] 蔣蕓,李戰(zhàn)懷.基于改進的SVM分類器的醫(yī)學圖像分類新方法[J].計算機應用研究,2008,25(1):53-55.
[8] BAY H, TUYTELAARS T, VAN GOOL L. SURF:speeded up robust features[J]. Computer Vision and Image Understanding,2008, 110(3):346-359.
[9] 羅會蘭,郭敏杰,孔繁勝.一種基于多級空間視覺詞典集體的圖像分類方法[J].電子學報,2015,43(4):684-693.
[10] MUJA M, LOWE D G. Lowe. Scalable nearest neighbor algorithms for high dimensional data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(11):2227-2240.
[11] 李蓉,葉世偉,史忠植.SVM-KNN分類器—— 一種提高SVM分類精度的新方法[J].電子學報,2002,30(5):745-748.
[12] REN J, ANN V S. SVM: Which one performs better in classification of MCCs in mammogram imaging[J]. Knowledge-Based Systems,2012, 26:144-153.endprint