黃 曜,許華虎,歐陽杰臣,高 玨
(1.上海大學(xué) 計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444;2.上海上大海潤信息系統(tǒng)有限公司,上海 200444;3.上海大學(xué) 計(jì)算中心,上海 200444)
針對(duì)圖像來源鑒別中支持向量機(jī)的研究
黃 曜1,許華虎2,歐陽杰臣1,高 玨3
(1.上海大學(xué) 計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444;2.上海上大海潤信息系統(tǒng)有限公司,上海 200444;3.上海大學(xué) 計(jì)算中心,上海 200444)
隨著數(shù)碼圖像的普及,圖像盲取證成為時(shí)下的研究熱點(diǎn)之一,如何識(shí)別圖像來源是其主要的研究內(nèi)容。作為圖像來源鑒別最關(guān)鍵的階段,構(gòu)造鑒別的支持向量機(jī)(SVM)分類模型直接影響最終的鑒別率。由于不同核函數(shù)以及核參數(shù)對(duì)分類器性能有著相異的影響,故分析對(duì)比了各種核函數(shù),然后選取了細(xì)分效果更好的高斯徑向基函數(shù)作為核函數(shù)。針對(duì)核參數(shù)選擇問題,分析了各種核參數(shù)尋優(yōu)算法,并通過實(shí)驗(yàn)驗(yàn)證了各個(gè)算法的效果,以及最終構(gòu)造的分類模型的效果。實(shí)驗(yàn)結(jié)果表明,選用高斯徑向基函數(shù)作為核函數(shù),利用粒子群算法選出的核參數(shù)所構(gòu)造的分類模型取得了最好的圖像來源鑒別率。
圖像盲取證;支持向量機(jī)分類模型;核函數(shù);核參數(shù);圖像來源鑒別率
隨著現(xiàn)代數(shù)字技術(shù)的發(fā)展以及數(shù)碼相機(jī)的普及,數(shù)字圖像在日常生活和工作中得到了廣泛應(yīng)用。相應(yīng)地,篡改圖像內(nèi)容并使得人眼難以覺察出偽造的痕跡變得越來越頻繁,由此帶來的影響輕則干擾人們的正常生活,重則影響國家、社會(huì)和政治穩(wěn)定[1]。因此,鑒別圖像的真實(shí)性顯得日益迫切,圖像盲取證技術(shù)作為研究要點(diǎn)被提及并成為時(shí)下熱點(diǎn)之一。
圖像盲取證技術(shù)主要涉及四個(gè)方面的問題[2-3],其中之一便是如何確認(rèn)圖片是由相機(jī)、手機(jī)等設(shè)備所拍攝的自然圖像,還是經(jīng)過計(jì)算機(jī)制作的圖像,亦或是掃描儀直接掃描生成的圖像。傳統(tǒng)的圖像來源鑒別算法主要包括特征提取、特征選擇以及構(gòu)造分類器等多項(xiàng)技術(shù)。構(gòu)造分類器作為整個(gè)算法流程最后也是最重要的一環(huán),直接關(guān)系到最終的鑒別效果。然而,現(xiàn)有的圖像來源鑒別算法大多只是將現(xiàn)成的分類模型投入鑒別使用,例如LIBSVM[4]默認(rèn)的分類模型提供了一些基本參數(shù)。但是,這些現(xiàn)有的分類模型是否適用于圖像來源鑒別并沒有得到實(shí)際的驗(yàn)證。但眾所周知,SVM的一大優(yōu)點(diǎn)是通過引入核函數(shù),將輸入的特征空間中的線性不可分問題轉(zhuǎn)化為高維空間中的線性可分問題[5-6],所以核函數(shù)自然是影響分類器效果的一大因素。核函數(shù)的種類頗多,選用何種核函數(shù)是構(gòu)建適合的SVM模型的必經(jīng)之路。另外,研究表明,在確定核函數(shù)后,選擇適合的誤差懲罰因子C和核參數(shù)σ對(duì)分類器的性能影響甚至比選擇一個(gè)適合的核函數(shù)更大。所以,有可能現(xiàn)有的SVM的相應(yīng)參數(shù)并不適用于圖像來源鑒別問題,然而這些參數(shù)深深影響著圖像來源鑒別效果,所以研究改進(jìn)支持向量機(jī)對(duì)于圖像來源鑒別問題是十分必要的。
分類器的性能深深影響著圖像來源鑒別的正確率,文中針對(duì)圖像來源鑒別中支持向量機(jī)的性能進(jìn)行了研究,特別是針對(duì)核函數(shù)、誤差懲罰因子與核參數(shù)選擇給出了研究結(jié)果。
1.1 常用核函數(shù)
如前文所述,SVM的核心思想在于通過核函數(shù)將低維的線性不可分問題轉(zhuǎn)換為高維的線性可分問題,高維空間的內(nèi)積運(yùn)算因此可轉(zhuǎn)化為核函數(shù)的運(yùn)算。不同的內(nèi)積運(yùn)算形成不同的核函數(shù),這意味著特征在其他的核函數(shù)下無法保持,所以選擇合適的核函數(shù)對(duì)于支持向量機(jī)的應(yīng)用至關(guān)重要。
根據(jù)統(tǒng)計(jì)學(xué)理論,如果一個(gè)函數(shù)滿足Mercer條件,則就可以將之作為SVM的核函數(shù)。所以,從Mercer定理出發(fā),可以明確核函數(shù)需要滿足的條件。
Mercer定理:令Ω是有限維歐氏空間中的有界閉集,并設(shè)K是連續(xù)對(duì)稱函數(shù),則存在積分算子Tk:L2(Ω)→L2(Ω),使得(Tkf)(?)是正的。
(1)
則對(duì)于任意的f∈L2(Ω),可以得到
(2)
其中,函數(shù)K(xi,yi)就是核函數(shù)。由此可見,Mercer定理很好地將核函數(shù)的性質(zhì)表現(xiàn)了出來。即核函數(shù)可以將非線性樣本轉(zhuǎn)換為線性樣本,避免增加問題的復(fù)雜性。
目前常見的核函數(shù)有以下幾種:
線性核函數(shù):
K(xi,xj)=(xi·xj)
(3)
線性核函數(shù)在核函數(shù)里面使用頻率相對(duì)較低,主要是因?yàn)樗槍?duì)的是在低維空間可分的樣本,這樣就可以直接在低維空間進(jìn)行分類,而不需轉(zhuǎn)換到高維空間。但其實(shí)大部分的樣本在低維空間都是線性不可分的,這樣線性核函數(shù)就失去了意義。
多項(xiàng)式核函數(shù):
(4)
由多項(xiàng)式核函數(shù)可以得到q階多項(xiàng)式分類器,q代表了核函數(shù)的維數(shù),q越大,映射函數(shù)的維數(shù)越高,意味著樣本更容易被分類,但計(jì)算復(fù)雜度也會(huì)相應(yīng)增大。
高斯徑向基函數(shù)(RBF):
(5)
其中,σ可看作高斯徑向基函數(shù)的作用范圍,由高斯徑向基函數(shù)可得到高斯徑向基函數(shù)分類器。
Sigmoid函數(shù):
(6)
其中
tanh(x)=[1-exp(-2x)]/[1+exp(-2x)]
(7)
由該式可得到帶隱層的多層感知器網(wǎng)絡(luò)。
1.2 核函數(shù)的確定
對(duì)于多項(xiàng)式核函數(shù)來說,因?yàn)閷儆谌趾撕瘮?shù),所以相對(duì)位置相差很遠(yuǎn)的樣本點(diǎn)都能對(duì)分類器產(chǎn)生影響。越復(fù)雜的多項(xiàng)式分類器分類效果越好,但隨之而來的是計(jì)算復(fù)雜度的增加以及對(duì)新樣本分類效果較差的問題;對(duì)于高斯徑向基函數(shù)來說,它的局部性非常好,對(duì)于相對(duì)位置比較近的樣本點(diǎn)也可以有較好的細(xì)分效果。但是當(dāng)參數(shù)σ越小,該函數(shù)的推廣能力越低,全局性相對(duì)較差;對(duì)于Sigmoid函數(shù)來說,它在神經(jīng)網(wǎng)絡(luò)中使用較為廣泛,在SVM中的性能還沒有得到充分的證明,只是理論可行,并且因?yàn)橐欢ㄒ獫M足一定的條件,所以實(shí)際應(yīng)用也偏少。
綜合以上分析并根據(jù)行業(yè)研究經(jīng)驗(yàn),文中選用高斯徑向基函數(shù)作為SVM的核函數(shù)。這主要是基于該函數(shù)首先收斂域較寬,對(duì)樣本點(diǎn)有較好的細(xì)分效果的優(yōu)點(diǎn)。其次,它的實(shí)際應(yīng)用非常廣泛,性能得到了充分證明,是目前使用最多且表現(xiàn)相對(duì)優(yōu)異的核函數(shù)。
為SVM選擇一個(gè)高效的核函數(shù)固然重要,可是Vanpik等通過研究發(fā)現(xiàn)[7],相比核函數(shù),不同的核參數(shù)以及懲罰因子產(chǎn)生的效果區(qū)分度更明顯。所以,選擇適合的核參數(shù)以及懲罰因子對(duì)SVM性能的影響更顯著。
在第一節(jié)的分析中,文中選擇有著良好效果的高斯徑向基函數(shù),所以本節(jié)主要針對(duì)參數(shù)σ以及懲罰因子C的選擇進(jìn)行分析。參數(shù)σ主要用來控制高斯分布的距離。如果σ的值過小,甚至小于樣本點(diǎn)之間最小相對(duì)距離時(shí),所有的樣本點(diǎn)都將成為支持向量,這將直接導(dǎo)致分類器對(duì)新樣本的分類效果不理想,即“過擬合”現(xiàn)象;如果σ的值過大,甚至大于樣本點(diǎn)之間最大相對(duì)距離時(shí),分類器將完全沒有分類能力。懲罰因子C表示對(duì)錯(cuò)分樣本偏離值的懲罰系數(shù),通過調(diào)節(jié)數(shù)據(jù)子空間中學(xué)習(xí)機(jī)器的置信區(qū)間范圍,對(duì)其推廣性產(chǎn)生影響。如果C的值越大,類的相對(duì)距離越小,分類器泛化能力越低,性能提高;如果C的值越小,類的相對(duì)距離越大,分類器的泛化能力越高,性能降低。
綜合以上分析,無論是參數(shù)σ還是懲罰因子C,過大或過小都會(huì)影響SVM的性能,特別是對(duì)于懲罰因子,要綜合考慮SVM的性能與泛化能力。所以,選擇適合的σ值與懲罰因子C的值至關(guān)重要。
常用核參數(shù)選擇算法如下所述。
2.1 交叉驗(yàn)證法
機(jī)器學(xué)習(xí)的大意即是通過已知樣本對(duì)待測(cè)樣本進(jìn)行預(yù)測(cè)。交叉驗(yàn)證法[8]的主要思想是將已知的部分樣本集作為訓(xùn)練集訓(xùn)練模型,剩下的部分樣本集作為測(cè)試集驗(yàn)證模型。它是用來驗(yàn)證分類器性能的一種統(tǒng)計(jì)分析方法。它以分類器的分類準(zhǔn)確率來評(píng)價(jià)分類性能。具體實(shí)施辦法如下:
1)按照一定規(guī)則將原始數(shù)據(jù)樣本進(jìn)行分組,一部分作為訓(xùn)練集,另一部分作為驗(yàn)證集;
2)利用訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,再利用驗(yàn)證集來測(cè)試訓(xùn)練得到的模型,計(jì)算分類準(zhǔn)確率。
正因?yàn)榻徊骝?yàn)證法不僅可以有效地避免過學(xué)習(xí)和欠學(xué)習(xí)狀態(tài)的發(fā)生,還能在做到良好的參數(shù)估計(jì)的同時(shí),避免較高的計(jì)算復(fù)雜度,所以交叉驗(yàn)證法是統(tǒng)計(jì)學(xué)中一種著名的方法,并得到了廣泛應(yīng)用。發(fā)展到后來,產(chǎn)生了K折交叉驗(yàn)證法,它的主要思想是將樣本集分為K組子集,將其中K-1組子集作為訓(xùn)練集訓(xùn)練模型,再用剩下一組子集作為測(cè)試集驗(yàn)證模型的精度。再用另外一組子集作為測(cè)試集,剩下K-1組子集作為訓(xùn)練集,這樣依次調(diào)換測(cè)試集K-1次,直到每組子集均作為測(cè)試集驗(yàn)證過模型的精度。最后再選擇一組最優(yōu)參數(shù)作為模型參數(shù)。由于經(jīng)過了K次平均化的計(jì)算,該交叉操作避免了分類器中過學(xué)習(xí)或欠學(xué)習(xí)狀態(tài)的發(fā)生,有一定的實(shí)用性。
2.2 網(wǎng)格搜索法
網(wǎng)格搜索法[9]是一種典型的試湊方法。主要思想是直接將一組值作為核參數(shù),并求相應(yīng)的分類函數(shù),再根據(jù)分類模型的性能和經(jīng)驗(yàn)調(diào)整參數(shù)值。由此可見,在網(wǎng)格搜索法最初,需要給出參數(shù)的取值范圍,也可以理解為參數(shù)值的調(diào)整區(qū)間,最優(yōu)解通常一定在這區(qū)間內(nèi)產(chǎn)生。
使用網(wǎng)格搜索法確定核參數(shù)的步驟大致如下:
選定懲罰因子C與核參數(shù)σ的取值范圍,一般遵從C∈(2-5,2-3,…,215),1/σ2∈(2-15,2-13,…,23)的原則。
設(shè)置搜索步長為1,在以C、σ為橫縱坐標(biāo)的坐標(biāo)系上構(gòu)建一個(gè)二維網(wǎng)絡(luò),每個(gè)坐標(biāo)點(diǎn)代表一個(gè)潛在解,可以用上文提到的K折交叉驗(yàn)證法計(jì)算各個(gè)參數(shù)預(yù)測(cè)準(zhǔn)確率的均值,最后確定最佳解。
為了使結(jié)果更加精確,可進(jìn)一步做更細(xì)致的網(wǎng)格搜索。將搜索步長減小為0.1進(jìn)行二次搜索。
2.3 群智能法
交叉驗(yàn)證法以及網(wǎng)格搜索法雖能取得一定效果,但還是存在精度偏低的缺點(diǎn)。針對(duì)這些缺點(diǎn),精確度更高而又更高效的群智能法應(yīng)運(yùn)而生,并且在SVM核參數(shù)的選擇中取得了良好的效果。常見的群智能法包括遺傳算法[10]、粒子群算法[11]、蟻群算法[12]、蛙跳算法[13]等。
1)遺傳算法。
遺傳算法是一種迭代算法,兼具繁衍、監(jiān)測(cè)和評(píng)價(jià)的特性。每個(gè)個(gè)體在種群演化過程中都被評(píng)價(jià)優(yōu)劣并得到其適應(yīng)度值,個(gè)體在選擇、交叉以及變異算子的作用下向更高的適應(yīng)度進(jìn)化,以達(dá)到尋求問題最優(yōu)解的目標(biāo)[14-15]。
遺傳算法的大致步驟如下:
(1)初始化設(shè)置進(jìn)化代數(shù)計(jì)數(shù)器t;設(shè)置最大進(jìn)化代數(shù)T;隨機(jī)生成N個(gè)個(gè)體作為初始種群p(t);
(2)通過個(gè)體評(píng)價(jià)計(jì)算種群p(t)中各個(gè)個(gè)體的適應(yīng)度;
(3)選擇運(yùn)算將選擇算子作用于種群;
(4)交叉運(yùn)算將交叉算子作用于種群;
(5)變異運(yùn)算將變異算子作用于種群,種群p(t)經(jīng)過選擇、交叉、變異運(yùn)算后可得到下一代種群p(t+1);
(6)終止條件判斷,若t
遺傳算法的優(yōu)點(diǎn)體現(xiàn)在不易表現(xiàn)為局部最優(yōu),但同時(shí)該方法受初值的影響較大,且對(duì)于不同的情況,需要重新設(shè)計(jì)相應(yīng)的選擇算子、交叉算子以及變異算子。
2)粒子群算法。
相對(duì)遺傳算法來說,粒子群算法參數(shù)更少,操作更簡(jiǎn)便,整個(gè)流程更容易理解,所以在許多問題中得到了更廣泛的應(yīng)用。算法的主要思想是將粒子經(jīng)歷過的最好位置記錄下來并作為粒子最優(yōu)解,也稱作局部極值pbest,將整個(gè)群體經(jīng)歷過的最好位置記錄下來并作為群體的最優(yōu)解,也稱作全局極值gbest。粒子通過這兩個(gè)值調(diào)整飛行,最終產(chǎn)生新粒子。
粒子群算法的大致步驟如下:
(1)初始化一個(gè)種群規(guī)模為N的粒子群,在允許的范圍內(nèi)隨機(jī)設(shè)定每個(gè)粒子的初始位置和初始速度,并把每個(gè)粒子的局部極值pbest設(shè)定為其初始位置,把pbest中的最好值賦給全局極值gbest。
(2)根據(jù)適應(yīng)度函數(shù)計(jì)算每個(gè)粒子的適應(yīng)值。
(3)將每個(gè)粒子的適應(yīng)值與相應(yīng)的pbest進(jìn)行比較,若優(yōu)于pbest,則將其作為新的pbest。
(4)將每個(gè)粒子的適應(yīng)值與gbest進(jìn)行比較,若優(yōu)于gbest,則將其作為新的gbest。
(5)更新粒子的速度和位置。
(6)檢驗(yàn)是否滿足終止條件(達(dá)到最大迭代次數(shù)或最小適應(yīng)度閾值),若是,則輸出最優(yōu)解,否則返回第(2)步。
3)蟻群算法、蛙跳算法。
蟻群算法以及蛙跳算法都存在算法收斂速度慢的問題,所以相對(duì)來說應(yīng)用并沒有遺傳算法以及粒子群算法廣泛。
3.1 實(shí)驗(yàn)步驟
3.1.1 數(shù)據(jù)預(yù)處理
因?yàn)槲闹凶罱K的目的是驗(yàn)證各個(gè)核參數(shù)分類模型對(duì)最終鑒別效果的影響,所以選取事先已知成像設(shè)備的圖像作為實(shí)驗(yàn)的源數(shù)據(jù)。然而確定核參數(shù)是一個(gè)復(fù)雜的過程,所以實(shí)驗(yàn)以驗(yàn)證各個(gè)核參數(shù)選擇算法的效果為主。
為了研究的延續(xù)性,擬采用之前的研究成果,提取圖像的混合特征作為實(shí)驗(yàn)數(shù)據(jù)。有針對(duì)性地將實(shí)驗(yàn)數(shù)據(jù)分為以下幾類:
(a)自然圖像與計(jì)算機(jī)生成圖像類;
(b)自然圖像與掃描儀生成圖像類;
(c)計(jì)算機(jī)生成圖像與掃描儀生成圖像類;
(d)自然圖像、計(jì)算機(jī)生成圖像與掃描儀生成圖像類。
理所應(yīng)當(dāng)?shù)兀賹⒚款悢?shù)據(jù)分為訓(xùn)練與測(cè)試兩組。
3.1.2 具體算法
(1)核參數(shù)選擇算法。
按照前文所述,實(shí)驗(yàn)采用4種算法:K折交叉驗(yàn)證法、網(wǎng)格搜索法、遺傳算法、粒子群算法。
(2)理論方法。
將訓(xùn)練組數(shù)據(jù)通過各個(gè)核參數(shù)選擇算法得到最優(yōu)的核參數(shù),再根據(jù)最優(yōu)核參數(shù)對(duì)樣本重新訓(xùn)練得到訓(xùn)練模型,再利用測(cè)試組數(shù)據(jù)對(duì)該模型的鑒別效果進(jìn)行驗(yàn)證。
3.2 實(shí)驗(yàn)結(jié)果與分析
(1)K折交叉驗(yàn)證法實(shí)驗(yàn)效果。
使用交叉驗(yàn)證法進(jìn)行實(shí)驗(yàn)時(shí),將K設(shè)置為20,由該算法得到的實(shí)驗(yàn)結(jié)果見表1。
表1 交叉驗(yàn)證法實(shí)驗(yàn)結(jié)果
(2)網(wǎng)格搜索法實(shí)驗(yàn)效果。
使用網(wǎng)格搜索法時(shí),C∈(2-5,2-3,…,215),1/σ2∈(2-15,2-13,…,23)。先令步長為1進(jìn)行粗網(wǎng)格搜索,搜索完畢后再令步長為0.1進(jìn)行細(xì)網(wǎng)格搜索,得到最優(yōu)核參數(shù)對(duì)。使用網(wǎng)格搜索法得到的實(shí)驗(yàn)結(jié)果見表2。
表2 網(wǎng)格搜索法實(shí)驗(yàn)結(jié)果
(3)遺傳算法實(shí)驗(yàn)效果。
使用遺傳算法時(shí),將進(jìn)化代數(shù)設(shè)置為200,個(gè)體個(gè)數(shù)設(shè)為30,交叉率設(shè)置為0.8,變異率設(shè)置為0.15。使用遺傳算法得到的實(shí)驗(yàn)結(jié)果見表3。
表3 遺傳算法實(shí)驗(yàn)結(jié)果
(4)粒子群算法實(shí)驗(yàn)效果。
為了對(duì)比粒子群算法與遺傳算法的效果,使用粒子群算法時(shí),將最大進(jìn)化代數(shù)也設(shè)置為200,個(gè)體個(gè)數(shù)設(shè)為30。使用粒子群算法得到的實(shí)驗(yàn)結(jié)果見表4。
為了更直觀地展現(xiàn)并對(duì)比各個(gè)算法的效果,將各個(gè)分類模型的鑒別率綜合在一張表內(nèi),結(jié)果見表5。
表4 粒子群算法實(shí)驗(yàn)結(jié)果
表5 各算法實(shí)驗(yàn)結(jié)果綜合 %
由表5可以看出,通過各種方法尋找到的核參數(shù)構(gòu)成的分類模型對(duì)于各類數(shù)據(jù)的鑒別率整體呈上升趨勢(shì)。(a)類數(shù)據(jù)的鑒別效果在四組數(shù)據(jù)里面相對(duì)較好。因?yàn)閿?shù)據(jù)涉及到三類圖像,所以(d)類數(shù)據(jù)鑒別效果相對(duì)不理想。
綜合所有表的結(jié)果可以看出,除了對(duì)于(b)類數(shù)據(jù),網(wǎng)格搜索法相對(duì)交叉驗(yàn)證法在各類數(shù)據(jù)的鑒別效果略微提升,但是整體表現(xiàn)不盡人意。就網(wǎng)格搜索法來說,尋找最優(yōu)參數(shù)的效率取決于初始范圍與設(shè)定的步長,兩者的選擇稍不準(zhǔn)確,則非常容易錯(cuò)過最優(yōu)解。遺傳算法與粒子群算法同屬群智能算法,由表5可以看出,二者的鑒別效率整體比前兩種算法都要好。群智能算法的特點(diǎn)表現(xiàn)在尋找過程充分智能化,能夠有效避免陷入局部最優(yōu)的情況。粒子群算法更是如此,最終取得了最好的鑒別效率。
針對(duì)在圖像來源鑒別如何構(gòu)造分類模型進(jìn)行了討論分析,提出了行之有效的方法。首先比較分析了關(guān)于SVM的幾種常用核函數(shù),決定選取細(xì)分效果更明顯的高斯徑向基函數(shù),這有利于圖像鑒別中的多類鑒別問題。其后,為確定最優(yōu)核參數(shù)與懲罰因子,首先分析了現(xiàn)有的核參數(shù)尋優(yōu)算法,再對(duì)各個(gè)算法的性能進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,粒子群算法在核參數(shù)尋優(yōu)問題上,不僅達(dá)到了速度較快的效果,而且其得到的核參數(shù)與懲罰因子所構(gòu)造的分類模型鑒別率最高,達(dá)到了對(duì)圖像來源鑒別率預(yù)期的效果。但是,維數(shù)問題始終是分類模型繞不開的問題,如何避免特征集維數(shù)過高影響最終鑒別效果更是分類模型亟待解決的問題,也是圖像來源鑒別的重點(diǎn)研究方向。
[1]YongIY.Detectionofdigitalforgeriesusinganimageinterpolationfromdigitalimages[C]//ProcofIEEEinternationalsymposiumonconsumerelectronics.[s.l.]:IEEE,2008:1-4.
[2]SencarHT,MemonN.Overviewofstate-of-the-artindigitalimageforensics[C]//ProcofWSPC.[s.l.]:WorldScientificPress,2008.
[3]KhannaN,MikkilineniAK,MartoneAF.Asurveyofforensiccharacterizationmethodsforphysicaldevices[J].DigitalInvestigation,2006,3:17-28.
[4]ChangCC,LinCJ.LIBSVM:alibraryforsupportvectormachines[J].ACMTransactionsonIntelligentSystems&Technology,2011,2(3):389-396.
[5]SchlkopfB,SmolaAJ.Learningwithkernels[M].Cambridge:MITPress,2001.
[6]SchlkopfB,SmolaAJ.Supportvectormachinesandkernelalgorithms[M].[s.l.]:JohnWileyandSons,2003.
[7]VladimirNV.Thenatureofstatisticallearningtheory[M].NewYork:Springer-Verlag,1995.
[8] 鄧 蕊,馬永軍,劉堯猛.基于改進(jìn)交叉驗(yàn)證算法的支持向量機(jī)多類識(shí)別[J].天津科技大學(xué)學(xué)報(bào),2007,22(2):58-61.
[9] 王興玲,李占斌.基于網(wǎng)格搜索的支持向量機(jī)核函數(shù)參數(shù)的確定[J].中國海洋大學(xué)學(xué)報(bào):自然科學(xué)版,2005,35(5):859-862.
[10] 劉東平,單甘霖,張岐龍,等.基于改進(jìn)遺傳算法的支持向量機(jī)參數(shù)優(yōu)化[J].微計(jì)算機(jī)應(yīng)用,2010(5):11-15.
[11] 朱家元,楊 云,張恒喜,等.基于優(yōu)化最小二乘支持向量機(jī)的小樣本預(yù)測(cè)研究[J].航空學(xué)報(bào),2004,25(6):565-568.
[12] 張培林,錢林方,曹建軍,等.基于蟻群算法的支持向量機(jī)參數(shù)優(yōu)化[J].南京理工大學(xué)學(xué)報(bào):自然科學(xué)版,2009,33(4):464-468.
[13] 張瀟丹,胡 峰,趙 力.基于改進(jìn)的蛙跳算法與支持向量機(jī)的實(shí)用語音情感識(shí)別[J].信號(hào)處理,2011,27(5):678-689.
[14] 熊 軍,高敦堂,都思丹,等.變異率和種群數(shù)目自適應(yīng)的遺傳算法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2004,34(4):553-556.
[15] 吳秋玲,楊啟文.改進(jìn)型自適應(yīng)遺傳變異算子[J].河海大學(xué)常州分校學(xué)報(bào),2005,19(4):12-15.
Research on Support Vector Machines for Image Source Identification
HUANG Yao1,XU Hua-hu2,OUYANG Jie-chen1,GAO Jue3
(1.School of Computer Engineering and Science,Shanghai University,Shanghai 200444,China; 2.Shang Da Hai Run Information System Co.,Ltd.,Shanghai 200444,China; 3.Computer Center of Shanghai University,Shanghai 200444,China)
With the popularity of digital images,blind image forensics has become one of the hotspots nowadays.The main research content of blind image forensics is how to identify the image source.As the most critical stage of image source identification,the SVM classification model for identification directly affects the final identification rate.Because the different kernel function and kernel parameters has distinct effect on the performance of the classification model,the various kernel functions are analyzed and compared,then the Gaussian radial basis function with better subdivision is selected as the kernel function.In view of the kernel parameter selection,the various kernel parameter optimization algorithms are analyzed,and the effectiveness of each algorithm and the effect of the final classification model by experiments are verified.The results show that choosing Gaussian radial basis function as the kernel function,using the kernel parameters selected by particle swarm algorithm to construct the classification model will achieve the best image source identification rate.
blind image forensics;SVM classification model;kernel function;kernel parameter;image source identification rate
2015-12-16
2016-04-08
時(shí)間:2016-08-23
上海張江國家自主創(chuàng)新示范區(qū)專項(xiàng)發(fā)展資金重點(diǎn)項(xiàng)目(一期)(201411-ZB-B204-012)
黃 曜(1991-),男,碩士,研究方向?yàn)閳D像多媒體技術(shù);許華虎,教授,博士生導(dǎo)師,CCF高級(jí)會(huì)員,研究方向?yàn)槿藱C(jī)交互、圖像處理、多媒體網(wǎng)絡(luò)技術(shù)等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1359.064.html
TP31
A
1673-629X(2016)10-0001-05
10.3969/j.issn.1673-629X.2016.10.001