李蘭,潘浩
(青島理工大學(xué)信控學(xué)院,山東青島,266000)
如今,隨著互聯(lián)網(wǎng)的高速發(fā)展,以京東,淘寶等為主的電商平臺(tái)迅速崛起,網(wǎng)上購(gòu)物免去了很多交通和時(shí)間成本,給人們的生活工作帶來(lái)了極大的方便。但是隨著電商平臺(tái)的商品種類(lèi)和數(shù)量的不斷擴(kuò)大,商品質(zhì)量也變得參差不齊,因此消費(fèi)者對(duì)于商品質(zhì)量的售后評(píng)價(jià)成為了衡量商品質(zhì)量和平臺(tái)綜合服務(wù)的重要標(biāo)準(zhǔn),而評(píng)價(jià)對(duì)于后續(xù)購(gòu)買(mǎi)該商品的消費(fèi)者來(lái)說(shuō)具有極大的參考價(jià)值,不僅可以保障消費(fèi)者的權(quán)益也有利于督促商家不斷提高商品質(zhì)量。
上傳商品點(diǎn)評(píng)圖像是商品點(diǎn)評(píng)的重要環(huán)節(jié),真實(shí)的商品圖像往往比商品描述文字,語(yǔ)言更有說(shuō)服力,更能協(xié)助消費(fèi)者觀察商品整體情況從而判斷商品是否適合自己,然而點(diǎn)評(píng)信息并不都是有效的,部分用戶為了圖簡(jiǎn)單,隨意填寫(xiě),隨便上傳圖片,甚至惡意上傳大量無(wú)效圖像,這類(lèi)無(wú)效點(diǎn)評(píng)不僅影響用戶的使用體驗(yàn)也使得平臺(tái)公信力下降,因此電商平臺(tái)會(huì)通過(guò)人工在后臺(tái)對(duì)點(diǎn)評(píng)信息進(jìn)行審核,篩選并剔除大量的無(wú)效評(píng)論圖像和內(nèi)容。
隨著大數(shù)據(jù)和人工智能的發(fā)展,利用神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行識(shí)別分類(lèi)已經(jīng)在各個(gè)領(lǐng)域得到了很好的應(yīng)用,張建華等學(xué)者[1]利用VGG卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)棉花病害圖像對(duì)識(shí)別,從而通過(guò)機(jī)器對(duì)棉花病害做出診斷;徐昭洪等人[2]通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)編碼對(duì)建筑圖像進(jìn)行了語(yǔ)義分割;王菽裕等學(xué)者[3]通過(guò)VGG16框架實(shí)現(xiàn)了對(duì)名人面孔圖像的識(shí)別。陳英義[4]以及田佳鷺等[5]學(xué)者團(tuán)隊(duì),分別基于VGG-16通過(guò)遷移學(xué)習(xí)實(shí)現(xiàn)了對(duì)與魚(yú)類(lèi)和猴子圖像等分類(lèi)識(shí)別,并取得了較高的準(zhǔn)確率。本文在前人研究的基礎(chǔ)上,基于傳統(tǒng)的VGG-16網(wǎng)絡(luò)建立起圖像識(shí)別模型,并優(yōu)化了梯度下降算法,解決了模型過(guò)擬合問(wèn)題,該模型可以根據(jù)已有電商平臺(tái)用戶上傳的點(diǎn)評(píng)圖像快速準(zhǔn)確判斷圖像對(duì)應(yīng)類(lèi)型,完成圖像分類(lèi),預(yù)測(cè),審核,提高了平臺(tái)審核效率。
如今大數(shù)據(jù)的不斷發(fā)展使得深度學(xué)習(xí)在數(shù)據(jù)處理方面得到廣泛應(yīng)用,Hinton提出的深度置信區(qū)間以及硬件設(shè)備GPU性能的不斷優(yōu)化大幅提高了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。在圖像識(shí)別應(yīng)用中,卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)可以在短時(shí)間內(nèi)訓(xùn)練大量圖像數(shù)據(jù)。隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,一些學(xué)者科研團(tuán)體或者企業(yè)組織開(kāi)始構(gòu)造較為通用的普適性模型,VGG[6]模型便是其中之一,由Simonyan等人提出并研發(fā),其命名來(lái)源于牛津大學(xué)視覺(jué)幾何組(Visual Geometry Group)的縮寫(xiě)。本文采用在圖像分類(lèi)任務(wù)中表現(xiàn)較為出色的VGG-16卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行研究。
作為卷積神經(jīng)網(wǎng)絡(luò)中分類(lèi)性能優(yōu)良的網(wǎng)絡(luò)模型,VGG-16提出卷積塊的概念,使模型的感受野更廣闊,并且減少網(wǎng)絡(luò)參數(shù);VGG-16通過(guò)多次使用ReLU激活函數(shù),實(shí)現(xiàn)更多的線性變換,從而提高學(xué)習(xí)能力。VGG-16網(wǎng)絡(luò)模型一共由包括13個(gè)卷積層、5個(gè)最大池化層、3個(gè)全連接層和1個(gè)輸出層(Softmax)等22個(gè)層級(jí)結(jié)構(gòu)組成。
VGG-16網(wǎng)絡(luò)通過(guò)將3×3卷積核和2×2最大池化層排列組合,以提取出輸入圖像中大量細(xì)節(jié)特征。通過(guò)堆疊組合3×3卷積核不但實(shí)現(xiàn)了與其他類(lèi)型卷積核相同的效果,而且使模型具備更好的非線性特征。
在進(jìn)行圖像分類(lèi)任務(wù)時(shí),影響分類(lèi)效果和系統(tǒng)性能的主要指標(biāo)包括識(shí)別精度和仿真速度,這兩點(diǎn)分別影響著模型的識(shí)別準(zhǔn)確率和效率,為了進(jìn)一步提高識(shí)別效果,我們對(duì)傳統(tǒng)VGG-16網(wǎng)絡(luò)進(jìn)行優(yōu)化。優(yōu)化模型的方法有很多,包括梯度下降、拓展數(shù)據(jù)集、降低過(guò)擬合以及遷移學(xué)習(xí)等等,其中梯度下降優(yōu)化算法在卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用較為廣泛。本文采用了隨機(jī)梯度下降的優(yōu)化算法[7],它可以在每次更新權(quán)重的同時(shí)更新每個(gè)樣本的梯度;在實(shí)際公司業(yè)務(wù)中,數(shù)據(jù)的大量冗余在所難免,相對(duì)于其他梯度下降算法,該算法可以在數(shù)據(jù)冗余時(shí),更加有效地利用數(shù)據(jù)信息。每當(dāng)更新參數(shù)時(shí),算法僅使用一個(gè)樣本x及其所對(duì)應(yīng)的標(biāo)簽進(jìn)行梯度運(yùn)算,公式如式(1):
網(wǎng)絡(luò)模型訓(xùn)練完成后,需要評(píng)估其識(shí)別性能和損失值[8]。本模型中的損失值通過(guò)運(yùn)用對(duì)數(shù)損失函數(shù)計(jì)算,其運(yùn)算公式如式(2):
模型對(duì)訓(xùn)練集與驗(yàn)證集的識(shí)別準(zhǔn)確率差距較大的現(xiàn)象叫做過(guò)擬合,出現(xiàn)過(guò)擬合的模型泛化性能不強(qiáng),極大影響識(shí)別效果。通過(guò)降低過(guò)擬合方法主要包括Dropout方法、數(shù)據(jù)集擴(kuò)增方法以及遷移學(xué)習(xí)方法。
Dropout方法[9]通過(guò)隨機(jī)地丟棄訓(xùn)練所得的信息,從而減少模型過(guò)擬合。該方法應(yīng)用于激活層之后,每次反向傳播時(shí)按一定比例對(duì)激活層的隱藏節(jié)點(diǎn)隨機(jī)采樣,使得全連接網(wǎng)絡(luò)稀疏化,從而減輕了不同特征的協(xié)同效應(yīng);由于隱含節(jié)點(diǎn)都是以一定概率隨機(jī)出現(xiàn),因此兩個(gè)神經(jīng)元不會(huì)每次同時(shí)出現(xiàn),減少了神經(jīng)元之間的共適應(yīng)關(guān)系,提高了魯棒性。
卷積神經(jīng)網(wǎng)絡(luò)對(duì)于同一圖像數(shù)據(jù)不同情況下的形態(tài),都可以進(jìn)行穩(wěn)健的分類(lèi),因此利用基本變換可以有效擴(kuò)充數(shù)據(jù)集。即通過(guò)裁剪、旋轉(zhuǎn)、錯(cuò)切等圖像變換手段處理原始圖片樣本集,不僅獲得了更多的訓(xùn)練樣本圖片,還提高了模型的抗干擾能力,解決了模型因數(shù)據(jù)不足導(dǎo)致的表達(dá)能力差、過(guò)度擬合等問(wèn)題。
遷移學(xué)習(xí)[11]是將已經(jīng)過(guò)完整訓(xùn)練的通過(guò)模型應(yīng)用到新的任務(wù)中,大幅降低了模型的研發(fā)成本。由于本文所需數(shù)據(jù)集的采集難度較高,現(xiàn)有數(shù)據(jù)量難以支撐訓(xùn)練任務(wù),利用遷移學(xué)習(xí)可以有效解決這一問(wèn)題。利用VGG-16在ImageNet數(shù)據(jù)集上的預(yù)訓(xùn)練模型進(jìn)行相關(guān)知識(shí)的遷移,優(yōu)化各卷積層和池化層的參數(shù),降低過(guò)擬合的同時(shí)節(jié)省了訓(xùn)練成本。
由于審核需要篩除對(duì)用戶沒(méi)有參考意義的評(píng)論圖像,因此通過(guò)對(duì)電商平臺(tái)點(diǎn)評(píng)數(shù)據(jù)的分析以及人工審核規(guī)則,將得到的圖像分類(lèi),如表1所示。
表1 點(diǎn)評(píng)圖像數(shù)據(jù)集
本次實(shí)驗(yàn)使用數(shù)據(jù)源均來(lái)源于京東、天貓、網(wǎng)易嚴(yán)選、蘇寧易購(gòu)等電商平臺(tái)用戶上傳的商品評(píng)論數(shù)據(jù),并經(jīng)過(guò)人工標(biāo)記,各評(píng)論數(shù)據(jù)示例圖如圖3.1,不同電商點(diǎn)評(píng)圖像的特征如表2所示。
圖1 點(diǎn)評(píng)圖像分類(lèi)示例圖
表2 電商6種評(píng)論圖像特征
本文模型訓(xùn)練和測(cè)試均在Tensorflow環(huán)境下進(jìn)行,模型搭建采用開(kāi)源框架實(shí)現(xiàn),硬件設(shè)備:處理器為AMD 2600X,GPU為NVIDIA GTX2080TI。模型對(duì)圖像處理流程如下:
Step1:數(shù)據(jù)預(yù)處理。由于電商數(shù)據(jù)可采樣的樣本數(shù)量有限,因此首先通過(guò)平移、縮放、旋轉(zhuǎn)、錯(cuò)切等圖形變換手段對(duì)用戶在評(píng)論中上傳的圖像進(jìn)行處理,生成更多不同的訓(xùn)練樣本,而后調(diào)整數(shù)據(jù)圖像尺寸大小統(tǒng)一,并將數(shù)據(jù)集合注入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。通過(guò)預(yù)處理在擴(kuò)充了訓(xùn)練數(shù)據(jù)量的同時(shí),也強(qiáng)化了模型的泛化能力。
Step2:輸入評(píng)論圖像圖樣。從Step1生成的點(diǎn)評(píng)圖像庫(kù)中抽取圖片,輸入模型進(jìn)行訓(xùn)練。
Step3:將VGG-16卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于電商用戶上傳評(píng)論圖像審核,構(gòu)建如圖3.2所示的電商評(píng)論圖像分類(lèi)模型:輸入224像素×224像素×3向量的RGB圖像,首先經(jīng)過(guò)兩個(gè)卷積核大小為3×3的卷積層,卷積核數(shù)量均為64,滑動(dòng)步長(zhǎng)為1,經(jīng)過(guò)兩次卷積和ReLU運(yùn)算后,尺寸變?yōu)?24×224×64;再經(jīng)過(guò)一層池化單元尺寸為2×2,步長(zhǎng)為2的最大池化層,該池化層使目標(biāo)圖像尺寸減半,變?yōu)?12×112×64,接著經(jīng)過(guò)與之前相同的兩個(gè)卷積層和最大池化層,目標(biāo)圖像尺寸變?yōu)?6×56×128;隨后經(jīng)過(guò)3層卷積核大小均為3×3,數(shù)量均為256,步長(zhǎng)為1的卷積層,以及池化單元尺寸大小為2×2,步長(zhǎng)為2的最大池化層,圖像輸出為28×28×256,最終經(jīng)過(guò)三層卷積和一層最大池化重復(fù)三次處理后,圖像最終尺寸輸出為7×7×512;隨后經(jīng)過(guò)兩個(gè)包含4096個(gè)隱藏節(jié)點(diǎn)的全連接層及ReLU,最后一層輸出層包含6個(gè)節(jié)點(diǎn),對(duì)應(yīng)本次電商圖像常見(jiàn)的6種分類(lèi)結(jié)果,進(jìn)行Softmax分類(lèi)。
圖2 電商評(píng)論圖像分類(lèi)模型
本文提出的電商評(píng)論圖像分類(lèi)模型在卷積層均采用3×3尺寸的卷積核,并由2或3個(gè)卷積核連續(xù)排列,可以獲得更大的感受野;卷積核滑動(dòng)步長(zhǎng)為1,并利用padding邊界填充使卷積層前后圖像維數(shù)不變;模型中的池化層選用2×2尺寸的池化窗口,步長(zhǎng)為2,用于降低卷積后的特征圖尺寸,實(shí)現(xiàn)少量參數(shù)對(duì)特征的表示;全連接層是連續(xù)3個(gè)全連接結(jié)構(gòu)的堆疊組合,通道數(shù)分別是4096、4096、6個(gè);網(wǎng)絡(luò)末尾是由具有6個(gè)標(biāo)簽的Softmax分類(lèi)器作為輸出;在已有網(wǎng)絡(luò)基礎(chǔ)上采用隨機(jī)梯度下降算法更新模型參數(shù);模型在激活函數(shù)之前應(yīng)用歸一化方法,在全連接層執(zhí)行Dropout方法,系數(shù)分別為0.7、0.5,通過(guò)Xavier方法初始化全連接層參數(shù),根據(jù)對(duì)測(cè)試集數(shù)據(jù)的識(shí)別準(zhǔn)確率和整體性能對(duì)模型進(jìn)行評(píng)價(jià)。
在對(duì)模型進(jìn)行訓(xùn)練時(shí),我們加載ImageNet上的VGG-16預(yù)訓(xùn)練模型,通過(guò)遷移學(xué)習(xí)方式優(yōu)化評(píng)論圖像識(shí)別模型參數(shù),主要優(yōu)化13個(gè)卷積層和池化層的參數(shù)。設(shè)定動(dòng)量參數(shù)、學(xué)習(xí)速率和迭代次數(shù),通過(guò)損失函數(shù)的迭代,優(yōu)化網(wǎng)絡(luò)各層參數(shù)。在訓(xùn)練過(guò)程中,經(jīng)過(guò)對(duì)測(cè)試數(shù)據(jù)的迭代測(cè)試,我們發(fā)現(xiàn)當(dāng)?shù)l次較低時(shí),網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)的學(xué)習(xí)不夠充分,在測(cè)試集的識(shí)別準(zhǔn)確率也不理想,隨著訓(xùn)練的迭代進(jìn)行,圖像在測(cè)試集的識(shí)別準(zhǔn)確率持續(xù)上升,并最終穩(wěn)定在較高水平。
因此,本文構(gòu)建的網(wǎng)絡(luò)模型,通過(guò)遷移學(xué)習(xí)的支持,不僅保持了較高的識(shí)別精度同時(shí)收斂性能相對(duì)較強(qiáng)。本問(wèn)提出模型在擴(kuò)增過(guò)的訓(xùn)練集上訓(xùn)練量級(jí)達(dá)到450輪時(shí),在測(cè)試集上的識(shí)別精度達(dá)到了90%以上,取得了優(yōu)良的識(shí)別性能。為比較本文研究模型與其他識(shí)別方法和模型的性能差異,本次研究將BP神經(jīng)網(wǎng)絡(luò)[12]、支持向量機(jī)[13]等2種淺層網(wǎng)絡(luò),以及AlexNET[14]、傳統(tǒng)VGG-16NET[15]等2種深層神經(jīng)網(wǎng)絡(luò)作為對(duì)照模型,與本文模型進(jìn)行對(duì)照分析,結(jié)果如表3所示。
表3 電商點(diǎn)評(píng)圖像分類(lèi)結(jié)果
通過(guò)實(shí)驗(yàn),由表3.3對(duì)比可知,Alex、傳統(tǒng)VGG-16與本文優(yōu)化VGG-16等3種深層神經(jīng)網(wǎng)絡(luò)模型均大幅優(yōu)于BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等2種淺層網(wǎng)絡(luò)。由于VGG-16網(wǎng)絡(luò)的特征提取是通過(guò)3×3卷積核的堆疊組合,提取出電商評(píng)論圖像區(qū)域內(nèi)更多較細(xì)節(jié)的特征,因此,基于VGG-16的網(wǎng)絡(luò)模型分類(lèi)準(zhǔn)確率優(yōu)于Alex模型,同時(shí),本研究模型綜合采用了隨機(jī)梯度下降算法和一系列降低過(guò)擬合的方法,從測(cè)試結(jié)果看對(duì)于各個(gè)類(lèi)型圖像的識(shí)別準(zhǔn)確率以及平均準(zhǔn)確率均略高于傳統(tǒng)VGG-16NET。由此可知,本文提出的模型識(shí)別電商點(diǎn)評(píng)圖像的準(zhǔn)確率更高,對(duì)不同類(lèi)型點(diǎn)評(píng)圖像的分類(lèi)效果更好。
本文基于VGG-16卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,構(gòu)建了一個(gè)電商點(diǎn)評(píng)圖像分類(lèi)模型,通過(guò)使用隨機(jī)梯度下降算法更新網(wǎng)絡(luò)權(quán)重,并利用數(shù)據(jù)集擴(kuò)增、Dropout方法、遷移學(xué)習(xí)等方法優(yōu)化模型,針對(duì)當(dāng)前研究課題和業(yè)務(wù),有效提高了訓(xùn)練效率和識(shí)別準(zhǔn)確率,并降低了過(guò)擬合,實(shí)驗(yàn)結(jié)果表明本模型達(dá)到了很高的識(shí)別精度和模型性能,實(shí)現(xiàn)了預(yù)期目標(biāo)。
電商平臺(tái)點(diǎn)評(píng)圖像自動(dòng)分類(lèi)審核的實(shí)現(xiàn),不僅為企業(yè)節(jié)省了大量人力成本,運(yùn)營(yíng)成本和培訓(xùn)成本,還提高了電商圖像的審核效率,可以更快的為網(wǎng)站用戶提供更有效更真實(shí)的購(gòu)物評(píng)論信息。為互聯(lián)網(wǎng)電商平臺(tái)的后臺(tái)運(yùn)營(yíng)的方式方法提供了新的思路,在更廣闊的方向上,為機(jī)器取代人類(lèi)的重復(fù)性勞動(dòng),提供了可能,對(duì)于智能機(jī)器人領(lǐng)域的發(fā)展也有深遠(yuǎn)意義。
點(diǎn)評(píng)圖像自動(dòng)審核是基于圖像識(shí)別和特征提取的方式,下一步我們可以考慮引入圖像和自然語(yǔ)言的情感語(yǔ)義分析,進(jìn)一步通過(guò)深度學(xué)習(xí)強(qiáng)化機(jī)器對(duì)于商品點(diǎn)評(píng)內(nèi)容信息的理解,嘗試結(jié)合文字和圖像兩個(gè)維度識(shí)別點(diǎn)評(píng)信息積極和消極因素,此外還可以在VGG-16模型基礎(chǔ)上引進(jìn)注意力機(jī)制,通過(guò)強(qiáng)化重要信息關(guān)注點(diǎn),提高識(shí)別效果,最大化實(shí)現(xiàn)完全取代人工的自動(dòng)審核功能。