王正剛,劉忠,金瑾,劉偉
基于改進(jìn)蝶形反饋型神經(jīng)網(wǎng)絡(luò)的海關(guān)風(fēng)險(xiǎn)布控方法
王正剛1,2,3*,劉忠1,2,金瑾4,劉偉3
(1.中國科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所,成都 610213; 2.中國科學(xué)院大學(xué) 研究生院,北京 101408; 3.中華人民共和國成都海關(guān) 科技處,成都 610041; 4.成都信息工程大學(xué) 軟件工程學(xué)院,成都 610103)(?通信作者電子郵箱wangzhenggang@customs.gov.cn.com)
針對(duì)現(xiàn)階段我國海關(guān)風(fēng)險(xiǎn)布控方法存在效率、準(zhǔn)確率較低、人力資源占用過多的問題和智能化分類算法小型化部署需求,提出一種基于改進(jìn)蝶形反饋型神經(jīng)網(wǎng)絡(luò)(BFNet-V2)的海關(guān)風(fēng)險(xiǎn)布控方法。首先,運(yùn)用編碼填充(FC)算法實(shí)現(xiàn)海關(guān)表格數(shù)據(jù)到模擬圖像的語義替換;其次,運(yùn)用BFNet-V2訓(xùn)練模擬圖像數(shù)據(jù),由左右兩條鏈路、不同卷積核和塊、小塊的設(shè)計(jì)組成規(guī)則的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并添加殘差短路徑干預(yù)改善過擬合和梯度消失;最后,提出歷史動(dòng)量自適應(yīng)矩估計(jì)算法(H-Adam)優(yōu)化梯度下降過程,取得更優(yōu)的自適應(yīng)學(xué)習(xí)率調(diào)整方式,并分類海關(guān)數(shù)據(jù)。選取Xception(eXtreme inception)、移動(dòng)網(wǎng)絡(luò)(MobileNet)、殘差網(wǎng)絡(luò)(ResNet)和蝶形反饋型神經(jīng)網(wǎng)絡(luò)(BF-Net)為基線網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對(duì)比。BFNet-V2的接受者工作特征曲線(ROC)和查準(zhǔn)率-查全率曲線(PR)包含了基線網(wǎng)絡(luò)結(jié)構(gòu)的曲線,與4種基線網(wǎng)絡(luò)結(jié)構(gòu)相比,基于遷移學(xué)習(xí)(TL)的BFNet-V2分類準(zhǔn)確率分別提高了4.30%、4.34%、4.10%和0.37%。在真實(shí)標(biāo)簽數(shù)據(jù)分類過程中,BFNet-V2的查獲誤判率分別降低了70.09%、57.98%、58.36%和10.70%。比較所提方法與包含淺層和深度學(xué)習(xí)方法在內(nèi)的8種分類方法,在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率均提升1.33%以上,可見所提方法能夠?qū)崿F(xiàn)表格數(shù)據(jù)自動(dòng)分類,提升海關(guān)風(fēng)險(xiǎn)布控的效率和準(zhǔn)確度。
卷積神經(jīng)網(wǎng)絡(luò);模擬圖像;自適應(yīng)矩估計(jì);海關(guān);風(fēng)險(xiǎn)布控
海關(guān)入境檢疫和安全(Custom Immigration Quarantine and Security, CIQS)是關(guān)乎國家安全的重要組成部分。我國海關(guān)現(xiàn)有的風(fēng)險(xiǎn)分析手段不夠智能化,導(dǎo)致作業(yè)標(biāo)準(zhǔn)無法統(tǒng)一,風(fēng)險(xiǎn)分析結(jié)果的可信度難以達(dá)到監(jiān)管要求,亟須一種智能化的方法實(shí)現(xiàn)自主風(fēng)險(xiǎn)排查和高風(fēng)險(xiǎn)商品的布控。
海關(guān)風(fēng)險(xiǎn)布控根據(jù)數(shù)據(jù)特點(diǎn)研究結(jié)構(gòu)化數(shù)據(jù)聚類、分類等算法,實(shí)現(xiàn)海關(guān)數(shù)據(jù)的自主風(fēng)險(xiǎn)分類。海關(guān)數(shù)據(jù)屬于表格數(shù)據(jù),這種結(jié)構(gòu)化數(shù)據(jù)的分類可以參考淺層數(shù)據(jù)分類方法,如線性回歸[1]、決策樹[2]、隨機(jī)森林[3-5]和極度梯度提升(eXtreme Gradient Boosting, XGBoost)樹[6]等傳統(tǒng)的機(jī)器學(xué)習(xí)方法,但這些方法分類效果有限,泛化性能較差;另一種處理方式是運(yùn)用多種方法變換數(shù)據(jù),借鑒表格數(shù)據(jù)深度學(xué)習(xí)算法分類識(shí)別表格數(shù)據(jù)。
Chen等[7]提出針對(duì)表格數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)組件,稱為抽象層(Abstract Layer,AbstLay),設(shè)計(jì)了一種結(jié)構(gòu)再參數(shù)化方法壓縮經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)DANET(Deep Abstract NETwork),在訓(xùn)練階段大幅降低計(jì)算復(fù)雜度。Buturovi?等[8]開發(fā)并評(píng)估了一種表格卷積(TAbular Convolution, TAC)的方法,通過將表格數(shù)據(jù)轉(zhuǎn)換為圖像,使用二維神經(jīng)網(wǎng)絡(luò)分類此類數(shù)據(jù)。Sun等[9]提出超級(jí)字符方法SuperTML(Super Tabular data Machine Learning),對(duì)于每個(gè)表格數(shù)據(jù)的輸入,首先將特征像圖像一樣投影至二維嵌入,其次將該圖像輸入經(jīng)過微調(diào)的二維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)進(jìn)行分類。該方法可以處理表格數(shù)據(jù)中的分類數(shù)據(jù)和缺失值,不需要將它們預(yù)處理為數(shù)值,大幅提高了表格數(shù)據(jù)的處理效率。這些方法在對(duì)比實(shí)驗(yàn)中取得了較好的效果,但DANET應(yīng)用于醫(yī)學(xué)數(shù)據(jù)集;TAC和SuperTML只是對(duì)表格數(shù)據(jù)進(jìn)行了轉(zhuǎn)化,沒有運(yùn)用新的更適應(yīng)表格數(shù)據(jù)的CNN結(jié)構(gòu),泛化能力不足,難以直接用于海關(guān)數(shù)據(jù)風(fēng)險(xiǎn)分析和布控工作。它們的共同特點(diǎn)是將表格數(shù)據(jù)轉(zhuǎn)換為二維數(shù)據(jù),利用CNN的優(yōu)異性能分類數(shù)據(jù)。
一些研究表明,神經(jīng)網(wǎng)絡(luò)對(duì)于結(jié)構(gòu)化數(shù)據(jù)的分類和異常檢測(cè)的效果并未很好地展現(xiàn),因?yàn)檫@種二維圖像建立的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不能簡單地套用圖像、視頻等領(lǐng)域成熟的模型。由于輸入數(shù)據(jù)對(duì)象的不同,需要研究更適應(yīng)這種轉(zhuǎn)化后的二維圖像的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以提高分類指標(biāo)的準(zhǔn)確率。
大多數(shù)神經(jīng)網(wǎng)絡(luò)如Xception(eXtreme inception)[10]、移動(dòng)網(wǎng)絡(luò)(Mobile Network,MobileNet)[11]和殘差網(wǎng)絡(luò)(Residual Network, ResNet)[12]等都由經(jīng)驗(yàn)法則和直覺構(gòu)建,隨著體系結(jié)構(gòu)不斷發(fā)展和深化,加入了更多的超參數(shù)。蝶形反饋型神經(jīng)網(wǎng)絡(luò)(Butterfly Feedback neural Network, BF-Net)[13]在較少樣本的海關(guān)風(fēng)險(xiǎn)數(shù)據(jù)分類方面表現(xiàn)優(yōu)異,能夠一定程度地實(shí)現(xiàn)海關(guān)數(shù)據(jù)風(fēng)險(xiǎn)自動(dòng)判別,但當(dāng)數(shù)據(jù)集和類的數(shù)量持續(xù)增大時(shí),BF-Net的性能難以進(jìn)一步提高,且模型終端小型化部署對(duì)模型的參數(shù)量和運(yùn)算速度提出了更高的要求。任務(wù)的特點(diǎn)決定了它的主要的應(yīng)用場(chǎng)景,對(duì)于海關(guān)風(fēng)險(xiǎn)布控自主分類問題,需要借鑒經(jīng)典的CNN結(jié)構(gòu),研究一種高準(zhǔn)確度、更低參數(shù)量和輕量級(jí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
本文針對(duì)海關(guān)數(shù)據(jù)特點(diǎn),提出基于改進(jìn)蝶形反饋型神經(jīng)網(wǎng)絡(luò)(Butterfly Feedback neural Network Version2, BFNet-V2)的海關(guān)風(fēng)險(xiǎn)布控方法,包含海關(guān)數(shù)據(jù)語義提取轉(zhuǎn)化方法——編碼填充(Filling in Code, FC)[13]、BFNet-V2結(jié)構(gòu)和歷史動(dòng)量自適應(yīng)矩估計(jì)算法(Historical momentum Adaptive moment estimation algorithm, H-Adam)這3個(gè)部分,用于實(shí)現(xiàn)海關(guān)單證數(shù)據(jù)自主分類。依靠本文方法進(jìn)行終端部署,海關(guān)關(guān)員不再需要對(duì)海關(guān)數(shù)據(jù)手動(dòng)建模,而由計(jì)算機(jī)為每一單商品貨物進(jìn)行風(fēng)險(xiǎn)分類和標(biāo)注,輔助關(guān)員現(xiàn)場(chǎng)風(fēng)險(xiǎn)決策,在大幅提高風(fēng)險(xiǎn)分析效率的同時(shí)確保高風(fēng)險(xiǎn)商品布控檢查,實(shí)現(xiàn)CIQS的巨大進(jìn)步。
本文主要工作如下:
1)基于數(shù)據(jù)字段的增加,F(xiàn)C算法實(shí)現(xiàn)表格數(shù)據(jù)語義替換,數(shù)據(jù)字段得到極大擴(kuò)充,在將表格數(shù)據(jù)轉(zhuǎn)化為模擬圖像過程中,運(yùn)用數(shù)據(jù)直接二維隨機(jī)填充,增強(qiáng)網(wǎng)絡(luò)對(duì)非近鄰表格數(shù)據(jù)特征的提取能力,實(shí)現(xiàn)高效、精準(zhǔn)的網(wǎng)絡(luò)訓(xùn)練。
2)基于海關(guān)風(fēng)險(xiǎn)分析數(shù)據(jù)量極大增加和終端部署要求的變化,提出一種相較于BF-Net[13]性能更優(yōu)的CNN結(jié)構(gòu)——BFNet-V2。采用具有層次性的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)方法,由若干“塊”狀結(jié)構(gòu)按一定規(guī)則組成神經(jīng)網(wǎng)絡(luò)。利用雙鏈路不同大小的卷積核在更廣泛的感受野上提取圖像的特征,將原BF-Net中的5×5普通卷積核替換為5×5的空洞卷積[14](擴(kuò)張率(dilation rate)為2),并添加塊輸入端到塊輸出端的直接映射,減輕訓(xùn)練過程中的梯度爆炸和消失,避免深度網(wǎng)絡(luò)過擬合,進(jìn)一步減少網(wǎng)絡(luò)參數(shù)量,通過實(shí)驗(yàn)驗(yàn)證該網(wǎng)絡(luò)的效率和分類指標(biāo)。
3)以海關(guān)表格數(shù)據(jù)分類為任務(wù)牽引,研究深度學(xué)習(xí)中的不同自適應(yīng)隨機(jī)優(yōu)化器算法的梯度下降,引入了歷史動(dòng)量信息,在動(dòng)量自適應(yīng)矩估計(jì)(Adaptive moment estimation, Adam)算法基礎(chǔ)上提出了一種歷史動(dòng)量自適應(yīng)矩估計(jì)算法——H-Adam,并驗(yàn)證了它的有界性,分析了該算法在目標(biāo)函數(shù)梯度下降過程中的作用機(jī)制,驗(yàn)證了不同自適應(yīng)學(xué)習(xí)率調(diào)整算法的收斂性。
本文用FC算法[13]清理表格數(shù)據(jù)。由于數(shù)據(jù)量增大、數(shù)據(jù)字段增加,無法生成類似文獻(xiàn)[13]中的較小圖片,因此,不同于文獻(xiàn)[13]中的數(shù)據(jù)順序填充方式,本文采用隨機(jī)編碼填充,將每條原始數(shù)據(jù)的386個(gè)字段數(shù)據(jù)直接生成20×20的圖像,算法為每個(gè)字段賦予一個(gè)圖像點(diǎn)坐標(biāo),每個(gè)圖像點(diǎn)坐標(biāo)賦予R(Red)、G(Green)和B(Blue)三通道像素值,按照從左至右的順序?qū)⒆侄螖?shù)據(jù)隨機(jī)填充至像素點(diǎn)中,直至完成數(shù)據(jù)填充,組合生成模擬圖像數(shù)據(jù)集。
1.2.1基本塊結(jié)構(gòu)
BFNet-V2是一種運(yùn)用多鏈路不同卷積核提取特征,按規(guī)律添加殘差塊,直接映射結(jié)構(gòu)的新CNN結(jié)構(gòu)。在BFNet-V2的基本單元塊中設(shè)置參數(shù)不定的卷積層,所有的塊除了卷積維度以外都具有相同的拓?fù)浣Y(jié)構(gòu),左鏈路層與層之間用線性整流函數(shù)(Rectified Linear Unit, ReLU)[15]作為激活函數(shù)。與BF-Net的區(qū)別是右鏈路由空洞卷積計(jì)算,只添加1個(gè)卷積層,用空洞卷積代替同維卷積能有效地發(fā)揮空洞卷積提取特征的能力,并能部分保留上一層的原始特征進(jìn)入下一層進(jìn)行運(yùn)算。這種基于塊的模塊化設(shè)計(jì)具有明顯優(yōu)勢(shì),通過超參數(shù)設(shè)置能夠添加或刪除相應(yīng)的卷積層,同時(shí)可以按照需求和實(shí)驗(yàn)結(jié)果調(diào)整設(shè)置直接映射的策略,從而根據(jù)任務(wù)需要組成輕量級(jí)或一般神經(jīng)網(wǎng)絡(luò)。組成BFNet-V2的基本結(jié)構(gòu)塊如圖1所示。
圖1 BFNet-V2的基本結(jié)構(gòu)塊
BFNet-V2的卷積定義選擇同維卷積和空洞卷積兩種。由于在訓(xùn)練海關(guān)模擬圖像時(shí),設(shè)置padding=same(卷積方式的設(shè)置),左鏈路卷積運(yùn)算等效于同維卷積,右鏈路運(yùn)算等效于空洞卷積。
同維卷積的表達(dá)式如式(1)所示:
空洞卷積的表達(dá)式如式(2)所示:
1)塊和小塊的正向傳播。
BFNet-V2的結(jié)構(gòu)由小塊和塊組成,具體為:若干個(gè)小塊組成1個(gè)塊,若干個(gè)塊組成BFNet-V2網(wǎng)絡(luò)結(jié)構(gòu),整個(gè)正向傳播各層之間添加激活函數(shù)。
BFNet-V2中特征圖像經(jīng)過塊結(jié)構(gòu)計(jì)算后,完成特征提取,進(jìn)入4個(gè)神經(jīng)元梯次減少的全連接層,經(jīng)過全連接層時(shí),需要將特征圖像鋪平從而轉(zhuǎn)換為特征向量,作為塊的輸出。
2)池化層的正向傳播。
池化方式選擇最大池化,如式(7)所示:
3)全連接層的正向傳播。
輸入數(shù)據(jù)傳遞到全連接層,經(jīng)過全連接層后,獲得分類并輸出結(jié)果。表達(dá)式如式(8)所示:
1.2.2改進(jìn)蝶形反饋型神經(jīng)網(wǎng)絡(luò)整體設(shè)計(jì)
本文訓(xùn)練了一種具有12個(gè)基本卷積層的輕量級(jí)改進(jìn)蝶形反饋型神經(jīng)網(wǎng)絡(luò)(BFNet-V2),用于海關(guān)數(shù)據(jù)風(fēng)險(xiǎn)標(biāo)簽分類。BFNet-V2的輸入數(shù)據(jù)為3通道RGB模擬圖像(圖像大小20×20),設(shè)置12個(gè)卷積層,維度分別為16、32和64。左鏈路使用較小的感受野和3×3卷積核。右鏈路使用更大的感受野和5×5空洞卷積核,且只卷積一次。每兩個(gè)卷積層之間將圖像像素直接相加,做一次短路徑直接映射。本文訓(xùn)練的BFNet-V2的整體結(jié)構(gòu)如圖2所示。
圖2 BFNet-V2的整體結(jié)構(gòu)
圖2中,11代表小塊內(nèi)第一層卷積得到的特征圖,12代表小塊內(nèi)第二層卷積得到的特征圖,21代表第一個(gè)小塊計(jì)算后得到的特征圖。在最后一個(gè)卷積層后接2×2的最大池化層,在不影響分類效果的情況下,縮小特征圖像,以減少不必要的參數(shù)。引入一組全連接層,由2 048、1 024、512和64這4個(gè)不同尺度的全連接層以倒立金字塔的方式搭建,特征向量的尺度以1/2的比例逐次減少,特征按照全連接的方式向下輸出。除最后一層外,每經(jīng)過一個(gè)全連接層,特征向量減小一半的尺度,通過逐次降低尺度的全連接層組合方式可以最大限度地避免使用單個(gè)或尺度陡然降低的全連接層帶來的弊端,同時(shí)可以使提取的參數(shù)特征更好地逐層向下傳輸,避免過快降低抽象圖像特征維度或直接進(jìn)行全連接輸出導(dǎo)致嚴(yán)重影響分類識(shí)別的精度。網(wǎng)絡(luò)的最后由Softmax激活函數(shù)完成分類概率的輸出,它的大小等于分類標(biāo)簽數(shù),根據(jù)海關(guān)數(shù)據(jù)風(fēng)險(xiǎn)標(biāo)簽分類需求,輸出為10類。
雖然Adam[16]在許多任務(wù)中快速收斂,但卻容易導(dǎo)致算法達(dá)到局部極小值。本文的H-Adam與忽略歷史動(dòng)量的Adam不同,H-Adam更新一階距和二階距的變量時(shí)考慮了歷史動(dòng)量,從而將歷史動(dòng)量信息引入估計(jì)的更新。H-Adam在訓(xùn)練過程中累積歷史一階和二階動(dòng)量信息均值以更新一階和二階動(dòng)量,并逐漸降低對(duì)歷史動(dòng)量的適配程度。H-Adam解決了Adam的泛化性能不佳的問題,允許在凸和非凸設(shè)置下收斂,算法1為H-Adam的迭代過程。
算法1 H-Adam。
While 沒有達(dá)到停止條件do
更新有偏一階矩估計(jì):
更新有偏二階矩估計(jì):
End while
H-Adam和Adam之間最顯著的區(qū)別是Adam的一階和二階動(dòng)量只與前一步的動(dòng)量有關(guān),而H-Adam的動(dòng)量與歷史動(dòng)量均存在聯(lián)系,這意味著過去的動(dòng)量信息是積累而不是遺忘。由于當(dāng)參數(shù)接近最優(yōu)點(diǎn)時(shí),參數(shù)會(huì)變得稀疏和有噪聲,H-Adam會(huì)逐漸降低一階和二矩對(duì)最新動(dòng)量的自適應(yīng)能力;因此,為了保證歷史動(dòng)量的穩(wěn)定性,本文以歷史動(dòng)量的均值影響當(dāng)前動(dòng)量值的更新。H-Adam改變了一階和二階矩的更新過程,在每次更新時(shí)加入歷史的動(dòng)量信息,變量的更新如式(9)(10)所示:
1.3.1有界性
1.3.2梯度適應(yīng)性
H-Adam中的動(dòng)量和歷史動(dòng)量的相互作用,會(huì)以以下4種情況梯度下降。
由于文獻(xiàn)[16]中給出了Adam詳細(xì)的收斂性證明,在此對(duì)H-Adam的收斂性本文無須復(fù)述。H-Adam記錄了當(dāng)前動(dòng)量和歷史動(dòng)量信息,并通過兩個(gè)動(dòng)量值和符號(hào)的相互作用調(diào)整梯度下降方向和步幅,實(shí)現(xiàn)目標(biāo)函數(shù)的平滑和平穩(wěn)過渡,適應(yīng)高維度空間的復(fù)雜目標(biāo)函數(shù)。
以某省對(duì)外貿(mào)易活動(dòng)過程中海關(guān)單證數(shù)據(jù)為研究對(duì)象,收集近十年進(jìn)口凍肉、生鮮、食品、化妝品和紅酒等46種商品的報(bào)關(guān)、艙單和核放單數(shù)據(jù)132 990條(包含10個(gè)風(fēng)險(xiǎn)類別,放行通關(guān)或不予處罰的數(shù)據(jù)),其中02類別數(shù)據(jù)15 015條數(shù)據(jù)為隨機(jī)抽取,構(gòu)成總的海關(guān)數(shù)據(jù)集。
表1數(shù)據(jù)集分布
Tab.1 Dataset distribution
本文實(shí)驗(yàn)設(shè)備和環(huán)境參數(shù):中央處理器(Central Processing Unit,CPU)為AMDRyzen2700X,8核,主頻3.70 GHz;隨機(jī)存取存儲(chǔ)器(Random Access Memory,RAM)為32.0 GB;操作系統(tǒng)為Windows 64位;圖形處理器(Graphic Processing Unit, GPU)為NVIDIA GTX1080,10 GB GDDR5;運(yùn)行軟件為Python tensorflow 3.7。
圖3 4種自適應(yīng)學(xué)習(xí)率調(diào)整算法的訓(xùn)練和驗(yàn)證損失曲線
雖然Nadam、H-Adam和Adam的超參數(shù)較多,但即使沒有進(jìn)行學(xué)習(xí)率調(diào)優(yōu),它們也能獲得滿意的效果。其中,H-Adam在減少訓(xùn)練和驗(yàn)證損失方面明顯優(yōu)于其他對(duì)比算法(包括它的父算法Adam)。
為了實(shí)現(xiàn)海關(guān)數(shù)據(jù)的自主分類,并以相同的學(xué)習(xí)率調(diào)整策略訓(xùn)練不同的網(wǎng)絡(luò)結(jié)構(gòu)分類器。本文計(jì)算準(zhǔn)確率(ACCuracy rate,ACC)、Kappa系數(shù)、繪制受試者工作特征(Receiver Operating Characteristic, ROC)曲線以及它的曲線下面積(Area Under Curve, AUC)和查準(zhǔn)率-查全率(Precision Recall,PR)曲線以及它的曲線下面積,該面積等于平均精準(zhǔn)率(Average Precision, AP)[22]。
為了驗(yàn)證BFNet-V2的有效性,本文研究了兩種不同的方式訓(xùn)練網(wǎng)絡(luò):從頭訓(xùn)練(Training from Scratch, TS)[23-24]和遷移學(xué)習(xí)(Transfer Learning, TL)[25-26]。
2.5.1策略設(shè)置和訓(xùn)練參數(shù)
學(xué)習(xí)率調(diào)整策略采用H-Adam。訓(xùn)練結(jié)束條件采用Keras中的EarlyStopping函數(shù)[15]自動(dòng)調(diào)整學(xué)習(xí)率,當(dāng)準(zhǔn)確率或損失值到達(dá)一定值,則停止訓(xùn)練。在算法中定義學(xué)習(xí)率,并經(jīng)過一定epoch后,效果不再提升,該學(xué)習(xí)率可能已經(jīng)不再適應(yīng)該結(jié)構(gòu),因此需要在訓(xùn)練過程中通過H-Adam調(diào)整學(xué)習(xí)率,進(jìn)而提升網(wǎng)絡(luò)結(jié)構(gòu)效果。
2.5.2訓(xùn)練方式和停止條件
按照訓(xùn)練網(wǎng)絡(luò)的設(shè)計(jì),將10個(gè)分類的訓(xùn)練集和驗(yàn)證集在輸入不同網(wǎng)絡(luò)結(jié)構(gòu)之前進(jìn)行歸一化處理,使圖像的像素值在[0,1]區(qū)間。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)需要將訓(xùn)練樣本從文件夾中源源不斷地輸入訓(xùn)練數(shù)據(jù)緩沖區(qū),再將訓(xùn)練樣本分批輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,所有結(jié)構(gòu)均采用同樣的訓(xùn)練方式:每次從訓(xùn)練數(shù)據(jù)中選出一批數(shù)據(jù),然后對(duì)每批數(shù)據(jù)進(jìn)行學(xué)習(xí),簡稱小批量(Mini-batch)學(xué)習(xí)[27],Mini-batch設(shè)置為50。
當(dāng)全部訓(xùn)練數(shù)據(jù)完成訓(xùn)練后,計(jì)算一次訓(xùn)練迭代次數(shù)(epoch)。當(dāng)epoch達(dá)到設(shè)置的最高次數(shù)或者網(wǎng)絡(luò)誤差低于設(shè)定值時(shí),網(wǎng)絡(luò)訓(xùn)練結(jié)束,此時(shí)保存訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu),輸入測(cè)試數(shù)據(jù),驗(yàn)證完成訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)性能。
所有網(wǎng)絡(luò)結(jié)構(gòu)分別在訓(xùn)練集的所有數(shù)據(jù)樣本上訓(xùn)練100次(100 epoches),直到自適應(yīng)學(xué)習(xí)率調(diào)整算法直接提前結(jié)束訓(xùn)練或達(dá)到規(guī)定epoch后停止訓(xùn)練。損失函數(shù)選擇交叉熵?fù)p失函數(shù)[28]。
交叉熵計(jì)算方式如式(12)所示:
在TS過程中,刪除卷積層之間的池化層,只在全連接層之前添加2×2池化,全連接層不變。在TL過程中,首先以ImageNet數(shù)據(jù)集[29]為源域?qū)FNet-V2進(jìn)行預(yù)訓(xùn)練,設(shè)置網(wǎng)絡(luò)停止條件,保存訓(xùn)練好的網(wǎng)絡(luò)參數(shù),完成BFNet-V2的預(yù)訓(xùn)練過程。其次,在海關(guān)數(shù)據(jù)集這個(gè)目標(biāo)域上進(jìn)行遷移學(xué)習(xí),得到訓(xùn)練和測(cè)試曲線。其他4種網(wǎng)絡(luò)結(jié)構(gòu)調(diào)用tensorflow[30]的官方預(yù)訓(xùn)練模型,池化層、全連接層和學(xué)習(xí)率都與TS的網(wǎng)絡(luò)結(jié)構(gòu)保持一致。
2.6.1兩種訓(xùn)練方式的BFNet-V2訓(xùn)練曲線
圖4和圖5是兩種訓(xùn)練方式的BFNet-V2損失(Loss)和準(zhǔn)確率(ACC)曲線,雖然二者訓(xùn)練曲線差別不大,但TL的ACC曲線明顯優(yōu)于TS,這從一個(gè)側(cè)面反映了海關(guān)數(shù)據(jù)模擬圖像雖然是一種無規(guī)律二維馬賽克圖像,但它與ImageNet數(shù)據(jù)集中的現(xiàn)實(shí)圖像同樣存在著某種未知的關(guān)聯(lián)。
2.6.2不同網(wǎng)絡(luò)遷移學(xué)習(xí)Loss和ACC曲線
本文將BFNet-V2與Xception[10]、MobileNet-V2[11]、ResNet50[12]和BF-Net[13]這4種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對(duì)比。
圖6和圖7分別是5種網(wǎng)絡(luò)基于兩種訓(xùn)練方式的Loss曲線和ACC曲線。從圖6(a)和圖7(a)可以看出,Xception的損失曲線較平緩,在網(wǎng)絡(luò)結(jié)構(gòu)初始化時(shí),Xception的訓(xùn)練集準(zhǔn)確率接近75%,驗(yàn)證集準(zhǔn)確率超過45%,Loss曲線在第5個(gè)epoch后已經(jīng)較好地收斂,在20次左右達(dá)到平穩(wěn);同時(shí),ACC曲線顯示此時(shí)訓(xùn)練集的ACC超過90%,驗(yàn)證集的ACC達(dá)到89%,驗(yàn)證集的ACC低于ResNet50,與MobileNet-V2相當(dāng)。
輕量和快速是MobileNet-V2的特點(diǎn),在網(wǎng)絡(luò)結(jié)構(gòu)初始化時(shí),網(wǎng)絡(luò)的訓(xùn)練集準(zhǔn)確率接近75%,但是驗(yàn)證集準(zhǔn)確率不高,在20%左右,說明網(wǎng)絡(luò)此時(shí)處于過擬合狀態(tài);隨著迭代次數(shù)的增加,網(wǎng)絡(luò)逐漸學(xué)習(xí),隨著參數(shù)的調(diào)整和迭代次數(shù)的增加,網(wǎng)絡(luò)的驗(yàn)證集準(zhǔn)確率逐漸提高,從圖6(b)和圖7(b)可以看出,當(dāng)網(wǎng)絡(luò)訓(xùn)練次數(shù)達(dá)到15時(shí),驗(yàn)證集的準(zhǔn)確率趨于平穩(wěn),達(dá)到80%。訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率都達(dá)到較高的水平。網(wǎng)絡(luò)的損失值也出現(xiàn)了相匹配的情況。由于MobileNet-V2輕量級(jí)的特點(diǎn),網(wǎng)絡(luò)在第22次迭代后達(dá)到收斂。
圖4 BFNet-V2的Loss曲線(一個(gè)epoch)
圖5 BFNet-V2的ACC曲線(一個(gè)epoch)
從圖6(c)和圖7(c)可以看出,ResNet50訓(xùn)練迭代次數(shù)為27時(shí),驗(yàn)證集的準(zhǔn)確率達(dá)到最高且趨于穩(wěn)定,當(dāng)ResNet50訓(xùn)練16個(gè)epoch后訓(xùn)練集的準(zhǔn)確率超過90%,驗(yàn)證集的準(zhǔn)確率也能達(dá)到85%,訓(xùn)練誤差也是下降到0.5以下,基本達(dá)到網(wǎng)絡(luò)訓(xùn)練的輸出結(jié)果。
從圖6(d)和圖7(d)中可以發(fā)現(xiàn),BF-Net經(jīng)過18次訓(xùn)練網(wǎng)絡(luò)就收斂并停止訓(xùn)練,ACC超過93%。
從圖6(e)和圖7(e)可以看出,基于遷移學(xué)習(xí)的BFNet-V2在全部epoch的Loss曲線和ACC曲線上的表現(xiàn)明顯優(yōu)于其他4種網(wǎng)絡(luò),Loss曲線波動(dòng)較小,在第6個(gè)epoch后訓(xùn)練集的ACC已經(jīng)達(dá)到90%以上,且驗(yàn)證集的ACC也達(dá)到90%,網(wǎng)絡(luò)沒有出現(xiàn)過擬合現(xiàn)象,收斂快,經(jīng)過不到20次的epoch就停止了訓(xùn)練,且驗(yàn)證集的ACC已接近94%,體現(xiàn)了BFNet-V2的優(yōu)異性能。
圖6 各種網(wǎng)絡(luò)基于TL的Loss曲線
圖7 各種網(wǎng)絡(luò)基于TL的ACC曲線
2.6.35種網(wǎng)絡(luò)的PR曲線和ROC曲線
圖8、9是5種網(wǎng)絡(luò)結(jié)構(gòu)的ROC曲線和PR曲線??v向比較,不論用TS還是TL方式,BFNet-V2的曲線弧度更大,平滑度較好,且基本能夠包裹其他網(wǎng)絡(luò)結(jié)構(gòu)的曲線,泛化能力較強(qiáng),可以找到較好的分類樣本閾值。其次是BF-Net結(jié)構(gòu)、Xception結(jié)構(gòu)和ResNet50,它們的分類效果在伯仲之間,MobileNet-V2結(jié)構(gòu)的AUC和AP值最低。橫向比較,在訓(xùn)練方式方面,所有網(wǎng)絡(luò)結(jié)構(gòu)的TL方式的驗(yàn)證結(jié)構(gòu)均好于TS,說明TL方式在海關(guān)數(shù)據(jù)集上有效;也說明訓(xùn)練模擬圖像數(shù)據(jù)集每種分類的圖像數(shù)量中等,TS的方式特征學(xué)習(xí)能力不如TL,此實(shí)驗(yàn)結(jié)果與其他圖像數(shù)據(jù)集如ImageNet、COCO(http://mscoco.org/)等的實(shí)驗(yàn)趨勢(shì)也是一致的。
圖8 5種網(wǎng)絡(luò)的ROC曲線
圖9 5種網(wǎng)絡(luò)的PR曲線
由于ROC曲線兼顧正例與負(fù)例,所以適用于評(píng)估分類器的整體性能。由于真實(shí)測(cè)試樣本不均衡,從圖9可以看出,BFNet-V2的虛警率值[0,0.2]的階段曲線較陡,對(duì)應(yīng)較高的擊中率值,曲線接近左上角,說明BFNet-V2在不同標(biāo)簽的正例和負(fù)例分類較均衡。由于PR曲線的兩個(gè)指標(biāo)都聚焦于正例,能夠展示不平衡數(shù)據(jù)的分類情況。BFNet-V2的準(zhǔn)確率[0.8,1]的階段曲線較陡,對(duì)應(yīng)較高的查全率,曲線接近右上角,說明BFNet-V2在測(cè)試不均衡樣本數(shù)據(jù)集的優(yōu)勢(shì)。
2.6.45種網(wǎng)絡(luò)結(jié)構(gòu)實(shí)驗(yàn)結(jié)果的分類指標(biāo)
表2列出5種網(wǎng)絡(luò)結(jié)構(gòu)的驗(yàn)證數(shù)據(jù)指標(biāo)的平均值。驗(yàn)證結(jié)果表明,從頭訓(xùn)練方面,BFNet-V2在4個(gè)指標(biāo)上取得了最好的效果,但參數(shù)量多于MobileNet-V2,因此BFNet-V2使用較淺的網(wǎng)絡(luò)超越了其他深層網(wǎng)絡(luò)的分類效果,且卷積核的參數(shù)量沒有顯著增加,相較于BF-Net進(jìn)一步減少。TL方式的訓(xùn)練顯示了同樣的結(jié)果,MobileNet-V2的性能被其他網(wǎng)絡(luò)結(jié)構(gòu)超越。以5種網(wǎng)絡(luò)結(jié)構(gòu)的遷移學(xué)習(xí)分類準(zhǔn)確率為例,BFNet-V2相較于Xception、MobileNet-V2、ResNet50和BF-Net分別提高了4.30%、4.34%、4.10%和0.37%。
表2驗(yàn)證數(shù)據(jù)集指標(biāo)平均值
Tab.2 Mean index values on validation dataset
注:由于TL方式凍結(jié)卷積層,只訓(xùn)練全連接層,這里沒有討論結(jié)構(gòu)的參數(shù)量;加粗的是最大值,下畫線為最小值。
表3是對(duì)4 504張02標(biāo)簽驗(yàn)證模擬圖像的運(yùn)行結(jié)果(單位:s)。BFNet-V2與Xception相比耗時(shí)減少了37.83%,與BF-Net相比耗時(shí)減少了12.50%,與MobileNet-V2相比耗時(shí)增加了15.65%,與ResNet50相比耗時(shí)減少了21.33%。分析5種網(wǎng)絡(luò)結(jié)構(gòu)所需要的訓(xùn)練時(shí)間,MobileNet-V2所需時(shí)間最短,但結(jié)合前面的運(yùn)行結(jié)果(表2),MobileNet-V2的ACC并非最優(yōu);ResNet50各項(xiàng)指標(biāo)表現(xiàn)較均衡;Xception的ACC值處于中等水平,但是運(yùn)行時(shí)間銷最大;BF-Net和BFNet-V2的運(yùn)行時(shí)間和網(wǎng)絡(luò)參數(shù)量略高于MobileNet-V2,BFNet-V2在ACC、PR曲線、ROC曲線和Kappa系數(shù)等指標(biāo)方面均取得了較好的結(jié)果。根據(jù)Kappa系數(shù)的定義,另外3種網(wǎng)絡(luò)結(jié)構(gòu)可以達(dá)到82%~89%的Kappa系數(shù)指標(biāo),按照Kappa系數(shù)的評(píng)價(jià)標(biāo)準(zhǔn)可以定性為幾乎完全一致,但BF-Net和BFNet-V2的Kappa系數(shù)超過90%,且BFNet-V2結(jié)構(gòu)的Kappa系數(shù)大于BF-Net結(jié)構(gòu),分類結(jié)果的一致性檢驗(yàn)效果更好。
表3基于遷移學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練時(shí)間對(duì)比 單位:s
Tab.3 Comparison of network training time based on transfer learning unit:s
2.6.5海關(guān)數(shù)據(jù)風(fēng)險(xiǎn)分類的兩項(xiàng)任務(wù)指標(biāo)
海關(guān)數(shù)據(jù)風(fēng)險(xiǎn)分類任務(wù)主要有兩方面:一是識(shí)別高風(fēng)險(xiǎn)商品,進(jìn)入查驗(yàn)環(huán)節(jié);二是避免將低風(fēng)險(xiǎn)商品識(shí)別為高風(fēng)險(xiǎn)商品,進(jìn)行查驗(yàn)。由于風(fēng)險(xiǎn)標(biāo)簽00和02是放行,屬于低風(fēng)險(xiǎn)商品,則需要計(jì)算放行標(biāo)簽被預(yù)測(cè)為查獲標(biāo)簽時(shí)占所有放行標(biāo)簽數(shù)據(jù)的比例;風(fēng)險(xiǎn)標(biāo)簽03~14屬于查獲的類型,對(duì)應(yīng)高風(fēng)險(xiǎn)商品,需要計(jì)算標(biāo)簽03~14的商品被預(yù)測(cè)為00和02時(shí),占所有查獲標(biāo)簽的比例。這兩個(gè)比例均越低越好。顯然,由于關(guān)系到CIQS,第2個(gè)比例更重要。
由表4可知,對(duì)于放行誤判,BFNet-V2的誤判率均為最低,只有極少量數(shù)據(jù)被誤判為查獲,其余4種網(wǎng)絡(luò)結(jié)構(gòu)的誤判率基本小于10%。以TL訓(xùn)練方式為例,BFNet-V2的放行誤判率相較于Xception、MobileNet-V2、ResNet50和BF-Net分別降低了68.78%、76.21%、72.25%和6.31%。BFNet-V2能夠盡可能多地直接過濾低風(fēng)險(xiǎn)商品,提高風(fēng)險(xiǎn)判別速度和工作效率。
對(duì)于查獲誤判,從表4中可以看出,BFNet-V2的誤判率接近1%,ResNet50、Xception和MobileNet-V2的誤判率較高。以TL訓(xùn)練方式為例,BFNet-V2的查獲誤判率相較于Xception、MobileNet-V2、ResNet50和BF-Net分別降低了70.09%、57.98%、58.36%和10.70%。BFNet-V2可以迅速標(biāo)記絕大部分高風(fēng)險(xiǎn)商品,直接將單證轉(zhuǎn)移到人工查驗(yàn)環(huán)節(jié),提升口岸風(fēng)險(xiǎn)防控的能力。
表45種網(wǎng)絡(luò)結(jié)構(gòu)的誤判率對(duì)比 單位: %
Tab.4 Comparison of misjudgment rate among five network structures unit: %
目標(biāo)圖像存在差異是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取更多差異特征的先決條件。BFNet-V2的雙鏈路不同接收域訓(xùn)練策略能最大限度地提取特征圖的組合特征。通過神經(jīng)網(wǎng)絡(luò)反饋訓(xùn)練作用于分類輸出Softmax,在一定程度上避免了欠擬合;而兩個(gè)卷積層之間的直接映射、小塊與小塊之間的直接映射,以及塊與塊之間的直接映射使得上一層卷積核提取的特征可以直接作用于后面的卷積運(yùn)算,該策略極大地提高了網(wǎng)絡(luò)的穩(wěn)定性,改善了復(fù)雜深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生的過擬合和梯度消失現(xiàn)象。在使用BFNet-V2參數(shù)訓(xùn)練的過程中,在海關(guān)數(shù)據(jù)集上,采用兩種訓(xùn)練方式均可以達(dá)到較好的海關(guān)數(shù)據(jù)分類效果,基本沒有出現(xiàn)過擬合、梯度消失和分類失敗的現(xiàn)象,實(shí)現(xiàn)了以較少的隱層達(dá)到較高的分類指標(biāo)值。
將本文方法(BFNet-V2+H-Adam方法)與8種數(shù)據(jù)分類方法進(jìn)行對(duì)比,涵蓋表格數(shù)據(jù)分類領(lǐng)域最優(yōu)和經(jīng)典的方法,評(píng)估指標(biāo)為準(zhǔn)確率。8種對(duì)照方法為:
1)隨機(jī)森林(Random Forest,RF)[3]。通過Pythonscikit-learn包中的RandomForestClassifier建立初始隨機(jī)森林方法,超參數(shù)樹數(shù)為300時(shí),樹的深度設(shè)置為15,直接對(duì)表格數(shù)據(jù)分類。
2)支持向量機(jī)(Support Vector Machine, SVM)[31]。采用Libsvm分類器。
3)XGBoost[6]。改進(jìn)的梯度提升算法,求解損失函數(shù)極值時(shí)使用牛頓法,將損失函數(shù)泰勒展開至二階;另外在損失函數(shù)中加入正則化項(xiàng)。
4)一維卷積神經(jīng)網(wǎng)絡(luò)(One-Dimensional Convolutional Neural Network,1D-CNN)[32]。表格數(shù)據(jù)實(shí)現(xiàn)統(tǒng)一編碼后,直接輸入1D-CNN進(jìn)行分類,用一維卷積核在表格數(shù)據(jù)字段上滑動(dòng)以提取數(shù)據(jù)特征,對(duì)表格數(shù)據(jù)進(jìn)行分類。
5)DANET[7]。是一個(gè)深度神經(jīng)網(wǎng)絡(luò)家族,用于表格數(shù)據(jù)分類和回歸。在DANET中,引入一個(gè)特殊的快捷路徑從原始表格特征中獲取信息,幫助不同級(jí)別的特征交互。
6)TAC[8]。使用表格數(shù)據(jù)創(chuàng)建應(yīng)用于固定基礎(chǔ)圖像的圖像過濾器,運(yùn)用ResNet結(jié)構(gòu)實(shí)現(xiàn)對(duì)表格數(shù)據(jù)的分類。
7)SuperTML[9]。對(duì)預(yù)訓(xùn)練的CNN在非結(jié)構(gòu)化數(shù)據(jù)上進(jìn)行二維嵌入和優(yōu)化,將表格數(shù)據(jù)的機(jī)器學(xué)習(xí)問題轉(zhuǎn)化為圖像分類問題,以遷移學(xué)習(xí)表格形式的結(jié)構(gòu)化數(shù)據(jù)實(shí)現(xiàn)表格數(shù)據(jù)的分類。
8)BF-Net+AdaGrad方法[13]。該方法實(shí)現(xiàn)表格數(shù)據(jù)到圖像數(shù)據(jù),再到神經(jīng)網(wǎng)絡(luò)識(shí)別訓(xùn)練的過程。
實(shí)驗(yàn)數(shù)據(jù)集為Adult data set[33]、LETOR 4.0 Datasets[34]和Cardiovascular Disease5[35]。
表5展示不同方法在3個(gè)不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。各方法在不同數(shù)據(jù)上呈現(xiàn)出相似的結(jié)果,以LETOR 4.0 Datasets上的數(shù)據(jù)為例進(jìn)行分析。
首先,RF方法的效果基本低于其他8種方法。一方面,與其他所有方法相比,RF方法較難適應(yīng)不同性質(zhì)、不同場(chǎng)景的表格數(shù)據(jù)字段;另一方面,且RF方法本質(zhì)是樹形結(jié)構(gòu),對(duì)于小數(shù)據(jù)或者低維數(shù)據(jù),分類效果并不理想,對(duì)于高維數(shù)據(jù),也難以與深度學(xué)習(xí)方法相比,RF通常需要在不同的參數(shù)和隨機(jī)種子之間反復(fù)嘗試以提高分類精度。兩種基于特征工程的機(jī)器學(xué)習(xí)方法(SVM和XGBoost)顯著優(yōu)于RF方法,但受限于有限的特征泛化能力,容易收斂于更優(yōu)的局部最優(yōu)解。因此,這兩種方法的準(zhǔn)確率低于1D-CNN。1D-CNN明顯低于DANET、TAC和SuperTML這3種表格數(shù)據(jù)轉(zhuǎn)換的深度方法,1D-CNN效果弱于2D-CNN的原因是2D-CNN不僅能夠提取轉(zhuǎn)換圖像中相鄰字段的特征,同時(shí)能夠提取不同圖像位置的特征,因此無法獲取更豐富的語義信息。本文方法在表格數(shù)據(jù)固有噪聲的情況下充分提取了無法認(rèn)知的表格數(shù)據(jù)語義信息,并進(jìn)一步學(xué)習(xí)了不同字段信息語義之間的關(guān)聯(lián),在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率提升均在1.33%以上,表明該方法的優(yōu)越性和良好的泛化能力。
表5 不同方法的準(zhǔn)確率對(duì)比 單位: %
本文方法(BFNet-V2+H-Adam)在網(wǎng)絡(luò)結(jié)構(gòu)上具有優(yōu)勢(shì),運(yùn)用空洞卷積,并優(yōu)化自適應(yīng)學(xué)習(xí)率調(diào)整過程,模型容易收斂于更優(yōu)的局部最小值。在包含海關(guān)數(shù)據(jù)集的4個(gè)不同數(shù)據(jù)集上都取得了最優(yōu)分類性能。
本文針對(duì)海關(guān)傳統(tǒng)風(fēng)險(xiǎn)分析方法存在的問題,提出一種智能化海關(guān)風(fēng)險(xiǎn)布控方法。運(yùn)用FC算法將表格類型的海關(guān)數(shù)據(jù)轉(zhuǎn)化為模擬圖像數(shù)據(jù)。運(yùn)用提出的BFNet-V2+H-Adam方法得到不同數(shù)據(jù)的風(fēng)險(xiǎn)分類標(biāo)簽。BFNet-V2包含雙鏈路兩種卷積核提取特征、塊狀和不同的短路徑映射,具有輕量級(jí)、高效等良好的網(wǎng)絡(luò)特性;同時(shí),以H-Adam作為優(yōu)化器,加快算法收斂,避免算法收斂至局部最小值。在同等設(shè)備環(huán)境和參數(shù)條件下,在與CNN和自適應(yīng)學(xué)習(xí)率調(diào)整算法的對(duì)比實(shí)驗(yàn)中取得了較好的實(shí)驗(yàn)指標(biāo)效果。與包含淺層和深度學(xué)習(xí)方法的8種分類方法進(jìn)行比較,驗(yàn)證了基于改進(jìn)蝶形反饋型神經(jīng)網(wǎng)絡(luò)的海關(guān)風(fēng)險(xiǎn)布控方法在海關(guān)數(shù)據(jù)分類上的優(yōu)勢(shì)。該方法能夠有效簡化海關(guān)關(guān)員的風(fēng)險(xiǎn)判別過程,有效保障我國CIQS。下一步可以將該方法推廣至更多的一線海關(guān)查驗(yàn)現(xiàn)場(chǎng),切實(shí)提高海關(guān)查獲率,減少關(guān)員查驗(yàn)工作量。
[1] ALITA D, PUTRA A D, DARWIS D. Analysis of classic assumption test and multiple linear regression coefficient test for employee structural office recommendation[J]. IJCCS (Indonesian Journal of Computing and Cybernetics Systems), 2021, 15(3): 295-306.
[2] CHARBUTY B, ABDULAZEEZ A. Classification based on decision tree algorithm for machine learning[J]. Journal of Applied Science and Technology Trends, 2021, 2(1): 20-28.
[3] HUSSEIN A S, KHAIRY R S, NAJEEB S M M, et al. Credit card fraud detection using fuzzy rough nearest neighbor and sequential minimal optimization with logistic regression[J]. International Journal of Interactive Mobile Technologies, 2021, 15(5): 24-42.
[4] ANTONIADIS A, LAMBERT-LACROIX S, POGGI J-M. Random forests for global sensitivity analysis: a selective review[J]. Reliability Engineering & System Safety, 2021, 206: 107312.
[5] LIAW A, WIENER M. Classification and regression by random forest[J]. R News, 2002,2(3): 18-22.
[6] 申明堯,韓萌,杜詩語,等. 融合XGBoost和Multi-GRU的數(shù)據(jù)中心服務(wù)器能耗優(yōu)化算法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(1): 198-208.(SHEN M Y, HAN M, DU S Y, et al. Data center server energy consumption optimization algorithm combining XGBoost and Multi-GRU [J]. Journal of Computer Applications, 2022, 42(1): 198-208.)
[7] CHEN J, LIAO K, WANY, et al. DANETs: deep abstract networks for tabular data classification and regression[C]// Proceedings of the 36th AAAI Conference on Artificial Intelligence. Palo Alto:AAAI Press, 2022: 3930-3938.
[8] BUTUROVI? L, MILJKOVIC D. A novel method for classification of tabular data using convolutional neural networks [EB/OL]. (2020-03-08)[2023-01-12]. https://www.biorxiv.org/content/10.1101/2020.05.02.074203v1.full.pdf.
[9] SUN B, YANG L, ZHANG W, et al. SuperTML: two-dimensional word embedding for the precognition on structured tabular data [C]// Proceedings of the 32th IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE, 2019: 2973-2981.
[10] CHOLLET F. Xception: deep learning with depth wise separable convolutions[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1800-1807.
[11] SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 4510-4520.
[12] WANG G, YU H, SUI Y. Research on maize disease recognition method based on improved ResNet50[J]. Mobile Information Systems, 2021, 2021: 9110866.1-9110866.6.
[13] 王正剛,劉偉,金瑾.一種海關(guān)數(shù)據(jù)風(fēng)控類型識(shí)別方法,海關(guān)智能化風(fēng)險(xiǎn)布控方法,裝置,計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì): CN202110232188.2[P]. 2022-09-16.(WANG Z G, LIU W, JIN J. A customs data risk control type identification method, customs intelligent risk control method, device, computer equipment and storage media: CN202110232188.2 [P]. 2022-09-16.)
[14] WEI Y, XIAO H, SHI H, et al. Revisiting dilated convolution: a simple approach for weakly-and semi-supervised semantic segmentation [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7268-7277.
[15] DAUBECHIES I, DeVORE R, FOUCART S, et al. Nonlinear approximation and (deep) ReLU networks[J]. Constructive Approximation: An International Journal for Approximations and Expansions, 2022, 55(1): 127-172.
[16] JAIS I K M, ISMAILI A R, NISA S Q. Adam optimization algorithm for wide and deep neural network[J]. Knowledge Engineering and Data Science, 2019, 2(1): 41-46.
[17] HAWKINS D M, YOUNG S S, RUSINKO A Ⅲ. Analysis of a large structure-activity data set using recursive partitioning[J]. Quantitative Structure-Activity Relationships, 1997, 16(4):296-302.
[18] WARD R, WU X, BOTTOU L. AdaGrad stepsizes: sharp convergence over nonconvex landscapes, from any initialization[J]. Journal of Machine Learning Research, 2020, 21: 1-30.
[19] WEN Z, YANG G, CAI Q. An improved calibration method for the IMU biases utilizing KF-based AdaGrad algorithm[J]. Sensors, 2021, 21(15):5055.
[20] LI L, XU W, YU H. Character-level neural network model based on Nadam optimization and its application in clinical concept extraction [J]. Neurocomputing, 2020, 414: 182-190.
[21] ZHU Z, HOU Z. Research and application of rectified-nadam optimization algorithm in data classification [J]. American Journal of Computer Science and Technology, 2021, 4(4): 106-110.
[22] GU J, WANG Z, KUEN J, et al. Recent advances in convolutional neural networks [J]. Pattern Recognition, 2018,77: 354-377.
[23] YU S, CHENG Y, SU S, et al. Stratified pooling based deep convolutional neural networks for human action recognition[J]. Multimedia Tools and Applications, 2017, 76: 13367-13382.
[24] KIM Y, PANDA P. Revisiting batch normalization for training low-latency deep spiking neural networks from scratch [J]. Frontiers in Neuroscience, 2021,15: 101-113.
[25] KARRAS T, AITTALA M, HELLSTEN J, et al. Training generative adversarial networks with limited data [J]. Advances in Neural Information Processing Systems, 2020, 33: 12104-12114.
[26] SHALLU, MEHRA R. Breast cancer histology images classification: training from scratch or transfer learning [J]. ICT Express, 2018, 4(4): 247-254.
[27] DOKUZ Y, TUFEKCI Z. Mini-batch sample selection strategies for deep learning based speech recognition[J]. Applied Acoustics, 2021, 171: 107573.
[28] ZHANG Z, SABUNCU M. Generalized cross entropy loss for training deep neural networks with noisy labels [EB/OL]. (2018-07-15)[2022-12-25]. https://arxiv.org/pdf/1805.07836.pdf.
[29] DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database[C]// Proceedings of the 22th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.
[30] PANG B, NIJKAMP E, WU Y N. Deep learning with TensorFlow: a review [J]. Journal of Educational and Behavioral Statistics, 2020, 45(2): 227-248.
[31] YANG J, SUN L, XING W, et al. Hyperspectral prediction of sugarbeet seed germination based on Gauss kernel SVM[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2021, 253: 119585.
[32] OZCANLI A K, BAYSAL M. Islanding detection in microgrid using deep learning based on 1D-CNN and CNN-LSTM networks[J]. Sustainable Energy, Grids and Networks, 2022, 32: 100839.
[33] RONNY K, BARRY B. Adult data set [DB/OL]. (2003-06-15)[2022-12-14] . https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data.
[34] PENG J, MACDONALD C, OUNIS I. Learning to select a ranking function [C]// Proceedings of the 32th European Conference on IR Research. Berlin: Springer, 2010: 114-126.
[35] ULIANOVA S. Cardiovascular disease dataset[DB/OL]. (2005-03-08)[2022-12-14]. https://www.kaggle.com/datasets/sulianova/cardiovascular-disease-dataset.
Customs risk control method based on improved butterfly feedback neural network
WANG Zhenggang1,2,3*, LIU Zhong1,2, JIN Jin4, LIU Wei3
(1,,610213,;2,,101408,;3,’,610041,;4,,610103,)
Aiming at the problems of low efficiency, low accuracy, excessive occupancy of human resources and intelligent classification algorithm miniaturization deployment requirements in China Customs risk control methods at this stage, a customs risk control method based on an improved Butterfly Feedback neural Network Version 2 (BFNet-V2) was proposed. Firstly, the Filling in Code (FC) algorithm was used to realize the semantic replacement of the customs tabular data to the analog image. Then, the analog image data was trained by using the BFNet-V2. The regular neural network structure was composed of left and right links, different convolution kernels and blocks, and small block design, and the residual short path was added to improve the overfitting and gradient disappearance. Finally, a Historical momentum Adaptive moment estimation algorithm (H-Adam) was proposed to optimize the gradient descent process and achieve a better adaptive learning rate adjustment, and classify customs data. Xception (eXtreme inception), Mobile Network (MobileNet), Residual Network (ResNet), and Butterfly Feedback neural Network (BF-Net) were selected as the baseline network structures for comparison. The Receiver Operating Characteristic curve (ROC) and the Precision-Recall curve (PR) of the BFNet-V2 contain the curves of the baseline network structures. Taking Transfer Learning (TL) as an example, compared with the four baseline network structures, the classification accuracy of BFNet-V2 increases by 4.30%,4.34%,4.10% and 0.37% respectively. In the process of classifying real-label data, the misjudgment rate of BFNet-V2 reduces by 70.09%,57.98%,58.36% and 10.70%, respectively. The proposed method was compared with eight classification methods including shallow and deep learning methods, and the accuracies on three datasets increase by more than 1.33%. The proposed method can realize automatic classification of tabular data and improve the efficiency and accuracy of customs risk control.
Convolutional Neural Network (CNN); analog image; adaptive moment estimation; customs; risk control
This work is partially supported by Innovative Talents Support Program of Sichuan Science and Technology Department (2020JDR0330).
WANG Zhenggang, born in 1984, Ph. D. candidate, senior engineer. His research interests include computer software and theory, artificial intelligence.
LIU Zhong, born in 1968, Ph. D., research fellow. His research interests include computer software and theory, machine certification.
JIN Jin,born in 1988, Ph. D., lecturer. Her research interests include artificial intelligence, parallel computing.
LIU Wei, born in 1968, M. S., professor of engineering. Her research interests include database, data mining.
TP391.1
A
1001-9081(2023)12-3955-10
10.11772/j.issn.1001-9081.2022121873
2022?12?21;
2023?03?01;
2023?03?08。
四川省科技廳創(chuàng)新人才支持計(jì)劃項(xiàng)目(2020JDR0330)。
王正剛(1984—),男,四川成都人,高級(jí)工程師,博士研究生,主要研究方向:計(jì)算機(jī)軟件與理論、人工智能;劉忠(1968—),男,四川樂山人,研究員,博士生導(dǎo)師,博士,主要研究方向:計(jì)算機(jī)軟件與理論、機(jī)器證明;金瑾(1988—),女,四川成都人,講師,博士,CCF會(huì)員,主要研究方向:人工智能、并行計(jì)算;劉偉(1968—),女,四川成都人,正高級(jí)工程師,碩士,主要研究方向:數(shù)據(jù)庫、數(shù)據(jù)挖掘。