金瑾 劉偉 王正剛 巫家敏 李波
摘 ?要:為了適應(yīng)當(dāng)前新的外貿(mào)形勢,海關(guān)監(jiān)管部門需要不斷強(qiáng)化風(fēng)險(xiǎn)防控管理。本文通過調(diào)研分析當(dāng)前海關(guān)風(fēng)險(xiǎn)防控中的重難點(diǎn)問題,借助最新的大數(shù)據(jù)和人工智能技術(shù),改進(jìn)風(fēng)險(xiǎn)防控管理流程,本文提出通過將海關(guān)報(bào)關(guān)單數(shù)據(jù)進(jìn)行二維化表示,用現(xiàn)有的深度學(xué)習(xí)架構(gòu)進(jìn)行訓(xùn)練,從而得出風(fēng)險(xiǎn)評估結(jié)果。這種方法相比于傳統(tǒng)的人工方法能夠有效提高通關(guān)時(shí)效。實(shí)驗(yàn)驗(yàn)證了這種方法在風(fēng)險(xiǎn)防控中的有效性。本文提出的方法也可以被通用于多字段表格數(shù)據(jù)的處理問題。
關(guān)鍵詞:大數(shù)據(jù);人工智能;風(fēng)險(xiǎn)防控;提質(zhì)增效
中圖分類號:TP183 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Research on Intelligent Risk Control in the Customs
JIN Jin1, LIU Wei2, WANG Zhenggang2, WU Jiamin2, LI Bo2
(1.Chengdu Neusoft University, Chengdu 611844, China;
2.Chengdu Customs of the People's Republic of China, Chengdu 610041, China)
jinjin@nsu.edu.cn; 45711577@qq.com; wangzgxs@outlook.com;
WuJiamin@nsu.edu.cn; li-bo@nsu.edu.cn
Abstract: In view of new development of foreign trade, the Customs have to strengthen the risk control. This paper uses the latest big data and artificial intelligence technology to improve the risk control management process, through analyzing the key issues within current Customs. This paper proposes a framework to assess risks by deep learning algorithms with two-dimensionally presented Customs declaration data. Compared with traditional manual methods, this method effectively improves the time-efficiency of Customs clearance. The proposed approach can be applied to processing multi-field table data and is verified to be effective.
Keywords: big data; artificial intelligence; risk control; improvement of quality and efficiency
1 ? 引言(Introduction)
海關(guān)查驗(yàn)是海關(guān)管理部門維護(hù)國門安全和依法征稅,打擊走私的重要環(huán)節(jié),是保障進(jìn)出口貿(mào)易安全不可或缺的手段[1]。一方面由于進(jìn)出口貨物貿(mào)易的數(shù)量龐大,種類繁多,海關(guān)監(jiān)管部門不可能做到面面俱到,而且覆蓋所有商品的風(fēng)險(xiǎn)狀況對關(guān)員也是一個(gè)巨大的挑戰(zhàn)。另一方面隨著國際貿(mào)易的飛速發(fā)展,進(jìn)出口貨物貿(mào)易的海量查驗(yàn)任務(wù)和海關(guān)人力資源不足的矛盾凸顯[2]。
當(dāng)下,大數(shù)據(jù)技術(shù)的飛速發(fā)展最終將引領(lǐng)人類社會(huì)邁進(jìn)智能型社會(huì)的新形態(tài)。海關(guān)風(fēng)險(xiǎn)防控已經(jīng)開始由傳統(tǒng)人工分析向風(fēng)險(xiǎn)模型評估分析和智能化分析方式轉(zhuǎn)變[3]。我們設(shè)計(jì)的風(fēng)險(xiǎn)判別模式有別于傳統(tǒng)風(fēng)險(xiǎn)判別模式,需要借助CNN對歷史單證進(jìn)行參數(shù)學(xué)習(xí),形成對輸入模型的單證進(jìn)行風(fēng)險(xiǎn)判別,最后提交給風(fēng)險(xiǎn)布控人員進(jìn)行具體操作,實(shí)現(xiàn)計(jì)算機(jī)輔助風(fēng)險(xiǎn)布控作業(yè)模式。
2 ?成都海關(guān)風(fēng)險(xiǎn)防控面臨的挑戰(zhàn)(Challenges faced by Chengdu Customs in risk control)
2.1 ? 智能化風(fēng)險(xiǎn)分析探索不夠
目前海關(guān)風(fēng)險(xiǎn)防控管理流程為人為地提取近期全國海關(guān)風(fēng)險(xiǎn)信息數(shù)據(jù),結(jié)合基貨物歷史報(bào)關(guān)單和艙單數(shù)據(jù)來進(jìn)行風(fēng)險(xiǎn)評估分析,一方面,在整個(gè)流程中數(shù)據(jù)共享存在一些壁壘,沒有完全實(shí)現(xiàn)各類單證數(shù)據(jù)的共用共享,風(fēng)險(xiǎn)分析人員很難從宏觀角度全面把握貨物貿(mào)易的整體風(fēng)險(xiǎn)[4]。另一方面,過分依賴人工分析判斷容易產(chǎn)生以下三個(gè)方面的問題:一是人與人之間存在思維、判斷等方面的差異,在風(fēng)險(xiǎn)分析和判別的過程中,不可避免的摻雜人為因素,無法做到統(tǒng)一標(biāo)準(zhǔn)實(shí)施風(fēng)險(xiǎn)管理和布控;二是需要從事風(fēng)險(xiǎn)判別的關(guān)員具備豐富的風(fēng)險(xiǎn)分析經(jīng)驗(yàn),以保證風(fēng)險(xiǎn)分析和布控的準(zhǔn)確度,才能確保一定水平的查獲率;三是人工判別效率不高,難以滿足海量貨物通關(guān)的需要,各級政府要求貨物通關(guān)提速和違法商品輸入風(fēng)險(xiǎn)增加的矛盾很難通過現(xiàn)有風(fēng)險(xiǎn)分析判別流程加以解決[5]。
2.2 ? 外貿(mào)交易新態(tài)勢導(dǎo)致風(fēng)險(xiǎn)防控的難度增大
有效地全供應(yīng)鏈風(fēng)險(xiǎn)識(shí)別、預(yù)警系統(tǒng),能夠準(zhǔn)確判斷貿(mào)易中面臨的風(fēng)險(xiǎn),可以幫助海關(guān)有效監(jiān)管,對風(fēng)險(xiǎn)做出正確預(yù)測、識(shí)別、判斷風(fēng)險(xiǎn)級別,以制定相應(yīng)的策略,避免損失的發(fā)生,將風(fēng)險(xiǎn)損失降低到最低。目前,國內(nèi)外關(guān)于供應(yīng)鏈風(fēng)險(xiǎn)的研究已經(jīng)取得一定的成果,一些定量研究也運(yùn)用到了供應(yīng)鏈之中,然而供應(yīng)鏈風(fēng)險(xiǎn)識(shí)別、預(yù)警問題方面的研究方法單一,定性研究居多,定量研究不足,研究過程中存在大量的人為主觀因素。
2.3 ? 數(shù)據(jù)分析的時(shí)效性和可視化程度不高
現(xiàn)階段,開展風(fēng)險(xiǎn)防控分析工作使用的數(shù)據(jù)來源較為單一、相關(guān)數(shù)據(jù)和信息相對缺乏、數(shù)據(jù)挖掘和展示工具還需加強(qiáng)。風(fēng)險(xiǎn)管理和分析工作仍然沒有擺脫人工調(diào)取所需數(shù)據(jù)、簡單圖表描述趨勢的傳統(tǒng)模式,離大數(shù)據(jù)時(shí)代的智能化分析目標(biāo)存在一定差距。在當(dāng)前經(jīng)濟(jì)全球化趨勢和國際市場瞬息萬變的形勢下,實(shí)時(shí)和準(zhǔn)確的大數(shù)據(jù)分析有利于更快地發(fā)現(xiàn)問題并迅速作出響應(yīng),提高對進(jìn)出口市場和商品分析的時(shí)效性顯得尤為必要。
3 ?智慧風(fēng)控平臺(tái)的主要功能設(shè)計(jì)(Basic functionality of an intelligent risk management platform)
智能化風(fēng)險(xiǎn)防控流程,需要測試不同算法流程在報(bào)關(guān)數(shù)據(jù)風(fēng)險(xiǎn)值判別方面的優(yōu)劣,本文設(shè)計(jì)的表格數(shù)據(jù)風(fēng)險(xiǎn)值自動(dòng)判別流程能夠完成海關(guān)報(bào)關(guān)數(shù)據(jù)風(fēng)險(xiǎn)自動(dòng)識(shí)別。本節(jié)介紹的模型致力于將人工風(fēng)險(xiǎn)判別流程智能化,實(shí)現(xiàn)海關(guān)報(bào)關(guān)數(shù)據(jù)風(fēng)險(xiǎn)智能化判定。風(fēng)險(xiǎn)防控智慧分析平臺(tái)(以下稱智慧分析平臺(tái))具備提升風(fēng)險(xiǎn)防控智慧分析的能力。首先需要利用自然語言處理(Word Embedding)算法將來自各種渠道的情況通報(bào)信息進(jìn)行初步收集和加工,建立描述性信息的文本特征向量數(shù)據(jù)庫,利用無監(jiān)督聚類算法對數(shù)據(jù)庫中具有參考價(jià)值的特征向量進(jìn)行記錄和聚類分析,得出情況通報(bào)中代表不同國別、產(chǎn)地、數(shù)量等重要文字和數(shù)字信息的類別簇,分析有價(jià)值的敏感高頻風(fēng)險(xiǎn)信息并賦予不同的權(quán)重值,作為神經(jīng)網(wǎng)絡(luò)模型的輸入信息對后續(xù)報(bào)關(guān)單分類產(chǎn)生作用。然后通過搭建使用的神經(jīng)網(wǎng)絡(luò)模型對歷史報(bào)關(guān)單數(shù)據(jù)和貨物查驗(yàn)結(jié)果進(jìn)行多批次訓(xùn)練,最終達(dá)到能自動(dòng)識(shí)別報(bào)關(guān)單、艙單等單證風(fēng)險(xiǎn)的等級,并按照特定的模板輸出貨物的分析報(bào)告,最后由分析人員對其進(jìn)行更高層級的風(fēng)險(xiǎn)判斷,得出某一時(shí)間段、某種商品的風(fēng)險(xiǎn)指數(shù),形成一種新的海關(guān)智慧風(fēng)險(xiǎn)防控流程。在節(jié)省大量人力成本的同時(shí),提高貨物貿(mào)易風(fēng)險(xiǎn)甄別的準(zhǔn)確性,提升口岸現(xiàn)場高危商品的查獲率。
3.1 ? 報(bào)關(guān)單數(shù)據(jù)風(fēng)險(xiǎn)值標(biāo)注
我們的數(shù)據(jù)集包含三種進(jìn)口商品近五年13078條數(shù)據(jù),實(shí)驗(yàn)過程采用隨機(jī)抽取10000條數(shù)據(jù)作為訓(xùn)練集,另外3078條數(shù)據(jù)作為驗(yàn)證集。參與風(fēng)險(xiǎn)值標(biāo)注的人員均由經(jīng)驗(yàn)豐富的一線關(guān)員擔(dān)任,關(guān)員根據(jù)各方面通報(bào)信息為每一條報(bào)關(guān)單數(shù)據(jù)賦予一定的風(fēng)險(xiǎn)等級數(shù)據(jù)作為每條數(shù)據(jù)的標(biāo)簽。風(fēng)險(xiǎn)等級分為10個(gè)等級,從低到高分別為1—10。
3.2 ? 報(bào)關(guān)單數(shù)據(jù)清洗和二維化
近年來,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、識(shí)別、分割等領(lǐng)域的應(yīng)用已經(jīng)相當(dāng)成熟,涌現(xiàn)出如Resnet[6]、U-net[7]等優(yōu)秀的網(wǎng)絡(luò)結(jié)構(gòu)。圖像主要分為灰度圖像和色彩圖像,灰度圖像就是二維矩陣,每個(gè)像素點(diǎn)的值的范圍在0—255,彩色圖像可以由RGB、HSV方式分解為三個(gè)不同的像素矩陣。
原始報(bào)關(guān)單數(shù)據(jù)包含申報(bào)日期、運(yùn)輸方式、貿(mào)易國別、提運(yùn)單號等71個(gè)字段信息,其中包含數(shù)字,漢字英文字母。必須設(shè)置數(shù)據(jù)字典將數(shù)據(jù)轉(zhuǎn)化為CNN能夠識(shí)別的編碼。有字符串、浮點(diǎn)、時(shí)間類型的數(shù)據(jù)對于時(shí)間格式的數(shù)據(jù)提取相關(guān)年份,浮點(diǎn)類型數(shù)據(jù)中有小數(shù)的列進(jìn)行四舍五入,如果有缺失值則全填充0。
具體編碼方式為:
根據(jù)列名遍歷每一列,判斷每列數(shù)據(jù)類型:
(1)如果是str類型,直接去重,按索引編號。
(2)如果是float或者int類型數(shù)據(jù),當(dāng)這一列中存在某一個(gè)值大于255,則對這一列數(shù)去重,再按照索引進(jìn)行編碼,否則不處理。
編碼過程中,報(bào)關(guān)單數(shù)據(jù)有上萬條,有超過圖像像素0—255的情況,此時(shí)我們采用RGB三通道編碼,三通道編碼存在256×256×256=16777216種不同的情況,可以基本滿足數(shù)據(jù)集編碼要求。
每條數(shù)據(jù)的自動(dòng)編碼完成后,執(zhí)行數(shù)據(jù)轉(zhuǎn)置,實(shí)現(xiàn)每條數(shù)據(jù)的二維化,相當(dāng)于將一個(gè)向量轉(zhuǎn)置為一個(gè)矩陣。這樣所有的一維數(shù)據(jù)轉(zhuǎn)換成為二維圖像數(shù)據(jù)。
3.3 ? 轉(zhuǎn)置數(shù)據(jù)輸入網(wǎng)絡(luò)完成參數(shù)訓(xùn)練
為實(shí)現(xiàn)較好的報(bào)關(guān)單數(shù)據(jù)智能化風(fēng)險(xiǎn)識(shí)別,我們采用近年來在圖像分類中成熟運(yùn)用的幾種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實(shí)現(xiàn)對比,分別是殘差網(wǎng)絡(luò)(Resnet)、U網(wǎng)絡(luò)(U-Net)、Incentive-V3[8]三種網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)驗(yàn)的環(huán)境為Python,實(shí)驗(yàn)的參數(shù)為Tensorflow默認(rèn)參數(shù)。實(shí)驗(yàn)通過對比選用最適合報(bào)關(guān)單數(shù)據(jù)智能化風(fēng)險(xiǎn)識(shí)別的結(jié)構(gòu)作為智慧平臺(tái)報(bào)關(guān)單數(shù)據(jù)風(fēng)險(xiǎn)分析的神經(jīng)網(wǎng)絡(luò)模型。
(1)Resnet
殘差網(wǎng)絡(luò)是由一系列殘差塊組成的。一個(gè)殘差塊可以用表示為:
(1)
殘差塊分成兩部分直接映射部分和殘差部分,其中是直接映射;是殘差部分,一般由兩個(gè)或者三個(gè)卷積操作構(gòu)成。
在卷積網(wǎng)絡(luò)中,可能和的特征圖的數(shù)量不一樣,這時(shí)候就需要使用1×1卷積進(jìn)行升維或者降維。
(2)U-net
U-net是2015年提出的,U-net將輸入進(jìn)行2次3×3的卷積操作之后,進(jìn)行一次2×2的最大池化,同時(shí)卷積核數(shù)目翻倍(1-64-128-256-512-1024),進(jìn)行四次這樣的下降操作,然后2次3×3卷積,取一半的卷積核進(jìn)行上采樣(轉(zhuǎn)置卷積),再剪切對應(yīng)下降層的特征圖像,和上采樣得到的特征圖像拼接在一起,然后重復(fù)這樣的過程。最后輸出是深度為n個(gè)特征圖像,進(jìn)行分類。
U-Net這個(gè)網(wǎng)絡(luò)可以應(yīng)對小樣本的數(shù)據(jù)集進(jìn)行較快、有效地分割,能夠泛化到很多應(yīng)用場景中去。
(3)Inception_V3
這里對整個(gè)Inception-V3結(jié)構(gòu)體系結(jié)構(gòu)做如下介紹:從輸入端開始,先有三個(gè)卷積層,然后是一個(gè)池化層。然后又是兩個(gè)卷積層,一個(gè)池化層。緊接著用不同數(shù)量的卷積層進(jìn)行并行卷積,每一套卷積層之間均用連接層(紫色)進(jìn)行連接,為了防止網(wǎng)絡(luò)過擬合,網(wǎng)絡(luò)的后端還添加了丟包層(淺藍(lán)色)。
3.4 ? 實(shí)驗(yàn)結(jié)果對比
我們設(shè)置不同的超參數(shù)對比各個(gè)CNN結(jié)構(gòu)在報(bào)關(guān)數(shù)據(jù)集上的分類識(shí)別效果和網(wǎng)絡(luò)訓(xùn)練時(shí)間。三種結(jié)構(gòu)均選用相同的32個(gè)卷積層,在不同輪次(2000,5000,10000)下的Top1及Top5正確率對比分別記錄在表1、表2和表3中。
由表1的結(jié)果可知,在訓(xùn)練輪次為2000時(shí),正確率最高的網(wǎng)絡(luò)模型為Inception-V3,但是該模型訓(xùn)練的時(shí)長比Resnet和U-net較長。同樣表2和表3的結(jié)果與表1相近,隨著訓(xùn)練輪次的增加,三種模型的準(zhǔn)確率均有較明顯的提升,但是訓(xùn)練時(shí)長也相應(yīng)地增加。但是相對于純?nèi)斯さ牟轵?yàn),這個(gè)時(shí)間是在可以接受的范圍內(nèi)的。而海關(guān)查驗(yàn)對準(zhǔn)確率要求相對較高。
通過多輪實(shí)驗(yàn)對比和對實(shí)際問題的考慮,智慧平臺(tái)選用Inception-V3結(jié)構(gòu)作為報(bào)關(guān)單數(shù)據(jù)智能化風(fēng)險(xiǎn)識(shí)別的驗(yàn)證結(jié)構(gòu)。將訓(xùn)練好的參數(shù)應(yīng)用到識(shí)別過程,將輸入報(bào)關(guān)單進(jìn)行報(bào)關(guān)單數(shù)據(jù)編碼和二維化以后,輸入網(wǎng)絡(luò),得出當(dāng)前報(bào)關(guān)單數(shù)據(jù)的風(fēng)險(xiǎn)值,為口岸現(xiàn)場關(guān)員提供某一票貨物的直觀參考,省去大量人工分析過程,提升海關(guān)口岸查貨率。
4 ? 結(jié)論(Conclusion)
面對新形勢、新要求,海關(guān)風(fēng)險(xiǎn)防控應(yīng)積極應(yīng)對大數(shù)據(jù)帶來的各種新挑戰(zhàn),充分發(fā)揮海關(guān)風(fēng)險(xiǎn)防控應(yīng)用大數(shù)據(jù)的社會(huì)價(jià)值。本文探索了一種智能化的風(fēng)險(xiǎn)防控方法,該方法將海關(guān)的報(bào)關(guān)單數(shù)據(jù)通過數(shù)據(jù)轉(zhuǎn)換,變?yōu)槎S數(shù)據(jù)。從而可以將二維數(shù)據(jù)應(yīng)用于現(xiàn)階段較為成熟的CNN結(jié)構(gòu),CNN強(qiáng)大的分類處理能力為風(fēng)險(xiǎn)防控提供支撐。初步的實(shí)驗(yàn)表明,Inception-V3結(jié)構(gòu)作為報(bào)關(guān)單數(shù)據(jù)智能化風(fēng)險(xiǎn)識(shí)別的驗(yàn)證結(jié)構(gòu)是一種較好的選擇,驗(yàn)證了本文所提方法對于風(fēng)險(xiǎn)防控的
有效性。本文的方法也為多字段表格類數(shù)據(jù)的處理提供了一種較為新穎的選擇。
參考文獻(xiàn)(References)
[1] 劉奇超,彭城.京津冀海關(guān)區(qū)域通關(guān)一體化取向:由歐盟海關(guān)風(fēng)險(xiǎn)管理觀察[J].改革,2014(010):92-101.
[2] 魏毅斐.對我國海關(guān)風(fēng)險(xiǎn)管理機(jī)制的思考[J].河南商業(yè)高等??茖W(xué)校學(xué)報(bào),2013(03):26-28.
[3] 李新民,徐倩,陶黎,等.國外海關(guān)風(fēng)險(xiǎn)管理的經(jīng)驗(yàn)及對我國海關(guān)的啟示[J].上海海關(guān)學(xué)院學(xué)報(bào),2013(4):56-62.
[4] 丁煥苗.試論海關(guān)管理風(fēng)險(xiǎn)的防控[J].海關(guān)與經(jīng)貿(mào)研究,2014,035(005):59-65.
[5] 盧金秋.人工神經(jīng)網(wǎng)絡(luò)在海關(guān)風(fēng)險(xiǎn)管理中的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2006(27):212-215.
[6] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770-778.
[7] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]. International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.
[8] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 2818-2826.
作者簡介:
金 ?瑾(1988-),女,碩士,講師.研究領(lǐng)域:人工智能,大數(shù)據(jù).
劉 ?偉(1969-),女,本科,工程師.研究領(lǐng)域:人工智能,信息系統(tǒng).
王正剛(1982-),男,碩士,工程師.研究領(lǐng)域:人工智能,信息系統(tǒng).
巫家敏(1976-),男,博士,教授.研究領(lǐng)域:人工智能,大數(shù)據(jù).
李 ?波(1981-),男,博士,副教授.研究領(lǐng)域:人工智能,大數(shù)據(jù).