羅琴濤 張宗平 羅宇平 胡琳子 梁軍峰 梁志明
(1.廣州海關(guān)信息中心 廣東 廣州 510623;2.中國電子口岸數(shù)據(jù)中心廣州分公司;3.佛山海關(guān)綜合技術(shù)服務(wù)中心)
跨境電商類商品不同于一般貿(mào)易商品,因其申報數(shù)據(jù)的自主性,進出境郵件具有數(shù)量多、來源復(fù)雜及溯源信息少等特點,易存在貨證不相符的問題,給海關(guān)日常監(jiān)管帶來嚴峻挑戰(zhàn)。本文嘗試構(gòu)建“跨境郵寄物預(yù)警模型”,對跨境風(fēng)險進出境郵件進行有效監(jiān)控,以幫助相關(guān)人員甄別進出境風(fēng)險郵寄物,降低開箱檢查的人工和時間成本,切實提高口岸的監(jiān)管能力。
本文將進出境郵件的數(shù)量、重量、價值、稅額、寄遞渠道、收寄件局、收寄件人信息作為風(fēng)險預(yù)警模型的參考變量,以信息化為依托,以郵寄用戶申報數(shù)據(jù)、互聯(lián)網(wǎng)采集數(shù)據(jù)、海關(guān)平臺數(shù)據(jù)為基礎(chǔ),通過核對、比較、分析進出境郵件的特征和指標,及時發(fā)現(xiàn)異常,尋找風(fēng)險點,從多方面識別郵寄風(fēng)險情況。
風(fēng)險預(yù)警模型的建立分為3步[1]:(1)對數(shù)據(jù)進行科學(xué)化地預(yù)處理。收集進出境郵件安全風(fēng)險源數(shù)據(jù)、綜合管理平臺源數(shù)據(jù)、個人相關(guān)信用數(shù)據(jù)、全球疫情數(shù)據(jù);整合不同系統(tǒng)的信息,分析形成各類有價值的數(shù)據(jù)情報,并篩選重要影響因素作為變量。(2)建立風(fēng)險預(yù)警模型。根據(jù)預(yù)處理得到的變量及其對應(yīng)的數(shù)據(jù)進行模型演練,尋找數(shù)據(jù)的規(guī)律和特征,選擇合適的模型;該模型涉及的機器學(xué)習(xí)模型是區(qū)分于回歸的二分類模型,常用的二分類機器學(xué)習(xí)算法[2]有邏輯回歸模型、鄰近模型。(3)對已建好的模型進行風(fēng)險評估。比對邏輯回歸模型[3]和鄰近模型[4]的分類報告,對2種不同的模型預(yù)測結(jié)果進行分析,得出準確度較高的模型,并選擇該模型作為預(yù)測的最終決策。
本文通過對進出境郵件數(shù)據(jù)進行分析,分析進出境郵件的風(fēng)險特征與“人、路、物”這三者相關(guān),“人”即收件人信息和寄件人信息;“路”即郵件寄件的境外地區(qū)和收件的境內(nèi)地區(qū);“物”即郵件的特征。在模型方面的思路確定需要訓(xùn)練的變量,進出境郵件的寄遞渠道、收寄件局、收寄件人姓名、進出境郵件重量、進出境郵件稅額、進出境郵件價值、進出境郵件數(shù)量、驗放指令。并且通過逐步的模型篩選最終得出采用郵件種類、郵件總重量、申報人民幣總價、郵件人民幣的總價值、行郵稅稅率、完稅價格。
圖1 跨境郵寄物風(fēng)險預(yù)警模型思路
根據(jù)實際情況,建立跨境進出境郵件風(fēng)險預(yù)警模型需要進行樣本不均勻處理、數(shù)據(jù)清洗、數(shù)據(jù)分析、建立邏輯回歸模型、建立鄰近模型、模型結(jié)果比對優(yōu)化等過程。
在源數(shù)據(jù)方面,需要通過數(shù)據(jù)處理將郵件名稱和收件地址翻譯成中文,并對省、市、區(qū)縣進行排列,以便提取相關(guān)字段,這2個變量需要較多的人工清洗和數(shù)據(jù)處理。
通過可視化庫,可以先簡單地對歷史情況進行匯總,進出境郵件勢可分為有風(fēng)險和無風(fēng)險這2類。因為只有極少數(shù)進出境郵件是有風(fēng)險的,分析得到的風(fēng)險進出境郵件占比5%~10%,見圖2。出現(xiàn)樣本不均衡,會導(dǎo)致樣本量少的分類所包含的特征過少,很難從中提取規(guī)律,即使得到分類模型,也容易產(chǎn)生因過度依賴于有限的數(shù)量樣本而導(dǎo)致過擬合問題[4]。
圖2 跨境郵寄物查驗結(jié)果情況
在機器學(xué)習(xí)中,當(dāng)原始數(shù)據(jù)的分類極不均衡時,需要對其進行處理,下采樣是處理方法之一,即從多數(shù)類中隨機抽取樣本以減少多數(shù)類樣本的數(shù)量,使數(shù)據(jù)達到平衡。因此,為解決樣本不均衡的問題,應(yīng)采用下采樣5,并通過下采樣后達到樣本均勻,見圖3。
圖3 跨境郵寄物查驗結(jié)果下采樣處理
邏輯回歸是用于處理因變量為分類變量的回歸問題,屬于一種分類方法,常見的是二分類或二項分布問題,也可以處理多分類問題。二分類問題的概率與自變量之間的關(guān)系圖形通常為S型曲線,見圖4,采用Sigmoid函數(shù)[5]實現(xiàn)。
圖4 二分類問題的概率與自變量之間的關(guān)系
邏輯回歸模型定義為:
在邏輯回歸算法中,邏輯回歸模型在Sklearn.linear_model子類下,調(diào)用sklearn邏輯回歸算法步驟為:(1)導(dǎo)入模型。調(diào)用邏輯回歸Logistic Regression()函數(shù)。(2)fit()訓(xùn)練。調(diào)用fit(x,y)方法訓(xùn)練模型,x為數(shù)據(jù)屬性,y為所屬類型。(3)predict()預(yù)測。利用訓(xùn)練得到的模型,對數(shù)據(jù)集進行預(yù)測,返回預(yù)測結(jié)果。
處理樣本數(shù)據(jù)后,隨機抽取50 000條數(shù)據(jù)進行邏輯回歸建模,調(diào)取sklearn機器學(xué)習(xí)數(shù)據(jù)包,根據(jù)自變量對最終預(yù)測結(jié)果的關(guān)聯(lián)性及采集數(shù)據(jù)的可行性,自變量需采用可量化的定量數(shù)據(jù)。采用回歸分析,得出郵件種類、郵件總重量、申報人民幣總價、郵件人民幣的總價值、行郵稅稅率、完稅價格為模型的自變量,驗放指令為因變量。
由表1可知,邏輯回歸預(yù)測的整體準確率為96.1%,該模型的準確度主要集中于無風(fēng)險進出境郵件的預(yù)測,在風(fēng)險進出境郵件的預(yù)測方面,誤判1 929個,正確判斷11個。
表1 邏輯回歸預(yù)測分類表
由表2可知,邏輯回歸方程為:
表2 邏輯回歸方程中的變量
logit(p)=1.9144×郵件種類+0.0562×郵件總重量-0.0002×申報人民幣總價+0.0008×郵件人民幣的總價值+4.4249×行郵稅稅率-0.0020×完稅價格-4.2162
自變量的系數(shù)顯著性均<0.05,變量通過假設(shè)性檢驗,模型可用。
KNN(K-Nearest Neighbor)法即K最鄰近法,最初由Cover和Hart于1968年提出,是最簡單的機器學(xué)習(xí)算法之一,思路簡單直觀:若一個樣本在特征空間中的K個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,即在定類決策方面,只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
KNN分類算法包括4個步驟:(1)準備數(shù)據(jù),對數(shù)據(jù)進行預(yù)處理。(2)計算測試樣本點(即待分類點)至其他每個樣本點的距離。(3)對每個距離進行排序后,選出距離最小的K個點。(4)對K個點所屬的類別進行比較,根據(jù)少數(shù)服從多數(shù)原則,將測試樣本點歸入在K個點中占比最高的一類。
KNN算法的優(yōu)勢是依據(jù)k個對象中占優(yōu)的類別進行決策,且KNN將對象間距離作為各個對象之間的非相似性指標,避免對象之間的匹配問題,計算距離通常使用歐氏距離或曼哈頓距離:
結(jié)合本次跨境進出境郵件風(fēng)險預(yù)測情況,建立風(fēng)險預(yù)測KNN模型,由于數(shù)據(jù)量較大,故隨機抽取50 000條數(shù)據(jù)進行建模。調(diào)取sklearn機器學(xué)習(xí)數(shù)據(jù)包,采用回歸分析,得出郵件種類、郵件總重量、申報人民幣總價、郵件人民幣的總價值、行郵稅稅率、完稅價格為自變量,驗放指令為因變量。
KNN模型在6個自變量形成的6個維度空間的預(yù)測點及其分類情況見圖5,可知在6個維度上,根據(jù)數(shù)據(jù)模型的演練可判斷進出境郵件的風(fēng)險分類。
圖5 KNN模型在6個自變量形成的6個維度空間的預(yù)測點及其分類情況
鄰近模型預(yù)測的整體準確率相對于邏輯回歸的準確度較低,該模型準確度主要集中于無風(fēng)險進出境郵件的預(yù)測,在風(fēng)險進出境郵件的預(yù)測上,誤判1 934個,正確判斷6個,見表3。
表3 KNN模型預(yù)測分類表
本文通過對邏輯回歸模型和鄰近模型的結(jié)果進行比較分析,發(fā)現(xiàn)邏輯回歸模型的擬合效果較好,且準確度和命中率較高。探索研究跨境郵寄風(fēng)險模型是一個復(fù)雜的系統(tǒng)性工作,需結(jié)合相關(guān)人員和專家的意見選擇計算方法模型,盡可能涵蓋各種特殊場景,可運用大數(shù)據(jù)機器學(xué)習(xí)進行建模并評估其準確性。
今后會持續(xù)對跨境郵寄風(fēng)險模型進行績效評價,定時抽查分析預(yù)警數(shù)據(jù)的準確度、驗證模型的適用性,及時發(fā)現(xiàn)和反饋需要調(diào)整或修正的事項。對預(yù)測結(jié)果與實際結(jié)果存在較大差異的信息開展專項審核,分析模型的不足之處,持續(xù)修正及優(yōu)化,以適應(yīng)復(fù)雜業(yè)務(wù)場景的需求。