[摘 要]隨著物流行業(yè)的迅猛發(fā)展和電子商務(wù)的廣泛普及,煙草專賣寄遞渠道的監(jiān)管面臨著較大的挑戰(zhàn)。傳統(tǒng)的信息采集和研判方法已無法滿足高效、準確查處案件的需求。為了應(yīng)對這一挑戰(zhàn),文章基于STR技術(shù)構(gòu)建了煙草專賣寄遞涉煙信息智能采集與研判平臺,以提高案件查處的效率和準確性。
[關(guān)鍵詞]場景文本識別;寄遞涉煙;采集;研判
[中圖分類號]TP391.41 [文獻標志碼]A [文章編號]2095–6487(2024)12–0003–03
Construction of an Intelligent Collection and Analysis Platform for Tobacco Related Information Based on STR
FU Qiang,QIU Chaojun,XIE Xiaojun
[Abstract]With the rapid development of the logistics industry and the widespread popularity of e-commerce, the supervision of tobacco monopoly delivery channels is facing significant challenges. The traditional methods of information collection and analysis can no longer meet the needs of efficient and accurate investigation and handling of cases. In order to address this challenge, the article constructed an intelligent collection and analysis platform for tobacco monopoly consignment and delivery related tobacco information based on STR technology, in order to improve the efficiency and accuracy of case investigation and handling.
[Keywords]scene text recognition; sending and delivering cigarettes; collection; analysis and judgment
1 煙草專賣寄遞涉煙案件查處的重要性
1.1 維護市場秩序,保障國家稅收與經(jīng)濟安全
煙草行業(yè)作為國民經(jīng)濟的重要組成部分,其健康穩(wěn)定發(fā)展對于國家經(jīng)濟的繁榮具有重要意義。然而,非法寄遞煙草制品的行為,嚴重擾亂了市場秩序,破壞了公平競爭的環(huán)境,對合法煙草企業(yè)的正常經(jīng)營造成了巨大沖擊。通過查處涉煙案件,可以防止稅收流失,保障國家稅收的穩(wěn)定增長,維護國家經(jīng)濟安全。
1.2 保護消費者權(quán)益,確保煙草制品的質(zhì)量與安全
消費者作為市場的主體,其合法權(quán)益應(yīng)得到充分保障。然而,非法寄遞煙草制品的行為通常伴隨著假冒偽劣、以次充好等問題,給消費者的健康和安全帶來了嚴重威脅。通過查處涉煙案件,可以阻止不合格煙草制品流入市場,防止消費者購買到假冒偽劣產(chǎn)品,從而保障消費者的權(quán)益。
2 煙草專賣寄遞涉煙案件查處面臨的難題
2.1 寄遞面單信息采集工作強度大
(1)寄遞面單數(shù)量龐大,需要耗費大量的人力物力進行采集。隨著電子商務(wù)的迅猛發(fā)展,寄遞業(yè)務(wù)呈現(xiàn)出爆發(fā)式增長,利用物流寄遞渠道非法運輸卷煙的情況也隨之大幅增加。這些寄遞面單分散在各個物流站點和快遞公司,需要執(zhí)法人員逐一進行查找、提取和登記,工作量巨大。
(2)寄遞面單信息復(fù)雜多樣,需要專業(yè)的知識和技能進行識別。寄遞面單上包含發(fā)件人、收件人、地址、電話、物流單號等大量信息,這些信息需要執(zhí)法人員逐一核對、比對和確認。由于信息種類繁多、格式不一,且可能存在偽造、篡改等情況,因此需要執(zhí)法人員具備較高的專業(yè)素養(yǎng)和技能水平。
(3)寄遞面單信息采集工作需要在有限的時間內(nèi)完成,以應(yīng)對案件查處的緊迫性。涉煙案件通常具有一定的時效性,需要執(zhí)法人員迅速鎖定嫌疑人和涉案物品,以便及時開展調(diào)查取證工作。因此,寄遞面單信息采集工作需要在短時間內(nèi)高效完成,這對于執(zhí)法人員的工作能力和工作強度都提出了很高的要求。
2.2 寄遞面單信息采集效率較低
(1)傳統(tǒng)的信息采集方式效率低下。傳統(tǒng)的信息采集方式主要依靠執(zhí)法人員逐一查找、提取和登記寄遞面單信息,這種方式效率低下且易出錯。特別是在處理大量寄遞面單時,這種方式的弊端更明顯。
(2)信息化水平較低導(dǎo)致信息采集效率低下。目前,一些地區(qū)和部門的煙草專賣寄遞涉煙案件查處工作仍停留在傳統(tǒng)的紙質(zhì)記錄和手工處理階段,未充分利用現(xiàn)代信息技術(shù)手段進行信息采集和處理。這不僅降低了信息采集的效率,也增加了數(shù)據(jù)出錯的風(fēng)險。
(3)缺乏有效的數(shù)據(jù)共享和協(xié)作機制。在煙草專賣寄遞涉煙案件查處過程中,各個部門和單位之間缺乏有效的數(shù)據(jù)共享和協(xié)作機制,導(dǎo)致信息采集和處理的效率低下。一些重要的信息可能由于溝通不暢而遺漏或延誤,影響了案件查處的進度和效果。
2.3 寄遞面單信息采集錯誤較多
(1)人工識別存在誤差。寄遞面單信息采集工作通常需要執(zhí)法人員逐一核對、比對和確認寄遞面單上的信息。然而,由于人工識別存在主觀性和疲勞性等因素,易出現(xiàn)識別錯誤和遺漏等問題。
(2)數(shù)據(jù)錄入和校對存在疏漏。在采集寄遞面單信息過程中,數(shù)據(jù)錄入和校對是關(guān)鍵環(huán)節(jié)。然而,由于人為因素和設(shè)備故障等原因,易出現(xiàn)數(shù)據(jù)錄入錯誤和校對疏漏等問題。這些問題可能導(dǎo)致后續(xù)案件查處工作的偏差和錯誤。
(3)缺乏有效的數(shù)據(jù)審核和驗證機制。一些重要信息可能由于缺乏有效的審核和驗證而被錯誤地采集和處理,進而影響了案件查處的準確性和有效性。
2.4 數(shù)據(jù)研判、預(yù)警不足
除了信息采集所面臨的一系列難題之外,對數(shù)據(jù)的研判效率低、對數(shù)據(jù)的應(yīng)用不充分、難以基于數(shù)據(jù)分析進行智能化的預(yù)警,也是當前煙草專賣寄遞涉煙案件查處面臨的難題。在此情況下,即使是人工采集獲得了準確、全面的信息,也難以體現(xiàn)出這些信息的價值,不能為相關(guān)工作的開展提供及時、準確的依據(jù)和指導(dǎo)。
3 基于STR構(gòu)建煙草專賣寄遞涉煙信息智能采集與研判平臺
3.1 平臺整體架構(gòu)設(shè)計
煙草專賣寄遞涉煙信息智能采集與研判平臺需要整合多種技術(shù),實現(xiàn)數(shù)據(jù)的采集、處理、分析和展示,因此其架構(gòu)應(yīng)具備高度的可擴展性、靈活性和安全性。在整體架構(gòu)上,可采用微服務(wù)架構(gòu),將平臺劃分為多個獨立的服務(wù)單元,包括數(shù)據(jù)采集服務(wù)、數(shù)據(jù)存儲服務(wù)、數(shù)據(jù)預(yù)處理服務(wù)、智能研判服務(wù)、可視化展示服務(wù)和用戶交互服務(wù)等。每個服務(wù)單元都通過API網(wǎng)關(guān)進行通信,實現(xiàn)服務(wù)的解耦和高度可擴展性。同時,需引入消息隊列和分布式緩存等技術(shù),確保數(shù)據(jù)在各個環(huán)節(jié)中的高效流轉(zhuǎn)和緩存,提高平臺的整體性能。此外,為了保障數(shù)據(jù)的安全性,在架構(gòu)中應(yīng)設(shè)計多重安全防護措施,包括數(shù)據(jù)加密、訪問控制、日志審計等。
3.2 數(shù)據(jù)采集與STR技術(shù)應(yīng)用
數(shù)據(jù)采集是平臺的基礎(chǔ)功能之一,而場景文本識別(STR)技術(shù)在這一環(huán)節(jié)中發(fā)揮著關(guān)鍵作用。可以利用STR技術(shù)從寄遞面單圖像中識別和提取關(guān)鍵文本信息,如收/發(fā)件人、電話、收發(fā)地址、單號等。為了提高識別的準確性和效率,應(yīng)采用基于深度學(xué)習(xí)的STR模型,如CRNN或Attention OCR等。這些模型可以結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和連接層(如全連接層或CTC層),處理各種復(fù)雜背景和字體樣式的文本圖像。在數(shù)據(jù)采集過程中,可先通過攝像頭或掃描儀等設(shè)備獲取寄遞面單的圖像,然后將其輸入到STR模型中進行識別。識別結(jié)果經(jīng)過后處理后,得到結(jié)構(gòu)化的文本數(shù)據(jù),為后續(xù)的數(shù)據(jù)預(yù)處理和智能研判奠定基礎(chǔ)。
3.3 數(shù)據(jù)預(yù)處理與特征工程
數(shù)據(jù)預(yù)處理是確保數(shù)據(jù)質(zhì)量和提高模型性能的關(guān)鍵步驟,在這一環(huán)節(jié)中,應(yīng)對采集到的原始數(shù)據(jù)進行清洗、轉(zhuǎn)換和特征提取等操作。先對數(shù)據(jù)進行清洗,去除重復(fù)、無效和錯誤的數(shù)據(jù),再進行數(shù)據(jù)轉(zhuǎn)換,將文本數(shù)據(jù)轉(zhuǎn)換為適合機器學(xué)習(xí)模型處理的數(shù)值型數(shù)據(jù)。例如,可以使用詞袋模型或TF–IDF等方法將文本轉(zhuǎn)換為向量表示。在特征工程方面,從清洗后的數(shù)據(jù)中提取關(guān)鍵特征,以供后續(xù)的智能研判模型使用。這些特征可能包括發(fā)貨地點、收貨地點、寄遞頻率、物品重量、寄遞時間等。通過合理的特征選擇和組合,可以提高模型的預(yù)測性能和準確性。
3.4 印刷體識別
印刷體字符識別技術(shù)是通過自動化手段識別印刷文本的過程,關(guān)鍵步驟包括以下方面。
(1)圖像預(yù)處理,是整個過程的第一步,旨在提高圖像質(zhì)量。先通過二值化技術(shù)將灰度圖像轉(zhuǎn)換為黑白圖像,利用OTSU法等算法將字符和背景分離開。隨后,通過高斯濾波去除部分噪聲,但紙張上的噪點需要通過尋找連通域輪廓的方法來處理,通過設(shè)定面積閾值剔除小面積噪點。
(2)字符分割,即將圖像中的字符逐個分離。行分割通過水平投影計算每行的白點總數(shù),檢測無印刷痕跡的位置,實現(xiàn)按行分割。列分割則通過垂直投影計算每列的白點總數(shù),檢測字符間的間隙,實現(xiàn)按列分割。在行列分割基礎(chǔ)上,還需進行最小圖像分割,使每個字符占滿整個圖片,提高處理效率。
(3)特征提取,是從字符圖像中提取用于識別的關(guān)鍵信息的過程。常見方法包括:①基于統(tǒng)計的特征提取方法,包括邊緣特征、紋理特征和幾何特征等。②基于結(jié)構(gòu)的特征提取,關(guān)注字符的筆畫寬度、方向和連通區(qū)域。③基于深度學(xué)習(xí)的特征提取,主要采用CNN和自編碼器,通過自動提取復(fù)雜特征進行識別。
(4)模式匹配與分類,將提取的特征進行匹配和分類,以識別字符。常見的方法包括:①模板匹配,通過將特征與預(yù)存模板進行匹配,適用于字符集較小且形狀規(guī)范的情況。②統(tǒng)計分類器,包括支持向量機(SVM)、K最近鄰(KNN)和決策樹等。③深度學(xué)習(xí),包括全連接神經(jīng)網(wǎng)絡(luò)(FCNN)、RNN和長短期記憶網(wǎng)絡(luò)(LSTM),這些方法能夠更好地處理復(fù)雜文本和長距離依賴問題。
3.5 智能研判模型的構(gòu)建與優(yōu)化
智能研判模型是平臺的核心部分,負責(zé)對預(yù)處理后的數(shù)據(jù)進行深入分析和挖掘,以發(fā)現(xiàn)潛在的涉煙違法行為。在模型構(gòu)建方面,可采用多種機器學(xué)習(xí)算法進行訓(xùn)練和預(yù)測,如邏輯回歸、SVM、隨機森林和神經(jīng)網(wǎng)絡(luò)等。通過對比不同模型的性能和準確性,再選擇最優(yōu)的模型進行布署。為了進一步提高模型的性能,應(yīng)采用集成學(xué)習(xí)的方法進行模型融合。通過將多個單一模型的預(yù)測結(jié)果進行加權(quán)或投票,可以得到更穩(wěn)健和準確的預(yù)測結(jié)果。此外,還應(yīng)引入時間序列分析技術(shù),對寄遞數(shù)據(jù)進行動態(tài)監(jiān)控和預(yù)警。通過建立時間序列模型,可以分析寄遞數(shù)據(jù)的變化趨勢和周期性特征,及時發(fā)現(xiàn)異常情況并進行預(yù)警。
3.6 可視化展示與交互設(shè)計的實現(xiàn)
可視化展示與交互設(shè)計是提高用戶體驗和工作效率的關(guān)鍵環(huán)節(jié),應(yīng)通過Web前端技術(shù)構(gòu)建直觀的用戶界面,將研判結(jié)果以圖表、地圖等形式展示給執(zhí)法人員。在可視化展示方面,可利用ECharts、Highcharts等圖表庫,將研判結(jié)果以柱狀圖、折線圖、餅圖等形式進行展示。同時,還可利用Leaflet、OpenLayers等地圖庫,在地圖上標注涉煙違法行為的熱點區(qū)域和流動軌跡。在交互設(shè)計方面,應(yīng)提供豐富的交互功能,如數(shù)據(jù)篩選、排序、導(dǎo)出等。執(zhí)法人員可以根據(jù)實際需求進行靈活操作,快速定位和查詢相關(guān)信息。此外,還應(yīng)引入自然語言處理技術(shù),實現(xiàn)智能問答功能,幫助執(zhí)法人員快速解答疑問和獲取信息。
3.7 平臺性能優(yōu)化與安全保障措施
為了確保平臺的性能和安全性,應(yīng)采取一系列優(yōu)化和安全保障措施。在性能優(yōu)化方面,可引入負載均衡技術(shù),將請求分發(fā)到多個服務(wù)器上進行處理,提高平臺的并發(fā)處理能力和響應(yīng)速度。同時,還可利用緩存技術(shù),將熱點數(shù)據(jù)和計算結(jié)果進行緩存,減少數(shù)據(jù)庫訪問次數(shù)和網(wǎng)絡(luò)傳輸開銷。在安全保障方面,可對敏感數(shù)據(jù)進行加密處理,并設(shè)置嚴格的訪問控制機制,確保數(shù)據(jù)的安全性和隱私保護。此外,還需建立完善的日志審計機制和異常檢測系統(tǒng),及時發(fā)現(xiàn)并處理潛在的安全威脅和異常情況。
4 結(jié)束語
基于STR構(gòu)建的煙草專賣寄遞涉煙信息智能采集與研判平臺,能夠借助信息化技術(shù)的功能和優(yōu)勢,克服相關(guān)的工作難題,輔助案件查處工作開展,提高案件查處的效率和準確性,值得加強推廣和進一步的研究。
參考文獻
[1] 熊平山,周勇.新時代“互聯(lián)網(wǎng)+市場監(jiān)管”煙草專賣管理新機制初探[J].中國集體經(jīng)濟,2022(28):58-61.
[2] 王瑋,王煒.數(shù)據(jù)融合技術(shù)在煙草專賣市場監(jiān)管工作中的應(yīng)用分析[J].現(xiàn)代商貿(mào)工業(yè),2021,42(30):159-160.
[3] 魏思寶.論如何加強物流、寄遞環(huán)節(jié)涉煙違法行為監(jiān)管[J].科技風(fēng),2019(15):212-213.
[4] 云鶴.論寄遞環(huán)節(jié)涉煙違法行為的監(jiān)管[J].中國煙草學(xué)報,2019,25(2):93-98.
[5] 熊煒,孫鵬,趙迪,等.基于字符注意力的自然場景文本識別[J].光電子?激光,2023,34(11):1158-1167.
[6] 張習(xí)文,倪建成,王典驍.視覺增強的雙分支場景文本識別模型[J].曲阜師范大學(xué)學(xué)報(自然科學(xué)版),2023,49(4):67-76.