劉蘇銳,李丹丹,龐曉紅,董偉,茍圓,俞凌云,吳孟茹,金晶
(成都海關(guān)技術(shù)中心,四川 成都 610041)
我國進(jìn)口消費(fèi)品在“十三五”前四年均保持了10%以上的高增速,即使是在受疫情沖擊的2020年也較上年增長了8.2%,在我國進(jìn)口整體下降0.4%的情況下,拉動(dòng)增長0.8個(gè)百分點(diǎn)[1]。整個(gè)“十三五”期間,消費(fèi)品進(jìn)口在我國總進(jìn)口中的比重從期初2016年的9.1%提升至了期末2020年的11%[1]。我國已經(jīng)全面建成小康社會(huì),居民人均可支配收入持續(xù)增長,輕工消費(fèi)品作為生活必需品屬性已經(jīng)得到滿足,人民的美好生活需要推動(dòng)了輕工消費(fèi)品市場(chǎng)的增長,也帶動(dòng)了輕工消費(fèi)品進(jìn)口的增長。2020年,我國進(jìn)口衣著鞋帽類消費(fèi)品1406.6億元,增長16%[1]。進(jìn)口輕工消費(fèi)品的貨值金額快速增長,類別與數(shù)量也大幅增加。面對(duì)成千上萬不同種類、不同材質(zhì)、不同用途的進(jìn)口輕工消費(fèi)品,快速準(zhǔn)確區(qū)分并高效完成現(xiàn)場(chǎng)涉稅監(jiān)管,對(duì)于一線人員而言是個(gè)挑戰(zhàn)。
2021年2月9日,國家主席習(xí)近平在北京以視頻方式主持中國-中東歐國家領(lǐng)導(dǎo)人峰會(huì)并發(fā)表主旨講話。習(xí)近平主席在講話中提出了“深化海關(guān)貿(mào)易安全和通關(guān)便利化合作,開展‘智慧海關(guān)、智能邊境、智享聯(lián)通’合作試點(diǎn)”的重大倡議[2]?!叭恰焙献黜槕?yīng)新一輪科技革命潮流,提倡通過推進(jìn)海關(guān)基礎(chǔ)設(shè)施、海關(guān)管理和海關(guān)監(jiān)管的智能化打造“智慧海關(guān)”,基于云計(jì)算、大數(shù)據(jù)、人工智能、5G通信等應(yīng)用技術(shù),提高監(jiān)管精準(zhǔn)性、有效性[3]。面對(duì)貨值金額、商品種類與數(shù)量日益增長的進(jìn)口輕工消費(fèi)品涉稅監(jiān)管,基于新一輪的科技技術(shù),須利用好已有的涉稅檢驗(yàn)數(shù)據(jù),為一線人員提升監(jiān)管效率做好支撐,以實(shí)際行動(dòng)落實(shí)習(xí)總書記重要講話精神,努力踐行“三智”合作重大倡議。
數(shù)據(jù)已經(jīng)上升成為了與土地、勞動(dòng)力、資本、技術(shù)并重的生產(chǎn)要素[4]。在數(shù)據(jù)時(shí)代,充分挖掘所掌握數(shù)據(jù)中蘊(yùn)涵的價(jià)值,已成為了各個(gè)行業(yè)的普遍共識(shí)。作為數(shù)據(jù)挖掘的主要方法之一,關(guān)聯(lián)規(guī)則已經(jīng)在多個(gè)領(lǐng)域得到了大量應(yīng)用。例如在安全監(jiān)管領(lǐng)域[5-12],文獻(xiàn)[5-8]利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則方法分別對(duì)建筑事故歷史數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析[5],對(duì)各類線形事故風(fēng)險(xiǎn)概率變化趨勢(shì)和組合關(guān)聯(lián)規(guī)則進(jìn)行分析[6],對(duì)大壩安全監(jiān)測(cè)數(shù)據(jù)分析變形量與影響因子間的相關(guān)關(guān)系[7],對(duì)船舶通信入侵檢測(cè)挖掘關(guān)聯(lián)規(guī)則[8]。文獻(xiàn)[9-12]分別應(yīng)用關(guān)聯(lián)規(guī)則挖掘相關(guān)算法分析塔式起重機(jī)事故屬性與致因間[9]、航空安全事件多種屬性間[10]、直升機(jī)事故與事件發(fā)生之間[11]、鐵路機(jī)車事故與故障間[12]的關(guān)聯(lián)關(guān)系。又如在故障監(jiān)測(cè)領(lǐng)域[13-20],利用關(guān)聯(lián)規(guī)則分析設(shè)備故障與影響因素[13-15]或故障原因[16]等之間的映射關(guān)系,并進(jìn)一步預(yù)測(cè)[17]或診斷[18-20]故障。
目前,關(guān)聯(lián)規(guī)則在海關(guān)監(jiān)管相關(guān)領(lǐng)域的應(yīng)用鮮見報(bào)道。本文借鑒關(guān)聯(lián)規(guī)則在其他領(lǐng)域的應(yīng)用,提出了一種進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)挖掘方法。首先,對(duì)進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)從稅則歸類、檢驗(yàn)方式和檢驗(yàn)時(shí)間三個(gè)維度進(jìn)行概念分層,并作為擴(kuò)展信息加入到原始數(shù)據(jù)中;其次,對(duì)進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)的多值型信息項(xiàng)進(jìn)行多值映射,轉(zhuǎn)化為多個(gè)布爾型信息項(xiàng);最后,結(jié)合多值映射后同類信息項(xiàng)不能同時(shí)出現(xiàn)的特點(diǎn),改進(jìn)Apriori算法,挖掘強(qiáng)關(guān)聯(lián)規(guī)則,為一線人員提供關(guān)注清單,輔助提升現(xiàn)場(chǎng)監(jiān)管效率。
關(guān)聯(lián)規(guī)則是一種知識(shí)模式,描述的是不同事物同時(shí)出現(xiàn)的規(guī)律,反映不同事物之間的相互依存性和關(guān)聯(lián)性。關(guān)聯(lián)規(guī)則最早提出是為了挖掘商品交易數(shù)據(jù)庫中不同商品之間的聯(lián)系,發(fā)現(xiàn)被顧客同時(shí)購買的商品,找出顧客的購買習(xí)慣。隨著信息技術(shù)的飛速發(fā)展與普及,當(dāng)今社會(huì)已經(jīng)步入了大數(shù)據(jù)時(shí)代,各行各業(yè)累積了大量的數(shù)據(jù),從中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則已成為了數(shù)據(jù)挖掘的重要內(nèi)容。
需要挖掘關(guān)聯(lián)規(guī)則的數(shù)據(jù)集,通常被稱為事務(wù)數(shù)據(jù)庫T={t1,t2,…,tn}。事務(wù)數(shù)據(jù)庫中的每個(gè)事務(wù)由一個(gè)或若干個(gè)項(xiàng)組成,事務(wù)數(shù)據(jù)庫中所有事務(wù)的所有項(xiàng)的集合記為I= {i1,i2,…,in},有t1?I,t2?I,…,tn?I。關(guān)聯(lián)規(guī)則可以表示為:
式中X、Y均是由集合I中元素構(gòu)成的項(xiàng)集;s和c是衡量關(guān)聯(lián)規(guī)則強(qiáng)弱的指標(biāo):s是支持度為項(xiàng)集X、Y同時(shí)出現(xiàn)的概率,smin是事先指定的最小支持度;c是置信度為項(xiàng)集X出現(xiàn)的情況下項(xiàng)集Y出現(xiàn)的概率,用于衡量關(guān)聯(lián)規(guī)則的可信程度,cmin是事先指定的最小置信度;s和c的具體定義如下:
關(guān)聯(lián)規(guī)則挖掘就是要找出同時(shí)滿足最小支持度和最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘過程通常分為兩大步:第一步,找出滿足最小支持度的所有項(xiàng)集;第二步,由第一步找出的項(xiàng)集分析找出強(qiáng)關(guān)聯(lián)規(guī)則。
滿足最小支持度的項(xiàng)集,被稱為頻繁項(xiàng)集。關(guān)聯(lián)規(guī)則挖掘的第一步即是找出所有頻繁項(xiàng)集。對(duì)于一個(gè)項(xiàng)集,其長度定義為該項(xiàng)集包含的元素個(gè)數(shù)k,該項(xiàng)集稱為k-項(xiàng)集。頻繁項(xiàng)集挖掘的經(jīng)典算法Apriori首先掃描事務(wù)數(shù)據(jù)庫,篩選出所有支持度大于最小支持度的1-項(xiàng)集,即為頻繁1-項(xiàng)集集合。項(xiàng)集A的支持度為事務(wù)數(shù)據(jù)庫中包含該項(xiàng)集的事務(wù)數(shù):
對(duì)頻繁1-項(xiàng)集集合的元素進(jìn)行連接生成2-項(xiàng)集集合,從中篩選出支持度大于最小支持度的項(xiàng)集即為頻繁2-項(xiàng)集集合。重復(fù)上述由頻繁k-1項(xiàng)集集合生成頻繁k-項(xiàng)集集合的過程,直到頻繁(k+1)-項(xiàng)集集合為空。
對(duì)所有的頻繁項(xiàng)集,計(jì)算兩兩之間的置信度,將滿足最小置信度要求的,作為強(qiáng)關(guān)聯(lián)規(guī)則輸出。
關(guān)聯(lián)規(guī)則挖掘流程可如圖1所示。
圖1 關(guān)聯(lián)規(guī)則挖掘流程Fig.1 Association ruleminingprocess
進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)是由一條條具體進(jìn)口輕工消費(fèi)品的檢驗(yàn)數(shù)據(jù)記錄組成的。不同類型的進(jìn)口輕工消費(fèi)品,檢驗(yàn)的項(xiàng)目各不一樣,如果直接從這些最底層數(shù)據(jù)中去挖掘關(guān)聯(lián)規(guī)則,很難找出強(qiáng)關(guān)聯(lián)規(guī)則,需要從較高的概念層級(jí)去進(jìn)行關(guān)聯(lián)規(guī)則挖掘以發(fā)現(xiàn)更具普遍意義的知識(shí)。
進(jìn)口輕工消費(fèi)品的稅則號(hào)是海關(guān)征收關(guān)稅的基礎(chǔ),進(jìn)口輕工消費(fèi)品的檢驗(yàn)則為海關(guān)征收關(guān)稅提供參考。此外,對(duì)于一個(gè)季度或一個(gè)月份,相關(guān)部門也需要相關(guān)的統(tǒng)計(jì)報(bào)表。因此,對(duì)進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)的概念分層,考慮從稅則歸類、檢驗(yàn)方式和檢驗(yàn)時(shí)間三個(gè)維度進(jìn)行。
進(jìn)口輕工消費(fèi)品稅則歸類維度的概念分層,參照現(xiàn)行的稅則目錄,分層示意如圖2所示。
圖2 稅則歸類概念分層Fig.2 Concept stratification fromtariff classification
進(jìn)口輕工消費(fèi)品檢驗(yàn)方式與進(jìn)口輕工消費(fèi)品的類別、成分、材質(zhì)等等相關(guān),主要有紡織類原料材質(zhì)鑒定、紡織類成分分析、天然皮革材質(zhì)鑒定、人造皮革材質(zhì)鑒定、毛皮鑒定等等檢驗(yàn)方式,進(jìn)口輕工消費(fèi)品檢驗(yàn)方式維度的概念分層如圖3所示。
圖3 檢驗(yàn)方式概念分層Fig.3 Concept stratification frominspection method
進(jìn)口輕工消費(fèi)品檢驗(yàn)時(shí)間維度的概念分層,可以按照時(shí)間顆粒的粗細(xì)來進(jìn)行,分層示意如圖4所示。
圖4 檢驗(yàn)時(shí)間概念分層Fig.4 Concept stratification frominspection time
進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)概念分層之后,對(duì)關(guān)聯(lián)規(guī)則的挖掘需要增加掃描事務(wù)數(shù)據(jù)庫(待挖掘的數(shù)據(jù)集合)。為了提升挖掘效率,考慮將三個(gè)維度的概念分層作為原始數(shù)據(jù)的擴(kuò)展信息,從而將層級(jí)結(jié)構(gòu)轉(zhuǎn)化為平面結(jié)構(gòu)。圖5示意了概念分層的信息擴(kuò)展。
圖5 信息擴(kuò)展Fig.5 The original dataextension
涉稅輕工品檢驗(yàn)數(shù)據(jù)的報(bào)關(guān)信息中經(jīng)營單位、貨主單位、申報(bào)單位、商品編碼、產(chǎn)銷國等等信息,檢驗(yàn)信息中的各項(xiàng)具體檢驗(yàn)內(nèi)容,均為多值型。而目前主流的關(guān)聯(lián)規(guī)則挖掘方法是面向布爾型的。因此,需要對(duì)涉稅輕工品檢驗(yàn)數(shù)據(jù)進(jìn)行多值映射,即將一個(gè)多值型映射為多個(gè)布爾型。同時(shí)為了方便后續(xù)頻繁項(xiàng)集挖掘過程中對(duì)事務(wù)數(shù)據(jù)庫的掃描比較,在映射過程中還需要對(duì)多值進(jìn)行編碼。例如待挖掘的涉稅輕工品檢驗(yàn)數(shù)據(jù)整個(gè)集合中涉稅輕工品的經(jīng)營單位共有n家,經(jīng)營單位這一信息就屬于多值型,將它的取值編碼并進(jìn)行映射,轉(zhuǎn)化成n個(gè)布爾型,示意如圖6。
圖6 多值映射Fig.6 Multivalued mapping
經(jīng)過概念分層和多值映射的數(shù)據(jù)預(yù)處理之后,以進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)中的每一條具體進(jìn)口輕工消費(fèi)品的檢驗(yàn)數(shù)據(jù)記錄作為一個(gè)事務(wù),建立用于關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)庫。表1是事務(wù)數(shù)據(jù)庫中部分事務(wù)示意。
表1 部分事務(wù)Tab.1 Transaction samples
經(jīng)典的Apriori算法包括了連接與剪枝兩大步驟。步驟連接,是對(duì)頻繁k項(xiàng)集集合中的項(xiàng)集進(jìn)行組合形成k+1項(xiàng)集。為了避免組合出長度超過k+1的項(xiàng)集,通常對(duì)組成項(xiàng)集的項(xiàng)按照一定規(guī)則排序,只對(duì)前k-1項(xiàng)相同的項(xiàng)集進(jìn)行組合。涉稅輕工品檢驗(yàn)數(shù)據(jù)經(jīng)過多值編碼映射之后,隱含了同類信息項(xiàng)不能同時(shí)出現(xiàn)的約束,例如某一經(jīng)營單位在一條記錄中只會(huì)出現(xiàn)一次,即在一個(gè)事務(wù)中經(jīng)營單位類型的編碼只允許有一個(gè)。因此需要對(duì)經(jīng)典Apriori算法的連接步驟進(jìn)行改進(jìn):進(jìn)行連接的兩個(gè)頻繁k項(xiàng)集,不僅是前k-1項(xiàng)相同,而且還需第k項(xiàng)屬于不同的信息類型。例如{A1B2,A1B1,A1C2},則A1B2與A1B1不可連接,A1B2與A1C2和A1B1與A1C2可以連接。
步驟連接形成的k+1項(xiàng)集并不都滿足最小支持度要求,步驟剪枝就是將步驟連接形成的k+1項(xiàng)集集合中不滿足最小支持度的k+1項(xiàng)集去除。k+1項(xiàng)集的支持度可以通過掃描一遍事務(wù)數(shù)據(jù)庫來確定。為了減少掃描事務(wù)數(shù)據(jù)庫的次數(shù),提升挖掘效率,可以通過事務(wù)-項(xiàng)關(guān)聯(lián)矩陣相應(yīng)列之間的位與運(yùn)算來確定k+1項(xiàng)集的支持度。事務(wù)-項(xiàng)關(guān)聯(lián)矩陣A的行對(duì)應(yīng)事務(wù)數(shù)據(jù)庫中的所有事務(wù),列對(duì)應(yīng)事務(wù)數(shù)據(jù)庫中每個(gè)事務(wù)的所有項(xiàng);事務(wù)-項(xiàng)關(guān)聯(lián)矩陣的元素Aij,當(dāng)事務(wù)i包含項(xiàng)j時(shí)Aij=1,否則Aij=0。對(duì)于某一k+1項(xiàng)集,從事務(wù)-項(xiàng)關(guān)聯(lián)矩陣A中選出對(duì)應(yīng)的k+1列進(jìn)行位與計(jì)算,統(tǒng)計(jì)結(jié)果列向量中1的個(gè)數(shù)即為該k+1項(xiàng)集的支持度。假定事務(wù)數(shù)據(jù)庫如表1所示,則可形成事務(wù)-項(xiàng)關(guān)聯(lián)矩陣如下:
項(xiàng)集A1B2O1的支持度,可以由事務(wù)-項(xiàng)關(guān)聯(lián)矩陣A的第1、4和11列位與運(yùn)算,并統(tǒng)計(jì)結(jié)果列向量中1的個(gè)數(shù)得到,即項(xiàng)集A1B2O1的支持度為1。
在挖掘出頻繁項(xiàng)集之后,根據(jù)第2.1節(jié)的式(3)對(duì)頻繁項(xiàng)集集合的元素計(jì)算兩兩之間的置信度,將滿足最小置信度要求的作為強(qiáng)關(guān)聯(lián)規(guī)則。
綜上,進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘流程(如圖7所示)可簡(jiǎn)述如下:
圖7 進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)挖掘流程Fig.7 Association ruleminingprocessfor tariff related inspection data of imported light industrial consumer products
(1)對(duì)原始數(shù)據(jù),從稅則歸類、檢驗(yàn)方式和檢驗(yàn)時(shí)間三個(gè)維度進(jìn)行概念分層,并將結(jié)果作為擴(kuò)展信息添加進(jìn)原始數(shù)據(jù);
(2)對(duì)擴(kuò)展后的原始數(shù)據(jù),將其中的多值型信息項(xiàng)按取值編碼并映射為多個(gè)布爾型信息項(xiàng);
(3)對(duì)預(yù)處理過的進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù),以每一條具體進(jìn)口輕工消費(fèi)品的檢驗(yàn)數(shù)據(jù)記錄作為一個(gè)事務(wù),建立用于關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)庫;
(4)形成事務(wù)-項(xiàng)關(guān)聯(lián)矩陣A;
(5)統(tǒng)計(jì)事務(wù)-項(xiàng)關(guān)聯(lián)矩陣A各列元素1的個(gè)數(shù),確定出頻繁1-項(xiàng)集集合;
(6)令k=1,由頻繁k-項(xiàng)集集合連接形成(k+1)-項(xiàng)集集合;
(7)由事務(wù)-項(xiàng)關(guān)聯(lián)矩陣A相關(guān)列的位與運(yùn)算,從(k+1)-項(xiàng)集集合中篩選出頻繁(k+1)-項(xiàng)集集合;若集合不為空,重復(fù)步驟(6)(7),否則進(jìn)入步驟(8);
(8)對(duì)挖掘出的頻繁項(xiàng)集,計(jì)算兩兩之間的置信度,將滿足最小置信度要求的作為強(qiáng)關(guān)聯(lián)規(guī)則輸出。
對(duì)某海關(guān)某一時(shí)期的進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘應(yīng)用。該數(shù)據(jù)共包含876條記錄,涉及7個(gè)產(chǎn)銷國、5大類商品、13家申報(bào)單位。
設(shè)置最小支持度10%,最小置信度70%,共挖掘出強(qiáng)關(guān)聯(lián)規(guī)則27條。部分代表性強(qiáng)關(guān)聯(lián)規(guī)則如下:
(1)42022100(稅則號(hào))→意大利(產(chǎn)銷國)→真?zhèn)舞b定(檢驗(yàn)方式)
稅則號(hào)42022100是以皮革或再生皮革作面的手提包。意大利是著名的奢侈品王國,進(jìn)口手提包貨值金額高,報(bào)關(guān)時(shí)貨品存在真?zhèn)尾环蕴颖荜P(guān)稅現(xiàn)象。一線人員在涉及來自意大利的進(jìn)口手提包時(shí),可以重點(diǎn)進(jìn)行真?zhèn)舞b定檢驗(yàn)。
(2)61021000(稅則號(hào))→越南(產(chǎn)銷國)→真?zhèn)舞b定(紡織品成分分析)
稅則號(hào)61021000是毛針織或鉤編女大衣、帶帽防寒短上衣、風(fēng)衣等。隨著我國的產(chǎn)業(yè)結(jié)構(gòu)調(diào)整升級(jí),許多原本設(shè)在我國的品牌服裝代工廠外遷,越南承接了其中的一部分。這些服裝代工廠代工質(zhì)量參差不齊,吊牌標(biāo)注成分存在與實(shí)際不符現(xiàn)象。一線人員在涉及來自越南的服裝時(shí),可以重點(diǎn)進(jìn)行紡織品成分分析檢驗(yàn)。
(3)A7(申報(bào)單位)→天然皮革材質(zhì)鑒定(檢驗(yàn)方式)
該強(qiáng)關(guān)聯(lián)規(guī)則反映申報(bào)單位A7在申報(bào)含有天然皮革商品時(shí),申報(bào)信息經(jīng)常與實(shí)際材質(zhì)不符。一線人員對(duì)于A7申報(bào)的含有天然皮革商品,要重點(diǎn)進(jìn)行天然皮革材質(zhì)鑒定。在挖掘出的27條強(qiáng)關(guān)聯(lián)規(guī)則中還有一些強(qiáng)關(guān)聯(lián)規(guī)則與申報(bào)單位或經(jīng)營單位相關(guān),可以據(jù)此建立類似信用等級(jí)的申報(bào)單位或經(jīng)營單位重點(diǎn)關(guān)注清單,以此警示申報(bào)單位或經(jīng)營單位。
(4)B5(經(jīng)營單位)→43031010(稅則號(hào))
稅則號(hào)43031010是毛皮衣服。該強(qiáng)關(guān)聯(lián)規(guī)則可反映經(jīng)營單位B5的主營商品。一線人員在現(xiàn)場(chǎng)監(jiān)管時(shí)可以提前預(yù)判。
(5)B3(經(jīng)營單位)→A1(申報(bào)單位)
該強(qiáng)關(guān)聯(lián)規(guī)則可反映經(jīng)營單位B3長期通過申報(bào)單位A1進(jìn)行進(jìn)口商品申報(bào)。
通過上述應(yīng)用案例可以看出,關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)數(shù)據(jù)背后隱含的聯(lián)系。這些強(qiáng)關(guān)聯(lián)規(guī)則可以為一線人員提供具體進(jìn)口國重點(diǎn)關(guān)注商品,也可以為一線人員提供申報(bào)單位或經(jīng)營單位重點(diǎn)關(guān)注清單,還可以發(fā)現(xiàn)經(jīng)營單位的主營商品、申報(bào)單位與經(jīng)營單位的合作關(guān)系等等。
面對(duì)貨值金額、商品種類與數(shù)量日益增長的進(jìn)口輕工消費(fèi)品,快速準(zhǔn)確完成現(xiàn)場(chǎng)涉稅監(jiān)管,對(duì)一線人員是個(gè)挑戰(zhàn)。借鑒關(guān)聯(lián)規(guī)則在其他領(lǐng)域的應(yīng)用,提出了一種進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘方法。
所提方法:1)在連接生成候選頻繁信息項(xiàng)集時(shí),結(jié)合同類型信息項(xiàng)不可同時(shí)出現(xiàn)的特點(diǎn),增加了同類型信息項(xiàng)的互斥判別,有效地減少了搜索空間;2)在計(jì)算候選頻繁信息項(xiàng)集支持度時(shí),通過構(gòu)建事務(wù)-項(xiàng)關(guān)聯(lián)矩陣,由關(guān)聯(lián)矩陣對(duì)應(yīng)列的位與運(yùn)算統(tǒng)計(jì)支持度,避免了對(duì)事務(wù)數(shù)據(jù)庫的反復(fù)遍歷,提升了搜索效率。
對(duì)某海關(guān)進(jìn)口輕工消費(fèi)品涉稅檢驗(yàn)數(shù)據(jù)的挖掘結(jié)果表明,所提方法能夠發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)的信息項(xiàng),可為一線人員提供重點(diǎn)關(guān)注清單,輔助提升了現(xiàn)場(chǎng)監(jiān)管效率。