夏 會(huì)(博士),程 平(博士生導(dǎo)師),張 礫
隨著“互聯(lián)網(wǎng)+稅務(wù)”的日益深入,以電子稅務(wù)局為媒介,各省市稅務(wù)機(jī)關(guān)收集了大量的納稅人相關(guān)數(shù)據(jù)。金稅三期平臺(tái)的成功上線和不斷完善,進(jìn)一步統(tǒng)籌了稅務(wù)部門(mén)和相關(guān)涉稅機(jī)構(gòu),使涉稅數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)[1]。面對(duì)海量的涉稅數(shù)據(jù),依賴于先驗(yàn)知識(shí)的稅收風(fēng)險(xiǎn)管控工作已經(jīng)無(wú)法發(fā)揮優(yōu)勢(shì),需要基于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等智能化模型對(duì)數(shù)據(jù)進(jìn)行科學(xué)化、精細(xì)化分析,以及時(shí)發(fā)現(xiàn)納稅疑點(diǎn),輔助稅收征管工作。因此,研究如何應(yīng)用未標(biāo)注數(shù)據(jù)集構(gòu)建高精度、可擴(kuò)展、實(shí)用的稅收風(fēng)險(xiǎn)識(shí)別模型,發(fā)現(xiàn)納稅疑點(diǎn),實(shí)現(xiàn)對(duì)稅收風(fēng)險(xiǎn)的有效管控具有重要的現(xiàn)實(shí)意義和價(jià)值。
當(dāng)前基于大數(shù)據(jù)對(duì)稅收風(fēng)險(xiǎn)的研究主要集中在構(gòu)建稅收風(fēng)險(xiǎn)管理相關(guān)平臺(tái)的系統(tǒng)和模型上。徐壁[2]從數(shù)據(jù)的角度出發(fā),基于大數(shù)據(jù)技術(shù),構(gòu)建了稅收風(fēng)險(xiǎn)管理系統(tǒng),主要包括涉稅大數(shù)據(jù)的采集和存儲(chǔ)及相應(yīng)的標(biāo)準(zhǔn)體系,涉稅風(fēng)險(xiǎn)防控體系及相應(yīng)的指標(biāo)模型,以及涉稅大數(shù)據(jù)分析與挖掘平臺(tái)。劉小瑜等[3]則提出了針對(duì)高新技術(shù)企業(yè)的稅收風(fēng)險(xiǎn)預(yù)警模型構(gòu)想,并在模型中引入了智能優(yōu)化算法以增強(qiáng)稅收風(fēng)險(xiǎn)識(shí)別的精度。但由于缺乏足夠的已標(biāo)注的數(shù)據(jù),該模型的實(shí)施效果有待進(jìn)一步的驗(yàn)證。劉尚希等[4]基于某區(qū)2012 年和2013 年納稅申報(bào)數(shù)據(jù)和財(cái)務(wù)報(bào)表數(shù)據(jù),提取指標(biāo),構(gòu)建人工神經(jīng)網(wǎng)絡(luò)模型對(duì)納稅風(fēng)險(xiǎn)等級(jí)進(jìn)行識(shí)別。該模型具有較高的準(zhǔn)確性,但對(duì)于已標(biāo)注的數(shù)據(jù)量有較高的要求,且模型的普遍適用性和可解釋性有待進(jìn)一步提升。趙長(zhǎng)江等[5]基于某市欠稅公告數(shù)據(jù)進(jìn)行多維關(guān)聯(lián)規(guī)則挖掘以發(fā)現(xiàn)偷逃稅納稅人的特征,為后續(xù)稅收風(fēng)險(xiǎn)防范提供了有效數(shù)據(jù)支撐,但該模型也要求有足夠的已標(biāo)注數(shù)據(jù)才能進(jìn)行挖掘。胡國(guó)慶[6]基于實(shí)務(wù)工作進(jìn)行總結(jié),認(rèn)為當(dāng)前稅收風(fēng)險(xiǎn)識(shí)別模型存在指標(biāo)精準(zhǔn)度不高、行業(yè)針對(duì)性不強(qiáng)、特定復(fù)雜事項(xiàng)稅收風(fēng)險(xiǎn)識(shí)別度低、各稅種稅收風(fēng)險(xiǎn)識(shí)別有效性不一等問(wèn)題。
綜上,當(dāng)前基于大數(shù)據(jù)對(duì)稅收風(fēng)險(xiǎn)的研究大都停留在理論或構(gòu)想層面,在實(shí)際業(yè)務(wù)中的應(yīng)用相對(duì)薄弱。而聚類(lèi)作為一種重要的無(wú)監(jiān)督式數(shù)據(jù)挖掘方法,能夠在無(wú)先驗(yàn)知識(shí)的前提下,結(jié)合稅收風(fēng)險(xiǎn)管控業(yè)務(wù),選擇合適的稅收風(fēng)險(xiǎn)指標(biāo),自主發(fā)現(xiàn)稅收風(fēng)險(xiǎn)疑點(diǎn)。在稅收風(fēng)險(xiǎn)疑點(diǎn)發(fā)現(xiàn)過(guò)程中,聚類(lèi)不僅可以實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的整體分析,而且可以輔助稅務(wù)人員精確定位稅收風(fēng)險(xiǎn),增加稅收風(fēng)控經(jīng)驗(yàn)。鑒于此,本文擬提出一種改進(jìn)的K-means 聚類(lèi)算法并將其用于稅收風(fēng)險(xiǎn)疑點(diǎn)識(shí)別?;谀车貐^(qū)房地產(chǎn)類(lèi)企業(yè)的股權(quán)轉(zhuǎn)讓業(yè)務(wù)驗(yàn)證發(fā)現(xiàn),該方法可以在無(wú)先驗(yàn)知識(shí)的前提下,更有效地發(fā)現(xiàn)異常的企業(yè)實(shí)例。該模型準(zhǔn)確度高,可擴(kuò)展性強(qiáng),更具有實(shí)用性。
聚類(lèi)算法作為無(wú)監(jiān)督學(xué)習(xí)方法的一種,能夠在未標(biāo)注的實(shí)例集中發(fā)現(xiàn)實(shí)例之間的相似性,并將其分為若干個(gè)類(lèi)。同一類(lèi)中的實(shí)例盡可能相似,不同類(lèi)中的實(shí)例盡可能相異。由此,包含實(shí)例較少的小類(lèi)由于其特征與其他多數(shù)實(shí)例存在較大的差異,通常被視為可疑實(shí)例。聚類(lèi)的這種特征構(gòu)成了稅收風(fēng)險(xiǎn)疑點(diǎn)發(fā)現(xiàn)的理論基礎(chǔ)。K-means 聚類(lèi)算法因其典型的基于劃分的思想,具有簡(jiǎn)單易懂、收斂速度快、擴(kuò)展性強(qiáng)等優(yōu)勢(shì),被廣泛應(yīng)用于各類(lèi)領(lǐng)域。該算法雖然可以將實(shí)例分配到不同的類(lèi),但在初始化時(shí)不能決定究竟要分幾個(gè)類(lèi)以及每個(gè)類(lèi)的中心。因此,使用K-means 算法時(shí)最好能了解數(shù)據(jù)的分布,以便確認(rèn)初始的類(lèi)別數(shù)和質(zhì)心。然而在稅收風(fēng)險(xiǎn)疑點(diǎn)的發(fā)現(xiàn)過(guò)程中,面對(duì)海量高維的企業(yè)數(shù)據(jù),很難具象化地獲取數(shù)據(jù)的分布情況。這直接影響了聚類(lèi)的結(jié)果和運(yùn)行時(shí)間。
鑒于此,本文針對(duì)初始化問(wèn)題提出一種改進(jìn)的K-means 聚類(lèi)算法,該方法基于局部的密度信息和全局的相異性信息來(lái)確定初始的中心和聚類(lèi)數(shù)目,可以有效提高聚類(lèi)性能。首先基于實(shí)例的最近鄰計(jì)算各個(gè)實(shí)例的局部密度,其中密度高的實(shí)例被認(rèn)為更可能成為聚類(lèi)的中心;然后基于全局的相異性,篩選出彼此相似性最低的實(shí)例并將其作為初始聚類(lèi)的質(zhì)心;最后基于K-means 算法分配實(shí)例至各個(gè)簇,直至簇中心不再變化為止。具體流程如下:
輸入:所有實(shí)例,最近鄰距離閾值為λ1,異常閾值為λ2。輸出:各實(shí)例所屬的類(lèi)號(hào)、類(lèi)中心以及異常類(lèi)號(hào)。第一步,計(jì)算各個(gè)實(shí)例的局部密度:①計(jì)算實(shí)例xi與其他實(shí)例之間的距離dij(j≠i);②統(tǒng)計(jì)dij中大于等于給定最近鄰距離閾值λ1的數(shù)目ei,將其作為實(shí)例xi的局部密度ρi(i=1,2,…,n)。第二步,基于全局相異性篩選初始聚類(lèi)中心:①將局部密度按從大到小的順序排列,得到序列sort_ρj,以及相應(yīng)的實(shí)例序列sort_xj(j=1,2,…,n);②選取局部密度最大的實(shí)例作為初始聚類(lèi)中心之一,即sort_x1?cen;③j=2,…,n,遍歷已排序的實(shí)例sort_xj,若實(shí)例sort_xk既不存在于已選擇的類(lèi)中心的最近鄰中,也不與已選擇的聚類(lèi)中心相似,則sort_xk?cen(k?[2,n])。第三步,基于選定的初始類(lèi)中心cen,采用K-means 算法進(jìn)行聚類(lèi)。第四步,將實(shí)例數(shù)占總實(shí)例數(shù)比例小于異常閾值λ2的類(lèi)視為異常類(lèi)。
本文以股權(quán)轉(zhuǎn)讓中的稅收風(fēng)險(xiǎn)識(shí)別為例,采用改進(jìn)的K-means聚類(lèi)算法對(duì)稅收風(fēng)險(xiǎn)進(jìn)行識(shí)別。
1.問(wèn)題定位、指標(biāo)選取和數(shù)據(jù)準(zhǔn)備。股權(quán)轉(zhuǎn)讓可分為個(gè)人股權(quán)轉(zhuǎn)讓和企業(yè)股權(quán)轉(zhuǎn)讓,其中轉(zhuǎn)讓方為個(gè)人時(shí),涉及稅種為印花稅、個(gè)人所得稅,當(dāng)轉(zhuǎn)讓方為企業(yè)時(shí),涉及稅種為印花稅、企業(yè)所得稅、契稅等。本文就某地區(qū)房地產(chǎn)類(lèi)企業(yè)的個(gè)人股權(quán)轉(zhuǎn)讓情況進(jìn)行分析。根據(jù)房地產(chǎn)類(lèi)企業(yè)業(yè)務(wù)和涉稅的特點(diǎn),擬構(gòu)建包括財(cái)務(wù)分析類(lèi)、稅種分析類(lèi)等27 種指標(biāo),詳見(jiàn)表1。
從工商部門(mén)獲得某地區(qū)2015 年427 家(其中房地產(chǎn)類(lèi)企業(yè)為23 家)企業(yè)股權(quán)轉(zhuǎn)讓的數(shù)據(jù),數(shù)據(jù)包含的主要字段為:統(tǒng)一社會(huì)信用代碼、注冊(cè)號(hào)、注冊(cè)資本、生產(chǎn)經(jīng)營(yíng)所在區(qū)、公司名稱、企業(yè)類(lèi)型、股東名稱、認(rèn)繳出資額、認(rèn)繳出資日期、認(rèn)繳出資比例、認(rèn)繳出資方式、住所、主體身份證號(hào)碼和變更序號(hào)等。比對(duì)認(rèn)繳出資金額發(fā)現(xiàn),98%以上的股權(quán)變更為平價(jià)或低價(jià)轉(zhuǎn)讓,因此,需要稅務(wù)部門(mén)對(duì)變更企業(yè)進(jìn)行稅收風(fēng)險(xiǎn)評(píng)估,以檢測(cè)其是否存在不合法的避稅行為。
為了保證評(píng)估結(jié)果的準(zhǔn)確性,特從金稅三期系統(tǒng)中采集房地產(chǎn)類(lèi)企業(yè)的財(cái)務(wù)數(shù)據(jù)和納稅數(shù)據(jù)作為研究樣本。為了保證評(píng)估過(guò)程的合理性,特提取該區(qū)63 家房地產(chǎn)類(lèi)企業(yè) 2015 年 1 月 1 日 ~ 2015 年 12 月31日的財(cái)務(wù)報(bào)表和納稅數(shù)據(jù)進(jìn)行聚類(lèi)分析。通常企業(yè)要按月、季和年填寫(xiě)財(cái)務(wù)報(bào)表,并進(jìn)行納稅申報(bào)。然而,在數(shù)據(jù)采集時(shí)發(fā)現(xiàn)部分企業(yè)的財(cái)務(wù)報(bào)表項(xiàng)目存在空缺(可能是企業(yè)零申報(bào)的原因),因此需要根據(jù)已有的數(shù)據(jù)對(duì)其進(jìn)行填充,若缺失的信息太多則只能剔除。最終得到的有效實(shí)例數(shù)為51。
2.稅收風(fēng)險(xiǎn)疑點(diǎn)分析。基于財(cái)務(wù)報(bào)表數(shù)據(jù)和納稅數(shù)據(jù)計(jì)算51家企業(yè)的27項(xiàng)稅收風(fēng)險(xiǎn)指標(biāo),采用改進(jìn)K-means 聚類(lèi)算法對(duì)企業(yè)進(jìn)行分析,聚類(lèi)結(jié)果見(jiàn)表2。
由表2可知,51家房地產(chǎn)類(lèi)企業(yè)共形成了14個(gè)類(lèi),其中有12 個(gè)類(lèi)只包含一個(gè)實(shí)例,這意味著這12個(gè)類(lèi)的部分指標(biāo)偏差較大,相應(yīng)的實(shí)例可能存在異常。進(jìn)一步分析各類(lèi)的收入變動(dòng)率、費(fèi)用變動(dòng)率、成本變動(dòng)率、利潤(rùn)率和利潤(rùn)變動(dòng)率五大特征。其中,費(fèi)用率是財(cái)務(wù)費(fèi)用率、管理費(fèi)用率和營(yíng)業(yè)費(fèi)用率的均值,費(fèi)用變動(dòng)率是財(cái)務(wù)費(fèi)用變動(dòng)率、管理費(fèi)用變動(dòng)率和營(yíng)業(yè)費(fèi)用變動(dòng)率的均值。聚類(lèi)情況如圖所示。
表1 稅收風(fēng)險(xiǎn)指標(biāo)
表2 聚類(lèi)結(jié)果
由圖可知,類(lèi)1作為大類(lèi),其特征表現(xiàn)為五大指標(biāo)分布比較均衡,這表明在當(dāng)前環(huán)境下,大多數(shù)企業(yè)的收入、費(fèi)用、成本和利潤(rùn)變化情況是相對(duì)穩(wěn)定的,可認(rèn)為該類(lèi)企業(yè)的稅收風(fēng)險(xiǎn)較低。類(lèi)2、6、8、9、10和11 這六類(lèi)的收入、成本、費(fèi)用和利潤(rùn)變化雖然各不均衡,但是基本匹配,也可斷定這六類(lèi)中企業(yè)的稅收風(fēng)險(xiǎn)較低。類(lèi)12和14的收入、費(fèi)用、成本和利潤(rùn)四項(xiàng)變化幅度都不大,未被歸為類(lèi)1 的原因是應(yīng)付賬款或預(yù)收賬款出現(xiàn)大幅上漲(類(lèi)12為18.54倍,類(lèi)14為1.42 倍),可能存在虛構(gòu)專票、未及時(shí)確認(rèn)收入等涉稅問(wèn)題。此外,類(lèi)4 的收入、成本和費(fèi)用都出現(xiàn)了一定幅度的增加,利潤(rùn)也相應(yīng)地上漲。與之相類(lèi)似,類(lèi)13 的收入、成本和費(fèi)用都出現(xiàn)了大幅的增加,利潤(rùn)也相應(yīng)地大幅上漲。不同的是,類(lèi)4的應(yīng)付賬款上漲了36.9 倍,可能存在虛構(gòu)專票等涉稅問(wèn)題;類(lèi)13 的應(yīng)收賬款短期內(nèi)上漲了14.88倍,可能存在對(duì)外虛開(kāi)票據(jù)、對(duì)外融資等涉稅問(wèn)題。
聚類(lèi)情況概覽圖
值得一提的是,類(lèi)3的利潤(rùn)出現(xiàn)大幅下滑,而收入和成本、費(fèi)用相對(duì)變化不大,與利潤(rùn)變化不相匹配,稅收疑點(diǎn)很明顯。類(lèi)5 的費(fèi)用大幅上漲,利潤(rùn)下降,可能存在多計(jì)費(fèi)用、少計(jì)收入的稅收風(fēng)險(xiǎn)。類(lèi)7的利潤(rùn)出現(xiàn)一定幅度的下滑,而收入和成本、費(fèi)用幾乎沒(méi)有變化,與利潤(rùn)變化不相匹配,稅收疑點(diǎn)明顯。
3.稅收風(fēng)險(xiǎn)疑點(diǎn)驗(yàn)證。由上述分析可知,類(lèi)3、5和7 中的企業(yè)(對(duì)應(yīng)第9、14 和21 號(hào)企業(yè))存在明顯的稅收風(fēng)險(xiǎn),其中第9 類(lèi)中的企業(yè)在2015 年發(fā)生了股權(quán)轉(zhuǎn)讓,并且其轉(zhuǎn)讓形式為平價(jià)轉(zhuǎn)讓,轉(zhuǎn)讓情況見(jiàn)表3。
表3 變更前后股權(quán)占比情況
該企業(yè)創(chuàng)立于2007 年,注冊(cè)資金為16 億元。2015 年自然人股東A 將其全部股份轉(zhuǎn)讓給自然人股東B。稅務(wù)人員通過(guò)爬取并分析企業(yè)官網(wǎng)的相關(guān)信息,基于聚類(lèi)結(jié)果并結(jié)合初步的取證分析,發(fā)現(xiàn)該企業(yè)在股權(quán)轉(zhuǎn)讓第一環(huán)節(jié)凈資產(chǎn)評(píng)估中存在明顯稅收風(fēng)險(xiǎn);基于網(wǎng)上的公司介紹,粗略估計(jì)其實(shí)際總資產(chǎn)在2014年就已上漲了10.19倍,所有者權(quán)益達(dá)近9億元。因此,2015 年股權(quán)平價(jià)轉(zhuǎn)讓形式不合理。為此,稅收工作人員多次約談企業(yè)負(fù)責(zé)人和相關(guān)財(cái)務(wù)人員,并進(jìn)一步調(diào)查和精確評(píng)估了其股權(quán)交易時(shí)的企業(yè)凈資產(chǎn),測(cè)算其應(yīng)補(bǔ)繳個(gè)人所得稅近5千萬(wàn)元。
值得注意的是,基于聚類(lèi)的方式挖掘出的小類(lèi)并不一定都存在問(wèn)題,需要稅務(wù)人員對(duì)可疑企業(yè)進(jìn)行進(jìn)一步分析排查。聚類(lèi)結(jié)果作為一種導(dǎo)向,可幫助稅務(wù)人員快速定位可疑企業(yè),縮小排查范圍。
本文以房地產(chǎn)類(lèi)企業(yè)的財(cái)稅數(shù)據(jù)為實(shí)驗(yàn)樣本,結(jié)合網(wǎng)絡(luò)爬取數(shù)據(jù),驗(yàn)證了改進(jìn)K-means 聚類(lèi)方法在稅收疑點(diǎn)發(fā)現(xiàn)上的有效性。基于改進(jìn)K-means 聚類(lèi)方法的稅收風(fēng)險(xiǎn)識(shí)別兼顧了對(duì)大數(shù)據(jù)的總體分析,可發(fā)現(xiàn)與總體差異較大的異常實(shí)例,有效地提高了稅務(wù)風(fēng)險(xiǎn)監(jiān)控效率。雖然該方法下稅務(wù)人員不需要先驗(yàn)知識(shí)就可進(jìn)行風(fēng)險(xiǎn)識(shí)別,但在判定企業(yè)是否存在高風(fēng)險(xiǎn)時(shí)仍需要與其經(jīng)驗(yàn)判斷相結(jié)合。