夏會(huì) 程平 張礫
【摘要】目前的稅收風(fēng)險(xiǎn)管控模型通常是基于稅務(wù)人員的先驗(yàn)知識(shí)構(gòu)建的,在海量數(shù)據(jù)環(huán)境下模型的實(shí)用性、可擴(kuò)展性和精確性都有較大的局限。為解決這一問(wèn)題,提出改進(jìn)的K-means聚類算法。該方法是無(wú)監(jiān)督學(xué)習(xí)模型,可以在無(wú)先驗(yàn)知識(shí)的前提下構(gòu)建指標(biāo),快速且精確地對(duì)實(shí)例進(jìn)行聚類,將出現(xiàn)明顯異常的小類識(shí)別為異常,判定其存在稅收風(fēng)險(xiǎn)?;谠撃P蛯?duì)房地產(chǎn)類企業(yè)股權(quán)轉(zhuǎn)讓中的稅收風(fēng)險(xiǎn)進(jìn)行分析和評(píng)估,發(fā)現(xiàn)稅收風(fēng)險(xiǎn)等級(jí)高的企業(yè)及其風(fēng)險(xiǎn)疑點(diǎn),驗(yàn)證了本方法的有效性。
【關(guān)鍵詞】稅收風(fēng)險(xiǎn);K-means聚類算法;大數(shù)據(jù);股權(quán)轉(zhuǎn)讓
【中圖分類號(hào)】F812.42【文獻(xiàn)標(biāo)識(shí)碼】A【文章編號(hào)】1004-0994(2019)21-0143-4
【基金項(xiàng)目】重慶市教育委員會(huì)科學(xué)技術(shù)項(xiàng)目“大數(shù)據(jù)背景下考慮行為‘畫像的納稅信用等級(jí)動(dòng)態(tài)評(píng)估模型研究”(項(xiàng)目編號(hào):KJQN201801103);重慶市社會(huì)科學(xué)規(guī)劃項(xiàng)目“高質(zhì)量發(fā)展下基于大數(shù)據(jù)的稅收政策實(shí)施智能化支持機(jī)制研究”(項(xiàng)目編號(hào):2018BS68)
隨著“互聯(lián)網(wǎng)+稅務(wù)”的日益深入,以電子稅務(wù)局為媒介,各省市稅務(wù)機(jī)關(guān)收集了大量的納稅人相關(guān)數(shù)據(jù)。金稅三期平臺(tái)的成功上線和不斷完善,進(jìn)一步統(tǒng)籌了稅務(wù)部門和相關(guān)涉稅機(jī)構(gòu),使涉稅數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)[1]。面對(duì)海量的涉稅數(shù)據(jù),依賴于先驗(yàn)知識(shí)的稅收風(fēng)險(xiǎn)管控工作已經(jīng)無(wú)法發(fā)揮優(yōu)勢(shì),需要基于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等智能化模型對(duì)數(shù)據(jù)進(jìn)行科學(xué)化、精細(xì)化分析,以及時(shí)發(fā)現(xiàn)納稅疑點(diǎn),輔助稅收征管工作。因此,研究如何應(yīng)用未標(biāo)注數(shù)據(jù)集構(gòu)建高精度、可擴(kuò)展、實(shí)用的稅收風(fēng)險(xiǎn)識(shí)別模型,發(fā)現(xiàn)納稅疑點(diǎn),實(shí)現(xiàn)對(duì)稅收風(fēng)險(xiǎn)的有效管控具有重要的現(xiàn)實(shí)意義和價(jià)值。
一、文獻(xiàn)綜述
當(dāng)前基于大數(shù)據(jù)對(duì)稅收風(fēng)險(xiǎn)的研究主要集中在構(gòu)建稅收風(fēng)險(xiǎn)管理相關(guān)平臺(tái)的系統(tǒng)和模型上。徐壁[2]從數(shù)據(jù)的角度出發(fā),基于大數(shù)據(jù)技術(shù),構(gòu)建了稅收風(fēng)險(xiǎn)管理系統(tǒng),主要包括涉稅大數(shù)據(jù)的采集和存儲(chǔ)及相應(yīng)的標(biāo)準(zhǔn)體系,涉稅風(fēng)險(xiǎn)防控體系及相應(yīng)的指標(biāo)模型,以及涉稅大數(shù)據(jù)分析與挖掘平臺(tái)。劉小瑜等[3]則提出了針對(duì)高新技術(shù)企業(yè)的稅收風(fēng)險(xiǎn)預(yù)警模型構(gòu)想,并在模型中引入了智能優(yōu)化算法以增強(qiáng)稅收風(fēng)險(xiǎn)識(shí)別的精度。但由于缺乏足夠的已標(biāo)注的數(shù)據(jù),該模型的實(shí)施效果有待進(jìn)一步的驗(yàn)證。劉尚希等[4]基于某區(qū)2012年和2013年納稅申報(bào)數(shù)據(jù)和財(cái)務(wù)報(bào)表數(shù)據(jù),提取指標(biāo),構(gòu)建人工神經(jīng)網(wǎng)絡(luò)模型對(duì)納稅風(fēng)險(xiǎn)等級(jí)進(jìn)行識(shí)別。該模型具有較高的準(zhǔn)確性,但對(duì)于已標(biāo)注的數(shù)據(jù)量有較高的要求,且模型的普遍適用性和可解釋性有待進(jìn)一步提升。趙長(zhǎng)江等[5]基于某市欠稅公告數(shù)據(jù)進(jìn)行多維關(guān)聯(lián)規(guī)則挖掘以發(fā)現(xiàn)偷逃稅納稅人的特征,為后續(xù)稅收風(fēng)險(xiǎn)防范提供了有效數(shù)據(jù)支撐,但該模型也要求有足夠的已標(biāo)注數(shù)據(jù)才能進(jìn)行挖掘。胡國(guó)慶[6]基于實(shí)務(wù)工作進(jìn)行總結(jié),認(rèn)為當(dāng)前稅收風(fēng)險(xiǎn)識(shí)別模型存在指標(biāo)精準(zhǔn)度不高、行業(yè)針對(duì)性不強(qiáng)、特定復(fù)雜事項(xiàng)稅收風(fēng)險(xiǎn)識(shí)別度低、各稅種稅收風(fēng)險(xiǎn)識(shí)別有效性不一等問(wèn)題。
綜上,當(dāng)前基于大數(shù)據(jù)對(duì)稅收風(fēng)險(xiǎn)的研究大都停留在理論或構(gòu)想層面,在實(shí)際業(yè)務(wù)中的應(yīng)用相對(duì)薄弱。而聚類作為一種重要的無(wú)監(jiān)督式數(shù)據(jù)挖掘方法,能夠在無(wú)先驗(yàn)知識(shí)的前提下,結(jié)合稅收風(fēng)險(xiǎn)管控業(yè)務(wù),選擇合適的稅收風(fēng)險(xiǎn)指標(biāo),自主發(fā)現(xiàn)稅收風(fēng)險(xiǎn)疑點(diǎn)。在稅收風(fēng)險(xiǎn)疑點(diǎn)發(fā)現(xiàn)過(guò)程中,聚類不僅可以實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的整體分析,而且可以輔助稅務(wù)人員精確定位稅收風(fēng)險(xiǎn),增加稅收風(fēng)控經(jīng)驗(yàn)。鑒于此,本文擬提出一種改進(jìn)的K-means聚類算法并將其用于稅收風(fēng)險(xiǎn)疑點(diǎn)識(shí)別?;谀车貐^(qū)房地產(chǎn)類企業(yè)的股權(quán)轉(zhuǎn)讓業(yè)務(wù)驗(yàn)證發(fā)現(xiàn),該方法可以在無(wú)先驗(yàn)知識(shí)的前提下,更有效地發(fā)現(xiàn)異常的企業(yè)實(shí)例。該模型準(zhǔn)確度高,可擴(kuò)展性強(qiáng),更具有實(shí)用性。
二、改進(jìn)K-means聚類算法
聚類算法作為無(wú)監(jiān)督學(xué)習(xí)方法的一種,能夠在未標(biāo)注的實(shí)例集中發(fā)現(xiàn)實(shí)例之間的相似性,并將其分為若干個(gè)類。同一類中的實(shí)例盡可能相似,不同類中的實(shí)例盡可能相異。由此,包含實(shí)例較少的小類由于其特征與其他多數(shù)實(shí)例存在較大的差異,通常被視為可疑實(shí)例。聚類的這種特征構(gòu)成了稅收風(fēng)險(xiǎn)疑點(diǎn)發(fā)現(xiàn)的理論基礎(chǔ)。K-means聚類算法因其典型的基于劃分的思想,具有簡(jiǎn)單易懂、收斂速度快、擴(kuò)展性強(qiáng)等優(yōu)勢(shì),被廣泛應(yīng)用于各類領(lǐng)域。該算法雖然可以將實(shí)例分配到不同的類,但在初始化時(shí)不能決定究竟要分幾個(gè)類以及每個(gè)類的中心。因此,使用Kmeans算法時(shí)最好能了解數(shù)據(jù)的分布,以便確認(rèn)初始的類別數(shù)和質(zhì)心。然而在稅收風(fēng)險(xiǎn)疑點(diǎn)的發(fā)現(xiàn)過(guò)程中,面對(duì)海量高維的企業(yè)數(shù)據(jù),很難具象化地獲取數(shù)據(jù)的分布情況。這直接影響了聚類的結(jié)果和運(yùn)行時(shí)間。
鑒于此,本文針對(duì)初始化問(wèn)題提出一種改進(jìn)的K-means聚類算法,該方法基于局部的密度信息和全局的相異性信息來(lái)確定初始的中心和聚類數(shù)目,可以有效提高聚類性能。首先基于實(shí)例的最近鄰計(jì)算各個(gè)實(shí)例的局部密度,其中密度高的實(shí)例被認(rèn)為更可能成為聚類的中心;然后基于全局的相異性,篩選出彼此相似性最低的實(shí)例并將其作為初始聚類的質(zhì)心;最后基于K-means算法分配實(shí)例至各個(gè)簇,直至簇中心不再變化為止。具體流程如下:
三、基于改進(jìn)K-means聚類算法的稅收風(fēng)險(xiǎn)識(shí)別案例
本文以股權(quán)轉(zhuǎn)讓中的稅收風(fēng)險(xiǎn)識(shí)別為例,采用改進(jìn)的K-means聚類算法對(duì)稅收風(fēng)險(xiǎn)進(jìn)行識(shí)別。
1.問(wèn)題定位、指標(biāo)選取和數(shù)據(jù)準(zhǔn)備。股權(quán)轉(zhuǎn)讓可分為個(gè)人股權(quán)轉(zhuǎn)讓和企業(yè)股權(quán)轉(zhuǎn)讓,其中轉(zhuǎn)讓方為個(gè)人時(shí),涉及稅種為印花稅、個(gè)人所得稅,當(dāng)轉(zhuǎn)讓方為企業(yè)時(shí),涉及稅種為印花稅、企業(yè)所得稅、契稅等。本文就某地區(qū)房地產(chǎn)類企業(yè)的個(gè)人股權(quán)轉(zhuǎn)讓情況進(jìn)行分析。根據(jù)房地產(chǎn)類企業(yè)業(yè)務(wù)和涉稅的特點(diǎn),擬構(gòu)建包括財(cái)務(wù)分析類、稅種分析類等27種指標(biāo),詳見(jiàn)表1。3B9D63FC-2534-44F2-AEF8-A170F434ADAA
從工商部門獲得某地區(qū)2015年427家(其中房地產(chǎn)類企業(yè)為23家)企業(yè)股權(quán)轉(zhuǎn)讓的數(shù)據(jù),數(shù)據(jù)包含的主要字段為:統(tǒng)一社會(huì)信用代碼、注冊(cè)號(hào)、注冊(cè)資本、生產(chǎn)經(jīng)營(yíng)所在區(qū)、公司名稱、企業(yè)類型、股東名稱、認(rèn)繳出資額、認(rèn)繳出資日期、認(rèn)繳出資比例、認(rèn)繳出資方式、住所、主體身份證號(hào)碼和變更序號(hào)等。比對(duì)認(rèn)繳出資金額發(fā)現(xiàn),98%以上的股權(quán)變更為平價(jià)或低價(jià)轉(zhuǎn)讓,因此,需要稅務(wù)部門對(duì)變更企業(yè)進(jìn)行稅收風(fēng)險(xiǎn)評(píng)估,以檢測(cè)其是否存在不合法的避稅行為。
為了保證評(píng)估結(jié)果的準(zhǔn)確性,特從金稅三期系統(tǒng)中采集房地產(chǎn)類企業(yè)的財(cái)務(wù)數(shù)據(jù)和納稅數(shù)據(jù)作為研究樣本。為了保證評(píng)估過(guò)程的合理性,特提取該區(qū)63家房地產(chǎn)類企業(yè)2015年1月1日~ 2015年12月31日的財(cái)務(wù)報(bào)表和納稅數(shù)據(jù)進(jìn)行聚類分析。通常企業(yè)要按月、季和年填寫財(cái)務(wù)報(bào)表,并進(jìn)行納稅申報(bào)。然而,在數(shù)據(jù)采集時(shí)發(fā)現(xiàn)部分企業(yè)的財(cái)務(wù)報(bào)表項(xiàng)目存在空缺(可能是企業(yè)零申報(bào)的原因),因此需要根據(jù)已有的數(shù)據(jù)對(duì)其進(jìn)行填充,若缺失的信息太多則只能剔除。最終得到的有效實(shí)例數(shù)為51。
2.稅收風(fēng)險(xiǎn)疑點(diǎn)分析?;谪?cái)務(wù)報(bào)表數(shù)據(jù)和納稅數(shù)據(jù)計(jì)算51家企業(yè)的27項(xiàng)稅收風(fēng)險(xiǎn)指標(biāo),采用改進(jìn)K-means聚類算法對(duì)企業(yè)進(jìn)行分析,聚類結(jié)果見(jiàn)表2。
由表2可知,51家房地產(chǎn)類企業(yè)共形成了14個(gè)類,其中有12個(gè)類只包含一個(gè)實(shí)例,這意味著這12個(gè)類的部分指標(biāo)偏差較大,相應(yīng)的實(shí)例可能存在異常。進(jìn)一步分析各類的收入變動(dòng)率、費(fèi)用變動(dòng)率、成本變動(dòng)率、利潤(rùn)率和利潤(rùn)變動(dòng)率五大特征。其中,費(fèi)用率是財(cái)務(wù)費(fèi)用率、管理費(fèi)用率和營(yíng)業(yè)費(fèi)用率的均值,費(fèi)用變動(dòng)率是財(cái)務(wù)費(fèi)用變動(dòng)率、管理費(fèi)用變動(dòng)率和營(yíng)業(yè)費(fèi)用變動(dòng)率的均值。聚類情況如圖所示。
由圖可知,類1作為大類,其特征表現(xiàn)為五大指標(biāo)分布比較均衡,這表明在當(dāng)前環(huán)境下,大多數(shù)企業(yè)的收入、費(fèi)用、成本和利潤(rùn)變化情況是相對(duì)穩(wěn)定的,可認(rèn)為該類企業(yè)的稅收風(fēng)險(xiǎn)較低。類2、6、8、9、10和11這六類的收入、成本、費(fèi)用和利潤(rùn)變化雖然各不均衡,但是基本匹配,也可斷定這六類中企業(yè)的稅收風(fēng)險(xiǎn)較低。類12和14的收入、費(fèi)用、成本和利潤(rùn)四項(xiàng)變化幅度都不大,未被歸為類1的原因是應(yīng)付賬款或預(yù)收賬款出現(xiàn)大幅上漲(類12為18.54倍,類14為1.42倍),可能存在虛構(gòu)專票、未及時(shí)確認(rèn)收入等涉稅問(wèn)題。此外,類4的收入、成本和費(fèi)用都出現(xiàn)了一定幅度的增加,利潤(rùn)也相應(yīng)地上漲。與之相類似,類13的收入、成本和費(fèi)用都出現(xiàn)了大幅的增加,利潤(rùn)也相應(yīng)地大幅上漲。不同的是,類4的應(yīng)付賬款上漲了36.9倍,可能存在虛構(gòu)專票等涉稅問(wèn)題;類13的應(yīng)收賬款短期內(nèi)上漲了14.88倍,可能存在對(duì)外虛開(kāi)票據(jù)、對(duì)外融資等涉稅問(wèn)題。
值得一提的是,類3的利潤(rùn)出現(xiàn)大幅下滑,而收入和成本、費(fèi)用相對(duì)變化不大,與利潤(rùn)變化不相匹配,稅收疑點(diǎn)很明顯。類5的費(fèi)用大幅上漲,利潤(rùn)下降,可能存在多計(jì)費(fèi)用、少計(jì)收入的稅收風(fēng)險(xiǎn)。類7的利潤(rùn)出現(xiàn)一定幅度的下滑,而收入和成本、費(fèi)用幾乎沒(méi)有變化,與利潤(rùn)變化不相匹配,稅收疑點(diǎn)明顯。
3.稅收風(fēng)險(xiǎn)疑點(diǎn)驗(yàn)證。由上述分析可知,類3、5和7中的企業(yè)(對(duì)應(yīng)第9、14和21號(hào)企業(yè))存在明顯的稅收風(fēng)險(xiǎn),其中第9類中的企業(yè)在2015年發(fā)生了股權(quán)轉(zhuǎn)讓,并且其轉(zhuǎn)讓形式為平價(jià)轉(zhuǎn)讓,轉(zhuǎn)讓情況見(jiàn)表3。
該企業(yè)創(chuàng)立于2007年,注冊(cè)資金為16億元。2015年自然人股東A將其全部股份轉(zhuǎn)讓給自然人股東B。稅務(wù)人員通過(guò)爬取并分析企業(yè)官網(wǎng)的相關(guān)信息,基于聚類結(jié)果并結(jié)合初步的取證分析,發(fā)現(xiàn)該企業(yè)在股權(quán)轉(zhuǎn)讓第一環(huán)節(jié)凈資產(chǎn)評(píng)估中存在明顯稅收風(fēng)險(xiǎn);基于網(wǎng)上的公司介紹,粗略估計(jì)其實(shí)際總資產(chǎn)在2014年就已上漲了10.19倍,所有者權(quán)益達(dá)近9億元。因此,2015年股權(quán)平價(jià)轉(zhuǎn)讓形式不合理。為此,稅收工作人員多次約談企業(yè)負(fù)責(zé)人和相關(guān)財(cái)務(wù)人員,并進(jìn)一步調(diào)查和精確評(píng)估了其股權(quán)交易時(shí)的企業(yè)凈資產(chǎn),測(cè)算其應(yīng)補(bǔ)繳個(gè)人所得稅近5千萬(wàn)元。
值得注意的是,基于聚類的方式挖掘出的小類并不一定都存在問(wèn)題,需要稅務(wù)人員對(duì)可疑企業(yè)進(jìn)行進(jìn)一步分析排查。聚類結(jié)果作為一種導(dǎo)向,可幫助稅務(wù)人員快速定位可疑企業(yè),縮小排查范圍。
四、結(jié)語(yǔ)
本文以房地產(chǎn)類企業(yè)的財(cái)稅數(shù)據(jù)為實(shí)驗(yàn)樣本,結(jié)合網(wǎng)絡(luò)爬取數(shù)據(jù),驗(yàn)證了改進(jìn)K-means聚類方法在稅收疑點(diǎn)發(fā)現(xiàn)上的有效性。基于改進(jìn)K-means聚類方法的稅收風(fēng)險(xiǎn)識(shí)別兼顧了對(duì)大數(shù)據(jù)的總體分析,可發(fā)現(xiàn)與總體差異較大的異常實(shí)例,有效地提高了稅務(wù)風(fēng)險(xiǎn)監(jiān)控效率。雖然該方法下稅務(wù)人員不需要先驗(yàn)知識(shí)就可進(jìn)行風(fēng)險(xiǎn)識(shí)別,但在判定企業(yè)是否存在高風(fēng)險(xiǎn)時(shí)仍需要與其經(jīng)驗(yàn)判斷相結(jié)合。
主要參考文獻(xiàn):
[1]朱丹..“金稅三期”背后的稅收風(fēng)險(xiǎn)管理探討[J]..現(xiàn)代商貿(mào)工業(yè),2018(20):109~110..
[2]徐壁..基于大數(shù)據(jù)的稅收風(fēng)險(xiǎn)管理研究與應(yīng)用[J]..信息與電腦(理論版),2018(23):102~103..
[3]劉小瑜,溫有棟,江炳官..“互聯(lián)網(wǎng)+”背景下高新技術(shù)企業(yè)的稅收風(fēng)險(xiǎn)預(yù)警——基于智能優(yōu)化算法的研究[J]..稅務(wù)研究,2018(6):82~88..
[4]劉尚希,孫靜..大數(shù)據(jù)思維:在稅收風(fēng)險(xiǎn)管理中的應(yīng)用[J]..經(jīng)濟(jì)研究參考,2016(9):19~26..
[5]趙長(zhǎng)江,吳樂(lè)云..多維關(guān)聯(lián)規(guī)則挖掘在欠稅管理中的應(yīng)用[J]..科技廣場(chǎng),2015(12):29~33..
[6]胡國(guó)慶..稅收風(fēng)險(xiǎn)識(shí)別模型建設(shè)存在的問(wèn)題及對(duì)策[J]..現(xiàn)代經(jīng)濟(jì)信息,2016(23):173~174..
作者單位:1.重慶理工大學(xué)會(huì)計(jì)學(xué)院,重慶400054;2.重慶市渝北區(qū)稅務(wù)局,重慶4011203B9D63FC-2534-44F2-AEF8-A170F434ADAA