關(guān)海山,鄭玉龍,魏筆凡,張澤民,岳浩,師斌,董博
1. 西安交通大學(xué)軟件學(xué)院,陜西 西安 710049;
2. 陜西省天地網(wǎng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710049;
3. 西安交通大學(xué)繼續(xù)教育學(xué)院,陜西 西安 710049;
4. 西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710049
稅收優(yōu)惠政策是指稅法對(duì)某些納稅人和征稅對(duì)象給予鼓勵(lì)和照顧的一種特殊規(guī)定,是國(guó)家利用稅收調(diào)節(jié)經(jīng)濟(jì)的具體手段。國(guó)家通過(guò)稅收優(yōu)惠政策可以扶持某些特殊地區(qū)、產(chǎn)業(yè)、企業(yè)和產(chǎn)品的發(fā)展,促進(jìn)產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整和社會(huì)經(jīng)濟(jì)的協(xié)調(diào)發(fā)展,保證了企業(yè)的競(jìng)爭(zhēng)力和存活力,并且對(duì)就業(yè)和再就業(yè)具有極大的積極影響。稅收優(yōu)惠政策的形式各種各樣,包括稅額減免、稅基扣除、稅率降低等。稅收優(yōu)惠政策的范圍越廣、差別越大、方式越多、內(nèi)容越豐富,納稅人稅收籌劃的空間就越大、節(jié)減稅收的合理方式就越多,因此納稅人可合法利用稅收優(yōu)惠政策來(lái)減輕自身的稅收壓力。
為了“減稅降負(fù)”“精準(zhǔn)施策”以及推進(jìn)“放管服”等改革措施,稅務(wù)主管部門(mén)近年來(lái)推出了大量不同類(lèi)型的稅收優(yōu)惠政策。這些稅收優(yōu)惠政策主要通過(guò)專(zhuān)題講座、納稅教育輔導(dǎo)以及網(wǎng)站政策公告等方式進(jìn)行宣傳和推廣,時(shí)效性差、覆蓋面小。納稅人需要花費(fèi)大量的時(shí)間跟蹤稅收優(yōu)惠政策的發(fā)布,快速?gòu)暮A慷愂諆?yōu)惠政策中查找并定位與自身相關(guān)的優(yōu)惠信息變得越來(lái)越困難,導(dǎo)致許多納稅人沒(méi)有享受到應(yīng)該享受的優(yōu)惠,甚至有些納稅人不清楚哪些優(yōu)惠政策與自己相關(guān)。隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)出大規(guī)模、多元化、組織結(jié)構(gòu)松散等特點(diǎn)。稅收優(yōu)惠信息也難以避免這種情況,多源、異構(gòu)導(dǎo)致的信息碎片化等問(wèn)題[1]給納稅人獲取有效的稅收優(yōu)惠信息造成了困擾。
國(guó)家稅務(wù)總局在《關(guān)于進(jìn)一步深化稅收征管改革的意見(jiàn)》中強(qiáng)調(diào),要優(yōu)化以滿足納稅人正當(dāng)需求和維護(hù)合法權(quán)益為中心的納稅服務(wù),構(gòu)建更加方便、快捷、高效的納稅服務(wù)機(jī)制[2-3]。目前少數(shù)研究者希望通過(guò)大數(shù)據(jù)技術(shù)等前沿技術(shù)實(shí)行稅收優(yōu)惠政策的“直達(dá)快享”,但是稅務(wù)大數(shù)據(jù)推薦技術(shù)需要從多個(gè)維度分析納稅人的過(guò)程信息和行為信息,而目前的稅務(wù)信息系統(tǒng)還無(wú)法提供這些信息。此外,為了保證大數(shù)據(jù)推薦技術(shù)的質(zhì)量,需要集成稅務(wù)領(lǐng)域中大量的業(yè)務(wù)系統(tǒng),但是各個(gè)系統(tǒng)提供的原始數(shù)據(jù)往往存在標(biāo)準(zhǔn)不統(tǒng)一、一致性低、規(guī)范性差等問(wèn)題,需要進(jìn)行海量數(shù)據(jù)的清洗、轉(zhuǎn)換、對(duì)碰等預(yù)處理工作,工作量大、錯(cuò)誤率高。利用少量數(shù)據(jù)預(yù)測(cè)大量未知信息則可能產(chǎn)生過(guò)擬合等風(fēng)險(xiǎn)[1,4]。
為此,本文基于深度學(xué)習(xí)與特征規(guī)則聯(lián)合抽取方法構(gòu)建了一個(gè)稅收優(yōu)惠法規(guī)可視化分析系統(tǒng),該系統(tǒng)的貢獻(xiàn)主要體現(xiàn)在以下兩點(diǎn):
● 根據(jù)稅務(wù)專(zhuān)家的經(jīng)驗(yàn)知識(shí),制作稅收優(yōu)惠關(guān)鍵要素?cái)?shù)據(jù)模板,提供了一種針對(duì)稅收優(yōu)惠政策的結(jié)構(gòu)化數(shù)據(jù)抽取方法,解決了稅收優(yōu)惠政策信息碎片化等問(wèn)題,完成了復(fù)雜稅收優(yōu)惠信息到結(jié)構(gòu)化信息的轉(zhuǎn)換;
● 基于稅收優(yōu)惠關(guān)鍵要素?cái)?shù)據(jù)模板,設(shè)計(jì)了以納稅人為主體的徑向圖可視化查詢方式,解決了納稅人在面對(duì)海量的稅收優(yōu)惠政策時(shí),無(wú)法快速定位與自身相關(guān)的優(yōu)惠內(nèi)容的問(wèn)題。
該系統(tǒng)的構(gòu)建主要有3個(gè)步驟:稅收優(yōu)惠主題構(gòu)建、稅收優(yōu)惠分面識(shí)別、稅收優(yōu)惠查詢與可視化。
(1)稅收優(yōu)惠主題構(gòu)建
● 文本分割:對(duì)稅收優(yōu)惠政策進(jìn)行文本分割處理。根據(jù)大量觀察與統(tǒng)計(jì),稅收優(yōu)惠政策的文件表現(xiàn)形式一般為由若干個(gè)條款組成的完整文檔,每個(gè)條款都描述了一些與其他條款不同的稅收信息。因此根據(jù)優(yōu)惠文檔的特征設(shè)計(jì)出文本分割算法,把一個(gè)稅收優(yōu)惠政策文檔分割為若干個(gè)稅收優(yōu)惠條款,得到一個(gè)由若干個(gè)條款組成的集合。
● 稅收條款的優(yōu)惠信息識(shí)別:將單個(gè)稅收優(yōu)惠政策處理為若干個(gè)條款后,并非所有條款的內(nèi)容都包含與稅收優(yōu)惠相關(guān)的信息,因此構(gòu)建一個(gè)深度學(xué)習(xí)的分類(lèi)模型,識(shí)別出與稅收優(yōu)惠相關(guān)的條款。
(2)稅收優(yōu)惠分面識(shí)別
制作稅收優(yōu)惠政策關(guān)鍵要素?cái)?shù)據(jù)模板,該模板包含條款內(nèi)容、享受主體、標(biāo)題、文號(hào)、減免方式、減免類(lèi)型、稅種、政策類(lèi)型和有效期限9個(gè)關(guān)鍵要素。根據(jù)不同的關(guān)鍵要素構(gòu)建不同類(lèi)型的模型任務(wù)對(duì)其內(nèi)容進(jìn)行識(shí)別和抽取,然后使用關(guān)系型數(shù)據(jù)庫(kù)將抽取的知識(shí)進(jìn)行存儲(chǔ),為查詢與可視化提供數(shù)據(jù)支撐。
(3)稅收優(yōu)惠查詢與可視化
面對(duì)海量稅收優(yōu)惠政策文件,納稅人難以精準(zhǔn)檢索到相關(guān)稅收優(yōu)惠內(nèi)容,且難以直接了解稅收優(yōu)惠的重要信息。因此,該系統(tǒng)設(shè)計(jì)了稅收優(yōu)惠政策查詢與可視化的功能模塊。當(dāng)用戶輸入稅收優(yōu)惠政策的享受主體后,就能快速查詢到該享受主體以及與其相似的享受主體相關(guān)的稅收優(yōu)惠政策,并以徑向圖的方式展示,顯示每個(gè)政策條款的關(guān)鍵要素內(nèi)容,提高政策條款的易讀性。
近年來(lái)稅務(wù)領(lǐng)域的相關(guān)工作側(cè)重于偷稅漏稅檢測(cè)、發(fā)票虛開(kāi)檢測(cè)、金融欺詐識(shí)別等,文本信息抽取方面的工作較少。因此,本節(jié)將從兩方面進(jìn)行介紹,一是針對(duì)某一特定領(lǐng)域的文本信息抽取工作,二是可視化布局的相關(guān)工作。
在特定領(lǐng)域內(nèi)進(jìn)行文本信息抽取的工作已有許多。針對(duì)特定領(lǐng)域中的語(yǔ)料個(gè)性化、訓(xùn)練數(shù)據(jù)稀缺等問(wèn)題,如何進(jìn)行文本信息抽取工作是研究者一直關(guān)心的問(wèn)題。Zhang R X等人[5]對(duì)少量監(jiān)管文件和物業(yè)租賃協(xié)議文檔進(jìn)行人工注釋?zhuān)眠@些文檔對(duì)BERT(bidirectional encoder representations from transformers)模型進(jìn)行微調(diào),之后成功利用該模型從這兩種不同類(lèi)型的商業(yè)文檔中提取結(jié)構(gòu)化實(shí)體,并將成果展示在一個(gè)端到端云平臺(tái),允許用戶上傳文檔并檢查模型的結(jié)果,說(shuō)明少量特定領(lǐng)域的注釋數(shù)據(jù)足以微調(diào)BERT模型,實(shí)現(xiàn)具有一定準(zhǔn)確度的元素內(nèi)容的提取。Nguyen M T等人[6]在BERT模型上疊加卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)層完成了遷移學(xué)習(xí),基于Transformers開(kāi)發(fā)了原型產(chǎn)品AURORA,該系統(tǒng)解決了在訓(xùn)練樣本數(shù)量有限的情況下,從特定領(lǐng)域中提取結(jié)構(gòu)化信息的問(wèn)題。Friedrich A等人[7]針對(duì)材料科學(xué)領(lǐng)域提出了3個(gè)信息提取任務(wù):實(shí)驗(yàn)描述句子的檢測(cè)、實(shí)體識(shí)別和輸入以及與實(shí)驗(yàn)相關(guān)的數(shù)值的識(shí)別,針對(duì)這些任務(wù),他們標(biāo)注了一個(gè)新的語(yǔ)料庫(kù),使用不同的模型進(jìn)行信息抽取的對(duì)比工作,實(shí)驗(yàn)發(fā)現(xiàn)BERT模型的性能優(yōu)于其他模型的性能,同時(shí)他們使用BERT+BiLSTM(雙向長(zhǎng)短期記憶網(wǎng)絡(luò))的組合以應(yīng)對(duì)更加復(fù)雜的挑戰(zhàn)。Zeghdaoui M W等人[8]提出了一種基于CNN結(jié)合長(zhǎng)短期記憶(long shortterm memory,LSTM)神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)文本分類(lèi)模型,CNN-LSTM模型使用通過(guò)FastText計(jì)算的詞向量來(lái)實(shí)現(xiàn)最高準(zhǔn)確度,獲得了較好的結(jié)果。
如何合理地將與納稅人相關(guān)的優(yōu)惠信息可視化,并通過(guò)簡(jiǎn)單直觀的方式進(jìn)行展示,是一個(gè)值得思考的問(wèn)題。Brandes U等人[9-10]提出,中心性是圖分析中一個(gè)重要的研究?jī)?nèi)容,它量化了節(jié)點(diǎn)在圖結(jié)構(gòu)中的重要性,因此徑向布局是一種直觀地表達(dá)節(jié)點(diǎn)間相對(duì)重要性的有效方法。之后他們又提出了一種新型的徑向布局,該方法是基于應(yīng)力最小化的擴(kuò)展,其加權(quán)方案在優(yōu)化過(guò)程中逐漸對(duì)中間布局施加徑向約束。Raj M等人[11]提出了一種新的無(wú)向圖布局方法,將頂點(diǎn)約束在一組閉合的曲線上,這種布局可以很好地顯示圖的中心性和頂點(diǎn)距離信息,同時(shí)提供了一種可視化策略證明了布局方法的有效性。Fenu G等人[12]在社交網(wǎng)絡(luò)、YouTube、Wikipedia上使用了徑向布局來(lái)表示用戶與特定對(duì)象的匹配關(guān)系,認(rèn)為簡(jiǎn)單而有效的可視化狀態(tài)可以給用戶帶來(lái)不同的好處。Bostock M等人[13-14]提出了ProtoVis和D3.js框架,ProtoVis可以將數(shù)據(jù)直接映射到可視元素,使設(shè)計(jì)者無(wú)須計(jì)算細(xì)節(jié)即可實(shí)現(xiàn)可視化;D3.js可以將輸入數(shù)據(jù)綁定到任意的文檔元素中,通過(guò)動(dòng)態(tài)轉(zhuǎn)換修改內(nèi)容。Li D Q等人[15]提出了Echart可視化框架,它是一個(gè)開(kāi)源的、基于Web的、跨平臺(tái)的框架,具有簡(jiǎn)單易用、交互內(nèi)容豐富以及高性能的特點(diǎn),它的核心是一套聲明式可視化設(shè)計(jì)語(yǔ)言,設(shè)計(jì)者可以自定義內(nèi)置圖表類(lèi)型。
本文的主要工作是抽取稅務(wù)領(lǐng)域中的一些關(guān)鍵信息,通過(guò)實(shí)驗(yàn)對(duì)比將性能較好的BERT模型作為核心,針對(duì)不同的信息抽取任務(wù)采用不同的處理方式,實(shí)現(xiàn)對(duì)稅收優(yōu)惠關(guān)鍵信息的抽取,并采取徑向圖布局的方法進(jìn)行可視化展示。
該系統(tǒng)包含兩個(gè)概念定義:稅收優(yōu)惠主題和稅收優(yōu)惠條款分面。將每個(gè)稅收優(yōu)惠政策文檔看作一個(gè)獨(dú)立的集合,用N表示,將每個(gè)文檔內(nèi)部包含的各個(gè)優(yōu)惠條款看作最小的不可分割的元素,用C表示。定義一個(gè)集合N由若干個(gè)元素C組成,表示為N={C1,C2,…,Cn},如果Ci包含了稅收優(yōu)惠的相關(guān)內(nèi)容,則稱(chēng)Ci為一個(gè)稅收優(yōu)惠主題。根據(jù)稅務(wù)專(zhuān)家經(jīng)驗(yàn),制作稅收優(yōu)惠政策的數(shù)據(jù)結(jié)構(gòu)模板。該模板包括條款內(nèi)容、享受主體、標(biāo)題、文號(hào)、減免方式、減免類(lèi)型、稅種、政策類(lèi)型和有效期限9個(gè)關(guān)鍵要素,這些關(guān)鍵要素可以有效地對(duì)稅收優(yōu)惠文檔的重要內(nèi)容進(jìn)行表示。其中,一個(gè)關(guān)鍵要素就是稅收優(yōu)惠條款的一個(gè)分面,每個(gè)元素Ci都由這9個(gè)分面組成。最終的結(jié)構(gòu)為一個(gè)稅收優(yōu)惠政策文檔包含一個(gè)或多個(gè)主題,每個(gè)主題具有9個(gè)分面,每個(gè)分面都對(duì)應(yīng)一個(gè)關(guān)鍵要素內(nèi)容。
圖1所示為稅收優(yōu)惠法規(guī)可視化系統(tǒng)3個(gè)模塊的框架。每個(gè)模塊的功能和特性描述如下。
圖1 系統(tǒng)框架
為了保證數(shù)據(jù)源的權(quán)威性以及準(zhǔn)確性,將國(guó)家稅務(wù)總局官方網(wǎng)站以及各省市地方分局官方網(wǎng)站作為本系統(tǒng)的數(shù)據(jù)來(lái)源。使用Python爬蟲(chóng)技術(shù)的Requests庫(kù)和BeautifulSoup庫(kù)進(jìn)行頁(yè)面文檔的全面解析,過(guò)濾除文檔自身內(nèi)容以外的不必要元素,以保證數(shù)據(jù)源的質(zhì)量。
模塊1:稅收優(yōu)惠主題構(gòu)建。根據(jù)稅務(wù)專(zhuān)家系統(tǒng)的先驗(yàn)知識(shí),對(duì)大量稅收優(yōu)惠政策文檔的結(jié)構(gòu)、特征進(jìn)行歸納和總結(jié)。通過(guò)特征提取,定位文檔關(guān)鍵位置,使用基于規(guī)則的方法,設(shè)計(jì)了針對(duì)稅收優(yōu)惠政策文檔的文本切割算法,該算法可以將稅收優(yōu)惠政策文檔分割為若干條以單個(gè)條款為最小文本單位的文本序列集合。最后將每個(gè)稅收優(yōu)惠文檔形式化為一個(gè)獨(dú)立的集合,用N表示。將文檔內(nèi)部的各個(gè)優(yōu)惠條款看作最小且不可分割的元素,用Ci表示。定義一個(gè)集合N由若干個(gè)元素Ci組成,表示為N={C1,C2,…,Cn}。通過(guò)深度學(xué)習(xí)技術(shù)構(gòu)建的算法模型對(duì)集合N中的每個(gè)主題進(jìn)行識(shí)別,得到集合N中含有稅收優(yōu)惠政策的主題Ci,形成新的集合T={Ci,…,Cm}。
模塊2:稅收優(yōu)惠條款分面識(shí)別。對(duì)模塊1中集合T的元素進(jìn)行處理,使用深度學(xué)習(xí)與規(guī)則處理相結(jié)合的方法對(duì)每個(gè)元素進(jìn)行識(shí)別和抽取,使得每個(gè)主題都包含9個(gè)稅收優(yōu)惠條款分面。該模塊的輸入為經(jīng)過(guò)模塊1處理后得到的集合T,輸出為每個(gè)條款的各個(gè)關(guān)鍵要素信息。
模塊3:稅收優(yōu)惠查詢和可視化。根據(jù)稅收優(yōu)惠關(guān)鍵要素?cái)?shù)據(jù)模板,設(shè)計(jì)分類(lèi)查詢以及相應(yīng)的可視化算法,實(shí)現(xiàn)系統(tǒng)的查詢與可視化功能。
在該系統(tǒng)中,數(shù)據(jù)源的預(yù)處理部分簡(jiǎn)單利用了爬蟲(chóng)程序和基于規(guī)則的算法解析,因此不進(jìn)一步描述這些算法的詳細(xì)實(shí)現(xiàn)。
首先,對(duì)大量稅收優(yōu)惠文檔結(jié)構(gòu)、特征進(jìn)行歸納和總結(jié),通過(guò)提取特征、定位文檔關(guān)鍵位置的索引,使用基于規(guī)則的方法設(shè)計(jì)文本切割算法,把一個(gè)文本分割成若干條款,如圖2所示。
圖2 稅收優(yōu)惠條款分割示例
之后,對(duì)分割后的條款進(jìn)行數(shù)據(jù)標(biāo)注,標(biāo)記該條款是否包含與稅收優(yōu)惠政策相關(guān)的內(nèi)容,如果包含,則標(biāo)記為1,否則標(biāo)記為0;然后使用深度學(xué)習(xí)模型學(xué)習(xí)帶有標(biāo)記的樣本。本系統(tǒng)采用性能較好的BERT模型,BERT模型是一種基于Transformer的Encoder結(jié)構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)海量的文本數(shù)據(jù)訓(xùn)練掩碼語(yǔ)言模型(masked language model,MLM)和下一句預(yù)測(cè)(next sentence prediction,NSP)任務(wù),使BERT模型可以學(xué)習(xí)更深層的語(yǔ)義信息[16]。在經(jīng)過(guò)預(yù)訓(xùn)練的BERT模型上進(jìn)行微調(diào),可以使一些下游應(yīng)用表現(xiàn)出更好的效果。
圖3所示為稅收優(yōu)惠主題識(shí)別模型結(jié)構(gòu),具體步驟如下。
步驟1:把輸入的條款轉(zhuǎn)換為字符級(jí)別的序列。如圖3所示,設(shè)置BERT模型可處理的最大序列長(zhǎng)度為maxlen,加上首位CLS符號(hào),故可處理的條款最大長(zhǎng)度為maxlen-1。對(duì)于超出最大長(zhǎng)度的輸入條款,根據(jù)文本的結(jié)構(gòu)特征,優(yōu)先處理句子的頭部和尾部,即將前0.25×maxlen個(gè)字符和后0.75×maxlen個(gè)字符作為模型輸入;對(duì)于長(zhǎng)度小于maxlen-1的輸入文本,填充空字符,后文采取同樣的處理方式,不再贅述。
圖3 稅收優(yōu)惠主題識(shí)別模型結(jié)構(gòu)
步驟2:序列首增加CLS符號(hào),生成序列表示。
其中,S表示輸入序列,V表示詞表,除了涉及全部字符外,還包括特殊口令CLS、SEP、UNK、PAD和MASK,Vlookup是指在詞表V中尋找字符的編號(hào),input表示S根據(jù)詞表中的編號(hào)計(jì)算出的序列。Word_Embedding指將字符映射為詞嵌入向量,結(jié)果E為輸入序列的嵌入向量,計(jì)算過(guò)程是inpute×W,We表示計(jì)算結(jié)果E的權(quán)重參數(shù),隨機(jī)初始化其值,在訓(xùn)練過(guò)程中根據(jù)梯度更新We。
步驟3:使用BERT對(duì)序列嵌入進(jìn)行特征提取。
①字向量與位置編碼:
根據(jù)式(4)計(jì)算位置嵌入P,式(5)中pos(input)指獲得字符在序列中的位置,Wp表示計(jì)算結(jié)果P的權(quán)重參數(shù)。
②計(jì)算:
其中,X為字符嵌入向量E與位置嵌入向量P之和。
③自注意力機(jī)制:
其中,Q為查詢矩陣,K為鍵矩陣,V為值矩陣,Z為自注意力矩陣,分別為權(quán)重參數(shù),其值進(jìn)行隨機(jī)初始化。
④自注意力殘差連接與歸一化
定義歸一化函數(shù):
計(jì)算:
⑤前饋殘差連接與歸一化:
其中,Xattention表示自注意力分?jǐn)?shù),Xhidden表示輸入序列的隱藏狀態(tài)。此時(shí),文本的深層語(yǔ)義特征提取全部完成,為了方便描述,后文統(tǒng)一用Xhidden=BERT(S)表示BERT對(duì)序列嵌入進(jìn)行特征提取。
步驟4:使用全鏈接層將隱藏層第1個(gè)位置(CLS對(duì)應(yīng)的特征向量)進(jìn)行特征提取。此向量包括整句的所有語(yǔ)義信息,全連接層將CLS特征向量維度降至標(biāo)簽個(gè)數(shù)t。
步驟5:最后使用Softmax分類(lèi)器計(jì)算相應(yīng)的標(biāo)簽,Y為最終輸出結(jié)果,即預(yù)測(cè)標(biāo)簽。
由于BERT模型的輸入有最大長(zhǎng)度限制,為了得到更好的分類(lèi)結(jié)果,對(duì)于超出最大長(zhǎng)度的條款,按句號(hào)切割后分別作為模型的輸入,把模型輸出的多個(gè)結(jié)果集成起來(lái)作為該條款的分類(lèi)結(jié)果。圖4展示了稅收優(yōu)惠主題識(shí)別的示例,其中第1個(gè)和第2個(gè)條款包含與稅收優(yōu)惠相關(guān)的內(nèi)容,第3個(gè)條款則不包含。
圖4 稅收優(yōu)惠主題識(shí)別示例
根據(jù)稅務(wù)專(zhuān)家的經(jīng)驗(yàn),在單個(gè)條款中人們關(guān)心的主要內(nèi)容和稅收優(yōu)惠關(guān)鍵要素見(jiàn)表1,筆者分別以不同的形式對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,使用不同的方法和模型進(jìn)行處理。
表1 稅收優(yōu)惠關(guān)鍵要素描述
2.3.1 享受主體識(shí)別
從一個(gè)樣本序列中識(shí)別出享受主體字段,這是一種典型的序列標(biāo)注任務(wù)。例如在“一、自2015年1月1日起至2016年12月31日止,對(duì)物流企業(yè)自有的(包括自用和出租)大宗商品倉(cāng)儲(chǔ)設(shè)施用地,減按所屬土地等級(jí)適用稅額標(biāo)準(zhǔn)的50%計(jì)征城鎮(zhèn)土地使用稅。”這個(gè)條款中,“物流企業(yè)”是享受主體。把這個(gè)樣本按照字符順序拆分成一系列漢字,每個(gè)字符都擁有標(biāo)簽,標(biāo)簽類(lèi)型為“BIO”形式,之后模型需要給出每個(gè)字符的標(biāo)簽類(lèi)型,最終識(shí)別為BI標(biāo)簽的字符被認(rèn)為是享受主體。圖5所示為享受主體識(shí)別模型結(jié)構(gòu),具體步驟如下。
圖5 享受主體識(shí)別模型結(jié)構(gòu)
步驟1:把輸入的條款轉(zhuǎn)換為字符級(jí)別的序列。
步驟2:序列前端增加CLS符號(hào),生成序列的向量表示。
步驟3:使用BERT對(duì)序列嵌入進(jìn)行特征提取。
步驟4:使用BiLSTM將隱藏層參數(shù)降維為k,接著使用全連接層將維度降至標(biāo)簽個(gè)數(shù)t。
步驟5:使用條件隨機(jī)場(chǎng)(conditional random fields,CRF)對(duì)輸出層的標(biāo)簽進(jìn)行約束,輸出最優(yōu)的標(biāo)注序列[17-18]。
2.3.2 稅種、減免類(lèi)型、減免方式、政策類(lèi)型識(shí)別
在標(biāo)注數(shù)據(jù)的過(guò)程中,筆者發(fā)現(xiàn)28.3%的條款涉及多個(gè)稅種,如“五、對(duì)青藏鐵路公司及其所屬單位自用的房產(chǎn)、土地免征房產(chǎn)稅、城鎮(zhèn)土地使用稅?!逼渲猩婕胺慨a(chǎn)稅和城鎮(zhèn)土地使用稅兩個(gè)稅種。因此筆者采用了多標(biāo)簽識(shí)別的方法。給定訓(xùn)練集:、詞表V、標(biāo)簽空間L={l1,l2,l3,…,ln},第i個(gè)條款文本表示為Si={w1,w2,w3,…,wm},其中?w∈V。詞表V除樣本集包含的字符外,還包含MASK、CLS、PAD、UNK、SEQ這些無(wú)實(shí)際語(yǔ)義的特殊字符。Yi={y1,y2,y3,…,yn}是由0或1組成的列表,yi為1時(shí)對(duì)應(yīng)第i個(gè)標(biāo)簽的稅種,標(biāo)簽空間L={l1,l2,l3,…,ln}對(duì)應(yīng)一個(gè)映射函數(shù),其中。
步驟1:把輸入的條款轉(zhuǎn)換為字符級(jí)別的序列。
步驟2:序列前端增加CLS符號(hào),生成序列的向量表示。
步驟3:使用BERT模型對(duì)序列嵌入進(jìn)行特征提取。
步驟4:使用全連接層對(duì)隱藏層第1個(gè)位置(CLS對(duì)應(yīng)的特征向量)進(jìn)行特征提取。此向量包括整句的所有語(yǔ)義信息,全連接層將CLS特征向量維度降至標(biāo)簽個(gè)數(shù)t。
步驟5:最后使用sigmoid分類(lèi)器計(jì)算相應(yīng)的標(biāo)簽。
減免類(lèi)型、減免方式、政策類(lèi)型均屬于文本分類(lèi)任務(wù),采用與稅收優(yōu)惠主題識(shí)別同樣的方法進(jìn)行處理。
2.3.3 有效期限、標(biāo)題、文號(hào)識(shí)別
對(duì)于有效期限、標(biāo)題、文號(hào)這3個(gè)相對(duì)簡(jiǎn)單、規(guī)律性強(qiáng)、特征比較突出的關(guān)鍵要素,采用基于規(guī)則的算法進(jìn)行抽取識(shí)別。絕大多數(shù)稅收優(yōu)惠政策是由國(guó)家稅務(wù)主管部門(mén)進(jìn)行撰寫(xiě)和公布的,因此稅收優(yōu)惠政策的結(jié)構(gòu)和格式有很強(qiáng)的規(guī)律性和統(tǒng)一性,見(jiàn)表2。經(jīng)過(guò)大量的稅收優(yōu)惠政策總結(jié),筆者共發(fā)現(xiàn)有效期限、標(biāo)題、文號(hào)的特征30余種。根據(jù)總結(jié)特征,分別使用正則算法進(jìn)行規(guī)則匹配,可以有效地提取和識(shí)別有效期限、標(biāo)題和文號(hào)3個(gè)關(guān)鍵數(shù)據(jù)字段。
表2 特征規(guī)則示例
如圖6所示,在處理完稅收優(yōu)惠主題識(shí)別和稅收優(yōu)惠分面識(shí)別后,將結(jié)果全部輸出到稅收優(yōu)惠關(guān)鍵要素?cái)?shù)據(jù)模板,該模板界面支持識(shí)別結(jié)果的全覽和修正工作,并使用S Q L數(shù)據(jù)庫(kù)存儲(chǔ)和管理數(shù)據(jù)。
圖6 稅收政策處理后結(jié)果預(yù)覽
為了方便擴(kuò)充更多的數(shù)據(jù)集,本文在設(shè)計(jì)數(shù)據(jù)庫(kù)時(shí)結(jié)合了數(shù)據(jù)標(biāo)注時(shí)的場(chǎng)景,分別設(shè)計(jì)了{(lán)BIG_TAX,CLAUSE,CLAUSE_TAX,CLAUSE_ENJOY,ENJOY,NOTICE,SMALL_TAX}數(shù)據(jù)表。在使用者提交經(jīng)過(guò)調(diào)整的正確數(shù)據(jù)后,這些數(shù)據(jù)表不僅存儲(chǔ)了數(shù)據(jù)信息,同時(shí)存儲(chǔ)了每個(gè)條款對(duì)應(yīng)的數(shù)據(jù)標(biāo)簽,如“享受主體”字段在條款中的索引位置以及BIO標(biāo)簽、“稅種”字段的標(biāo)簽類(lèi)型等。該系統(tǒng)處理新的稅收優(yōu)惠文檔后,數(shù)據(jù)集也會(huì)不斷擴(kuò)充,可以在數(shù)據(jù)庫(kù)中導(dǎo)出擴(kuò)充后的新數(shù)據(jù)集對(duì)模型進(jìn)行再次訓(xùn)練,在大量、高質(zhì)量數(shù)據(jù)集的支持下,該系統(tǒng)的算法模型性能也會(huì)進(jìn)一步提高[19]。
如圖7所示,稅收政策優(yōu)惠查詢與可視化是一種基于結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用,使用戶能夠快速檢索與享受主體相關(guān)的稅收優(yōu)惠信息,并采用徑向布局的可視化方式來(lái)展示以納稅人為核心的相關(guān)內(nèi)容。其中,綠色節(jié)點(diǎn)代表輸入的享受主體,黃色節(jié)點(diǎn)代表該享受主體所能享受的稅種,橘紅色節(jié)點(diǎn)代表對(duì)應(yīng)稅種納稅人能享受的優(yōu)惠條款。右側(cè)部分是每個(gè)條款關(guān)鍵要素的詳情信息,用戶可以從中快速了解該條款描述的重要內(nèi)容。
圖7 稅收優(yōu)惠政策可視化查詢
稅收政策優(yōu)惠查詢與可視化的主要過(guò)程是:①客戶端用戶輸入待了解的享受主體內(nèi)容,發(fā)送至服務(wù)端;②服務(wù)端在數(shù)據(jù)庫(kù)中匹配享受主體內(nèi)容,如果沒(méi)有匹配到當(dāng)前輸入的享受主體,則匹配與該享受主體語(yǔ)義相似的其他享受主體內(nèi)容并返回客戶端(例如,“老師”和“教師”在語(yǔ)義上比較相似,當(dāng)匹配“老師”失敗時(shí),則返回“教師”的信息);③客戶端收到相關(guān)內(nèi)容后,以享受主體為中心進(jìn)行徑向圖布局。
享受主體相似匹配算法將萊文斯坦距離(Levenshtein distance)算法作為技術(shù)基礎(chǔ)。萊文斯坦距離是一種編輯距離算法,通過(guò)求出編輯距離,計(jì)算兩個(gè)字符串的相似度Similarity =( Max(x,y)-Levenshtein)/Max(x,y),其中x、y為源串和目標(biāo)串的長(zhǎng)度。最后,根據(jù)設(shè)定的相似度閾值,遍歷搜索數(shù)據(jù)庫(kù)中所有享受主體,當(dāng)相似度大于或等于該閾值時(shí),則認(rèn)為其是當(dāng)前要查詢的享受主體的相似享受主體。
在可視化的實(shí)現(xiàn)過(guò)程中,大多數(shù)可視化工具的內(nèi)置基礎(chǔ)布局并不能完全滿足享受主體相關(guān)徑向圖,因此本文采用G61G6是一個(gè)簡(jiǎn)單、易用的圖可視化引擎,它提供了圖的繪制、布局、分析、交互、動(dòng)畫(huà)等圖可視化的基礎(chǔ)功能,相比于其他可視化工具,G6在關(guān)系圖形方面具有更多的類(lèi)別選擇和更強(qiáng)的可操作性。提供的自定義布局算法接口輔助可視化算法的實(shí)現(xiàn)。
主體相關(guān)徑向圖G=(V,E),節(jié)點(diǎn)類(lèi)型為,節(jié)點(diǎn)數(shù)目為節(jié)點(diǎn)有3種類(lèi)型:主體節(jié)點(diǎn)、稅種節(jié)點(diǎn)、條款節(jié)點(diǎn)。一個(gè)主體對(duì)應(yīng)多個(gè)稅種,相應(yīng)的一個(gè)稅種對(duì)應(yīng)多個(gè)條款。在主體相關(guān)徑向圖中,以一種享受優(yōu)惠政策的享受主體為焦點(diǎn)并將其布局在圖的中心,相關(guān)稅種距離為一度,各稅種相關(guān)的條款距離為二度進(jìn)行布局。
步驟1:可視化布局,以享受主體為中心,享受主體圓心半徑如下。
步驟2:計(jì)算一度布局,一度布局描述的是與享受主體相關(guān)的稅種,其圍繞在享受主體外一層附近的環(huán)上。
首先,計(jì)算單位偏移角度k,然后根據(jù)偏移角度k,按照順序依次計(jì)算各個(gè)節(jié)點(diǎn)的坐標(biāo)位置。因?yàn)椴煌亩惙N對(duì)應(yīng)的條款數(shù)目不同,所以其與享受主體的距離不一樣,距離與有關(guān),即條款數(shù)目越多,距離圓心越遠(yuǎn)。α為調(diào)整距離比的參數(shù),享受主體與任一稅種節(jié)點(diǎn)的直徑之和不大于包含最大條款數(shù)目稅種與參數(shù)α的乘積。
滿足:
圓心直徑如下:
步驟3:計(jì)算二度布局,二度布局是指每個(gè)稅種節(jié)點(diǎn)對(duì)應(yīng)的條款節(jié)點(diǎn)圍繞在與之對(duì)應(yīng)的稅種節(jié)點(diǎn)外層的環(huán)狀布局。
系統(tǒng)開(kāi)發(fā)階段用到了許多數(shù)據(jù)集,具體說(shuō)明如下。
(1)稅收優(yōu)惠政策法規(guī)數(shù)據(jù)集
數(shù)據(jù)來(lái)源于國(guó)家稅務(wù)總局網(wǎng)站以及各省市地方稅務(wù)分局官方網(wǎng)站等,包括1990—2020年發(fā)布的稅務(wù)優(yōu)惠政策4 000余篇文檔。每個(gè)文檔平均包含996個(gè)漢字,經(jīng)過(guò)文本分割算法切分條款共計(jì)12 000余條。為了給系統(tǒng)提供減免稅主題識(shí)別的功能,筆者根據(jù)需要篩選并標(biāo)注了2 000條數(shù)據(jù)用于訓(xùn)練。
(2)享受主體識(shí)別數(shù)據(jù)集
該數(shù)據(jù)集對(duì)識(shí)別享受稅收優(yōu)惠政策的納稅人提供數(shù)據(jù)支撐。目前專(zhuān)業(yè)領(lǐng)域的中文數(shù)據(jù)集尚為稀缺,因此筆者針對(duì)稅務(wù)領(lǐng)域納稅實(shí)體標(biāo)注了2 000余條包含稅收優(yōu)惠的減免稅主題條款。
(3)稅種多標(biāo)簽分類(lèi)數(shù)據(jù)集
該數(shù)據(jù)集為識(shí)別稅收優(yōu)惠政策涉及的稅種提供數(shù)據(jù)支撐。對(duì)于該數(shù)據(jù)集的構(gòu)建,筆者通過(guò)統(tǒng)計(jì)4 000余篇稅收優(yōu)惠政策文檔包含的稅種類(lèi)型,同時(shí)結(jié)合稅務(wù)主管部門(mén)官方提供的稅種分類(lèi)體系,在數(shù)據(jù)集構(gòu)建過(guò)程中,共設(shè)立并標(biāo)注稅種標(biāo)簽19種,其中包含:增值稅、消費(fèi)稅、企業(yè)所得稅、個(gè)人所得稅、資源稅、城市維護(hù)建設(shè)稅、房產(chǎn)稅、印花稅、城鎮(zhèn)土地使用稅、土地增值稅、車(chē)船稅、車(chē)輛購(gòu)置稅、煙葉稅、耕地占用稅、契稅、環(huán)境保護(hù)稅、進(jìn)出口稅收、營(yíng)業(yè)稅、其他稅種。
(4)其他稅收優(yōu)惠條款分面識(shí)別數(shù)據(jù)集
這部分?jǐn)?shù)據(jù)集與上述數(shù)據(jù)集類(lèi)似,只是在上述數(shù)據(jù)集原有的基礎(chǔ)上做了更多的分類(lèi)標(biāo)注和實(shí)體標(biāo)注。
本文實(shí)驗(yàn)是基于第3.1節(jié)的數(shù)據(jù)集開(kāi)展的。筆者使用不同的方法對(duì)比任務(wù)類(lèi)型相同的關(guān)鍵要素。本文將精確率(precision)、召回率(recall)以及F1分?jǐn)?shù)(F1 s c o re)作為評(píng)估指標(biāo)。其中TP、FP、FN分別表示真陽(yáng)率、假陽(yáng)率、假陰率。
實(shí)驗(yàn)設(shè)置:深度學(xué)習(xí)實(shí)驗(yàn)框架為PyTorch 1.10 Release,預(yù)訓(xùn)練語(yǔ)言模型BERT為Bert-Base-Chinese版本,詞表大小為 21 12 8個(gè)詞,隱藏層數(shù)為12,詞嵌入向量維度為768,注意力機(jī)制為12個(gè)。將數(shù)據(jù)集中的數(shù)據(jù)順序隨機(jī)打亂,將其中80%作為訓(xùn)練集,剩余20%作為測(cè)試集。訓(xùn)練時(shí)采用十折交叉驗(yàn)證,將訓(xùn)練數(shù)據(jù)集分成10組,每次使用9組訓(xùn)練模型,1組進(jìn)行驗(yàn)證,一共進(jìn)行10次訓(xùn)練,最后取10次驗(yàn)證的平均值作為最終的分?jǐn)?shù)。其中,文本分類(lèi)任務(wù)、多標(biāo)簽任務(wù)和序列標(biāo)注任務(wù)的參數(shù)設(shè)置如下:學(xué)習(xí)率為0.0001,批次大小為16,迭代次數(shù)為50,可處理序列最大長(zhǎng)度maxlen為512;BiLSTM模塊的參數(shù)設(shè)置如下:隱藏輸出維度為256,隱藏層數(shù)為1,丟棄率為0.3;Linear模塊的參數(shù)設(shè)如下:輸出維度為2;BiGRU模塊的參數(shù)設(shè)置如下:隱藏輸出維度為256,隱藏層數(shù)為1,丟失率為0.3;CRF的參數(shù)設(shè)置如下:標(biāo)簽數(shù)為2。
標(biāo)題、文號(hào)、有效期限的抽取屬于基于規(guī)則的任務(wù)。該任務(wù)筆者把抽取內(nèi)容與原目標(biāo)內(nèi)容進(jìn)行比較,如果相同,則標(biāo)記為1,否則標(biāo)記為0。從數(shù)據(jù)中隨機(jī)抽樣10組,每組為總數(shù)據(jù)的20%,將precision作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見(jiàn)表3。
表3 規(guī)則抽取結(jié)果
條款內(nèi)容、減免類(lèi)型、減免方式、政策類(lèi)型屬于文本分類(lèi)任務(wù)。該實(shí)驗(yàn)選擇了兩種文本分類(lèi)的方法Fa st t ex t和TextCNN進(jìn)行比較。評(píng)價(jià)指標(biāo)采用F1分?jǐn)?shù)、precision、recall。見(jiàn)表4,在其他處理方法相同的情況下,BERT模型的處理結(jié)果優(yōu)于Fasttext和TextCNN的處理結(jié)果。
表4 分類(lèi)結(jié)果對(duì)比
稅種的識(shí)別屬于文本多標(biāo)簽分類(lèi)任務(wù)。該任務(wù)將漢明損失(Hamming loss)作為指標(biāo)。
式(4 0)的結(jié)果表示所有標(biāo)簽中錯(cuò)誤樣本的比例,該值越小,則分類(lèi)器的分類(lèi)能力越強(qiáng)。其中表示標(biāo)簽總數(shù),|Γ|表示樣本總數(shù),xo r表示異或運(yùn)算。如圖8所示,在處理數(shù)據(jù)時(shí)筆者發(fā)現(xiàn),各稅種數(shù)量的高度不均衡導(dǎo)致了長(zhǎng)尾效應(yīng)。因此采用分步處理的方式,首先使用分類(lèi)模型判斷條款中的稅種數(shù)目,如果該數(shù)目大于4個(gè),則使用基于規(guī)則的方法進(jìn)行識(shí)別,否則使用文本多標(biāo)簽分類(lèi)方法進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果(見(jiàn)表5)表明,相比于直接使用BERT模型的方法,該處理方式的效果有所提升。
表5 多標(biāo)簽文本分類(lèi)結(jié)果
圖8 各個(gè)稅種比例分布情況
享受主體的抽取屬于序列標(biāo)注任務(wù),該實(shí)驗(yàn)分別采用BERT+BiLSTM+CRF、BERT+Linear+CRF和BERT+BiGRU+CRF 3種不同的方法進(jìn)行對(duì)比,具體實(shí)驗(yàn)結(jié)果見(jiàn)表6。
表6 序列標(biāo)注結(jié)果對(duì)比
本文設(shè)計(jì)開(kāi)發(fā)了一個(gè)使用簡(jiǎn)單、操作便捷的稅收優(yōu)惠法規(guī)可視化分析系統(tǒng)。該系統(tǒng)設(shè)計(jì)了稅收優(yōu)惠關(guān)鍵要素?cái)?shù)據(jù)模板,定義了稅收優(yōu)惠主題和稅收優(yōu)惠分面,實(shí)現(xiàn)了主題和分面的識(shí)別和抽取工作,完成了由非結(jié)構(gòu)化的稅收優(yōu)惠政策到結(jié)構(gòu)化的稅收優(yōu)惠關(guān)鍵要素?cái)?shù)據(jù)模板的轉(zhuǎn)換,研究開(kāi)發(fā)了稅收優(yōu)惠法規(guī)查詢與可視化分析功能。納稅人可以通過(guò)該系統(tǒng)查詢所有與自身利益相關(guān)的稅收優(yōu)惠政策。并且,該系統(tǒng)的信息抽取功能可以經(jīng)過(guò)人工干預(yù),完成數(shù)據(jù)的修正調(diào)優(yōu),存儲(chǔ)后的數(shù)據(jù)可以作為該系統(tǒng)的新數(shù)據(jù)集再次訓(xùn)練,從而使系統(tǒng)的識(shí)別與處理精度繼續(xù)提升。
目前的工作只是一個(gè)開(kāi)始,下一步筆者計(jì)劃在稅務(wù)領(lǐng)域做出更多的工作。首先是不斷地?cái)U(kuò)大稅務(wù)領(lǐng)域的數(shù)據(jù)集,同時(shí)在方法層面繼續(xù)改進(jìn),進(jìn)一步提高模型性能;其次,筆者的目標(biāo)是把當(dāng)前的工作應(yīng)用到稅務(wù)常識(shí)圖譜的構(gòu)建中,通過(guò)構(gòu)建該圖譜能夠更好地為稅務(wù)智能查詢以及稅務(wù)智能問(wèn)答等任務(wù)提供有力支撐。