內容提要:以ChatGPT為代表的自然語言大模型是數(shù)智時代的典型技術和應用創(chuàng)新。其在稅務部門的運用有助于提升征管效率、降低征納成本。湖北省稅務部門從國際稅收對外支付管理入手,探索自然語言大模型在稅收監(jiān)管中的應用,實現(xiàn)了智能化閱讀非居民稅收合同、對外支付備案審核和風險反饋等功能。同時將其嵌入電子稅務局相關模塊試點運行,加快了辦稅、審核和風控效率。實踐證明,自然語言大模型的引入可使稅收監(jiān)管效率更高,也為納稅人、稅務人和決策人提供了更豐富的方法和工具。利用自然語言大模型,計算機算法模擬精度無限接近甚至超過稅收管理細分領域的專家。普通稅收管理者可借此從事原來只有專家才能勝任的工作,有助于緩解當下稅收監(jiān)管中精英人才與復雜風險事項不匹配的難題。自然語言大模型在稅收監(jiān)管領域的應用并非一蹴而就,需長期跟蹤、研究和投入。建議稅務部門提前預判,積極介入,盡早為人工智能時代的稅收管理變革做好準備。
關鍵詞:人工智能;智慧稅務;自然語言大模型;國際稅收;ChatGPT
中圖分類號:F812.423" 文獻標識碼:A" 文章編號:2095-1280(2024)03-0038-09
一、引言及綜述
21世紀以來,世界范圍內人工智能技術取得了長足進展。深度學習技術極大提升了包括自然語言處理(Natural Language Processing,NLP)等在內的各人工智能方向的發(fā)展水平,而自然語言模型是NLP的重要研究方向之一。2022年開始,以ChatGPT為代表的接近人類水平的智能機器人一經(jīng)推出,其強大的內容生成能力即給人們帶來巨大震撼。人工智能技術正從感知、理解世界向生成、創(chuàng)造世界躍遷。國外的生成式預訓練模型系列產(chǎn)品快速迭代更新,帶動整個行業(yè)快速發(fā)展的同時,掀起了自然語言大模型研發(fā)浪潮。在此背景下,國內科技企業(yè)紛紛布局相關研究,華為的“盤古”系列、百度的“文心一言”、商湯科技的“商量”、阿里的“通義千問”等先后發(fā)布。隨著訓練數(shù)據(jù)量越來越大,訓練方法不斷更新,模型結構越來越復雜,許多自然語言大模型已在語言翻譯、文摘構建、命名實體識別、文本分類和關系抽取等多場景以及政務、金融和生物醫(yī)藥等多行業(yè)中得到應用。
目前學界對自然語言大模型的探討主要集中在三大領域:一是對類ChatGPT技術的自然語言大模型中的技術特征、技術優(yōu)勢、技術邏輯、發(fā)展脈絡、未來迭代方向等進行討論。如錢力等(2023)等梳理了自然語言大模型功能運行的技術細節(jié),認為目前生成式人工智能不僅是語料、算法、模型的迭代結果,也是各類算法模型有效組合與集成的結果。蒲清平和向往(2023)認為生成式人工智能依托強大的自然語言處理能力可能引發(fā)深層次變革,并成為撬動第四次工業(yè)革命發(fā)展的杠桿。朱光輝和王喜文(2023)從臺前和幕后兩維度分析了ChatGPT的運行模式,認為大語言模型技術下的人工智能技術是一把“雙刃劍”,在造福人類社會的同時,若使用不當也會產(chǎn)生負面影響。二是自然語言大模型與不同行業(yè)(教育創(chuàng)新、智能傳播、信息資源管理、信息情報整理等)應用場景的融合探索。如馮雨奐(2023)認為自然語言大模型與教育深度融合,不僅有利于增強學習者的認知主動性和實踐創(chuàng)造力,也有利于學習者掌握選擇主動權,減輕學習壓力,提升學習興趣。周葆華(2023)認為自然語言大模型是人類最新的知識媒介,對人類知識傳播的生產(chǎn)、調用與流通帶來重要影響。三是以自然語言大模型為技術底座的生成式人工智能的應用可能引發(fā)的風險。有學者認為,自然語言大模型在智能技術進展中存在倫理問題,并指出不能忽視其在失當信息傳播、著作權侵權和消解科學精神等方面帶來的不利影響(顧理平,2023)。鄒開亮和劉祖(2023)認為自然語言大模型的嵌入式道德算法無力更改基礎文本數(shù)據(jù)價值偏見,可能會導致性別歧視和種族歧視等偏見。
在稅收管理層面,部分學者開始把目光聚焦到依托自然語言大模型等人工智能技術提升稅收管理效能上來。楊森平和余麗莎(2023)認為自然語言大模型技術的運用可為智能審核、智能服務以及智能決策提供參考輔助,提升稅收工作效率。楊小強和王森(2023)認為自然語言大模型技術在數(shù)據(jù)安全和隱私保護、信息源質量以及技術發(fā)展不確定等方面給稅收管理帶來挑戰(zhàn),故應加強稅收數(shù)據(jù)和信息保護。倪娟等(2021)認為人工智能在稅收管理數(shù)字化轉型中具有助力作用。國家稅務總局深圳市稅務局課題組(2023)探索提出了AIGC①類產(chǎn)品在稅務領域應用的典型場景。
從上述研究可見,目前關于自然語言大模型概念和理論的探索呈快速增長態(tài)勢。大多學者對自然語言大模型在數(shù)字政府建設、智能傳播能力、信息資源管理等方面的運用給予肯定,認為科學合理利用該技術將會給政務服務質效帶來巨大提升。但這些研究多處于初期階段,重點仍停留在理論研究、應用暢想、倫理討論等較為寬泛的方面。尤其是稅收管理方面的研究,主要還是以前瞻和構想展開,鮮有與稅收業(yè)務場景實際應用結合的實踐探索。事實上,自然語言大模型只有在稅收管理實踐運用中不斷更新迭代完善,其算法對稅收數(shù)據(jù)的理解精度才能不斷提升,從而真正發(fā)揮強大作用,推動管理效能質的飛躍。
綜合文獻內容,我們認為稅務部門在探索應用自然語言大模型過程中,要突出技術實踐的導向作用,加速構建能夠落地使用的技術運用場景。重點立足于解決稅收征管中的難點痛點問題,通過技術嵌入優(yōu)化管理流程,在技術選擇、場景融合、數(shù)據(jù)管理、倫理設計的基礎上,推出可以切實提升稅收工作效率的參考實例,使研究內容與推進中國式現(xiàn)代化的稅務實踐需求相結合。2023年,國家網(wǎng)信辦聯(lián)合多部門發(fā)布的《生成式人工智能服務管理暫行辦法》就提出,“支持行業(yè)組織、企業(yè)、教育和科研機構、公共文化機構、有關專業(yè)機構等在生成式人工智能技術創(chuàng)新、數(shù)據(jù)資源建設、轉化應用、風險防范等方面開展協(xié)作?!痹诖吮尘跋?,稅務機關應著眼于如何利用自然語言大模型技術創(chuàng)新稅收業(yè)務場景,拓展智慧稅務生態(tài)建設,讓更多的智慧稅收場景落地生效,為更高集成功能、更高安全性能、更高應用效能的智慧稅務建設創(chuàng)造新機遇。
二、自然語言大模型應用對稅收工作的意義
自然語言大模型技術作為人工智能領域的一次重大技術性突破,本身帶有很強的賦能特征,其深度的語言交互能力、高效的信息驅動能力以及精密的算法運行能力,對于提升稅收管理效能將產(chǎn)生積極作用,主要集中在以下三個方面:
(一)人機交互,促進征納雙方互信
有研究認為,傳統(tǒng)稅收征管模式下的納稅服務格式化及無差別化、辦稅流程煩瑣復雜化等弊端在經(jīng)濟社會全面數(shù)字化轉型過程中會被放大,造成納稅人繳費人的理解偏差,不利于稅法遵從度的提升(賈楠和魯鈺鋒,2023)。張帆(2022)認為,友好的人機交互系統(tǒng)是數(shù)字政府建設的必然要求,其易于理解、便于感知,是任何一項技術應用于數(shù)字政府的前提條件。盡管我國數(shù)字政府已實現(xiàn)從“對話智能體”到“涉身對話智能”①的技術轉型,但距離人機雙方實現(xiàn)流暢對話的終極目標仍有一定距離。周智博(2023)認為物聯(lián)網(wǎng)、區(qū)塊鏈、人工智能等新型技術雖從表面上賦予了數(shù)字政府以高度的便捷性和自動性,但由于內在“供需鏈條”不匹配,這些技術始終無法深入人心,亦無法為人民提供滿意的公共服務。然而,自然語言大模型能夠通過學習和理解人類語言,其語言“理解”和表達能力已超過90%的人。因此,在稅收數(shù)字化轉型過程中,自然語言大模型技術的引入可以顯著提升人機交互的友好程度。通過智能、精準分析稅收政策法規(guī),輸出自然的、擬人化的情景式語言,理解納稅人繳費人的情感和價值偏好,稅務機關與納稅人繳費人溝通和對話的智能性、藝術性以及對稱性都將大大增強??梢姡匀徽Z言大模型或許能提供一種統(tǒng)一且完備的交互模式,使稅務機關與納稅人繳費人在對話結構上實現(xiàn)平等,從而突破傳統(tǒng)征納模式下征納雙方對話失衡的局面,對于降低稅收征管中的摩擦風險具有積極作用。
(二)人機協(xié)同,提高征收管理效率
技術聯(lián)結能力是人工智能技術成功賦能的關鍵所在(闕天舒和呂俊延,2021),這體現(xiàn)在人工智能對信息的獲取、加工和分析處理等層面。張洪雷(2023)認為生成式人工智能的知識更新能力躍遷能夠幫助行政機關及時了解和學習新知識,提升運用新技術、解決新問題的能力。隨著自然語言大模型的不斷更新迭代,其包含的數(shù)據(jù)參數(shù)正呈幾何式增長,xAI的Grok-1②擁有3140億參數(shù),遠超ChatGPT3.5的1750億。全球最大的視覺語言模型PaLM-E參數(shù)量高達5620億,幾乎擁有全世界所有語言能力。人工智能技術能夠增強稅務部門的技術聯(lián)結能力。其憑借信息收集、數(shù)據(jù)分析以及語言重塑的出色能力,可以通過信息分類、信息提取以及信息協(xié)同機制有效整合稅收數(shù)據(jù)資源,打破“專業(yè)化、部門化、碎片化”的管理模式,在幫助納稅人繳費人全面準確獲取稅收政策、提高業(yè)務處理效率、提升稅收風險識別能力上發(fā)揮重要作用,亦有助于改善稅收治理結構,實現(xiàn)跨部門、跨層級的協(xié)同治理。
(三)人機融合,推動智慧稅務建設
智慧稅務是稅收治理能力現(xiàn)代化的載體和抓手。智能監(jiān)管和智慧服務離不開對海量數(shù)據(jù)的智能化管理。對此,很多學者認為智慧稅務建設中信息驅動能力不足是制約稅收現(xiàn)代化發(fā)展的一大掣肘。受制于管理體制、信息技術和信息人才的局限,稅務機關的信息共享、信息交互以及信息協(xié)同機制存在短板,組織壁壘較難推倒,稅收治理結構還需優(yōu)化。但隨著自然語言大模型技術發(fā)展,通過自動抓取、精確識別、自動分類和高度模擬,能夠對海量信息進行歸類和整理,使得基于大數(shù)據(jù)的稅收智能決策成為可能。稅務部門可結合納稅主體、征管權限、征收程序、納稅人繳費人請求等特定語境,利用自然語言大模型得出決策最優(yōu)解。在這過程中,通過將該技術嵌入征管流程,利用智慧化的網(wǎng)絡神經(jīng)系統(tǒng)使稅收征管方式、步驟、時限和程序更加有跡可循。同時,其還能幫助稅務機關更好規(guī)范行政審批、行政處罰、政策公開以及行政自由裁量等程序,讓這些行政行為變得更加標準和透明。最重要的一點,自然語言大模型技術強調對現(xiàn)實情境的模擬與重塑。借助強大的語言算法系統(tǒng),擁有該技術的智慧稅務能夠通過簡單的問答和指令,滿足不同學歷背景、年齡階段、專業(yè)能力的用戶需求,降低了技術躍遷對不同人群的歧視風險,有效解決特殊人群的數(shù)字鴻溝問題。
三、應用自然語言大模型的實踐探索:以非居民稅收合同審核為例
綜上,運用自然語言大模型強大的信息加工、薈萃、整合和生成能力,或許可有效提升稅收征管效率、降低征納成本、推動稅收管理精細化、精準化。但這還是一種基于邏輯和經(jīng)驗的設想。自然語言大模型之于行政治理的潛在作用,必須在實踐應用中不斷訓練迭代,才有機會實現(xiàn)。基于此,湖北省稅務部門在國際稅收業(yè)務監(jiān)管領域對自然語言大模型應用進行了嘗試。具體來說,運用自然語言大模型(LLM)和知識圖譜(KG)技術,實現(xiàn)了智能化閱讀非居民稅收合同、對外支付備案審核和風險反饋等功能,加快了辦稅、審核、風控場景下的工作效率,提高了精準執(zhí)法的水平和能力,為自然語言大模型技術在稅收業(yè)務場景中的實踐積累了經(jīng)驗。
國際稅收管理中,我國借鑒了國際上通行的受控外國公司(CFC)制度的分類標準,將非居民企業(yè)來源于中國的所得分為積極所得和消極所得。相應地,在代扣代繳類型上積極所得對應的是指定扣繳義務,即積極所得應以非居民企業(yè)自主申報納稅為主。消極所得對應的是源泉扣繳義務,即直接由負有支付款項義務的單位代扣代繳。非居民企業(yè)稅款代扣代繳的流程針對不同的所得類型主要有項目備案、對外支付稅務備案和代扣代繳稅款等環(huán)節(jié)。在實際業(yè)務處理中,稅務人員需要具備國際稅收專業(yè)知識、掌握多語種溝通能力、積累豐富實踐經(jīng)驗,才能較好應對解決業(yè)務辦理和審核的問題。尤其是國際稅收管理對外支付環(huán)節(jié),由于涉及政策復雜、差異性強、業(yè)務集中度受地區(qū)開放度影響大,專業(yè)技能要求高,同時還存在語言障礙,基層稅務機關在面對這些業(yè)務時往往難以快速、準確辦理,給征納雙方都帶來很大困擾。
(一)自然語言大模型應用場域選擇:國際稅收管理對外支付環(huán)節(jié)
目前,在國際稅收對外支付管理環(huán)節(jié)中,普遍存在“散、滯、疑、堵”等問題。一是散,即辦稅模塊分散。對外支付涉及的辦理流程分別在不同的模塊進行,流程繁雜,辦稅耗時,影響納稅人和稅務人的處理效率。二是滯,即風險無序滯后打擾。非居民納稅人對在我國繳稅較為敏感,個性化訴求較多,存在搶先備案、申報繳稅拖后的情況,在后續(xù)管理環(huán)節(jié)容易產(chǎn)生滯納金及各類輿情。三是疑,即政策差異產(chǎn)生分歧。由于各國稅收法律體系的差異,造成納稅人對各種稅種政策執(zhí)行標準差異存疑。四是堵,即跨部門信息不暢阻礙共治。稅務部門缺乏外部數(shù)據(jù)或第三方數(shù)據(jù)掌握不及時,對納稅人的經(jīng)營情況不能全面動態(tài)分析,協(xié)同促進企業(yè)高質量發(fā)展的能力較弱。
(二)自然語言大模型技術框架選擇:知識圖譜
知識圖譜是通過對錯綜復雜的文檔數(shù)據(jù)進行有效加工、處理、整合,將其轉化為簡單、清晰的“實體、關系、實體”的三元組,最后聚合大量知識,從而實現(xiàn)知識的快速響應和推理,具有高準確度和可解釋性,可以有效解決自然語言大模型識別偏差的問題。在國際稅收管理中,主要依據(jù)是涉稅合同,全面準備理解合同文本諸項內容要素是做好稅收監(jiān)管的關鍵一步。閱讀合同主要包括涉稅要素識別和政策推理兩步。在人工閱讀合同過程中,第一步識別涉稅要素會存在概率誤差問題。人工智能的目的是將總體審核能力提升至與稅政專家相近的水平。在此過程中,可以接受大模型能力存在一定不足,但必須可以迭代提升。第二步根據(jù)涉稅要素進行政策推理可能會存在不嚴謹?shù)膯栴},而采用知識圖譜可較好地控制政策推理邏輯,且可控、可解釋、易維護,確保從關鍵詞句中推理出的所得類型、稅率、稅收優(yōu)惠等關鍵信息準確無誤。
(三)自然語言大模型技術路線選擇:“文心一言”
根據(jù)科技部2023年統(tǒng)計,我國10億參數(shù)規(guī)模以上的大模型已發(fā)布79個,而美國已超百個。此次嘗試到底選擇什么大模型?我們從國家安全戰(zhàn)略、模型性能、模型成熟度和實踐案例等方面綜合考慮。通過對比驗證,在以安全和節(jié)約經(jīng)費進行技術探索的原則下,最終選擇“文心一言”作為本次實踐的大語言模型框架。具體分析見表1、表2和表3。
(四)技術實現(xiàn)過程
在數(shù)據(jù)準備階段,對400余個涉外合同進行了數(shù)據(jù)整理、建立標簽和文本標注。數(shù)據(jù)整理工作主要是轉換文檔、剔除亂碼、清潔文本等。建立標簽工作主要包括建立業(yè)務標簽、上下文關系標簽、關鍵詞關系標簽、雜語義槽標簽等。文本標注工作主要是在“大模型+知識圖譜”的框架下,考慮文檔分段、雙向注意力機制、政策要素總體相對稀疏而局部高度關聯(lián)等因素,建立了標簽體系和實施文檔標注的基本方法①。
自然語言大模型的運用,主要工作集中在模型調優(yōu)階段,包括預訓練模型、軟硬件環(huán)境準備、模型微調與壓縮、模型數(shù)據(jù)蒸餾、運行過程調優(yōu)等。在預訓練過程中,由于對合同文本信息進行抽取,我們發(fā)現(xiàn)文心大模型 ERNIE3.0作為百億參數(shù)知識增強的大模型,除了從海量文本數(shù)據(jù)中學習詞匯、結構、語義等知識外,還能從大規(guī)模知識圖譜中學習。而且,該模型的信息抽取可以實現(xiàn)零樣本或者少樣本抽取,大幅度降低標注數(shù)據(jù)依賴,在降低成本的同時還提升了效果。高質量數(shù)據(jù)對于訓練高性能的模型至關重要。由于合同文本字數(shù)多在萬字以上,在模型微調與壓縮中,通過對標注后的數(shù)據(jù)使用滑動窗口并壓縮的方式,在提高儲存和運行效率的前提下保留了更多的信息以提高模型精確度。在ERNIE強大的抽取能力背后,同樣需要較大算力支持計算。一些工業(yè)應用場景對性能的要求較高,若不能有效壓縮則無法實際應用。因此,我們基于數(shù)據(jù)蒸餾技術構建了ERNIE Slim①數(shù)據(jù)蒸餾系統(tǒng)。其原理是通過數(shù)據(jù)作為橋梁,將ERNIE模型的知識遷移到封閉域信息抽取小模型,以達到精度損失較小的情況下實現(xiàn)大幅度預測速度提升的效果。經(jīng)過數(shù)據(jù)蒸餾后,模型推理耗時由34.24秒提升至12.32秒,速度提升2.7倍。
自然語言大模型的最大優(yōu)勢,就是能不斷優(yōu)化、迭代、自我學習。業(yè)務處理中,模型一開始并不能100%識別合同文本中包含的業(yè)務數(shù)據(jù),需要在使用時不斷對其進行優(yōu)化。我們將模型識別出的多種結果按照置信度排序后交由納稅人選擇,并將納稅人選擇的結果進行保存,后臺程序每日對結果與納稅人選擇進行對比,將結果不一致的合同抽取信息重新制作成訓練集并由系統(tǒng)進行標注后,對模型進行新一輪微調以提升識別率。
(五)應用效果與體會
總體看,大模型的應用對納稅人、稅務人和決策人等不同群體都產(chǎn)生了良好效果。一是在納稅人端,辦稅人員將合同提交到合同預讀頁面,系統(tǒng)將智能化抽取涉稅內容和政策判斷結果,辦稅人員可在此基礎上進行修改、補充和確認,辦稅時長由平均30分鐘縮短至5分鐘,提高了辦稅效率。二是在稅務人端,系統(tǒng)在產(chǎn)生審核待辦任務的同時,在審核模板中嵌入智能閱讀的內容,并提供與辦稅結果的差異點和政策推理鏈路,替代或輔助審核人員完成工作。稅務人員后續(xù)審核工作量下降80%,外匯風險納稅人反饋時長縮短70%,查補(或遵從轉日常征收)稅款增加500萬/年,一線執(zhí)法精確性普遍提升。三是在決策人端,大模型在預測企業(yè)經(jīng)營數(shù)據(jù)和涉稅相關性的基礎上,能達到預測稅源中、長期趨勢的目的。同時,采用相關技術由大模型理解問題并生成查詢語句,可從標準化數(shù)據(jù)倉庫中產(chǎn)生查詢結果。在此基礎上選擇預先定制的各類稅收分析、經(jīng)濟分析模板生成核心分析段落,可以結合大模型進一步生成稅收分析報告。
總體看,本項自然語言大模型應用實踐有以下經(jīng)驗。一是部署成本極低,滿足節(jié)儉辦稅原則。本次研究選用的大模型屬于開源可商用型,沒有使用授權費用。項目實踐以合同理解為切入點,沒有使用大模型的生成部分,使用了已預訓練模型,項目實施時只需要根據(jù)數(shù)據(jù)標注進行微調優(yōu)化,對算力要求不高,不需要采購大量GPU硬件。二是技術架構安全可信。該模型是首批通過《生成式人工智能服務管理暫行辦法》備案的產(chǎn)品之一,項目部署在國產(chǎn)信創(chuàng)硬件產(chǎn)品上,實現(xiàn)了自主可控。項目部署在本地內網(wǎng)上,沒有上云,數(shù)據(jù)安全有保障。三是功能擴展?jié)摿^大。本次大模型研究使用其理解功能,在非居民合同解析等方面產(chǎn)生了明顯效果。經(jīng)分析研究,此項技術在業(yè)務領域的應用可以非常方便地與各種應用系統(tǒng)融合,其中環(huán)境部署、技術架構、數(shù)據(jù)標注、知識圖譜都有成熟的驗證經(jīng)驗。四是探索成果可供新電子稅務局使用。經(jīng)測試,目前此項業(yè)務探索成果可以將相關源代碼與業(yè)務資料打包使用,新電子稅務局只需在國際稅收相應功能開發(fā)前端頁面對接即可,同時各省稅務部門可根據(jù)實際硬件情況進行快速部署。
四、思考與建議
通過自然語言大模型技術的應用探索,在推進稅收征管改革舉措時,我們認為稅務部門要提前預判,積極介入,把握好利用管理和風險防控的主動權,盡早為人工智能時代的稅收管理變革做好準備。
(一)統(tǒng)一部署內部算力資源
現(xiàn)階段稅務部門不具備自行訓練稅務大模型的能力和資源,應考慮在通用大模型基礎上進行優(yōu)化,因此算力部署主要考慮大模型優(yōu)化和應用階段。實踐過程中,不同研究階段的算力需求存在較大差異。以湖北省稅務部門為例,研究初期單張16G英偉達網(wǎng)絡計算卡的一次蒸餾周期大約是一周(開源大模型參數(shù)在10億級);需要壓縮到兩天以內才能較快完成十輪調試,預估算力需求60G。開發(fā)階段則需要考慮百億至千億級①的功能更強的大模型,將研究階段確定的方案在選定的大模型上實施,一次優(yōu)化一般應在一周左右完成,三至五次可基本完成開發(fā)。如清華GLM130B(1300億參數(shù)),使用一臺英偉達DGXA100服務器(8張網(wǎng)絡計算卡)完成一次預訓練為60天,可視作是大模型優(yōu)化的算力需求上限。千億級大模型如“紫東太初”,使用一臺華為昇騰910B服務器(8張網(wǎng)絡計算卡)一次優(yōu)化時長在1-2周左右。應用階段主要是考慮場景實時并發(fā),本項目場景僅有納稅人辦稅和風險反饋有實時需求,華為昇騰910B服務器配置單張網(wǎng)絡計算卡可滿足要求。但隨著智能化場景的增多,所需算力會逐步增加。因此,在稅務智能化探索的早期階段,研究、開發(fā)和應用需求應在統(tǒng)一規(guī)劃下逐步增加,建議采用“1+N+X”的模式,即研究算力全國集中、開發(fā)算力區(qū)域集中、應用算力按需部署。
(二)建立算法模型監(jiān)管沙盒機制②
將自然語言大模型這類人工智能技術應用到稅收場景中的核心是算法。實踐中,算法能夠對納稅人繳費人提供的涉稅信息進行學習分析,自動提取比對結果、生成涉稅事項處理意見等??梢哉f,算法是應用場景的大腦。但是這個大腦從技術層面無法保證客觀、公平與公正,會給稅收環(huán)境的公平公正帶來隱患。因為基于算法的人工智能技術體現(xiàn)的是設計者、開發(fā)者及使用者的主觀意愿選擇,一旦這類技術內部出現(xiàn)算法黑箱、算法偏差等情況,必然會引發(fā)決策失誤,破壞稅收公平公正,甚至滋生“算法腐敗”。而且,稅務部門在應用人工智能技術時往往缺乏對這些技術包含算法是否正確的意識,更多的是直接借鑒、部署和使用。因此,稅務部門在應用人工智能技術的過程中,要健全結果抽查、模型檢查、算法審查等機制,實現(xiàn)人工智能技術應用“倫理嵌入設計”③,防止算法對某些納稅人、繳費人或辦稅人員形成偏見,造成錯誤的風險識別和信用評價,推動技術與政策的雙向適應,營造公平公正的稅收治理環(huán)境。
(三)實現(xiàn)自然語言大模型技術分級管理
稅收信息化建設并非是一種靜態(tài)穩(wěn)步的理論推演,而是一種動態(tài)、開放的階段性過程。自然語言大模型技術在動態(tài)迭代中高效運行離不開對信息數(shù)據(jù)的收集。脫離海量數(shù)據(jù)的支撐,其使用效果將會大打折扣。在此前提下,自然語言大模型技術在稅務場景的使用會對參與稅收管理的每個個體進行全方位、立體化、全天候的監(jiān)督,隨時獲取個人的姓名、性別、位置、對話記錄、操作習慣等隱私信息。同時通過數(shù)據(jù)整理與智能算法,甚至能推測出個人資金往來、行動軌跡、偏好和社交關系等內容。這種基于稅收數(shù)據(jù)的資源集聚效應一旦被未經(jīng)授權的人或組織訪問及抓取,可能導致個人隱私泄露與安全問題。這不但會對稅收管理參與者的“數(shù)據(jù)人格”造成侵害,甚至會因為納稅人繳費人的焦慮和抵觸情緒,使稅收信息化建設陷入“寒蟬效應”。為降低人工智能技術在處理稅收數(shù)據(jù)時的風險,稅務部門應依照《數(shù)據(jù)安全法》,以稅收數(shù)據(jù)內含的價值和公共屬性為標準,在國家稅務總局主導下建立“自上而下”的稅收數(shù)據(jù)分類分級制度。通過建立稅收數(shù)據(jù)安全工作協(xié)調機制,根據(jù)涉稅數(shù)據(jù)對國家、社會和個人的重要程度,構建稅收數(shù)據(jù)分類分級的總體性框架和目錄。再根據(jù)強制性適配規(guī)則,將不同層級稅務部門使用不同類型稅收數(shù)據(jù)的方式加以細化,為應用人工智能技術提供安全準確、可供操作的數(shù)據(jù)處理規(guī)則。
(四)構建人工智能技術可信生態(tài)環(huán)境
稅務部門應用自然語言大模型這類人工智能技術,不可能“從頭開始”,需要大量的工具軟件進行支撐,既包括隨大模型部署的開發(fā)平臺如百度飛漿,也包括支持數(shù)據(jù)分析、提供數(shù)學模型的應用軟件如MATLAB①,還包括針對加速卡等硬件的平臺如華為昇思,以及GITHUB②等開源平臺的各類工具。目前,在實踐過程中幾乎都是基于工具平臺進行下載使用。這些工具本身可能就存在代碼風險,一些不法之徒可能會通過工具嵌入生成虛假的稅收政策文本,或偽造涉稅政策、文書、圖片甚至視頻資料,并以此來從事稅收領域的偷逃騙稅、恐嚇誹謗等犯罪行為。從技術本質看,自然語言大模型技術生成的內容其實是對各種學習資源的重組,對于生成內容本身的合理性并沒有準確判斷,可能會出現(xiàn)內容幻覺。為此,稅務部門在應用這類技術時,應該成為人工智能技術的主要控制者、管理者和監(jiān)督者,站在維護國家經(jīng)濟發(fā)展安全穩(wěn)定的立場,為納稅人繳費人的稅收安全提供有力保障??梢栽诙悇諆染W(wǎng)建立工具平臺,提供通過審核的工具下載,明確工具可處理的數(shù)據(jù)范圍,從源頭上堵塞漏洞。同時運用內容識別、內容溯源、數(shù)字水印等技術確保數(shù)據(jù)來源可靠,防止使用者被人工智能技術產(chǎn)生的錯誤和虛假信息所誤導。還可以通過廣泛借助社會相關機構和學者的專業(yè)知識技能,對人工智能技術使用過程進行外部監(jiān)督,確保技術使用的合理性、合規(guī)性和正確性,引導人工智能技術傳遞正確的價值觀。
(五)建立“以我為主”的人工智能人才體系
在自然語言大模型探索應用過程中,稅務部門不僅面臨技術資源匱乏的問題,還面臨著人才資源不足的問題。要發(fā)揮好這類技術對智慧稅務建設的賦能,稅務部門需突破自有技術與專業(yè)人才的瓶頸。一是要重視新一代人工智能技術的研發(fā),尤其在開源類技術與模型上實現(xiàn)自主可控。稅務部門可依托我國科研機構及國有控股技術企業(yè)或研發(fā)組織,研制稅務系統(tǒng)自有的自然語言大模型開源開放平臺,培育共享應用生態(tài)系統(tǒng),為推動智慧稅務建設提供技術研發(fā)基礎平臺。二是要大量吸納培養(yǎng)精業(yè)務、懂技術的人才,加大稅收征管數(shù)字化轉型戰(zhàn)略人才培養(yǎng)力度。在人才招錄時,可以向人工智能技術相關專業(yè)傾斜,緩解稅務部門在新技術應用方面的人才短板。在人才培養(yǎng)上,重點促進傳統(tǒng)稅務信息化人才向智能化工作人才轉型升級,使稅務干部了解和掌握新技術稅務場景應用等數(shù)字化工作模式,確保智慧稅務建設的各項舉措落實到位。
參考文獻:
[1]錢" 力,劉" 熠,張智雄等.ChatGPT的技術基礎分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2023,(3).
[2]蒲清平,向" 往.生成式人工智能——ChatGPT的變革影響、風險挑戰(zhàn)及應對策略[J].重慶大學學報(社會科學版),2023,(3).
[3]朱光輝,王喜文.ChatGPT的運行模式、關鍵技術及未來圖景[J].新疆師范大學學報(哲學社會科學版),2023,(4).
[4]馮雨奐.ChatGPT在教育領域的應用價值、潛在倫理風險與治理路徑[J].思想理論教育,2023,(4).
[5]周葆華.或然率資料庫:作為知識新媒介的生成智能ChatGPT[J].現(xiàn)代出版,2023,(2).
[6]令小雄,王鼎民,袁" 健.ChatGPT 爆火后關于科技倫理及學術倫理的冷思考[J].新疆師范大學學報(哲學社會科學版),2023,(4).
[7]顧理平.技術的工具性與人的成長性:智能技術進展中的倫理問題——以ChatGPT智能應用為例[J].傳媒觀察,2023,(3).
[8]鄒開亮,劉祖兵.ChatGPT的倫理風險與中國因應制度安排[J].海南大學學報(人文社會科學版),2023,(4).
[9]楊森平,余麗莎.以ChatGPT為代表的生成式人工智能對稅收管理帶來的機遇和挑戰(zhàn)[J].稅務研究,2023,(2).
[10]楊小強,王" 森.人工智能在稅務領域應用中的風險及規(guī)制[J].稅務研究,2023,(2).
[11]倪" 娟,李彥璋,周" 睿.人工智能助力稅收管理數(shù)字化轉型的對策分析[J].稅務研究,2021,(2).
[12]國家稅務總局深圳市稅務局課題組.以ChatGPT為代表的生成式人工智能在稅務領域應用的思考和建議[J].稅務研究,2023,(6).
[13]賈" 楠,魯鈺鋒.運用以ChatGPT為代表的生成式人工智能提升稅法遵從度的幾點思考[J].稅務研究,2023,(6).
[14]張" 帆.人機對話系統(tǒng)的困境與解決[J].哲學分析,2022,(6).
[15]周智博.ChatGPT模型引入我國數(shù)字政府建設:功能、風險及其規(guī)制[J].山東大學學報(哲學社會科學版),2023,(3).
[16]闕天舒,呂俊延.智能時代下技術革新與政府治理的范式變革——計算式治理的效度與限度[J].中國行政管理,2021,(2).
[17]張洪雷.生成式人工智能參與數(shù)字政府建設的技術躍遷、目標導向與可行路徑[J].南昌大學學報(人文社會科學版),2023,(4).
[18]蔡" 昌,曹曉敏,王藝琳.ChatGPT的稅務應用:優(yōu)勢短板及前景展望[J].稅收經(jīng)濟研究,2023,(6).
[19]劉運毛.平衡、融合、效能——構建智慧稅務生態(tài)系統(tǒng)[J].稅收經(jīng)濟研究,2021,(3).
[20]黃麗君.數(shù)智化稅收治理探索:嵌入納稅人自然系統(tǒng)的設計與實現(xiàn)[J].稅務與經(jīng)濟,2023,(3).