[摘要]本文分析了大語言模型在審計(jì)領(lǐng)域的關(guān)鍵能力和使用方式,選取了審計(jì)資料信息抽取、文本摘要總結(jié)、審計(jì)文書撰寫、審計(jì)代碼生成、審計(jì)知識(shí)庫和邏輯推理6類典型審計(jì)場景,對大模型審計(jì)應(yīng)用效果進(jìn)行了測試評估,提出了審計(jì)大模型的構(gòu)建方法,并對推進(jìn)審計(jì)大模型應(yīng)用提出相關(guān)建議。
[關(guān)鍵詞]人工智能" "大語言模型" "智能審計(jì)" "審計(jì)應(yīng)用
一、引言
人工智能技術(shù)在審計(jì)領(lǐng)域的應(yīng)用有效提高了審計(jì)質(zhì)效,但傳統(tǒng)算法對海量非結(jié)構(gòu)化數(shù)據(jù)的分析能力不足,審計(jì)全覆蓋和信息化水平仍有很大提升空間。近年來,得益于深度學(xué)習(xí)算法的突破、算力的提升以及海量數(shù)據(jù)的積累,特別是大語言模型的興起,使得審計(jì)技術(shù)應(yīng)用迎來新的發(fā)展機(jī)遇。大語言模型在分析復(fù)雜審計(jì)資料和生成高質(zhì)量審計(jì)文書方面具有顯著優(yōu)勢,可以輔助完成非結(jié)構(gòu)化審計(jì)資料分析、風(fēng)險(xiǎn)識(shí)別和審計(jì)文書撰寫等工作,發(fā)揮在審計(jì)信息化工作中的優(yōu)勢。
二、文獻(xiàn)綜述
語言模型是自然語言處理領(lǐng)域的核心技術(shù)之一,經(jīng)歷了統(tǒng)計(jì)語言模型、神經(jīng)網(wǎng)絡(luò)語言模型和預(yù)訓(xùn)練語言模型3個(gè)階段,并逐步演化為大語言模型。以GPT為代表的大語言模型(以下簡稱“大模型”)擴(kuò)展了模型規(guī)模和預(yù)訓(xùn)練語料規(guī)模,引入了指令微調(diào)、上下文學(xué)習(xí)和思維鏈技術(shù),能夠在簡短的文本提示要求下執(zhí)行新任務(wù)。
產(chǎn)業(yè)應(yīng)用方面,OpenAI、百度等公司推出在線使用的大模型,Meta、阿里等公司也發(fā)布了開源大模型,使得在本地私有化部署大模型輔助審計(jì)具備現(xiàn)實(shí)可能。大模型應(yīng)用已覆蓋政務(wù)、金融、醫(yī)療等多個(gè)領(lǐng)域,在審計(jì)領(lǐng)域大模型也已有初步應(yīng)用。學(xué)術(shù)研究方面,呂君杰等(2023)和張家偉(2024)提出ChatGPT在審計(jì)領(lǐng)域的可能應(yīng)用;徐超(2023)和吳花平等(2023)提出基于ChatGPT等大模型的智慧審計(jì)系統(tǒng)構(gòu)建路徑;武曉璐等(2024)和張鳳元等(2024)提出ChatGPT等AI技術(shù)在審計(jì)領(lǐng)域的挑戰(zhàn)與應(yīng)對。
上述應(yīng)用研究仍存在不足:一是審計(jì)實(shí)踐應(yīng)用案例分析較少;二是應(yīng)用驗(yàn)證將測試數(shù)據(jù)外發(fā)至在線大模型,不適用于審計(jì)本地全流程應(yīng)用和數(shù)據(jù)安全限制的情況。本文主要基于本地部署的大模型,以真實(shí)場景和數(shù)據(jù)對大模型的審計(jì)應(yīng)用能力、效果進(jìn)行全面、系統(tǒng)的研究。
三、大模型在審計(jì)工作中的應(yīng)用
(一)大模型的能力和使用方式
大模型與審計(jì)相關(guān)的關(guān)鍵能力主要是語言生成、知識(shí)運(yùn)用、復(fù)雜推理和工具操作?;谏鲜瞿芰?,使用大模型主要有四種方式。一是直接編寫提示詞(Prompt)。通過問答式提示詞交互,批量執(zhí)行審計(jì)任務(wù),如分析審計(jì)資料、生成審計(jì)代碼等。這種方法不需額外訓(xùn)練,使用成本較低,但需審計(jì)人員設(shè)計(jì)精確的提示詞。二是利用外部知識(shí)庫。此方法將審計(jì)知識(shí)庫文本向量化后存儲(chǔ)于數(shù)據(jù)庫中,支持檢索、篩選并使用大模型總結(jié)答案,解決了提示詞長度受限的問題,可應(yīng)用于案例推薦、審計(jì)依據(jù)搜索等場景。三是審計(jì)領(lǐng)域數(shù)據(jù)微調(diào)模型。單以文本向量搜索知識(shí)庫可能破壞文本連貫性和順序,通過補(bǔ)充審計(jì)領(lǐng)域數(shù)據(jù)進(jìn)入預(yù)訓(xùn)練語料庫,對模型進(jìn)行微調(diào),可以讓模型更精準(zhǔn)地運(yùn)用審計(jì)知識(shí)。四是集成外部插件。大模型可連接多種工具拓展其功能,如網(wǎng)頁搜索、計(jì)算器等,提升數(shù)據(jù)時(shí)效性,并增強(qiáng)數(shù)學(xué)計(jì)算等方面的性能。
(二)大模型審計(jì)應(yīng)用實(shí)驗(yàn)
本文基于本地部署的多個(gè)開源大模型(通用大模型ChatGLM2-6B、Qwen-14B、Baichuan2-13B,代碼大模型CodeFuse),對本地和在線大模型在審計(jì)領(lǐng)域的應(yīng)用效果進(jìn)行了對比分析。
1.信息抽取。
信息抽取是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),可將非結(jié)構(gòu)化審計(jì)文檔中的關(guān)鍵信息轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),如合同中金額、日期、交易方、關(guān)鍵條款等。與傳統(tǒng)方法相比,大模型進(jìn)行信息抽取無需訓(xùn)練模型。
在合同審計(jì)中,實(shí)驗(yàn)以提示詞方式使用大模型批量抽取合同關(guān)鍵信息,抽取甲乙方名稱、金額、收款銀行賬戶等18項(xiàng)字段級信息,以及合同標(biāo)的、履約責(zé)任和保密約定條款等15項(xiàng)篇章級信息。以抽取甲乙方名稱為例,使用的提示詞為“抽取以下合同中的甲方名稱、乙方名稱,并以json格式返回,上述各項(xiàng)信息請直接引用合同中的內(nèi)容,如果合同中無相關(guān)內(nèi)容可留空。以下是合同具體內(nèi)容:{合同內(nèi)容}”。結(jié)果顯示,本地部署大模型Qwen-14B在信息抽取任務(wù)的整體準(zhǔn)確率達(dá)93%。說明本地部署大模型在信息抽取時(shí)僅通過提示詞便可達(dá)到較好效果。
審計(jì)處理的資料、文檔長度通常在幾千到幾十萬字不等,對于超出大模型上下文處理長度限制的文檔,可以采用分治(map-reduce)或精煉(refine)策略分段處理后合并結(jié)果。以對長合同的信息抽取為例,分治策略流程如圖1所示。
2.文本摘要總結(jié)。
大模型可對審計(jì)資料進(jìn)行摘要總結(jié),并實(shí)現(xiàn)閱讀理解與資料分析。在對人民銀行某省分支機(jī)構(gòu)的審計(jì)監(jiān)督中,審計(jì)人員從裁判文書網(wǎng)抓取與各機(jī)構(gòu)相關(guān)的案件362件,全文共計(jì)160萬字。審計(jì)人員使用大模型批量總結(jié)案件內(nèi)容,并分析有關(guān)機(jī)構(gòu)在案件中的角色,再根據(jù)總結(jié)分析結(jié)果,快速判斷出案件是否涉及該機(jī)構(gòu)資金資產(chǎn)。提示詞和示例回答如表1所示。
大模型選用上下文長度為32K的ChatGLM2-6B,處理后生成案件摘要共4萬字、角色判斷共計(jì)8千字,大幅減少了查閱資料的工作量,審計(jì)人員能夠快速篩查線索,發(fā)現(xiàn)部分機(jī)構(gòu)債務(wù)債權(quán)的相關(guān)問題。經(jīng)評估,大模型生成的案件摘要基本準(zhǔn)確,但有23%的案件角色因模型幻覺導(dǎo)致誤判,如錯(cuò)將被告人的就職單位認(rèn)為是被告角色。實(shí)際應(yīng)用中,審計(jì)人員應(yīng)對大模型的篩查結(jié)果進(jìn)行審核。
3.審計(jì)代碼生成。
大模型可以協(xié)助審計(jì)人員編寫審計(jì)代碼執(zhí)行任務(wù),分析和處理大量業(yè)務(wù)數(shù)據(jù)。以常見的表格處理、可視化界面生成、文本分類、系統(tǒng)日志分析和圖表生成5類審計(jì)任務(wù)為例,使用本地部署的通用大模型和代碼大模型生成代碼,對比測試代碼執(zhí)行效果。設(shè)計(jì)的典型應(yīng)用場景包括:表格處理任務(wù)為交叉比對多個(gè)異構(gòu)表格中的數(shù)據(jù)是否一致;可視化界面生成任務(wù)為基于表格數(shù)據(jù)處理功能生成可視化界面;文本分類任務(wù)為基于SVC算法識(shí)別賬務(wù)中的信息化資金支出;系統(tǒng)日志分析任務(wù)為檢查日志記錄是否完整、缺失,以篩查系統(tǒng)中斷線索;圖表生成任務(wù)為根據(jù)某機(jī)構(gòu)財(cái)務(wù)報(bào)表數(shù)據(jù)繪制圖表。任務(wù)1至4以Python語言進(jìn)行編程,任務(wù)5以ECharts圖表語言進(jìn)行編程。
經(jīng)測試,本地部署代碼大模型可實(shí)現(xiàn)全部5個(gè)任務(wù),其中3項(xiàng)任務(wù)的代碼可直接運(yùn)行得到結(jié)果,2項(xiàng)任務(wù)的代碼稍加修改后可用。在實(shí)踐中,審計(jì)人員多采用Python等腳本語言編程處理數(shù)據(jù),代碼架構(gòu)和實(shí)現(xiàn)邏輯較為簡單,大模型無需訓(xùn)練即可生成代碼,適用性較強(qiáng)。
4.審計(jì)知識(shí)庫。
審計(jì)人員通過運(yùn)用集成知識(shí)庫,可以突破提示詞的長度限制?;诖竽P偷闹R(shí)庫相比傳統(tǒng)的查詢搜索,能夠支持模糊匹配查詢,還可對查詢結(jié)果進(jìn)行智能總結(jié)。
審計(jì)依據(jù)知識(shí)庫主要包括法律法規(guī)、標(biāo)準(zhǔn)規(guī)范、管理制度等文件,使用BGE語義向量算法處理分割后的文本,將其轉(zhuǎn)化為向量并存儲(chǔ)至向量數(shù)據(jù)庫中。使用知識(shí)庫問答時(shí),提出的問題首先經(jīng)向量化處理,在向量數(shù)據(jù)庫中初步檢索,返回相關(guān)的參考文檔,再由大模型根據(jù)參考文檔給出精準(zhǔn)回答。流程如圖2所示。
在實(shí)踐應(yīng)用中,使用不同業(yè)務(wù)領(lǐng)域的問題進(jìn)行評估測試,如“邀請招標(biāo)時(shí)未向三家以上符合要求的單位發(fā)出投標(biāo)邀請書違反什么規(guī)定”等。結(jié)果顯示,BGE向量化算法的文檔召回準(zhǔn)確率達(dá)87.5%,本地部署大模型Baichuan2-13B對召回文檔內(nèi)容的分析準(zhǔn)確率達(dá)88.6%。知識(shí)庫整體準(zhǔn)確率為文檔召回準(zhǔn)確率乘以大模型的分析準(zhǔn)確率,為77.5%。
5.邏輯推理。
大模型的邏輯推理能力適用于遵循給定規(guī)則的合規(guī)性檢查、內(nèi)控流程漏洞檢查等審計(jì)任務(wù)。
(1)合規(guī)性檢查方面。關(guān)于一致性、存在性的問題,如比對發(fā)票和報(bào)銷單據(jù)內(nèi)容是否一致、檢查合同是否存在約定違約條款等。該類問題的檢查較為簡單,測試驗(yàn)證本地部署的大模型即可實(shí)現(xiàn)。對于遵從性問題的檢查,如制度規(guī)定是否符合法規(guī)要求等,需要模型具備較為復(fù)雜的文字理解和邏輯判斷能力。以檢查下位制度是否違反上位法相關(guān)規(guī)定為背景,對X機(jī)構(gòu)《行政處罰程序規(guī)定》有關(guān)條款放寬時(shí)限、刪除前提、縮減范圍,變造出3個(gè)條款,調(diào)用大模型判斷變造后的條款是否符合《中華人民共和國行政處罰法》(上位法)的相關(guān)要求。示例如表2所示。
經(jīng)測試,本地部署的大模型無法正確回答上述問題,但在線大模型可以指出變造條款的不合理之處。在線大模型正確回答的示例如表3所示。
(2)內(nèi)控流程漏洞檢查方面。大模型的復(fù)雜邏輯推理能力可以協(xié)助審計(jì)人員檢查業(yè)務(wù)流程,發(fā)現(xiàn)內(nèi)控漏洞。以財(cái)務(wù)轉(zhuǎn)賬、員工薪酬發(fā)放和備案事項(xiàng)審核流程中的3個(gè)真實(shí)的內(nèi)控失效案件為例,詢問大模型相關(guān)的工作流程是否存在內(nèi)控漏洞。經(jīng)測試,本地部署的大模型僅能發(fā)現(xiàn)其中1個(gè)案件的漏洞,在線大模型可發(fā)現(xiàn)全部3個(gè)案件的漏洞。財(cái)務(wù)轉(zhuǎn)賬流程漏洞檢查示例如表4所示。
上述內(nèi)控流程根據(jù)真實(shí)案件改編,該機(jī)構(gòu)出納人員利用復(fù)核人員長時(shí)間未將U盾放入保險(xiǎn)柜、未變更網(wǎng)銀密碼的漏洞,將單位資金轉(zhuǎn)至個(gè)人賬戶,并篡改銀行紙質(zhì)對賬單,實(shí)現(xiàn)資金盜取。大模型僅根據(jù)內(nèi)控流程即可發(fā)現(xiàn)風(fēng)險(xiǎn)漏洞。
實(shí)驗(yàn)表明,本地部署的小規(guī)模參數(shù)大模型尚難以完成內(nèi)控漏洞發(fā)現(xiàn)等復(fù)雜邏輯推理任務(wù),僅能完成一致性比對等簡單邏輯推理任務(wù),在線大模型憑借更大的參數(shù)規(guī)模,可以實(shí)現(xiàn)較為復(fù)雜的邏輯推理審計(jì)任務(wù)。
6.審計(jì)文書撰寫。
審計(jì)文書撰寫是特殊的文本摘要和總結(jié)任務(wù)。大模型經(jīng)過微調(diào)訓(xùn)練,能夠?qū)唧w信息進(jìn)行提煉和概括,并轉(zhuǎn)化為格式規(guī)范的文書。
實(shí)驗(yàn)以根據(jù)問題描述進(jìn)行問題定性為場景,測試了大模型撰寫問題定性的能力。以審計(jì)署網(wǎng)站公開發(fā)布的審計(jì)工作報(bào)告為實(shí)驗(yàn)數(shù)據(jù),本文使用大模型構(gòu)建了包含2,500條數(shù)據(jù)的訓(xùn)練集,如表5所示。
使用該訓(xùn)練集對Baichuan2-7B大模型完成訓(xùn)練后,對100條問題進(jìn)行定性測試,評估有22%的問題定性與原文基本一致,60%的文字描述略有偏差但語義一致,評估綜合準(zhǔn)確率達(dá)到82%。若不進(jìn)行訓(xùn)練,大模型在該項(xiàng)測試中約31%的結(jié)果不符合要求。表6為未經(jīng)訓(xùn)練和訓(xùn)練后的大模型表現(xiàn)對比示例。
進(jìn)一步擴(kuò)展,使用大模型從審計(jì)工作底稿、事實(shí)確認(rèn)書、審計(jì)報(bào)告中結(jié)構(gòu)化地提取審計(jì)發(fā)現(xiàn)問題信息,據(jù)此生成訓(xùn)練數(shù)據(jù),可訓(xùn)練大模型具備組織、描述和定性問題進(jìn)而生成審計(jì)報(bào)告的能力。
(三)大模型審計(jì)應(yīng)用實(shí)踐總結(jié)
大模型通過簡短的提示詞描述任務(wù)即可實(shí)現(xiàn)工作目標(biāo),降低了審計(jì)應(yīng)用門檻。實(shí)際應(yīng)用時(shí),通過設(shè)計(jì)精準(zhǔn)的提示詞或適當(dāng)?shù)念A(yù)訓(xùn)練,本地部署的通用大模型能夠處理一般的文本處理任務(wù)并達(dá)到可接受的準(zhǔn)確率。
使用大模型時(shí),需要注意:一是警惕大模型可能產(chǎn)生的幻覺問題。在提示詞中要求大模型不得編造內(nèi)容,可減少幻覺現(xiàn)象的發(fā)生。二是注意模型處理上下文長度的限制。文檔篇幅較長時(shí),應(yīng)對長文檔進(jìn)行拆解,逐段處理,并最后整合結(jié)果。三是避免直接使用大模型處理復(fù)雜的邏輯推理任務(wù),可以將復(fù)雜的任務(wù)進(jìn)行分解,或在提示詞中加入思維鏈提示,以避免大模型簡化判斷或遺漏關(guān)鍵要素。
四、審計(jì)大模型的構(gòu)建
前述智能審計(jì)應(yīng)用實(shí)踐已初步探索大模型的提示詞工程、指令微調(diào)和知識(shí)庫3種應(yīng)用方式。進(jìn)一步,可以構(gòu)建適應(yīng)各類審計(jì)場景的垂直大模型,使之成為智能審計(jì)平臺(tái)的智慧大腦。
(一)數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)集主要來自審計(jì)依據(jù)和審計(jì)工作文檔,轉(zhuǎn)換后生成大模型訓(xùn)練所需的無監(jiān)督和有監(jiān)督數(shù)據(jù)集。數(shù)據(jù)集構(gòu)建方法如圖3所示。
在生成有監(jiān)督數(shù)據(jù)集的過程中,還可使用大模型對無監(jiān)督數(shù)據(jù)源進(jìn)行自問自答(Self-QA)或自我指導(dǎo)(Self-instruct),大規(guī)模批量生成有監(jiān)督的指令集。其中,Self-QA示例如圖4所示。
(二)模型構(gòu)建
生成訓(xùn)練數(shù)據(jù)集后,對基礎(chǔ)大模型進(jìn)行訓(xùn)練,以構(gòu)建審計(jì)垂直領(lǐng)域大模型。在增量預(yù)訓(xùn)練階段,使用無監(jiān)督數(shù)據(jù)進(jìn)行增量預(yù)訓(xùn)練,將審計(jì)專業(yè)知識(shí)注入模型;在指令微調(diào)階段,利用有監(jiān)督數(shù)據(jù)進(jìn)行指令微調(diào),確保模型能夠準(zhǔn)確理解并回答審計(jì)領(lǐng)域內(nèi)的各種指令問題。實(shí)時(shí)地根據(jù)審計(jì)數(shù)據(jù)集建立知識(shí)庫,以減少模型幻覺;維護(hù)統(tǒng)一審計(jì)指令集,批量自動(dòng)化執(zhí)行審計(jì)任務(wù),并對審計(jì)指令集開展全生命周期管理。審計(jì)大模型構(gòu)建路徑如圖5所示。
(三)模型安全
在模型的構(gòu)建中應(yīng)采取措施確保模型安全:一是在數(shù)據(jù)準(zhǔn)備階段,做好數(shù)據(jù)隱私保護(hù)。對訓(xùn)練數(shù)據(jù)脫敏,避免大模型生成結(jié)果中包含敏感信息;審計(jì)資料以熱插拔形式接入知識(shí)庫或供大模型調(diào)用,避免將審計(jì)資料作為訓(xùn)練數(shù)據(jù)注入模型。二是在模型訓(xùn)練階段,進(jìn)行安全對齊,如采用RLHF(reinforcement learning from human feedback,基于人類反饋的強(qiáng)化學(xué)習(xí))等技術(shù)與人類價(jià)值觀對齊。三是在模型使用階段,做好提示詞和輸出過濾。
五、促進(jìn)大模型在審計(jì)中應(yīng)用的建議
(一)挖掘大模型適用審計(jì)場景
一方面,應(yīng)對傳統(tǒng)審計(jì)應(yīng)用進(jìn)行優(yōu)化升級,引入大模型提升任務(wù)完成效果,如依據(jù)搜索優(yōu)化、案例個(gè)性化推薦等。另一方面,應(yīng)梳理各類審計(jì)項(xiàng)目的審計(jì)事項(xiàng)、數(shù)據(jù)類型,各類審計(jì)方法的步驟、目標(biāo),以多種方式將大模型融入審計(jì)檢查和審計(jì)管理工作。
(二)探索構(gòu)建新一代智能審計(jì)系統(tǒng)
探索使用審計(jì)大模型構(gòu)建智能審計(jì)系統(tǒng),以審計(jì)大模型作為智能審計(jì)系統(tǒng)的核心中樞和智慧引擎,賦能新一代智能審計(jì)系統(tǒng)更加強(qiáng)大的數(shù)據(jù)處理能力、真正的智能分析和決策支持,以及多種個(gè)性化服務(wù)和自動(dòng)化功能,實(shí)現(xiàn)審計(jì)作業(yè)和審計(jì)管理的智能化。
(三)加強(qiáng)審計(jì)大模型人才培養(yǎng)
組織擁有人工智能技術(shù)背景、審計(jì)業(yè)務(wù)扎實(shí)的審計(jì)人員,開展大模型審計(jì)應(yīng)用相關(guān)的審計(jì)理論、模型構(gòu)建等專題研究。對現(xiàn)有審計(jì)人員開展有針對性的培訓(xùn),激發(fā)審計(jì)人員了解、學(xué)習(xí)和應(yīng)用新技術(shù)的熱情,在審計(jì)實(shí)踐中提升審計(jì)業(yè)務(wù)和審計(jì)大模型技術(shù)融合應(yīng)用能力。
主要參考文獻(xiàn)
[1]呂君杰,鄭石橋.ChatGPT在審計(jì)中的可能應(yīng)用路徑[J].商業(yè)會(huì)計(jì), 2023(9):47-49
[2]徐超.審計(jì)大模型的構(gòu)建與運(yùn)用[J].審計(jì)觀察, 2023(11):4-7
[3]吳花平,湯麒胭.ChatGPT對智慧審計(jì)的機(jī)遇與挑戰(zhàn)[J].中國注冊會(huì)計(jì)師, 2023(7):67-72+3
[4]武曉璐,陳省軍,謝路陽,等.人工智能技術(shù)對內(nèi)部審計(jì)工作的影響研究:以ChatGPT模型的應(yīng)用為例[J].現(xiàn)代商貿(mào)工業(yè), 2024,45(4):147-149
[5]張鳳元,沈慧雨,席一丹.ChatGPT等AI技術(shù)下審計(jì)的機(jī)遇與挑戰(zhàn)[J].航空財(cái)會(huì), 2024,6(1):57-61
[6]張家偉.ChatGPT助力內(nèi)部審計(jì)智能化轉(zhuǎn)型[J].上海企業(yè), 2024(2):141-143
[7]Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901
[8] Hu E J , Shen Y , Wallis P ,et al. LoRA: Low-Rank Adaptation of Large Language Models[C]. International Conference on Learning Representations, ICLR 2022