一、審計智能化發(fā)展背景和應用思路
(一)審計行業(yè)的數(shù)據(jù)分析發(fā)展背景
自2022年OpenAI推出GPT-3.5以來,生成式AI技術迎來了爆發(fā)式發(fā)展。近期DeepSeek-R1在模型架構、算法工程、訓練策略等方面的突破,在實現(xiàn)計算成本大幅度降低的同時,生成內容的邏輯性與表現(xiàn)力顯著提升。在此基礎上,2025年3月阿里云推出QwQ-32B模型,僅有320億參數(shù)的模型在多項基準測試中展現(xiàn)出與擁有6710億參數(shù)的DeepSeek-R1媲美的性能。在眾多智能技術涌現(xiàn)的基礎上,內部審計需要有效運用最新技術工具,實現(xiàn)審計能力的快速提升。
審計數(shù)據(jù)分析工具的演進軌跡始終與審計對象的技術架構變革深度耦合。早期,證券行業(yè)由于各生產(chǎn)系統(tǒng)數(shù)據(jù)呈現(xiàn)獨立分散的煙肉式架構特征,審計工具主要聚焦于單系統(tǒng)數(shù)據(jù)的垂直分析,審計人員需從不同系統(tǒng)手動導出數(shù)據(jù),再進行拼湊整合分析。當前,隨著企業(yè)數(shù)字化智能化轉型的推進,數(shù)據(jù)中臺建設逐漸成為主流趨勢,通過構建統(tǒng)一的數(shù)據(jù)湖倉體系實現(xiàn)跨系統(tǒng)數(shù)據(jù)的集成治理,已經(jīng)推動審計工具向支持大數(shù)據(jù)綜合分析、多源異構數(shù)據(jù)整合分析的方向發(fā)展。
(二)應用分析思路
審計行業(yè)正處于大模型技術與審計數(shù)據(jù)分析的融合發(fā)展階段,需要進一步明確審計智能化的發(fā)展思路:一是要聚焦于已落地的技術應用框架,以最小的投人實現(xiàn)審計的快速轉型;二是基于現(xiàn)有技術工具,系統(tǒng)化評估不同參數(shù)規(guī)模的基礎模型在審計場景下的性能表現(xiàn),實現(xiàn)綜合運用;三是充分考量基礎模型的選型標準,尋找審計的應用場景,提高審計數(shù)據(jù)分析場景的應用成果。
1.基礎模型選型是審計運用的重要環(huán)節(jié)。
測試大模型的選型需要充分考慮“開源vS閉源”“本地vs云端”“中小規(guī)模vs超大規(guī)模”“指令模型vs推理模型”四個方向的維度。在審計場景下,既考察技術指標也要評估合規(guī)性、部署成本等現(xiàn)實約束條件,系統(tǒng)性揭示不同技術路線在審計領域的適用邊界。
為此,國泰海通證券股份有限公司審計部AI技術應用研究團隊(以下簡稱研究團隊),采用代表當前大模型領先水平的技術產(chǎn)品,并本地化部署了Qwen2.5-32B-instruct(以下簡稱Qwen2.5-32B)、DeepSeek-R1-distill-qwen32B(以下簡稱DeepSeek-qwen32B蒸餾版)、QwQ-32B與互聯(lián)網(wǎng)環(huán)境下的OpenAI的ChatGPT-ol-preview(以下簡 稱o1)、DeepSeek-R1-761B(以下簡稱R1)API接口。這些大模型在架構設計、訓練方法、小規(guī)模部署等應用場景上各有特色,需要進行比較分析,并有效運用(見表1)。
2.運用場景的運用效果測試是核心。
測試場景的選擇,既要具有典型性,更要為今后大規(guī)模運用奠定基礎。測試場景的選擇要符合當前技術成熟度,且有效平衡創(chuàng)新風險與應用價值。綜合評估后,研究團隊將審計計劃的制訂作為測試場景,主要基于以下考慮。
從運用價值來看,審計計劃是審計工作的起點,其質量很大程度上影響著審計工作的成敗。而且,審計計劃的制訂具有綜合性和復雜性特點,需整合業(yè)務、財務、合規(guī)、風險等多維度數(shù)據(jù),涉及復雜的數(shù)據(jù)清洗、關聯(lián)驗證。傳統(tǒng)模式下,審計計劃制訂需耗費審計團隊準備階段 60% 以上的工作量。利用大模型智能化處理這項工作,有利于提高審計資源的利用率。
從技術成熟度看,大模型具有大數(shù)據(jù)處理、邏輯推理的優(yōu)勢,而審計計劃涉及大量的內外部信息、結構化與各類非結構化數(shù)據(jù)等,通過大模型進行審計計劃的制訂,能驗證大模型在多模態(tài)數(shù)據(jù)理解、邏輯推理的能力邊界,為其他審計場景的擴展提供技術驗證基準。而且,審計計劃輸出更多體現(xiàn)為指導性框架,對大模型的生成結果具有相對較高的容錯性。
表1 大模型選型與參數(shù)介紹
注:大模型的本地化部署,可以有效規(guī)避企業(yè)內部數(shù)據(jù)在大模型處理中可能出現(xiàn)的安全問題
二、審計場景下各大模型的能力對比
為科學評估大模型的能力,需要充分考慮審計工作的特殊需求,特別是數(shù)據(jù)匯總、異常發(fā)現(xiàn)、趨勢分析等審計分析的核心要素。為科學評估大模型的能力,本文構建了一套覆蓋多維度指標的基礎模型效能評估體系,建立起貼合大模型特性與應用需求的評估標準,為大模型選型提供依據(jù)。
(一)模型評價的指標體系構建
審計場景下,大模型效能評估體系分為數(shù)據(jù)理解能力、數(shù)據(jù)分析能力、結果呈現(xiàn)與解釋能力等維度。評估過程中,為保證評估結果滿足審計的實際需求,研究團隊采用專家分析方法,綜合確定評價標準,審計業(yè)務專家從結果輸出的有效性進行評估,技術專家對大模型效能實施評分。具體指標設計見表2。
(二)案例場景的選取
本文根據(jù)審計工作流程中的多個維度,使用仿真數(shù)據(jù)實施測試,選取的審計場景見表3。
表2 評估標準設計
表3 審計場景及數(shù)據(jù)分析目標
表3 (續(xù)) 審計場景及數(shù)據(jù)分析目標
(三)基礎模型對比分析結果
各基礎模型的能力分值,經(jīng)過審計人員實際運用后的反饋,基本體現(xiàn)了大模型在審計場景的具體狀況,具體結果見圖1。
各大模型在審計領域運用的橫向對比,具有以下典型特征。
1.多任務數(shù)據(jù)加工:Qwen2.5-32B和DeepSeek-qwen32B蒸餾版在復雜任務條件下的準確性表現(xiàn)欠佳。但是QwQ-32B大模型以及o1、R1的表現(xiàn)均能夠滿足審計需要。QwQ-32B的數(shù)學計算能力基本與o1持平,優(yōu)于R1,并且其動態(tài)推理能力表現(xiàn)較佳,通過對推理過程的自我校驗能及時更正偏差。
2.數(shù)據(jù)提煉文字邏輯性:在結構簡單的數(shù)據(jù)條件下,Qwen2.5-32B、DeepSeek-qwen32B蒸餾版、QwQ-32B、R1和o1之間的差距并不顯著。然而在數(shù)據(jù)結構相對復雜的場景中,尤其在理解復雜問題需求、處理數(shù)據(jù)之間的關聯(lián)關系等方面,QwQ-32B、R1、o1的表現(xiàn)顯著優(yōu)于Qwen2.5-32B及DeepSeek-qwen32B蒸餾版模型,輸出的結論邏輯更為嚴謹,表述框架更為清晰。
圖1 模型評分匯總
3.數(shù)據(jù)分析中的洞察性:在具有簡單提示詞的分析場景中,指令模型表現(xiàn)不如推理模型,推理模型能夠從多個維度對數(shù)據(jù)進行分析比對,表現(xiàn)出較強的發(fā)散思維以及對數(shù)據(jù)異常的洞察能力,QwQ-32B的整體表現(xiàn)強勢,甚至優(yōu)于R1和o1。但是在具有詳細提示詞的分析場景中,推理模型DeepSeek-qwen32B蒸餾版的穩(wěn)定性表現(xiàn)不如原生Qwen2.5-32B,說明該大模型的模式對提示詞的敏感性高,容易思考鏈路過長,影響了其輸出的穩(wěn)定性。QwQ一32B存在校驗機制來確保最終答案輸出的準確性,但是其過度思考、推理過程中的反復論證,導致在時長和token(詞元)上都造成了一定損失。最終在該方面大模型的綜合排序為QwQ一32Bgt;o1gt;R1gt;Qwen2.5-32Bgt;DeepSeek- qwen32B蒸餾版。
4.多精度數(shù)據(jù)計算:當對數(shù)據(jù)精度要求較高,而基礎數(shù)據(jù)格式卻又存在不同類型、不同精度的情況下,大模型無法做到準確計算,尤其32B大模型在多精度數(shù)據(jù)處理中表現(xiàn)更為糟糕。因此研究團隊建議數(shù)據(jù)精度處理類的工作應當由規(guī)則模型實施。
5.性價比:在相同任務下,01單個任務的API使用費約為R1的70—80倍。然而,在上述審計場景中,最終這兩個大模型的綜合評分偏差僅為 2% 。QwQ-32B模型參數(shù)規(guī)模僅為R1的 1/20 ,具備了AIPC(人工智能電腦)的部署可能性,但其在部分審計場景中的表現(xiàn)甚至優(yōu)于o1(R1綜合評分92.50分,01為94.42分,QwQ-32B為95.95分)。
綜上所述,在輸出標準化要求較高的場景,指令模型憑借其確定性的響應機制,能夠高效匹配此類需求,可作為優(yōu)先考量的方案。在復雜數(shù)據(jù)分析、發(fā)散性思維場景,用戶對可解釋性、異常發(fā)現(xiàn)、邏輯推理等要求較高,QwQ-32B模型優(yōu)勢明顯,同時更具性價比。在多精度數(shù)據(jù)加工以及多條件求和等任務場景,應當厘清規(guī)則模型與大模型數(shù)據(jù)分析的任務邊界,使用規(guī)則模型預處理,再使用大模型進一步分析。
總體而言,大模型的數(shù)據(jù)分析能力足以勝任審計數(shù)據(jù)分析的工作需求。需要關注的是在應用落地的工程實現(xiàn)環(huán)節(jié),根據(jù)應用場景、算力資源等情況,合理選擇不同的大模型,以實現(xiàn)需求、性能、成本之間的最佳平衡。
三、審計智能化主要應用效果展示
(一)審計數(shù)據(jù)分析技術與應用架構
生成式AI發(fā)展迅速,但目前在審計領域應用中仍存在諸多挑戰(zhàn)。比如,輸出內容可能存在事實錯誤、輸出結果波動較大,影響了在審計作業(yè)中的落地效果,亟待通過技術改進與優(yōu)化策略加以解決。研究團隊立足企業(yè)內部審計場景,力求滿足審計業(yè)務對數(shù)據(jù)全面性、廣泛性、準確性和時效性的嚴格要求,充分整合各類技術特點,構建了結合大模型基座的審計數(shù)據(jù)分析應用。
該數(shù)據(jù)分析應用以Python3.12為基礎搭建。在規(guī)則模型的開發(fā)中,憑借Python豐富的生態(tài)庫,使用了包括NumPy、Pandas等工具,實現(xiàn)了多源數(shù)據(jù)庫的連接能力。在機器學習與大模型的開發(fā)中,該應用還集成了LangChain、BGEM3-Embedding模型等,滿足百萬級向量數(shù)據(jù)的秒級檢索和RAG外掛知識庫的檢索能力(見圖2)。
該架構下研究團隊的應用有效發(fā)揮大模型基座效能,在整合多元數(shù)據(jù)的基礎上,更高效地服務于審計業(yè)務場景。目前已達成知識共享、審計計劃、報告質檢等8個方面的場景落地。
圖2 AI數(shù)據(jù)分析應用架構
(二)案例運用的效果
依托QwQ-32B基礎模型,選擇“審計計劃”場景進行能力驗證?!皩徲嬘媱潯睉脼榉菍υ捠?、成果交付類工具,輸出結果為符合公文格式的標準文檔——審計計劃.docx。以下為其中部分分析段落。
1.傭金異常分析。
傭金管理場景中,審計人員需核對傭金調整的準確性,檢查異常調整導致公司或客戶損失的情況。傳統(tǒng)數(shù)據(jù)分析模式采用規(guī)則模型實施異常檢測,通過預設業(yè)務規(guī)則與風險閾值抓取疑似異常數(shù)據(jù)。業(yè)務人員需基于歷史經(jīng)驗與風險偏好對初始篩查結果進行二次人工標注與特征補充,形成待核查清單后,再與被審計單位開展多輪溝通確認。
針對傳統(tǒng)模式中人工標注耗時過長的問題,研究團隊建立“規(guī)則發(fā)現(xiàn)—機器初判一人工校驗一規(guī)則迭代”智能化識別流程,通過大模型對規(guī)則模型發(fā)現(xiàn)的異常數(shù)據(jù)進行語義解析,引導大模型自動生成區(qū)分風險等級的線索清單,產(chǎn)生符合公文文檔規(guī)范的報告內容(見圖3)。
通過智能化的異常識別處理,可將人工標注的工作量降低 50% 1 80% ,本測試中的識別準確率超過 95% ,業(yè)務決策時間縮短約 60% 。
(一)營運管理
1.傭金設置
該部審計期間有2名客戶存在傭金上調,1名客戶存在類別組別修改未生效,需核對申請表單了解是否存在設置錯誤。另有多名客戶存在“傭金低于萬一”、“最低收費小于1元或存在附加費”及多次傭金調整的情況,結合其余審計認為值得關注的情況,梳理出以下客戶:
圖3 傭金異常分析結果
2.經(jīng)營指標數(shù)據(jù)分析結果。
該場景下,審計人員需對被審計單位各年度的經(jīng)營指標及完成情況進行分析。經(jīng)營指標數(shù)據(jù)存在一定的復雜性,因考核標準迭代、指標名稱變更、統(tǒng)計口徑調整及區(qū)域差異化指標設置等原因,規(guī)則模型在應對此類數(shù)據(jù)時面臨的挑戰(zhàn)較大,影響了審計人員的效率與分析結論的準確性、全面性。仿真數(shù)據(jù)見表4。
大模型通過語義對齊的方式實現(xiàn)了跨期或跨區(qū)域數(shù)據(jù)的口徑統(tǒng)一。在數(shù)據(jù)清洗環(huán)節(jié),大模型根據(jù)異常數(shù)據(jù)總結性描述的提示詞,實現(xiàn)不合理數(shù)據(jù)排除;在數(shù)據(jù)篩查環(huán)節(jié),通過預設閾值紅線對未達標指標加粗高亮警示,顯著提高了數(shù)據(jù)處理效率與結果可讀性;在深度分析環(huán)節(jié),構建了“指標解讀—交叉分析—經(jīng)營診斷”的智能分析流程,根據(jù)數(shù)據(jù)疑點生成分析性結論。結果見圖4。
3.報銷統(tǒng)計數(shù)據(jù)分析結果。
表4 經(jīng)營指標數(shù)據(jù)
該場景下,審計人員需系統(tǒng)檢查費用支出結構、趨勢及異常波動,解析被審計單位的經(jīng)營效率、成本控制等管理情況。在審計實踐中,費用情況分析需人工整合多張業(yè)務數(shù)據(jù)表進行交叉驗證,面對復雜業(yè)務場景時,審計人員往往需要花費大量時間梳理數(shù)據(jù)關聯(lián)關系。
通過大模型構建的智能分析程序,替代人工實現(xiàn)多表數(shù)據(jù)的關聯(lián)分析,可自動識別費用異常波動、人員異常行為等審計線索。針對基礎模型存在的數(shù)據(jù)規(guī)模處理上限問題,研究團隊采用“規(guī)則模型處理 + 大模型分析”的混合架構,保證系統(tǒng)處理效率,提升分析結果的準確性與可解釋性。需要注意的是,因混合架構下原始數(shù)據(jù)未全部輸人大模型,所以最終生成結論的完整性以及保證性的描述,需要審計人員結合原始數(shù)據(jù)實施交叉驗證后使用。結果見圖5。
綜合來看,大模型技術在審計計劃場景下的應用已展現(xiàn)出顯著的增效價值,其核心優(yōu)勢體現(xiàn)在以下三個方面:首先,基于自然語言處理與審計知識庫構建的風險評估模型,能夠動態(tài)生成聚焦高風險領域的審計計劃,使審計資源配置精準度有效提升;其次,依托多模態(tài)數(shù)據(jù)處理能力,大模型可自動化完成數(shù)據(jù)清洗、異常值檢測及多表關聯(lián)驗證,將傳統(tǒng)需要3—5天的基礎數(shù)據(jù)分析工作壓縮到4小時內。同時通過智能算法發(fā)現(xiàn)潛在數(shù)據(jù)質量問題,降低人工核查成本;最后,通過整合審計對象的財務、業(yè)務、人員管理等多維度數(shù)據(jù),構建畫像體系,輔助審計人員快速形成被審計單位經(jīng)營情況、合規(guī)管理情況等的全景認知,為審計策略制定提供依據(jù)。該技術應用革新了傳統(tǒng)審計計劃制訂流程,推動經(jīng)驗型審計向數(shù)據(jù)驅動型審計轉型,為提升審計效能與組織風險防控能力提供了新的范式。
四、結論與展望
本文依托已落地的技術應用框架,對基礎模型在審計場景中的性能邊界開展了系統(tǒng)性驗證,構建了契合審計需求的多維評價體系,并為行業(yè)提供了可復用的模型選型方法論。通過在審計數(shù)據(jù)分析場景中應用先進大模型技術,總結可借鑒的內容如下。
1.大模型本地化部署的重要性。
采用本地化部署的QwQ-32B模型,在保證有效達成數(shù)據(jù)分析目標的同時,兼顧數(shù)據(jù)隱私與性價比的平衡,確保了審計敏感數(shù)據(jù)全流程的安全可控,是審計數(shù)據(jù)分析應用的推薦模型。
2.打造適配審計工作流的結果交付物。
與傳統(tǒng)對話式大模型應用不同,研究團隊將大模型的能力轉化為數(shù)據(jù)加工能力、邏輯推理能力、觀點輸出能力,以結果交付模式直接生成審計所需的標準化產(chǎn)品,實現(xiàn)了從需求收集、數(shù)據(jù)處理到成果交付的一站式支持,更加精準匹配審計人員的工作流程。
3.數(shù)據(jù)分析上下游多技術協(xié)同模式。
將審計數(shù)據(jù)分析任務拆解為“規(guī)則模型的結構化處理、機器學習特征工程、指令類模型的標準化輸出、推理類模型的風險深度挖掘”等多個環(huán)節(jié),實現(xiàn)上下游協(xié)同,最終達成智能審計應用效果最大化目標。
4.大模型技術的應用局限。
受限于基礎模型的上下文長度,大模型并不擅長處理海量原始數(shù)據(jù),且大模型技術也有著幻覺這類固有缺陷。因此對于模型生成的結果,尤其在面對定性類、觀點類結論時,審計人員需實施交叉印證,保證輸出結論的可靠性。
在智能化進程中,大模型與審計領域的深度融合仍然面臨諸多挑戰(zhàn),如行業(yè)規(guī)范不完善、專業(yè)領域智能化團隊人員定位不清晰、基礎模型更新迭代造成應用穩(wěn)定性不足等。希望通過持續(xù)的政策、技術、方法論的創(chuàng)新與優(yōu)化,內部審計行業(yè)能夠在大模型的輔助下,實現(xiàn)審計效率與質量的雙重提升,為組織穩(wěn)健發(fā)展筑牢堅實防線。
(作者單位:國泰海通證券股份有限公司,郵政編碼:200011,電子郵箱:wangxipan@gtht.com)