趙慶華 張琳 曹慶 王笙宇
摘要:文章以審計(jì)署的審計(jì)公告為研究對(duì)象,利用文本挖掘技術(shù)對(duì)國(guó)家重大工程項(xiàng)目審計(jì)公告展開(kāi)研究,分析導(dǎo)致重大工程項(xiàng)目審計(jì)風(fēng)險(xiǎn)的主要原因和規(guī)律。同時(shí),文章利用詞云圖將統(tǒng)計(jì)結(jié)果進(jìn)行可視化呈現(xiàn),運(yùn)用TF-IDF算法找出導(dǎo)致重大工程項(xiàng)目審計(jì)風(fēng)險(xiǎn)的主要因素,并提出切實(shí)有效的重大工程項(xiàng)目審計(jì)風(fēng)險(xiǎn)管理建議。
關(guān)鍵詞:重大工程;文本挖掘;審計(jì)公告;審計(jì)風(fēng)險(xiǎn)
隨著我國(guó)經(jīng)濟(jì)的高速發(fā)展,一系列重大工程項(xiàng)目相繼啟動(dòng)給我國(guó)的經(jīng)濟(jì)發(fā)展產(chǎn)生了巨大的助力,如三峽水利樞紐工程、港珠澳大橋、鐵路“八橫八縱”等。但因重大工程項(xiàng)目投資量大、社會(huì)參與度大、決策過(guò)程復(fù)雜、技術(shù)要求高、施工難度大、利益相關(guān)者多及項(xiàng)目的社會(huì)影響范圍廣等特點(diǎn),導(dǎo)致這些項(xiàng)目面臨著較高風(fēng)險(xiǎn)。因此,審計(jì)風(fēng)險(xiǎn)識(shí)別與分析對(duì)重大工程項(xiàng)目審計(jì)風(fēng)險(xiǎn)管理有極大的影響,更是重大工程項(xiàng)目審計(jì)風(fēng)險(xiǎn)管理必不可少的環(huán)節(jié)。
本文提出利用文本挖掘(Text Mining,簡(jiǎn)稱TM)方法對(duì)審計(jì)署審計(jì)公告進(jìn)行數(shù)據(jù)分析。通過(guò)對(duì)重大工程項(xiàng)目審計(jì)公告進(jìn)行結(jié)構(gòu)化處理,得到工程風(fēng)險(xiǎn)相關(guān)信息,進(jìn)而利用關(guān)聯(lián)分析技術(shù)對(duì)所得到的風(fēng)險(xiǎn)信息進(jìn)行分析,探究重大工程項(xiàng)目風(fēng)險(xiǎn)發(fā)生原因及規(guī)律,以期為工程風(fēng)險(xiǎn)分析提供新的思路。
一、數(shù)據(jù)來(lái)源及分析工具
(一)數(shù)據(jù)準(zhǔn)備
審計(jì)公告及解讀是對(duì)國(guó)家重大工程進(jìn)行項(xiàng)目投資決策、項(xiàng)目設(shè)計(jì)管理、項(xiàng)目招標(biāo)投標(biāo)、項(xiàng)目合同、工程造價(jià)、項(xiàng)目財(cái)務(wù)收支、項(xiàng)目管理、項(xiàng)目投資績(jī)效等方面的審計(jì)解讀。審計(jì)署網(wǎng)站搜集2004~2019年的審計(jì)報(bào)告48篇作為文本挖掘的語(yǔ)料,覆蓋了保障性住房、大型機(jī)場(chǎng)場(chǎng)館、災(zāi)后重建等房建市政類(lèi)國(guó)家重大工程項(xiàng)目,以確保后續(xù)利用文本挖掘方法分析重大工程風(fēng)險(xiǎn)的客觀性。
文章選取審計(jì)報(bào)告中發(fā)現(xiàn)的主要問(wèn)題作為文本挖掘的語(yǔ)料,由于審計(jì)公告僅可以網(wǎng)頁(yè)瀏覽,不能下載,便利用八爪魚(yú)采集器從審計(jì)署網(wǎng)站上進(jìn)行數(shù)據(jù)提取整理至數(shù)據(jù)庫(kù)中,形成初始文本數(shù)據(jù)庫(kù)。
(二)數(shù)據(jù)預(yù)處理
審計(jì)公告中的文本數(shù)據(jù)包含較多對(duì)本研究無(wú)用信息,因而需要對(duì)其進(jìn)行文本預(yù)處理。本文主要研究重大工程審計(jì)風(fēng)險(xiǎn)發(fā)生的原因和規(guī)律,因此審計(jì)公告中的工程基本情況及審計(jì)總體評(píng)價(jià)、整改方法、審計(jì)建議等暫時(shí)不列入研究范圍。
數(shù)據(jù)預(yù)處理中,準(zhǔn)確合理地分解審計(jì)報(bào)告中各條結(jié)論至關(guān)重要。如審計(jì)報(bào)告中的某條的審計(jì)結(jié)論是“施工工藝和設(shè)備設(shè)計(jì)不合理”,分詞得“施工”“工藝”“和”“設(shè)備”“設(shè)計(jì)”“不”“合理”,并未將“施工工藝”“設(shè)備設(shè)計(jì)” “不合理”分解成工程管理專(zhuān)用詞語(yǔ)。為使分詞結(jié)果達(dá)到預(yù)期效果,避免工程管理或工程審計(jì)專(zhuān)業(yè)詞匯切分誤差及停用詞的干擾,在詞典中加入了土木工程、審計(jì)相關(guān)詞典和自建停用詞表。預(yù)處理步驟如下:
1.語(yǔ)料庫(kù):利用python語(yǔ)言編程讀取爬取的審計(jì)數(shù)據(jù),數(shù)據(jù)存儲(chǔ)類(lèi)型為txt、csv等格式,形成語(yǔ)料庫(kù)。本文利用python語(yǔ)言open("xx.txt",'r',encoding='utf-8').read()代碼讀取數(shù)據(jù)形成語(yǔ)料庫(kù)。
2.自定義詞典:分詞工具雖然有默認(rèn)詞典和識(shí)別新詞的能力,但仍會(huì)出現(xiàn)分詞歧義,難以保證分詞質(zhì)量,需加入自定義詞典保證分詞準(zhǔn)確。從搜狗輸入法中下載審計(jì)常用詞匯.scel、審計(jì)術(shù)語(yǔ).scel、建筑詞匯大全.scel及土木工程專(zhuān)用詞庫(kù).scel等多個(gè)詞典。使用jieba.load_userdict(file_name)加載自定義詞典。
3.停用詞典:分詞后出現(xiàn)的某些語(yǔ)氣詞、虛詞和數(shù)字,如“的”“呢”“2016”等,這些字詞、數(shù)字的實(shí)際意義不大。為提高檢索效率,本文對(duì)分詞中出現(xiàn)的停用詞進(jìn)行篩選和過(guò)濾。建立適合的停用詞表,與默認(rèn)停用詞表共同使用以過(guò)濾停用詞,保證分詞和可視化分析準(zhǔn)確性。在python語(yǔ)言中,使用stoplist=[line.strip()for line in open("stopwords.txt",encoding='utf-8').readlines()]命令來(lái)達(dá)到去除停用詞的目的。
做好以上分詞準(zhǔn)備工作后進(jìn)行分詞,并將相應(yīng)的詞頻統(tǒng)計(jì)信息自動(dòng)存儲(chǔ)為csv文件保存至文件夾中。
二、基于文本挖掘的重大工程風(fēng)險(xiǎn)分析
目前,重大工程風(fēng)險(xiǎn)研究常用方法主要為案例總結(jié)法、專(zhuān)家調(diào)查法等定性分析方法,研究結(jié)果較為主觀。文本挖掘則通過(guò)處理龐大的文本信息,挖掘文本中隱含的結(jié)構(gòu)規(guī)律,以結(jié)構(gòu)化方式表示,其分析結(jié)果相對(duì)客觀。文本挖掘主要包括數(shù)據(jù)的收集及預(yù)處理、可視化分析和統(tǒng)計(jì)決策三個(gè)步驟。
(一)詞頻分析
在python語(yǔ)言中利用jieba分詞工具進(jìn)行分詞處理,去除詞頻數(shù)影響較小或詞頻數(shù)較低的詞語(yǔ),得到統(tǒng)計(jì)詞頻前500的詞語(yǔ)。由于審計(jì)風(fēng)險(xiǎn)詞語(yǔ)廣、種類(lèi)多、詞語(yǔ)字?jǐn)?shù)不一,因此使用split函數(shù)并自定義多元抽函數(shù),通過(guò)for函數(shù)對(duì)其進(jìn)行循環(huán),利用count函數(shù)得到各風(fēng)險(xiǎn)詞組詞頻。為了盡可能有效地挖掘到所需信息,本文主要針對(duì)由兩個(gè)字、三個(gè)字、四個(gè)字的專(zhuān)業(yè)詞匯及其所構(gòu)成的詞語(yǔ)進(jìn)行重點(diǎn)分析。本文分別將兩字詞匯、三字詞匯、四字詞匯統(tǒng)計(jì)的分詞按詞頻降序排列,然后選擇其中詞頻較高的詞語(yǔ)生成文檔詞矩陣列表,如表1。
在表1中可以看到,二元抽中“資金”一詞出現(xiàn)的頻率最高,共216次,相應(yīng)可能發(fā)生風(fēng)險(xiǎn)的原因是投資控制不嚴(yán),套取建設(shè)資金,多報(bào)、虛報(bào)騙取中央專(zhuān)項(xiàng)資金等。詞頻頻數(shù)大于60的二元詞匯審計(jì)風(fēng)險(xiǎn)多集中于工程項(xiàng)目申報(bào),建設(shè)程序?qū)徟型稑?biāo)與合同以及資金管理,換言之,審計(jì)風(fēng)險(xiǎn)多發(fā)生于工程項(xiàng)目前期。其次,“合同”、“招標(biāo)”、“規(guī)劃”、“挪用”等與建設(shè)單位有關(guān)。可見(jiàn),重大工程審計(jì)風(fēng)險(xiǎn)的發(fā)生與建設(shè)單位的制度完善和廉潔程度有較大關(guān)聯(lián)。
在三元抽的情況下,“招投標(biāo)”一詞出現(xiàn)的頻數(shù)最高,共出現(xiàn)74次,說(shuō)明重大工程項(xiàng)目風(fēng)險(xiǎn)常出現(xiàn)在項(xiàng)目招投標(biāo)階段。在四元抽情況下,“施工單位”是出現(xiàn)頻數(shù)最高的詞語(yǔ),共出現(xiàn)42次,闡釋了重大工程項(xiàng)目風(fēng)險(xiǎn)來(lái)自施工單位。在這兩種抽取模式下,“工程款”“施工圖”“施工隊(duì)”“工程量”“管理費(fèi)”“設(shè)計(jì)變更”“工程質(zhì)量”“工程施工”等詞語(yǔ)說(shuō)明主要風(fēng)險(xiǎn)詞匯都集中在施工階段,即審計(jì)風(fēng)險(xiǎn)主要來(lái)源于施工單位的施工風(fēng)險(xiǎn)和造價(jià)風(fēng)險(xiǎn)。
(二)可視化分析
數(shù)據(jù)可視化起源于20世紀(jì)50年代計(jì)算機(jī)圖形學(xué)早期,將大型數(shù)據(jù)以圖像形式表示,并利用數(shù)據(jù)分析和開(kāi)發(fā)工具發(fā)現(xiàn)其中未知信息與規(guī)律的過(guò)程。本文利用詞云圖技術(shù)對(duì)文本數(shù)據(jù)進(jìn)行分析,并生成可視化圖像進(jìn)一步分析其內(nèi)在規(guī)律。根據(jù)分詞所得到的語(yǔ)料庫(kù),利用python軟件中“Wordcloud”包制作詞云圖,如圖1、圖2、圖3和圖4。
(三)基于TF-IDF算法的工程審計(jì)關(guān)鍵風(fēng)險(xiǎn)檢索與分析
從詞云圖來(lái)看,雖然能夠發(fā)現(xiàn)導(dǎo)致重大工程項(xiàng)目審計(jì)風(fēng)險(xiǎn)的分布情況,但高頻詞語(yǔ)中出現(xiàn)了大量的諸如“資金”、“管理”等對(duì)工程審計(jì)風(fēng)險(xiǎn)原因的判斷沒(méi)有明顯影響的詞語(yǔ)。因此需要運(yùn)用其他方法提取工程審計(jì)關(guān)鍵風(fēng)險(xiǎn)。
TF-IDF(Term Frequency-Inverse Document Frequency)是一種用于文本挖掘與信息檢索的常用加權(quán)算法。TF-IDF算法如下:
式中:N為文件集中文本的總數(shù);N(x)為文件集中包含詞x的文本總數(shù)。詞x的TF-IDF則定義為:
利用TF-IDF算法進(jìn)行關(guān)鍵詞的篩選和整理,得到部分詞語(yǔ)的重要性大小如表2所示。
1.建設(shè)資金(決策階段):項(xiàng)目申報(bào)立項(xiàng)時(shí),部分項(xiàng)目建設(shè)單位為套取國(guó)家資金,重復(fù)申報(bào),隨意擴(kuò)大項(xiàng)目規(guī)模;項(xiàng)目施工時(shí),挪用、擠占項(xiàng)目資金,多計(jì)工程款項(xiàng),造成國(guó)有資源浪費(fèi)。部分工程項(xiàng)目立項(xiàng)后各方資金到位情況難以把控,影響工程進(jìn)度與質(zhì)量。
2.招投標(biāo)過(guò)程(招投標(biāo)階段):項(xiàng)目招投標(biāo)時(shí),標(biāo)書(shū)審核不嚴(yán),違規(guī)更改招投標(biāo)方式,將應(yīng)招標(biāo)的工程化整為零規(guī)避招標(biāo),甚至有的單位將工程違規(guī)分包給無(wú)相應(yīng)資質(zhì)的單位,給工程項(xiàng)目建設(shè)帶來(lái)質(zhì)量、安全等風(fēng)險(xiǎn),進(jìn)而導(dǎo)致項(xiàng)目審計(jì)風(fēng)險(xiǎn)。
3.項(xiàng)目設(shè)計(jì)(項(xiàng)目設(shè)計(jì)階段):在部分重大工程項(xiàng)目中,設(shè)計(jì)階段管理混亂,因勘察設(shè)計(jì)失誤,違反基本建設(shè)程序,設(shè)計(jì)變更多,變更交底不及時(shí)等,造成資金浪費(fèi)和質(zhì)量風(fēng)險(xiǎn),導(dǎo)致工程項(xiàng)目審計(jì)風(fēng)險(xiǎn)增加。
4.項(xiàng)目施工(項(xiàng)目施工階段):施工過(guò)程中,施工單位施工方案編制不合理,未按施工圖施工,施工未嚴(yán)格按照施工工序,偷工減料;監(jiān)理單位人員及其人員資質(zhì)不足,相應(yīng)申請(qǐng)表,變更簽證等無(wú)監(jiān)理單位意見(jiàn),造成工程質(zhì)量問(wèn)題和進(jìn)度滯后。
三、結(jié)語(yǔ)
本文利用文本挖掘技術(shù)對(duì)審計(jì)署審計(jì)公告數(shù)據(jù)就國(guó)家重大工程審計(jì)風(fēng)險(xiǎn)進(jìn)行了統(tǒng)計(jì)分析。根據(jù)數(shù)據(jù)特征,提取出影響重大工程項(xiàng)目建設(shè)過(guò)程中的各種審計(jì)風(fēng)險(xiǎn),利用文本挖掘,詞云圖等方式對(duì)統(tǒng)計(jì)結(jié)果做出分析與展示。結(jié)果表明:項(xiàng)目決策階段,國(guó)家審核部門(mén)應(yīng)對(duì)申報(bào)項(xiàng)目進(jìn)一步了解,以防項(xiàng)目重復(fù)申報(bào),項(xiàng)目規(guī)模與需求匹配,項(xiàng)目建議書(shū)中應(yīng)考慮項(xiàng)目周邊配套設(shè)施;招投標(biāo)階段,國(guó)家審計(jì)部門(mén)對(duì)項(xiàng)目展開(kāi)跟蹤審計(jì),嚴(yán)格規(guī)范項(xiàng)目招投標(biāo)行為,確保招投標(biāo)過(guò)程公平、公正;項(xiàng)目設(shè)計(jì)階段,建設(shè)單位組織項(xiàng)目設(shè)計(jì)、勘察、施工、運(yùn)維單位審圖,及時(shí)發(fā)現(xiàn)問(wèn)題,確保項(xiàng)目設(shè)計(jì)變更較少,減少返工;施工階段,施工單位做好施工人員安全知識(shí)培訓(xùn),嚴(yán)格按照施工圖和施工方案施工。監(jiān)理單位嚴(yán)格檢查隱蔽工程,變更簽證,確保檔案完整。
參考文獻(xiàn):
[1]向鵬成,羅玉蘋(píng).重大工程項(xiàng)目建設(shè)的社會(huì)穩(wěn)定風(fēng)險(xiǎn)傳導(dǎo)機(jī)理研究[J].世界科技研究與發(fā)展,2014,36(04):420-425.
[2]崔淼.審計(jì)視角下重大工程項(xiàng)目風(fēng)險(xiǎn)研究[D].揚(yáng)州:揚(yáng)州大學(xué),2020.
[3]王明達(dá),陳潑,陳子新,等.基于文本挖掘的物探作業(yè)事故分析方法[J].西安石油大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,34(04): 119-126.
[4]鄭石橋,時(shí)現(xiàn),王會(huì)金.論工程審計(jì)內(nèi)容[J].財(cái)會(huì)月刊,2019,861(17):102-106.
[5]Ma L,Zhang B,Cui M,et al.Adopting a Qca Approach to Investigating the Risks Involved in Megaprojects From Auditing Perspective[J].Discrete Dynamics in Nature and Society,2019.
[6]沈亮,戴洪帥,王天嬌,等. 基于文本挖掘的石化安全管理及可視化研究[J].化工管理,2020,568(25):127-130+133.
[7]石鳳貴.中文文本分詞及其可視化技術(shù)研究[J].現(xiàn)代計(jì)算機(jī),2020,684(12):131-138+148.
[8]Chen Z.A Dynamic System Approach to Risk Analysis for Megaproject Delivery[J].Proceedings of the Institution of Civil Engineers-Management,Procurement and Law,2019.
[9]嚴(yán)越,鄭靜,林德南,等.面向腦卒中防治知識(shí)圖譜的風(fēng)險(xiǎn)評(píng)估與分類(lèi)[J].醫(yī)學(xué)信息學(xué)雜志,2020,41(09):31-36.
[10]李巖,郭鳳英,翟興,等.基于jieba中文分詞的在線醫(yī)療網(wǎng)站醫(yī)生畫(huà)像研究[J].醫(yī)學(xué)信息學(xué)雜志,2020,41(07):14-18.
[11]倪冰葦,趙鴻萍,顧月清.基于詞云圖和層次聚類(lèi)的天然產(chǎn)物研究熱點(diǎn)分析[J].中國(guó)新藥雜志,2020,29(12):1326-1333.
[12]汪東升,黃傳河,黃曉鵬,等.電信大數(shù)據(jù)文本挖掘算法及應(yīng)用[J].計(jì)算機(jī)科學(xué),2017,44(12):232-238.
[13]李金海,何有世,熊強(qiáng).基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)輿情文本挖掘研究[J].情報(bào)雜志,2014,33(10):1-6+13.
[14]馬世龍,烏尼日其其格,李小平.大數(shù)據(jù)與深度學(xué)習(xí)綜述[J].智能系統(tǒng)學(xué)報(bào),2016,11(06):728-742.
(作者單位:趙慶華、張琳、曹慶,揚(yáng)州大學(xué)建筑科學(xué)與工程學(xué)院;王笙宇,揚(yáng)州維揚(yáng)發(fā)展投資有限公司)