李鋒
[摘要]通過聚類分析法收集機(jī)構(gòu)所在區(qū)域金融風(fēng)險(xiǎn)、內(nèi)部控制、內(nèi)部審計(jì)等相關(guān)數(shù)據(jù),使用Python語言將機(jī)構(gòu)分成群組,研究各群組內(nèi)部各機(jī)構(gòu)間的異同,從而分析全行經(jīng)營管理情況,較好地平衡審計(jì)對象抽樣數(shù)量和審計(jì)覆蓋的有效性,降低審計(jì)風(fēng)險(xiǎn)。
[關(guān)鍵詞]聚類分析 審計(jì)對象 內(nèi)部審計(jì) Python
編制審計(jì)計(jì)劃時(shí),有必要對審計(jì)對象進(jìn)行合理
分類,再基于分類配置審計(jì)資源,在保證審計(jì)覆蓋率的基礎(chǔ)上,提高審計(jì)投入產(chǎn)出效率,有效降低審計(jì)風(fēng)險(xiǎn)。在審計(jì)對象特征值的維度為個(gè)位數(shù)時(shí),分類相對比較簡單,人工處理也比較直觀。但當(dāng)審計(jì)對象的特征維度增多,特征的量綱差異變大時(shí),簡單的分類方法就難以奏效,需要借助數(shù)據(jù)挖掘中的聚類分析方法進(jìn)行分類。
一、聚類分析概述
聚類分析是把數(shù)據(jù)分類成子集或簇的過程,每個(gè)簇中的對象相似而與其他簇中的對象相異,這些子集或簇的集合叫聚類。聚類分析是一種無監(jiān)督學(xué)習(xí),又稱自動(dòng)分類,具有鮮明的數(shù)據(jù)挖掘功能,即事先并不需要知道聚類分析后形成的簇群個(gè)數(shù)或?qū)哟谓Y(jié)構(gòu),而是自動(dòng)根據(jù)不同維度特征值之間的距離,通過無監(jiān)督學(xué)習(xí)和自動(dòng)收斂,發(fā)現(xiàn)事先不能預(yù)見的聚類,從而較大程度地避免主觀判斷對分類的影響。
基本的聚類算法包括劃分方法、層次方法、基于密度和基于網(wǎng)格的方法等。不論采用哪種方法,對聚類的可行性和聚類結(jié)果的質(zhì)量進(jìn)行評估至關(guān)重要。評估包括三個(gè)方面:一是估計(jì)聚類的趨勢。即評估數(shù)據(jù)集均勻分布的概率,因?yàn)閿?shù)據(jù)如果均勻分布,聚類沒有任何意義,換句話說,數(shù)據(jù)應(yīng)該具有非隨機(jī)結(jié)構(gòu),一般可以用霍普金斯統(tǒng)計(jì)量來檢驗(yàn)變量的空間隨機(jī)性。二是選擇最優(yōu)的分類簇?cái)?shù)。假設(shè)數(shù)據(jù)集有n個(gè)樣本,那么簇?cái)?shù)應(yīng)該在1和n之間,決定聚類后的簇?cái)?shù)實(shí)際上就是一個(gè)顆粒度大小的問題,最適宜的簇?cái)?shù)依賴于數(shù)據(jù)集分布的形狀和尺度。三是評估聚類結(jié)果的質(zhì)量。在有基準(zhǔn)可用的情況下,可以采用外在方法(監(jiān)督方法)將聚類與基準(zhǔn)比較;若沒有基準(zhǔn)可用,可以用輪廓系數(shù)等工具來衡量簇的分離情況和緊湊情況。
二、聚類分析在審計(jì)對象分類與抽樣中的應(yīng)用
商業(yè)銀行內(nèi)部審計(jì)部門在年初制訂審計(jì)計(jì)劃時(shí),需要考慮審計(jì)時(shí)間、人力等資源的限制,需要平衡審計(jì)對象的抽樣數(shù)量和審計(jì)覆蓋面,既保證審計(jì)評價(jià)的有效性,又要降低審計(jì)風(fēng)險(xiǎn)。比如,在規(guī)劃確定信用風(fēng)險(xiǎn)重點(diǎn)檢查機(jī)構(gòu)時(shí),首先需要根據(jù)機(jī)構(gòu)所處的區(qū)域環(huán)境、資產(chǎn)規(guī)模、資產(chǎn)質(zhì)量、風(fēng)險(xiǎn)隱患程度、主管部門的考核排名、上一年度審計(jì)報(bào)告揭示的重大問題數(shù)量等維度,對機(jī)構(gòu)進(jìn)行全方位的風(fēng)險(xiǎn)評估和分級分類,然后基于風(fēng)險(xiǎn)導(dǎo)向原則確定審計(jì)對象。由于描述機(jī)構(gòu)的特征值維度較多,每個(gè)維度指標(biāo)僅能刻畫審計(jì)對象的某個(gè)方面,所有指標(biāo)相互配合共同刻畫審計(jì)對象的特征。指標(biāo)變量選擇越準(zhǔn)確、測量越可靠,得到的分類結(jié)果就越能準(zhǔn)確地描述審計(jì)對象間的本質(zhì)區(qū)別,簡單的篩選和分類無法進(jìn)行全面完整的處理,而機(jī)器學(xué)習(xí)算法中的聚類分析可以根據(jù)多維空間距離對審計(jì)對象進(jìn)行分組。
(一)聚類分析指標(biāo)設(shè)計(jì)和數(shù)據(jù)處理
1.指標(biāo)體系設(shè)計(jì)。對信用風(fēng)險(xiǎn)審計(jì)對象的選擇,不僅要考慮機(jī)構(gòu)發(fā)展與風(fēng)險(xiǎn)的平衡能力、內(nèi)部控制情況,還要考慮第三方監(jiān)督、所在區(qū)域的總體風(fēng)險(xiǎn)狀況。綜合考量,選取5個(gè)維度9類指標(biāo),如表1所示。
2.數(shù)據(jù)分析工具。Python是一種解釋型、面向?qū)ο?、?dòng)態(tài)數(shù)據(jù)類型的高級程序設(shè)計(jì)語言,具有豐富強(qiáng)大的庫,功能全面。其中Pandas庫可用于Excel文件的讀寫,Matplotlib庫可以可視化展現(xiàn)數(shù)據(jù)分析結(jié)果,Sklearn和Scipy庫包含大量機(jī)器學(xué)習(xí)的算法,包括各類聚類分析算法。本文基于Python環(huán)境引入Pandas、Matplotlib、Sklearn和Scipy庫,對機(jī)構(gòu)的多維度數(shù)據(jù)進(jìn)行聚類分析,在此基礎(chǔ)上進(jìn)行審計(jì)對象抽樣。
3.數(shù)據(jù)處理和檢驗(yàn)。
(1)對數(shù)據(jù)進(jìn)行歸一化處理。從上述9類指標(biāo)的數(shù)據(jù)類型看,有的是余額,有的是百分比,有的是排名,量綱差異比較大,需要對數(shù)據(jù)進(jìn)行歸一化處理,減少量綱差異對結(jié)果的影響。采用常見的Z-Score方法對數(shù)據(jù)進(jìn)行歸一化處理,代碼如下:
#讀取數(shù)據(jù)
import pandas as pd
df0=pd.read_excel(u'機(jī)構(gòu)多維度數(shù)據(jù).xlsx')
#對數(shù)據(jù)進(jìn)行歸一化處理
df_zscore=(df0-df0.mean( ))/df0.std( )
處理后的指標(biāo)數(shù)據(jù)前5條記錄如圖1所示。
(2)分析指標(biāo)的相關(guān)程度。由于涉及的數(shù)據(jù)類別較多,還需分析指標(biāo)之間的相關(guān)程度,避免過擬合。用Pandas庫自帶的相關(guān)系數(shù)計(jì)算函數(shù)指標(biāo)間的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)。代碼如下:
#計(jì)算指標(biāo)間的相關(guān)系數(shù)
df_zscore.corr()
指標(biāo)間的相關(guān)系數(shù)如圖2所示。
從數(shù)據(jù)看,除了不良率與綜合競爭力呈現(xiàn)較高的負(fù)相關(guān)(-0.858859),其他指標(biāo)間的相關(guān)程度較弱。考慮到不良率與綜合競爭力相關(guān)有其業(yè)務(wù)合理性,故所有指標(biāo)都參與最后的分析。
(3)選擇最優(yōu)的分類簇?cái)?shù)。聚類分類是一種無監(jiān)督的分類方法,但在不同的分類簇?cái)?shù)情況下,簇之間的特征差異不同,分類的區(qū)分度也不同。一般選用輪廓系數(shù)法來評估不同簇?cái)?shù)分類的區(qū)分度,在合理分組的情況下,平均輪廓系數(shù)最大的就是最優(yōu)的分類簇?cái)?shù)。
#通過輪廓系數(shù)法計(jì)算最優(yōu)簇?cái)?shù)k
from sklearn.metrics import silhouette_score
Scores=[ ]#存放輪廓系數(shù)
for k in range(2,18):
estimator=Agglomerative Clustering(n_clusters=k,affinity='euclidean',linkage='ward')
estimator.fit(df_zscore)
Scores.append(silhouette_score(df_zscore,
estimator.labels_,metric='euclidean'))
plt.xlabel(u'簇?cái)?shù)k')
plt.ylabel(u'輪廓系數(shù)')
plt.plot(range(2,18),Scores,'o-')
plt.axvline(Scores.index(max(Scores))+2,color='red',linestyle='--')
plt.annotate(u'最優(yōu)簇6',xy=(6.3,0.23),xytext=(9.3,0.19),arrowprops=dict(facecolor='red',shrink=0.01))
plt.title(u'輪廓系數(shù)計(jì)算\n')
plt.xlim(2,18)
plt.show( )
從結(jié)果看,采取層次聚類法,將機(jī)構(gòu)分成2到18簇的情況下,最優(yōu)簇?cái)?shù)為6,輪廓系數(shù)法計(jì)算結(jié)果如圖3所示。
(二)聚類分析結(jié)果及評價(jià)
根據(jù)上述對數(shù)據(jù)集簇?cái)?shù)的計(jì)算,確定將聚類分成6個(gè)簇(群組)進(jìn)行分析較為合適,每一簇內(nèi)的機(jī)構(gòu)在內(nèi)外部風(fēng)險(xiǎn)形勢、內(nèi)控水平和綜合競爭力等方面的特征相似。分層聚類并可視化展現(xiàn)的代碼如下:
from sklearn import metrics
fig,ax=plt.subplots(figsize=(10,8))
Z=hierarchy.linkage(df_zscore,method='ward',metric='euclidean')
P=hierarchy.dendrogram(Z,orientation="left",labels=df_zscore.index)
plt.axvline(4.8,color='yellow',label='66')
plt.title(u"機(jī)構(gòu)分層聚類分析結(jié)果\n",{'fontname':'SimHei','fontsize':18})
plt.show( )
運(yùn)行后得到的聚類分析譜系圖如圖4所示。垂直黃線為最優(yōu)分組閾值,黃線右側(cè)莖葉及其子葉為同一簇(群組)的機(jī)構(gòu)。
依據(jù)聚類分析譜系圖,將20家機(jī)構(gòu)分類進(jìn)一步整理成表格,如表2所示。
第一簇包括機(jī)構(gòu)04、機(jī)構(gòu)03、機(jī)構(gòu)17和機(jī)構(gòu)16,都處于經(jīng)濟(jì)欠發(fā)達(dá)地區(qū),區(qū)域金融風(fēng)險(xiǎn)等級為低,綜合競爭力和內(nèi)控水平較低,業(yè)務(wù)規(guī)模較小,審計(jì)發(fā)現(xiàn)問題較多。其中,機(jī)構(gòu)04和機(jī)構(gòu)03所在的兩省地域相連、資源稟賦相近,分在一起具有合理性。
第二簇包括機(jī)構(gòu)09、機(jī)構(gòu)08、機(jī)構(gòu)15和機(jī)構(gòu)10。其中機(jī)構(gòu)08和機(jī)構(gòu)09位于同一地區(qū),所在區(qū)域經(jīng)濟(jì)處于上行階段、償債率指標(biāo)低、區(qū)域金融風(fēng)險(xiǎn)處于中低程度,兩家機(jī)構(gòu)的綜合競爭力和內(nèi)控排名靠前,審計(jì)發(fā)現(xiàn)的重要問題也比較多。機(jī)構(gòu)15和機(jī)構(gòu)10分在一起出乎意料,機(jī)構(gòu)15業(yè)務(wù)發(fā)展和內(nèi)控水平都處于中游;機(jī)構(gòu)10綜合競爭力排名靠前,但內(nèi)控排名相對落后。
第三簇包括機(jī)構(gòu)14和機(jī)構(gòu)13,都是資產(chǎn)規(guī)模較大、內(nèi)控評級靠前、資產(chǎn)質(zhì)量優(yōu)質(zhì)的大型機(jī)構(gòu),區(qū)域經(jīng)濟(jì)發(fā)達(dá)、金融風(fēng)險(xiǎn)等級為中,但兩家機(jī)構(gòu)的綜合競爭力近年來出現(xiàn)下滑趨勢。
第四簇包括機(jī)構(gòu)07、機(jī)構(gòu)06和機(jī)構(gòu)12,三家機(jī)構(gòu)這幾年經(jīng)營比較困難,資產(chǎn)質(zhì)量較差,綜合競爭力和內(nèi)控排名靠后,審計(jì)發(fā)現(xiàn)的問題數(shù)量處于平均水平。
第五簇包括機(jī)構(gòu)11、機(jī)構(gòu)01、機(jī)構(gòu)02和機(jī)構(gòu)05,四家機(jī)構(gòu)位于同一地區(qū),其中機(jī)構(gòu)11和機(jī)構(gòu)01規(guī)模相近,管理基礎(chǔ)較薄弱,內(nèi)控水平較差;機(jī)構(gòu)02的規(guī)模明顯小于其他三家,審計(jì)發(fā)現(xiàn)問題較少,綜合競爭力和內(nèi)控排名不是很靠前;機(jī)構(gòu)05所在區(qū)域經(jīng)濟(jì)發(fā)達(dá)、金融風(fēng)險(xiǎn)程度為中,前幾年不良貸款暴露較多,但經(jīng)過前期清收和處置后,不良率已降到較低水平。
第六簇包括機(jī)構(gòu)19、機(jī)構(gòu)18和機(jī)構(gòu)20,三家機(jī)構(gòu)地域相鄰,面臨相同的區(qū)域風(fēng)險(xiǎn)形勢和金融生態(tài),金融風(fēng)險(xiǎn)等級為高,尤其是信貸缺口高,表明金融系統(tǒng)對損失的化解能力差;三家機(jī)構(gòu)存量資產(chǎn)的質(zhì)量差,內(nèi)部綜合競爭力和內(nèi)控排名靠后。
三、研究結(jié)論和應(yīng)用建議
(一)研究結(jié)論
1.從聚類分簇看,20家機(jī)構(gòu)具有明顯的聚集特征,機(jī)構(gòu)之間具有簇內(nèi)相似性和簇間相異性,結(jié)合持續(xù)審計(jì)掌握的情況,聚類結(jié)果具有較強(qiáng)的準(zhǔn)確性。
2.聚類結(jié)果顛覆了對一些機(jī)構(gòu)的傳統(tǒng)認(rèn)識,一些機(jī)構(gòu)情況已經(jīng)發(fā)生了實(shí)質(zhì)性變化,需要調(diào)整審計(jì)策略,有效降低審計(jì)風(fēng)險(xiǎn)。
3.聚類結(jié)果有助于預(yù)估各家機(jī)構(gòu)的審計(jì)風(fēng)險(xiǎn)、審計(jì)開展的難易程度及審計(jì)工作量,可以根據(jù)各級審計(jì)機(jī)構(gòu)的能力范圍和業(yè)務(wù)專長,合理搭配和安排審計(jì)項(xiàng)目。
(二)應(yīng)用建議
聚類分析應(yīng)盡可能選擇有代表性的指標(biāo),如果指標(biāo)變量過多、關(guān)聯(lián)度高,容易導(dǎo)致分類不精確。在一些研究中采用因子分析降低維數(shù),選取重點(diǎn)的有代表性的指標(biāo)作聚類分析,以保證分類結(jié)果的精確性。還有一些研究采用主成分分析和因子分析的多元統(tǒng)計(jì)方法,計(jì)算提取主成分和公共因子,然后再進(jìn)行聚類分析。
(作者單位:交通銀行總行審計(jì)監(jiān)督局,郵政編碼:200120,電子郵箱:158845434@qq.com)
主要參考文獻(xiàn)
曹曉俊.對我國上市銀行經(jīng)營業(yè)績的分析:基于主成分分析、因子分析和聚類分析的方法[J].宿州學(xué)院學(xué)報(bào), 2016(7):25-29
丁紅艷,陳建,張敏.基于因子分析和聚類分析的新疆各地區(qū)經(jīng)濟(jì)發(fā)展水平綜合評價(jià)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識, 2016(4):36-43
彭振江,楊李娟.金融周期視角下區(qū)域金融風(fēng)險(xiǎn)差異化防控研究[J].金融監(jiān)管研究, 2017(5):50-67
Jiawei Han, Micheline Kamber, Jian Pei.范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社, 2012