曹杰*,張巖松,劉速,楊文軍,高峰,劉增霞
(昆侖數(shù)智科技有限責(zé)任公司)
石油企業(yè)是一個龐大的生產(chǎn)運營綜合體,涉及上、中、下游復(fù)雜的業(yè)務(wù)鏈,集勘探開發(fā)、煉油化工、物流運輸、成品油銷售、天然氣銷售、石油貿(mào)易、裝備制造、工程技術(shù)等業(yè)務(wù)于一體[1]。在實際生產(chǎn)經(jīng)營中,石油企業(yè)及下屬單位與大量供應(yīng)商有著交易往來。供應(yīng)商作為供應(yīng)鏈的源頭,在石油企業(yè)物流中有著不可替代的作用。面對良莠不齊的供應(yīng)商,如何識別和評估供應(yīng)商存在的各類風(fēng)險,降低采購成本,有針對性地選擇優(yōu)質(zhì)供應(yīng)商,成為石油企業(yè)采購管理的核心。
對采購供應(yīng)商進(jìn)行風(fēng)險識別和評估,是采購管理的關(guān)鍵環(huán)節(jié),且采購是最為重要的成本開支之一,每年采購的進(jìn)項發(fā)票有幾千萬張,金額巨大,業(yè)務(wù)范圍廣、采購種類多、供應(yīng)商數(shù)量多,采購過程中一般基于歷史采購經(jīng)驗、招投標(biāo)和合作往來的方式進(jìn)行供應(yīng)商評選。隨著“電算化”時代的到來和大數(shù)據(jù)技術(shù)的迅速發(fā)展,數(shù)字化技術(shù)為企業(yè)管理提供更有效的手段[2],采購行為信息能夠以結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)形式存儲,大量數(shù)據(jù)資源形成了龐大的數(shù)據(jù)庫,蘊(yùn)含著巨大的價值,通過深入挖掘數(shù)據(jù)標(biāo)簽和風(fēng)險因素,建立供應(yīng)商風(fēng)險模型能夠助力石油企業(yè)采購管理的提升,輔助供應(yīng)商評估。
供應(yīng)商風(fēng)險模型的建立在不同行業(yè)存在一定的差異,許多學(xué)者將各類模型算法應(yīng)用在相應(yīng)的領(lǐng)域。梁梁等在供應(yīng)商管理庫存中運用歐式和美式期權(quán)對供應(yīng)商經(jīng)營風(fēng)險進(jìn)行分析[3]。梁澤彬等基于灰色層次分析和灰聚類相結(jié)合的分析方法,建立了供應(yīng)商風(fēng)險評價模型,并應(yīng)用在物流企業(yè)的供應(yīng)商風(fēng)險管理[4]。李輝運用粗糙集與模糊綜合評價,從交互能力風(fēng)險、合作風(fēng)險、服務(wù)風(fēng)險指標(biāo)維度對一家混泥土外加劑生產(chǎn)企業(yè)建立供應(yīng)風(fēng)險評價模型[5]。繆琳以物流企業(yè)為例,運用物元和可拓理論建立供應(yīng)商風(fēng)險評價模型[6]。胡爽等以航空企業(yè)的供應(yīng)商風(fēng)險管理為例,應(yīng)用層次分析法建立供應(yīng)商風(fēng)險評估體系[7]。祝思佳等基于航空轉(zhuǎn)包生產(chǎn)行業(yè)的復(fù)雜性,采用TOPSIS(熵權(quán))算法模型對航空轉(zhuǎn)包供應(yīng)商進(jìn)行風(fēng)險評估[8]。耿俊成等基于基本屬性、用電行為、95598信息等維度數(shù)據(jù)運用邏輯回歸模型建立電力客戶停電敏感度評分卡[9]。邏輯回歸評分卡是一種成熟的風(fēng)險評估模型,在客戶信用風(fēng)險評估和金融風(fēng)險控制領(lǐng)域有著廣泛的應(yīng)用,其原理是從歷史數(shù)據(jù)中探查良與不良客戶或供應(yīng)商的特征,運用邏輯回歸算法基于WOE離散化后的模型變量進(jìn)行二分類,建立數(shù)據(jù)模型,為信用評估提供依據(jù)。相較于層次分析法及物元和可拓理論依賴專家主觀評價、熵權(quán)法對樣本量要求較高且僅適用于計算權(quán)重,邏輯回歸評分卡基于供應(yīng)商特征數(shù)據(jù)進(jìn)行邏輯回歸模型訓(xùn)練,實現(xiàn)簡單,訓(xùn)練速度快,結(jié)果客觀可信,因此在供應(yīng)商評價中得到廣泛應(yīng)用。
本文以石油企業(yè)進(jìn)項發(fā)票數(shù)據(jù)和供應(yīng)商主數(shù)據(jù)為數(shù)據(jù)來源,結(jié)合石油企業(yè)的采購特性,運用邏輯回歸評分卡建立石油企業(yè)的供應(yīng)商風(fēng)險模型。
邏輯回歸是廣義的線性回歸,常用于信貸評估等二分類問題,包含因變量和自變量兩種變量類型,其中因變量屬于二元分類變量,自變量呈現(xiàn)供應(yīng)商或客戶的信息。
設(shè)邏輯回歸模型有r個自變量,用x1、x2、…,xr表示,因變量y∈{1,0}表示供應(yīng)商良與不良信息這一事件,y=1表示不良的供應(yīng)商,y=0表示良好的供應(yīng)商。y=1事件概率以p表示,其公式為:
式中:β0、β1、…、βr——模型參數(shù);β0——截距項[10]。經(jīng)轉(zhuǎn)換簡化公式為:
式中:1-p——供應(yīng)商良好的可能性;p(1-p)——不良事件與良好事件發(fā)生的可能性比,被稱為odds。對odds取對數(shù),得到線性函數(shù)。邏輯回歸通過尋找最佳的參數(shù)β0、β1、…、βr實現(xiàn)模型優(yōu)化。
采用最大似然估計函數(shù)測算β0、β1、…、βr模型參數(shù),設(shè)有m組觀測數(shù)據(jù),則極大似然函數(shù)為:
式中:分別對參數(shù)β求偏導(dǎo)數(shù),求得使對數(shù)似然函數(shù)最大的邏輯回歸系數(shù)的估計值。
邏輯回歸評分卡是指基于邏輯回歸算法生成的評分卡,最常見的是信用評分卡,它是根據(jù)客戶屬性和行為數(shù)據(jù),利用邏輯回歸模型計算客戶信用評分,據(jù)此建立客戶信用等級,輔助貸款、授信等業(yè)務(wù)決策。
結(jié)合評分卡和邏輯回歸的基本原理,評分卡的分值以發(fā)生比的對數(shù)線性表達(dá)式表示:
式中:A與B是常數(shù),高分值代表低風(fēng)險,低分值代表高風(fēng)險。
結(jié)合公式(3)和公式(6),評分卡分值計算公式表示為:
式中:x1、x2、…、xr——入模變量。經(jīng)WOE轉(zhuǎn)換后以 (βiωij)δij形式表示:
式中:A-Bβ0——基礎(chǔ)分值;ωij——第i個變量的第j個分箱的WOE值;βi——回歸方程系數(shù);δij——二元變量,表示第i個變量的取值。
隨著數(shù)字化時代的發(fā)展,石油企業(yè)建立了多項成熟的管理系統(tǒng),存儲了大量業(yè)務(wù)數(shù)據(jù),其中發(fā)票作為商品(服務(wù))交易的原始憑證,是石油企業(yè)采購交易的體現(xiàn),可以提煉出供應(yīng)商的交易往來、主銷商品、稅務(wù)風(fēng)險、歷史開票行為等特征,供應(yīng)商主數(shù)據(jù)包含:單位性質(zhì)、企業(yè)類型、注冊資本等自然屬性特征,能夠為模型評估提供豐富的數(shù)據(jù)基礎(chǔ)。本文以石油企業(yè)進(jìn)項發(fā)票和供應(yīng)商主數(shù)據(jù)為數(shù)據(jù)來源構(gòu)建供應(yīng)商風(fēng)險模型,構(gòu)建流程如圖1所示。
圖1 石油企業(yè)供應(yīng)商風(fēng)險模型構(gòu)建流程
從石油企業(yè)進(jìn)項發(fā)票數(shù)據(jù)和供應(yīng)商主數(shù)據(jù)提取62項供應(yīng)商相關(guān)的屬性,主要包括以下3類數(shù)據(jù):①基礎(chǔ)屬性數(shù)據(jù),如供應(yīng)商稅號、單位性質(zhì)、企業(yè)類型、所屬集團(tuán)、所屬板塊、所屬行業(yè)等。②經(jīng)營表征數(shù)據(jù),如經(jīng)營現(xiàn)狀、注冊資本、內(nèi)部合作單位數(shù)、主銷商品等。③發(fā)票表征數(shù)據(jù),如開票數(shù)量、開票金額、作廢發(fā)票、失控發(fā)票、異常發(fā)票、紅沖發(fā)票、風(fēng)險發(fā)票等。
為了保證字段變量的完整性,選取具有較好代表性的樣本,訓(xùn)練集樣本量為22 544條,占比60%,測試集樣本量為15 029條,占比40%,總計樣本量37 573條。其中訓(xùn)練集好樣本20 844條,壞樣本1 700條,測試集好樣本13 895條,壞樣本1 134條,訓(xùn)練集和測試集好樣本合計34 739條,壞樣本合計2 834條。樣本數(shù)據(jù)分布如表1所示。
表1 樣本數(shù)據(jù)分布表 單位:個
模型經(jīng)過缺失值處理、相關(guān)性變量剔除、數(shù)據(jù)轉(zhuǎn)換(分箱離散化)及IV值變量篩選等優(yōu)化過程,變量從最初62項到最終選定9項作為模型的特征指標(biāo),具體優(yōu)化過程如下。
2.2.1 缺失值處理
本次研究初步提取 62項供應(yīng)商相關(guān)的屬性數(shù)據(jù),但其中不少變量包含大量缺失值且部分變量與目標(biāo)變量無關(guān)(如國家、編碼等字段),因此將缺失比例在50%以上的變量及無關(guān)變量一并剔除。經(jīng)過本次剔除,對剩余39個變量進(jìn)行缺失值賦值,本文對缺失值處理,采用變量的眾數(shù)進(jìn)行插補(bǔ)。
2.2.2 相關(guān)性變量剔除
邏輯回歸模型中自變量間若存在高度的多重共線性會影響模型估計結(jié)果,如偏回歸系數(shù)估計困難,偏回歸系數(shù)的估計方差會隨自變量相關(guān)性的增大而增大,偏回歸系數(shù)估計值的不穩(wěn)定性增強(qiáng),偏回歸系數(shù)假設(shè)檢驗的結(jié)果不顯著等。因此,本文研究中考慮變量之間的相關(guān)程度,根據(jù) Pearson相關(guān)系數(shù)剔除相關(guān)系數(shù)在 0.6以上而對目標(biāo)變量影響相對較小的變量。經(jīng)過相關(guān)性剔除,篩選11個變量進(jìn)入分箱處理。
2.2.3 卡方分箱及IV值變量篩選
分箱的目的是實現(xiàn)數(shù)據(jù)的離散化,降低過度擬合風(fēng)險。信息價值IV是衡量變量預(yù)測能力的指標(biāo),能夠判斷特征變量對結(jié)果的重要程度,IV值越大表示特征變量的預(yù)測能力越強(qiáng)。對于分組變量,IV值計算公式如下:
式中:pyi——當(dāng)前分箱中不良供應(yīng)商占樣本中不良供應(yīng)商的比例;pni——該分箱中良好供應(yīng)商占樣本中良好供應(yīng)商的比例;WOEi——當(dāng)前分箱中不良供應(yīng)商和良好供應(yīng)商的比值和樣本中不良供應(yīng)商和良好供應(yīng)商比值的差異。差異越大,該分組里的樣本響應(yīng)的可能性就越大。計算公式為:
式中:yi——當(dāng)前分箱中不良供應(yīng)商的數(shù)量;ni——該分箱中良好供應(yīng)商的數(shù)量;yT——樣本中不良供應(yīng)商的數(shù)量;nT——樣本中良好供應(yīng)商的數(shù)量。
特征變量的IV值如表2所示,選取IV值大于0.01的9個變量作為入模變量,分別是歷史作廢發(fā)票數(shù)量比例、歷史年均交易頻次、近三個月作廢發(fā)票金額、歷史開發(fā)數(shù)量、供應(yīng)商近一年內(nèi)部合作單位數(shù)、供應(yīng)商歷史上內(nèi)部合作單位數(shù)、所屬板塊、所屬集團(tuán)、單位性質(zhì)。
表2 入模變量IV值表
采用最大似然估計法計算回歸系數(shù)的估算值,模型擬合結(jié)果如表3所示。入模變量9項,其中歷史作廢發(fā)票數(shù)量比例、歷史年均交易頻次、近三個月作廢發(fā)票金額、歷史開票數(shù)量、所屬板塊p值遠(yuǎn)小于 0.01,具有非常顯著的意義,單位性質(zhì)p值小于0.05有顯著意義。
表3 邏輯回歸結(jié)果
此外,根據(jù)表3邏輯回歸系數(shù)顯著性檢驗結(jié)果,變量顯著性指標(biāo)多為進(jìn)項發(fā)票指標(biāo),考慮供應(yīng)商評價應(yīng)綜合考慮多個業(yè)務(wù)維度,因此在不影響邏輯回歸模型整體效果的前提下,將供應(yīng)商歷史上內(nèi)部合作單位數(shù)、所屬集團(tuán)兩個變量納入評分卡模型。
基于邏輯回歸算法模型輸出的回歸系數(shù)和WOE編碼對每個入模變量按照不同的分箱建立評分刻度,如表4所示。邏輯回歸評分卡模型通過綜合計算入模變量的評分值和初始基礎(chǔ)分,來統(tǒng)計每個供應(yīng)商的總體得分。當(dāng)有新的供應(yīng)商數(shù)據(jù)進(jìn)入模型時,模型會自動計算出供應(yīng)商的分?jǐn)?shù),從而實現(xiàn)供應(yīng)商風(fēng)險的判斷。
表4 評分刻度表
二分類問題常見的評價指標(biāo)有準(zhǔn)確率、精準(zhǔn)率、召回率、F1值、ROC(感受性曲線)曲線和AUC等。準(zhǔn)確率是指分類正確的樣本占總樣本的比率,在不均衡的樣本集上度量效果較差。精準(zhǔn)率是指預(yù)測為正的樣本中實際為正的比率。召回率是指正樣本中被預(yù)測為正的比率。F1值是精準(zhǔn)率和召回率的調(diào)和平均。ROC曲線是以真正率為縱坐標(biāo)、假正類率為橫坐標(biāo)繪制的曲線[11]。AUC值被定義為ROC曲線下的面積,AUC越接近于1,模型效果越好,其中AUC介于0.5~0.7,模型效果一般;AUC介于0.7~0.9,模型效果較強(qiáng);AUC大于0.9,模型效果很強(qiáng)。相比于其他評價指標(biāo),當(dāng)樣本集中正負(fù)樣本不均衡時,ROC曲線能夠保持相對的穩(wěn)定,而精準(zhǔn)率、召回率等會出現(xiàn)較大的變化。因此,本文采用ROC曲線和AUC面積值作為模型的評價指標(biāo)。由圖2訓(xùn)練數(shù)據(jù)和圖3測試數(shù)據(jù)的ROC曲線可以看出,曲線明顯高于對角線,證明模型是有強(qiáng)規(guī)則性的,且曲線上凸于縱坐標(biāo)軸,AUC面積區(qū)域接近于梯形狀,證明模型分類效果較好。該模型測試AUC為0.82,說明模型分類能力較好。
圖2 訓(xùn)練數(shù)據(jù)ROC圖
圖3 測試數(shù)據(jù)ROC圖
測試樣本共有15 029個供應(yīng)商,其中不良供應(yīng)商1 134個。基于邏輯回歸評分卡對測試樣本數(shù)據(jù)進(jìn)行評分計算和驗證,分值段按照供應(yīng)商數(shù)量劃分,每段供應(yīng)商數(shù)量約為5%,以分值從低到高排序,見表5和圖4。
表5 驗證數(shù)據(jù)表
圖4 分段提升度
分段提升度作為評估預(yù)測模型有效性的度量指標(biāo),衡量的是一個模型(或規(guī)則)對目標(biāo)中“響應(yīng)”的預(yù)測能力優(yōu)于隨機(jī)選擇的倍數(shù)。通過驗證數(shù)據(jù)表,測試集中供應(yīng)商自然不良率為 7.55%,(0,376]分段不良率71.18%,比自然不良率提高了9.43倍,提升度顯著大于1,在(0,447]低分段區(qū)間,分段提升度均大于2.5,預(yù)測能力明顯優(yōu)于隨機(jī)選擇,說明算法性能較好,且提升度曲線單調(diào)下降,呈“L”型,表明模型分類效果良好。
建立評分卡的目的是根據(jù)供應(yīng)商的模型評分,對供應(yīng)商做出風(fēng)險判斷,采取相應(yīng)的防范措施。結(jié)合 Lift提升度曲線,(0,447]分段區(qū)間的提升度均大于2.5,相比自然隨機(jī)抽取有較大的概率提升,存在風(fēng)險供應(yīng)商的可能性較大,基于分值區(qū)間的劃分和業(yè)務(wù)考慮,將(0,376]劃分為高風(fēng)險,(376,433]劃分為中風(fēng)險,(433,447]劃分為低風(fēng)險。通過應(yīng)用供應(yīng)商風(fēng)險模型,采購管理者一方面能夠掌握供應(yīng)商警示名單等信息,對447分段內(nèi)的供應(yīng)商重點關(guān)注,另一方面可以洞察供應(yīng)商有關(guān)風(fēng)險影響指標(biāo),輔助采購決策。
石油企業(yè)進(jìn)項發(fā)票數(shù)據(jù)和供應(yīng)商主數(shù)據(jù)是本文運用邏輯回歸評分卡建立供應(yīng)商風(fēng)險模型的主要數(shù)據(jù)來源,經(jīng)過特征篩選選定了9項特征變量進(jìn)行邏輯回歸擬合,模型驗證效果良好。供應(yīng)商風(fēng)險模型將可能存在風(fēng)險的供應(yīng)商劃分為高、中、低三個等級,風(fēng)險等級越高,存在生產(chǎn)經(jīng)營風(fēng)險的可能性越大。石油企業(yè)在進(jìn)行采購交易時,可參考本文提出的供應(yīng)商風(fēng)險模型,并結(jié)合實際采購需求做出合理的判斷,對于高風(fēng)險供應(yīng)商重點關(guān)注,盡量避免交易往來;對于中風(fēng)險供應(yīng)商綜合評估采購需求,慎重交易;對于低風(fēng)險供應(yīng)商進(jìn)一步分析風(fēng)險指標(biāo)項,綜合評估采購的關(guān)聯(lián)性,減少交易風(fēng)險。
本文供應(yīng)商風(fēng)險模型的數(shù)據(jù)來源存在一定局限性,隨著司法風(fēng)險、立案信息、經(jīng)營狀況等外部數(shù)據(jù)的引入能夠進(jìn)一步豐富模型變量,提升適用范圍。