陸欣華
本文結合從事信息化領域工作的經(jīng)驗和體會,提出如何在風險評估過程中,應用大數(shù)據(jù)和機器學習等技術,供大家研究。
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)挖掘、機器學習等技術開始興起。如何把這些新興技術應用于企業(yè)經(jīng)營、科學決策過程當中,越來越受到廣泛關注。本文結合從事信息化領域的經(jīng)驗和體會,提出如何在風險評估過程中,應用大數(shù)據(jù)和機器學習等技術,供大家研究。
風險管理的發(fā)展歷程
風險管理最早起源于美國。1931年由美國管理協(xié)會保險部最先倡導風險管理。1932年美國紐約幾家大公司組織成立紐約保險經(jīng)紀人協(xié)會,該協(xié)會定期討論有關風險管理的理論與實踐問題,并逐漸發(fā)展為全美范圍的風險研究所和美國保險及風險管理協(xié)會。該協(xié)會的成立標志著風險管理的興起。
1953年8月12日,美國通用汽車公司變速裝置廠發(fā)生了火災,直接經(jīng)濟損失高達300萬美元。這場大火造成間接損失高達1億美元之巨。這一事件直接導致公司高層決策人員對風險管理的重視,進而促進了風險管理在全球的興起。到上世紀70年代,隨著項目管理的風行,作為項目管理9大領域(項目整體管理、項目范圍管理、項目時間管理、項目成本管理、項目人力資源管理、項目質量管理、項目溝通管理、項目風險管理、項目采購管理)之一的風險管理得到迅速發(fā)展。
時至今日,風險管理部門已經(jīng)成為多數(shù)企業(yè)中的一個重要職能部門,為實現(xiàn)企業(yè)的經(jīng)營目標而努力。
然而,風險管理的方法和工具,近些年沒有重大的發(fā)展,仍然使用傳統(tǒng)的管理學工具進行定性分析。隨著互聯(lián)網(wǎng)的迅猛發(fā)展,大數(shù)據(jù)、數(shù)據(jù)挖掘和機器學習等新興技術開始出現(xiàn),并且在企業(yè)的經(jīng)營決策過程中得到應用。
大數(shù)據(jù)
大數(shù)據(jù)作為新興的一項技術,還沒有特別權威的定義。有定義為海量數(shù)據(jù)的,有定義為全數(shù)據(jù)的。目前在IT界較為認可的定義是,在可承受的時間范圍內(nèi),無法用傳統(tǒng)數(shù)據(jù)庫軟件工具進行分析利用的數(shù)據(jù)集都可稱為大數(shù)據(jù)。
大數(shù)據(jù)在風險管理中的應用
最早應用大數(shù)據(jù)管理風險的正是風險管理最早出現(xiàn)的保險金融領域。他們通過收集銀行系統(tǒng)本身的征信數(shù)據(jù)以及用戶在互聯(lián)網(wǎng)上的的各種數(shù)據(jù),包括人際關系、歷史消費行為、身份特征等,通過大數(shù)據(jù)“畫像”技術,對用戶進行全面的定位,由此來預測用戶的履約能力、降低信貸風險。
十幾年前,電子器件、廚房用具、運動器材以及汽車配飾零售商Canadian Tire 曾做過一次突破性的調(diào)查,將消費者行為和信用風險相掛鉤。通過詳細分析消費者在多家店鋪使用 Canadian Tire 公司發(fā)行的信用卡消費的情況,這家公司發(fā)現(xiàn)延遲交付、信用卡違約都是可以預測的。辦法就是通過研究人們購買的商品種類和品牌,以及他們所光顧的酒吧類型。比如,數(shù)據(jù)顯示那些購買金屬骷髏頭汽車配飾,或者改裝大排量排氣管的消費者,最終有可能不會支付賬單。
而曾在蒙特利爾Sharx Pool Bar酒吧里消費的顧客中,有47%的人消費以后在12個月內(nèi)曾經(jīng)四次拖欠還款,令這家酒吧成為加拿大“風險最高”的酒館。事實證明,這種預測比傳統(tǒng)的行業(yè)預測方法更為精準。
Canadian Tire后來決定放棄使用(在社會上比較敏感的)調(diào)查結果來管理客戶,但它的故事反映了大數(shù)據(jù)分析學的一個關鍵問題:它們能夠向你展現(xiàn)更為全面的景象(New York Times 2009)。
會計師和財會專業(yè)人士可以利用這種大數(shù)據(jù)的優(yōu)勢,通過將多樣化的數(shù)據(jù)集引入計算,提高對風險的防范意識并降低風險。
機器學習
機器學習技術并不是剛剛起步,而是隨著電子計算機的出現(xiàn)而出現(xiàn)的一種技術。但幾十年來一直沒有取得重大突破,直到互聯(lián)網(wǎng)的普及,機器學習以大數(shù)據(jù)應用技術的全新面目呈現(xiàn)出了勃勃生機。簡單地說,機器學習就是通過各種算法對海量的歷史數(shù)據(jù)進行有人監(jiān)督或無人監(jiān)督的學習分析,總結規(guī)律,并利用分析結果對未來數(shù)據(jù)進行預測的一種技術。機器學習目前有很多的應用方向,包括模式識別、圖像識別、智能決策等。在企業(yè)管理層面上,目前在智能決策方面的應用較多。但個人認為,機器學習更適用的領域是風險識別。
機器學習在企業(yè)風險評估中的應用
一、適用性
機器學習是基于對大量的歷史數(shù)據(jù)進行統(tǒng)計分析的技術,由于大數(shù)據(jù)本身具有可能不真實的特性,以及機器學習算法本身的模糊特性,預測結果往往帶有不確定性,學習的數(shù)據(jù)量越大,預測的準確性越高。然而,企業(yè)本身不太可能擁有像互聯(lián)網(wǎng)那樣的海量數(shù)據(jù)。
這樣使得預測結果的不確定性更大。事實上,許多機器學習算法給出的預測結論本身就是大概率的。這種大概率的預測結果用于決策恐怕會讓人無所適從,不過用于風險評估卻恰到好處。
風險的定義是在特定環(huán)境下、特定時間內(nèi),預期結果偏離期望的可能性。用數(shù)學公式表示為:R=f(p,c),其中R表示風險,p表示不利事件發(fā)生的概率,c表示該事件發(fā)生的損害程度。
從定義看,不利事件發(fā)生的概率p恰恰可以通過機器學習算法進行預測,而整個風險評估的數(shù)學模型都可以沿用。
二、實施途徑
隨著企業(yè)信息化水平的提高,特別是隨著德國工業(yè)4.0和中國制造2025等發(fā)展戰(zhàn)略的推進,物聯(lián)網(wǎng)、企業(yè)云等新技術的應用,企業(yè)數(shù)據(jù)將迅猛增長。機器學習應用到風險評估領域應該越來越快。
1.數(shù)據(jù)準備
信息化部門要積極配合風險管理部門,打通各類數(shù)據(jù)的采集提取接口,消除信息孤島,建立適用于大數(shù)據(jù)處理的數(shù)據(jù)中心。
與某疑似風險事件相關聯(lián)的信息越多(人工、機械、材料、方法、環(huán)境等),越有利于機器學習算法的預測。風險管理部門應該盡量保證歷史風險評估信息的完備和準確,對已經(jīng)發(fā)生的風險要特別重視,對沒有評估出來而實際發(fā)生的事故、問題、損失等要及時總結,錄入到風險案例庫中。這可能是現(xiàn)有風險管理方面較為薄弱的環(huán)節(jié),但對機器學習來說,這些都是特別寶貴的歷史數(shù)據(jù)。
2.算法研究
機器學習的算法本身并不復雜,但種類很多,目前較為流行的包括樸素貝葉斯、邏輯回歸、線性回歸、決策樹、支持向量機SVM、人工神經(jīng)網(wǎng)絡、聚類分析等。不同的算法針對不同的數(shù)據(jù)集、應用方式和預測目標,預測的效果也不盡相同。這需要經(jīng)過反復的測試才能得到較好的應用效果。各類算法的優(yōu)缺點就不在這里討論了。
3.迭代學習
機器學習不是一次性的,而是可以不斷自我迭代,修正已有的經(jīng)驗模型和邏輯。因此,應用機器學習進行風險評估是一個持續(xù)不斷的學習、總結、再學習的過程,從而實現(xiàn)良性循環(huán),提高風險識別的準確率。
三、用機器學習進行風險評估的缺陷
用大數(shù)據(jù)技術進行預測近些年取得了不俗的成績,特別在保險和銀行信貸領域有著不錯的效果。但在股票、期貨等投資領域一直沒有重大突破,一方面這些領域的影響因素過于復雜,另一方面是因為如果利用預測結果進行投資,那么預測結果就直接干預了最終結果,導致預測不準.
在風險評估中其實也存在這樣的情況。評估有風險,采取了預防措施,防止了風險發(fā)生。結果可能導致進一步進行機器學習時,此類事件被模型修正為沒有風險,從而導致重大風險事件的遺漏。這可能需要在機器學習過程中進行有效的監(jiān)督,加大評估數(shù)據(jù)在學習過程中的權重,減少類似情況的出現(xiàn)。