駱文輝
摘要:為了解決管理人員對城市信用數(shù)據(jù)查詢效率和質(zhì)量問題,實現(xiàn)信用畫像快速、準(zhǔn)確圈定數(shù)據(jù)的要求,提出了一種基于自動標(biāo)簽的城市信用畫像系統(tǒng)。通過自動化標(biāo)簽技術(shù)來構(gòu)建市場主體的信用畫像,并基于標(biāo)簽結(jié)合集成學(xué)習(xí)算法實現(xiàn)了信用風(fēng)險的自動預(yù)警,有效提升了信用監(jiān)管工作的效率。
關(guān)鍵詞:自動標(biāo)簽;信用畫像;集成學(xué)習(xí);風(fēng)險預(yù)警;系統(tǒng)
中圖分類號:TP391? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2022)06-0001-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 概述
近年來,多地以信用信息平臺為支撐,以推進誠信文化建設(shè)、建立守信激勵和失信懲戒機制為重點,以聯(lián)合獎懲、信用服務(wù)為主要手段,全面推進社會信用體系建設(shè)工作[1]。在大數(shù)據(jù)時代,匯聚企業(yè)基本信息、經(jīng)營狀況、經(jīng)營風(fēng)險、知識產(chǎn)權(quán)、發(fā)展?fàn)顩r等數(shù)據(jù),可以勾勒出企業(yè)整體特征與輪廓,建立起立體的企業(yè)全息畫像[2]。信用畫像是指將企業(yè)所有的信用標(biāo)簽綜合起來,對其信用等級做出全面精確的評價。
傳統(tǒng)的數(shù)據(jù)查詢與統(tǒng)計模式無法洞悉數(shù)據(jù)全貌,也無法滿足同類信用群體識別及多維度的分析比較,更無法完成在對信用主體智能識別的基礎(chǔ)上實現(xiàn)信用風(fēng)險自動化預(yù)警[3]。本文面向社會信用領(lǐng)域研發(fā)一款集標(biāo)簽開發(fā)、管理與服務(wù)業(yè)務(wù)于一身的信用畫像系統(tǒng),支持從海量數(shù)據(jù)中挖掘和計算標(biāo)簽,并通過良性的標(biāo)簽運營機制,促進標(biāo)簽在信用業(yè)務(wù)中應(yīng)用。以信用業(yè)務(wù)需求為導(dǎo)向,讓業(yè)務(wù)與標(biāo)簽深度結(jié)合,通過標(biāo)簽增強業(yè)務(wù),信用業(yè)務(wù)需求拉動標(biāo)簽開發(fā),從而進入一種良性循環(huán),讓標(biāo)簽體系在信用管理業(yè)務(wù)中持續(xù)迭代。
2 系統(tǒng)架構(gòu)與功能
2.1 系統(tǒng)總體架構(gòu)
城市信用畫像系統(tǒng)采用了層次化的設(shè)計思想,結(jié)合了國家有關(guān)標(biāo)準(zhǔn)和實際業(yè)務(wù)需求,構(gòu)建了信用風(fēng)險預(yù)警模型預(yù)置在系統(tǒng)中,并基于機器學(xué)習(xí)等算法技術(shù)實現(xiàn)了企業(yè)標(biāo)簽的自動化提取。城市信用畫像系統(tǒng)由數(shù)據(jù)源、數(shù)據(jù)層、計算層和應(yīng)用層四部分組成。數(shù)據(jù)源主要包括各類政務(wù)數(shù)據(jù)和公開社會數(shù)據(jù),經(jīng)規(guī)整匯集到指定數(shù)據(jù)庫。計算層針對用戶自定義的標(biāo)簽、指標(biāo)、信用分等進行計算,此外還針對用戶指定的標(biāo)簽進行聚類計算以查找相似群體。數(shù)據(jù)層包括兩類數(shù)據(jù):第一類是用戶創(chuàng)建的存儲在系統(tǒng)相應(yīng)目錄下的實時數(shù)據(jù);第二類為基于標(biāo)簽規(guī)則集和預(yù)警規(guī)則集產(chǎn)生的數(shù)據(jù),包括信用標(biāo)簽數(shù)據(jù)、信用風(fēng)險預(yù)警數(shù)據(jù);第三類是基于第一類、第二類的基礎(chǔ)之上產(chǎn)生的畫像數(shù)據(jù),包括企業(yè)單體畫像、群體畫像。應(yīng)用層在計算層之上是向用戶提供服務(wù),包括畫像可視化、風(fēng)險預(yù)警監(jiān)控等。系統(tǒng)架構(gòu)如圖1所示。
城市信用畫像系統(tǒng)前端采用VUE和Layui,通過nginx負(fù)載,依托JWT和Spring Security實現(xiàn)權(quán)限認(rèn)證體系,服務(wù)層分為系統(tǒng)后臺服務(wù)和計算服務(wù),系統(tǒng)后臺服務(wù)主要使用SpringBoot、Mybatis Plus和Jasypt加密等技術(shù);計算服務(wù)依托HDFS、Hive、Azkaban、Sqoop等大數(shù)據(jù)框架實現(xiàn)分布式計算和數(shù)據(jù)查詢。調(diào)度工具有xxl-job系統(tǒng)調(diào)度平臺和Azkaban大數(shù)據(jù)調(diào)度平臺。數(shù)據(jù)存儲層使用Redis緩存數(shù)據(jù)庫、Mysql數(shù)據(jù)庫、Hive數(shù)據(jù)庫。文件存儲采用FastDFS。系統(tǒng)技術(shù)架構(gòu)圖如圖2所示。
用戶請求通過前端Nginx負(fù)載分發(fā)到后端服務(wù),后端服務(wù)部署至少兩個節(jié)點,保證服務(wù)的高可用;部署Druid監(jiān)控數(shù)據(jù)庫、Springboot admin監(jiān)控應(yīng)用、Prometheus和Grafana監(jiān)控系統(tǒng);xxl-job任務(wù)調(diào)度平臺調(diào)用后端服務(wù)實現(xiàn)定時任務(wù),后端服務(wù)通過Azkaban對大數(shù)據(jù)集群進行調(diào)用;大數(shù)據(jù)集群5個節(jié)點,主節(jié)點上部署hive、azkaban、sqoop、hadoop,四個數(shù)據(jù)節(jié)點部署hadoop;數(shù)據(jù)庫層面使用關(guān)系型數(shù)據(jù)庫Mysql存儲系統(tǒng)數(shù)據(jù)、NoSql數(shù)據(jù)庫redis和Hive數(shù)據(jù)庫。運行環(huán)境為linux、Docker容器或者云服務(wù)器上,Git負(fù)責(zé)項目版本控制,jekins持續(xù)集成部署。城市信用畫像系統(tǒng)部署架構(gòu)圖3所示。
2.2 數(shù)據(jù)庫設(shè)計
政務(wù)數(shù)據(jù)、公開社會數(shù)據(jù)經(jīng)過匯集后,進入系統(tǒng)目錄,以企業(yè)的統(tǒng)一社會信用代碼作為唯一標(biāo)識碼,目錄按照配置的更新周期定時更新數(shù)據(jù)。由目錄數(shù)據(jù)通過系統(tǒng)配置生成的標(biāo)簽、預(yù)警規(guī)則集,被系統(tǒng)自動轉(zhuǎn)化為SQL語句文本或python代碼文本,并以指定的表結(jié)構(gòu)存儲。同時,判斷標(biāo)簽、預(yù)警數(shù)據(jù)是否初次版本,初次版本數(shù)據(jù)全量保留;若已存在初次版本數(shù)據(jù),則異步分析差異數(shù)據(jù),存儲每個版本差異數(shù)據(jù)。當(dāng)系統(tǒng)需要查詢具體某一版本的數(shù)據(jù)時,根據(jù)初次版本數(shù)據(jù)和歷次版本的差異數(shù)據(jù),匯集計算得到想要版本的全量數(shù)據(jù)提供給具體的查詢業(yè)務(wù)場景。
2.3 功能設(shè)計
城市信用畫像系統(tǒng)具體由目錄管理、行為事件管理、標(biāo)簽管理、風(fēng)險預(yù)警管理等功能模塊構(gòu)成。用戶可通過目錄管理功能模塊將清洗數(shù)據(jù)上傳為數(shù)據(jù)目錄,在行為事件管理、標(biāo)簽管理、風(fēng)險預(yù)警管理功能模塊實現(xiàn)將目錄構(gòu)建為行為事件、標(biāo)簽、預(yù)警等,并在以上功能模塊基礎(chǔ)上構(gòu)建企業(yè)信用畫像,支持實時查詢查看,同時通過大數(shù)據(jù)可視化技術(shù)將企業(yè)畫像各個維度信息做出可視化處理供用戶查看。
3 自動化標(biāo)簽
3.1 企業(yè)競爭力標(biāo)簽
企業(yè)競爭力是在競爭的市場上,通過發(fā)展企業(yè)資源和能力,實現(xiàn)自身價值的綜合性能力,企業(yè)競爭力與企業(yè)創(chuàng)新能力、企業(yè)產(chǎn)品生產(chǎn)及質(zhì)量優(yōu)劣、企業(yè)文化、企業(yè)招投標(biāo)數(shù)量、企業(yè)知識產(chǎn)權(quán)數(shù)量等息息相關(guān),這些因素越高,企業(yè)發(fā)展動力越足,企業(yè)的競爭力就越強。通常企業(yè)競爭力影響著企業(yè)風(fēng)險狀況,企業(yè)競爭力越強,相應(yīng)的企業(yè)風(fēng)險狀況就越低。自動標(biāo)簽構(gòu)建步驟如下。
1) 數(shù)據(jù)預(yù)處理
企業(yè)競爭力標(biāo)簽的數(shù)據(jù)處理主要包括臟數(shù)據(jù)的清洗、空數(shù)據(jù)的填充、數(shù)據(jù)類型轉(zhuǎn)換等。數(shù)據(jù)分為字符型和數(shù)值型,判斷數(shù)據(jù)類型,數(shù)值型進行歸一化處理,非數(shù)值型LabelEncoder()并歸一化處理。
2) 特征工程
從數(shù)據(jù)集中挑選出包括企業(yè)從業(yè)人員人數(shù)、股東信息、變更信息、裁判文書信息、專利信息、軟著信息、招投標(biāo)信息、經(jīng)營狀況信息、知識產(chǎn)權(quán)信息等特征,經(jīng)過特征多項式、特征組合等方式得到212個特征字段。
統(tǒng)計計算各個字段特征的max、min、mean等,對相關(guān)字段特征進行標(biāo)準(zhǔn)化操作。然后,基于多項式的、基于指數(shù)函數(shù)的、基于對數(shù)函數(shù)的進行特征變換,同時日期型數(shù)據(jù)處理成年、月、日等多個字段。
3) 數(shù)據(jù)集和模型選擇
整理和收集蕪湖市工業(yè)100強企業(yè)、商業(yè)100強企業(yè)、制造業(yè)100強企業(yè)等其他百強企業(yè)名單作為競爭力強的企業(yè),數(shù)據(jù)集分為訓(xùn)練集和測試集,總數(shù)據(jù)量為3萬條,訓(xùn)練集和測試集以5:1的比例劃分。
采用決策樹作為模型訓(xùn)練的算法,對訓(xùn)練集數(shù)據(jù)進行模型訓(xùn)練,其中不純度計算方法criterion使用基尼系數(shù),樹深max_depth設(shè)為6,特征切分點splitter設(shè)為“best”。
4) 模型調(diào)參
采用網(wǎng)格搜索GridSearchCV()方法進行調(diào)參,設(shè)置參數(shù)取值區(qū)間,循環(huán)調(diào)用參數(shù)訓(xùn)練模型,尋找最優(yōu)參數(shù),調(diào)整決策樹算法的各個參數(shù)為最優(yōu)。
3.2 企業(yè)發(fā)展?jié)摿?biāo)簽
企業(yè)的發(fā)展?jié)摿Π髽I(yè)的對外投資信息和分支機構(gòu)信息,企業(yè)的軟件著作權(quán)、專利、對外網(wǎng)站和商標(biāo)信息說明企業(yè)具有一定的創(chuàng)新能力,企業(yè)的資質(zhì)證書和行政許可可以看出企業(yè)的發(fā)展動力。自動標(biāo)簽構(gòu)建步驟如下:
1) 數(shù)據(jù)預(yù)處理
整理出數(shù)據(jù)集3萬條,主要包含企業(yè)類型、企業(yè)所屬行業(yè)、企業(yè)營收等字段數(shù)據(jù)。數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)填充、文本分割、數(shù)據(jù)清洗、類型轉(zhuǎn)換等操作,經(jīng)過數(shù)據(jù)的預(yù)處理,整理出145個字段特征。
2) 特征工程
特征工程包含對時間特征的轉(zhuǎn)換和編碼處理、交叉特征的處理、占比特征的處理。經(jīng)過特征工程和初步的特征選擇后形成94個特征。將94個特征經(jīng)過多項式變換之后,形成4185個特征。
3) 特征選擇
方差選擇:給定方差閾值,計算特征方差,刪除低于方差閾值的特征;卡方、F檢驗選擇:根據(jù)卡方檢驗、F檢驗進行特征與分類結(jié)果的相關(guān)性檢驗篩選特征。
4) 模型訓(xùn)練和調(diào)參
標(biāo)簽采用決策樹算法作為分類器,進行模型的訓(xùn)練,調(diào)整特征選擇函數(shù)的參數(shù)步驟如下:
①方差選擇中的方差閾值(VarianceThreshold),最優(yōu)值為0;
②卡方檢驗/F分布中的比例值,最優(yōu)0.85;
③互信息(mutual_info_classif),最優(yōu)閾值為0;
④正則化選取L1正則化,最優(yōu)C=0.01。
4 信用風(fēng)險預(yù)警
4.1 信用風(fēng)險標(biāo)簽
系統(tǒng)產(chǎn)生的風(fēng)險類標(biāo)簽包含自身風(fēng)險類標(biāo)簽、周邊風(fēng)險類標(biāo)簽、預(yù)警提醒類標(biāo)簽、經(jīng)營風(fēng)險類標(biāo)簽,構(gòu)建成圍繞企業(yè)風(fēng)險信息的標(biāo)簽體系,具體的標(biāo)簽說明如表1所示。本文通過這些標(biāo)簽來進行企業(yè)風(fēng)險預(yù)警。
4.2 信用風(fēng)險預(yù)警
集成學(xué)習(xí)(Ensemble learning)通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),有時也被稱為多分類器系統(tǒng)(multi-classifier system)、基于委員會的學(xué)習(xí)(committee-based learning)等。根據(jù)個體學(xué)習(xí)器的生成方式,目前的機器學(xué)習(xí)集成方法主要分為兩大類。
1) 個體學(xué)習(xí)器間存在強依賴關(guān)系、必須串行生成的序列化方法,代表為Boosting。
2) 個體學(xué)習(xí)器間不存在強依賴關(guān)系、可同時生成的并行化方法,代表為Bagging和隨機森林。
①隨機森林
隨機森林(Random Forest,RF)算法是基于bagging算法與決策樹結(jié)合的集成算法,在分類、預(yù)測和缺失值檢測等方面的多個場景下均得到了廣泛的應(yīng)用。其核心思想是利用每棵決策樹對袋外數(shù)據(jù)的輸入矩陣進行預(yù)測,將各決策樹預(yù)測結(jié)果均值作為最終預(yù)測輸出結(jié)果。相比于傳統(tǒng)的決策樹算法,該算法能夠平衡分布不均勻樣本的誤差,分類精度高,對異常值和噪聲有很好的容忍度。
在RF算法中,對基決策樹中的每個企業(yè)節(jié)點,先從該節(jié)點的候選屬性集合中隨機選擇一個包含k個屬性的子集S,然后再從這個子集中選擇一個最優(yōu)屬性用于數(shù)據(jù)集的劃分。k的選擇對模型的效果起著比較重要的影響,一般選擇[k=log2d]作為子集大小。
②XGBoost
XGBoost(eXtreme Gradient Boosting)是一種基于梯度提升樹的集成算法[4],通過在模型構(gòu)建過程中引入正則化損失函數(shù)來構(gòu)建若干弱評估器,整合弱分類器的分類結(jié)果,得到一個準(zhǔn)確率較高的強分類器,利用多模型整合的優(yōu)勢降低了模型過擬合的風(fēng)險。由于 XGBoost 使用了預(yù)排序、加權(quán)分位數(shù)、稀疏矩陣識別以及緩存識別等技術(shù),故其擁有可以并行運算、算法的復(fù)雜度可控、泛化能力強的優(yōu)點,其目標(biāo)函數(shù)如下所示。
[L=i=1nl(yi,yi)+k=1kΩ(fk)]
其中,l是損失函數(shù),yi是第i個樣本xi的真實值,[yi]是第i個樣本xi的預(yù)測值,fk表示第k棵樹的預(yù)測函數(shù)。
③LightGBM
LightGBM(Light Gradient Boosting Machine,LGBM)是基于決策樹算法的梯度提升框架,相比于 XGBoost算法,速度更快,內(nèi)存占用率更低[5]。其原理是利用最速下降法,把損失函數(shù)的負(fù)梯度在當(dāng)前模型的值當(dāng)作殘差的近似值,進而擬合出一棵回歸樹。經(jīng)過多輪迭代,最后將所有回歸樹的結(jié)果累加得到最終結(jié)果。與XGBoost的節(jié)點分裂方式不同的是,LightGBM先將企業(yè)特征進行分桶,構(gòu)建多個直方圖,再進行節(jié)點分裂計算。對于當(dāng)前模型的每個葉子節(jié)點,需要遍歷所有的特征,來找到增益最大的特征及其劃分值,以此來分裂該葉子節(jié)點。
4.3 結(jié)合策略
本文使用投票法(voting)的結(jié)合策略來融合RandomForest、XGBoost和lightGBM模型結(jié)果,其具體過程如下。
1) 將輸入數(shù)據(jù)分割成Train Set和Test Set,使用Train Set分別訓(xùn)練RandomForest、XGBoost和lightGBM模型。
2) 分別使用RandomForest、XGBoost和lightGBM模型對Test Set進行預(yù)測得到對應(yīng)predrf、predxgb和predlgb。
3) 使用加權(quán)投票法(weighted voting)對三個模型的預(yù)測結(jié)果進行處理得到最終的預(yù)測結(jié)果:
[pred=λ1*predrf+λ2*predxgb+λ3*predlgb]
其中,[λ1,λ2,λ3]分別為對應(yīng)模型的投票權(quán)重且滿足[λ1+λ2+λ3=1]。
4.4 預(yù)警大屏
基于集成學(xué)習(xí)的信用風(fēng)險預(yù)警模算法,通過區(qū)域信用風(fēng)險地圖對各類風(fēng)險事件進行多維呈現(xiàn),分析各類主體的歷史數(shù)據(jù),遍歷主體信用變化的痕跡,對市場主體信用異常波動情況進行及時預(yù)警,如圖5所示。
5 結(jié)束語
本文提出了基于大數(shù)據(jù)研究信用標(biāo)簽和畫像體系,能夠?qū)π庞弥黧w進行全方位、多維度地刻畫、洞察,通過不斷拓展數(shù)據(jù)維度:基于自動化智能標(biāo)簽實現(xiàn)對信用主體或目標(biāo)群體的快速圈定;基于集成學(xué)習(xí)的信用風(fēng)險預(yù)警算法,智能識別同類群體實現(xiàn)對信用主體的深度挖掘,實現(xiàn)信用風(fēng)險的實時預(yù)警;基于對信用主體全維度的解析、綜合評估,輔助智能化信用監(jiān)管。
參考文獻:
[1] 張遠.社會治理視角下的社會信用體系建設(shè)問題探討[J].征信,2021,39(11):46-50.
[2] 陳鋼,佘祥榮,秦加奇,等.面向精準(zhǔn)政務(wù)服務(wù)的自然人全息畫像[J].電子技術(shù)與軟件工,2021(15):209-210.
[3] 李珂琦.大數(shù)據(jù)技術(shù)助力社會信用體系建設(shè)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2020(08):81-82.
[4] T. Chen and C. Guestrin, “XGBoost: A Scalable Tree Boosting System,” in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD 16, San Francisco, California, USA, 2016, pp. 785-794, doi: 10.1145/2939672.2939785.
[5] Ke G,Meng Q,F(xiàn)inley T,et al.Light GBM:a highly efficient gradient boosting decision tree[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems,2017:3149-3157.
【通聯(lián)編輯:謝媛媛】