王國田,戴筠一,許少鈞,蔣 濤
實(shí)驗(yàn)室安全與環(huán)保
基于XGBoost算法的實(shí)驗(yàn)室安全風(fēng)險預(yù)測模型研究
王國田1,戴筠一2,許少鈞2,蔣 濤2
(1. 揚(yáng)州大學(xué) 實(shí)驗(yàn)室與設(shè)備管理處,江蘇 揚(yáng)州 225009;2. 揚(yáng)州大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,江蘇 揚(yáng)州 225009)
通過相關(guān)文獻(xiàn)歸納實(shí)驗(yàn)室安全風(fēng)險檢查指標(biāo)體系,基于XGBoost算法,研究檢查指標(biāo)體系的數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理以及風(fēng)險預(yù)測模型的初步建立,在此基礎(chǔ)上,探索模型的訓(xùn)練、實(shí)驗(yàn)室風(fēng)險權(quán)重及模型的主要參數(shù)優(yōu)化等方法,確立可行的實(shí)驗(yàn)室安全風(fēng)險預(yù)測模型,為開展實(shí)驗(yàn)室安全評價和隱患整改提供可靠的依據(jù)。
指標(biāo)體系;XGBoost算法;數(shù)據(jù)采集;模型建立;模型訓(xùn)練和優(yōu)化
實(shí)驗(yàn)室安全檢查是實(shí)驗(yàn)室管理的重要工作內(nèi)容。教育部科技司于2015—2017年開展了連續(xù)3年的高校實(shí)驗(yàn)室安全督查工作,檢查項(xiàng)目采用了《高等學(xué)校實(shí)驗(yàn)室安全檢查項(xiàng)目表》[1](以下簡稱《檢查表》),該《檢查表》涵蓋組織體系、規(guī)章制度、安全教育、化學(xué)安全、生物安全、輻射安全、儀器設(shè)備安全等11大類40小類,共235個條款(2018年又修訂為12個一級指標(biāo)和358個二級指標(biāo))。檢查表主要特點(diǎn)是項(xiàng)目多、范圍廣,檢查結(jié)果采用“符合”“不符合”“不適用”的分類評價方式,對于“不符合”項(xiàng)就要記錄隱患問題,是風(fēng)險辨識和隱患排查的主要方法之一,在教育部組織的實(shí)驗(yàn)室安全督查中得到了驗(yàn)證與認(rèn)可[2-3],是目前高校實(shí)驗(yàn)室安全檢查的硬性要求。
檢查表在高校運(yùn)用和實(shí)踐中,對于實(shí)驗(yàn)室一些“顯性”特征,檢查結(jié)果和實(shí)際較為相符,風(fēng)險辨識度較高,隱患問題的整改較好得到落實(shí)。但是對于檢查表中眾多檢查項(xiàng)目,因其對應(yīng)的實(shí)驗(yàn)室特征往往呈“隱性”狀態(tài),且具有一定的不確定性和復(fù)雜性,相互之間還存在很多的“關(guān)聯(lián)”和“牽制”,現(xiàn)場定性判定的結(jié)果,并不全部真實(shí)反映實(shí)際情況,尤其是對檢查結(jié)果為“不符合”項(xiàng),檢查者與被檢查者之間有爭論,意見的分歧直接影響到風(fēng)險辨識結(jié)果和隱患問題的及時整改。目前,大數(shù)據(jù)處理、建立數(shù)學(xué)模型、運(yùn)用相關(guān)算法開展實(shí)驗(yàn)室風(fēng)險識別,評價出更加科學(xué)、公正、具體的風(fēng)險等級,實(shí)現(xiàn)危險源分類分級管理符合高校發(fā)展的趨勢[4-5]。
高等學(xué)校涉及化學(xué)、生物、醫(yī)學(xué)、工程等類別的實(shí)驗(yàn)室,各類實(shí)驗(yàn)室安全管理工作涉及面廣,內(nèi)容繁多,檢查項(xiàng)目不盡一致。參照規(guī)范性、科學(xué)性、系統(tǒng)性、可操作性的構(gòu)建原則[6],以《高等學(xué)校實(shí)驗(yàn)室安全檢查項(xiàng)目表》(2018)為主要基礎(chǔ),收集相關(guān)文獻(xiàn)資料,結(jié)合實(shí)際工作經(jīng)驗(yàn),歸納出我校生物醫(yī)學(xué)實(shí)驗(yàn)室安全檢查指標(biāo)體系,其中一級指標(biāo)10個,二級指標(biāo)59個,并將二級指標(biāo)細(xì)分為“優(yōu)”“良”“中”“差”4個等級的檢查特征,并形成檢查指標(biāo)集={1,2,…,59},見表1。
表1 生物醫(yī)學(xué)實(shí)驗(yàn)室安全風(fēng)險預(yù)測檢查指標(biāo)體系及特征
表1(續(xù))
表1(續(xù))
表1(續(xù))
XGBoost算法是陳天奇等在2015年提出的一種新的集成學(xué)習(xí)算法[7],是一種把若干個弱分類器整合為一個強(qiáng)分類器的方法,特點(diǎn)是將多個準(zhǔn)確率較低的決策樹模型組合成一個準(zhǔn)確率較高的模型,具有并行速度快、復(fù)雜度可控、可自動學(xué)習(xí)缺失值分裂方向、容錯及泛化能力高、結(jié)果預(yù)測值接近真實(shí)值等特點(diǎn),目前已廣泛應(yīng)用于數(shù)據(jù)挖掘、信用風(fēng)險預(yù)測、質(zhì)量特征預(yù)測等實(shí)際的工作中,如文獻(xiàn)[8]針對電子商務(wù)網(wǎng)站用戶信息進(jìn)行數(shù)據(jù)挖掘,準(zhǔn)確預(yù)測了用戶購買行為;文獻(xiàn)[9]分析網(wǎng)絡(luò)信貸平臺的用戶,對申請貸款用戶的信用風(fēng)險進(jìn)行了預(yù)測;文獻(xiàn)[10]能夠預(yù)測生產(chǎn)環(huán)節(jié)特征產(chǎn)品質(zhì)量,及時做出對應(yīng)的決策等。
按照集成學(xué)習(xí)算法的特點(diǎn),至少應(yīng)采集2次以上的結(jié)果數(shù)據(jù),作為機(jī)器學(xué)習(xí)和識別,以2018年度我校生物醫(yī)學(xué)實(shí)驗(yàn)室900次實(shí)驗(yàn)檢查為例,按照檢查指標(biāo)集,經(jīng)過次實(shí)驗(yàn)形成檢查數(shù)據(jù)集={}(=1,2,…,900),={1,2,…,n,n+1}(=1,2,…,59),其中S1,2,…,代表第次實(shí)驗(yàn)中個檢查項(xiàng)目的檢查結(jié)果,+1代表第次實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果,對實(shí)驗(yàn)結(jié)果也進(jìn)行評價,分安全、一般、警告、風(fēng)險4個等級。第次實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果類別及評價標(biāo)準(zhǔn),見表2。
表2 第j次實(shí)驗(yàn)結(jié)果類別及評價標(biāo)準(zhǔn)
對于檢查類別的自然數(shù)編碼,其取值大小沒有物理意義,直接在模型上使用可能導(dǎo)致結(jié)果誤差。本文采用獨(dú)熱編碼(One-Hot)離散化處理類別變量[11]。對于數(shù)據(jù)集的每一行,將每一個檢查項(xiàng)目(即1,2,…,I)的值(優(yōu)、良、中或差)轉(zhuǎn)化為0-1向量,0-1向量的4個元素分別對應(yīng)4個不同的等級(從右到左分別代表優(yōu)、良、中和差),元素的值為該項(xiàng)檢查項(xiàng)目是否為該等級,是則為1,否則為0。例如,11(第1次試驗(yàn)的第1號檢查項(xiàng)目)的1,為優(yōu),則將其轉(zhuǎn)換為向量(0,0,0,1),向量的第4個元素值為1,代表11的值為優(yōu),而其他3個元素值為0;對于實(shí)驗(yàn)結(jié)果(即I+1),從右到左分別代表安全、一般、警告、風(fēng)險。獨(dú)熱編碼轉(zhuǎn)換關(guān)系,如表3所示。
表3 第j次實(shí)驗(yàn)數(shù)據(jù)的獨(dú)熱編碼轉(zhuǎn)換關(guān)系
基于XGBoost算法建立風(fēng)險預(yù)測模型,模型主要包括3個方面:①將多個準(zhǔn)確率較低的決策樹模型組合成一個準(zhǔn)確率較高的模型;②利用貪心策略及二次最優(yōu)化確定最優(yōu)節(jié)點(diǎn)及最小的損失函數(shù),在此基礎(chǔ)上進(jìn)行樹分裂,根據(jù)預(yù)測數(shù)據(jù)每次建立最優(yōu)樹,當(dāng)達(dá)到樹的最大深度時停止迭代;③采用Python語言和調(diào)用XGBoost工具包,自動運(yùn)行CPU多個線程,發(fā)揮分類運(yùn)算速度快、效果好等優(yōu)勢。模型的XGBoost主要算法流程如下[12-14]:
(1)初始化回歸樹(),損失函數(shù)集合l(),此時模型為常數(shù)值
(2)Whileon 1,2,3,…,T do
(3)do
(4)計(jì)算損失函數(shù)的最小值
(5)把得到加到l()中
(6)While t on 1,2,3,…,
(7)l()中選取最小時對應(yīng)的()開始建樹
(8) 采用貪心法尋找最優(yōu)分裂節(jié)點(diǎn)迭代生成新的樹
(9)If deep>max deep break
(10)基本模型完成
(11)利用柵格搜索等方法調(diào)優(yōu)參
(12)優(yōu)化模型對得到的數(shù)據(jù)進(jìn)行綜合分析
由于檢查結(jié)果是類別性數(shù)值,取樣的數(shù)量不盡一致,因此,在模型訓(xùn)練過程中使用十折交叉運(yùn)算,使每份數(shù)據(jù)中各類別的分布與完整數(shù)據(jù)集分布更一致,所得模型更可信。本文利用上述的900組數(shù)據(jù)集,將數(shù)據(jù)集中的4個類別分別歸納并劃分成10等份,每次運(yùn)算時按比例輪流選取810個數(shù)據(jù)集作為訓(xùn)練集,90個數(shù)據(jù)集作為測試集,利用測試集對模型進(jìn)行測試,統(tǒng)計(jì)10次的測試結(jié)果的準(zhǔn)確率≥83%,各項(xiàng)指標(biāo)的權(quán)重取值范圍為[0, 1],且所有檢查項(xiàng)目的權(quán)重和為1,確立的權(quán)重與實(shí)驗(yàn)室風(fēng)險的對應(yīng)關(guān)系為:①輕微影響0~0.1;②一般影響0.1~0.2;③重要影響0.2~0.4; ④決定影響0.4以上。權(quán)重越大的檢查項(xiàng)目結(jié)果對實(shí)驗(yàn)結(jié)果的影響就越大。
本文XGBoost算法定義了參數(shù)max-depth、learning-rate及n-estimators,其中max-depth為樹的最大深度,這個值是用來避免過擬合,值越大其模型會得到更具體更局部的樣本;learning-rate為學(xué)習(xí)率,通過減少每一步的權(quán)重,可以提高模型的魯棒性;n-estimators為決策樹個數(shù),用來避免欠擬合和過擬合。通過不斷測試,當(dāng)訓(xùn)練的max-depth為4,learning- rate為0.18,n-estimators為1時,此時模型的性能達(dá)到最優(yōu)。模型主要參數(shù)與準(zhǔn)確率accuracy關(guān)系,如 圖1、圖2、圖3所示。
圖1 max-depth與accuracy關(guān)系
圖2 learning-rate與accuracy關(guān)系
圖3 n-estimators與accuracy關(guān)系
將實(shí)驗(yàn)室安全風(fēng)險預(yù)測模型應(yīng)用于我校2019年1月新一輪生物醫(yī)學(xué)實(shí)驗(yàn)室安全檢查,預(yù)測出59個二級指標(biāo)的權(quán)重,并歸納到相應(yīng)的一級指標(biāo)中,權(quán)重表明生物醫(yī)學(xué)實(shí)驗(yàn)室安全風(fēng)險預(yù)測等級為一般,需要重點(diǎn)整治的有:
(1)危險化學(xué)品存在的隱患問題最多、風(fēng)險度較高,是實(shí)驗(yàn)室整治的重點(diǎn)環(huán)節(jié);
(2)基礎(chǔ)安全設(shè)施和個人防護(hù)方面投入不足,需要加快建設(shè);
(3)化學(xué)、生物等專業(yè)性安全教育不足,是實(shí)驗(yàn)室安全準(zhǔn)入管理整治的主要方面;
(4)安全檢查不及時、不到位,暴露出的各類隱患問題需要限期整改等。
生物醫(yī)學(xué)實(shí)驗(yàn)室風(fēng)險特征,如圖4所示。
圖4 生物醫(yī)學(xué)實(shí)驗(yàn)室風(fēng)險特征
基于XGBoost算法的實(shí)驗(yàn)室安全風(fēng)險預(yù)測模型,能定量分析實(shí)驗(yàn)室存在的風(fēng)險特征及權(quán)重,有助于實(shí)驗(yàn)室安全風(fēng)險評價和危險源分類分級管控。然而,全面實(shí)踐現(xiàn)有的實(shí)驗(yàn)室安全風(fēng)險預(yù)測模型,還需從可靠性和可操作性方面進(jìn)一步研究,探索適應(yīng)高校實(shí)驗(yàn)室安全管理發(fā)展需求,逐步實(shí)現(xiàn)實(shí)驗(yàn)室從程序管理向工序管理轉(zhuǎn)變。
[1] 馮建躍,金海萍,阮俊,等.高校實(shí)驗(yàn)室安全檢查指標(biāo)體系的研究[J].實(shí)驗(yàn)技術(shù)與管理,2015, 32(2): 1–10.
[2] 馮建躍,杜奕,張新祥,等.高校實(shí)驗(yàn)室安全三年督查總結(jié)(Ⅰ)[J].實(shí)驗(yàn)技術(shù)與管理,2018, 35(7): 1–4, 11.
[3] 杜奕,馮建躍,張新祥.高校實(shí)驗(yàn)室安全三年督查總結(jié)(Ⅱ)[J].實(shí)驗(yàn)技術(shù)與管理,2018, 35(7): 5–11.
[4] 彭迎濤,宋紹義,方德英.大數(shù)據(jù)傳播過程風(fēng)險識別及其指標(biāo)體系研究[J].科技管理研究,2018(10): 78–82.
[5] 費(fèi)騰,于柏,趙斌.基于Simulink的高校實(shí)驗(yàn)室安全評價體系應(yīng)用[J].實(shí)驗(yàn)室工作研究,2017, 36(4): 75–78.
[6] 董繼紅,李占印. DHGF 集成法在高校實(shí)驗(yàn)室安全管理評價中的應(yīng)用[J].實(shí)驗(yàn)室研究與探索,2013, 32(9): 251–254.
[7] CHEN T Q, UESTRIN C G. XGBoost: A scalable tree boosting system[C]. San Francisco: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016.
[8] 張昊,紀(jì)宏超,張紅宇. XGBoost算法在電子商務(wù)商品推薦中的應(yīng)用[J].物聯(lián)網(wǎng)技術(shù),2017, 7(2): 102–104.
[9] 甘鷺.基于機(jī)器學(xué)習(xí)算法的信用風(fēng)險預(yù)測模型研究[D].北京:北京交通大學(xué),2017.
[10] 蔣晉文,劉偉光. XGBoost算法在制造業(yè)質(zhì)量預(yù)測中的應(yīng)用[J].智能計(jì)算機(jī)與應(yīng)用,2017, 7(6): 58–60.
[11] 美團(tuán)算法團(tuán)隊(duì).美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐[M].北京:人民郵電出版社,2018.
[12] 趙天傲,鄭山紅,李萬龍,等.基于XGBoost的信用風(fēng)險分析的研究[J].軟件工程,2018, 21(6): 29–32.
[13] HARRINGTON P.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].北京:人民郵電出版社,2013.
[14] 林靜,林振宇,鄭福仁,等. LabVIEW虛擬儀器程序設(shè)計(jì)從入門到精通[M]. 2版.北京:人民郵電出版社,2013.
Research on laboratory safety risk prediction model based on XGBoost algorithm
WANG Guotian1, DAI Junyi2, XU Shaojun2, JIANG Tao2
(1. Laboratory and Equipment Management Office, Yangzhou University, Yangzhou 225009, China; 2. College of Mathematical Science, Yangzhou University, Yangzhou 225009, China)
Based on the XGBoost algorithm, the data collection, data preprocessing and preliminary establishment of risk prediction model of laboratory safety risk inspection index system are studied. On this basis, the training of the model, weight of laboratory risk and optimization of the main parameters of the model are explored for the establishment of a feasible laboratory safety risk prediction model, which provides a reliable basis for carrying out laboratory safety evaluation and hidden danger rectification.
index system;XGBoost algorithm;data collection;model establishment;model training and optimization
G474
A
1002-4956(2019)12-0245-07
10.16791/j.cnki.sjg.2019.12.058
2019-04-18
中國高等教育學(xué)會高等教育科學(xué)研究“十三五”規(guī)劃課題2019年度實(shí)驗(yàn)室管理專項(xiàng)課題(2019SYSYB06)
王國田(1963—),男,江蘇邗江,學(xué)士,高級實(shí)驗(yàn)師,主要從事實(shí)驗(yàn)室安全管理。E-mail: gtwang@yzu.edu.cn
蔣濤(1978—),男,山東濰坊,博士,副教授,研究方向?yàn)橛?jì)算科學(xué)和應(yīng)用科學(xué)。E-mail: jtrjl2007_@126.com