顏詩(shī)旋,朱 平,劉 釗
(1.上海交通大學(xué),機(jī)械系統(tǒng)與振動(dòng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,上海 200240; 2.上海市復(fù)雜薄板結(jié)構(gòu)數(shù)字化制造重點(diǎn)實(shí)驗(yàn)室,上海 200240;3.上海交通大學(xué)設(shè)計(jì)學(xué)院,上海 200240)
機(jī)器學(xué)習(xí)、大數(shù)據(jù)等人工智能技術(shù)與汽車(chē)行業(yè)的聯(lián)系日益緊密,一個(gè)典型的應(yīng)用場(chǎng)景[1]是對(duì)采集的汽車(chē)故障數(shù)據(jù)集建立機(jī)器學(xué)習(xí)模型,以數(shù)據(jù)驅(qū)動(dòng)的方式,預(yù)測(cè)汽車(chē)是否發(fā)生故障,從而及時(shí)對(duì)發(fā)生故障的車(chē)輛進(jìn)行維修。使用機(jī)器學(xué)習(xí)模型預(yù)測(cè)汽車(chē)故障的發(fā)生,對(duì)于降低安全事故風(fēng)險(xiǎn)、保障生命財(cái)產(chǎn)安全等具有重要意義。
隨著汽車(chē)故障數(shù)據(jù)的采集與存儲(chǔ)能力的提升,汽車(chē)故障數(shù)據(jù)集逐步向大樣本、高維度發(fā)展,XGBoost、LightGBM等最新的機(jī)器學(xué)習(xí)模型開(kāi)始應(yīng)用于故障預(yù)測(cè)中。李衛(wèi)星等[2]使用XGBoost模型,對(duì)4種工況下柴油機(jī)失火故障的平均預(yù)測(cè)準(zhǔn)確率達(dá)90%以上。楊正森[3]使用 XGBoost和LightGBM模型對(duì)包含100多萬(wàn)個(gè)樣本的工業(yè)產(chǎn)品數(shù)據(jù)集進(jìn)行故障預(yù)測(cè),結(jié)果優(yōu)于經(jīng)典的隨機(jī)森林模型。Ke等[4]基于多個(gè)案例測(cè)試的結(jié)果,推薦在大規(guī)模數(shù)據(jù)集上使用訓(xùn)練速度快、預(yù)測(cè)能力好的LightGBM模型。然而,實(shí)際收集到的汽車(chē)故障數(shù)據(jù)普遍存在類(lèi)別不平衡[5]的特點(diǎn):無(wú)故障的樣本數(shù)量多于有故障的樣本數(shù)量,前者所能提供的信息量更多,使模型偏向于預(yù)測(cè)新的樣本為無(wú)故障,導(dǎo)致故障查全率較低。針對(duì)類(lèi)別不平衡的特點(diǎn),Costa等[6]在模型損失函數(shù)中加入類(lèi)別權(quán)重,將故障樣本的類(lèi)別權(quán)重設(shè)置為不平衡比(無(wú)故障樣本數(shù)與有故障樣本數(shù)的比值),降低了類(lèi)別不平衡對(duì)故障查全率的影響,但其人為指定了類(lèi)別權(quán)重,并未考慮其他可能的取值。Biteus等[7]將采用機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè)時(shí)的分類(lèi)閾值降低至0.062,提高了對(duì)汽車(chē)故障樣本的預(yù)測(cè)能力,但其選用的隨機(jī)森林模型訓(xùn)練時(shí)間長(zhǎng)達(dá)80 min,有必要使用更為高效的模型以提升效率。
LightGBM模型在大樣本、高維度的故障預(yù)測(cè)任務(wù)中呈現(xiàn)出訓(xùn)練速度快的優(yōu)勢(shì),但現(xiàn)有研究在使用LightGBM模型時(shí)未考慮類(lèi)別不平衡對(duì)故障查全率的影響。雖然有研究通過(guò)設(shè)置類(lèi)別權(quán)重來(lái)提高對(duì)類(lèi)別不平衡數(shù)據(jù)集的預(yù)測(cè)能力,但類(lèi)別權(quán)重的設(shè)定多依賴(lài)于人工經(jīng)驗(yàn)直接指定,未考慮如何使用優(yōu)化的方法進(jìn)行設(shè)定。
為增強(qiáng)對(duì)大規(guī)模、類(lèi)別不平衡的汽車(chē)故障數(shù)據(jù)集的預(yù)測(cè)能力,本文中提出一種基于改進(jìn)LightGBM模型的汽車(chē)故障預(yù)測(cè)方法:設(shè)置類(lèi)別權(quán)重和L1正則化項(xiàng)修正模型的損失函數(shù),并通過(guò)貝葉斯優(yōu)化得到修正項(xiàng)參數(shù)的取值;降低模型預(yù)測(cè)時(shí)的分類(lèi)閾值,提高樣本被分為故障樣本的概率。通過(guò)在斯堪尼亞貨車(chē)故障數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證了本文方法的有效性。
LightGBM(light gradient boosting machine)模型由Ke等人在2017年提出[4],是一種以決策樹(shù)為基學(xué)習(xí)器的集成學(xué)習(xí)模型,相比于 GBM[8]和 XGBoost[9]等模型,通過(guò)使用直方圖算法、帶深度限制的按葉生長(zhǎng)策略等改進(jìn),顯著提高了模型訓(xùn)練速度,在面對(duì)大樣本、高維度的數(shù)據(jù)集時(shí)具備訓(xùn)練速度快的優(yōu)勢(shì)。
決策樹(shù)在尋找最佳分裂結(jié)點(diǎn)時(shí),對(duì)每個(gè)特征需要遍歷所有的樣本點(diǎn)來(lái)計(jì)算信息增益,即便有XGBoost等模型使用了預(yù)排序算法優(yōu)化此過(guò)程,在面對(duì)大規(guī)模數(shù)據(jù)時(shí)仍極其耗時(shí)。
LightGBM模型使用了直方圖算法尋找最佳分裂結(jié)點(diǎn),其原理如圖1所示。直方圖算法的流程為:首先,對(duì)每個(gè)特征的取值用分桶的方法離散化,將在某個(gè)范圍內(nèi)的取值劃分到某一段(bin)中,例如將[0,1.5)范圍的取值變?yōu)?0,[1.5,3.0)范圍內(nèi)的取值變?yōu)?等,從而實(shí)現(xiàn)將取值離散化為k個(gè)整數(shù);然后,構(gòu)建一個(gè)寬度為k的直方圖,實(shí)現(xiàn)用直方圖代替原有的數(shù)據(jù);最后,將借助于構(gòu)建的直方圖遍歷數(shù)據(jù),計(jì)算每個(gè)bin中樣本的梯度、樣本數(shù)量等以尋找最優(yōu)分裂結(jié)點(diǎn),無(wú)需再逐個(gè)遍歷所有的數(shù)據(jù),從而顯著減少了計(jì)算量,提高了訓(xùn)練速度。
圖1 直方圖算法示意圖
此外,LightGBM模型使用基于梯度的單邊采樣(gradient-based one-side sampling,GOSS)進(jìn)行數(shù)據(jù)采樣,使用互斥特征捆綁(exclusive feature bundling,EFB)進(jìn)行特征采樣,在進(jìn)一步加快模型訓(xùn)練效率的同時(shí),對(duì)數(shù)據(jù)和特征進(jìn)行采樣也增加了學(xué)習(xí)器的多樣性,從而潛在地提升了模型的泛化能力[10]。
決策樹(shù)在生長(zhǎng)時(shí),大多采用按層生長(zhǎng)的策略,如圖2所示。按層生長(zhǎng)遍歷全部數(shù)據(jù)計(jì)算各結(jié)點(diǎn)的增益,進(jìn)而對(duì)同一層的葉子全部進(jìn)行分裂。這一方法并行性很好,但效率較低:很多葉子的增益已經(jīng)足夠小,不再有必要進(jìn)行分裂,而那些增益大的結(jié)點(diǎn)才是應(yīng)進(jìn)行分裂的結(jié)點(diǎn)。
圖2 按層生長(zhǎng)策略示意圖
LightGBM模型使用按葉生長(zhǎng)策略,如圖3所示。在計(jì)算各結(jié)點(diǎn)的增益后,僅對(duì)增益最大的一個(gè)葉子繼續(xù)進(jìn)行分裂,而其他結(jié)點(diǎn)不再分裂。在一樣的分裂次數(shù)下,按葉生長(zhǎng)策略更加快速高效。但這樣可能會(huì)生長(zhǎng)出非常深的決策樹(shù),導(dǎo)致過(guò)擬合,即對(duì)訓(xùn)練集進(jìn)行了過(guò)度的學(xué)習(xí),影響在測(cè)試集上的泛化能力。因此,在LightGBM模型中設(shè)置樹(shù)的最大深度(max_depth)這一參數(shù),以限制決策樹(shù)的深度,即決策樹(shù)的層數(shù),以控制模型的復(fù)雜度,降低過(guò)擬合的風(fēng)險(xiǎn)。
圖3 按葉生長(zhǎng)策略示意圖
考慮到真實(shí)場(chǎng)景下的汽車(chē)故障數(shù)據(jù)集常具有類(lèi)別不平衡的特點(diǎn):無(wú)故障的樣本數(shù)量占多數(shù),導(dǎo)致模型對(duì)故障樣本的查全率較低。為增強(qiáng)機(jī)器學(xué)習(xí)模型對(duì)汽車(chē)故障的預(yù)測(cè)能力,對(duì)LightGBM模型進(jìn)行兩方面的改進(jìn):在模型訓(xùn)練時(shí),修正模型損失函數(shù),引入類(lèi)別權(quán)重和L1正則化項(xiàng),并通過(guò)貝葉斯優(yōu)化,獲得修正項(xiàng)參數(shù)的最優(yōu)取值,從而加強(qiáng)對(duì)故障樣本的學(xué)習(xí);在模型預(yù)測(cè)時(shí),降低分類(lèi)閾值,以提高測(cè)試樣本被分為故障樣本的概率。具體改進(jìn)如下。
(1)修正損失函數(shù)
損失函數(shù)反映了模型訓(xùn)練過(guò)程中模型的預(yù)測(cè)類(lèi)別與真實(shí)類(lèi)別之間的差異。模型訓(xùn)練的過(guò)程,即是損失函數(shù)最小化的過(guò)程,損失函數(shù)的度量關(guān)乎模型訓(xùn)練的好壞[11]。對(duì)一個(gè)數(shù)據(jù)集 D=(x1,x2,x3,…,xm),共有m個(gè)樣本,其中第i個(gè)樣本xi的類(lèi)別為yi,yi=0為無(wú)故障,yi=1為有故障,標(biāo)準(zhǔn) LightGBM模型的損失函數(shù)為
由于樣本數(shù)量的差異,有故障樣本所累積的損失小于無(wú)故障樣本所累積的損失,使無(wú)故障樣本所累積的損失在LightGBM模型的損失函數(shù)中占據(jù)主導(dǎo)地位,導(dǎo)致模型對(duì)無(wú)故障樣本的學(xué)習(xí)更為充分:模型總是在學(xué)習(xí)如何正確地預(yù)測(cè)出無(wú)故障樣本。這偏離了使用機(jī)器學(xué)習(xí)技術(shù)預(yù)測(cè)有故障樣本的初衷。此外,考慮到收集的數(shù)據(jù)僅是真實(shí)場(chǎng)景下的部分?jǐn)?shù)據(jù),不可能囊括所有可能的工況,須防止模型對(duì)收集到的訓(xùn)練集進(jìn)行過(guò)度的學(xué)習(xí),降低過(guò)擬合風(fēng)險(xiǎn)。
本文中對(duì)LightGBM模型的損失函數(shù)進(jìn)行如下修正:引入類(lèi)別權(quán)重,為有故障樣本設(shè)置更大的權(quán)重,從而在損失函數(shù)中放大有故障樣本的損失;同時(shí)引入L1正則化項(xiàng)來(lái)控制模型的復(fù)雜度,以降低過(guò)擬合風(fēng)險(xiǎn)。正則化手段主要有L1正則化和L2正則化兩種,本文中使用L1正則化的原因是:L1正則化比L2正則化更易得到稀疏解,從而使模型參數(shù)ω=0的數(shù)量更多,以便更顯著地控制模型復(fù)雜度,降低過(guò)擬合風(fēng)險(xiǎn)[12]。經(jīng)修正后的損失函數(shù)為
式中:δ‖ω‖1為L(zhǎng)1正則化項(xiàng);ω為該樹(shù)的參數(shù),可由決策樹(shù)自動(dòng)獲得;δ為L(zhǎng)1正則化系數(shù);ai為類(lèi)別權(quán)重系數(shù);γ為少數(shù)類(lèi)權(quán)重系數(shù),出于放大少數(shù)類(lèi)損失的目的,γ應(yīng)設(shè)置為一個(gè)大于1的整數(shù)。
對(duì)于少數(shù)類(lèi)的權(quán)重系數(shù)γ和L1正則化系數(shù)δ,本文中通過(guò)貝葉斯優(yōu)化獲得其取值。貝葉斯優(yōu)化方法[13]假設(shè)待優(yōu)化的參數(shù)與目標(biāo)函數(shù)(即模型的損失函數(shù))之間符合某種先驗(yàn)分布,然后通過(guò)采集函數(shù)不斷地加入新的參數(shù)樣本點(diǎn),更新擬合出分布形狀,找出使分布函數(shù)取最小值的參數(shù),它在效率上優(yōu)于網(wǎng)格搜索,與隨機(jī)搜索相比,較不容易陷入局部最優(yōu)。由Bergstra等[14]提出的TPE算法比高斯過(guò)程等傳統(tǒng)的貝葉斯優(yōu)化方法可更加高效地找到最優(yōu)參數(shù),因而本文中使用TPE算法搜索出γ、δ兩個(gè)參數(shù)的最優(yōu)取值。
(2)降低分類(lèi)閾值
使用機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè)時(shí),對(duì)于每個(gè)樣本類(lèi)別的預(yù)測(cè)結(jié)果ypredk為0(無(wú)故障)或1(有故障)。實(shí)際上,模型對(duì)每一個(gè)測(cè)試樣本的預(yù)測(cè)結(jié)果ypredk,是與分類(lèi)閾值T進(jìn)行比較后得出的:模型先計(jì)算出樣本的預(yù)測(cè)值youtk,它是一個(gè)[0,1]區(qū)間內(nèi)的實(shí)數(shù)值;然后將它與分類(lèi)閾值T進(jìn)行比較,若小于閾值則分類(lèi)為0,否則為1。通常情況下,分類(lèi)閾值T設(shè)置為0.5,因此,標(biāo)準(zhǔn)LightGBM模型的預(yù)測(cè)結(jié)果為
對(duì)于式(4),可以理解為:youtk實(shí)際上表達(dá)了樣本為1的可能性;而分類(lèi)閾值T設(shè)置為0.5,意味著模型認(rèn)為該樣本為無(wú)故障和有故障的機(jī)率相等。然而當(dāng)數(shù)據(jù)集中不同類(lèi)別的樣本數(shù)量不同時(shí),將閾值設(shè)置為0.5顯然忽視了數(shù)據(jù)集類(lèi)別不平衡的特點(diǎn)。因而,使用“閾值移動(dòng)”的方法[11],將分類(lèi)閾值T降至0.5以下,使預(yù)測(cè)結(jié)果盡可能地被分為1,即模型傾向于認(rèn)為新樣本更可能是有故障。本文中將分類(lèi)閾值T降低至0.01,改進(jìn)后的LightGBM模型的預(yù)測(cè)結(jié)果為
本文中所使用的汽車(chē)故障數(shù)據(jù)集由斯堪尼亞貨車(chē)公司發(fā)布[15],包括60 000個(gè)訓(xùn)練集樣本和16 000個(gè)測(cè)試集樣本,記錄了汽車(chē)行駛過(guò)程中的速度和行駛里程等170個(gè)特征,體現(xiàn)出大樣本、高維度的特點(diǎn)。樣本的類(lèi)別為有故障和無(wú)故障兩類(lèi),其中有故障樣本占少數(shù),例如,訓(xùn)練集中只有1 000個(gè)有故障樣本,僅占訓(xùn)練集的1/60,所提供的信息量遠(yuǎn)少于59 000個(gè)無(wú)故障樣本,給汽車(chē)故障樣本的預(yù)測(cè)帶來(lái)很大難度。訓(xùn)練集中的部分?jǐn)?shù)據(jù)如表1所示。
表1 訓(xùn)練集中的部分?jǐn)?shù)據(jù)
在斯堪尼亞貨車(chē)故障數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)流程如圖4所示。改進(jìn)后的LightGBM模型稱(chēng)為cLightGBM模型,另使用 LightGBM、XGBoost、GBM機(jī)器學(xué)習(xí)模型作為對(duì)比。各模型的參數(shù),除設(shè)置決策樹(shù)的個(gè)數(shù)(n_estimaotrs)為100外,模型的其他參數(shù)均使用默認(rèn)值。運(yùn)算設(shè)備使用3.40 GHz主頻、i7中央處理器和8 GK內(nèi)存的計(jì)算機(jī),編程語(yǔ)言為Python。
本實(shí)驗(yàn)具體流程如下。
圖4 實(shí)驗(yàn)流程圖
步驟1:讀入數(shù)據(jù)。讀取已經(jīng)劃分好的訓(xùn)練集60 000個(gè)樣本和測(cè)試集16 000個(gè)樣本,檢查數(shù)據(jù)格式。
步驟2:數(shù)據(jù)預(yù)處理。首先進(jìn)行類(lèi)別編碼,將無(wú)故障的樣本的類(lèi)別編碼為0,將有故障的樣本的類(lèi)別編碼為1。其次處理數(shù)據(jù)缺失項(xiàng),刪除數(shù)據(jù)缺失的比例大于70%的7個(gè)特征,對(duì)于數(shù)據(jù)缺失比例低于70%的特征,對(duì)GBM模型所用數(shù)據(jù)使用中位數(shù)補(bǔ)全,對(duì)cLightGBM、LightGBM、XGBoost模型使用缺省方法。
步驟3:交叉驗(yàn)證訓(xùn)練模型。對(duì)于訓(xùn)練集的60 000個(gè)樣本,按照5折交叉驗(yàn)證,分別訓(xùn)練cLight-GBM、LightGBM、XGBoost、GBM模型,并記錄訓(xùn)練時(shí)長(zhǎng)Time。其中,cLightGBM模型少數(shù)類(lèi)權(quán)重系數(shù)γ、L1正則化系數(shù)δ經(jīng)TPE算法調(diào)參后分別設(shè)置為57和0.001。
步驟4:預(yù)測(cè)測(cè)試集樣本類(lèi)別。在測(cè)試集上,使用訓(xùn)練好的機(jī)器學(xué)習(xí)模型,預(yù)測(cè)16 000個(gè)測(cè)試集樣本的類(lèi)別。
完成上述4個(gè)步驟后,使用查全率Recall、總體代價(jià)Cost作為評(píng)價(jià)指標(biāo),評(píng)估預(yù)測(cè)類(lèi)別與實(shí)際類(lèi)別之間的差異,驗(yàn)證汽車(chē)故障預(yù)測(cè)模型的有效性。
評(píng)價(jià)指標(biāo)通過(guò)表2的混淆矩陣[12]定義?;煜仃囍校篢P是被正確分類(lèi)為有故障的樣本數(shù),即有故障的樣本被成功預(yù)測(cè)為有故障;FP是被錯(cuò)誤分類(lèi)為有故障的樣本數(shù),即無(wú)故障的樣本被誤認(rèn)為有故障;TN是被正確分類(lèi)為無(wú)故障的樣本數(shù),即無(wú)故障的樣本被成功預(yù)測(cè)為無(wú)故障;FN是被錯(cuò)誤分類(lèi)為無(wú)故障的樣本數(shù),即有故障的樣本被誤認(rèn)為無(wú)故障。可見(jiàn),TP、TN是被成功預(yù)測(cè)的樣本數(shù),F(xiàn)N、FP是被錯(cuò)誤預(yù)測(cè)的樣本數(shù)。
表2 混淆矩陣
總體代價(jià)Cost度量了被錯(cuò)誤預(yù)測(cè)的樣本FN、FP所造成的后果[12]。無(wú)故障的樣本被誤認(rèn)為有故障,將帶來(lái)不必要的檢修,其分類(lèi)代價(jià)較小,斯堪尼亞貨車(chē)公司根據(jù)其商業(yè)經(jīng)驗(yàn)[7],將FP的分類(lèi)代價(jià)定義為10;有故障的樣本被誤認(rèn)為無(wú)故障,導(dǎo)致故障車(chē)輛繼續(xù)行駛,其分類(lèi)代價(jià)很大,將FN的代價(jià)定義為500。總體代價(jià)綜合考慮了FN、FP兩種錯(cuò)誤所造成的后果,總體代價(jià)越小,越有助于降低企業(yè)運(yùn)營(yíng)成本,發(fā)揮工程價(jià)值。
在測(cè)試集上,本文中提出的cLightGBM模型的預(yù)測(cè)結(jié)果如表3所示。測(cè)試集的16 000個(gè)樣本中,共有375個(gè)實(shí)際有故障的樣本,最理想的狀態(tài)是將375個(gè)實(shí)際有故障樣本全部預(yù)測(cè)為有故障,即故障查全率Recall為1。使用cLightGBM模型,預(yù)測(cè)出了370個(gè)故障樣本的存在,故障查全率 Recall為0.987,接近于理想值。按照式(7),cLightGBM模型的總體代價(jià) Cost為9 030,亦是一個(gè)比較理想的數(shù)值。
查全率Recall又稱(chēng)之為召回率[12],是實(shí)際有故障的樣本被機(jī)器學(xué)習(xí)模型預(yù)測(cè)到的概率,反映了模型對(duì)汽車(chē)故障樣本的預(yù)測(cè)能力。查全率的取值區(qū)間為[0,1],查全率越大,說(shuō)明模型對(duì)汽車(chē)故障的預(yù)測(cè)能力越強(qiáng)。
表3 cLightGBM模型的混淆矩陣
cLightGBM模型與 LightGBM、XGBoost、GBM模型的預(yù)測(cè)結(jié)果對(duì)比如表4所示。從查全率Recall來(lái)看,cLightGBM模型最高,相比標(biāo)準(zhǔn)型LightGBM模型高出0.235,明顯優(yōu)于其他的機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)了對(duì)汽車(chē)故障的有效預(yù)測(cè)。從總體代價(jià)的角度,cLightGBM將工程實(shí)踐中的總體代價(jià)降低至9 030,在4種模型中總體代價(jià)最小,有助于降低企業(yè)的實(shí)際運(yùn)營(yíng)成本,發(fā)揮工程實(shí)踐價(jià)值。此外,從模型訓(xùn)練所需時(shí)間可看出,cLightGBM、LightGBM、XGBoost模型在面向大樣本、高維度數(shù)據(jù)時(shí)的訓(xùn)練速度比傳統(tǒng)的GBM模型均有顯著的優(yōu)勢(shì),尤其是cLightGBM、LightGBM模型,兩者可在不到15 s內(nèi)完成對(duì)具備170個(gè)特征的60 000個(gè)樣本的訓(xùn)練,體現(xiàn)出很高的訓(xùn)練效率。
表4 不同模型預(yù)測(cè)結(jié)果對(duì)比
本文中針對(duì)汽車(chē)故障數(shù)據(jù)集規(guī)模大、類(lèi)別不平衡引起的模型訓(xùn)練速度慢、故障查全率低的問(wèn)題,提出一種基于改進(jìn)LightGBM模型的汽車(chē)故障預(yù)測(cè)方法,得出結(jié)論如下。
(1)從模型訓(xùn)練和模型預(yù)測(cè)兩個(gè)層面對(duì)Light-GBM模型進(jìn)行改進(jìn):通過(guò)設(shè)置類(lèi)別權(quán)重和引入L1正則化項(xiàng)修正模型損失函數(shù),并使用TPE算法得到修正項(xiàng)系數(shù)的取值;在模型預(yù)測(cè)時(shí),使用閾值移動(dòng)技術(shù),將分類(lèi)閾值調(diào)整為0.01,提高樣本被分為故障樣本的概率。
(2)在斯堪尼亞貨車(chē)故障數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文中提出的改進(jìn)LightGBM模型故障查全率達(dá)0.987,總體代價(jià)為9 030,實(shí)現(xiàn)了對(duì)汽車(chē)故障的有效預(yù)測(cè),具備工程應(yīng)用價(jià)值。
(3)與 LightGBM、XGBoost、GBM等模型相比,本文中提出的改進(jìn)LightGBM模型的故障查全率高,總體代價(jià)小,且具備LightGBM模型訓(xùn)練快的優(yōu)勢(shì),展現(xiàn)出一定的先進(jìn)性。