金志剛, 吳 桐
(天津大學(xué)電氣自動化與信息工程學(xué)院, 天津 300072)
近年來,網(wǎng)絡(luò)空間安全形勢日益復(fù)雜嚴峻,網(wǎng)絡(luò)攻擊手段日趨智能化、自動化。據(jù)Distil Networks發(fā)布的《2020惡意機器流量報告》[1],在2019年,全網(wǎng)流量中只有62.8%為人類流量,而在機器產(chǎn)生的流量中,惡意流量占全網(wǎng)流量的24.1%,其中高級別惡意機器流量(advanced persistent bots,APBs)通過混合使用如隨機IP地址、匿名代理等各種偽裝方法實現(xiàn)自動化攻擊,占惡意流量的73.7%。
目前,采取數(shù)據(jù)加密、身份認證、訪問控制、防火墻等技術(shù)建立的傳統(tǒng)靜態(tài)安全模型逐漸暴露出其局限性,而入侵檢測技術(shù)可在計算機系統(tǒng)中或者若干網(wǎng)絡(luò)節(jié)點上收集網(wǎng)絡(luò)實時數(shù)據(jù)信息和主機數(shù)據(jù)信息,并采取主動干預(yù)的響應(yīng)手段,可在入侵行為發(fā)生或造成危害之前,及時識別攻擊者和入侵行為并采取響應(yīng)措施[2]。
盡管入侵檢測技術(shù)目前已得到廣泛應(yīng)用,但其在事件分析和警報處理的過程中仍存在一定的缺陷[3]。入侵檢測規(guī)則一般由安全人員手動匹配設(shè)置,通常為了保證高捕獲率就會降低檢測規(guī)則匹配的門檻,這導(dǎo)致入侵檢測系統(tǒng)可能依據(jù)固定規(guī)則產(chǎn)生大量警報,入侵檢測系統(tǒng)的誤報率和漏報率因此增加,并且處理高誤報率的安全事件也需要耗費大量的時間精力,增加人力成本。與此同時,機器學(xué)習(xí)技術(shù)在近年來快速發(fā)展[4-5],在自然語言處理[6]、圖像分割[7]、目標(biāo)檢測[8]等領(lǐng)域都有相應(yīng)成果落地實踐,并取得良好的效果。因此,針對上述應(yīng)用場景,為提高入侵檢測中的檢測率和適應(yīng)性,目前網(wǎng)絡(luò)安全領(lǐng)域中學(xué)術(shù)界和工業(yè)界的重點研究趨勢便是將機器學(xué)習(xí)與入侵檢測技術(shù)相結(jié)合[9-10],以提高系統(tǒng)的可用性和對不同攻擊場景的靈活適應(yīng)能力,進一步保障網(wǎng)絡(luò)空間安全。
李元兵[11]等人提出將神經(jīng)網(wǎng)絡(luò)應(yīng)用于異常入侵檢測系統(tǒng),通過對程序行為進行動態(tài)建模,并使用Apache服務(wù)器進行驗證。Kim[12]等人使用長短期記憶(long short term memory, LSTM)網(wǎng)絡(luò)模型并使用超參數(shù)調(diào)優(yōu)技術(shù),在KDD CUP 99數(shù)據(jù)集上得到的檢測率為98.88%,準(zhǔn)確率為96.93%,但同時誤報率達到了10.04%。Putchala[13]通過將門控循環(huán)單元(gated recurrent unit,GRU)模型應(yīng)用于物聯(lián)網(wǎng)領(lǐng)域的惡意流量檢測,準(zhǔn)確率高于99%,但僅在KDD CUP 99數(shù)據(jù)集上進行測試。高妮[14]等人提出將深度信念網(wǎng)絡(luò)應(yīng)用于入侵檢測系統(tǒng)中,基于NSL-KDD數(shù)據(jù)集的準(zhǔn)確率約為98%。Aygun[15]等人將隨機去噪自編碼器應(yīng)用于惡意流量檢測,得到的準(zhǔn)確率較低,為88.65%,無法滿足當(dāng)前形勢下對惡意流量的檢測需求。饒鮮[16]等人提出一種基于信息熵的入侵檢測特征選擇方法,可減少系統(tǒng)的內(nèi)存占用,但其使用的KDD CUP 99數(shù)據(jù)集過于陳舊,同時系統(tǒng)性能也有所下降。針對CIC-IDS-2018數(shù)據(jù)集,Hooge[17]等人對比了多種監(jiān)督學(xué)習(xí)算法,并在模型屬性的特征空間中使用了特征縮放技術(shù),最終使用基于決策樹的XGBoost模型作為分類器,準(zhǔn)確率高達99%,但同時召回率只有79%。Kim[18]等人使用卷積神經(jīng)網(wǎng)絡(luò)同時訓(xùn)練來自KDD CUP 99和CIC-IDS-2018數(shù)據(jù)集中的Dos數(shù)據(jù),取得了99.99%的精準(zhǔn)率,但準(zhǔn)確率和召回率較低,分別只達到81.75%和82.25%。Lin[19]等人將注意力機制與LSTM相結(jié)合,自動提取與目標(biāo)結(jié)果最相關(guān)的信息并賦予權(quán)重,同時引入了欠采樣和過采樣技術(shù),最終模型準(zhǔn)確率為96.2%,精準(zhǔn)率和召回率為96%。
為解決目前入侵檢測技術(shù)中數(shù)據(jù)集維數(shù)過高、數(shù)據(jù)冗余度較高導(dǎo)致機器學(xué)習(xí)模型計算量大、入侵檢測系統(tǒng)效率下降等問題[20],本文提出了一種基于相關(guān)性分析的特征選取(feature selection based on correlation analysis, FSCA)和樹狀Parzen估計(tree Parzen estimator, TPE)優(yōu)化的隨機森林入侵檢測(簡稱為FSCA-TPE-RF)方法,主要分為3個階段:首先,通過皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient, PCC)[21]計算特征數(shù)據(jù)相關(guān)性矩陣,對數(shù)據(jù)集特征關(guān)系進行深入分析,通過缺失值比率、低方差濾波和高相關(guān)濾波3種特征選取方法對數(shù)據(jù)集進行降維。同時,使用基于序列模型優(yōu)化(sequential model-based global optimization, SMBO)算法的TPE算法,優(yōu)化隨機森林算法的超參數(shù),并根據(jù)數(shù)據(jù)權(quán)重調(diào)整樣本數(shù)量。綜上,本文提出了一種FSCA-TPE-RF方法,并通過多組對比實驗對算法效果進行了驗證。
CIC-IDS-2018數(shù)據(jù)集[22-23]由Canadian Institute for Cybersecurity采集發(fā)布,其特點在于使用了亞馬遜計算平臺(Amazon web services, AWS)中常見的網(wǎng)絡(luò)拓撲:位于AWS上的服務(wù)器集群中共有5個子網(wǎng),共計420臺計算機和30臺服務(wù)器,涵蓋了大部分網(wǎng)絡(luò)設(shè)備及包括Windows和Ubuntu在內(nèi)的常見操作系統(tǒng)的不同版本。
針對現(xiàn)有數(shù)據(jù)集暴露出來的各種缺陷和問題,Gharib[24]等人于2016年提出一個全面完整的入侵檢測數(shù)據(jù)集評估框架(intrusion detection dataset evaluation framework, IDDEF),而CIC-IDS-2018數(shù)據(jù)集與KDD CUP 99等其他入侵檢測數(shù)據(jù)集相比,滿足了所有11種指標(biāo),其數(shù)據(jù)更加接近真實世界的網(wǎng)絡(luò)流量。
本文使用PCC計算特征對之間的相關(guān)程度。協(xié)方差定義為E{[X-E(X)][Y-E(Y)]},記作Cov(X,Y),即兩個變量X和Y與各自期望之差的乘積的期望,期望在離散型數(shù)據(jù)中通常為均值。再利用二者分別和E(X)與E(Y)的差求協(xié)方差。相關(guān)系數(shù)為Cov(X,Y)/[σ(X)σ(Y)],記作ρX,Y,其中σ(X)和σ(Y)分別表示X和Y的標(biāo)準(zhǔn)差,因此相關(guān)系數(shù)即為協(xié)方差與標(biāo)準(zhǔn)差的商值,值域為[-1,1]??傮w相關(guān)系數(shù)的計算公式為
(1)
接下來,計算數(shù)據(jù)集中每個特征同所有特征之間的協(xié)方差,得到協(xié)方差矩陣,矩陣中的每個元素都對應(yīng)特征間的協(xié)方差。協(xié)方差矩陣進一步計算后得到相關(guān)系數(shù)矩陣,如圖1所示,該數(shù)據(jù)集中體現(xiàn)多對特征對間擁有的高度相關(guān)性,這些特征即為冗余特征,在使用時不會增強模型訓(xùn)練效果,但可能會引入噪聲干擾。
圖1 相關(guān)系數(shù)矩陣Fig.1 Correlation coefficient matrix
本文所使用的算法模型流程圖如圖2所示。首先,對數(shù)據(jù)集進行數(shù)據(jù)清洗,篩選掉機器學(xué)習(xí)模型中無法使用的數(shù)據(jù);接下來,通過可視化分析結(jié)果,對數(shù)據(jù)集進行基于相關(guān)性分析的特征選取,包括缺失值比率、低方差濾波和高相關(guān)濾波3個過程,生成數(shù)據(jù)集的特征子集;最后,針對數(shù)據(jù)集特征子集,使用TPE算法優(yōu)化隨機森林參數(shù),并根據(jù)模型性能最佳時的參數(shù)組對性能指標(biāo)進行分析。
圖2 算法流程圖Fig.2 Algorithm flow chart
算法中的FSCA流程包括數(shù)據(jù)清洗和特征選取兩部分,數(shù)據(jù)清洗部分包括對空值、空行、無窮大值以及無用特征在內(nèi)的無用數(shù)據(jù)進行清洗,對非數(shù)值字符特征進行數(shù)值化替換等操作。特征選取部分依據(jù)數(shù)據(jù)集特征分析結(jié)果[25],共包含缺失值比率、低方差濾波和高相關(guān)濾波3個步驟。
(1) 缺失值比率。數(shù)據(jù)集缺失是數(shù)據(jù)分析中常見問題之一。其中共有6列特征數(shù)據(jù)中含有缺失值,由于其中單一文件中包含的4列特征流ID、源IP、目的IP和源端口在其他文件中沒有出現(xiàn),無法用于整體模型的訓(xùn)練,因此刪除相關(guān)特征列。同時,流字節(jié)率和流數(shù)據(jù)包速率特征中包含無窮值,占總數(shù)據(jù)的比率分別為2.16%和5.74%,因此使用平均值填充的方法,根據(jù)該特征其他對象取值的平均值對該缺失特征值進行補齊填充。
(2) 低方差濾波。低方差濾波假定變化非常小的特征列包含的信息量也相對較小,即當(dāng)特征的自方差很小或為0時,這些特征數(shù)據(jù)將不會對目標(biāo)變量的預(yù)測產(chǎn)生任何影響,對于模型訓(xùn)練來說沒有價值[26]。對數(shù)據(jù)集中所有特征的自方差進行計算,并過濾出8個自方差值為0的特征,分別為平均正向數(shù)據(jù)塊速率、平均反向數(shù)據(jù)塊速率、平均正向字節(jié)塊速率、平均反向字節(jié)塊速率、平均正向數(shù)據(jù)包數(shù)量、平均反向數(shù)據(jù)包數(shù)量、反向傳播數(shù)據(jù)包中PSH標(biāo)志次數(shù)和反向傳播數(shù)據(jù)包中URG標(biāo)志次數(shù)。由于自方差為0的特征不攜帶任何可用信息,因此將相關(guān)特征列從數(shù)據(jù)集中刪除。
(3) 高相關(guān)濾波。若數(shù)據(jù)集中兩列特征之間高度相關(guān),即變化趨勢相似,這意味著其可能包含相似的信息,在訓(xùn)練中只需保留相似列中的一列即可滿足機器學(xué)習(xí)分類器的需要。為了解決這類問題,首先計算特征之間的相關(guān)性,并根據(jù)計算結(jié)果設(shè)置一個閾值,若相關(guān)性系數(shù)超過該閾值,則刪除其中一個特征。
本文使用層次聚類樹狀圖[27]的方式,對特征對的距離進行可視化操作。層次聚類為聚類算法的一種,該方法的基本思想為:將n個數(shù)據(jù)分為一類,計算數(shù)據(jù)之間的距離和類間的距離,合并距離最近的兩類,并計算合并出的新類與其他類的距離;重復(fù)以上步驟,每次可減少一類,直至所有的樣品合并為一類,即通過計算每個特征對之間的距離創(chuàng)建一個有層次的嵌套樹。
(2)
將簇距離閾值設(shè)置為1,用于從特征簇中選取高相關(guān)特征對,并剝離冗余特征,最終數(shù)據(jù)集特征降至30維,重新繪制特征相關(guān)性系數(shù)矩陣圖,如圖3所示。其中橫軸和縱軸均為降維后數(shù)據(jù)集不同種類的特征,可以看出,移除冗余特征后,數(shù)據(jù)集特征對的相關(guān)性得到明顯下降。
圖3 特征子集相關(guān)系數(shù)矩陣Fig.3 Feature subset correlation coefficient matrix
模型優(yōu)化是機器學(xué)習(xí)中最重要的環(huán)節(jié)之一,機器學(xué)習(xí)理論大部分分支都致力于對模型的優(yōu)化[28]。超參數(shù)是機器學(xué)習(xí)中模型訓(xùn)練前需要提前設(shè)置的參數(shù),與可通過訓(xùn)練得到的權(quán)重、偏差等模型參數(shù)不同,超參數(shù)定義的是機器學(xué)習(xí)模型的模型復(fù)雜性和學(xué)習(xí)能力等更高層次的概念。超參數(shù)優(yōu)化就是尋找機器學(xué)習(xí)模型在驗證數(shù)據(jù)集上性能最佳時超參數(shù)的過程,其過程對模型優(yōu)化有重要影響,超參數(shù)優(yōu)化的公式為
(3)
式中:F(x)代表機器學(xué)習(xí)的目標(biāo)函數(shù);x*是F(x)取得最好結(jié)果時的參數(shù)。
常見的超參數(shù)優(yōu)化方法包括隨機搜索調(diào)參、手動調(diào)參、網(wǎng)格化尋優(yōu)調(diào)參以及自動超參數(shù)調(diào)優(yōu)。自動超參數(shù)調(diào)優(yōu)相比其他調(diào)參方法,可通過形成超參數(shù)值與模型性能之間關(guān)系的知識,并利用先驗知識對下一組超參數(shù)的選擇進行推斷,從而在尋找最佳超參數(shù)值的組合時,盡量減少試驗的次數(shù),提升實驗效率。
目前大多數(shù)自動超參數(shù)調(diào)優(yōu)方法都基于SMBO算法[29]。SMBO算法主要有如下幾個步驟。
步驟 1基于評估域H=(x1,F(x1),x2,F(x2),…,xn,F(xn)),確定超參數(shù)搜索空間,計算模型分布。
步驟 2確定機器學(xué)習(xí)模型的目標(biāo)函數(shù)F(x),該目標(biāo)函數(shù)應(yīng)與超參數(shù)密切相關(guān),每個超參數(shù)組都會在模型的目標(biāo)函數(shù)中取得一個分值,超參數(shù)優(yōu)化的目的即將這個分值最大化或最小化。
步驟 3建立目標(biāo)函數(shù)的替代函數(shù)。
步驟 4建立替代函數(shù)的指標(biāo),通常情況下為選擇函數(shù)(expected improvement, EI)標(biāo)準(zhǔn),評估超參數(shù)組在替代函數(shù)上的得分F(x*),作為選擇超參數(shù)的標(biāo)準(zhǔn)。
步驟 5將超參數(shù)組應(yīng)用到機器學(xué)習(xí)模型的訓(xùn)練中,并將(x*,F(x*))加入域H,更新模型分布;
步驟 6重復(fù)步驟4和步驟5,不斷推介x*,直到達到預(yù)設(shè)最大迭代次數(shù)或最大時長?;赟MBO算法目前廣泛應(yīng)用于適應(yīng)度函數(shù)代價較大的場景中,例如適應(yīng)度函數(shù)F:χ→R的復(fù)雜度較高,而近似值F可通過最大化替代點x*計算,并可作為真實評估值時的可能取值。
本文使用TPE算法[30]作為評估域H生成目標(biāo)函數(shù)f的建模過程。TPE將超參數(shù)空間轉(zhuǎn)換為非參數(shù)密度分布,對p(x|y)過程進行建模。轉(zhuǎn)換方式共有均勻分布轉(zhuǎn)換為截斷高斯混合分布、對數(shù)均勻分布轉(zhuǎn)換為指數(shù)截斷高斯混合分布和離散分布轉(zhuǎn)換為重加權(quán)離散分布3種。通過在非參數(shù)密度中使用不同的觀測值(x1,x2,…,xk)做替換處理,TPE的超參數(shù)組可以使用不同密度的學(xué)習(xí)算法。TPE使用兩種密度定義p(x|y),即
(4)
式中:l(x)由觀測值{xi}的目標(biāo)函數(shù)F(x)小于y*的部分組成;g(x)由觀測值{xi}的目標(biāo)函數(shù)F(x)大于等于y*的部分組成。TPE算法傾向于使用大于最佳觀測結(jié)果F(x)的y*,并使用y*作為觀測值y的分位點γ,使p(y (5) 最后,將γ=p(y γl(x)+(1-γ)g(x) (6) (7) 使用TPE算法對隨機森林進行超參數(shù)調(diào)優(yōu),將精準(zhǔn)率作為TPE算法的目標(biāo)函數(shù),并將迭代次數(shù)設(shè)置為100。本文選取的超參數(shù)、取值范圍和最終取值結(jié)果如表1所示。 表1 超參數(shù)組取值范圍及結(jié)果 其中,超參數(shù)nr_estimators為隨機森林模型中決策樹的最大數(shù)量,超參數(shù)criterion為隨機森林模型對特征的評價標(biāo)準(zhǔn),超參數(shù)max_depth為決策樹的最大深度,超參數(shù)min_samples_leaf為隨機森林模型中葉子最少樣本數(shù),超參數(shù)min_samples_split為內(nèi)部節(jié)點再劃分所需最小樣本數(shù),超參數(shù)max_features為隨機森林允許單個決策樹適用的最大特征數(shù)量。 本文采取入侵檢測算法中常用的混淆矩陣作為評估分類性能的指標(biāo)。混淆矩陣是一種評價分類模型的形象化展示工具。混淆矩陣的每一列表示模型預(yù)測的樣本類別,每一行表示樣本的真實類別,一共有4個元素:真正類(true positive, TP),正常流量的正常樣本數(shù)量;假負類(false negative, FN),惡意流量的惡意樣本數(shù)量;假正類(false positive, FP),惡意流量的正常樣本數(shù)量,即誤報;真負類(true negative, TN),正常流量的惡意樣本數(shù)量,即漏報。 基于混淆矩陣中的元素,本文使用以下指標(biāo)對檢測進行評估,準(zhǔn)確率A、精準(zhǔn)率P、查全率R,F1值F1,所用公式為 (8) (9) (10) (11) 本文實驗所使用的軟硬件平臺配置為Intel i7-8700 3.20GHz處理器,32G內(nèi)存,操作系統(tǒng)為Windows 10 Pro。 為驗證本文提出的FSCA-TPE-RF方法的可行性,本文第1個實驗首先通過scikit-learn機器學(xué)習(xí)庫中的Dummy Classifier函數(shù)構(gòu)建基線分類器,作為數(shù)據(jù)集分類器的性能基線,對比模型包括樸素貝葉斯、邏輯回歸、自適應(yīng)提升算法、RF等經(jīng)典機器學(xué)習(xí)算法,及文獻[17-19]中提出的入侵檢測模型,以準(zhǔn)確率(A)、精準(zhǔn)率(P)、查全率(R)和F1值作為模型性能的評價指標(biāo)。結(jié)果如表2所示。 表2 算法實驗結(jié)果對比 可以看出FSCA-TPE-RF方法相比經(jīng)典機器學(xué)習(xí)算法,在各項指標(biāo)上均有不同程度提升。其中A分別提升了16.87%、3.20%、2.11%和2.11%,P分別提升了8.89%、7.70%、4.26%和3.16%,R分別提升了16.87%、11.49%、4.30%和3.19%,F1分別提升了14.12%、8.99%、3.19%和2.11%。相比對比文獻中提出的機器學(xué)習(xí)模型,整體指標(biāo)更加均衡,實用性更強。這是由于特征選擇過程中剔除的是對RF分類器影響不大的冗余特征,保留了對RF分類器影響較大的關(guān)鍵特征,并在結(jié)合TPE優(yōu)化后,選取了最適合的超參數(shù)組合進一步提高模型性能。為驗證FSCA可縮短機器學(xué)習(xí)模型的訓(xùn)練時間和測試時間,提升模型的檢測效率,本文第2個實驗將FSCA-TPE-RF與其他經(jīng)典機器學(xué)習(xí)算法檢測效率進行對比,訓(xùn)練集與測試集的數(shù)據(jù)數(shù)量分布與表2相同,實驗結(jié)果如圖4所示,其中橫軸為不同的機器學(xué)習(xí)算法種類,縱軸為算法訓(xùn)練和測試所需的時間長度,由于對比文獻中所使用數(shù)據(jù)集數(shù)據(jù)比例不完全相同,無法直接橫向比較,因此不納入對比范圍。 圖4 不同算法所需時間對比Fig.4 Comparison of the time reguired by different algorithm 可以看出,FSCA-TPE-RF方法相比于傳統(tǒng)RF,可將訓(xùn)練時間和測試時間分別縮短39.46%和60%,模型的檢測效率大幅提升,訓(xùn)練時間和測試時間也大幅低于線性回歸算法、自適應(yīng)提升算法等機器學(xué)習(xí)算法。因此,該方法更適用于當(dāng)前大規(guī)模高并發(fā)網(wǎng)路拓撲下的近實時入侵檢測場景。需要注意的是,由于樸素貝葉斯算法默認數(shù)據(jù)集特征之間相互獨立,邏輯和算法都相對簡單穩(wěn)定,因此其訓(xùn)練時間和測試時間中都為最低。但如表2所示,樸素貝葉斯算法各項分類指標(biāo)均落后于FSCA-TPE-RF在內(nèi)的其他機器學(xué)習(xí)模型,尤其是精準(zhǔn)率只有0.83,與基線分類器相同,性能無法滿足真實的入侵檢測場景。 為驗證所提出方法在不同訓(xùn)練數(shù)據(jù)比例下的魯棒性,本文第3個實驗設(shè)置了不同的訓(xùn)練集和驗證集比例進行對比,訓(xùn)練渠∶驗證渠分別為50%∶50%、10%∶90%、5%∶95%和2%∶98%。并將FSCA-TPE-RF與其他經(jīng)典機器學(xué)習(xí)算法性能進行對比,實驗結(jié)果如圖5所示。本文提出的FSCA-TPE-RF方法在不同的訓(xùn)練集和測試集比例下的模型性能相比其他機器學(xué)習(xí)算法更加穩(wěn)定,普適性較強,應(yīng)用于入侵檢測場景時,需要的標(biāo)注數(shù)據(jù)集數(shù)量相對更少,可以減輕研究人員標(biāo)注的壓力,提升入侵檢測系統(tǒng)的實用性。 圖5 不同數(shù)據(jù)集比例實驗結(jié)果Fig.5 Experimental results of different data set proportions 本文以CIC-IDS-2018入侵檢測數(shù)據(jù)集為研究對象進行深入分析。針對該數(shù)據(jù)集的特征模式,本文提出一種基于FSCA與TPE優(yōu)化的入侵檢測檢測方法,主要包括以下幾點:分析CIC-IDS-2018數(shù)據(jù)集特征特性,根據(jù)數(shù)據(jù)集特征分布規(guī)律,針對性地使用了缺失值比率、低方差濾波和高相關(guān)濾波3種基于相關(guān)性分析的特征選取方法;結(jié)合離差平方和法計算數(shù)據(jù)集的層次聚類,將數(shù)據(jù)集從80維降到30維;通過基于TPE算法的超參數(shù)調(diào)優(yōu)技術(shù),對隨機森林進行參數(shù)優(yōu)化;并通過設(shè)計3個實驗,分別驗證了模型的有效性、效率和在不同的訓(xùn)練集和測試集比例下算法的魯棒性。通過以上實驗可以發(fā)現(xiàn),本文提出的FSCA-TPE-RF方法在提升模型效率的同時,在少樣本場景下也能保持其分類器的性能,各項性能指標(biāo)均取得良好結(jié)果。未來工作將注重優(yōu)化檢測方法在多分類場景下的分類檢測以及在其他入侵檢測數(shù)據(jù)集上的泛化能力。3 實驗仿真
3.1 評估指標(biāo)
3.2 模型評估
4 結(jié) 論