• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于交叉驗(yàn)證網(wǎng)格尋優(yōu)隨機(jī)森林的黑產(chǎn)用戶識(shí)別方法

      2019-11-05 07:45:15章文俊韓曉龍
      科技視界 2019年28期
      關(guān)鍵詞:隨機(jī)森林

      章文俊 韓曉龍

      【摘 要】隨著移動(dòng)互聯(lián)網(wǎng)的普及,黑色產(chǎn)業(yè)成為了一種新的違法途徑。黑色產(chǎn)業(yè)的猖獗不僅損害了社會(huì)利益,同時(shí)也影響了正常用戶的體驗(yàn)。本文提出了一種基于交叉驗(yàn)證網(wǎng)格尋優(yōu)隨機(jī)森林算法的區(qū)分黑色產(chǎn)業(yè)用戶的方法。本文收集的黑產(chǎn)用戶數(shù)據(jù)為某論壇的惡意刷違法消息的用戶數(shù)據(jù)。利用隨機(jī)森林機(jī)器學(xué)習(xí)數(shù)據(jù)特征,通過交叉驗(yàn)證以及網(wǎng)格搜索技術(shù)完成模型參數(shù)尋優(yōu),得到訓(xùn)練好的模型。并且比較了其他常見的幾種分類算法在識(shí)別黑產(chǎn)用戶的準(zhǔn)確率。線上和線下實(shí)驗(yàn)表明,基于隨機(jī)森林算法的模型在預(yù)測(cè)區(qū)分黑色產(chǎn)業(yè)用戶上相比較于其他幾種算法準(zhǔn)確率更高,表現(xiàn)更為穩(wěn)定。為打擊黑色產(chǎn)業(yè)積累了寶貴的經(jīng)驗(yàn)。

      【關(guān)鍵詞】隨機(jī)森林;黑色產(chǎn)業(yè);交叉驗(yàn)證;網(wǎng)格搜索

      中圖分類號(hào): TP393.06 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2019)28-0001-003

      DOI:10.19694/j.cnki.issn2095-2457.2019.28.001

      【Abstract】With the popularization of mobile Internet, the black industry has become a new illegal way. The prevalence of the black industry not only harmed the social interest, but also affected the experience of the normal users. This paper presents a method for distinguishing black industry users based on cross-validation grid-optimized random forest algorithm. The data collected in this paper is the user data of the maliciously brushed illegal messages of a certain forum. And using the random forest machine to study the data features, the model parameters are optimized through cross-verification and grid search technology, and the trained model is obtained. And the accuracy of the other common classification algorithms in identifying the black-producing user is compared. The online and offline experiments show that the model based on the stochastic forest algorithm is more accurate and more stable in the prediction of the black industrial users compared with other algorithms. Valuable experience has been accumulated in the fight against the black industry.

      【Key words】Random forest; Black industry; Cross validation; Grid search

      0 前言

      移動(dòng)化聯(lián)網(wǎng)的發(fā)展讓生活變得十分便利,但是同時(shí)也衍生出了一個(gè)黑色產(chǎn)業(yè)。黑色產(chǎn)業(yè)是利用不正當(dāng)?shù)倪`法手段在移動(dòng)互聯(lián)網(wǎng)上獲取利益。黑色產(chǎn)業(yè)不僅對(duì)社會(huì)利益造成了極大地?fù)p失,對(duì)于正常用戶的使用也產(chǎn)生了極大的困擾。對(duì)于黑色產(chǎn)業(yè)的研究不僅能減少利益的損失,也能通過打擊黑色產(chǎn)業(yè)來保護(hù)正常用戶的使用。

      本文從黑色產(chǎn)業(yè)刷違法信息獲取非法利益入手。通過收集某論壇的黑產(chǎn)用戶數(shù)據(jù)。采用科學(xué)的數(shù)據(jù)處理工具對(duì)收集的數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)的純凈。然后根據(jù)數(shù)據(jù)特征進(jìn)行構(gòu)建模型,采用了網(wǎng)格搜索尋找最佳參數(shù)。并且比較了幾種常見的分類方法。根據(jù)實(shí)際的預(yù)測(cè)結(jié)果,以及線上模型表現(xiàn),訓(xùn)練好的模型有著非常優(yōu)秀的表現(xiàn),能很好區(qū)分黑色產(chǎn)業(yè)用戶和正常用戶。對(duì)打擊黑產(chǎn)有著較好的效果。

      1 相關(guān)工作

      1.1 隨機(jī)森林算法

      隨機(jī)森林算法提出于1995年,由Leo Breiman和Adele Cutler共同提出。隨機(jī)森林的提出是基于決策樹。決策樹一般為簡(jiǎn)單的分類操作,而隨機(jī)森林是多棵決策樹的集合。隨機(jī)森林的輸出取決于隨機(jī)森林中的每一個(gè)決策樹的類別。隨機(jī)森林有著諸多優(yōu)點(diǎn),在機(jī)器學(xué)習(xí)中也是非常重要的一種算法。由于隨機(jī)森林在處理大量數(shù)據(jù)以及平衡誤差上的卓越性能,在實(shí)際應(yīng)用中也被廣泛使用。

      隨著隨機(jī)森林算法在各個(gè)領(lǐng)域有著優(yōu)良表現(xiàn),該算法也被應(yīng)用的領(lǐng)域也越來越多。陳標(biāo)金[1]等通過篩選了技術(shù)指標(biāo)和經(jīng)濟(jì)指標(biāo)來作為特征數(shù)據(jù)來進(jìn)行預(yù)測(cè)國(guó)債指數(shù)的預(yù)測(cè)變量。利用隨機(jī)森林算法構(gòu)建模型,通過模型進(jìn)行預(yù)測(cè)。林栢全[2]等提出了一種基于隨機(jī)森林與矩陣分解的推薦算法。相比較于傳統(tǒng)的推薦算法,該算法在推薦性能上有更好的準(zhǔn)確率和性能。Chong[3]等利用隨機(jī)森林算法建立了熱馴化和非熱馴化模型。在預(yù)測(cè)室外高溫的熱風(fēng)險(xiǎn)有很高的準(zhǔn)確率。這對(duì)室外工作者的健康有很大的保證。Jo[4]等通過K-means聚類算法添加類似數(shù)據(jù)。然后通過隨機(jī)森林訓(xùn)練聚類得到的數(shù)據(jù),根據(jù)模型的輸出來識(shí)別用戶的活動(dòng)。最后個(gè)性化推薦優(yōu)選的GUI。

      1.2 機(jī)器學(xué)習(xí)

      機(jī)器學(xué)習(xí)在深度學(xué)習(xí)尚未崛起時(shí)為深度學(xué)習(xí)奠定了基礎(chǔ)。并且目前機(jī)器學(xué)習(xí)在各行各業(yè)也被廣泛成功使用。機(jī)器學(xué)習(xí)是一門復(fù)雜的交叉學(xué)科,不僅涉及了高等數(shù)學(xué)等基礎(chǔ)學(xué)科,還涉及算法等學(xué)科。機(jī)器學(xué)習(xí)的核心內(nèi)容是讓計(jì)算機(jī)模擬人類的學(xué)習(xí)行為,來獲得新的知識(shí)和技能。機(jī)器學(xué)習(xí)的應(yīng)用遍布人工智能的各個(gè)領(lǐng)域,極大地減少了人工的重復(fù)勞動(dòng)。

      機(jī)器學(xué)習(xí)一般分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),兩種不同的學(xué)習(xí)方式一般也會(huì)應(yīng)用于不同的情景。蔡天鴻[5]等提出一種基于TF-IDF的人格分析方法。利用VSM、PCA、Wavelet技術(shù)提取出文本特征,利用KNN分類算法獲得人格分類的候選項(xiàng)。Feng[6]等提出一種評(píng)估建筑環(huán)境績(jī)效的定量方法。主要使用了參數(shù)化的設(shè)計(jì)技術(shù)以及機(jī)器學(xué)習(xí)算法來評(píng)估早期決策階段的建筑環(huán)境績(jī)效。Ariharan[7]等提出了一種機(jī)器學(xué)習(xí)框架,來管理傳感器部署時(shí)相關(guān)的網(wǎng)絡(luò)延遲和丟包。這種機(jī)器學(xué)習(xí)框架能結(jié)合學(xué)習(xí)模塊的結(jié)果,進(jìn)行集體決策。Czernechi[8]等提出將機(jī)器學(xué)習(xí)與遙感數(shù)據(jù)以及環(huán)境變量相結(jié)合的概念。并且通過建立模型來進(jìn)行預(yù)測(cè)大型的冰雹事件。

      1.3 網(wǎng)格搜索算法

      網(wǎng)格搜索是機(jī)器學(xué)習(xí)中非常重要的一個(gè)概念。網(wǎng)格搜索是通過遍歷給定的參數(shù)組合來優(yōu)化所需要訓(xùn)練的模型。通常為了防止模型過擬合或者欠擬合,會(huì)使用網(wǎng)格搜索算法尋找模型最佳參數(shù)。網(wǎng)格搜索也叫窮舉搜索,即遍歷整個(gè)訓(xùn)練數(shù)據(jù)集。

      網(wǎng)格搜索算法在實(shí)際應(yīng)用的過程中配合分類算法進(jìn)行使用,主要是用于分類算法的參數(shù)尋優(yōu)。張文雅[9]在預(yù)測(cè)汽車銷量時(shí),運(yùn)用了交叉驗(yàn)證的網(wǎng)格搜索算法。主要是運(yùn)用于優(yōu)化SVM算法的懲罰系數(shù)以及核函數(shù)的參數(shù)。構(gòu)建了汽車銷售的預(yù)測(cè)模型。Wang[10]等提出了一種從腦電圖傳感器收集的非靜止腦電圖數(shù)據(jù)的綜合方法。綜合方法其中包括了網(wǎng)格搜索優(yōu)化器,主要用于自動(dòng)查找訓(xùn)練分類器的最佳參數(shù)。

      2 理論基礎(chǔ)

      2.1 黑產(chǎn)用戶行為分析

      本文的研究主要針對(duì)是黑產(chǎn)用戶在論壇惡意刷違法內(nèi)容行為。黑產(chǎn)用戶主要利用腳本文件進(jìn)行無限制刷帖。為了針對(duì)黑產(chǎn)用戶的惡意刷內(nèi)容,需要對(duì)黑產(chǎn)用戶的刷內(nèi)容行為進(jìn)行分析,然后構(gòu)建預(yù)測(cè)模型。

      通過對(duì)黑產(chǎn)用戶行為進(jìn)行分析可以發(fā)現(xiàn),黑產(chǎn)用戶會(huì)通過腳本文件直接訪問發(fā)表內(nèi)容的接口。并且在短時(shí)間內(nèi)發(fā)送內(nèi)容數(shù)量上會(huì)比正常用戶多出很多。同時(shí)黑產(chǎn)用戶在短時(shí)間內(nèi)也會(huì)在回復(fù)內(nèi)容數(shù)量上遠(yuǎn)遠(yuǎn)超過正常用戶。同時(shí)基于黑產(chǎn)用戶是通過作弊工具進(jìn)行惡意刷內(nèi)容。所以黑產(chǎn)用戶等級(jí)不會(huì)很高?;谝陨虾诋a(chǎn)用戶等行為特征,可以對(duì)將黑產(chǎn)用戶和正常用戶進(jìn)行很好地區(qū)分。

      2.2 數(shù)據(jù)預(yù)處理

      在機(jī)器學(xué)習(xí)中,數(shù)據(jù)是否足夠以及數(shù)據(jù)的完整將直接決定模型的準(zhǔn)確率,所以在數(shù)據(jù)處理的過程中對(duì)于數(shù)據(jù)的完整性的保留以及處理的靈活性都有著較高的要求。最為常見的也是使用最廣泛的數(shù)據(jù)處理辦法是通過MS的excel軟件進(jìn)行數(shù)據(jù)的處理。

      因?yàn)楸狙芯恐性O(shè)采集的數(shù)據(jù)集較為龐大且數(shù)據(jù)內(nèi)容較為復(fù)雜。采用了python語(yǔ)言客休數(shù)據(jù)管理工具,numpy和pandas數(shù)據(jù)處理庫(kù)。其中pandas通過讀取數(shù)據(jù)將數(shù)據(jù)轉(zhuǎn)換為DataFrame格式方便進(jìn)行后續(xù)操作。在數(shù)據(jù)的預(yù)處理中,主要是對(duì)數(shù)據(jù)集中的缺失值進(jìn)行填充,以及時(shí)間數(shù)據(jù)轉(zhuǎn)換為時(shí)間戳。這樣才能保證后續(xù)的模型訓(xùn)練能順利進(jìn)行。

      2.3 分類方法設(shè)計(jì)

      本文基于對(duì)黑色產(chǎn)業(yè)用戶惡意刷內(nèi)容的行為特征入手。利用隨機(jī)森林算法進(jìn)行訓(xùn)練模型,并通過網(wǎng)格搜索算法進(jìn)行參數(shù)優(yōu)化。得到最優(yōu)的預(yù)測(cè)模型。具體的分類方法設(shè)計(jì)如圖1所示。

      首先為了得到數(shù)據(jù),需要對(duì)黑產(chǎn)用戶行為進(jìn)行分析。主要尋找可以非常準(zhǔn)確區(qū)分黑產(chǎn)用戶和正常用戶的行為特征。找到合適的黑產(chǎn)用戶特征,收集黑產(chǎn)用戶一周的特征數(shù)據(jù)。在收集完黑產(chǎn)用戶數(shù)據(jù)之后為了能順利進(jìn)行機(jī)器學(xué)習(xí),需要將數(shù)據(jù)進(jìn)行清洗,即數(shù)據(jù)的預(yù)處理。

      然后是用隨機(jī)森林分類器(RondomForest)進(jìn)行訓(xùn)練模型,現(xiàn)在默認(rèn)參數(shù)下進(jìn)行數(shù)據(jù)的訓(xùn)練。為了更快地找到模型的最佳參數(shù)。本文才用了網(wǎng)格搜索(Grid search)算法,保證模型在訓(xùn)練過程中不會(huì)因?yàn)閰?shù)設(shè)置而導(dǎo)致過擬合或者欠擬合。

      通過訓(xùn)練好的預(yù)測(cè)模型對(duì)最新的黑產(chǎn)用戶數(shù)據(jù)進(jìn)行預(yù)測(cè),并且比較準(zhǔn)確率。通過觀察誤判和漏判用戶特征進(jìn)行調(diào)整模型。最后將訓(xùn)練好的預(yù)測(cè)模型上線進(jìn)行預(yù)測(cè),為后續(xù)的處理提供判斷依據(jù)。

      2.4 模型評(píng)估

      本文研究?jī)?nèi)容是通過機(jī)器學(xué)習(xí)訓(xùn)練模型來進(jìn)行預(yù)測(cè),為了保證模型的準(zhǔn)確率。需要在模型進(jìn)行預(yù)測(cè)的過程中,對(duì)模型完成評(píng)估。在評(píng)估過程中主要可以參考一下幾個(gè)數(shù)據(jù)的準(zhǔn)確率。其中隨機(jī)森林算法所特有的袋外得分率(oob_score)。該參數(shù)表示為,在訓(xùn)練集中每次訓(xùn)練的過程會(huì)自動(dòng)將訓(xùn)練集的1/3的數(shù)據(jù)集劃分成測(cè)試集。這樣在訓(xùn)練模型的同時(shí)也能進(jìn)行測(cè)試。袋外得分率的返回值也是模型的準(zhǔn)確率判斷條件之一。

      訓(xùn)練好的模型在預(yù)測(cè)最新的黑產(chǎn)用戶數(shù)據(jù)時(shí),因?yàn)橐阎诋a(chǎn)用戶標(biāo)簽,可以通過隨機(jī)森林的分類器的predict函數(shù)得出預(yù)測(cè)標(biāo)簽,將兩者標(biāo)簽進(jìn)行對(duì)比,同樣也能統(tǒng)計(jì)得到模型的準(zhǔn)確率。

      模型的優(yōu)劣不僅取決于模型預(yù)測(cè)的準(zhǔn)確率,因?yàn)闇?zhǔn)確率可以通過參數(shù)進(jìn)行調(diào)整。所以在判斷完模型準(zhǔn)確率的基礎(chǔ)上,還需要對(duì)模型的泛化能力進(jìn)行評(píng)估。通常為了評(píng)估模型的泛化能力會(huì)采用AUC函數(shù)。AUC分?jǐn)?shù)越高,代表模型的泛化程度越強(qiáng)。AUC計(jì)算公式如下:

      3 實(shí)驗(yàn)結(jié)果與分析

      本文以黑產(chǎn)用戶特征為數(shù)據(jù)特征,對(duì)某論壇的黑產(chǎn)用戶惡意刷內(nèi)容行為數(shù)據(jù)進(jìn)行收集。共收集一周數(shù)據(jù)作為模型的訓(xùn)練參數(shù)。經(jīng)過數(shù)據(jù)預(yù)處理之后,最后得到的數(shù)據(jù)有13萬條。在訓(xùn)練模型過程中將整個(gè)數(shù)據(jù)集分成4:1的訓(xùn)練集和測(cè)試集。用于評(píng)估模型的準(zhǔn)確率。

      3.1 數(shù)據(jù)預(yù)處理

      本文主要是利用python程序語(yǔ)言進(jìn)行數(shù)據(jù)處理。為了保證訓(xùn)練數(shù)據(jù)的完整性以及數(shù)據(jù)的可讀性。在數(shù)據(jù)處理過程中主要涉及pandas和numpy兩個(gè)科學(xué)數(shù)據(jù)處理包。通過將數(shù)據(jù)集轉(zhuǎn)換成DataFrame特殊的格式,對(duì)缺失值進(jìn)行填充。對(duì)于機(jī)器學(xué)習(xí)無法識(shí)別的數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換,保證訓(xùn)練數(shù)據(jù)集的純凈。

      3.2 預(yù)測(cè)模型訓(xùn)練與參數(shù)尋優(yōu)

      通過數(shù)據(jù)的預(yù)處理得到純凈的黑產(chǎn)用戶數(shù)據(jù)之后。利用隨機(jī)森林算法訓(xùn)練模型。初始的模型訓(xùn)練采用默認(rèn)參數(shù),得到在默認(rèn)參數(shù)下的模型準(zhǔn)確率。為了體現(xiàn)模型對(duì)數(shù)據(jù)集的依賴性,對(duì)不同的數(shù)據(jù)集大小下模型的準(zhǔn)確率進(jìn)行對(duì)比。訓(xùn)練結(jié)果如表1所示。

      從表1的預(yù)測(cè)結(jié)果來看,數(shù)據(jù)集的大小對(duì)模型的預(yù)測(cè)有著很大的影響。表1中的AUC得分是數(shù)據(jù)集切分出來的,所以在計(jì)算泛化能力時(shí)得分很高。實(shí)際在預(yù)測(cè)過程中需要先考慮模型的準(zhǔn)確度,在看中模型的泛化程度。從預(yù)測(cè)結(jié)果來看,短時(shí)間內(nèi)的特征數(shù)據(jù),并不能進(jìn)行很好的預(yù)測(cè)。七天的數(shù)據(jù)集比單獨(dú)一天的數(shù)據(jù)集提高了將近40%的準(zhǔn)確率。所以為了保持模型預(yù)測(cè)的準(zhǔn)確率,至少保證一周以上的數(shù)據(jù)集大小。

      確定完數(shù)據(jù)集的大小對(duì)模型產(chǎn)生的影響,接著需要進(jìn)行參數(shù)調(diào)優(yōu),保證在準(zhǔn)確率和泛化能力都很好的前提下產(chǎn)生過擬合或者欠擬合。本文中才用了網(wǎng)格搜索算法,雖然耗時(shí)較長(zhǎng),但為了保證模型預(yù)測(cè)的準(zhǔn)確率還是采用網(wǎng)格搜索。

      對(duì)于隨機(jī)森林算法,其分類器主要需要調(diào)整的參數(shù)為以下五個(gè)參數(shù):決策樹個(gè)數(shù)(n_estimators),決策樹的最大深度(max_depth),內(nèi)部劃分節(jié)點(diǎn)需要的最小樣本樹(min_samples_split),葉子節(jié)點(diǎn)最少的樣本數(shù)(min_samples_leaf),以及單棵決策樹使用特征的最大數(shù)量(max_features)。因?yàn)楸疚闹袛?shù)據(jù)特征數(shù)量較少,并且選取的特征數(shù)量都具有較高的關(guān)聯(lián)性和區(qū)分度,所以會(huì)將所有的特征加入訓(xùn)練。即需要調(diào)整的參數(shù)為四個(gè)參數(shù)。

      圖2為調(diào)整參數(shù)后模型準(zhǔn)確率和AUC分?jǐn)?shù)的對(duì)比,這里調(diào)優(yōu)用到的數(shù)據(jù)集為七天數(shù)據(jù)集。從圖2可以很清楚的看到在默認(rèn)參數(shù)下,模型準(zhǔn)確率和泛化程度都比較高。經(jīng)過參數(shù)的調(diào)整,模型預(yù)測(cè)的準(zhǔn)確率由初始的97.35%提高到了99.25%。并且模型的AUC得分也從95.67%提高到了99.57%。在網(wǎng)格搜索算法計(jì)算得到最佳參數(shù),并且四次調(diào)整參數(shù)之后,模型預(yù)測(cè)的準(zhǔn)確率以及泛化能力都到了預(yù)期的程度。

      3.3 模型上線預(yù)測(cè)

      訓(xùn)練好的預(yù)測(cè)模型,在線下經(jīng)過幾天的驗(yàn)證和校準(zhǔn)。能保證良好的準(zhǔn)確率,在確認(rèn)無誤的情況下接入線上進(jìn)行攔截。通過幾天的攔截?cái)?shù)據(jù)觀察和統(tǒng)計(jì),模型有著預(yù)期的表現(xiàn)。具體的上線攔截準(zhǔn)確率如圖3所示。

      從圖3可以看出模型在上線攔擊用戶準(zhǔn)確率達(dá)到了當(dāng)初預(yù)期的效果。基本能保證在準(zhǔn)確率在98%以上。通過模型能過濾掉絕大多數(shù)的黑產(chǎn)用戶,保證正常用戶的使用體驗(yàn)。同時(shí)線上的攔截?cái)?shù)據(jù)(下轉(zhuǎn)第7頁(yè))(上接第3頁(yè))也能非常直觀的表明模型的有效性和實(shí)用性。模型的準(zhǔn)確判斷不僅極大地減少了人工判斷的時(shí)間,同時(shí)也能不斷地根據(jù)黑產(chǎn)用戶的行為來提升模型和完善模型。

      4 結(jié)論

      本文從對(duì)黑色產(chǎn)業(yè)用戶利用作弊手段傳播違法消息,并且惡意刷內(nèi)容的行為入手。通過分析黑產(chǎn)用戶行為特征,針對(duì)特征進(jìn)行收集數(shù)據(jù)。利用python的開源工具完成數(shù)據(jù)清洗。利用機(jī)器學(xué)習(xí)中的隨機(jī)森林算法的分類器構(gòu)建預(yù)測(cè)模型。并且通過網(wǎng)格搜索算法完成對(duì)模型的參數(shù)尋優(yōu)過程。最后通過線下的驗(yàn)證完成對(duì)模型的評(píng)估,通過觀察線上攔截情況對(duì)模型進(jìn)行調(diào)整。從線上數(shù)據(jù)來看模型不僅有著良好的表現(xiàn),同時(shí)也為后續(xù)打擊黑產(chǎn)用戶提供了寶貴經(jīng)驗(yàn)。下一步研究會(huì)基于深度神經(jīng)網(wǎng)絡(luò)來增加模型的學(xué)習(xí)能力,適應(yīng)更多的場(chǎng)景。

      【參考文獻(xiàn)】

      [1]陳標(biāo)金,王鋒.宏觀經(jīng)濟(jì)指標(biāo)、技術(shù)指標(biāo)與國(guó)債期貨價(jià)格預(yù)測(cè)——基于隨機(jī)森林機(jī)器學(xué)習(xí)的實(shí)證檢驗(yàn)[J/OL].統(tǒng)計(jì)與信息論壇:1-7[2019-05-31].

      [2]林栢全,肖菁.基于矩陣分解與隨機(jī)森林的多準(zhǔn)則推薦算法[J/OL].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019(02)[2019-05-31].

      [3]Daokun Chong,Neng Zhu,Wei Luo,Xiaodi Pan. Human thermal risk prediction in indoor hyperthermal environments based on random forest[J].Sustainable Cities and Society,2019,49.

      [4]Sang-Muk Jo,Sung-Bae Cho. A personalized context-aware soft keyboard adapted by random forest trained with additional data of same cluster[J]. Neurocomputing,2019,353.

      [5]蔡天鴻,鄧金,史國(guó)陽(yáng),朱晉,懷麗波.基于TF-IDF方法的文本人物群體人格分析方法[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(05):35-38.

      [6]Kailun Feng,Weizhuo Lu,Yaowu Wang. Assessing environmental performance in early building design stage: an integrated parametric design and machine learning method[J]. Sustainable Cities and Society,2019.

      [7]V Ariharan,Subha P. Eswaran,Srinivasarao Vempati,Naveed Anjum. Machine Learning Quorum Decider (MLQD) for Large Scale IoT Deployments[J]. Procedia Computer Science,2019,151.

      [8]Bartosz Czernecki,Mateusz Taszarek,Micha?覥 Marosz,Marek Pó?覥rolniczak,Leszek Kolendowicz,Andrzej Wyszogrodzki,Jan Szturc. Application of machine learning to large hail prediction - The importance of radar reflectivity, lightning occurrence and convective parameters derived from ERA5[J]. Atmospheric Research,2019,227.

      [9]張文雅,范雨強(qiáng),韓華,張斌,崔曉鈺.基于交叉驗(yàn)證網(wǎng)格尋優(yōu)支持向量機(jī)的產(chǎn)品銷售預(yù)測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(05):1-9.

      [10]Wang Xiashuang,Gong Guanghong,Li Ni. Automated Recognition of Epileptic EEG States Using a Combination of Symlet Wavelet Processing, Gradient Boosting Machine, and Grid Search Optimizer[J]. Sensors (Basel, Switzerland),2019,19(2).

      猜你喜歡
      隨機(jī)森林
      隨機(jī)森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
      基于隨機(jī)森林的登革熱時(shí)空擴(kuò)散影響因子等級(jí)體系挖掘
      基于隨機(jī)森林的HTTP異常檢測(cè)
      個(gè)人信用評(píng)分模型比較數(shù)據(jù)挖掘分析
      隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
      基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
      基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
      基于奇異熵和隨機(jī)森林的人臉識(shí)別
      軟件(2016年2期)2016-04-08 02:06:21
      基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
      北碚区| 林甸县| 达孜县| 安平县| 乾安县| 萨迦县| 印江| 明星| 泉州市| 增城市| 和静县| 昌宁县| 崇左市| 湄潭县| 盘锦市| 平乡县| 山西省| 元江| 衡水市| 忻州市| 景谷| 芮城县| 德昌县| 政和县| 通许县| 安塞县| 大荔县| 元阳县| 城市| 玉门市| 通辽市| 岳阳县| 兴隆县| 茂名市| 邵武市| 台南县| 四会市| 健康| 万安县| 肃宁县| 汝城县|