• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Spark 集群中還貸問題的邏輯回歸模型研究

    2020-04-28 06:06:26劉黎志
    關(guān)鍵詞:集群邏輯貸款

    劉黎志,彭 貝

    1.智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室(武漢工程大學(xué)),湖北 武漢 430205;2.武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205

    近幾年,隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展及互聯(lián)網(wǎng)+向服務(wù)、金融、通訊、娛樂、物流、共享經(jīng)濟(jì)等各個(gè)行業(yè)的滲透,數(shù)據(jù)已經(jīng)由被動(dòng)產(chǎn)生過渡到了主動(dòng)產(chǎn)生及自動(dòng)產(chǎn)生階段,大數(shù)據(jù)的概念已經(jīng)是無所不在[1-2]。行業(yè)數(shù)據(jù)量越大,其蘊(yùn)含的信息也就越多,通過有效的數(shù)據(jù)挖掘手段,從大數(shù)據(jù)中獲得知識(shí)的可能性也就越大。傳統(tǒng)的數(shù)據(jù)挖掘及分析技術(shù),一般需要將挖掘的數(shù)據(jù)全部載入計(jì)算機(jī)內(nèi)存,由單個(gè)或多個(gè)CPU 進(jìn)行計(jì)算,其所能處理的數(shù)據(jù)規(guī)模及構(gòu)建挖掘模型的速度已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足大數(shù)據(jù)時(shí)代的需要。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘需要解決3 個(gè)核心問題:1)構(gòu)建有效的大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。2)在存儲(chǔ)結(jié)構(gòu)的基礎(chǔ)上,進(jìn)行大規(guī)模數(shù)據(jù)的并行或分布式計(jì)算,提高構(gòu)建挖掘模型的速度。3)適合于大數(shù)據(jù)挖掘的語言、挖掘算法模型庫及可視化結(jié)果展示[3-5]。大數(shù)據(jù)的分析及挖掘技術(shù),目前也是業(yè)界研究的熱點(diǎn),大規(guī)模數(shù)據(jù)的分類模型[6-8]及邏輯回歸分類問題[9-11]已經(jīng)得到了廣泛的研究。構(gòu)建在Spark 分布式計(jì)算平臺(tái)上的MLib 等大數(shù)據(jù)挖掘模型庫已經(jīng)得到一定程度的應(yīng)用[12-14],本文就如何在Spark 集群環(huán)境下,使用R 語言對(duì)大規(guī)模銀行貸款數(shù)據(jù)進(jìn)行邏輯回歸分類建模進(jìn)行了深入的研究,數(shù)據(jù)來自https://packages.revolutionanalytics.com/datasets/中 的mortDefault.zip 文 件,文件解壓后按貸款人申請(qǐng)貸款年份共10 個(gè)文件,每個(gè)文件有1×106個(gè)記錄。

    1 Spark 集群環(huán)境

    Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的分布式計(jì)算引擎,經(jīng)過優(yōu)化的DAG執(zhí)行引擎使得在同等數(shù)據(jù)規(guī)模下,Spark 的處理速度要比Hadoop MapReduce 至少快10 倍以上。Spark 包含數(shù)據(jù)查詢分析庫,機(jī)器學(xué)習(xí)庫(machine learning library,Mlib),并行圖形計(jì)算庫及大規(guī)模實(shí)時(shí)流數(shù)據(jù)處理庫等,開發(fā)人員可以使用R、Pathon、Java、Scala 等語言在這些通用庫的支持下進(jìn)行并行應(yīng)用程序的開發(fā)。目前Spark 可以以獨(dú)立集群方式運(yùn)行,也可以運(yùn)行在Hadoop Yarn 或Apache Mesos 上,且能訪問HDFS、HBase、Hive 等多種數(shù)據(jù)源。由于Spark 分布式計(jì)算引擎具有快速的數(shù)據(jù)處理能力、多語言支持、豐富的通用庫及可跨平臺(tái)等特點(diǎn),使得其得到快速的應(yīng)用,正在形成一個(gè)高速發(fā)展應(yīng)用廣泛的生態(tài)系統(tǒng)。

    R 語言是能夠進(jìn)行數(shù)據(jù)處理、計(jì)算、統(tǒng)計(jì)分析和繪圖[15-16],在目前大數(shù)據(jù)環(huán)境下得到廣泛應(yīng)用的一種語言,RStudio Server 對(duì)R 語言進(jìn)行了擴(kuò)展,使其可以運(yùn)行在Spark 集群環(huán)境下。Sparklyr 是一個(gè)基于R 語言,面向大規(guī)模數(shù)據(jù)分析及挖掘的工具包,通過該工具包,用戶可利用RStudio Web 客戶端:1)進(jìn)行Spark 集群遠(yuǎn)程連接管理。2)使用dplyr包對(duì)來源于HDFS、HBase、Hive 的數(shù)據(jù)進(jìn)行查詢、篩選、排序、分組、聚集、連接等操作。3)調(diào)用MLib庫中的算法進(jìn)行大規(guī)模數(shù)據(jù)挖掘,建立模型。4)對(duì)模型進(jìn)行評(píng)價(jià)及預(yù)測(cè)結(jié)果的可視化展示。

    2 Spark集群環(huán)境下的邏輯回歸分類

    邏輯回歸是一種分類方法,主要用于二分類問題(即輸出只有兩種1 或者0,分別代表兩個(gè)類別),邏輯回歸使用非線性的Sigmoid 函數(shù)進(jìn)行分類預(yù)測(cè),函數(shù)形式為:

    構(gòu)造預(yù)測(cè)函數(shù)為:

    若θ 已知,使用hθ(x )計(jì)算某個(gè)輸入特征變量X,一般認(rèn)為若結(jié)果大于0.5,則預(yù)測(cè)其屬于分類1,否則為分類0。

    需要在Spark 集群環(huán)境下進(jìn)行邏輯回歸分類的銀行貸款數(shù)據(jù)存儲(chǔ)在HDFS 文件系統(tǒng)中。Sparklyr 首先通過RStudio 客戶端遠(yuǎn)程連接到Spark 集群,讀取銀行貸款數(shù)據(jù)文件;然后使用dplyr對(duì)數(shù)據(jù)進(jìn)行處理,劃分訓(xùn)練集及測(cè)試集,最后調(diào)用MLib庫中的邏輯回歸算法對(duì)訓(xùn)練集進(jìn)行監(jiān)督學(xué)習(xí),得到能判斷客戶是否能按期歸還貸款的邏輯回歸模型。在集群環(huán)境下得到的模型僅包含回歸系數(shù),而缺少對(duì)模型評(píng)估的參數(shù),對(duì)此本文補(bǔ)充了幾個(gè)重要的性能指標(biāo)來對(duì)模型進(jìn)行評(píng)估,從而深入研究模型的可信性。

    2.1 邏輯回歸模型的獲取

    2.1.1 數(shù)據(jù)的讀取 以csv 格式存儲(chǔ)抵押貸款數(shù)據(jù)文件按申請(qǐng)年份共10 個(gè),每個(gè)文件含106條記錄,將文件存儲(chǔ)在Hadoop 集群的HDFS 文件系統(tǒng)后,可使用spark_read_csv 函數(shù)讀取文件到Spark集群,格式為:

    spark_read_csv(sc,name,path,memory =TRUE/FALSE...)

    其中sc 為Spark 集群的連接對(duì)象,name 為讀入到Spark 集群中的表對(duì)象名,path 為數(shù)據(jù)文件在HDFS 文件系統(tǒng)中的路徑,memory 選項(xiàng)表示讀入到Spark 集群中的表對(duì)象是否緩存到集群節(jié)點(diǎn)的內(nèi)存中。例如讀入2000 年抵押貸款的數(shù)據(jù)文件的語句為:

    spark_read_csv(sc,"mortYear0”,"hdfs://datanode:9000/mortDefault/mortYear0.csv")

    按上述語句格式,依次讀入其它年份的數(shù)據(jù)后,使用dplyr 的union 操作,將所有數(shù)據(jù)組合成為一個(gè)表對(duì)象all-Mort,組合2000 年至2004 年這5 個(gè)年份的語句描述如下:

    allMort <-tbl(sc,“mortYear0)%>%union(tbl(sc,”mortYear2“))%>%…%>%union(tbl(sc,”mortYear4))

    用戶在將大規(guī)模的數(shù)據(jù)讀入到Spark 集群時(shí),可以根據(jù)數(shù)據(jù)的規(guī)模使用memory 選項(xiàng)控制數(shù)據(jù)是否在Spark 集群節(jié)點(diǎn)的內(nèi)存中緩存,若整個(gè)Spark 集群中的工作節(jié)點(diǎn)內(nèi)存可以容納所有數(shù)據(jù),則選擇memory 為TRUE(默認(rèn)),將數(shù)據(jù)放入節(jié)點(diǎn)內(nèi)存,從而加快數(shù)據(jù)挖掘分析的速度。若大規(guī)模數(shù)據(jù)超過了所有節(jié)點(diǎn)的內(nèi)存容量,則選擇memory為FALSE,將數(shù)據(jù)存放在HDFS 文件系統(tǒng)中,Sparklyr 僅僅讀入數(shù)據(jù)的定義進(jìn)入節(jié)點(diǎn)內(nèi)存,在使用MLib 模型庫對(duì)數(shù)據(jù)進(jìn)行挖掘和分析時(shí),根據(jù)節(jié)點(diǎn)內(nèi)存的大小,從HDFS 文件系統(tǒng)中讀入需要的數(shù)據(jù),從而實(shí)現(xiàn)大規(guī)模數(shù)據(jù)挖掘及分析的可擴(kuò)展化。

    2.1.2 類別特征的處理 需要進(jìn)行邏輯回歸分類的原始抵押貸款數(shù)據(jù)格式如表1 所示。

    表1 抵押貸款數(shù)據(jù)格式Tab.1 Format of mortgage data

    default 為邏輯回歸模型需要預(yù)測(cè)的輸出變量,其它為輸入特征變量,建立邏輯回歸模型需要輸入特征變量均為數(shù)值型,如果輸入特征變量表現(xiàn)為類別特征如顏色、性別、年份,則需要對(duì)類別特征進(jìn)行編碼,規(guī)則如下:

    通過上述的編碼方式,抵押貸款數(shù)據(jù)中的year輸入特征會(huì)被映射為N 個(gè)二進(jìn)制量,對(duì)于每條記錄,只有一個(gè)指示特征的值為1,其余為0。在實(shí)際應(yīng)用中,通過選擇一個(gè)類別為參考類別,可用N-1個(gè)二進(jìn)制量對(duì)有N 個(gè)類別的輸入變量進(jìn)行編碼,當(dāng)觀測(cè)數(shù)據(jù)的值與參考類別值相等時(shí),對(duì)應(yīng)的其它類別的N-1 個(gè)二進(jìn)制量全部取值為0。對(duì)于抵押貸款數(shù)據(jù),其year 輸入變量從2000 至2004 共5個(gè)特征,邏輯回歸模型系數(shù)僅包含c(year2001:year2004)這4 個(gè)年份系數(shù),若某條記錄的year 值為2000,則c(year2001:year2004)對(duì)應(yīng)的二進(jìn)制量取值為c(0,0,0,0),若year 為2003,則對(duì)應(yīng)的二進(jìn)制量取值為c(0,0,1,0)。

    2.1.3 邏輯回歸分類模型的獲取 邏輯回歸分類的任務(wù)就是以credit、house、Employ、Debt、year 為輸入特征變量,根據(jù)訓(xùn)練集得到回歸模型來預(yù)測(cè)輸出變量default,從而回答抵押貸款人是否會(huì)拖欠貸款。在Spark 集群環(huán)境下的邏輯回歸分類模型的算法描述如下:

    算法1:GetMortModel

    輸入:抵押貸款文件集合mortFilePathlist

    輸出:邏輯回歸模型mortModel

    sc ←spark_connect(master='spark 集群Master節(jié)點(diǎn)',

    spark_home='集群中spark 的安裝目錄',config='集群環(huán)境配置對(duì)象');//連接spark 集群環(huán)境

    for(i=0;mortFile inmortFilePathLst;i++)//讀取每個(gè)年份的抵押貸款文件

    mortYeari← spark_read_csv(sc,'mortYeari',hdfs://datanode:9000/'+mortFile');

    allMort←union(tbl(sc,mortYeari));//組合文件

    end for

    allMort$year ←sdf_mutate(year=ftbucketizer(year,c(start-Year:endYear+1)))%>%

    mutate(year=as.character(as.integer(year)));//設(shè)置輸入變量year 為類別變量

    mlformula←formula(default~credit+house+Employ+Debt+year);//劃分訓(xùn)練集及測(cè)試集,

    調(diào)用MLib 中的邏輯回歸算法得到回歸模型

    mortPartition←sdf_partition(allMort,training = 0.9,test=0.1,seed=1788);

    dfMortTrain ←mortPartition$training;dfMortTest ←mortPartition$test;

    mortModel←ml_logistic_regression(dfMortTrain,

    ml_formula)//得到回歸模型

    return mortModel

    根據(jù)算法1,取2000 年至2004 年這5 個(gè)年份的抵押貸款文件,得到的邏輯回歸模型的系數(shù)如表2 所示。

    表2 邏輯回歸模型系數(shù)Tab.2 Coefficients of logistic regression model

    2.2 邏輯回歸模型的評(píng)估

    得到的邏輯回歸模型是否可信任,分類效果如何,分類閾值如何確定,是否能滿足實(shí)際應(yīng)用,需要進(jìn)行評(píng)估,而在集群環(huán)境下得到的模型僅包含回歸系數(shù),缺少對(duì)模型評(píng)估的參數(shù)。因此為了驗(yàn)證獲得的模型的可信性,從以下幾個(gè)方面對(duì)模型進(jìn)行評(píng)估。

    2.2.1 偽判定系數(shù)R2設(shè)抵押貸款訓(xùn)練集中的記錄數(shù)量為m,記錄i,i ∈{1 ,m} 的似然函數(shù)Li定義為:

    則記錄i 的對(duì)數(shù)似然函數(shù)為:

    其中yi為該記錄的是否按期歸還貸款的輸出值,hθ( )

    xi為根據(jù)回歸模型mortModel 計(jì)算得到的預(yù)測(cè)值。回歸模型的偏差定義為Dm:

    由于邏輯回歸模型是基于極大似然估計(jì)得到的,因此將訓(xùn)練集的對(duì)數(shù)似然最大化也就等同于將模型偏差最小化。根據(jù)回歸模型mortModel 得到訓(xùn)練集預(yù)測(cè)值如算法2 所示。

    算法2:Predict

    輸入:回歸模型mortModel,訓(xùn)練集dfMortTrain

    輸出:回歸模型預(yù)測(cè)值向量yPreds

    1.θ ←mortModel$coefficients;//取模型系數(shù)向量

    2.for(i=0;i ≤nrow(dfMortTrain);i++)

    4.year←根據(jù)類別特征取值規(guī)則,生成輸入變量year的二進(jìn)制向量;

    6.yPreds[i]←hθ( xi);//根據(jù)預(yù)測(cè)函數(shù)計(jì)算預(yù)測(cè)值

    7.end for

    8.return y Pr eds;

    得到回歸模型mortModel 的偏差Dm的過程如算法3所示。

    算法3:GetModelDeviance

    輸入:回歸模型mortModel,訓(xùn)練集dfMortTrain

    輸出:回歸模型偏差Dm

    1.yLabels ←dfMortTrain[[ ]'default'];//得到訓(xùn)練集中是實(shí)際輸出值

    2.yPreds←Predictmort(Model,dfMortTrain);//調(diào)用算法2 得到預(yù)測(cè)值

    3.Dm←0;i ←1;

    4.for(i=0;i ≤nrow(dfMortTrain;i++)//計(jì)算模型偏差

    5.Dm+=-2*(yLabels[i]*log( yP reds[i] )+

    (1 - yLabels[i] )*log(1 - yPreds[i] ));

    6.end for

    7.return Dm;//返回模型偏差

    空模型是不使用任何輸入特征變量訓(xùn)練出來的模型,空偏差Dn表示空模型的預(yù)測(cè)值與實(shí)際輸出值之間的模型偏差,空模型的預(yù)測(cè)值為一個(gè)常數(shù)概率,一般取訓(xùn)練集中所有輸出值為1 的記錄所占的百分比。根據(jù)算法3 計(jì)算Dn,只需要將yPreds 的 計(jì) 算 更 改 為yPreds←mean(dfMortTain[['default'])。

    偽判定系數(shù)R2定義為:

    偽判定系數(shù)R2用于衡量回歸模型相比于默認(rèn)模型在解釋數(shù)據(jù)時(shí)的效果,其值應(yīng)該小于1,若值大于1,則得到的回歸模型就不能被信任,數(shù)據(jù)集就不適合采用邏輯回歸算法進(jìn)行分類預(yù)測(cè)。根據(jù)算法3 得到的Dm為48 153,Dn為92 750,R2為0.481,說明回歸模型mortModel是可信任的。

    從統(tǒng)計(jì)學(xué)的角度來檢查模型偏差和空偏差之間的差值是否顯著,可以認(rèn)為差值近似服從卡方分布,即:

    其中p 為模型中參數(shù)的個(gè)數(shù),對(duì)于mortModel模型,X 值為44 597,自由度p-1 為8,使用R 語言計(jì)算pchisq(X,p-1,lower.tail=F)得到的p 值為0,說明mortModel的預(yù)測(cè)效果明顯優(yōu)于空模型。

    2.2.2 分類評(píng)價(jià)指標(biāo) 確定用戶是否能按期歸還貸款屬于二元分類問題,因此可以以混淆矩陣為基礎(chǔ)來評(píng)價(jià)分類評(píng)價(jià)指標(biāo)。將得到的邏輯回歸模型用于預(yù)測(cè)銀行抵押貸款的訓(xùn)練集,以0.5 為分類閾值(預(yù)測(cè)結(jié)果小于0.5,則default 為0,否則default 為1),將預(yù)測(cè)值與訓(xùn)練集中的實(shí)際default 進(jìn)行比較,得到的混淆矩陣為:

    c[1,1]表示正確預(yù)測(cè)default 為0 的記錄個(gè)數(shù);c[2,2]表示正確預(yù)測(cè)default 為1 的記錄個(gè)數(shù);c[1,2]表示將值為0 的default 錯(cuò)誤地預(yù)測(cè)為1 的記錄個(gè)數(shù);c[2,1]表示將值為1 的default 錯(cuò)誤 地 預(yù)測(cè)為0 的記錄個(gè)數(shù)。根據(jù)混淆矩陣可以得到準(zhǔn)確率(accuracy,A),其值用A 表示;真陽性率(true positive rate,TPR)即正確預(yù)測(cè)default 為1 的比例,值用T 表示;假陽性率(false positive rate,F(xiàn)PR)即將default 錯(cuò)誤預(yù)測(cè)為1 的比例,值用F 表示;3 個(gè)分類評(píng)價(jià)指標(biāo),其計(jì)算過程及值如下:

    將ROCR 包加載到運(yùn)行在集群環(huán)境中的RStudio Server 中后,使用包中的prediction 及performance 函數(shù)可以得到F 與T 的不同取值的變化曲線,如圖1(a)所示,該曲線稱為接受者操作特征曲線(receiver operating characteristic,ROC),根據(jù)銀行抵押貸款訓(xùn)練集得到的邏輯回歸模型曲線下的區(qū)域面積(area under the curve,AUC)值為0.987 9。

    通過上述評(píng)價(jià)指標(biāo),可以知道模型有高的準(zhǔn)確率,低的假陽性率及幾乎接近于1 的AUC值,說明使用模型能準(zhǔn)確的對(duì)用戶是否能按時(shí)歸還貸款進(jìn)行分類。與結(jié)論相矛盾的問題是,以閾值H 等于0.5 進(jìn)行預(yù)測(cè)分類判斷,真陽性率只有不到9%,說明模型不能對(duì)用戶未按時(shí)歸還貸款(default 值為1)進(jìn)行判斷,產(chǎn)生矛盾的原因在于訓(xùn)練集中的大多數(shù)記錄的default 的值為0,從而使得在進(jìn)行模型訓(xùn)練中,產(chǎn)生了傾向性。模型在不同閾值H 下的FPR 與TPR 的對(duì)應(yīng)關(guān)系如圖1(b)所示,從圖中可以發(fā)現(xiàn)當(dāng)H 取0 時(shí),T 與F 均為1,表示所有記錄都被預(yù)測(cè)為default 等于1;隨著H 的增加,F(xiàn) 迅速降低到幾乎接近0,T 則緩慢降低;當(dāng)H 取1 時(shí),T與F 都為0,表示所有記錄都被預(yù)測(cè)default 為0。因此,若在實(shí)際應(yīng)用中要求模型能較準(zhǔn)確的預(yù)測(cè)用戶能否按時(shí)歸還貸款,則可將H 從0.5 的位置向左移取較小值,在提高T 的同時(shí),保持較低的F。

    2.2.3 測(cè)試集性能 將通過訓(xùn)練集得到邏輯回歸分類模型對(duì)測(cè)試集中的記錄進(jìn)行預(yù)測(cè),可以模擬檢驗(yàn)?zāi)P驮趯?shí)際應(yīng)用中的表現(xiàn),對(duì)測(cè)試集進(jìn)行預(yù)測(cè)并計(jì)算評(píng)價(jià)指標(biāo)如算法4 所示。

    算法4:PrdictMortTest

    輸入:回歸模型mortModel,測(cè)試集dfMortTest

    輸出:測(cè)試集評(píng)價(jià)指標(biāo)A,T,F 和模型曲線下區(qū)域面積S

    1.yPredsTest←Predictmort(Model,dfMortTest);//調(diào) 用算法2 得到測(cè)試集預(yù)測(cè)值

    2.yPredsTest←as.numeric(yPredsTest>0.05)//取 分 類閾值為0.05

    3.cTest←table(dfMortTest$default,yPredsTest);//得 到測(cè)試集混淆矩陣

    4.Get(A,T,F);//根據(jù)式(10)~(12)計(jì)算A,T,F;

    5.predObjTest ← prediction(yPredsTest, dfMortTest$default);

    6.S←performance(predObjTest,measure='auc')

    7.@y.values[[ 1]]; //計(jì)算測(cè)試集里的S

    8.return A,T,F,S;

    圖1 分類評(píng)價(jià)指標(biāo)圖:(a)F 與T 的不同取值的變化曲線,(b)不同閾值H 下的F 與T 的取值對(duì)應(yīng)關(guān)系Fig.1 Curves of classification evaluation index:(a)change curve of different values of FPR and TPR,(b)corresponding relationship between FPR and TPR under different thresholds

    根據(jù)算法4 返回的測(cè)試集評(píng)價(jià)指標(biāo)如下:A 值為0.995,TPR 值為0.504,F(xiàn)PR 值 為0.004,S 值 為0.987。當(dāng)將分類閾值設(shè)置為0.05 用于與測(cè)試集時(shí),TRP 得到顯著的提高,而其它分類指標(biāo)卻沒有降低太多,所以認(rèn)為0.05 為該模型合適的分類閾值。各項(xiàng)評(píng)價(jià)指標(biāo)與回歸模型基本吻合,因此說明可以將該模型進(jìn)行實(shí)際應(yīng)用。

    3 實(shí) 驗(yàn)

    實(shí)驗(yàn)用服務(wù)器為DELL PowerEdge R720,其配置為兩個(gè)物理CPU(Intel Xeon E5-2620 V2 2.10 GHz,每個(gè)CPU 含6 個(gè)內(nèi)核,共12 個(gè)內(nèi)核),32 GB 內(nèi)存,8 TB 硬盤,4 個(gè)物理網(wǎng)卡。服務(wù)器安裝VMWare esxi6.0.0 操作系統(tǒng),虛擬化整個(gè)服務(wù)器環(huán)境。客戶端使用VMWare VSphere client 6.0.0 將服務(wù)器劃分為4 個(gè)虛擬機(jī),每個(gè)虛擬機(jī)的配置為3內(nèi)核CPU,8 GB 內(nèi)存,2 TB 硬盤,1 個(gè)物理網(wǎng)卡。每個(gè)虛擬機(jī)安裝ubuntu-16.04.1-server-amd64 操作系統(tǒng),Hadoop 2.7.3 分布式計(jì)算平臺(tái),組成含1 個(gè)主節(jié)點(diǎn),4 個(gè)數(shù)據(jù)節(jié)點(diǎn)(主節(jié)點(diǎn)也是數(shù)據(jù)節(jié)點(diǎn))的集群,集群中安裝的Spark 版本為2.1.1,同樣配置為4 個(gè)工作節(jié)點(diǎn)。

    實(shí)驗(yàn)將R 中串行的glm 算法與MLib 中并行的ml_logistic_regression 算法在邏輯回歸模型的獲取時(shí)間上進(jìn)行比較,具體過程為首先將抵押貸款的10 個(gè)文件合并為allMort 數(shù)據(jù)集,依次劃分訓(xùn)練集為allMort 的10%至90%;然后對(duì)每一個(gè)劃分的訓(xùn)練集分別使用glm 算法及ml_logistic_regression 算法進(jìn)行模型的獲取,每個(gè)算法運(yùn)行3 次,取平均時(shí)間為算法獲取模型的時(shí)間。兩種算法獲取模型時(shí)間t與訓(xùn)練數(shù)據(jù)量d 的關(guān)系比較如圖2 所示。

    圖2 獲取模型時(shí)間比較圖Fig.2 Comparison diagram of time for obtaining model

    由實(shí)驗(yàn)結(jié)果分析:當(dāng)數(shù)據(jù)量在6×106條以下時(shí),串行算法glm 獲取模型的速度比并行算法ml_logistic_regression 快,但當(dāng)數(shù)據(jù)量超過6×106條時(shí),并行算法獲取模型的速度就優(yōu)于串行算法。除此以外,這一實(shí)驗(yàn)結(jié)果也說明了集群環(huán)境適合在大規(guī)模數(shù)據(jù)下進(jìn)行機(jī)器學(xué)習(xí),構(gòu)建模型,這也是符合了在大數(shù)據(jù)時(shí)代的實(shí)際應(yīng)用特征。

    4 結(jié) 論

    在增加了幾個(gè)模型評(píng)估系數(shù)從而驗(yàn)證了模型可信性的基礎(chǔ)上,通過實(shí)驗(yàn)證明了當(dāng)數(shù)據(jù)量大到一定閾值后,在集群環(huán)境下并行的算法獲得邏輯回歸分類模型的速度要快于對(duì)應(yīng)的串行算法。但在構(gòu)建邏輯回歸模型前,需要對(duì)各個(gè)輸入特征變量進(jìn)行相關(guān)性分析,規(guī)避變量間的多重線性,對(duì)輸入特征進(jìn)行正則化分析,去掉對(duì)預(yù)測(cè)結(jié)果影響不顯著的特征。獲取邏輯回歸模型后,還需要對(duì)獲得的每個(gè)回歸系數(shù)計(jì)算其標(biāo)準(zhǔn)誤差,求出Z 統(tǒng)計(jì)量,對(duì)系數(shù)與預(yù)測(cè)結(jié)果的顯著性水平進(jìn)行評(píng)價(jià),以確定是否在回歸模型中使用該系數(shù)。以上幾點(diǎn),都是在Spark 集群環(huán)境下對(duì)大規(guī)模數(shù)據(jù)進(jìn)行邏輯回歸模型構(gòu)建的后續(xù)研究中需要完善的地方。

    猜你喜歡
    集群邏輯貸款
    刑事印證證明準(zhǔn)確達(dá)成的邏輯反思
    法律方法(2022年2期)2022-10-20 06:44:24
    邏輯
    創(chuàng)新的邏輯
    海上小型無人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
    Wang Yuan: the Brilliant Boy
    My Huckleberry Friends:Even if the Whole World Stand against me,I Will always Stand by You
    一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
    電子制作(2018年11期)2018-08-04 03:25:40
    女人買買買的神邏輯
    37°女人(2017年11期)2017-11-14 20:27:40
    Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
    勤快又呆萌的集群機(jī)器人
    亚洲欧美精品自产自拍| 国产精品野战在线观看| 99视频精品全部免费 在线| 国产精品美女特级片免费视频播放器| 九九久久精品国产亚洲av麻豆| 日韩一区二区视频免费看| 一级av片app| 日本欧美国产在线视频| 日韩av在线大香蕉| 少妇高潮的动态图| 禁无遮挡网站| 岛国在线免费视频观看| 丰满乱子伦码专区| 黑人高潮一二区| 精品国产三级普通话版| 一级黄色大片毛片| 伊人久久精品亚洲午夜| 国产精品野战在线观看| 观看免费一级毛片| 久久久国产成人精品二区| 性色avwww在线观看| 91在线精品国自产拍蜜月| 99在线人妻在线中文字幕| 99久久中文字幕三级久久日本| 日韩制服骚丝袜av| 99热网站在线观看| 看免费成人av毛片| 男女那种视频在线观看| 亚洲图色成人| 亚洲国产精品成人综合色| 搡老妇女老女人老熟妇| 国产黄片视频在线免费观看| 国产精品女同一区二区软件| 国产成人精品婷婷| 久久久久久久久大av| 热99在线观看视频| 日本与韩国留学比较| 国产高潮美女av| 寂寞人妻少妇视频99o| 国产精品.久久久| 国产成人freesex在线| 亚洲精华国产精华液的使用体验 | 一本久久中文字幕| av卡一久久| 嫩草影院精品99| 亚洲自偷自拍三级| 草草在线视频免费看| 色综合亚洲欧美另类图片| 亚洲成人中文字幕在线播放| 自拍偷自拍亚洲精品老妇| 99久久久亚洲精品蜜臀av| 欧美区成人在线视频| 天天一区二区日本电影三级| 免费人成在线观看视频色| 亚洲人成网站高清观看| 久久久久久久亚洲中文字幕| 亚洲人成网站在线播| 国产一级毛片在线| 非洲黑人性xxxx精品又粗又长| 日本欧美国产在线视频| 人妻少妇偷人精品九色| 成人鲁丝片一二三区免费| 男女啪啪激烈高潮av片| 九草在线视频观看| 在线a可以看的网站| 午夜久久久久精精品| 99热这里只有精品一区| 人妻久久中文字幕网| 久久草成人影院| 99热6这里只有精品| 日韩一区二区三区影片| 男人的好看免费观看在线视频| 亚洲av第一区精品v没综合| 偷拍熟女少妇极品色| 国产精品日韩av在线免费观看| 久久韩国三级中文字幕| 国产精品女同一区二区软件| 国产私拍福利视频在线观看| 日本五十路高清| 亚洲乱码一区二区免费版| 精品一区二区三区人妻视频| 在线天堂最新版资源| 精品熟女少妇av免费看| 亚洲电影在线观看av| 人妻夜夜爽99麻豆av| 日本成人三级电影网站| 国产成人一区二区在线| 国产成人午夜福利电影在线观看| 成人午夜精彩视频在线观看| 亚洲成av人片在线播放无| 看十八女毛片水多多多| h日本视频在线播放| 国产亚洲精品久久久久久毛片| 人妻制服诱惑在线中文字幕| 少妇熟女aⅴ在线视频| 色5月婷婷丁香| 中国美白少妇内射xxxbb| 国产伦在线观看视频一区| 日韩国内少妇激情av| 伦理电影大哥的女人| 欧美+日韩+精品| 麻豆成人av视频| 久久久久久久久久成人| 岛国毛片在线播放| 国产成人精品一,二区 | 国产精品一区二区三区四区免费观看| 国产午夜精品论理片| 久久久久久久久中文| av专区在线播放| 亚洲在线观看片| 亚洲欧美日韩高清在线视频| 亚洲在线自拍视频| 老女人水多毛片| 国内久久婷婷六月综合欲色啪| 免费看日本二区| 国产单亲对白刺激| 亚洲成a人片在线一区二区| 亚洲欧美中文字幕日韩二区| 禁无遮挡网站| 性色avwww在线观看| 亚洲婷婷狠狠爱综合网| 欧美zozozo另类| 69av精品久久久久久| 午夜亚洲福利在线播放| 美女xxoo啪啪120秒动态图| 搡老妇女老女人老熟妇| 欧美zozozo另类| 日日摸夜夜添夜夜爱| 亚洲七黄色美女视频| 亚洲欧美日韩卡通动漫| 亚洲精品影视一区二区三区av| 91久久精品国产一区二区成人| 欧美成人a在线观看| 成人无遮挡网站| 中国美女看黄片| 禁无遮挡网站| 国产精品美女特级片免费视频播放器| 成人鲁丝片一二三区免费| 日本在线视频免费播放| 午夜精品一区二区三区免费看| 日韩欧美在线乱码| 亚洲欧美日韩东京热| 夫妻性生交免费视频一级片| 熟女电影av网| 又粗又爽又猛毛片免费看| 婷婷色综合大香蕉| 国产高清视频在线观看网站| 九九热线精品视视频播放| 最近视频中文字幕2019在线8| 亚洲av一区综合| 日本爱情动作片www.在线观看| 一区二区三区免费毛片| 欧美色视频一区免费| 日本撒尿小便嘘嘘汇集6| 免费黄网站久久成人精品| 午夜久久久久精精品| 免费观看精品视频网站| 亚洲成av人片在线播放无| 欧美激情久久久久久爽电影| 国产精品久久久久久久电影| 国产亚洲5aaaaa淫片| 国产精华一区二区三区| 一级毛片久久久久久久久女| 美女内射精品一级片tv| 给我免费播放毛片高清在线观看| 成人性生交大片免费视频hd| 人妻少妇偷人精品九色| 国产v大片淫在线免费观看| 国产综合懂色| 看黄色毛片网站| 黄色配什么色好看| 午夜福利在线观看免费完整高清在 | 国产美女午夜福利| 美女 人体艺术 gogo| 成年av动漫网址| 日韩在线高清观看一区二区三区| av.在线天堂| 国产精品久久久久久久电影| 日日啪夜夜撸| 最新中文字幕久久久久| 久久久久久大精品| 久久久色成人| 韩国av在线不卡| 欧美另类亚洲清纯唯美| 啦啦啦观看免费观看视频高清| 久久久欧美国产精品| 欧美区成人在线视频| 国产精品无大码| 日本色播在线视频| 久久精品国产清高在天天线| 国产黄片视频在线免费观看| 国产中年淑女户外野战色| 午夜精品国产一区二区电影 | 国产精品嫩草影院av在线观看| 国产亚洲欧美98| 国产成人精品一,二区 | 精品免费久久久久久久清纯| 亚洲人与动物交配视频| 中文字幕免费在线视频6| 国产伦精品一区二区三区四那| 国产一级毛片七仙女欲春2| 亚洲国产欧美在线一区| 国内精品宾馆在线| 成年av动漫网址| 亚洲色图av天堂| 只有这里有精品99| 看非洲黑人一级黄片| 一进一出抽搐gif免费好疼| 不卡视频在线观看欧美| 国产伦理片在线播放av一区 | 日本黄大片高清| 日本黄大片高清| 在线观看免费视频日本深夜| 久久久久国产网址| 天天一区二区日本电影三级| 欧美日韩综合久久久久久| 亚洲一区二区三区色噜噜| 日韩中字成人| 亚洲内射少妇av| 亚洲精品国产成人久久av| 搡老妇女老女人老熟妇| 在线观看美女被高潮喷水网站| 欧美性感艳星| 校园人妻丝袜中文字幕| 男人和女人高潮做爰伦理| 亚洲欧美日韩高清在线视频| 91久久精品电影网| 国产高清激情床上av| 久久99热这里只有精品18| 精品一区二区免费观看| 中文精品一卡2卡3卡4更新| 一本久久精品| 亚洲欧美日韩高清在线视频| 91精品一卡2卡3卡4卡| 尾随美女入室| 尾随美女入室| 免费无遮挡裸体视频| 国产精品一区二区在线观看99 | 高清午夜精品一区二区三区 | 国产单亲对白刺激| 色尼玛亚洲综合影院| 日本三级黄在线观看| 18+在线观看网站| ponron亚洲| 亚洲欧美成人综合另类久久久 | 舔av片在线| 在线免费观看不下载黄p国产| 一级毛片aaaaaa免费看小| 熟女电影av网| eeuss影院久久| 激情 狠狠 欧美| 国产人妻一区二区三区在| 人人妻人人看人人澡| 国内少妇人妻偷人精品xxx网站| 精品久久久久久久久亚洲| 最近中文字幕高清免费大全6| 亚洲欧美精品综合久久99| 国产亚洲精品av在线| 寂寞人妻少妇视频99o| 亚洲av.av天堂| 女人十人毛片免费观看3o分钟| 午夜激情欧美在线| 亚洲人成网站高清观看| 欧美三级亚洲精品| 18禁黄网站禁片免费观看直播| 久久婷婷人人爽人人干人人爱| 97超视频在线观看视频| 99国产精品一区二区蜜桃av| 亚洲va在线va天堂va国产| 久久久国产成人免费| 人妻少妇偷人精品九色| 极品教师在线视频| 亚洲性久久影院| 91午夜精品亚洲一区二区三区| 亚洲av男天堂| 狂野欧美激情性xxxx在线观看| 能在线免费观看的黄片| 久久人妻av系列| 女同久久另类99精品国产91| 18禁黄网站禁片免费观看直播| 久久久久久大精品| 美女 人体艺术 gogo| 国产精品野战在线观看| 国产熟女欧美一区二区| 少妇丰满av| 免费搜索国产男女视频| 一本精品99久久精品77| 国内少妇人妻偷人精品xxx网站| 99九九线精品视频在线观看视频| 亚洲久久久久久中文字幕| 亚洲国产高清在线一区二区三| 色综合站精品国产| 成人无遮挡网站| 国产精品久久久久久久久免| 天天一区二区日本电影三级| 中文字幕av成人在线电影| 深夜精品福利| 中国美女看黄片| 欧洲精品卡2卡3卡4卡5卡区| 亚洲性久久影院| 99国产极品粉嫩在线观看| 亚洲欧洲日产国产| 在线免费十八禁| 丝袜喷水一区| 波野结衣二区三区在线| 日韩中字成人| 18禁在线播放成人免费| 最近2019中文字幕mv第一页| av在线老鸭窝| 三级经典国产精品| 亚洲欧美日韩无卡精品| 久久综合国产亚洲精品| 人妻系列 视频| 久久久久久久久中文| 欧美+亚洲+日韩+国产| 九九热线精品视视频播放| 国产黄色视频一区二区在线观看 | 麻豆乱淫一区二区| 亚洲av中文字字幕乱码综合| 天天躁夜夜躁狠狠久久av| 国产一区二区在线av高清观看| 老司机影院成人| 国产在线精品亚洲第一网站| 人体艺术视频欧美日本| 国产蜜桃级精品一区二区三区| 丝袜美腿在线中文| 老司机福利观看| 黄色一级大片看看| 精品久久久久久久久亚洲| 综合色丁香网| 免费看日本二区| 内射极品少妇av片p| 久久人人精品亚洲av| 91在线精品国自产拍蜜月| 国产v大片淫在线免费观看| 精品少妇黑人巨大在线播放 | 最好的美女福利视频网| 成人漫画全彩无遮挡| 人妻系列 视频| 亚洲,欧美,日韩| 中文欧美无线码| 日本爱情动作片www.在线观看| 欧美丝袜亚洲另类| 看黄色毛片网站| 只有这里有精品99| 亚洲av一区综合| 嘟嘟电影网在线观看| 亚洲最大成人中文| 五月伊人婷婷丁香| 亚洲av熟女| 精品久久久久久成人av| 欧美激情久久久久久爽电影| 男女下面进入的视频免费午夜| 亚洲五月天丁香| 别揉我奶头 嗯啊视频| 女同久久另类99精品国产91| 精品午夜福利在线看| 午夜爱爱视频在线播放| 日韩一区二区视频免费看| 中文字幕av成人在线电影| 一级二级三级毛片免费看| 免费看av在线观看网站| 伊人久久精品亚洲午夜| www日本黄色视频网| 亚洲欧美日韩卡通动漫| 亚洲国产精品久久男人天堂| 亚洲人成网站在线播放欧美日韩| 97超视频在线观看视频| 99在线视频只有这里精品首页| 一级毛片aaaaaa免费看小| 欧美精品一区二区大全| 国国产精品蜜臀av免费| 午夜激情福利司机影院| 免费看光身美女| 午夜a级毛片| 最后的刺客免费高清国语| 男女那种视频在线观看| 国内精品美女久久久久久| 一边亲一边摸免费视频| 乱系列少妇在线播放| 亚洲精华国产精华液的使用体验 | 成人av在线播放网站| 亚洲丝袜综合中文字幕| av在线观看视频网站免费| 99国产精品一区二区蜜桃av| 天堂影院成人在线观看| 91久久精品电影网| 18禁在线播放成人免费| 亚洲久久久久久中文字幕| 插逼视频在线观看| 九色成人免费人妻av| 国产中年淑女户外野战色| 免费av毛片视频| 成人无遮挡网站| 国产精品麻豆人妻色哟哟久久 | 亚洲国产精品成人综合色| 国内久久婷婷六月综合欲色啪| 全区人妻精品视频| 丰满人妻一区二区三区视频av| 好男人在线观看高清免费视频| 精品久久久久久久人妻蜜臀av| 国产午夜精品久久久久久一区二区三区| 少妇裸体淫交视频免费看高清| 国产一级毛片在线| 在线a可以看的网站| 波多野结衣高清作品| 日韩 亚洲 欧美在线| 日韩成人伦理影院| 少妇丰满av| 国产精品嫩草影院av在线观看| 内射极品少妇av片p| 久久久久久伊人网av| 精品欧美国产一区二区三| 成人午夜精彩视频在线观看| 亚洲乱码一区二区免费版| 日本免费a在线| 老司机福利观看| 中文亚洲av片在线观看爽| 国产精品三级大全| 色视频www国产| 黄色日韩在线| АⅤ资源中文在线天堂| 国产视频内射| 国产精品1区2区在线观看.| 国产男人的电影天堂91| 99热全是精品| 免费无遮挡裸体视频| 99久久中文字幕三级久久日本| 久久久色成人| 尾随美女入室| 久久99热这里只有精品18| 国产淫片久久久久久久久| 中文资源天堂在线| 久久99热这里只有精品18| 亚洲国产色片| 伦精品一区二区三区| 久久亚洲精品不卡| 国产老妇伦熟女老妇高清| 久久久久久久久久成人| 美女国产视频在线观看| 三级毛片av免费| 老熟妇乱子伦视频在线观看| АⅤ资源中文在线天堂| 国产一级毛片在线| 中文亚洲av片在线观看爽| 噜噜噜噜噜久久久久久91| 内地一区二区视频在线| 日韩欧美 国产精品| 成人午夜高清在线视频| 男女那种视频在线观看| 国产av在哪里看| 欧美成人一区二区免费高清观看| 国产精品野战在线观看| 亚洲美女视频黄频| 国产片特级美女逼逼视频| 亚洲欧美日韩东京热| 中文精品一卡2卡3卡4更新| 久久精品国产99精品国产亚洲性色| 国产老妇女一区| 乱人视频在线观看| 99久久成人亚洲精品观看| 日韩一本色道免费dvd| 欧美在线一区亚洲| 欧美潮喷喷水| 一区福利在线观看| 日韩 亚洲 欧美在线| 三级经典国产精品| 欧美一区二区国产精品久久精品| 亚洲人成网站在线播| 男的添女的下面高潮视频| 少妇猛男粗大的猛烈进出视频 | 亚洲欧美日韩高清在线视频| 美女大奶头视频| 国产片特级美女逼逼视频| 婷婷亚洲欧美| 国产一区二区三区在线臀色熟女| 国内久久婷婷六月综合欲色啪| 欧美+亚洲+日韩+国产| 亚洲精品久久国产高清桃花| 国内少妇人妻偷人精品xxx网站| 九草在线视频观看| 乱人视频在线观看| 啦啦啦韩国在线观看视频| 亚洲成人中文字幕在线播放| 精品欧美国产一区二区三| 国产黄片美女视频| 日韩成人av中文字幕在线观看| 成人午夜精彩视频在线观看| 国产男人的电影天堂91| 国产精品永久免费网站| 亚洲国产精品sss在线观看| 午夜激情欧美在线| 精品熟女少妇av免费看| 亚洲av熟女| 小蜜桃在线观看免费完整版高清| 久久精品国产亚洲av香蕉五月| 久久精品久久久久久久性| 我的老师免费观看完整版| 免费人成视频x8x8入口观看| kizo精华| 精品久久久久久久久av| 精品人妻一区二区三区麻豆| 日韩中字成人| 久久99热6这里只有精品| 日本黄大片高清| 18禁裸乳无遮挡免费网站照片| 老熟妇乱子伦视频在线观看| 欧美日韩乱码在线| 午夜视频国产福利| av免费在线看不卡| 一级av片app| av在线观看视频网站免费| 少妇人妻精品综合一区二区 | 日本与韩国留学比较| 在线观看美女被高潮喷水网站| 国产欧美日韩精品一区二区| 婷婷六月久久综合丁香| 久久草成人影院| av在线观看视频网站免费| 好男人在线观看高清免费视频| 黄色日韩在线| 99在线人妻在线中文字幕| 午夜激情欧美在线| 一区二区三区高清视频在线| 欧美日韩乱码在线| 又爽又黄a免费视频| 午夜a级毛片| 性欧美人与动物交配| 久久久午夜欧美精品| 久久久国产成人免费| 在线a可以看的网站| 91久久精品国产一区二区成人| 国产午夜精品论理片| 嫩草影院精品99| 赤兔流量卡办理| 久久精品综合一区二区三区| 真实男女啪啪啪动态图| 午夜a级毛片| 国产一级毛片在线| 美女大奶头视频| 老司机福利观看| 亚洲成人中文字幕在线播放| 亚洲精品456在线播放app| 亚洲精品久久久久久婷婷小说 | 久久亚洲精品不卡| 欧美另类亚洲清纯唯美| 国产精品无大码| 美女高潮的动态| 在线观看av片永久免费下载| 99久久精品国产国产毛片| 在线天堂最新版资源| 亚洲婷婷狠狠爱综合网| 人人妻人人澡人人爽人人夜夜 | 亚洲第一电影网av| 国产精品av视频在线免费观看| 别揉我奶头 嗯啊视频| 亚洲欧洲国产日韩| 如何舔出高潮| 看非洲黑人一级黄片| 成熟少妇高潮喷水视频| www日本黄色视频网| 午夜福利成人在线免费观看| 97人妻精品一区二区三区麻豆| 久久99热6这里只有精品| 久久99蜜桃精品久久| 免费看日本二区| 亚洲精品成人久久久久久| 国产精品蜜桃在线观看 | 我要看日韩黄色一级片| 中文字幕av在线有码专区| 亚洲无线在线观看| 中文资源天堂在线| 免费大片18禁| 看免费成人av毛片| 少妇猛男粗大的猛烈进出视频 | 日本成人三级电影网站| 一边摸一边抽搐一进一小说| 插逼视频在线观看| 男人的好看免费观看在线视频| 熟女电影av网| 亚洲va在线va天堂va国产| 熟女电影av网| 麻豆国产av国片精品| 一进一出抽搐gif免费好疼| 99热6这里只有精品| 欧美日韩在线观看h| 人妻久久中文字幕网| 久久99热这里只有精品18| 观看免费一级毛片| АⅤ资源中文在线天堂| 国产在线男女| 久久综合国产亚洲精品| 黄色配什么色好看| av卡一久久| 美女脱内裤让男人舔精品视频 | 国产乱人偷精品视频| 色综合亚洲欧美另类图片| 午夜久久久久精精品| 深夜精品福利| 亚洲三级黄色毛片| 亚洲国产欧美人成| 91精品一卡2卡3卡4卡| 在线观看美女被高潮喷水网站| 国产成人freesex在线| 夜夜爽天天搞| 99精品在免费线老司机午夜| eeuss影院久久| 久久草成人影院| 久久这里只有精品中国| 精品久久久久久久久久久久久| 免费电影在线观看免费观看| 久久精品国产鲁丝片午夜精品| 国产精品一及| 午夜精品一区二区三区免费看| 久久精品影院6|