• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的電信客戶流失預(yù)測(cè)研究

    2022-06-13 16:48:10張三妞
    電視技術(shù) 2022年5期
    關(guān)鍵詞:皮爾遜預(yù)測(cè)值遺傳算法

    張三妞

    (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

    0 引 言

    隨著世界經(jīng)濟(jì)的發(fā)展,客戶流失問題逐漸受到人們的重視[1-3]。電信公司為此提出了3個(gè)主要策略,即獲得新客戶、追加銷售現(xiàn)有客戶以及延長(zhǎng)客戶的保留期??紤]到每種策略的投資回報(bào)率(Return on Investment,RoI)價(jià)值,延長(zhǎng)客戶的保留期是最有利的策略,其成本遠(yuǎn)低于獲得新客戶[4-6]。對(duì)于電信客戶流失預(yù)測(cè),國(guó)內(nèi)外有大量的研究。為了處理電信客戶流失的多維數(shù)據(jù),肖等人提出了一種集成方法,將元代價(jià)敏感學(xué)習(xí)、半監(jiān)督學(xué)習(xí)以及Bagging 集成等技術(shù)相結(jié)合,設(shè)計(jì)了代價(jià)敏感的客戶流失預(yù)測(cè)半監(jiān)督集成模型[7]。張等人將生存分析與深度學(xué)習(xí)理論相結(jié)合,即運(yùn)用深度學(xué)習(xí)模型對(duì)電信客戶流失數(shù)據(jù)進(jìn)行建模,根據(jù)建模中客戶的生存狀態(tài)和時(shí)間對(duì)電信客戶進(jìn)行解析,從而判斷出客戶是否流失[8]。在電信客戶流失預(yù)測(cè)中,客戶信息特征具有多維性和復(fù)雜性,數(shù)據(jù)處理對(duì)客戶流失預(yù)測(cè)的準(zhǔn)確性具有較大影響。基于以上問題,結(jié)合國(guó)內(nèi)外電信客戶流失預(yù)測(cè)算法,提出遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的耦合模型。

    1 相關(guān)技術(shù)原理

    1.1 BP 神經(jīng)網(wǎng)絡(luò)原理

    反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)于1986 年由Rumelhart 和McCelland 領(lǐng)導(dǎo)的科學(xué)家小組提出,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)。BP 神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入與輸出模式映射關(guān)系,無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。其學(xué)習(xí)規(guī)則是使用最速下降法,通過反向傳播不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,從而使網(wǎng)絡(luò)的誤差平方和達(dá)到最小[9]。BP 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可分為3層,分別是輸入層、隱藏層以及輸出層。其中,隱藏層的神經(jīng)元個(gè)數(shù)計(jì)算公式為:

    式中:m為輸入層節(jié)點(diǎn)的個(gè)數(shù),n為輸出層節(jié)點(diǎn)的個(gè)數(shù),a一般取1 ~10 內(nèi)的整數(shù)。隱藏層的個(gè)數(shù)越多,誤差范圍越小。

    1.2 遺傳優(yōu)化算法

    遺傳算法是模擬達(dá)爾文生物進(jìn)化論中自然選擇和遺傳學(xué)機(jī)理等生物進(jìn)化過程的計(jì)算模型,是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法。依據(jù)BP 神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),確定優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)權(quán)值閾值的參數(shù)個(gè)數(shù),從而確定遺傳算法中個(gè)體的編碼長(zhǎng)度,再根據(jù)適應(yīng)度函數(shù)計(jì)算個(gè)體的適應(yīng)值,經(jīng)過選擇、交叉、變異操作得到最優(yōu)的權(quán)值閾值。

    1.2.1 輪盤賭算法

    輪盤賭算法是為了防止適應(yīng)度數(shù)值較小群體中的個(gè)體被直接淘汰而提出的,每一個(gè)個(gè)體被選中的概率與其適應(yīng)度函數(shù)值大小成正比關(guān)系。適應(yīng)度數(shù)值越高,它被選中的概率就越大。設(shè)某一個(gè)體xi的適應(yīng)度值為f(xi),則部分被選中的概率為:

    累計(jì)概率為:

    式中:xi和xj都表示某個(gè)個(gè)體。

    首先,計(jì)算每個(gè)部分的被選中概率p(xi)和累積概率q(xi)。其次,隨機(jī)生成一個(gè)數(shù)組m,數(shù)組m中的元素取值范圍為[0,1]。若累積概率q(xi)大于數(shù)組中的元素m[i],則個(gè)體xi被選中;若小于m[i],則比較下一個(gè)個(gè)體xi+1,直至選出一個(gè)個(gè)體為止。最后,若需要選擇N個(gè)個(gè)體,則將上述步驟重復(fù)N次即可。

    1.2.2 兩點(diǎn)交叉算法

    兩點(diǎn)交叉是指在個(gè)體染色體中隨機(jī)設(shè)置兩個(gè)交叉點(diǎn),然后進(jìn)行部分基因交換。先從編碼串中不定向選出兩個(gè)交叉點(diǎn),再對(duì)兩個(gè)交叉點(diǎn)進(jìn)行部分染色體交叉,交叉后產(chǎn)生新個(gè)體,如圖1 所示。其中,左側(cè)為交叉前的個(gè)體,右側(cè)為兩點(diǎn)交叉后產(chǎn)生的新個(gè)體。

    圖1 兩點(diǎn)交叉示例

    1.2.3 高斯變異

    高斯變異是指進(jìn)行變異操作時(shí),用符合均值為μ、方差為S2的正態(tài)分布的一個(gè)隨機(jī)數(shù)替代原有的基因值。根據(jù)正態(tài)分布的特性,高斯變異重點(diǎn)搜索原個(gè)體附近的某個(gè)局部區(qū)域。高斯概率密度公式為:

    其中,標(biāo)準(zhǔn)高斯概率密度的μ和S分別設(shè)置為0 和1。高斯變異不僅提高了優(yōu)化算法的優(yōu)化精度,而且有利于跳出局部最優(yōu)區(qū)域。

    2 模型與實(shí)驗(yàn)分析

    本文使用的電信流失客戶數(shù)據(jù)集來自Kaggle 平臺(tái),共有7 043條用戶樣本,其中未流失客戶5 174人、流失客戶1 869 人。每條樣本包含21 列電信客戶特征,特征信息可分為客戶基本信息、開通業(yè)務(wù)信息、簽署的合約信息以及目標(biāo)變量。遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的電信客戶流失模型如圖2 所示。

    圖2 遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的電信客戶流失模型

    讀取電信客戶流失數(shù)據(jù)并進(jìn)行特征提取,特征提取過程包括可視化分析、皮爾遜相關(guān)系數(shù)判斷、獨(dú)熱編碼處理以及歸一化處理。電信客戶流失數(shù)據(jù)信息特征如表1 所示。

    表1 電信客戶流失數(shù)據(jù)信息特征

    皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,PCCs)又稱皮爾遜積矩相關(guān)系數(shù),兩個(gè)變量之間的皮爾遜相關(guān)系數(shù)定義為兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商,取值范圍為[-1,1][10]。根據(jù)電信客戶流失數(shù)據(jù)信息,TotalCharges、Tenure 以及MonthlyCharges特征為數(shù)值特征,對(duì)這3 列特征建立皮爾遜相關(guān)系數(shù)矩陣,如圖3 所示。

    圖3 皮爾遜相關(guān)系數(shù)矩陣

    由圖3 可知,TotalCharges 與Tenure、Monthly Charges 相關(guān)性較大,相關(guān)系數(shù)超過0.6,容易引起預(yù)測(cè)結(jié)果降低,故刪除TotalCharges 冗余特征?;谶z傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的電信客戶流失預(yù)測(cè)中,將電信客戶流失真實(shí)值分別與BP 模型預(yù)測(cè)值、遺傳算法優(yōu)化BP 模型(GABP)的預(yù)測(cè)值進(jìn)行對(duì)比,結(jié)果如圖4 所示。

    圖4 BP 模型與遺傳算法優(yōu)化BP 模型的預(yù)測(cè)值和真實(shí)值對(duì)比

    電信客戶流失數(shù)據(jù)經(jīng)歸一化處理后的目標(biāo)變量存在兩個(gè)數(shù)值1 和0,其中1 表示流失的客戶,0 表示未流失的客戶。根據(jù)圖4,基于遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的電信客戶流失預(yù)測(cè)值比基于BP神經(jīng)網(wǎng)絡(luò)的電信客戶流失模型的預(yù)測(cè)值更接近于真實(shí)值。BP 模型與遺傳算法優(yōu)化BP 模型的預(yù)測(cè)值和真實(shí)值誤差對(duì)比如圖4 所示。

    模型預(yù)測(cè)值與真實(shí)值的誤差越接近0,模型效果越好。當(dāng)誤差為0,表示預(yù)測(cè)值等于真實(shí)值。由圖5 可知,基于遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的電信客戶流失預(yù)測(cè)誤差比基于BP 神經(jīng)網(wǎng)絡(luò)的電信客戶流失預(yù)測(cè)誤差更接近于0,表示遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的模型效果好于單獨(dú)的BP 神經(jīng)網(wǎng)絡(luò)模型。將兩種模型的平均絕對(duì)誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Square Error,RMSE)進(jìn)行對(duì)比,MAE 和RMAE 的值越小越好,具體結(jié)果如表2 所示。

    圖5 BP 模型與遺傳算法優(yōu)化BP 模型的預(yù)測(cè)值和真實(shí)值誤差對(duì)比

    表2 模型對(duì)比分析

    根據(jù)表2,GABP 模型的準(zhǔn)確率高于BP 模型的準(zhǔn)確率,在電信客戶流失預(yù)測(cè)中具有更優(yōu)的效果。

    3 結(jié) 語

    通過遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)來構(gòu)建電信客戶流失模型,采用數(shù)據(jù)可視化分析法去除冗余特征,同時(shí)運(yùn)用皮爾遜相關(guān)系數(shù)去除相關(guān)系數(shù)較大的特征,提高了數(shù)據(jù)預(yù)測(cè)的精準(zhǔn)性。運(yùn)用遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)的權(quán)值閾值,其結(jié)果優(yōu)于傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò),提高了電信客戶流失的分類準(zhǔn)確率和預(yù)測(cè)精準(zhǔn)性,具有一定的使用價(jià)值。

    猜你喜歡
    皮爾遜預(yù)測(cè)值遺傳算法
    IMF上調(diào)今年全球經(jīng)濟(jì)增長(zhǎng)預(yù)期
    企業(yè)界(2024年8期)2024-07-05 10:59:04
    加拿大農(nóng)業(yè)部下調(diào)2021/22年度油菜籽和小麥產(chǎn)量預(yù)測(cè)值
    ±800kV直流輸電工程合成電場(chǎng)夏季實(shí)測(cè)值與預(yù)測(cè)值比對(duì)分析
    現(xiàn)代統(tǒng)計(jì)學(xué)之父:卡爾·皮爾遜
    現(xiàn)代統(tǒng)計(jì)學(xué)之父:卡爾·皮爾遜
    法電再次修訂2020年核發(fā)電量預(yù)測(cè)值
    Excel在水文學(xué)教學(xué)中的應(yīng)用
    卡方分布的探源
    基于自適應(yīng)遺傳算法的CSAMT一維反演
    一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
    洛南县| 北海市| 武邑县| 视频| 湘西| 盱眙县| 淅川县| 平昌县| 会泽县| 西平县| 遵化市| 鸡东县| 东丽区| 浮山县| 枣强县| 肥乡县| 三亚市| 闵行区| 绩溪县| 台安县| 突泉县| 华坪县| 广州市| 旬阳县| 肃南| 璧山县| 康平县| 阿拉尔市| 武冈市| 庆云县| 驻马店市| 西城区| 梁山县| 屏东县| 阿克苏市| 临澧县| 德化县| 环江| 班戈县| 织金县| 黔西县|