黃霜聆,謝 健,李 榮,康湖濱
(廣東東軟學(xué)院信息管理與工程學(xué)院,廣東佛山)
由于移動通信技術(shù)的飛速發(fā)展,人們越來越離不開移動通信技術(shù)帶來的便捷。這導(dǎo)致各個移動運營商越來越重視客戶的網(wǎng)絡(luò)使用體驗。據(jù)統(tǒng)計,北京移動用戶體驗影響因素主要有語音業(yè)務(wù)和上網(wǎng)業(yè)務(wù),影響語音業(yè)務(wù)和上網(wǎng)的業(yè)務(wù)還有其他因素。因此客戶滿意度成為了體現(xiàn)各大運營商市場運營狀況的重要體現(xiàn)。根據(jù)客戶投訴,對影響用戶體驗的問題進行解決,是提升客戶滿意度的方法。本次研究需要擬通過分析影響用戶滿意度的各種因素,為決策提供依據(jù),從而實現(xiàn)更早、更全面提升用戶滿意度,中國移動通信集團北京公司采用不同辦法對用戶的體驗影響因素進行研究。
本文的數(shù)據(jù)來源主要是MathorCup 高校數(shù)學(xué)建模比賽中北京移動用戶體驗影響因素研究問題的數(shù)據(jù)。樣本包含了4 個附件,對于語音業(yè)務(wù)用戶滿意度而言有54 個,對于上網(wǎng)業(yè)務(wù)滿意度有124 個;對于語音業(yè)務(wù)用戶滿意度預(yù)測值有43 個,對于上網(wǎng)業(yè)務(wù)用戶滿意度預(yù)測值有86 個。根據(jù)數(shù)據(jù)整理出相關(guān)特征數(shù)據(jù)如表1 所示。
表1 移動用戶體驗影響因素相關(guān)特征數(shù)據(jù)
為了使模型有較高的精確度并且確保結(jié)果的準(zhǔn)確率高,對數(shù)據(jù)進行預(yù)處理:對數(shù)據(jù)進行探索進行缺失值和異常值的查看;進行特征編碼、標(biāo)簽編碼、獨熱編碼、特征的刪除、異常值處理、缺失值處理;利用Python 內(nèi)置函數(shù)查看缺失值。對于語音業(yè)務(wù)用戶滿意度有脫網(wǎng)次數(shù)、當(dāng)月MOU 等。對于上網(wǎng)業(yè)務(wù)用戶滿意度有愛奇藝、夢幻西游等;利用最值歸一化和均值方差歸一化對數(shù)據(jù)進行異常值處理;利用零值填充和KNN 模型對數(shù)據(jù)進行缺失值處理。
隨機森林[1]具有很高的預(yù)測準(zhǔn)確率,對異常值和噪聲有很強的容忍度,能夠處理高維數(shù)據(jù),有效地分析非線性、具有共線性和交互作用的數(shù)據(jù),能夠在分析數(shù)據(jù)的同時給出變量重要性評分。使用斯皮爾曼相關(guān)性分析影響語音業(yè)務(wù)和上網(wǎng)業(yè)務(wù)的主要因素,建立隨機森林模型求解出最終結(jié)果。
3.1.1 斯皮爾曼相關(guān)性分析
斯皮爾曼是衡量兩個變量的依賴性的無母數(shù)指標(biāo)。利用單調(diào)方程評價兩個統(tǒng)計變量的相關(guān)性。若數(shù)據(jù)中沒有重復(fù)值,且當(dāng)兩變量完全單調(diào)相關(guān)時,斯皮爾曼相關(guān)系數(shù)為+1 或-1。因此,設(shè)n 為樣本數(shù)量,f 為數(shù)據(jù)x和y之間的等級差。fi為第i個數(shù)據(jù)對的位次值之差,ρ為相關(guān)系數(shù)。因此可以建立如下模型:
3.1.2 基于隨機森林對重要因素打分
設(shè)VIM 為變量重要性評分,Gini 指數(shù)用GI 來表示,假設(shè)有m 個特征a1,a2,a3,……,ac,現(xiàn)在要計算出每個特征aj的指數(shù)評分V,即第j 個特征在RF 所有決策樹中節(jié)點分裂不純度的平均改變量[2]。隨機森林分類器原理示意圖如圖1 所示。
圖1 隨機森林分類器原理示意圖
首先需要對Gini 指數(shù)進行計算,就是從節(jié)點m 中隨機抽取兩個樣本,其類別標(biāo)記不一致的概率,設(shè)k為有k 個類別,pmk表示節(jié)點m 中類別k 所占的比例。因此可以建立如下模型:
如果,特征aj在決策樹中出現(xiàn)的節(jié)點在集合M中,那么可以計算aj在第i 棵樹的重要性。設(shè)特征為aj,具體模型如下:
如果,在RF 中有n 棵樹,那么模型會變?yōu)椋?/p>
最后,把所求的的重要性評分做一個歸一化處理,具體模型如下:
3.1.3 因變量與自變量
根據(jù)對以上模型建立與求解,得到語音業(yè)務(wù)和上網(wǎng)業(yè)務(wù)的對應(yīng)因變量影響排序。對于語音業(yè)務(wù)而言,可以將語音通話整體滿意度、網(wǎng)絡(luò)覆蓋與信號強度、語音通話穩(wěn)定性和語音話清晰度看做因變量,其余看做自變。對于上網(wǎng)業(yè)務(wù)而言,將上網(wǎng)整體滿意度、網(wǎng)絡(luò)覆蓋與信號強度、手機上網(wǎng)速度和手機上網(wǎng)穩(wěn)定性看做因變量,其余看做自變量。使用隨機森林模型[4]對其進行重要性特征排序,得到結(jié)果語音業(yè)務(wù)中通話中有雜音、聽不清、斷斷續(xù)續(xù),等影響因素重要性較高。上網(wǎng)業(yè)務(wù)中網(wǎng)絡(luò)信號差/沒有信號,重定向次數(shù)等影響因素重要性較高。
利用隨機森林進行結(jié)果預(yù)測,是通過投票得出最終結(jié)果。在此過程中會對數(shù)據(jù)集進行隨機抽樣,因此進行平衡數(shù)據(jù)集。針對于平衡數(shù)據(jù)集而言,采用的方法有上采樣、下采樣和混合采樣。為了提高模型和最終結(jié)果的精確度,對參數(shù)進行調(diào)參,提高精確度。得到最終結(jié)果。
3.2.1 利用隨機森林進行結(jié)果預(yù)測
通過對模型進行比較,選擇隨機森林模型對結(jié)果進行預(yù)測[3],隨機森林算法采用Boot-strap 重抽樣技術(shù)從原始數(shù)據(jù)集隨機抽樣,構(gòu)成n 個不同的樣本數(shù)據(jù)集,根據(jù)這些數(shù)據(jù)集搭建n 個不同決策樹模型,根據(jù)這些決策樹模型的平均值(針對回歸模型)或者投票情況(針對分類模型)獲取最終結(jié)果。
3.2.2 平衡數(shù)據(jù)集
通過對語音業(yè)務(wù)中的語音通話整體滿意度,網(wǎng)絡(luò)覆蓋與信號強度,語音通話穩(wěn)定性,語音通話清晰度;上網(wǎng)業(yè)務(wù)中的上網(wǎng)整體滿意度,網(wǎng)絡(luò)覆蓋與信號強度,手機上網(wǎng)速度和手機上網(wǎng)穩(wěn)定性的數(shù)據(jù)集進行觀察,發(fā)現(xiàn)數(shù)據(jù)不平衡。針對于語音通話整體滿意度而言,觀察到有1~10 的評分,對其進行分類處理,并且統(tǒng)計出各評分的占比,具體如圖2 所示。
圖2 語音通話整體滿意度評分占比
對圖進行觀察,發(fā)現(xiàn)評分為10 的占比為58.11%超過了50%,最小的為評分2,只有0.77%,得到評分不平衡的結(jié)論,進行平衡數(shù)據(jù)集。采用基于上采樣、下采樣和混合采樣的方法比較出最優(yōu)平衡數(shù)據(jù)集的方法。通過以上方法的采用,導(dǎo)入平衡數(shù)據(jù)集的模型,得到了八個因變量對應(yīng)的最好平衡數(shù)據(jù)集的方法,得到每個因變量使用的方法以及方法精度。
一共使用三種平衡數(shù)據(jù)集的方法,分別為Neighbourhood Cleaning Rule,Edited Nearest Neighbours和Repeated Edited Nearest Neighbours。第一種方法使用3 個最近鄰刪除不符合此規(guī)則的樣本。第二種方法應(yīng)用最近鄰算法,通過刪除與鄰域“不夠一致”的樣本來“編輯”數(shù)據(jù)集。第三種方法是Edited Nearest Neighbours 的擴展,通過多次重復(fù)該算法形成Edited Nearest Neighbours。
這里選取了語音通話整體滿意度為例。通過三個平衡數(shù)據(jù)集的方法進行比較后,選擇了精度較高的Neighbourhood Cleaning Rule 方法。得到平衡數(shù)據(jù)集過后的1~10 的評分占比都變成10%。
3.2.3 模型調(diào)參
為了提高模型的精度以及預(yù)測結(jié)果的精度,對八個因變量使用的模型利用網(wǎng)格搜索法進行模型調(diào)參。網(wǎng)絡(luò)搜索方法主要用于模型調(diào)參,幫助找到一組最合適的模型設(shè)置參數(shù),使得模型的預(yù)測值達(dá)到更好的效果,通過交叉驗證的方法去尋找最優(yōu)的模型參數(shù)。
對于語音通話整體滿意度而言,首先制定一個參數(shù)。隨后對其進行訓(xùn)練,得到了第二個參數(shù)max_depth為10。再對其進行訓(xùn)練,得到第三個參數(shù)min_samples_split 為2。最后對第三個參數(shù)進行訓(xùn)練,得到第四個參數(shù)max_features 為0.2。表明一共有四個參數(shù)。得到模型交叉驗證過后精度。
3.2.4 結(jié)果
通過平衡數(shù)據(jù)集,模型調(diào)參提高精度模型精確度為89%,得到最終預(yù)測結(jié)果,結(jié)果如表2 所示。
表2 語音業(yè)務(wù)預(yù)測評分和上網(wǎng)業(yè)務(wù)預(yù)測評分
基于隨機森林模型對影響因素進行打分和結(jié)果預(yù)測,幫助北京移動公司更好分析出影響用戶語音通話滿意度和上網(wǎng)業(yè)務(wù)滿意度的主要影響因素,可以讓北京移動公司以后更加著重于這方面從而提高用戶的體驗度。此方法同時對當(dāng)代社會手機的發(fā)展有比較大的影響作用。手機公司可以通過此模型進行語音和上網(wǎng)業(yè)務(wù)的改進,提高用戶滿意度和提升自己的業(yè)績。