李海昕 張嬌嬌 王 雨 王 一
中國聯(lián)通研究院 北京 100176
運(yùn)營商在進(jìn)行網(wǎng)絡(luò)規(guī)劃及部署方面,終端分布是一個(gè)不可或缺的重要因素。隨著5G的正式商用,5G終端的相關(guān)數(shù)據(jù)也得到一定的積累。深入挖掘終端數(shù)據(jù)背后的信息,利用大數(shù)據(jù)技術(shù)和手段指導(dǎo)規(guī)劃工作是大勢(shì)所趨,也是數(shù)字化轉(zhuǎn)型時(shí)代的要求。大數(shù)據(jù)處理和分析為網(wǎng)絡(luò)規(guī)劃提供了新的維度,也為精準(zhǔn)網(wǎng)絡(luò)規(guī)劃提供了新的可能。通過對(duì)終端相關(guān)的業(yè)務(wù)數(shù)據(jù)進(jìn)行地理化分析,合理評(píng)估站點(diǎn)規(guī)劃的優(yōu)先級(jí),對(duì)于有效觸達(dá)亟待5G網(wǎng)絡(luò)部署的區(qū)域,引導(dǎo)資源的準(zhǔn)確投放有一定的指導(dǎo)意義。因此,在5G網(wǎng)絡(luò)規(guī)劃部署中,如何精準(zhǔn)預(yù)測(cè)潛在5G終端用戶、準(zhǔn)確聚焦其分布的高流量、高語音區(qū)域具有重要意義。在此背景下,潛在5G終端用戶的預(yù)測(cè)對(duì)存量用戶經(jīng)營以及端、網(wǎng)、業(yè)協(xié)同規(guī)劃發(fā)展具有重要的作用。
本文使用用戶側(cè)B域、O域、終端更換以及用戶行為等數(shù)據(jù),篩選對(duì)5G終端遷轉(zhuǎn)影響較大的特征,進(jìn)行二分類建模,確定最優(yōu)模型。將現(xiàn)網(wǎng)待預(yù)測(cè)用戶輸入至最優(yōu)模型中,獲取潛在5G終端用戶列表,作為目標(biāo)5G終端用戶,根據(jù)潛在5G用戶的詳單數(shù)據(jù)統(tǒng)計(jì)在不同微網(wǎng)格、基站等地理維度的業(yè)務(wù)分布以及人口密度情況,為5G網(wǎng)絡(luò)的規(guī)劃建設(shè)提供數(shù)據(jù)支撐。
5G商用初期,5G終端用戶樣本較少,不足以支撐模型構(gòu)建,文獻(xiàn)[1]利用趨勢(shì)外推的方法對(duì)5G用戶及業(yè)務(wù)量進(jìn)行預(yù)測(cè)。文獻(xiàn)[2]開始考慮5G用戶特征,但只能基于專家經(jīng)驗(yàn)下的數(shù)據(jù)分析得到。隨著用戶滲透率的增加,5G終端用戶的業(yè)務(wù)特征有所變化,同時(shí)考慮到千元機(jī)上市等因素,在文獻(xiàn)[2]的基礎(chǔ)上,將潛在5G用戶的判定門限進(jìn)行如下調(diào)整:1)用戶ARPU≥70元;2)用戶終端價(jià)格≥2 000元;3)用戶到達(dá)換機(jī)周期。
本文采用中國聯(lián)通某地市2019年12月的部分4G、5G終端用戶數(shù)據(jù),對(duì)半年后即2020年6月5G終端用戶進(jìn)行預(yù)測(cè),在此期間共新增15.2萬5G終端用戶。為了便于與后文中模型法相比較,本文采用二分類模型評(píng)價(jià)指標(biāo)Recall(預(yù)測(cè)效果)和Precision(預(yù)測(cè)效率)。在表1中,Recall代表真實(shí)正例樣本中,預(yù)測(cè)為真的樣本比例,即1.9/15.2=12.5%;Precision為精確率,指的是從預(yù)測(cè)的角度看有多少樣本是預(yù)測(cè)準(zhǔn)確的,即為1.9/24.8=7.6%。
表1 專家經(jīng)驗(yàn)預(yù)測(cè)混淆矩陣結(jié)果
若采用當(dāng)前結(jié)果做網(wǎng)絡(luò)規(guī)劃,12.5%的準(zhǔn)確率偏低,地理分布的偏差較大,無法精準(zhǔn)地引導(dǎo)投資。隨著后期樣本量的增加,5G終端的數(shù)據(jù)可以支撐LightGBM算法建模的方法,本文提出基于LightGBM算法的模型搭建,對(duì)潛在5G終端用戶預(yù)測(cè)進(jìn)行研究。
本文對(duì)用戶是否遷轉(zhuǎn)5G終端進(jìn)行研究,屬于監(jiān)督學(xué)習(xí)中典型的二分類問題。本章節(jié)就分類算法、建模過程以及建模結(jié)果進(jìn)行介紹。
在當(dāng)前流行的分類算法中,LightGBM算法是預(yù)測(cè)準(zhǔn)確率較高且訓(xùn)練速度較快的算法。其他分類算法有Bagging算法中的隨機(jī)森林(Random Forest)、Boosting算法中的梯度提升樹(Gradient Boosting Decision Tree,GBDT)、XGBoost算法等。這些算法都是以決策樹模型為基礎(chǔ)。GBDT算法是被公認(rèn)的泛化能力較強(qiáng)的算法,核心就在于每一輪的迭代都是在上一輪迭代產(chǎn)生的殘差基礎(chǔ)上進(jìn)行。在GBDT算法的基礎(chǔ)上,對(duì)損失函數(shù)進(jìn)行改進(jìn)就有了XGBoost算法,它可以支持并行運(yùn)算,用于加速和減小內(nèi)存消耗。在XGBoost之后,微軟公司又提出了LightGBM算法。它使用了帶有深度限制的按葉子生長(zhǎng)算法,可以加速訓(xùn)練過程,減少計(jì)算量。此外,LightGBM算法支持高效率的并行運(yùn)算,支持分布式海量數(shù)據(jù)處理,能夠降低內(nèi)存消耗,擁有更高的準(zhǔn)確率。因此,這里選擇基于LightGBM的機(jī)器學(xué)習(xí)算法預(yù)測(cè)用戶半年后是否遷轉(zhuǎn)5G終端,圖1是LightGBM部分算法過程示意。關(guān)于分類算法更為詳細(xì)的介紹可見文獻(xiàn)[3-6]。
圖1 LightGBM部分算法過程示意
本文整個(gè)建模的流程框架如圖2所示,整個(gè)算法主要分為三個(gè)模塊:數(shù)據(jù)處理模塊、模型構(gòu)建模塊以及預(yù)測(cè)應(yīng)用模塊。
圖2 潛在5G用戶預(yù)測(cè)建模流程
數(shù)據(jù)處理模塊主要分為基本數(shù)據(jù)源、對(duì)基本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和特征工程兩個(gè)內(nèi)容。基于專家經(jīng)驗(yàn)法同樣的數(shù)據(jù),篩選2019年12月存量4G、5G終端用戶作為模型的Y結(jié)果,選定這些用戶在2019年4月、5月、6月的數(shù)據(jù),作為模型的因變量X,預(yù)測(cè)用戶在半年之后是否會(huì)遷轉(zhuǎn)5G終端。自變量的數(shù)據(jù)主要包括:1)賬單數(shù)據(jù),含有用戶流量、語音、消費(fèi)等業(yè)務(wù)使用數(shù)據(jù);2)地理數(shù)據(jù),含有用戶常住地等地理分布相關(guān)數(shù)據(jù);3)終端數(shù)據(jù),含用戶使用終端及更換情況的數(shù)據(jù);4)OTT數(shù)據(jù),指用戶使用各類APP業(yè)務(wù)情況數(shù)據(jù),這些數(shù)據(jù)是建模的基本數(shù)據(jù)。
在基本數(shù)據(jù)的基礎(chǔ)上,進(jìn)行數(shù)據(jù)預(yù)處理。對(duì)單一值數(shù)據(jù)的特征剔除,刪除缺失值超過70%的特征,針對(duì)缺失值較少的數(shù)據(jù)用常數(shù)或者聚合值進(jìn)行填充等。為了充分挖掘數(shù)據(jù)的信息,使用特征工程將原始數(shù)據(jù)轉(zhuǎn)化為能更好地表達(dá)問題本質(zhì)的特征。針對(duì)數(shù)值型特征進(jìn)行統(tǒng)計(jì)計(jì)算。對(duì)分類特征進(jìn)行獨(dú)熱編碼轉(zhuǎn)換,最后對(duì)數(shù)據(jù)進(jìn)行特征篩選等處理。
數(shù)據(jù)處理完成之后,為了進(jìn)行模型訓(xùn)練以及模型泛化能力的評(píng)估,需要對(duì)數(shù)據(jù)進(jìn)行拆分。隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集,用于模型訓(xùn)練,10%數(shù)據(jù)作為驗(yàn)證集,用于模型的超參調(diào)優(yōu)和迭代,剩下10%的數(shù)據(jù)作為測(cè)試集,用于驗(yàn)證模型的泛化能力。
模型構(gòu)建模塊其實(shí)是一個(gè)根據(jù)訓(xùn)練集和驗(yàn)證集反復(fù)進(jìn)行超參調(diào)優(yōu)、不斷迭代構(gòu)建最優(yōu)模型的過程。選擇訓(xùn)練集數(shù)據(jù),設(shè)置初始參數(shù),模型根據(jù)自變量X和因變量Y學(xué)習(xí),得到訓(xùn)練模型,剔除低貢獻(xiàn)度變量,再次訓(xùn)練,得到訓(xùn)練后的模型。利用驗(yàn)證集數(shù)據(jù)和網(wǎng)格搜索的方法反復(fù)修正參數(shù),不斷迭代,找到一套對(duì)輸入數(shù)據(jù)高度識(shí)別的最優(yōu)配置參數(shù)和具有一定泛化能力的最優(yōu)模型。
在模型預(yù)測(cè)中,會(huì)輸出這個(gè)樣本成為正例即成為潛在5G終端用戶的可能性。在實(shí)際操作中大多為不平衡的樣本,需要設(shè)定一個(gè)確定的閾值,來判斷用戶是否會(huì)遷轉(zhuǎn)5G終端。在模型評(píng)價(jià)指標(biāo)中,Recall表征真實(shí)5G用戶中被正確找到的比例,值越大說明預(yù)測(cè)效果越好。Precision值可以表征所有區(qū)域或者站點(diǎn)中覆蓋到的真實(shí)用戶的比例,同等建設(shè)規(guī)模的情況下,值越大說明建設(shè)區(qū)域覆蓋到真實(shí)的5G用戶越多,預(yù)測(cè)效率越高。這兩個(gè)值均越大越好,但實(shí)際應(yīng)用中二者關(guān)系是遵循P-R曲線的。根據(jù)閾值可以找到某一點(diǎn)平衡,該點(diǎn)的Precision和Recall值即為網(wǎng)絡(luò)規(guī)劃方案預(yù)計(jì)將達(dá)到的預(yù)測(cè)效率和預(yù)測(cè)效果。
圖2中的模型應(yīng)用模塊,主要是利用在模型構(gòu)建模塊建立好的最優(yōu)模型,輸入待預(yù)測(cè)的數(shù)據(jù)和目標(biāo)用戶規(guī)模,獲得在一定時(shí)間段內(nèi)可能遷轉(zhuǎn)為5G終端用戶的列表。
2.3.1 建模法結(jié)果
基于專家經(jīng)驗(yàn)法同樣的數(shù)據(jù),對(duì)比2020年6月真實(shí)5G終端用戶,從表2的結(jié)果中可以得到,預(yù)測(cè)結(jié)果的Recall值為67%,Precision值為7%,在精確率一致的情況下,預(yù)測(cè)效果大有提升。
表2 建模法預(yù)測(cè)混淆矩陣結(jié)果
2.3.2 建模法與專家經(jīng)驗(yàn)法對(duì)比
通過表3可知,LightGBM算法建模法與專家經(jīng)驗(yàn)法相比有諸多優(yōu)勢(shì)。直觀表現(xiàn)在建模法使用較多的特征,從而充分挖掘數(shù)據(jù)對(duì)于判斷用戶更換5G終端的影響,預(yù)測(cè)效果大幅提升。此外,建模法會(huì)通過學(xué)習(xí),靈活確定不同特征的判斷門限,針對(duì)不同的用戶有不同的判定路徑,最終根據(jù)多棵決策樹進(jìn)行判定。專家法對(duì)所有戶的判定方法都是一致的,且判斷的門限都是固定的一刀切方法。在預(yù)測(cè)用戶規(guī)模方面,專家經(jīng)驗(yàn)法的預(yù)測(cè)規(guī)模是固定的,而建模法由于輸出結(jié)果是用戶成為潛在5G終端用戶概率,在選取判斷閾值時(shí)則可以根據(jù)傾向預(yù)測(cè)效果和預(yù)測(cè)效率的不同機(jī)動(dòng)選取用戶規(guī)模。
表3 專家經(jīng)驗(yàn)法與建模法的對(duì)比表
2.3.3 預(yù)測(cè)結(jié)果跟蹤
在確定LightGBM算法方法之后,本文對(duì)該地市的潛在5G終端用戶進(jìn)行了更深一步地預(yù)測(cè)分析。以2020年8月的4G、5G終端用戶為目標(biāo)群體,提取上述用戶在一年之前(即2019年8月)的自變量數(shù)據(jù),基于LightGBM算法進(jìn)行二分類建模,經(jīng)過數(shù)據(jù)預(yù)處理、模型建立、超參調(diào)優(yōu)等過程獲取最優(yōu)模型。將待預(yù)測(cè)的2020年8月4G終端用戶數(shù)據(jù)輸入至最優(yōu)模型,預(yù)測(cè)一年之后可能遷轉(zhuǎn)為5G終端的用戶。本文對(duì)得到的潛在5G用戶進(jìn)行了為期一年的跟蹤,在一年時(shí)間點(diǎn)時(shí)(即2021年8月)與當(dāng)時(shí)的真實(shí)5G終端用戶數(shù)據(jù)進(jìn)行了對(duì)比。
同樣采用預(yù)測(cè)效果和預(yù)測(cè)效率兩個(gè)評(píng)價(jià)指標(biāo),這里只針對(duì)模型預(yù)測(cè)得到潛在5G用戶群體進(jìn)行跟蹤,即不考慮時(shí)間段內(nèi)新增的5G終端用戶以及當(dāng)前已有的5G終端用戶的影響。在表4中,以一年時(shí)間點(diǎn)時(shí)真實(shí)的5G終端用戶為基準(zhǔn),對(duì)標(biāo)Recall來看,模型的預(yù)測(cè)效果為67.4%,與2.3.1節(jié)中的67%持平。在表5中,以模型預(yù)測(cè)得到的203萬潛在5G用戶為基準(zhǔn),對(duì)標(biāo)Precision來看,預(yù)測(cè)效率為30%。對(duì)比2.3.1節(jié)中的7%有了較為明顯的提升,在用戶滲透率提升的情況下,預(yù)測(cè)效率會(huì)有一定提升。
表4 跟蹤數(shù)據(jù)預(yù)測(cè)效果
表5 跟蹤數(shù)據(jù)預(yù)測(cè)效率
基于預(yù)測(cè)得到的潛在5G用戶群體,考慮其工作常住和住宅常住的微網(wǎng)格分布,可以得到用戶的總常住微網(wǎng)格分布。根據(jù)用戶在常住微網(wǎng)格的地理業(yè)務(wù)分布數(shù)據(jù),例如考慮用戶數(shù)分布數(shù)據(jù),對(duì)微網(wǎng)格的建設(shè)優(yōu)先級(jí)進(jìn)行排序判斷,得到不同優(yōu)先級(jí)的網(wǎng)絡(luò)建設(shè)區(qū)域,從而指導(dǎo)網(wǎng)絡(luò)規(guī)劃。圖3是按照用戶在常住微網(wǎng)格上的分布聚集程度,將用戶聚集最多的前25%微網(wǎng)格價(jià)值評(píng)級(jí)記為1,前50%用戶聚集的微網(wǎng)格價(jià)值評(píng)級(jí)記為2,前80%用戶聚集的微網(wǎng)格價(jià)值評(píng)級(jí)記為3,剩下的微網(wǎng)格價(jià)值評(píng)級(jí)記為4。分別對(duì)應(yīng)圖中的紅色、黃色、綠色和藍(lán)色區(qū)域。從地圖中可以清晰地看到,建模法得到的潛在5G用戶微網(wǎng)格評(píng)級(jí)結(jié)果與真實(shí)的5G用戶總常住微網(wǎng)格評(píng)級(jí)結(jié)果更一致。
圖3 建模法(左)、真實(shí)5G用戶(中)、專家經(jīng)驗(yàn)法(右)常住地評(píng)級(jí)結(jié)果
同樣地,也可以根據(jù)業(yè)務(wù)需求,匯總每個(gè)微網(wǎng)格下的地理業(yè)務(wù)分布數(shù)據(jù),如流量、總業(yè)務(wù)次數(shù)等,按照倒序排列,基于上述同樣的評(píng)級(jí)方法得到不同指標(biāo)下的微網(wǎng)格評(píng)級(jí)結(jié)果。表6對(duì)比了建模預(yù)測(cè)得到的潛在5G用戶以及真實(shí)5G用戶兩類用戶群體在不同指標(biāo)下微網(wǎng)格評(píng)級(jí)一致性,兩類用戶群體在流量、業(yè)務(wù)次數(shù)、工作常住和總常住的分布評(píng)級(jí)一致性都在90%以上。在應(yīng)用過程中,可以根據(jù)實(shí)際需求,對(duì)多種維度地理分布數(shù)據(jù)計(jì)算不同權(quán)重得到微網(wǎng)格價(jià)值評(píng)級(jí)的估計(jì)值,此處的微網(wǎng)格也可以替換為基站等。
表6 真實(shí)5G用戶與建模預(yù)測(cè)的潛在5G用戶分布評(píng)級(jí)一致性結(jié)果
本文提出了一種基于大數(shù)據(jù)分析和LightGBM算法的潛在5G用戶預(yù)測(cè)方法,基于B域數(shù)據(jù)、O域數(shù)據(jù)、終端更換數(shù)據(jù)以及用戶行為數(shù)據(jù)建立用戶是否更換5G終端的二分類模型。此方法能充分挖掘特征數(shù)據(jù)對(duì)用戶更換5G終端的影響,預(yù)測(cè)準(zhǔn)確率較高。將現(xiàn)網(wǎng)待預(yù)測(cè)用戶輸入模型中,篩選出潛在5G終端用戶列表,一方面根據(jù)預(yù)測(cè)得到的潛在5G用戶的業(yè)務(wù)分布及常住地等確定5G網(wǎng)絡(luò)需建設(shè)的重點(diǎn)區(qū)域,應(yīng)用于5G網(wǎng)絡(luò)的規(guī)劃,另一方面可以根據(jù)現(xiàn)階段的用戶規(guī)模,為精準(zhǔn)營銷提供數(shù)據(jù)支撐。
在后續(xù)的研究中,可以繼續(xù)增加數(shù)據(jù),比如影響用戶網(wǎng)絡(luò)感知的數(shù)據(jù)或者與5G業(yè)務(wù)相關(guān)的數(shù)據(jù)等,增加數(shù)據(jù)的多樣性。在數(shù)據(jù)預(yù)處理、參數(shù)調(diào)優(yōu)等方面持續(xù)優(yōu)化算法,例如交互特征、奇異值分解、主成分分析降維等,一方面是為模型“瘦身”,提取對(duì)結(jié)果影響較大的特征,另一方面提升預(yù)測(cè)的準(zhǔn)確度。本文提出的方法也可應(yīng)用其他的專題分析,比如用戶對(duì)5G套餐、5G升級(jí)包的多分類預(yù)測(cè)模型等其他電信業(yè)務(wù)場(chǎng)景。除此以外,針對(duì)海量數(shù)據(jù),可以考慮利用神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法建模,充分挖掘隱藏在海量數(shù)據(jù)背后的“有益”信息,推進(jìn)終端、網(wǎng)絡(luò)、業(yè)務(wù)的協(xié)同發(fā)展。