車維崧 祁靜 白文其
摘? 要:針對公眾住宅小區(qū)千兆寬帶用戶規(guī)模不確定導致預覆蓋OLT設備投資建設不精確的現(xiàn)狀,提出了一種基于隨機森林算法及地理圍欄進行小區(qū)千兆用戶規(guī)模預測的方案。方案使用小區(qū)場景圍欄完成地理數(shù)據(jù)、房地產(chǎn)中介數(shù)據(jù)與運營商數(shù)據(jù)的匹配,通過小區(qū)內(nèi)樓宇棟數(shù)、住戶數(shù)、房屋出租均價、運營商寬帶用戶數(shù)等指標對小區(qū)千兆用戶規(guī)模進行預測。對比實驗證明,使用隨機森林算法進行千兆用戶規(guī)模預測具有較高的準確性。
關(guān)鍵詞:隨機森林;地理圍欄;千兆寬帶;用戶預測
中圖分類號:TP18 文獻標識碼:A? 文章編號:2096-4706(2023)01-0061-03
Prediction of Gigabit Broadband Subscriber Scale Based on Random Forest and Geo-fencing
CHE Weisong1, QI Jing2, BAI Wenqi2
(1.Beijing Telecom Planning & Designing Institute Co., Ltd., Beijing? 100048, China;
2.China United Network Communications Group Co., Ltd., Beijing? 100033, China)
Abstract: In light of the current situation of inaccurate investment and construction in pre-coverage OLT equipment due to the uncertainty of the scale of gigabit broadband subscriber in public residential quarters, this paper proposes a scheme for gigabit subscriber scale prediction based on Random Forest algorithm and Geo-fencing. The scheme uses the Geo-fencing of the residential area to complete the matching among geographical data, real estate agency data and operator data, and predicts the scale of gigabit subscriber through indicators such as the number of buildings in the residential area, the number of households, the average house rental price, and the number of operators' broadband subscribers. The comparative experiments prove that the Random Forest algorithm has higher accuracy in predicting the scale of gigabit subscribers.
Keywords: Random Forest; Geo-fencing; gigabit broadband; subscriber prediction
0? 引? 言
近年來,隨著“寬帶中國”“雙千兆網(wǎng)絡協(xié)同發(fā)展行動計劃”等國家寬帶接入發(fā)展指導意見的提出,千兆寬帶覆蓋規(guī)模不斷擴大,公眾用戶寬帶接入速率不斷提升。截至2022年5月底,1 000 Mbps及以上接入速率的固定互聯(lián)網(wǎng)寬帶接入用戶達5 591萬戶,比21年末凈增2 135萬戶[1],千兆用戶規(guī)模提升明顯。
另一方面,受三大運營商競爭加劇及寬帶“提速降費”等因素影響,固定互聯(lián)網(wǎng)寬帶業(yè)務收入增長緩慢、總體收入趨于穩(wěn)定。目前國內(nèi)住宅小區(qū)基本均已完成FTTH(Fibre To The Home)接入,千兆寬帶建設的主要成本為OLT(Optical Line Terminal)設備改造升級。目前國內(nèi)主流設備廠家10G PON(Passive Optical Network) OLT設備單PON造價約為2 500元至3 000元不等,按照10G PON OLT單端口可承載20戶用戶進行測算,已完成FTTH覆蓋的住宅小區(qū)進行千兆升級僅OLT設備升級成本就在10萬至20萬左右。鑒于OLT升級成本較高、由于芯片短缺導致OLT到貨周期較慢等因素,對小區(qū)預期發(fā)展的千兆用戶規(guī)模進行測算,有助于提升設備升級改造的精準性、減少改造投資,實現(xiàn)千兆建設降本增效。
針對以上分析,本文提出了一種采用隨機森林算法及地理圍欄信息對小區(qū)內(nèi)千兆寬帶用戶規(guī)模進行預測的方案。通過使用小區(qū)地理圍欄完成房地產(chǎn)中介數(shù)據(jù)與運營商網(wǎng)絡數(shù)據(jù)的關(guān)聯(lián),通過小區(qū)內(nèi)樓宇棟數(shù)、住戶數(shù)、房屋出租單位面積均價、出租單位套數(shù)均價及某運營商寬帶用戶數(shù)等指標對小區(qū)千兆用戶規(guī)模進行預測。通過預測結(jié)果指導千兆OLT升級改造規(guī)劃及建設,提升設備升級改造的精準有效性。
1? 基于地理圍欄的小區(qū)多源數(shù)據(jù)關(guān)聯(lián)
為實現(xiàn)小區(qū)千兆規(guī)模預測,需獲取小區(qū)多維價值屬性信息。由于數(shù)據(jù)來源渠道不同,同一住宅小區(qū)在互聯(lián)網(wǎng)地圖、中介數(shù)據(jù)及通信運營商自有數(shù)據(jù)中,名稱、地址描述方式、經(jīng)緯度坐標等信息均可能存在差異。對不同數(shù)據(jù)來源渠道的小區(qū)名稱及地址信息進行關(guān)聯(lián),往往涉及較為復雜的數(shù)據(jù)清洗及NLP(Natural Language Processing)過程,且關(guān)聯(lián)匹配的準確率一般不高。目前各渠道數(shù)據(jù)基本均含有經(jīng)緯度信息,但由于采用坐標系(WGS84、GCJ02、BD09等)不同及定位地點存在差異,往往同一小區(qū)在不同數(shù)據(jù)來源中的經(jīng)緯度位置存在一定差別,為實現(xiàn)基于經(jīng)緯度坐標的多源數(shù)據(jù)精準關(guān)聯(lián),需要引入地理圍欄信息作為媒介。
地理圍欄(Geo-fencing)是基于位置服務的一種特殊應用[2],主要用于地理區(qū)域的網(wǎng)格化及精確化管理。目前各類互聯(lián)網(wǎng)地圖及地理服務提供商具備各種類型及渠道來源的地理圍欄信息。每條記錄一般包含圍欄對應的場景名稱、分類、邊界頂點經(jīng)緯度坐標等信息。
使用地理圍欄作為住宅小區(qū)的標識,將中介數(shù)據(jù)、運營商數(shù)據(jù)、樓宇數(shù)據(jù)等含有經(jīng)緯度的POI信息統(tǒng)一轉(zhuǎn)換為WGS84坐標系后投影至地圖上,對處于同一小區(qū)地理圍欄中的各類數(shù)據(jù)進行歸集,多源數(shù)據(jù)關(guān)聯(lián)流程如圖1所示。最終可以獲得小區(qū)內(nèi)樓棟數(shù)、住戶數(shù)、房屋出租單位面積均價、房屋出租單套均價、某運營商寬帶用戶總數(shù)、簽約帶寬分布等信息作為千兆用戶規(guī)模測算的輸入特征。使用地理圍欄匹配多源數(shù)據(jù)可以降低不同坐標系轉(zhuǎn)換對匹配結(jié)果的擾動,在某地市進行驗證實驗,結(jié)果顯示使用地理圍欄進行多源數(shù)據(jù)匹配,多源數(shù)據(jù)均為同一小區(qū)數(shù)據(jù)的準確率達到88.16%,而基于名稱及地址信息的匹配準確率僅為69.79%。
2? 基于隨機森林的千兆寬帶用戶規(guī)模預測
對住宅小區(qū)千兆寬帶用戶規(guī)模進行預測的主要目的是通過預測結(jié)果確定小區(qū)上聯(lián)綜合接入點OLT預留的10 G PON口數(shù),由于單PON口用戶數(shù)與分光器分光比、分光方式均有關(guān),所以并不需要計算千兆用戶占比的具體數(shù)值,僅需對其規(guī)模量級進行預測即可。同時,由于不同城市經(jīng)濟發(fā)展水平、用戶上網(wǎng)習慣、單一運營商市場滲透率均存在差異,需要對不同城市分別建立分析模型。
基于上述分析,首先選取一地市內(nèi)業(yè)務發(fā)展基本成熟、用戶規(guī)模穩(wěn)定的小區(qū)計算其千兆用戶占比均值及標準差,記均值為μ、標準差為σ、小區(qū)千兆寬帶用戶占比為x。x一般服從期望為μ、方差為σ2的正態(tài)分布。基于正態(tài)分布將小區(qū)千兆寬帶用戶占比分為低、較低、一般、較高及高5類,具體分類規(guī)則如表1所示,通過該處理將千兆用戶規(guī)模預測轉(zhuǎn)化為分類問題。
隨機森林算法是近年來常用的集中學習算法之一[3],隨機森林通過對多棵決策樹進行集成,一般通過bagging方式進行學習,可采用投票或均值等方法獲得集成后輸出,整體算法對異常值及噪聲有較強的魯棒性。使用隨機森林進行分類的模型如圖2所示。
隨機森林模型對分類數(shù)據(jù)的平衡性有一定要求,由于隨機森林建造時對訓練樣本進行隨機抽樣,對于不平衡樣本會進一步加劇其不平衡性,進而使決策樹模型對不平衡樣本分類效果欠佳的缺點被進一步放大。將分布轉(zhuǎn)化為類型的千兆用戶規(guī)模是典型的非平衡樣本,為降低樣本分布對分類結(jié)果的影響,采用SMOTE(Synthetic Minority Oversampling Technique)[4]方法進行訓練,SMOTE方法訓練時在少數(shù)類樣本及其K近鄰類樣本之間的連線上產(chǎn)生新的少數(shù)類樣本,進而平衡各分類樣本規(guī)模,減少不平衡樣本及對隨機森林的影響。
3? 實驗及結(jié)果分析
3.1? 數(shù)據(jù)預處理
采用某運營商北方某城市數(shù)據(jù)作為實驗數(shù)據(jù),該市共有住宅小區(qū)1 600余個,剔除某運營商新覆蓋、未覆蓋、無數(shù)據(jù)區(qū)域及小區(qū)內(nèi)寬帶用戶小于10戶簽約帶寬分布可能隨機性較強的小區(qū),剩余包含完整有效數(shù)據(jù)的小區(qū)樣本657個。
657個有效小區(qū)樣本中千兆寬帶用戶占比均值μ=0.165 7、σ=0.047 8,其中分類為低的樣本18個、較低樣本142個、一般的樣本414個、較高樣本73個、高樣本10個。隨機抽取20%的樣本作為測試樣本,剩余526個樣本作為訓練樣本集,訓練時采用了SMOTE方法進行抽樣。以住宅小區(qū)內(nèi)樓宇總棟數(shù)、總戶數(shù)、每平方米出租均價、每戶出租均價、某運營商寬帶用戶總數(shù)5個特征作為輸入特征,以千兆寬帶用戶占比作為預測的輸出特征。
3.2? 隨機森林模型超參數(shù)設置
由于隨機森林的子樹規(guī)模及樹深度對隨機森林的分類能力有較大影響,為確定超參數(shù)的最優(yōu)配置方案通過網(wǎng)格搜索方法進行了探索,在訓練樣本集上對子樹規(guī)模及樹深度的各種匹配方案進行了10折驗證,結(jié)果如圖3所示,可以看到當樹深度為5、子樹規(guī)模為50、樹模型訓練過程中每次節(jié)點分割時均考慮2個特征時訓練樣本集10折驗證的分類準確率最高,達到80.80%。
3.3? 實驗結(jié)果及分析
將基于隨機森林模型的訓練集分類準確率及測試集分類準確率與SVM、BP神經(jīng)網(wǎng)絡、貝葉斯分類、多元分類器線性分類器進行對比,所有涉及超參數(shù)的分類算法均通過在訓練集上對主要超參數(shù)進行了網(wǎng)格搜索,對比結(jié)果如表2所示??梢钥吹讲煌诸愃惴ㄔ谟柧殬颖炯系姆诸悳蚀_率均在80%左右,不同模型之間沒有明顯差異,而在測試樣本集上隨機森林模型明顯高于其他模型達到80.91%,對比實驗證明隨機森林算法在千兆寬帶用戶規(guī)模預測問題上具有更強的泛化能力。
3.4? 特征重要性分析
通過隨機森林使用各特征的樹節(jié)點平均減少不純度對各特征的重要性進行對比,不純度減少的權(quán)重為與其關(guān)聯(lián)的訓練樣本數(shù)量[5]。各特征重要性如表3所示??梢钥吹叫^(qū)每平方米出租均價、某運營商寬帶用戶總數(shù)、總戶數(shù)是相對較為重要的3個輸入特征,可將其歸集為小區(qū)高檔程度、運營商滲透率及用戶總規(guī)模3個分析維度,該結(jié)果提示在運營商小區(qū)價值分析中應加強對相關(guān)維度數(shù)據(jù)的搜集及關(guān)注程度。
4? 結(jié)? 論
本文提出了一種基于隨機森林算法及地理圍欄進行小區(qū)千兆用戶規(guī)模預測的方案,該方案通過小區(qū)場景圍欄完成房地產(chǎn)中介與運營商數(shù)據(jù)的關(guān)聯(lián)匹配并將其作為輸入特征對小區(qū)寬帶用戶規(guī)模進行預測,通過實驗證明使用隨機森林算法的預測準確率高于其他算法。通過樹節(jié)點不純度減少程度確定小區(qū)每平方米出租均價、某運營商寬帶用戶總數(shù)、總戶數(shù)是較為重要的輸入特征,為通信運營商千兆規(guī)劃建設及營銷重點區(qū)域選擇提供了參考依據(jù)。
參考文獻:
[1] 中華人民共和國工業(yè)和信息化部.2022年1-5月份通信業(yè)經(jīng)濟運行情況 [EB/OL].https://www.miit.gov.cn/gxsj/tjfx/txy/art/2022/art_84d43f3ff32c457dabf66dcedfa7996f.html.
[2] 鞠明山.地理圍欄技術(shù)發(fā)展現(xiàn)狀及網(wǎng)絡信息安全問題探究 [J].江西通信科技,2018(3):39-41.
[3] 呂紅燕,馮倩.隨機森林算法研究綜述 [J].河北省科學院學報,2019,36(3):37-41.
[4] CHAWLA N V,BOWYER K W,HALL L O,et al. SMOTE:Synthetic Minority Over-Sampling Technique [J].Journal of Artificial Intelligence Research,2002,16:321-357.
[5] 喬健,諸佳慧,嚴康桓.基于隨機森林CART特征選擇改進算法的電信客戶流失預測模型 [J].電信工程技術(shù)與標準化,2022,35(3):78-82.
作者簡介:車維崧(1990—),男,漢族,北京人,助理工程師,碩士,研究方向:寬帶政企接入網(wǎng)絡規(guī)劃;祁靜(1988—),女,漢族,北京人,工程師,碩士,研究方向:寬帶政企接入網(wǎng)數(shù)字化運營;白文其(1977—),男,滿族,北京人,高級工程師,本科,研究方向:傳輸及寬帶網(wǎng)絡技術(shù)。
收稿日期:2022-08-03