陳志華
(福州大學計算機與大數(shù)據(jù)學院,福建 福州 350108)
4G/5G蜂窩移動網(wǎng)絡(luò)日益普及,分析和預測蜂窩移動網(wǎng)絡(luò)用戶的數(shù)據(jù)用量也越來越受到重視,其將有助于移動網(wǎng)絡(luò)運營商進行網(wǎng)絡(luò)策略部署和客戶方案推薦。在目前蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測上,主要采用統(tǒng)計和深度學習方法來進行預測,需要進行大量統(tǒng)計,由于用戶個人的通訊行為使蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量差異較大,且統(tǒng)計僅能得到同一資費方案中的平均值及趨勢,若在同一資費方案中蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量變異大,則統(tǒng)計和深度學習方法將可能得到較大的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量估計誤差。因此,本研究提出蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測法,分析目標客戶前幾個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合,以預測目標客戶下一周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量,并可依此蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)預估用量提供營銷信息予客戶,增加客戶對蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量的購買量,以增加企業(yè)收入。
本研究提出蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測系統(tǒng),包含手機端設(shè)備、核心網(wǎng)絡(luò)端、賬務(wù)計算服務(wù)器、數(shù)據(jù)庫、預測服務(wù)器以及決策服務(wù)器。手機端設(shè)備進行蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)通信將通過核心網(wǎng)絡(luò)端鏈接至因特網(wǎng),并且該通信記錄由核心網(wǎng)絡(luò)端傳送至賬務(wù)計算服務(wù)器,由賬務(wù)計算服務(wù)器統(tǒng)計每個用戶每個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量,并將此用量儲存于數(shù)據(jù)庫。預測服務(wù)器將可運用蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測方法,分析目標客戶前幾個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合,并將此集合與數(shù)據(jù)庫中相同資費方案的歷史數(shù)據(jù)集合進行比對,找出最相似的幾筆蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合,令最相似的數(shù)據(jù)權(quán)重最高,再將這幾筆蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合進行加權(quán)平均,以取得目標客戶下一周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)預估用量,再傳送至決策服務(wù)器。決策服務(wù)器將依據(jù)預測的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量,經(jīng)過決策運算產(chǎn)生相關(guān)的營銷、預警、網(wǎng)絡(luò)部署等策略,提供相關(guān)建議信息予企業(yè)主管和客戶參考。
此論文以下分為四個章節(jié),在第二節(jié)中將說明蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測方法,各個步驟的作法和設(shè)計原理。第三節(jié)則針對本研究提出的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)預測方法進行實證和分析。最后一節(jié)則說明此論文之結(jié)論與未來研究方向。
本研究設(shè)計蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測方法,主要包含5個步驟:(1) 設(shè)定相關(guān)參數(shù)值;(2) 收集和統(tǒng)計每個用戶每個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量;(3) 取得前n個周期之蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量,并轉(zhuǎn)換為向量集合;(4) 與歷史數(shù)據(jù)進行比對,取得最相似的k筆數(shù)據(jù);(5) 依每筆數(shù)據(jù)向量距離進行加權(quán)平均,估計蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量,分述如下。
蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測方法將分析每個客戶每個周期(m天)的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量、每個客戶前n個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合以及取得歷史數(shù)據(jù)中最相似的k筆數(shù)據(jù),在此步驟中將先設(shè)定m、n、k等參數(shù)值,以進行后續(xù)預測計算。其中,在本研究案例中,設(shè)定m值為5 (即一個周期5天),n值為5 (即分析前5個周期),以及k值為2 (即取得數(shù)據(jù)庫中最相似的2筆記錄),以進行蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測方法說明。
在此步驟中,由核心網(wǎng)絡(luò)端實時收集和記錄每個用戶的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)通信記錄,并由賬務(wù)計算服務(wù)器依設(shè)定之每5天為1個周期,計算每個用戶每個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量,并將此數(shù)據(jù)儲存至數(shù)據(jù)庫。在本研究案例中,以封包數(shù)為蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量的單位,如表1,賬務(wù)計算服務(wù)器統(tǒng)計使用者編號1在7月1日到7月5日這個周期共傳收1,881,531個封包。
表1 每個用戶每個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量
2 7月6~10日 Groupp 5,651,084 2 7月11~15日 Groupp 1,875,929 2 7月16~20日 Groupp 3,116,748
…
c 7月21~25日 Group1 5,276,328
在此步驟中,由預測服務(wù)器依參數(shù)值設(shè)定取出數(shù)據(jù)庫中的數(shù)據(jù),取得目標客戶前5個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合,并將此集合作為該用戶蜂窩移動網(wǎng)絡(luò)上網(wǎng)行為的參考依據(jù),依此進行后續(xù)的分析與判斷使用。在本研究案例中,將預測使用者編號1在7月26日到7月31日這個周期(第i個周期)的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量q1,i,故將取得其前5個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合Q1,i-1,i-5= {q1,i-5,q1,i-4,q1,i-3,q1,i-2,q1,i-1} (即7月1日到7月25日期間的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量),如公式(1)、(2)、以及表2所示。
表2 使用者編號1的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合
在此步驟中,將向數(shù)據(jù)庫取出目標客戶相同資費群組(使用者編號1的資費群組為Group 1)的歷史蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量數(shù)據(jù),不同資費群組的客戶蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量數(shù)據(jù)將不被考慮,如表3所示。例如,用戶編號c的歷史蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量數(shù)據(jù)集合為Qc,i-6,i-11= {qc,i-11,qc,i-10,qc,i-9,qc,i-8,qc,i-7,qc,i-6} (即6月1日到6月30日期間的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量),如公式(3)、(4)所示。
表3 客戶歷史蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合
c 1,731,307(即qc,i-11)4,234,143(即qc,i-10)2,018,105(即qc,i-9)3,696,109(即qc,i-8)2,513,784(即qc,i-7)3,622,136(即qc,i-6)
預測服務(wù)器將目標客戶前5個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合Q1,i-1,i-5與歷史數(shù)據(jù)每筆蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合進行比對,而在本研究案例中,相似度權(quán)重計算主要采用歐幾里德距離的倒數(shù),例如,為使用者編號1與使用者編號j的歐幾里德距離如公式(5),以及為使用者編號1與使用者編號j的相似度權(quán)重jw,1如公式(6)。其中,M為一個極大數(shù),在本研究案例中,設(shè)定為1000000。依此可計算出使用者編號1前5個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合Q1,i-1,i-5= {q1,i-5,q1,i-4,q1,i-3,q1,i-2,q1,i-1} (即7月1日到7月25日期間的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量)與歷史數(shù)據(jù)每筆蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合計算的相似度權(quán)重如表4所示。
20417770.00000048977 c
當與每一筆歷史蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量數(shù)據(jù)集合比對得到權(quán)重jw,1后,取得權(quán)重最大的k筆(在本研究案例中k為2),其中權(quán)重最大值為f1和其對應的前第i-(n+1)個周期蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量為g1、權(quán)重第二大值為f2和其對應的前第i-(n+1)個周期蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量為g2,依此類推如公式(7)所示。
在此步驟中,分別將相似度最大的k筆數(shù)據(jù)所對應的前第i-(n+1)個周期蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量依權(quán)重進行加權(quán)平均,如公式(8)所示。在本研究案例中,與使用者編號1前5個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合Q1,i-1,i-5相似度最高的2筆分別為使用者編號c的歷史蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量數(shù)據(jù)集合Qc,i-7,i-11和用戶編號1的歷史蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量數(shù)據(jù)集合Q1,i-7,i-11,故f1為w1,c=0.00000048977、g1為qc,i-6=3622136、f2為w1,1=0.00000020074、g2為q1,i-6=3423594。因此,使用者編號1于7月26日到7月31日這個周期(第i個周期)的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)估計用量q1,i’為3,140,242,如公式(9)所示。
當預測服務(wù)器完成目標客戶蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測后,可將此預測值傳送至決策服務(wù)器,并依據(jù)預測的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量,經(jīng)過決策運算產(chǎn)生相關(guān)的營銷、預警、網(wǎng)絡(luò)部署等策略,并提供相關(guān)建議信息予企業(yè)和客戶參考。在本研究案例中,使用者編號1的資費群組允許之封包數(shù)量為15,000,000,而目前使用者編號1已使用封包數(shù)量14,333,795,并且估計使用者編號1到7月31日時,將累計使用封包數(shù)量為17,474,037,故由決策服務(wù)器提供預警信息予用戶編號1,并推薦使用者編號1其他資費方案以供參考。
本研究中主要收集7月份某地區(qū)北部用戶不同資費方案,共涵蓋565,606個用戶記錄,設(shè)定算法中的k值為10,并與傳統(tǒng)預測方法(資費方案之用量平均值方法、深度神經(jīng)網(wǎng)絡(luò))進行比較。由實驗數(shù)據(jù)顯示,本研究提出的方法正確率較其他算法高,正確率達87.97%,如表5所示。
表5 蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測正確率比較
本研究提出蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測方法,分析目標客戶前幾個周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合,并將此集合與數(shù)據(jù)庫中相同資費方案的歷史數(shù)據(jù)集合進行比對,找出最相似的幾筆蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合,令最相似的資料權(quán)重最高,再將這幾筆蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量集合進行加權(quán)平均,以取得目標客戶下一周期的蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)預估用量。實驗中與傳統(tǒng)預測方法進行比較,證實此方法確實較為優(yōu)越,且平均正確率可達87.97%。未來可將此方法應用于4G/5G蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量預測,并依此蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)預估用量提供營銷信息予客戶,增加客戶對蜂窩移動網(wǎng)絡(luò)數(shù)據(jù)用量的購買量,同時,降低客戶費率、增加移動網(wǎng)絡(luò)運營商收入,達到雙贏效果。