黃警明,陳 翔
(1.中山大學(xué) 電子與信息工程學(xué)院,廣東 廣州 510006;2.香港中文大學(xué)(深圳) 廣東省大數(shù)據(jù)計(jì)算基礎(chǔ)理論與方法重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518172)
隨著我國(guó)經(jīng)濟(jì)建設(shè)的高速發(fā)展,城市化建設(shè)進(jìn)程不斷加快,朝著信息化、智能化方向發(fā)展?!爸腔鄢鞘小苯ㄔO(shè)是實(shí)現(xiàn)城市可持續(xù)發(fā)展、提高綜合競(jìng)爭(zhēng)力的重要舉措,其應(yīng)用領(lǐng)域十分廣泛,如“智慧交通”“智慧醫(yī)療”“智慧農(nóng)業(yè)”等。利用移動(dòng)信息化技術(shù)對(duì)城市流量模式進(jìn)行建模也是“智慧城市”建設(shè)的重要組成部分[1]。隨著移動(dòng)通信網(wǎng)絡(luò)的發(fā)展普及,移動(dòng)用戶數(shù)量急劇增加,移動(dòng)設(shè)備與移動(dòng)基站之間產(chǎn)生了大量的交互信令數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含了豐富的用戶位置信令,對(duì)這些數(shù)據(jù)進(jìn)行時(shí)空建模分析,能夠準(zhǔn)確獲取基站用戶接入情況,幫助政府部門研究城市人群的流動(dòng)模式,合理評(píng)估人群聚集情況,有助于應(yīng)對(duì)突發(fā)安全事件,提高預(yù)警能力。同時(shí),對(duì)基站用戶數(shù)量的建模,能夠協(xié)助電信運(yùn)營(yíng)商進(jìn)行合理資源調(diào)度[2],實(shí)現(xiàn)基站智能化功率控制,達(dá)到節(jié)能減排的目的,助力綠色城市建設(shè),提高居民生活質(zhì)量。
對(duì)于基站用戶數(shù)量的預(yù)測(cè)建模研究,大量學(xué)者從城市區(qū)域流量出發(fā),建模為時(shí)序預(yù)測(cè)問(wèn)題。在早期的時(shí)序建模研究中,學(xué)者們常采用機(jī)器學(xué)習(xí)或者統(tǒng)計(jì)信號(hào)處理的等基礎(chǔ)分析方法進(jìn)行研究,如卡爾曼濾波(Kalman Filtering,KF)[3]、差分整合移動(dòng)平均自回歸模型[4](Auto-Regressive Integrated Moving Average,ARIMA)等。文獻(xiàn)[5]在對(duì)城市人流進(jìn)行研究時(shí),發(fā)現(xiàn)人流分布在時(shí)空上存在明顯規(guī)律性。文獻(xiàn)[6]在進(jìn)行人口密度研究時(shí),使用空間自相關(guān)和統(tǒng)計(jì)分位數(shù)等研究方法,發(fā)現(xiàn)人流分布在空間上具有聚集趨勢(shì)。文獻(xiàn)[7]使用了數(shù)千個(gè)矩陣的流量信息和近100萬(wàn)條用戶的時(shí)空信息,分析表明基站通信流量和用戶在時(shí)空活動(dòng)模式上具有明顯相關(guān)性。
隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,神經(jīng)網(wǎng)絡(luò)由于具有較好的特征提取能力,逐漸被應(yīng)用于城市人口流量預(yù)測(cè)建模研究。文獻(xiàn)[8]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)獲取不同時(shí)刻的空間交通需求表征后,結(jié)合長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)預(yù)測(cè)城市不同區(qū)域的交通流需求。由于城市區(qū)域流量數(shù)據(jù)更多是不規(guī)則空間結(jié)構(gòu),為了更好解決非歐結(jié)構(gòu)的數(shù)據(jù)建模,有學(xué)者提出使用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)進(jìn)行時(shí)空建模。文獻(xiàn)[9]提出一種時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(Spatio-Temporal Graph Convolutional Network,STGCN)交通流預(yù)測(cè)模型,采用一維CNN結(jié)構(gòu)提取時(shí)間維度交通流特征,并以頻域圖卷積ChebyNet結(jié)構(gòu)提取空間特征,二者交替迭代實(shí)現(xiàn)對(duì)交通流建模。有學(xué)者在該模型結(jié)構(gòu)上,將歷史序列分辨粒度劃分為小時(shí)、天、周三種,并引入注意力機(jī)制增強(qiáng)對(duì)時(shí)空相關(guān)性的捕獲[10]。文獻(xiàn)[11]利用手機(jī)信息數(shù)據(jù),采用一種改進(jìn)型的STGCN模型對(duì)OD(Original-Destination)流進(jìn)行預(yù)測(cè)建模。文獻(xiàn)[12]提出一種擴(kuò)散卷積遞歸神經(jīng)網(wǎng)絡(luò)(Diffusion Convolutional Recurrent Neural Network,DCRNN)深度學(xué)習(xí)框架,利用雙向擴(kuò)散卷積捕獲交通節(jié)點(diǎn)的空間相關(guān)性,并將擴(kuò)散卷積嵌入門控循環(huán)單元(Gated Recurrent Unit, GRU)模型中提取交通流信息的時(shí)空特征。
基站用戶數(shù)量預(yù)測(cè)問(wèn)題本質(zhì)上是一個(gè)城市網(wǎng)絡(luò)拓?fù)浼s束下的時(shí)間序列建模預(yù)測(cè)問(wèn)題。一個(gè)城市的基站網(wǎng)絡(luò)結(jié)構(gòu)可以表示為一個(gè)帶權(quán)有向圖G(V,E,A),其中,V={v1,v2,…,vN}表示所有基站的集合,共有N個(gè)基站,E表示基站之間邊的集合,A∈RN×N表示基站之間的帶權(quán)鄰接矩陣。基站用戶數(shù)量可以看作是由多個(gè)時(shí)間序列組成的多維向量,如式(1)所示:
(1)
基站用戶數(shù)量預(yù)測(cè)問(wèn)題可以建模描述為,在圖G(V,E,A)的條件下,給定歷史P個(gè)時(shí)刻的輸入信號(hào),建模學(xué)習(xí)一個(gè)關(guān)系f,預(yù)測(cè)估計(jì)未來(lái)Q個(gè)時(shí)刻的輸出信號(hào),具體表示如下:
(2)
GCN[13]是一種應(yīng)用于圖結(jié)構(gòu)數(shù)據(jù)的GCN,與傳統(tǒng)的CNN[14]相比,GCN能夠有效提取非歐結(jié)構(gòu)數(shù)據(jù)的空間特征,在城市流量預(yù)測(cè)、推薦系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用。在GCN中,每一層節(jié)點(diǎn)的信息都由上一層節(jié)點(diǎn)自身的信息和相鄰節(jié)點(diǎn)的信息加權(quán)求和,再進(jìn)行非線性變換得到,每一層的前向傳播公式可定義為:
(3)
LSTM網(wǎng)絡(luò)[15]是一種改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[16],能夠捕獲時(shí)間序列長(zhǎng)期依賴特性,并且能夠有效解決長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題,在長(zhǎng)時(shí)間序列應(yīng)用上具有更優(yōu)的表現(xiàn)。
LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由3個(gè)門控單元組成:遺忘門、輸入門和輸出門。遺忘門決定了上一時(shí)刻細(xì)胞狀態(tài)Ct-1的保留信息,輸入門決定了當(dāng)前時(shí)刻輸入xt和細(xì)胞狀態(tài)Ct的輸入更新,輸出門決定了當(dāng)前時(shí)刻細(xì)胞狀態(tài)Ct的輸出結(jié)果,具體計(jì)算結(jié)果如式(4)~(9)所示:
圖1 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of LSTM
ft=σ(Wf[xt,yt-1]+bf),
(4)
it=σ(Wi[xt,yt-1]+bi),
(5)
Cnt=tanh(Wc[xt,yt-1]+bc),
(6)
Ct=ftCt-1+itCnt,
(7)
ot=σ(Wo[xt,yt-1]+bo),
(8)
yt=ottanh(Ct),
(9)
式中:ft、it、ot分別表示遺忘門、輸入門和輸出門信息,Cnt、Ct分別表示候選細(xì)胞狀態(tài)和當(dāng)前細(xì)胞狀態(tài),Wf、Wi、Wc、Wo表示網(wǎng)絡(luò)權(quán)重矩陣,bf、bi、bc、bo表示網(wǎng)絡(luò)偏置系數(shù)。
基站用戶數(shù)量預(yù)測(cè)主要是對(duì)其進(jìn)行時(shí)空建模。本文基于GCN提出一種GCN-LSTM模型,模型主要由GCN Block單元和LSTM單元組成。GCN Block單元通過(guò)圖生成和圖卷積計(jì)算,提取基站用戶數(shù)量的空間維度的隱含特征。LSTM單元對(duì)GCN Block單元提取的高維特征進(jìn)行建模,學(xué)習(xí)序列的時(shí)空特征,最后經(jīng)過(guò)全連接層輸出基站用戶數(shù)量的預(yù)測(cè)值,模型結(jié)構(gòu)如圖2所示。
圖2 GCN-LSTM模型結(jié)構(gòu)Fig.2 Structure of GCN-LSTM
圖生成層負(fù)責(zé)生成圖卷積層使用的鄰接圖,為了更好地提取基站節(jié)點(diǎn)之間的空間關(guān)系,捕獲高階隱含的空間特性,同時(shí)使用基于基站空間距離的靜態(tài)鄰接圖和基站節(jié)點(diǎn)之間隨時(shí)間變化的用戶轉(zhuǎn)移數(shù)量動(dòng)態(tài)鄰接圖,并且引入PoI信息作為空間地理特征補(bǔ)充。
1.5.1 距離鄰接圖
城市基站之間具有一定的地理關(guān)系,構(gòu)造距離鄰接圖,能夠捕獲基站之間的局部區(qū)域特性。參考已有工作,使用帶門限的高斯核函數(shù)[17]進(jìn)行構(gòu)建距離鄰接圖As,具體表示為:
(10)
1.5.2 轉(zhuǎn)移鄰接圖
實(shí)際生活中,用戶的位置往往不是固定不變的,在移動(dòng)過(guò)程中,容易在鄰近基站之間進(jìn)行切換接入。因此,對(duì)于一個(gè)基站的用戶數(shù)量而言,可能與鄰近基站之間存在一個(gè)此消彼長(zhǎng)的數(shù)量關(guān)系。通過(guò)構(gòu)造轉(zhuǎn)移鄰接圖,能夠描述基站用戶數(shù)量的動(dòng)態(tài)變化特性,捕獲其時(shí)變特征。轉(zhuǎn)移鄰接圖計(jì)算方法如算法1所示。
算法1 轉(zhuǎn)移鄰接圖計(jì)算方法 輸入:m條數(shù)據(jù)樣本輸出:每個(gè)時(shí)刻基站的轉(zhuǎn)移鄰接圖1.初始化:每個(gè)時(shí)間段基站之間的轉(zhuǎn)移鄰接圖yj,ki=0,j,k為基站編號(hào),i為時(shí)刻編號(hào)2.對(duì)于所有數(shù)據(jù)樣本進(jìn)行3. 提取每個(gè)用戶的所有移動(dòng)軌跡
1.5.3 PoI鄰接圖
PoI信息的分布特征能夠一定程度上反映該區(qū)域的功能特性,具有相似PoI分布的基站區(qū)域可能存在相似的用戶數(shù)量分布。本文通過(guò)高德地圖開(kāi)放平臺(tái)提供的API接口,獲取了研究城市范圍的PoI數(shù)據(jù),并根據(jù)平臺(tái)的分類參考,將PoI興趣點(diǎn)劃分為23類,將PoI根據(jù)地理位置映射到各個(gè)基站的覆蓋區(qū)域,分別統(tǒng)計(jì)各基站區(qū)域下各類PoI興趣點(diǎn)的數(shù)量。為了進(jìn)一步獲取其場(chǎng)景分布特點(diǎn),采用詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)方法[18]計(jì)算每個(gè)基站PoI信息的TD-IDF值,評(píng)價(jià)其場(chǎng)景服務(wù)功能的重要性,具體計(jì)算方法如式(11)所示:
(11)
此時(shí),得到了各個(gè)基站區(qū)域下的PoI信息TD-IDF分布向量,組成得到PoI鄰接圖,并使用Node2Vec模型[19]進(jìn)行圖嵌入表征,得到PoI鄰接圖表征。
以上,圖生成層生成得到了距離鄰接圖As、轉(zhuǎn)移鄰接圖At和PoI鄰接圖Ap。
(12)
式中:α1、α2和α3為權(quán)重系數(shù)。再將加權(quán)后輸出H′t經(jīng)過(guò)Softmax函數(shù)進(jìn)行歸一化操作后得到圖卷積層每個(gè)時(shí)刻的輸出Ht。
時(shí)序預(yù)測(cè)層是對(duì)圖卷積層提取空間特征后的輸出結(jié)果進(jìn)行時(shí)序特征建模,捕獲基站用戶數(shù)量的時(shí)間特征。模型經(jīng)過(guò)多個(gè)LSTM網(wǎng)絡(luò)進(jìn)行堆疊連接后,再經(jīng)過(guò)全連接層進(jìn)行組成,輸出模型的預(yù)測(cè)結(jié)果。
本文使用的移動(dòng)性管理數(shù)據(jù)集由國(guó)內(nèi)某運(yùn)營(yíng)商提供,時(shí)間范圍為2018年5月14日—5月27日,時(shí)間跨度共計(jì)兩周,包含廣州市3 000多個(gè)基站下數(shù)十億條記錄。該數(shù)據(jù)集已經(jīng)過(guò)脫敏處理,用戶身份信息均已替換為匿名ID。在開(kāi)始建模之前,需要先對(duì)數(shù)據(jù)集中的異常數(shù)據(jù)進(jìn)行清洗剔除:
① 數(shù)據(jù)中字段缺失或者格式錯(cuò)誤的數(shù)據(jù)樣本;
② 乒乓切換數(shù)據(jù)樣本。
數(shù)據(jù)樣本時(shí)間跨度為14 d,在進(jìn)行基站用戶數(shù)量提取時(shí),如以1 h為時(shí)間粒度進(jìn)行統(tǒng)計(jì),每個(gè)基站可以得到一個(gè)長(zhǎng)度為336的時(shí)間序列樣本,基站用戶數(shù)量具體計(jì)算方法如算法2所示。
算法2 基站用戶數(shù)量統(tǒng)計(jì)算法 輸入:m條基站移動(dòng)性管理數(shù)據(jù)樣本輸出:每個(gè)時(shí)刻基站的用戶數(shù)量1.初始化:所有基站各時(shí)刻的用戶數(shù)量yki=0,k為基站編號(hào),i為時(shí)刻編號(hào)2.對(duì)于所有數(shù)據(jù)樣本進(jìn)行3. 提取每個(gè)用戶的所有移動(dòng)軌跡4. 對(duì)于每個(gè)用戶軌跡進(jìn)行5. 初始化用戶上一時(shí)刻t^=-1,上一時(shí)刻所在基站p^=-1
為了評(píng)價(jià)模型的預(yù)測(cè)性能,采用平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Squared Error,RMSE)和平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)來(lái)評(píng)價(jià)模型的預(yù)測(cè)性能,具體計(jì)算方法如式(13)~式(15)所示:
(13)
(14)
(15)
為了驗(yàn)證所提的預(yù)測(cè)模型性能,將本文模型與ARIMA、XGBoost、LSTM、STGCN和DCRNN五種模型進(jìn)行比較。
將歷史序列時(shí)間粒度劃分為15、30、60 min,以體現(xiàn)短期、中期和長(zhǎng)期預(yù)測(cè)性能。本文模型與對(duì)比模型的預(yù)測(cè)性能結(jié)果如表1所示,可以看出,本文提出的預(yù)測(cè)模型能夠達(dá)到較好的預(yù)測(cè)性能。通過(guò)比較可以看出,基于圖卷積模型的幾類預(yù)測(cè)方法,其性能較ARIMA、XGBoost等經(jīng)典時(shí)間序列方法具有明顯提升。這在一定程度上反映了在時(shí)空預(yù)測(cè)任務(wù)中,空間關(guān)聯(lián)信息對(duì)預(yù)測(cè)任務(wù)的重要性,引入空間維度的信息,能夠有效獲取更加全面的時(shí)空信息。與STGCN和DCRNN等模型比較,本文提出模型的預(yù)測(cè)精度更高,這是因?yàn)镾TGCN和DCRNN等預(yù)測(cè)模型在進(jìn)行預(yù)測(cè)時(shí),僅使用了基于基站距離的距離鄰接圖,只能獲取靜態(tài)不變的空間維度信息,對(duì)于其隨著時(shí)間演化的特征未能獲取。本文提出的模型引入轉(zhuǎn)移鄰接圖,能夠獲取各個(gè)時(shí)間段之間用戶的轉(zhuǎn)移關(guān)系,進(jìn)一步提取隨著時(shí)間演化的空間特征,學(xué)習(xí)基站節(jié)點(diǎn)間存在的隱含時(shí)空關(guān)系,能夠更有效地提高預(yù)測(cè)準(zhǔn)確性。
表1 不同預(yù)測(cè)模型性能比較Tab.1 Forecasting results of different models
通過(guò)對(duì)不同時(shí)間間隔的比較分析可以看出,在時(shí)間間隔較小時(shí)預(yù)測(cè)效果更好。這是因?yàn)橐?5 min間隔時(shí),時(shí)間粒度較小,用戶數(shù)量的統(tǒng)計(jì)和轉(zhuǎn)移數(shù)量的描述較為準(zhǔn)確,能夠一定程度上降低長(zhǎng)時(shí)間粒度下產(chǎn)生的誤差,從而提高預(yù)測(cè)的準(zhǔn)確性。
為了驗(yàn)證不同的空間鄰接圖在提取基站用戶數(shù)量的空間關(guān)聯(lián)模式上的有效性,本文對(duì)預(yù)測(cè)模型進(jìn)行消融分析,在圖卷積模塊中分別采用不同的空間鄰接圖進(jìn)行比較分析。第一個(gè)僅使用距離鄰接圖進(jìn)行提取空間特征關(guān)系,記為“僅距離圖”;第二個(gè)僅使用轉(zhuǎn)移鄰接圖提取隨時(shí)間演化的空間特征,記為“僅轉(zhuǎn)移圖”。對(duì)于這些模型的預(yù)測(cè)所得結(jié)果如表2所示,可以看出,僅使用距離鄰接圖的預(yù)測(cè)準(zhǔn)確度最低,這是因?yàn)樵谝朕D(zhuǎn)移鄰接圖后,圖卷積模塊能夠獲取相鄰基站節(jié)點(diǎn)之間的流量轉(zhuǎn)移特征,在全局視角下獲取空間特征,獲得更好的預(yù)測(cè)結(jié)果。在此基礎(chǔ)上,本文提出的模型通過(guò)動(dòng)態(tài)圖和靜態(tài)圖的相結(jié)合,能夠在時(shí)間和空間上相互補(bǔ)充,獲取更為全面的時(shí)間、空間流量模式的演化特征,進(jìn)一步提高模型的準(zhǔn)確性。
表2 消融實(shí)驗(yàn)結(jié)果Tab.2 Results of ablation experiments
本文圍繞基站用戶數(shù)據(jù)預(yù)測(cè)問(wèn)題,提出一種基于GCN的時(shí)空預(yù)測(cè)模型。模型基于基站距離構(gòu)建靜態(tài)距離鄰接圖,各時(shí)刻基站間用戶轉(zhuǎn)移數(shù)量構(gòu)建動(dòng)態(tài)鄰接圖,并引入PoI信息作為空間地理信息補(bǔ)充,構(gòu)建PoI鄰接圖,通過(guò)GCN提取各時(shí)刻的空間隱含特征,最后經(jīng)過(guò)LSTM網(wǎng)絡(luò)學(xué)習(xí)得到用戶數(shù)量。實(shí)驗(yàn)表明,該模型具有更優(yōu)的預(yù)測(cè)效果。并且,消融模型證明了采用靜態(tài)和動(dòng)態(tài)結(jié)合的鄰接圖能夠更有效地獲取空間特征,提高預(yù)測(cè)準(zhǔn)確性。