摘 要: 高斯過程回歸(Gaussian process regression, GPR)是一種基于高斯過程的非參數(shù)化貝葉斯回歸方法,其可以靈活適應不同類型數(shù)據(jù),用于建模和預測數(shù)據(jù)之間的復雜關系,具有擬合能力強、泛化能力好等特點。針對海量用戶場景下用戶量實時預測問題,提出一種基于GPR的用戶量預測優(yōu)化方法。在滑動窗口方法處理數(shù)據(jù)的基礎上,選擇合適的核函數(shù),基于k折交叉驗證得到最佳超參數(shù)組合以實現(xiàn)GPR模型訓練,完成在線用戶量的實時預測并進行性能評估。實驗結果表明,相比于采用訓練集中輸出數(shù)據(jù)方差的50%作為信號噪聲估計量的傳統(tǒng)方案,所提方法具有較高的預測準確度,并且在測試集均方根誤差(root mean square, RMS)、平均絕對誤差(mean absolute error, MAE)、平均偏差(mean bias error, MBE)和決定系數(shù)R2這4個評估指標方面均有提升,其中MBE至少提升了43.3%。
關鍵詞: 高斯過程回歸; 用戶量預測; 滑動窗口; 交叉驗證; 超參數(shù)優(yōu)化
中圖分類號: TP 391.7
文獻標志碼: A
DOI:10.12305/j.issn.1001-506X.2024.08.19
Optimization method of user quantity prediction based on GPR model
LIU Xuehao1,2, LIU Wenxue1, YANG Chaosan1, ZHU Wenjing1,2, SONG Yu1,2, LI Jinhai1,2,*
(1. Communication and Information Engineering Research and Development Center, Institute of Microelectronics
of the Chinese Academy of Sciences, Beijing 100029, China; 2. School of Integrated Circuits,
University of Chinese Academy of Sciences, Beijing 100049, China)
Abstract: Gaussian process regression (GPR) is a non-parametric Bayesian regression method based on Gaussian processes. It is flexible in adapting to different types of data, and it is used to model and predict complex relationships between different types of data. It has strong fitting capabilities and good generalization abilities. A user quantity prediction optimization method based on GPR is proposed to tackle the problem of real-time user quantity prediction in the context of massive user scenario. Building upon the sliding window method for data processing, the method selects a suitable kernel function and uses k-fold cross-validation to determine the optimal hyperparameter combination for training the GPR model, which enables the real-time prediction of online user quantity. Finally, the performance of the model is evaluated. The experimental results demonstrate that compared with the traditional approach that uses half of the variance of the output data in the training set as the signal noise estimator, the proposed method has higher prediction accuracy and improvements in the four following evaluation metrics of root mean square (RMS), mean absolute error (MAE), mean bias error (MBE) and determination coefficient R2 on the test set. Specifically, the MBE shows an improvement of at least 43.3%.
Keywords: Gaussian process regression (GPR); user quantity prediction; sliding window; cross-validation; hyperparameter optimization
0 引 言
用戶量預測問題的本質(zhì)是時間序列預測,其在互聯(lián)網(wǎng)、金融服務、智能交通等方面有著廣泛應用[1-3],通過歷史用戶量和當前用戶量數(shù)據(jù)對未來一段時間內(nèi)用戶數(shù)量進行精準預測,對搜索引擎系統(tǒng)性能測試、金融領域服務模式改進、智能交通系統(tǒng)構建有重要意義。
在傳統(tǒng)建模方法方面,文獻[4]采用:自回歸移動平均模型(autoregressive integrated moving average model, ARIMA)模型預測時間序列,引入了梯度下降方法以更新權重,能夠?qū)崿F(xiàn)高性能的時間序列預測。但是,采用梯度下降的方法更新權重存在陷入局部最優(yōu)而無法找到全局最優(yōu)解的問題。在深度學習方法方面,文獻[5]提出基于小波去噪和相位重構的交通量預測模型,采用相位空間重構理論,將一維交通量映射到了高維空間,該方法更好地描述了交通量的平穩(wěn)性、復雜性和空間相關性,但模型的計算復雜度高、訓練時間長,并且可解釋性差。文獻[6]采用2型模糊長短期記憶(type-2 fuzzy long short-term memory, Type-2 FLSTM)神經(jīng)網(wǎng)絡進行長期交通量預測,其與傳統(tǒng)模糊系統(tǒng)相比,在描述成員信息和處理不確定性較高的數(shù)據(jù)方面具有更大自由度,且具有更好的抗噪能力,但其仍然具有很高的模型復雜度以及可解釋性差的缺點。
針對用戶量預測問題,本文提出一種基于高斯過程回歸(Gaussian process regression, GPR)模型的用戶量預測優(yōu)化方法,將在線用戶量數(shù)據(jù)集進行狀態(tài)離散化處理,隨后使用滑動窗口方法處理并進行歸一化。選擇合適的GPR的核函數(shù)之后,進行超參數(shù)搜索和交叉驗證(cross validation, CV),以確定最優(yōu)的超參數(shù)組合,得到GPR模型,并進行用戶量實時預測以及模型性能評估。
1 GPR模型
1.1 GPR模型介紹
GPR是一種基于高斯過程的非參數(shù)化貝葉斯回歸方法,其可以靈活適應不同類型的數(shù)據(jù),用于建模和預測數(shù)據(jù)之間的復雜關系,具有擬合能力強、泛化能力好等特點。此外,該模型的復雜程度較低,可解釋性強,且適合短期以及中期預測。
高斯過程作為一種隨機過程,通常是時間或空間索引的隨機變量的集合[7],其過程示意圖如圖1所示[8]。高斯過程可以簡記為fGP(z),其中z∈Z,ωSS∈ΩSS,Z Rnz,nz為正整數(shù),ΩSS為樣本空間。此外,高斯過程被認為可以由均值函數(shù)m∶Z→R和協(xié)方差函數(shù)k∶Z×Z→R完全描述,表示為
fGP(z)~GP(m(z),k(z,z′))(1)
其中,z,z′∈Z,且
m(z)=E[fGP(z)](2)
k(z,z′)=E[(fGP(z)-m(z))(fGP(z′)-m(z′))](3)
協(xié)方差函數(shù)是兩個狀態(tài)(z,z′)之間相關性的度量,由于高斯過程是由無限維隨機變量構成的,明確定義協(xié)方差矩陣并不可行,因而采用核函數(shù)來確定協(xié)方差矩陣[9]。
對于高斯過程fGP(z),若給定z∈Z,則fGP(z)是ΩSS的隨機變量。此外,高斯過程的特殊性質(zhì)在于,對于 n, z1,z2,…,zn,隨機向量(fGP(z1),fGP(z2),…,fGP(zn))T都服從n元高斯分布。因此,若(fGP(z1),fGP(z2))~N
GPR將高斯過程作為貝葉斯推斷中的先驗概率分布,從而進行函數(shù)回歸。根據(jù)貝葉斯方法,通過新數(shù)據(jù)和先驗概率分布可以獲得后驗概率分布。數(shù)據(jù)模型可以表示為
y~{i}dat=fGP(x{i}dat)+v(5)
輸入為X=[x{1}dat,x{2}dat,…,x{nD}dat]∈Z1×nD,輸出為Y=[y~{1}dat,y~{2}dat,…,y~{nD}dat]T∈RnD,i=1,2,…,nD,nD為正整數(shù)。輸出受到噪聲v的干擾,v~N(0,σ2n)。新信息可以表達為訓練集D={X,Y}。由于高斯分布的任意有限子集服從多元高斯分布,因而對于任意測試點z*∈Z[7]有:
通過后驗均值公式計算得到的值即可作為GPR的預測結果。
1.2 核函數(shù)
從GPR的內(nèi)容來看,核函數(shù)是均值函數(shù)與協(xié)方差函數(shù)的重要構成部分,因此需要選擇合適的核函數(shù)。此外,核函數(shù)也依賴于一組超參數(shù),這需要使用者自行確定這組參數(shù)。常見的核函數(shù)[7,10]如表1所示。
在上述核函數(shù)中,φ·是超參數(shù)。線性核計算簡單,適合處理龐大且區(qū)分度好的數(shù)據(jù)集[11]。有理二次核用于處理非平穩(wěn)數(shù)據(jù),能夠?qū)Ψ蔷€性關系進行很好的建模,但在數(shù)據(jù)量較少或噪聲多的情況下容易出現(xiàn)過擬合現(xiàn)象。
平方指數(shù)核和Matérn核是通用核現(xiàn)象。平方指數(shù)核的使用非常廣泛,其包含了兩個超參數(shù)φ1、φ2。超參數(shù)φ1描述了信號方差,決定了數(shù)據(jù)生成函數(shù)到其均值的平方距離,長度尺度φ2定義了在輸入空間中需要沿著特定的坐標軸移動并能夠使函數(shù)值不相關的移動距離。平方指數(shù)核有很高的魯棒性,是一種局部性強的核函數(shù),并且具有很強的抗干擾能力,其在處理高維樣本數(shù)據(jù)時表現(xiàn)出很好的適應性[12-13],但在處理大量局部波動數(shù)據(jù)時過于嚴格[14]。Matérn核是非常強大的核函數(shù),其可以通過控制形狀因子,控制核函數(shù)的光滑性并成為多種不同內(nèi)核,十分靈活[15-16]。Matérn32核適合處理相關距離較短或非平穩(wěn)的情況,而Matérn52核更適合處理具有較長相關距離或數(shù)據(jù)集比較平滑的情況。
指數(shù)核則適合處理具有平穩(wěn)性和線性的數(shù)據(jù)。平方指數(shù)ARD核相比于平方指數(shù)核可以提升預測精度和穩(wěn)健性[17-18],可以考慮到輸入輸出之間的非線性映射關系[19],但是在數(shù)據(jù)量較少的情況下使用平方指數(shù)ARD核訓練出的模型性能較差。
對于時間序列的預測,若序列具有長期依賴性,可以選擇具有長度尺度參數(shù)的核,如指數(shù)核、Matérn核等。若序列具有周期性,可以選擇周期核[20]或具有周期參數(shù)的指數(shù)核等。若序列具有平穩(wěn)的特性,則可以選擇平方指數(shù)核、線性核等平穩(wěn)核,平穩(wěn)核對捕捉數(shù)據(jù)的局部相關性具有良好的表現(xiàn)。
1.3 模型性能評估指標
常見的模型性能評估指標有均方根誤差(root mean square, RMS)、平均絕對誤差(mean absolute error, MAE)[21]、平均偏差(mean bias error, MBE)以及決定系數(shù)R2,其具體表達如表2所示。其中,xi表示實際數(shù)據(jù),x^i表示預測數(shù)據(jù),n表示數(shù)據(jù)個數(shù)。
RMS主要關注于預測值與真實值之間的差異程度的整體標準差。MAE能預測誤差相對于真實值的偏差比例。MBE衡量了預測模型的平均偏差,關注于預測值的整體偏差方向和大小。R2能反映預測值與真實值相關程度的大小。
2 基于GPR模型的用戶量預測建模優(yōu)化
GPR具有擬合能力強、泛化能力好的特點,可以很好地處理時間序列預測的問題。本文采用GPR方法對在線用戶量的變化進行建模預測。選擇合適的核函數(shù)之后,需要進行超參數(shù)優(yōu)化。此外,在數(shù)據(jù)模型中存在的噪聲項通常也被作為超參數(shù),一起被優(yōu)化。
交叉驗證作為超參數(shù)優(yōu)化的方法,將訓練集分成兩個不相交的數(shù)據(jù)集,一個用作訓練,一個用作驗證,以此監(jiān)控性能。通過重復利用數(shù)據(jù)集中的不同子集,能夠很好地評估模型的泛化能力和性能,并幫助選擇最優(yōu)的超參數(shù)。對于k折交叉驗證[22-23],其首先將訓練集劃分為k份大小相等的樣本子集,每1份稱為1折。然后,依次將每1折作為驗證集,將其他折作為訓練集,進行模型的訓練和評估。最后,將k次評估指標的平均值作為最終的評估指標。5折交叉驗證示意圖如圖2所示。
常見的折數(shù)可以選為5或10。若數(shù)據(jù)集較小,樣本數(shù)量有限,5折交叉驗證更加合適。10折交叉驗證提供了更多的訓練和測試組合,可以獲得更可靠的評估結果[24],但其與5折交叉驗證相比需要更多的計算資源和時間成本。然而,時間序列在時間上具有自相關性[25],而k折交叉驗證是在觀測數(shù)據(jù)相互獨立的假設下實施的,因而在被應用于時間序列模型訓練時存在一定問題,進而導致模型不準確,另外還具有信息泄露的問題。
本文選取k折交叉驗證的方式進行超參數(shù)優(yōu)化。為了改善交叉驗證方法不適合處理時間序列的問題,在建模之前引入滑動窗口方法[26-28]對數(shù)據(jù)集進行整理,減小數(shù)據(jù)自相關性的影響。這樣的處理也可以在一定程度上避免信息泄漏問題。所提出的基于GPR的在線用戶量預測方法實施示意圖如圖3所示。
在獲得在線用戶量數(shù)據(jù)集之后,對其進行狀態(tài)確定、滑動窗口方法處理、歸一化等操作,選定核函數(shù)進行模型訓練并通過評價選取最優(yōu)模型作為最佳預測模型,以實現(xiàn)在線用戶量預測。所提算法流程圖如圖4所示,其中l(wèi)en(·)為數(shù)據(jù)集的長度。
其具體實施過程包括如下4個步驟。
步驟 1 獲取在線用戶量數(shù)據(jù)集,數(shù)據(jù)集文件應該包含每個用戶在線的起止時間。根據(jù)數(shù)據(jù)集中在線用戶在線時間的中位數(shù)選定狀態(tài)周期,對其進行狀態(tài)離散化,得到新數(shù)據(jù)集。狀態(tài)抽象過程的示意圖如圖5所示。
步驟 2 選定合適的窗口尺寸kim和預測跨度zim,采用滑動窗口方法重新組織步驟1得到的數(shù)據(jù)集中的數(shù)據(jù)。組織好的數(shù)據(jù)集的第i行中存儲有依次排列的步驟1得到的數(shù)據(jù)集中的第i個至第(i+kim-1)個狀態(tài)、第(i+kim+zim-1)個狀態(tài)。此處假定數(shù)據(jù)集步驟1得到的數(shù)據(jù)集共有state_num個狀態(tài),則新數(shù)據(jù)集共有(state_num-kim-zim+1)行、(kim+1)列。該數(shù)據(jù)集數(shù)據(jù)組織形式示意圖如圖6所示。
步驟 3 對步驟2得到的數(shù)據(jù)集的每一列進行歸一化處理,以解決數(shù)據(jù)分布不一致的問題,保證機器學習模型獲得最佳性能,得到新數(shù)據(jù)集。將數(shù)據(jù)集中每一行數(shù)據(jù)稱作一個樣本,每一列數(shù)據(jù)稱作一個特征,將該數(shù)據(jù)集前kim列作為特征,是模型的輸入,將第(kim+1)列作為模型的輸出。對該數(shù)據(jù)集的樣本按照8∶2的比例劃分為訓練集、測試集。
步驟 4 選定合適的核函數(shù),確定超參數(shù)空間,使用解析導數(shù)、數(shù)值方法、網(wǎng)格搜索、隨機搜索、貝葉斯優(yōu)化、梯度調(diào)整等方法[29-30]在超參數(shù)空間搜索超參數(shù)組合,并在訓練集基礎上對每個超參數(shù)組合進行k折交叉驗證以評估模型性能,根據(jù)交叉驗證結果選擇最佳性能的超參數(shù)組合,如圖7所示。最佳性能可以采用RMS、MAE、MBE等進行評價。使用最佳超參數(shù)組合在全部訓練數(shù)據(jù)上訓練GPR模型。通過得到的GPR模型,可以得到后驗均值函數(shù)形式,以此作為GPR的預測結果。最后,再通過測試集對模型進行評估。
3 實驗結果與分析
本文選取2016年8月一共享單車品牌在一地區(qū)的數(shù)據(jù)集[31],在仿真軟件上完成基于GPR模型的在線用戶量預測建模、仿真與優(yōu)化。在實現(xiàn)過程中,在獲取每周期的狀態(tài)之后,采用滑動窗口的方法處理該數(shù)據(jù),得到新數(shù)據(jù)集。
對于共享單車這一類時間序列,其潛周期通常有24 h、7 d、1 y等,對已有數(shù)據(jù)集(30 d)的數(shù)據(jù)進行24 h趨勢仿真和30 d變化趨勢仿真,仿真結果如圖8和圖9所示。
一天內(nèi)有兩個主要峰值,分別是8點左右和18至20點。對已有數(shù)據(jù)集的自相關情況進行仿真,仿真結果如圖10所示。自相關峰產(chǎn)生在(2n-1)·12 h和2n·12 h處,其中n=1,2,3,…。
經(jīng)過分析發(fā)現(xiàn),2n·12 h處的相關峰主要是由24 h的周期造成,其與7 d的周期關系很小;(2n-1)·12 h處的相關峰是由8點和18~20點兩處用戶量峰值造成的,其與7 d的周期關系也很小。但在一定時間范圍內(nèi),仍然可以認為距離當前時刻越遠的數(shù)據(jù),與當前時刻需要預測的數(shù)據(jù)的相關性越小。由于不同天同一時段2n·12 h數(shù)據(jù)少,無法采用該數(shù)據(jù)進行預測,因此選取一定時間范圍內(nèi)數(shù)據(jù)進行未來預測。通過觀察自相關圖發(fā)現(xiàn),在偏移量小于24 h、相關值大于(2n-1)·12 h處出現(xiàn)相關峰值,因此比較適合的窗口尺寸應小于24。由于本仿真追求預測的實時性,希望用前幾個數(shù)據(jù)預測后一個數(shù)據(jù),因此選定適合的窗口尺寸為15,預測跨度為1。
選取幾種不同的核函數(shù)并采用隨機搜索算法優(yōu)化信號噪聲,采用擬牛頓法優(yōu)化核參數(shù),在訓練集基礎上對每個超參數(shù)組合進行5折交叉驗證,并使用各種評估指標評估性能,根據(jù)交叉驗證結果得到最優(yōu)模型。由于在不對信號噪聲進行優(yōu)化時,傳統(tǒng)方法通常采用訓練集中輸出數(shù)據(jù)方差的一半作為信號噪聲方差的估計量,因此本文將其作為交叉驗證優(yōu)化信號噪聲方法的對照組。
本文采用基于GPR模型的在線用戶量預測方法對共享單車在線用戶量實現(xiàn)建模、優(yōu)化與性能仿真評估,將本文GPR模型優(yōu)化方法與傳統(tǒng)GPR模型方法在3種不同核函數(shù)(平方指數(shù)核、matérn52核、matérn32核)情況下進行建模仿真,通過RMS、MAE、MBE和R2這4個評估指標對模型進行評價。
(1) 選取平方指數(shù)核的預測結果如圖11所示,預測結果殘差情況如圖12所示,模型性能評估結果如表3所示。其中,圖12(a)殘差均值為4.602 8,圖12(b)殘差均值為2.611 9。
(2) 選取matérn52核的預測結果如圖13所示,預測結果殘差情況如圖14所示,模型性能評估結果如表4所示。其中,圖14(a)殘差均值為5.53 6,圖14(b)殘差均值為2.040 9。
(3) 選取matérn32核的預測結果如圖15所示,預測結果殘差情況如圖16所示,模型性能評估結果如表5所示。其中,圖16(a)殘差均值為4.529 9,圖16(b)殘差均值為2.391 8。
此外,在仿真中還選取有理二次核、平方指數(shù)ARD核以及指數(shù)核進行了模型構建與性能評估,結果表明相較于平方指數(shù)核,matérn52核以及matérn32核性能較差。綜合分析上述3種核函數(shù)的模型訓練評估結果可知:在測試集上,采用GPR模型優(yōu)化方法比采用傳統(tǒng)GPR模型方法在RMS、MAE、MBE、R2這4個評估指標上的表現(xiàn)都更好,預測結果的殘差也更??;采用傳統(tǒng)方法的方案對單車數(shù)量轉折處的預測能力更差。其中,RMS提升22.8%以上,MAE提升20.7%以上,MBE提升43.3%以上,R2提升3.3%以上。綜上所述,3種核函數(shù)中的2種matérn核,尤其是matérn52核訓練出的GPR模型效果更好,可將其選為該案例共享單車在線用戶量預測的核函數(shù)。
4 結 論
本文提出一種基于GPR模型的在線用戶量預測優(yōu)化方法,對傳統(tǒng)GPR模型在超參數(shù)優(yōu)化方面完成了優(yōu)化設計。所提方法首先對序列進行狀態(tài)離散化,隨后引入滑動窗口方法處理并進行歸一化。在訓練GPR模型時,采用k折交叉驗證方法選擇最優(yōu)超參數(shù)組合?;瑒哟翱诜椒ǖ囊胧沟迷谶\用交叉驗證時避免了數(shù)據(jù)泄露的風險,并且考慮了時間序列的時間相關性。公開的共享單車用戶量數(shù)據(jù)集的預測結果表明,與傳統(tǒng)采用訓練集中輸出數(shù)據(jù)方差的一半作為信號噪聲方差估計量的方法相比,本文方法在選取平方指數(shù)核、matérn52核以及matérn32核作為GPR的核函數(shù)時,測試集預測效果都更加優(yōu)秀,而且matérn52核作為本數(shù)據(jù)集GPR模型的核函數(shù)時預測效果提升最多?;贕PR模型的在線用戶量預測優(yōu)化方法,可以用于搜索引擎系統(tǒng)性能測試、金融領域服務模式改進、智能交通系統(tǒng)構建等與時間序列預測相關的應用場景,具有潛在的商業(yè)與社會管理價值。
參考文獻
[1]王繼民, 彭波. 搜索引擎用戶訪問量模型[J]. 計算機工程與應用, 2004(25): 9-11, 30.
WANG J M, PENG B. Modeling quantity of users’ access for search engine [J]. Computer Engineering and Applications, 2004(25): 9-11, 30.
[2]程鵬超, 杜軍平, 薛哲. 基于多路交叉的用戶金融行為預測[J]. 智能系統(tǒng)學報, 2021, 16(2): 378-384.
CHENG P C, DU J P, XUE Z. Prediction of user financial behavior based on multi-way crossing [J]. CAAI Transactions on Intelligent Systems, 2021, 16(2): 378-384.
[3]XIAO H B, XIAO J H, DENG X W, et al. Traffic flow prediction based on traffic and meteorological data fusion in non-stationary environments[C]∥Proc.of the International Conference on Electronic Information Technology and Smart Agriculture, 2021: 154-158.
[4]LEE J, LEE H Y, KIM N W, et al. A study on online arima algorithms applying various gradient descent optimization algorithms for time series prediction[C]∥Proc.of the International Conference on Information and Communication Technology Convergence, 2021: 1104-1106.
[5]PENG Y N, XIANG W L. Short-term traffic volume prediction using GA-BP based on wavelet denoising and phase space reconstruction[J]. Physica A: Statistical Mechanics and its Applications, 2020, 549: 123913.
[6]LI R M, HU Y C, LIANG Q H. T2F-LSTM method for long-term traffic volume prediction[J]. IEEE Trans.on Fuzzy Systems, 2020, 28(12): 3256-3264.
[7]BECKERS T. An introduction to Gaussian process models[EB/OL]. [2024-01-10]. https:∥arXiv preprint arXiv: 2102.05497,2021.
[8]KRISHNAN V, CHANDRA K. Probability and random proce-sses[M]. Hoboken: John Wiley amp; Sons, 2016.
[9]JAKKALA K. Deep Gaussian processes: a survey[EB/OL]. [2024-01-10]. https:∥arXiv preprint arXiv: 2106.12135,2021.
[10]WILLIAMS C K I, RASMUSSEN C E. Gaussian processes for machine learning[M]. Cambridge: Massachusetts Institute of Technology press, 2006.
[11]梁袁澤. 基于經(jīng)驗模態(tài)分解與排列熵的癲癇腦電信號自動檢測方法[D]. 南京: 南京郵電大學, 2023.
LIANG Y Z. An automatic detection method for epileptic EEG signals based on empirical mode decomposition and permutation entropy [D]. Nanjing: Nanjing University of Posts and Telecommunications, 2023.
[12]楊雨亭. 基于RF特征優(yōu)選的ISSA-SVM變壓器故障診斷方法[D]. 南京: 南京郵電大學, 2023.
YANG Y T. ISSA-SVM transformer fault diagnosis method based on RF feature selection [D]. Nanjing: Nanjing University of Posts and Telecommunications, 2023.
[13]ZHANG S Y, TAN W A, LI Y B. Survey of kernel extreme learning machine kernel function based on the perspective of kernel parameter optimization time[C]∥Proc.of the 4th Annual International Conference on Network and Information Systems for Computers, 2018: 430-433.
[14]PARAL P, GHOSH S, CHATTERJEE A, et al. Automatic relevance determination kernel-embedded Gaussian process regression for sonar-based human leg localization with a mobile robot[J]. IEEE Sensors Letters, 2022, 7(1): 6000504.
[15]DONG W H, LI X F, BI D J, et al. Matern kernel adaptive filtering with Nystrom approximation for indoor localization[J]. IEEE Trans.on Instrumentation and Measurement, 2023.
[16]TRONARP F, KARVONEN T, SARKKA S. Mixture representation of the Matern class with applications in state space approximations and Bayesian quadrature[C]∥Proc.of the IEEE 28th International Workshop on Machine Learning for Signal Processing, 2018.
[17]LIU K L, LI Y, HU X S, et al. Gaussian process regression with automatic relevance determination kernel for calendar aging prediction of lithiumion batteries[J]. IEEE Trans.on Industrial Informatics, 2019, 16(6): 3767-3777.
[18]TAGHAVIFAR H, MARDANI A. Gaussian process with automatic relevance determination predictive model for energy management of electric direct-drive wheels: experimental validation[J]. IEEE Trans.on Vehicular Technology, 2023, 73(2): 1910-1917.
[19]LIU T, CHAI W, WANG C C. Soft-sensors based on Gaussian process regression for wastewater treatment plants[C]∥Proc.of the IEEE 11th Data Driven Control and Learning Systems Conference, 2022: 437-442.
[20]楊成飛. 基于高斯過程的智能采樣策略研究[D]. 合肥: 中國科學技術大學, 2019.
YANG C F. Adaptive sampling strategy based on Gaussian process [D]. Hefei: University of Science and Technology of China, 2019.
[21]ALBRECHT T, RAUSCH T M, DERRA N D. Call me maybe: methods and practical implementation of artificial intelligence in call center arrivals’ forecasting[J]. Journal of Business Research, 2021, 123: 267-278.
[22]BERGMEIR C, COSTANTINI M, BENITEZ J M. On the useful-ness of cross-validation for directional forecast evaluation[J]. Computational Statistics amp; Data Analysis, 2014, 76: 132-143.
[23]CERQUEIRA V, TORGO L, MOZETIC I. Evaluating time series forecasting models: an empirical study on performance estimation methods[J]. Machine Learning, 2020, 109(11): 1997-2028.
[24]ARLOT S, CELISSE A. A survey of cross-validation procedures for model selection[J]. Statistics Surveys, 2010, 4(2010): 40-79.
[25]BERGMEIR C, HYNDMAN R J, KOO B. A note on the validity of cross-validation for evaluating autoregressive time series prediction[J]. Computational Statistics amp; Data Analysis, 2018, 120: 70-83.
[26]GUI C, SUN B L, SONG Y, et al. Variable length sliding window-based network coding algorithm in MANETs[C]∥Proc.of the International Conference on Mobile and Ubiquitous Systems: Networking and Services, 2017.
[27]MENG J F, GONG L, XU J. Sliding-window QPS (SW-QPS) a perfect parallel iterative switching algorithm for input-queued switches[J]. ACM Sigmetrics Performance Evaluation Review, 2021, 48(3): 71-76.
[28]LI L G, ZHAO J S, QIANG B H, et al. Prediction method of fan main shaft fault state based on sliding window characteristics[C]∥Proc.of the 10th International Conference on Internet Computing for Science and Engineering, 2021: 67-73.
[29]VARDHAN B V S, KHEDKAR M, SURESH V. Hyper-parame-ter tuned short term load forecasting using stochastic classifier-regression mapping for power system operator[C]∥Proc.of the IEEE PES 14th Asia-Pacific Power and Energy Engineering Conference, 2022.
[30]LI Z H, SHOEMAKER C A. Hyper-parameter optimization for deep learning by surrogate-based model with weighted distance exploration[C]∥Proc.of the IEEE Congress on Evolutionary Computation, 2021: 917-925.
[31]SODA上海開放數(shù)據(jù)創(chuàng)新應用大賽. 摩拜上海城區(qū)用戶使用數(shù)據(jù)[EB/OL]. [2024-01-10]. https:∥shanghai.sodachallenges.com/data.html.
作者簡介
劉學浩(1999—),男,碩士研究生,主要研究方向為通信與衛(wèi)星導航技術、信息與信號處理。
劉文學(1985—),男,高級工程師,博士,主要研究方向為衛(wèi)星導航相關的軟硬件設計、信號處理算法。
楊超三(1989—),男,助理研究員,博士,主要研究方向為衛(wèi)星通信與自組網(wǎng)通信。
祝文晶(1999—),女,博士研究生,主要研究方向為智能無線通信。
宋 玉(1999—),女,博士研究生,主要研究方向為智能無線通信、自組網(wǎng)通信。
李金海(1978—),男,高級工程師,博士,主要研究方向為衛(wèi)星導航、寬帶無線通信。