摘要:基于數(shù)據(jù)驅(qū)動(dòng)的時(shí)間序列預(yù)測(cè)模型通常需要大量的訓(xùn)練數(shù)據(jù),當(dāng)數(shù)據(jù)量不足時(shí)將導(dǎo)致建模的準(zhǔn)確性下降。本文針對(duì)時(shí)間序列預(yù)測(cè)中的小樣本問題,提出了一種基于改進(jìn)變分自編碼器(Variational Auto-Encoder, VAE) 的時(shí)間序列數(shù)據(jù)增強(qiáng)方法,旨在生成和原始數(shù)據(jù)不同但分布相似的虛擬數(shù)據(jù)。通過在編碼網(wǎng)絡(luò)中引入多頭自注意力機(jī)制挖掘原始數(shù)據(jù)深層特征,為解碼網(wǎng)絡(luò)生成數(shù)據(jù)時(shí)提供全面的特征信息;引入殘差連接避免模型出現(xiàn)梯度消失的問題。由于時(shí)間序列數(shù)據(jù)具有趨勢(shì)與周期性,故在解碼網(wǎng)絡(luò)中引入趨勢(shì)組件和季節(jié)性組件,以準(zhǔn)確表示原始數(shù)據(jù)的時(shí)間特性,并且為數(shù)據(jù)的生成過程賦予時(shí)間上的可解釋性。為了驗(yàn)證本文方法的有效性,和當(dāng)前常用的時(shí)序數(shù)據(jù)增強(qiáng)方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,該方法在虛擬樣本的生成和時(shí)間序列回歸預(yù)測(cè)上均具有較好表現(xiàn)。
關(guān)鍵詞:小樣本;數(shù)據(jù)增強(qiáng);時(shí)間序列數(shù)據(jù);VAE;可解釋性
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)志碼:A
近些年來,隨著計(jì)算機(jī)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的時(shí)間序列預(yù)測(cè)方法被各行各業(yè)所關(guān)注[1]。通過對(duì)時(shí)間序列數(shù)據(jù)的分析,發(fā)現(xiàn)其中所存在的規(guī)律可以對(duì)未來事物的發(fā)展趨勢(shì)進(jìn)行評(píng)估和管理[2]。一般來說,時(shí)間序列預(yù)測(cè)方法為基于數(shù)據(jù)驅(qū)動(dòng)的方法[3],需要大量的訓(xùn)練數(shù)據(jù)來挖掘研究對(duì)象中所包含的知識(shí)信息。當(dāng)數(shù)據(jù)量不足時(shí),預(yù)測(cè)模型無法充分學(xué)習(xí)研究對(duì)象中的特征依賴信息,所得模型的預(yù)測(cè)精度難以滿足要求。所以在小樣本下的時(shí)序數(shù)據(jù)增強(qiáng)問題具有重要的研究意義。
數(shù)據(jù)增強(qiáng)方法在小樣本問題中被廣泛應(yīng)用,生成一批和原始數(shù)據(jù)不同但分布相似的數(shù)據(jù),通過增加訓(xùn)練數(shù)據(jù)量達(dá)到提高模型預(yù)測(cè)精度的目的。Shen 等[4] 針對(duì)工業(yè)生產(chǎn)中的小樣本問題,提出了一種基于高斯混合的樣本生產(chǎn)算法(GMM-VSG)。Ohno[5] 提出使用變分自編碼器( Variational Auto-Encoder ,VAE)[6] 作為數(shù)據(jù)生成模型,幫助解決回歸預(yù)測(cè)中的小樣本問題。Zhao 等[7]將VAE 中通過高斯分布采樣的隱空間變量無限生成振動(dòng)信號(hào),將合成的振動(dòng)信號(hào)和原始信號(hào)混合達(dá)到增強(qiáng)訓(xùn)練的目的。Yu 等[8] 為了解決信貸數(shù)據(jù)集中小樣本問題,提出一種基于極限學(xué)習(xí)機(jī)的數(shù)據(jù)增強(qiáng)方法(ELM-VSG),該方法將隱空間特征進(jìn)行線性插值再生成虛擬樣本。上述方法在生成虛擬樣本時(shí),僅僅考慮數(shù)據(jù)的特征維度的信息, 并未考慮時(shí)間維度上的動(dòng)態(tài)信息。Wen 等[9] 在時(shí)間序列預(yù)測(cè)的研究中指出,在進(jìn)行時(shí)間序列預(yù)測(cè)問題的分析時(shí)需要重點(diǎn)關(guān)注數(shù)據(jù)在時(shí)間上的動(dòng)態(tài)信息。因此如果只是通過添加噪聲、裁剪序列數(shù)據(jù)尺寸或者簡(jiǎn)單地通過神經(jīng)網(wǎng)絡(luò)的映射能力生成虛擬樣本,可能得不到有助于提高時(shí)間序列預(yù)測(cè)精度的虛擬樣本。
由于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)[10] 在圖像生成領(lǐng)域的應(yīng)用越來越廣泛,研究者將該方法應(yīng)用于時(shí)間序列數(shù)據(jù)上。Chen[11]使用條件生成對(duì)抗網(wǎng)絡(luò)(CGAN) 生成時(shí)間序列數(shù)據(jù),實(shí)現(xiàn)了擴(kuò)充時(shí)間序列數(shù)據(jù)量的目的。Li 等[12] 提出一種合成數(shù)據(jù)的方法(TTS-GAN),成功合成了與原始序列任意長(zhǎng)度大小相同的時(shí)間序列數(shù)據(jù)。Yoon 等[13]提出一種合成多元時(shí)間序列數(shù)據(jù)的方法(TimeGAN),并通過實(shí)驗(yàn)驗(yàn)證了該方法相比于其他生成對(duì)抗方法的有效性。雖然基于GAN 網(wǎng)絡(luò)的合成數(shù)據(jù)方法在某些特定時(shí)間序列數(shù)據(jù)上表現(xiàn)出了有效性,但生成數(shù)據(jù)時(shí)判別器和生成器需要達(dá)到納什均衡[14]。在數(shù)據(jù)量少的情況下,納什均衡有時(shí)候可以達(dá)到而有時(shí)候并不能達(dá)到。所以GAN 類網(wǎng)絡(luò)的穩(wěn)定性不確定,難以保證生成的虛擬數(shù)據(jù)都是理想的數(shù)據(jù)。
華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年3期