中圖分類號(hào):TL329 文獻(xiàn)標(biāo)志碼:A DOI:10.19907/j.0490-6756.250053
A virtual measurement approach integrating attention mechanism with ED-LSTM model in nuclear engineering
HUANG Lei,ZHAO Da-Zhi2,LAI Li3,MINChao 1,2 (204號(hào) (1.School of Sciences,Southwest Petroleum University,Chengdu 6lO5Oo,China; 2.Institute for Artificial Intelligence,Southwest Petroleum University,Chengdu 6lO5Oo,China; 3.School ofMathematics,SichuanUniversity,Chengdu 6lOo65,China)
Abstract: Virtual measurement (VM) approaches are frequently employed in nuclear engineering for the transient condition monitoring of nuclear reactor.As a data-driven approach,VM eliminates the reliance on physical sensors and efectively overcomes thelimitations of conventional monitoring techniques,such as high deployment costs and maintenance challenges.Nowadays,mainstream VM approaches still exhibit inadequate temporal feature extraction and suboptimal prediction accuracy.In this paper,an enhanced VM framework that integrates attntion mechanism with Encoder-Decoder Long Short-Term Memory (ED-LSTM) ar chitecture is proposed.Four attntion mechanisms are used:temporal attention,causal attention,convolutional attention and hierarchical attention.Meanwhile,the attention mechanisms are incorporated into the EDLSTMmodel in three ways:encoder-only,decoder-only and encoder-decoder hybrid.To optimize the model parameters,a high-fidelity nuclear reactor transient dataset generated by PCTRAN simulation software is used,and 13 parameter configuration schemes are evaluated by using the performance metrics including Root Mean Square Error(RMSE),Mean Absolute Error(MAE)and coeficient of determination(R2),respectively.Simulation results demonstrate that:(i) The integration of every attention mechanism into the encoder of ED-LSTM model enhances the model prediction performance,in which the temporal attention mechanism achieves the optimal result through a 23.4% RMSE reduction;(ii) The integration of causal attention mechanism in every way improves the prediction stability across implementations;(ii) The integration of temporal,convolutional or hierarchical atention mechanism into the decoder of ED-LSTM model degrades the model prediction performance,likely due to the information redundancy or overfiting phenomena. The obtained results substantiate the technical feasibilityof integrating atention mechanism with ED-LSTM architecture for the precision enhancementof VM approaches.
Keywords: Nuclear engineering;Virtual measurement;ED-LSTM;Attention mechanism
1引言
虛擬測(cè)量方法是核工程中常用的一種瞬時(shí)狀態(tài)監(jiān)測(cè)工具.該方法用數(shù)學(xué)模型或數(shù)據(jù)驅(qū)動(dòng)的方法替代昂貴或難以實(shí)時(shí)獲取的傳感器數(shù)據(jù),能夠?yàn)橄到y(tǒng)的實(shí)時(shí)監(jiān)測(cè)控制和故障診斷提供關(guān)鍵信息.相比傳統(tǒng)的通過(guò)傳感器獲取數(shù)據(jù)的方法,虛擬測(cè)量方法具有成本低、部署靈活、維護(hù)簡(jiǎn)單等優(yōu)點(diǎn),且不受設(shè)備成本、規(guī)模和天氣的影響1.
虛擬測(cè)量方法使用的數(shù)據(jù)是一類特殊觀測(cè)時(shí)間序列2.此類數(shù)據(jù)可能來(lái)自金融、交通、能源、氣象、醫(yī)療及核工程等領(lǐng)域[3-7].時(shí)間序列預(yù)測(cè)方法是虛擬測(cè)量方法的數(shù)學(xué)基礎(chǔ).正是利用時(shí)間序列預(yù)測(cè),虛擬測(cè)量方法才能對(duì)數(shù)據(jù)進(jìn)行分析,提取其中的季節(jié)、趨勢(shì)及噪聲等信息,進(jìn)而用特定方法和模型來(lái)預(yù)測(cè)和推斷未來(lái)某時(shí)刻或某段時(shí)間內(nèi)數(shù)據(jù)的變化趨勢(shì).
時(shí)間序列預(yù)測(cè)方法的精度直接影響工業(yè)過(guò)程的感知能力,目前,復(fù)雜非線性系統(tǒng)的動(dòng)態(tài)變化特征給高精度、高魯棒性的虛擬測(cè)量方法帶來(lái)巨大的挑戰(zhàn).例如,雖然長(zhǎng)短期記憶(LongShort-TermMemory,LSTM)模型在捕獲數(shù)據(jù)的長(zhǎng)時(shí)間依賴趨勢(shì)方面表現(xiàn)優(yōu)越,也已被廣泛應(yīng)用于虛擬測(cè)量任務(wù),但在面對(duì)具有復(fù)雜非線性關(guān)系或長(zhǎng)時(shí)間跨度的數(shù)據(jù)(如核反應(yīng)堆數(shù)據(jù))時(shí)卻存在明顯局限性,如對(duì)輸人信息權(quán)重不平衡、無(wú)法有效識(shí)別關(guān)鍵數(shù)據(jù)等.為此,研究者提出了Encoder-DecoderLSTM(ED-LSTM)模型,并將其用于處理輸入和輸出序列長(zhǎng)度不對(duì)稱的時(shí)間序列數(shù)據(jù),研究表明,該方法在復(fù)雜時(shí)間序列預(yù)測(cè)中表現(xiàn)出色.
近年來(lái),部分研究者嘗試將注意力機(jī)制引入ED-LSTM模型.通過(guò)動(dòng)態(tài)調(diào)整模型對(duì)輸人序列各部分的關(guān)注度,此類研究試圖使模型聚焦于時(shí)序中最重要部分,以提高模型對(duì)數(shù)據(jù)關(guān)鍵特征的捕獲能力和預(yù)測(cè)精度.本文的研究是一個(gè)最新的嘗試.具體來(lái)說(shuō),通過(guò)將時(shí)間注意力、因果自注意力、卷積注意力及分層注意力等4種注意力機(jī)制引入ED-LSTM模型的編碼器或解碼器,本文研究了注意力機(jī)制對(duì)ED-LSTM模型預(yù)測(cè)能力的增強(qiáng)作用.基于PCTRAN仿真軟件所生成的核反應(yīng)堆高保真動(dòng)態(tài)數(shù)據(jù)集,本文通過(guò)仿真實(shí)驗(yàn)評(píng)價(jià)了融合不同注意力機(jī)制及不同融合方式的ED-LSTM模型的預(yù)測(cè)效果,并用箱型圖和熱力圖展示了不同注意力機(jī)制和融合方式對(duì)模型的預(yù)測(cè)性能的影響.
2 相關(guān)工作
2.1 虛擬測(cè)量方法
在核工程中,虛擬測(cè)量方法主要通過(guò)數(shù)據(jù)驅(qū)動(dòng)模型或基于物理規(guī)律的數(shù)值模擬來(lái)實(shí)現(xiàn)狀態(tài)監(jiān)測(cè).目前,該方法已被成功應(yīng)用在那些難以獲取直接測(cè)量數(shù)據(jù)的應(yīng)用場(chǎng)景,且表現(xiàn)突出[8.為了克服單一模型的局限性9,當(dāng)前的研究主要關(guān)注那些結(jié)合物理模型和機(jī)器學(xué)習(xí)的混合方法.然而,核動(dòng)力系統(tǒng)作為一類典型的復(fù)雜系統(tǒng),其高度的動(dòng)態(tài)性和非線性特征對(duì)現(xiàn)有虛擬測(cè)量方法從精度和適應(yīng)性等方面提出了巨大的挑戰(zhàn).
2.2 LSTM和ED-LSTM
長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM常被用于捕捉數(shù)據(jù)的長(zhǎng)時(shí)間依賴特征,目前已被廣泛應(yīng)用于金融及工業(yè)過(guò)程控制等應(yīng)用場(chǎng)景.LSTM通過(guò)門控機(jī)制來(lái)解決標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的梯度消失問(wèn)題,特別適合處理長(zhǎng)時(shí)間跨度的數(shù)據(jù)[10].
鑒于傳統(tǒng)的LSTM模型在輸入和輸出序列長(zhǎng)度不一致的任務(wù)中表現(xiàn)欠佳,研究者提出了ED-LSTM架構(gòu).該模型最初被用于自然語(yǔ)言處理,目前則已在各類復(fù)雜任務(wù)中得到應(yīng)用[11].在核工程應(yīng)用中,ED-LSTM模型可以有效捕捉系統(tǒng)的復(fù)雜非線性關(guān)系,能夠適應(yīng)系統(tǒng)的動(dòng)態(tài)變化,對(duì)提升虛擬測(cè)量方法的預(yù)測(cè)性能有重要作用[12].
2.3 注意力機(jī)制
雖然ED-LSTM在處理長(zhǎng)時(shí)間依賴數(shù)據(jù)方面有優(yōu)勢(shì),但該模型對(duì)復(fù)雜輸人中不同特征重要性的關(guān)注能力有限.另一方面,注意力機(jī)制能夠有效地緩解神經(jīng)網(wǎng)絡(luò)對(duì)長(zhǎng)時(shí)序的長(zhǎng)期依賴問(wèn)題,可能對(duì)提高ED-LSTM模型的可解釋性和性能起到重要作用[1.因此,將注意力機(jī)制引入ED-LSTM模型可能增強(qiáng)其對(duì)時(shí)序重要特征的捕捉能力.
本文選用4種注意力機(jī)制,分述如下,
(i)時(shí)間注意力機(jī)制.借鑒Bahdanau等[14提出的方法,時(shí)間注意力機(jī)制通過(guò)對(duì)每個(gè)時(shí)間步的重要性打分使模型聚焦于時(shí)序關(guān)鍵部分.如圖1所示,時(shí)間注意力機(jī)制采用線性變換和激活函數(shù)對(duì)輸入特征進(jìn)行映射,以注意力得分和因果掩碼策略確保模型只關(guān)注當(dāng)前和此前的時(shí)間步,防止信息泄露,并有效提取重要?dú)v史特征.涉及的主要公式如下:
其中, X′ 指經(jīng)過(guò) W 線性層處理后的輸入序列,v是可學(xué)習(xí)的權(quán)重向量,score,是時(shí)間步 t 的注意力得分, Wt 是時(shí)間步 t 的注意力權(quán)重, T 是總時(shí)間步數(shù),
Xt 表示第t個(gè)時(shí)間步的輸人數(shù)據(jù), Y 為輸出序列矩陣.另外,tanh激活函數(shù)用于隱藏層激活,它的輸出是有界的,有助于控制數(shù)據(jù)分布、減少梯度消失問(wèn)題,提高數(shù)值計(jì)算的穩(wěn)定性,Softmax函數(shù)將向量轉(zhuǎn)換為概率分布,常被用于注意力權(quán)重歸一化處理.
(ii)多頭因果自注意力機(jī)制,簡(jiǎn)稱多頭注意力機(jī)制.多頭注意力機(jī)制源自Transformer模型[15],通過(guò)查詢(Q)鍵 (K) 和值 (V) 矩陣的線性變換計(jì)算輸人的注意力的得分,并利用多個(gè)注意力頭來(lái)增強(qiáng)表示能力.
圖2為多頭注意力機(jī)制的基本結(jié)構(gòu).其中,因果掩碼策略確保當(dāng)前時(shí)間步的注意力計(jì)算只考慮當(dāng)前和之前的時(shí)間步,避免信息泄露,并提高預(yù)測(cè)精度與可靠性.涉及的主要公式如下:
(ii)時(shí)間卷積注意力機(jī)制.時(shí)間卷積注意力機(jī)制是卷積神經(jīng)網(wǎng)絡(luò)(CNN)與時(shí)間注意力機(jī)制的結(jié)合,結(jié)構(gòu)如圖3所示.類似于時(shí)間注意力機(jī)制,時(shí)間卷積注意力機(jī)制在進(jìn)行后續(xù)操作時(shí)先通過(guò)一維卷積提取輸人序列的局部特征,以便有效捕捉短期模式與局部依賴性[16].
(iv)分層注意力機(jī)制.分層注意力機(jī)制將時(shí)序劃分為多個(gè)片段,在每個(gè)片段內(nèi)計(jì)算局部注意力,再對(duì)片段特征進(jìn)行匯總、形成全局特征表示.分層注意力機(jī)制的結(jié)構(gòu)如圖4所示,其中,分層結(jié)構(gòu)使得模型能夠在不同粒度上學(xué)習(xí)時(shí)序特征、關(guān)注時(shí)序局部片段的重要性,然后結(jié)合全局結(jié)構(gòu)進(jìn)行建模,以增強(qiáng)模型對(duì)復(fù)雜層次結(jié)構(gòu)的理解能力[7].
3 數(shù)據(jù)及模型
3.1 數(shù)據(jù)
本研究使用的動(dòng)態(tài)數(shù)據(jù)集源自國(guó)際原子能署(IAEA)發(fā)布的《PCTRAN通用壓水反應(yīng)堆模擬器練習(xí)手冊(cè)》18中所描述的PCTRAN通用壓水堆仿真平臺(tái).該平臺(tái)基于兩回路壓水堆(PWR)的通用設(shè)計(jì)(熱功率 1800MW ,電功率 600MW ,主要包含反應(yīng)堆冷卻劑系統(tǒng)(RCS)應(yīng)急堆芯冷卻系統(tǒng)(ECCS)蒸汽發(fā)生器(SG)等核心模塊,可以模擬正常工況、瞬態(tài)事故及嚴(yán)重事故等條件下核動(dòng)力系統(tǒng)的動(dòng)態(tài)變化.該軟件采用一種基于熱工-水力耦合模型的實(shí)時(shí)數(shù)值計(jì)算方法,利用簡(jiǎn)化的兩回路壓水堆系統(tǒng)模型實(shí)時(shí)計(jì)算并更新反應(yīng)堆的各項(xiàng)動(dòng)態(tài)參數(shù),如溫度、壓力和流量等.軟件的交互式圖形界面如圖5所示.另一方面,基于以上數(shù)據(jù)集,用戶可以觀察和控制反應(yīng)堆系統(tǒng)的關(guān)鍵參數(shù),在正常、過(guò)渡與嚴(yán)重事故等多種模式下模擬反應(yīng)堆系統(tǒng)的瞬態(tài)響應(yīng),仿真結(jié)果可以反映壓水堆關(guān)鍵參數(shù)的動(dòng)態(tài)變化,適用于虛擬測(cè)量任務(wù)中的高保真數(shù)據(jù)生成.
本文隨機(jī)設(shè)置不同起始功率及其升降幅度,分別利用PCTRAN仿真得到反應(yīng)堆在“升功率”、“降功率”和“甩負(fù)荷”等3種工況條件下的多組數(shù)據(jù),然后各取2組數(shù)據(jù)進(jìn)行整合,作為訓(xùn)練集,同時(shí)以“甩負(fù)荷”工況的第3組數(shù)據(jù)作為測(cè)試集.本文選取常見(jiàn)的13個(gè)物理傳感器提供的系統(tǒng)參數(shù)進(jìn)行仿真,如表1所示,其中前12個(gè)傳感器作為輸入特征,“LSGA\"作為預(yù)測(cè)的目標(biāo)變量.
3.2模型
本文構(gòu)建一種基于ED-LSTM架構(gòu)的預(yù)測(cè)模型,并將時(shí)間注意力、因果注意力、卷積注意力和分層注意力等4種注意力機(jī)制分別融合進(jìn)模型,以增強(qiáng)模型對(duì)時(shí)間序列的理解和特征提取能力.如圖6所示,ED-LSTM模型由編碼器(Encoder)和解碼器(Decoder)組成,其中編碼器負(fù)責(zé)提取輸入序列的特征,解碼器負(fù)責(zé)逐步生成未來(lái)時(shí)間步的預(yù)測(cè).時(shí)間注意力的添加方式有3種:只在編碼器添加,只在解碼器添加以及同時(shí)在編碼器和解碼器添加.
模型的輸入有多個(gè)特征,涵蓋P、THA、THB、WFHB等多個(gè)傳感器特征信息.這些輸入特征首先被傳入編碼器,編碼器基于LSTM網(wǎng)絡(luò)結(jié)構(gòu)提取時(shí)序中隱藏層的特征.在編碼器部分,模型采用多層LSTM網(wǎng)絡(luò)對(duì)輸入時(shí)序進(jìn)行處理,然后根據(jù)需求選擇是否在編碼器中添加注意力機(jī)制來(lái)提高特征表示能力.在解碼器部分,該模型同樣采用多層LSTM來(lái)逐步生成輸出序列,并根據(jù)需求選擇是否結(jié)合注意力機(jī)制動(dòng)態(tài)地聚焦編碼器的輸出特征.
結(jié)果與分析
為全面評(píng)價(jià)不同注意力機(jī)制及融合方式對(duì)ED-LSTM模型的預(yù)測(cè)效果的影響,本文設(shè)計(jì)了包含4種注意力機(jī)制及3種添加方式的仿真實(shí)驗(yàn),共12種,并將結(jié)果與無(wú)注意力機(jī)制的基準(zhǔn)仿真實(shí)驗(yàn)進(jìn)行比較.因此,仿真實(shí)驗(yàn)共有13組.在仿真實(shí)驗(yàn)中,每組實(shí)驗(yàn)均進(jìn)行40次重復(fù)實(shí)驗(yàn),以確保結(jié)果的穩(wěn)定性和可靠性、減少偶然因素的影響,每次實(shí)驗(yàn)都記錄模型的主要性能指標(biāo),主要包括均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和判定系數(shù)(R2) .另外,本研究采用7:3的訓(xùn)練集與驗(yàn)證集劃分比例,以確保模型的訓(xùn)練和驗(yàn)證數(shù)據(jù)充足且均衡.
在模型調(diào)參階段,通過(guò)逐步調(diào)整隱藏層單元數(shù)、Dropout率和學(xué)習(xí)率等參數(shù),本文發(fā)現(xiàn),任務(wù)表2中所示的參數(shù)設(shè)置能夠有效捕捉時(shí)間序列中的關(guān)鍵特征.此外,AdamW優(yōu)化器在傳統(tǒng)Adam優(yōu)化器的基礎(chǔ)上引入了權(quán)重衰減(L2正則化),有助于模型在訓(xùn)練過(guò)程中穩(wěn)定收斂,而結(jié)合Dropout則可以有效減少過(guò)擬合的風(fēng)險(xiǎn).
鑒于核動(dòng)力系統(tǒng)中的傳感器對(duì)預(yù)測(cè)精度有極高要求,本文優(yōu)先考慮將RMSE作為主要評(píng)價(jià)指標(biāo),因?yàn)樗芊糯笳`差對(duì)模型性能的影響、避免忽略較大偏差導(dǎo)致的潛在風(fēng)險(xiǎn).此外,MAE能夠反映模型對(duì)穩(wěn)態(tài)參數(shù)的預(yù)測(cè)穩(wěn)定性, R2 能夠反映模型對(duì)目標(biāo)變量的解釋能力.因此,結(jié)合MAE和 R2 就能夠全面評(píng)價(jià)模型的整體誤差水平和擬合能力、為決策提供可靠依據(jù).
為減少仿真實(shí)驗(yàn)過(guò)程中由隨機(jī)初始化或偶然波動(dòng)導(dǎo)致的極端誤差對(duì)結(jié)果的影響,本文參考穩(wěn)健統(tǒng)計(jì)學(xué)[19]中的截尾均值法,以RMSE值為參照,剔除每組實(shí)驗(yàn)中5個(gè)最大值和5個(gè)最小值,保留中間30次實(shí)驗(yàn)的結(jié)果進(jìn)行統(tǒng)計(jì)分析.截尾均值法的基本思想是先將數(shù)據(jù)按大小順序排列,去掉兩端一定比例或一定數(shù)量的極端值,然后對(duì)剩下的數(shù)據(jù)計(jì)算均值,以便有效降低異常數(shù)據(jù)對(duì)整體評(píng)估的干擾,同時(shí)保留數(shù)據(jù)分布的核心特征,提升結(jié)果的穩(wěn)健性和可重復(fù)性[20].
為行文簡(jiǎn)潔,本文對(duì)注意力機(jī)制的添加方式進(jìn)行簡(jiǎn)記.以時(shí)間注意力為例,只對(duì)編碼器添加記為“時(shí)間注意力-E”,只對(duì)解碼器添加記為“時(shí)間注意力-D”,對(duì)編碼器和解碼器都添加則記為“時(shí)間注意力-ED”.其他注意力機(jī)制類似簡(jiǎn)記.
對(duì)30次實(shí)驗(yàn)得到的評(píng)價(jià)指標(biāo)求平均,以無(wú)注意力的基準(zhǔn)模型得到的結(jié)果作為對(duì)照組,融合注意力后的模型得到的結(jié)果作為實(shí)驗(yàn)組,結(jié)果參見(jiàn)表3.我們有如下結(jié)果.
(i)只對(duì)編碼器添加注意力機(jī)制時(shí),4種注意力機(jī)制均能提高模型的預(yù)測(cè)性能,這可能得益于注意力機(jī)制聚焦關(guān)鍵特征的能力.
(ii)3種不同的因果注意力機(jī)制添加方式都能提高模型的預(yù)測(cè)性能,這可能是因?yàn)槎囝^注意力機(jī)制能夠捕捉多個(gè)傳感器之間的關(guān)系、使模型的性能提升更穩(wěn)定.
(iii)在解碼器中分別添加時(shí)間、卷積和分層注意力機(jī)制導(dǎo)致模型的預(yù)測(cè)性能降低,這可能是因?yàn)榫幋a器提供的特征信息已經(jīng)足夠多,在解碼器上引入注意力反而會(huì)使模型關(guān)注相同的信息、導(dǎo)致信息冗余,破壞預(yù)測(cè)的連貫性.
(iv)綜合比較來(lái)看,只在編碼器上添加時(shí)間注意力機(jī)制對(duì)模型預(yù)測(cè)效果的提高最大,RMSE指標(biāo)降低了 23.4% ·
圖7為根據(jù)實(shí)驗(yàn)結(jié)果繪制的箱型圖.此圖更直觀地展示了仿真實(shí)驗(yàn)結(jié)果的RMSE值的分布情況,如中位數(shù)、四分位數(shù)和異常值等.可以看到,圖7的結(jié)果與表3基本一致:時(shí)間注意力-E的中位數(shù)RMSE值最低且分布相對(duì)集中,表明在編碼器中添加時(shí)間注意力的效果最好,能夠顯著且穩(wěn)定地降低模型的預(yù)測(cè)誤差.
進(jìn)一步,本文通過(guò)假設(shè)檢驗(yàn)比較了實(shí)驗(yàn)結(jié)果之間的差異顯著性,鑒于時(shí)間序列不服從正態(tài)分布,本文采用非參數(shù)統(tǒng)計(jì)中的Mann-WhitneyU檢驗(yàn)[21來(lái)進(jìn)行分析并繪制熱力圖,結(jié)果如圖8所示,其中深藍(lán)色的區(qū)域表示p值小于顯著性水平,對(duì)應(yīng)的兩組RMSE值有顯著性差異.可以看到,結(jié)果與表3和圖7中的結(jié)果同樣一致.
5 結(jié)論與展望
本文分析了不同注意力機(jī)制及融合方式對(duì)ED-LSTM模型預(yù)測(cè)性能的作用,得到了一個(gè)最佳的融合注意力機(jī)制與ED-LSTM模型的虛擬測(cè)量方法.仿真結(jié)果表明,在模型的編碼器上添加注意力機(jī)制能夠最大化地提高模型的預(yù)測(cè)效果.該方法有望大大提升核工程虛擬測(cè)量方法的精度和適應(yīng)性.
對(duì)不同類型的核工程數(shù)據(jù),特定的注意力機(jī)制可能發(fā)揮關(guān)鍵性作用.通過(guò)定制化設(shè)計(jì),可能更好捕捉時(shí)序中的關(guān)鍵模式和變化,在虛擬測(cè)量任務(wù)中實(shí)現(xiàn)更高準(zhǔn)確性和魯棒性.因此,在未來(lái)研究中可以考慮對(duì)添加在解碼器上的注意力機(jī)制進(jìn)行定制和優(yōu)化,探索更高效的注意力機(jī)制,有效減少信息冗余,增強(qiáng)模型對(duì)時(shí)序關(guān)鍵特征的聚焦能力.此外,將模型與其他先進(jìn)神經(jīng)網(wǎng)絡(luò)架構(gòu)(如圖神經(jīng)網(wǎng)絡(luò)或變換器)結(jié)合使用可能更有助于提高模型對(duì)復(fù)雜動(dòng)態(tài)系統(tǒng)的預(yù)測(cè)適應(yīng)性和精度.總之,未來(lái)的工作應(yīng)致力于在保持模型復(fù)雜度可控的前提下提升其在實(shí)際應(yīng)用中的效果.
參考文獻(xiàn):
[1]Liu L,Kuo S M,Zhou M C.Virtual sensing techniques and their applications [C]// 2OO9 International Conference on Networking,Sensing and Control, Okayama,Japan.Piscataway: IEEE,2O09:31.
[2]Sriramalakshmi P,Subhasree V,Vondivillu S T,et al.Time series analysis and forecasting of wind turbine data [C]// Proceedings of the 2022 International Virtual Conference on Power Engineering Computing and Control: Developments in Electric Vehicles and Energy Sector for Sustainable Future (PECCON). Piscataway: IEEE, 2022:1.
[3]Hernandez-Matamoros A,F(xiàn)ujita H,Hayashi T,et al.Forecasting of COVID19 per regions using ARIMA models and polynomial functions [J]. Appl Soft Comput,2020,96:106610.
[4] Dash A,Ye J,WangG.A review of generative adversarial networks(GANs)and its applications in a wide variety of disciplines:From medical to remote sensing[J].IEEE Access,2023,12:18330.
[5] Kamalov F,RajabK,Cherukuri AK,et al.Deep learning for Covid-19 forecasting:State-of-the-art review [J].Neurocomputing,2022,511:142.
[6] Liu YL,Gu Y L. Spatiotemporal characteristics prediction of highway traffic flow based on CNNBiLSTM[J].Traffic Science and Economy,2022, 24:9.[劉永樂(lè),谷遠(yuǎn)利.基于CNN-BiLSTM的高 速公路交通流量時(shí)空特性預(yù)測(cè)[J].交通科技與經(jīng) 濟(jì),2022,24:9.]
[7] Gasparin A,Lukovic S,Alippi C. Deep learning for time series forecasting: The electric load case[J]. CAAI Transactions on Intelligence Technology,2022,7: 1.
[8] LiL,Zhang Y X,Yu Q Y.Review and prospect of virtual measurement technology for manufacturing processes[J].InfControl,2023(3),52(3):417. [李莉,張雅瑄,于青云.面向制造過(guò)程的虛擬量測(cè) 技術(shù)綜述與展望[J].信息與控制,2023,52 (3):417.]
[9] HiscoxBD,PopovEL,ArchibaldRK,et al.Artificial intellgence for multiphysics nuclear design optimization with additive manufacturing[R].Oak Ridge: Oak Ridge National Laboratory, 2021.
[10]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9:1735.
[11]:Sutskever I,Vinyals O,Le Q V. Sequence to sequence learning with neural networks [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems (NIPS). Montreal: MIT Press,2014:3104.
[12]ChoK,MerrienboerBV,GulcehreC,etal.Learningphrase representations using RNN encoderdecoder for statistical machine translation [C]// Conference on Empirical Methods in Natural Language Processing(EMNLP),Doha,Qatar. Stroudsburg:ACL,2014:1724.
[13]Liu JW,Liu JW,Luo X L. Research progress in attention mechanism in deep learning[J].Chinese Jour nal of Engineering,2021,43:1499.[劉建偉,劉俊 文,羅雄麟.深度學(xué)習(xí)中注意力機(jī)制研究進(jìn)展[J]. 工程科學(xué)學(xué)報(bào),2021,43:1499.]
[14]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and trans late[EB/OL].[2025-02-10] htps://arxiv.org/abs/ 1409.0473.
[15]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proceedings of the 3lst International Conference on Neural Information Processing Systems.Long Beach,California.New York: ACM,2017:6000.
[16]Lecun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE,1998,86:2278.
[17]Yang Z,Yang D,Dyer C,et al. Hierarchical attention networks for document classification [C]// Proceedings of the 2Ol6 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego,California. Stroudsburg:ACL, 2O16:1480.
[18]IAEA. PCTRAN generic pressurized water reactor simulator exercise handbook [M].Vienna:IAEA, 2019.
[19]Huber PJ,Roncheti E M.Robust statistics[M]. Hoboken: John Wileyamp; Sons,2009.
[20]Wilcox R.Introduction to robust estimation and hy pothesis testing[M].Amsterdam:Elsevier,2017.
[21]Myles H,Douglas W A,Eric C.Nonparametric statistical methods[M].Hoboken:John Wileyamp;. Sons,2015.
(責(zé)任編輯:周興旺)
四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2025年4期