張 洪
(上海寶信軟件股份有限公司工業(yè)互聯(lián)網(wǎng)研究院/大數(shù)據(jù)中心 上海:201203)
廢鋼是一種可循環(huán)再生利用的寶貴資源,是鋼鐵生產(chǎn),尤其是短流程工藝煉鋼中的重要原料。相較于以鐵礦石為主要原料的傳統(tǒng)長(zhǎng)流程煉鋼,以廢鋼為原料的短流程煉鋼在碳排放方面有明顯優(yōu)勢(shì)。為達(dá)到國(guó)家提出的碳達(dá)峰、碳中和的目標(biāo),廢鋼在鋼鐵冶煉行業(yè)中的應(yīng)用必將受到重視。另一方面,我國(guó)作為鋼鐵生產(chǎn)和消費(fèi)大國(guó),對(duì)海外的鐵礦石資源高度依賴。提高原料中廢鋼占比,可以緩解行業(yè)市場(chǎng)受制于人的局面,因此廢鋼加工生產(chǎn)企業(yè)在未來(lái)將有廣闊的發(fā)展前景。
對(duì)于廢鋼加工企業(yè)而言,掌控廢鋼市場(chǎng)采購(gòu)和銷售價(jià)格是企業(yè)控制成本和提高利潤(rùn)的關(guān)鍵因素。準(zhǔn)確預(yù)測(cè)未來(lái)廢鋼價(jià)格波動(dòng),判斷未來(lái)廢鋼供需關(guān)系,可以指導(dǎo)企業(yè)提前制定合適的策略,選擇正確的時(shí)機(jī)采購(gòu)以及銷售合適的產(chǎn)品。另外,即將推出的廢鋼期貨使得廢鋼具備了金融屬性,價(jià)格預(yù)測(cè)結(jié)果可以幫助相關(guān)企業(yè)制定套期保值方案,甚至構(gòu)建相關(guān)的投資策略。基于上述分析,相關(guān)從業(yè)者亟需一套廢鋼價(jià)格預(yù)測(cè)方法論。
目前業(yè)內(nèi)對(duì)此問(wèn)題的研究,主要集中于通過(guò)分析上下游相關(guān)行業(yè)的運(yùn)行走勢(shì),結(jié)合從業(yè)者的市場(chǎng)經(jīng)驗(yàn),人為給出定性的判斷,定量的研究成果比較有限。本次研究運(yùn)用大數(shù)據(jù)與人工智能前沿技術(shù),通過(guò)分析歷史數(shù)據(jù),建立深度學(xué)習(xí)模型,提供廢鋼未來(lái)價(jià)格走勢(shì)的若干量化預(yù)測(cè)結(jié)果。
國(guó)內(nèi)廢鋼價(jià)格定量研究的相關(guān)工作目前主要集中于探索廢鋼與替代品價(jià)格的相關(guān)性分析。在文獻(xiàn)[1]中,作者通過(guò)對(duì)廢鋼價(jià)格和鐵礦石普指價(jià)格做因果關(guān)系檢驗(yàn),得出了普指價(jià)格能深度影響廢鋼價(jià)格,但廢鋼價(jià)格對(duì)普指價(jià)格影響較弱的結(jié)論。但以廢鋼歷史價(jià)格變化作為一個(gè)時(shí)間序列,進(jìn)而建模預(yù)測(cè)未來(lái)價(jià)格趨勢(shì)的研究成果較少。
關(guān)聯(lián)下游行業(yè)中,鋼材產(chǎn)品如螺紋鋼、熱軋卷板等市場(chǎng)價(jià)格的建模預(yù)測(cè),相對(duì)而言成果較多。如在文獻(xiàn)[2]、[4]、[6]中引入BP神經(jīng)網(wǎng)絡(luò),文獻(xiàn)[3]中支持向量機(jī)(Support Vector Machine),文獻(xiàn)[4]、[5]中引入時(shí)間序列ARMA模型等,對(duì)西本鋼材價(jià)格、熱軋鋼價(jià)格等指數(shù)做了短期波動(dòng)或長(zhǎng)期趨勢(shì)預(yù)測(cè),其預(yù)測(cè)精度也具有一定的實(shí)際參考價(jià)值。相關(guān)方法論也可探索遷移至廢鋼領(lǐng)域。
如果以目前市場(chǎng)中最具影響力的廢鋼價(jià)格指數(shù)(如鋼之家廢鋼價(jià)格指數(shù))作為研究指標(biāo),其可視為一種金融時(shí)間序列,相關(guān)研究成果也可作為重要參考來(lái)源。近年來(lái),隨著計(jì)算機(jī)技術(shù)的發(fā)展,深度學(xué)習(xí)已被廣泛應(yīng)用于金融時(shí)間序列預(yù)測(cè)上,尤其是以長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM,Long-Short Term Memory)為代表的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, Recurrent Neural Network),展現(xiàn)出相較于傳統(tǒng)統(tǒng)計(jì)方法在精度和效率上的優(yōu)勢(shì),如在文獻(xiàn)[7]、[8]中,不論是以道瓊斯、標(biāo)準(zhǔn)普爾為代表的指數(shù)預(yù)測(cè),還是對(duì)英特爾等單只股票的價(jià)格預(yù)測(cè),均能達(dá)到50%以上的趨勢(shì)預(yù)測(cè)準(zhǔn)確度。
相較上述模型,本次研究采用的主要算法模型——時(shí)間卷積網(wǎng)絡(luò)(TCN, Temporal Convolution Network)是深度學(xué)習(xí)領(lǐng)域在時(shí)序預(yù)測(cè)方面的更前沿技術(shù)。其本質(zhì)是用因果卷積和擴(kuò)張卷積進(jìn)行時(shí)間序列建模,相較循環(huán)神經(jīng)網(wǎng)絡(luò),能捕捉更長(zhǎng)時(shí)間維度(更長(zhǎng)過(guò)往歷史)的信息,并且模型訓(xùn)練效率更高。文獻(xiàn)[9]中詳細(xì)說(shuō)明了時(shí)間卷積網(wǎng)絡(luò)的特性,文獻(xiàn)[10]、[11]中探索其在股票指數(shù)預(yù)測(cè)問(wèn)題的應(yīng)用,結(jié)果展示出其預(yù)測(cè)性能明顯優(yōu)于對(duì)應(yīng)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。
基于時(shí)間卷積網(wǎng)絡(luò)的廢鋼價(jià)格預(yù)測(cè)模型建立以及訓(xùn)練流程如圖1所示,包含如下幾個(gè)模塊。
圖1 廢鋼價(jià)格預(yù)測(cè)模型建模流程圖
建模目標(biāo)是鋼之家6-10mm重廢鋼價(jià)格指數(shù)。除此以外,還需要普氏鐵礦石指數(shù)、國(guó)內(nèi)港口鐵礦石庫(kù)存、鋼之家螺紋鋼現(xiàn)貨價(jià)格指數(shù)、螺紋鋼HRB400規(guī)格現(xiàn)貨價(jià)格、螺紋鋼期貨結(jié)算價(jià)與成交量、全國(guó)鋼廠螺紋鋼庫(kù)存與產(chǎn)線開工率、鋼企廢鋼庫(kù)存以及日均到貨量、國(guó)內(nèi)汽車產(chǎn)量、房地產(chǎn)開投完成額等12組數(shù)據(jù)作為候選變量。
通過(guò)Granger因果關(guān)系檢驗(yàn),提取出與重廢鋼價(jià)格具備相關(guān)性的特征變量作為模型入?yún)ⅰ?/p>
為了提高深度學(xué)習(xí)模型訓(xùn)練時(shí)使用的梯度下降法的收斂速度,需要對(duì)源數(shù)據(jù)各字段做歸一化處理。本次使用的最大最小標(biāo)準(zhǔn)化方法,即
其中xsrc,xnew,xmax,xmin分別表示源數(shù)據(jù),歸一化數(shù)據(jù),源數(shù)據(jù)中的最大值和最小值。
采用隨機(jī)采樣的方式,將源數(shù)據(jù)集按照85%的比例劃分為訓(xùn)練集,15%為測(cè)試集。其中訓(xùn)練集用于模型訓(xùn)練和交叉驗(yàn)證,測(cè)試集用于模型評(píng)估。
此模型主體是帶2層時(shí)間卷積網(wǎng)絡(luò)的殘差模塊,并最終通過(guò)1層全連接層輸出最終的預(yù)測(cè)結(jié)果。其中所用的時(shí)間卷積網(wǎng)絡(luò)是通過(guò)3個(gè)因果卷積疊加而成的擴(kuò)張卷積網(wǎng)絡(luò)構(gòu)建殘差,再與1個(gè)1×1卷積核的卷積網(wǎng)絡(luò)組合而成。具體架構(gòu)如圖2,分別展示了模型全貌以及其中的核心時(shí)間卷積網(wǎng)絡(luò)(使用了大小為3的卷積核,四次擴(kuò)張因子依此為d=1,2,4,8)。
圖2 模型架構(gòu)與時(shí)間卷積網(wǎng)絡(luò)架構(gòu)
假設(shè)模型輸入表示為x=(xT,xT-1,…xT-n+1,xT-n),分別代表第T,T-1,…,T-n天的輸入向量(歸一化后的廢鋼價(jià)格以及其他相關(guān)指數(shù)),則經(jīng)過(guò)擴(kuò)張因子d,大小為k的卷積核以后,則第s天輸出為
這里f代表的是卷積核。以圖2為例,記經(jīng)歷一系列的擴(kuò)張卷積變換的結(jié)果為
G(x)=(F8F4F2F1)(F8F4F2F1)(x)
則模型的最終輸出為
o=D(ReLU(G(x)+C(x)))
這里C(x)是用于殘差計(jì)算的1×1卷積變換,ReLU是激活函數(shù),D(x)是全連接層代表的函數(shù)。計(jì)算可知,在k=3,d=1,2,4,8時(shí),模型可以通過(guò)使用過(guò)去33天的數(shù)據(jù),預(yù)測(cè)未來(lái)1天的結(jié)果,并且不會(huì)容易出現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)常見(jiàn)的訓(xùn)練時(shí)梯度爆炸的問(wèn)題,大大提高了模型捕捉信息的能力。
本次工作中,模型實(shí)現(xiàn)使用的tensorflow和keras框架,其中的時(shí)間卷積網(wǎng)絡(luò)是基于1維卷積層Conv1D加工得到。
模型訓(xùn)練時(shí)參考的目標(biāo)是均方差損失函數(shù),即未來(lái)一天真實(shí)價(jià)格與預(yù)測(cè)值(均經(jīng)過(guò)歸一化)誤差平方的平均值。在進(jìn)行模型評(píng)估時(shí)還考慮了價(jià)格趨勢(shì)預(yù)測(cè)的準(zhǔn)確率,即預(yù)測(cè)未來(lái)一天價(jià)格向上或者向下波動(dòng)趨勢(shì)的準(zhǔn)確率。在最優(yōu)化均方差損失函數(shù)時(shí),我們選擇了一種梯度下降算法Adam,相較其他算法,在效率和效果上均取得較好的平衡性。
通過(guò)對(duì)訓(xùn)練集做交叉驗(yàn)證,對(duì)模型的超參數(shù)進(jìn)行選擇。超參數(shù)主要包括梯度下降算法的學(xué)習(xí)速率、Dropout層的比率、TCN網(wǎng)絡(luò)卷積核大小、擴(kuò)張因子、輸出的特征個(gè)數(shù)等。另外合理的權(quán)重初始化策略也是保證模型訓(xùn)練收斂效果和速度的重要影響因素。本次工作中,最終選擇了k=2,d=1,2,4,8,f=4這樣的超參數(shù)組合決定模型架構(gòu),其他關(guān)鍵選擇包括梯度下降算法的學(xué)習(xí)速率選定為0.001,Dropout層的比率選定為0.2。對(duì)卷積層權(quán)重用He Normal,對(duì)全連接層權(quán)重用Glorot Uniform兩種初始化策略進(jìn)行模型的訓(xùn)練,并經(jīng)過(guò)多次隨機(jī)實(shí)驗(yàn),篩選出均方差最小的一組初值權(quán)重進(jìn)行模型重訓(xùn)練以及后續(xù)評(píng)估。
為了評(píng)估模型實(shí)際預(yù)測(cè)的效果,本次研究對(duì)比了幾種基準(zhǔn)模型在廢鋼價(jià)格預(yù)測(cè)問(wèn)題上的性能,包括了ARIMA模型,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM,基于門控循環(huán)單元GRU的循環(huán)神經(jīng)網(wǎng)絡(luò)等。對(duì)比的指標(biāo)包括了在訓(xùn)練集以及測(cè)試集上均方差以及趨勢(shì)預(yù)測(cè)準(zhǔn)確率等。
模型訓(xùn)練以及評(píng)估所用的數(shù)據(jù)范圍為2018年10月16日開始至2020年12月30日終止的鋼之家廢鋼價(jià)格指數(shù),其發(fā)布頻率為按日發(fā)布。其他12個(gè)相關(guān)影響因子也采集同一時(shí)間范圍的數(shù)據(jù),其中普氏鐵礦石指數(shù)、螺紋鋼現(xiàn)貨價(jià)格指數(shù)、HRB400現(xiàn)貨價(jià)格、螺紋鋼期貨結(jié)算價(jià)與成交量按日發(fā)布;港口鐵礦石庫(kù)存、鋼廠螺紋鋼庫(kù)存與產(chǎn)線開工率、鋼企廢鋼庫(kù)存以及日均到貨量、國(guó)內(nèi)汽車產(chǎn)量、房地產(chǎn)開投完成額按周或月發(fā)布,折算為日均數(shù)據(jù)進(jìn)行分析。
在將各組因子進(jìn)行歸一化處理以后,對(duì)各因子分別于廢鋼價(jià)格指數(shù)做Granger因果假設(shè)檢驗(yàn),表1是F-test對(duì)應(yīng)的p值結(jié)果。由表1結(jié)果可見(jiàn),螺紋鋼現(xiàn)貨、期貨價(jià)格以及鐵礦石指數(shù)都對(duì)廢鋼價(jià)格走勢(shì)有一定影響力,可對(duì)廢鋼價(jià)格預(yù)測(cè)有一定貢獻(xiàn),因此將此3組變量作為外部影響因子選入模型參數(shù)。
模型的訓(xùn)練集和測(cè)試集大致按85:15的比例劃分,即選擇2018年10月16日開始至2020年8月31日終止的時(shí)間序列作為訓(xùn)練集,2020年9月1日開始至2020年12月30日終止的時(shí)間序列作為測(cè)試集。按照模型設(shè)計(jì)中TCN的描述,此模型是使用過(guò)往33天的數(shù)據(jù)預(yù)測(cè)未來(lái)1天的價(jià)格,即擬合如下函數(shù),x34=f(x1,x2,…,x33)(xn表示第n天的廢鋼價(jià)格),因此訓(xùn)練集中包含686條記錄,測(cè)試集中包含121條數(shù)據(jù)。
為了檢驗(yàn)?zāi)P偷男阅?,本次工作考慮了兩組指標(biāo):(歸一化后)價(jià)格預(yù)測(cè)均方誤差以及價(jià)格趨勢(shì)預(yù)測(cè)準(zhǔn)確度。均方誤差是模型訓(xùn)練時(shí)的目標(biāo)損失函數(shù);趨勢(shì)預(yù)測(cè)即預(yù)測(cè)未來(lái)一天價(jià)格漲或跌的趨勢(shì),其準(zhǔn)確度定義為,在所有日期中,預(yù)測(cè)的漲跌趨勢(shì)與實(shí)際的結(jié)果相一致的天數(shù)所占的比例。均方誤差越小,趨勢(shì)預(yù)測(cè)準(zhǔn)確度越高,代表模型的性能越強(qiáng)。
依照模型設(shè)計(jì)中設(shè)定的超參數(shù),模型訓(xùn)練和評(píng)估的結(jié)果如圖3所示。
圖3 模型訓(xùn)練均方誤差隨迭代次數(shù)變化圖
由圖3可見(jiàn),模型經(jīng)過(guò)60次左右迭代以后,在訓(xùn)練集與測(cè)試集上的均方誤差差異不大(均在1.0×10-4左右),過(guò)擬合性已能控制。模型預(yù)測(cè)的廢鋼價(jià)格變化與實(shí)際值對(duì)比如圖4所示:
圖4 廢鋼價(jià)格預(yù)測(cè)與實(shí)際價(jià)格對(duì)比圖
其中實(shí)線是從2020年9月1日開始的預(yù)測(cè)價(jià)格,虛線是實(shí)際價(jià)格走勢(shì)。模型預(yù)測(cè)的結(jié)果在整體走勢(shì)上基本符合實(shí)際,絕對(duì)誤差均值與中位數(shù)分別是7.03(元)與3.81(元),誤差超過(guò)價(jià)格1%的預(yù)測(cè)僅占4.8%。圖4說(shuō)明模型已具備一定的預(yù)測(cè)準(zhǔn)確度。
最后,對(duì)比時(shí)間卷積網(wǎng)絡(luò)和傳統(tǒng)的時(shí)序預(yù)測(cè)模型,如ARIMA、基于LSTM和GRU的循環(huán)神經(jīng)網(wǎng)絡(luò)等,在廢鋼價(jià)格預(yù)測(cè)問(wèn)題上的模型性能差異,結(jié)果如表2所示:
表2 時(shí)序模型性能對(duì)比
基準(zhǔn)模型中,ARIMA使用的階數(shù)為(3,1,1),LSTM和GRU均使用16個(gè)特征輸出,上述結(jié)果以及其他超參數(shù)均是經(jīng)過(guò)交叉驗(yàn)證得到最優(yōu)解。表2說(shuō)明了時(shí)間卷積網(wǎng)絡(luò)在測(cè)試集趨勢(shì)準(zhǔn)確度方面較其他模型性能有較大提升,綜合訓(xùn)練集和測(cè)試集的結(jié)果,在均方誤差指標(biāo)上也是性能相對(duì)更為穩(wěn)定的模型。
本文針對(duì)廢鋼價(jià)格預(yù)測(cè)問(wèn)題,引入了深度學(xué)習(xí)領(lǐng)域的時(shí)間卷積網(wǎng)絡(luò)構(gòu)建模型。由于該模型能捕捉更長(zhǎng)歷史時(shí)期的信息,且其訓(xùn)練算法避免了一部分梯度爆炸的可能性,其結(jié)果較傳統(tǒng)模型呈現(xiàn)出一定的性能優(yōu)勢(shì);與實(shí)際數(shù)據(jù)對(duì)比,模型預(yù)測(cè)誤差也在可容忍范圍以內(nèi)。結(jié)論可實(shí)際應(yīng)用于廢鋼加工銷售企業(yè)作為決策參考,方法論也可遷移至行業(yè)上下游相關(guān)時(shí)序預(yù)測(cè)研究上。其成果已經(jīng)部分應(yīng)用于國(guó)內(nèi)某廢鋼加工企業(yè)。
由于此次研究涉及的數(shù)據(jù)是過(guò)往26.5個(gè)月的廢鋼以及其他相關(guān)產(chǎn)品價(jià)格指數(shù),為了模型評(píng)估的完整和有效性要求,將最后4個(gè)月數(shù)據(jù)劃分為測(cè)試集。實(shí)際操作過(guò)程中,會(huì)設(shè)計(jì)系統(tǒng)加入自學(xué)習(xí)機(jī)制,以全量歷史數(shù)據(jù)作為訓(xùn)練集進(jìn)行訓(xùn)練,保證模型性能的持久穩(wěn)定。
另外,此模型性能仍有提升空間。文獻(xiàn)[8]中的注意力機(jī)制,文獻(xiàn)[11]中知識(shí)圖譜等工具均是深度學(xué)習(xí)時(shí)序預(yù)測(cè)領(lǐng)域較為前沿的工具。探索此類工具結(jié)合時(shí)間卷積網(wǎng)絡(luò),在廢鋼以及其他鋼鐵行業(yè)相關(guān)產(chǎn)品價(jià)格預(yù)測(cè)方面的應(yīng)用,是我們下一步將要開展的工作。