盧文君
摘要:對(duì)于油價(jià)波動(dòng),乃至于各類市場(chǎng)價(jià)格(如期貨、外匯、股市)的波動(dòng)預(yù)測(cè),經(jīng)濟(jì)學(xué)界已經(jīng)有幾十年的研究。然而受限于時(shí)代因素、技術(shù)因素、從業(yè)者的知識(shí)背景等因素,經(jīng)濟(jì)學(xué)界對(duì)于價(jià)格波動(dòng)的研究主要集中在技術(shù)面,建立的模型多為基于各類結(jié)構(gòu)化數(shù)據(jù)的公式型預(yù)測(cè)模型,使用機(jī)器學(xué)習(xí)手段的屬于少數(shù),而使用非結(jié)構(gòu)化數(shù)據(jù)和近年來(lái)領(lǐng)先的深度學(xué)習(xí)技術(shù)相結(jié)合的更為稀有。從這個(gè)角度而言,本研究具有跨學(xué)科、跨領(lǐng)域的特點(diǎn),對(duì)于此類研究有貢獻(xiàn)意義。
關(guān)鍵詞:原油價(jià)格預(yù)測(cè);神經(jīng)網(wǎng)絡(luò);非結(jié)構(gòu)化數(shù)據(jù);情感分析;機(jī)器學(xué)習(xí)
中圖分類號(hào):TP311.12文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-9129(2018)06-0024-03
Research on Crude Oil Price Forecast Based on Unstructured Data Mining
LU Wenjun*
(Research Institute of CNPC Beijing Richfit Information Technology Co., Ltd., Beijing, 102206, China)
Abstract:For the fluctuation of oil prices, and even the volatility forecast of various market prices (such as futures, foreign exchange, stock market), the economics industry has been studying for decades. However, due to factors such as the times, technical factors, and the knowledge background of practitioners, the economics research on price fluctuations mainly focuses on the technical aspects. The established models are mostly formula-based prediction models based on various structured data, using machines. Learning methods are a minority, and the use of unstructured data combined with leading deep learning techniques in recent years is even more rare. From this perspective, this study has interdisciplinary and cross-disciplinary characteristics and contributes to such research.
Keywords:crude oil price forecast; neural network; unstructured data; sentiment analysis; machine learning
引用:盧文君. 基于非結(jié)構(gòu)化數(shù)據(jù)挖掘的原油價(jià)格預(yù)測(cè)研究[J]. 數(shù)碼設(shè)計(jì), 2018, 7(6): 24-26.
Cite:LU Wenjun. Research on Crude Oil Price Forecast Based on Unstructured Data Mining[J]. Peak Data Science, 2018, 7(6): 24+26.
引言
國(guó)際原油價(jià)格的影響包括方方面面:對(duì)于石油能源產(chǎn)業(yè)鏈中的企業(yè)或者石油能源消耗型企業(yè),油價(jià)決定了企業(yè)的生產(chǎn)成本和利潤(rùn);對(duì)于國(guó)際原油期貨的市場(chǎng)參與者(如金融機(jī)構(gòu)、對(duì)沖基金、個(gè)人和團(tuán)體投資者),油價(jià)影響了他們的投資收益;對(duì)于國(guó)家和社會(huì),油價(jià)影響宏觀經(jīng)濟(jì)的生產(chǎn)成本、人民的生活成本甚至于社會(huì)的穩(wěn)定。若利用大量真實(shí)歷史數(shù)據(jù)構(gòu)建一個(gè)模型能夠提高油價(jià)漲跌判斷的準(zhǔn)確率,對(duì)于一些機(jī)構(gòu)和個(gè)人來(lái)說(shuō),還是很有參考價(jià)值的。
本研究旨在真實(shí)互聯(lián)網(wǎng)文本數(shù)據(jù)(如新聞、社交媒體文本等)和真實(shí)的國(guó)際原油期貨(如紐交所的西德克薩斯輕質(zhì)原油(WTI))價(jià)格之間找到一種關(guān)系,針對(duì)未來(lái)的文本數(shù)據(jù),可以依據(jù)上述找到的關(guān)系預(yù)測(cè)對(duì)應(yīng)時(shí)間的油價(jià)?;驈臋C(jī)器學(xué)習(xí)的角度描述:建立一套機(jī)器學(xué)習(xí)模型,以預(yù)測(cè)未來(lái)油價(jià)的漲跌(二分類)、漲跌幅區(qū)間(多分類),或漲跌幅數(shù)值(回歸)。問(wèn)題可以細(xì)分為以下3個(gè)有所區(qū)別的子類:1)基于突發(fā)新聞的短期(1-30分鐘)油價(jià)走勢(shì)預(yù)測(cè)(分類問(wèn)題);2)基于政經(jīng)類新聞情感傾向的油價(jià)走勢(shì)預(yù)測(cè)(中短期,2hours-7days)(分類或回歸);3)基于社交媒體情感傾向的油價(jià)走勢(shì)預(yù)測(cè)(中短期,2hours-7days)(分類或回歸)。本研究將集中于第一類問(wèn)題。
1? 模型介紹
本研究建立了一個(gè)基于深度學(xué)習(xí)技術(shù)的模型,并且利用詞嵌入模型(word embedding)、情感分析等方法對(duì)文本數(shù)據(jù)進(jìn)行抽象和表示,以盡量提升模型的效果。
1.1 ?文本數(shù)據(jù)收集
依據(jù)行為金融學(xué)理論,市場(chǎng)投資者會(huì)依據(jù)外部信息的變化,并依據(jù)自身的經(jīng)驗(yàn)對(duì)所獲得的信息進(jìn)行分析,從而對(duì)投資策略進(jìn)行相應(yīng)的調(diào)整。而權(quán)威媒體發(fā)布的新聞消息,往往是投資者的主要信息獲取渠道。因此,由新聞媒體發(fā)布的一些新聞,尤其是與原油供需、宏觀經(jīng)濟(jì)、產(chǎn)油國(guó)地緣政治、戰(zhàn)爭(zhēng)、自然災(zāi)害等方面相關(guān)的內(nèi)容,通常會(huì)引起投資者的高度關(guān)注,并且依據(jù)這些新聞的內(nèi)容,會(huì)對(duì)投資者決策起到直接的影響。因此,本研究將設(shè)法獲取權(quán)威媒體第一時(shí)間發(fā)布的新聞作為訓(xùn)練數(shù)據(jù)。此研究使用的文本數(shù)據(jù)是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)手段從路透社官方網(wǎng)站上獲得的從2016年10月至2017年10月的總共27萬(wàn)條新聞數(shù)據(jù),這些新聞涵蓋經(jīng)濟(jì)、世界時(shí)事、體育、娛樂(lè)等各個(gè)方面,其中各類經(jīng)濟(jì)新聞是數(shù)量最多的部分。
1.2 ?原油價(jià)格數(shù)據(jù)處理產(chǎn)生標(biāo)簽
如前所述,本研究利用國(guó)際原油期貨數(shù)據(jù)(紐交所的WTI原油價(jià)格數(shù)據(jù))作為有監(jiān)督機(jī)器學(xué)習(xí)模型的標(biāo)簽。數(shù)據(jù)時(shí)間范圍為2016年10月1日至2017年10月1日,數(shù)據(jù)粒度為1分鐘級(jí)。
利用此數(shù)據(jù)產(chǎn)生初步標(biāo)簽的策略是:標(biāo)簽時(shí)間點(diǎn)向后半小時(shí)內(nèi)有交易,總收益為正,且此時(shí)間段內(nèi)上漲的次數(shù)大于下降的次數(shù),則此時(shí)間點(diǎn)的初步標(biāo)簽為正;標(biāo)簽時(shí)間點(diǎn)向后半小時(shí)內(nèi)有交易,總收益為負(fù),且此時(shí)間段內(nèi)上漲的次數(shù)小于下降的次數(shù),則此時(shí)間點(diǎn)的初步標(biāo)簽為負(fù);標(biāo)簽時(shí)間點(diǎn)向后半小時(shí)內(nèi)有交易的其他時(shí)間點(diǎn)的標(biāo)簽為平。
采用上述粗放的標(biāo)注方法,可以通過(guò)程序自動(dòng)實(shí)現(xiàn),但存在一定的問(wèn)題,即某一油價(jià)異常變動(dòng)的時(shí)間點(diǎn)的新聞,有可能是實(shí)際造成油價(jià)變化的主因也有可能不是,若將所有新聞全部按規(guī)則標(biāo)記可能會(huì)引入一些噪聲,即實(shí)際不相關(guān)文本也被標(biāo)記。對(duì)此將采用參考初步標(biāo)簽進(jìn)行人工標(biāo)注的方法來(lái)解決這一問(wèn)題。
1.3 ?文本數(shù)據(jù)與標(biāo)簽數(shù)據(jù)融合,人工標(biāo)注
有監(jiān)督機(jī)器學(xué)習(xí)過(guò)程需要使用大量有類別標(biāo)簽(在油價(jià)預(yù)測(cè)的場(chǎng)景中可以是漲、平、跌等分類方法)的訓(xùn)練數(shù)據(jù)(本場(chǎng)景中是各類文本)對(duì)模型進(jìn)行訓(xùn)練,因此需要準(zhǔn)備文本數(shù)據(jù)和可以作為文本數(shù)據(jù)與油價(jià)變化關(guān)聯(lián)關(guān)系的標(biāo)簽數(shù)據(jù)。將帶有新聞的表與上一步驟中由原油價(jià)格數(shù)據(jù)產(chǎn)生的類別標(biāo)簽表以時(shí)間為索引進(jìn)行合并,對(duì)文本和標(biāo)簽的對(duì)應(yīng)關(guān)系進(jìn)行檢查,抽取新聞與石油有關(guān)且與標(biāo)簽對(duì)應(yīng)正確的標(biāo)注數(shù)據(jù)作為試驗(yàn)數(shù)據(jù)集,最終產(chǎn)生帶有正、負(fù)、平標(biāo)簽的數(shù)據(jù)各1700條,共5100條。
1.4 ?特征工程
在將數(shù)據(jù)導(dǎo)入到模型訓(xùn)練之前,一個(gè)非常關(guān)鍵的任務(wù)是對(duì)數(shù)據(jù)進(jìn)行特征工程處理。通過(guò)精細(xì)的特征工程對(duì)數(shù)據(jù)進(jìn)行抽象和提取,能最大程度的將文本中的本質(zhì)因素提取出來(lái),從而增加模型的判別依據(jù)。本研究采取的特征有:文本中詞和詞與詞之間關(guān)系的特征(詞以詞嵌入表示后通過(guò)CNN+LSTM提?。?、文本的情感特征(通過(guò)情感分析技術(shù)獲?。鲜鎏卣鲗?dǎo)入模型之前用單獨(dú)的模塊進(jìn)行處理。
(1)文本中詞和詞與詞之間關(guān)系的特征
計(jì)算機(jī)系統(tǒng)是處理二進(jìn)制數(shù)據(jù)的系統(tǒng),而人類語(yǔ)言是抽象的符號(hào)系統(tǒng)。因此在處理任何文本類任務(wù)的時(shí)候,第一個(gè)關(guān)鍵任務(wù)就是將文本符號(hào)轉(zhuǎn)化為數(shù)字。文本表示方法作為后續(xù)工作的基礎(chǔ),對(duì)模型訓(xùn)練和預(yù)測(cè)效果有著決定性的影響。本研究采用近幾年發(fā)展起來(lái)的詞嵌入技術(shù),將文本中的詞轉(zhuǎn)換為特定長(zhǎng)度的實(shí)數(shù)值向量。該方法作為目前的主流文本數(shù)字化表示方法,在效果上比早年的向量空間模型有很大提升。
在對(duì)文本進(jìn)行基本的格式處理后,需要對(duì)文本進(jìn)行分詞、詞干還原、去標(biāo)點(diǎn)和停用詞、大小寫字母轉(zhuǎn)換的預(yù)處理操作,然后對(duì)文本進(jìn)行詞嵌入處理。詞嵌入技術(shù)(word embedding)是近幾年興起的文本表示技術(shù),從機(jī)器學(xué)習(xí)的角度看,它是一種比傳統(tǒng)詞袋模型(bag of words)的表示能力更強(qiáng)、信息更濃縮的文本特征提取技術(shù),然而這種技術(shù)有一個(gè)缺陷就是訓(xùn)練成本高,提出該技術(shù)的Google提供了開(kāi)源的已經(jīng)訓(xùn)練好的詞向量,是Google利用千億級(jí)別單詞量的語(yǔ)料訓(xùn)練出來(lái)的。在進(jìn)行此步驟時(shí),首先遍歷所有文本,把涉及的詞全部列出并按出現(xiàn)頻率排序形成詞序表,這樣,每個(gè)詞都有了唯一的序號(hào),然后把文檔中的詞全部轉(zhuǎn)換為詞序號(hào)表示,詞序表里的詞可以用Google訓(xùn)練好的詞嵌入模型進(jìn)行映射,這樣文檔中的每個(gè)詞就轉(zhuǎn)換成了用300維向量表示。然而,完成這個(gè)步驟后發(fā)現(xiàn),在前期處理過(guò)程中,出現(xiàn)很多不構(gòu)成詞的字符串,這些字符串在Google的詞典中找不到所以為空,這些字符串既不起作用又占用空間,造成后期深度學(xué)習(xí)模型維度大幅增加以致內(nèi)存溢出?;诖嗽?,對(duì)這些字符串進(jìn)行了過(guò)濾,只留下可以產(chǎn)生有效信息的詞,然后再次按以上步驟對(duì)每篇文章進(jìn)行詞嵌入操作。
通過(guò)上述詞嵌入技術(shù),可以將句子中的詞轉(zhuǎn)化為富含信息的高維向量。然而人類語(yǔ)言的文本是由詞有機(jī)組合構(gòu)成的,如果將句子簡(jiǎn)化為若干詞嵌入向量的簡(jiǎn)單加和,就會(huì)損失包含在詞語(yǔ)次序中的信息。為了應(yīng)對(duì)這一問(wèn)題,本研究利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)來(lái)提取文本序列的次序信息。CNN網(wǎng)絡(luò)在本任務(wù)中的用途是通過(guò)其滑動(dòng)窗口的思想,將句子中的每個(gè)詞以及其附近的若干詞組合起來(lái)提取其關(guān)聯(lián)關(guān)系同時(shí)進(jìn)行降維。LSTM網(wǎng)絡(luò)則善于保存句子序列中的長(zhǎng)距離依賴關(guān)系,以應(yīng)對(duì)長(zhǎng)句等復(fù)雜句式的特征提取。提取文本信息部分的處理流程為,以詞嵌入作為文本中的詞的數(shù)字化表示,將由詞嵌入表示所構(gòu)成的句子矩陣通過(guò)CNN網(wǎng)絡(luò)進(jìn)行短語(yǔ)特征提取和降維,將CNN網(wǎng)絡(luò)的輸出作為L(zhǎng)STM網(wǎng)絡(luò)的輸入,進(jìn)一步提取句子結(jié)構(gòu)信息和長(zhǎng)距離關(guān)聯(lián)關(guān)系文本特征。
深度學(xué)習(xí)模型通過(guò)學(xué)習(xí)輸入文本特征和最終預(yù)測(cè)結(jié)果與實(shí)際類別之間的差異,利用參數(shù)反向傳播算法,不斷調(diào)整模型中的參數(shù)值,最終找到能夠最貼切擬合真實(shí)結(jié)果和輸入文本之間關(guān)系的參數(shù)集合。這樣一來(lái),在未來(lái)預(yù)測(cè)過(guò)程中,對(duì)于未知油價(jià)變化結(jié)果的新文本,可以通過(guò)訓(xùn)練好的上述系統(tǒng)通過(guò)前向傳播過(guò)程計(jì)算出其預(yù)測(cè)值作為系統(tǒng)的預(yù)測(cè)結(jié)果。本研究為了對(duì)比不同模型的效果,分別用了lstm、cnn+lstm、雙向gru、cnn+雙向gru模型進(jìn)行試驗(yàn)。由圖4可看出,模型訓(xùn)練3輪后就開(kāi)始過(guò)擬合了,因此將訓(xùn)練參數(shù)epoch定為3。
(2)文本情感分析
情感分析技術(shù)是從情感方面對(duì)文本進(jìn)行特征提取的一種重要手段,該方法在富含情感傾向性的文本的各類任務(wù)中效果顯著。本研究通過(guò)利用開(kāi)源情感詞典構(gòu)建情感分析分類器模型對(duì)文本進(jìn)行了情感分析,并將情感值作為特征加入到后續(xù)模型中。
1.5 ?分類模型
本研究要建立文本數(shù)據(jù)和原油價(jià)格變化之間的關(guān)系的模型,主要將該任務(wù)看作一種分類任務(wù)。如前所述,將各類文本數(shù)據(jù)作為輸入數(shù)據(jù),將原油價(jià)格變動(dòng)作為文本的對(duì)應(yīng)標(biāo)簽,通過(guò)訓(xùn)練模型找到二者之間的關(guān)系,從而使該模型能夠?qū)ξ磥?lái)的新聞文本所可能導(dǎo)致的油價(jià)變化進(jìn)行預(yù)測(cè)。
由圖5可直觀地看出各參數(shù)之間相關(guān)關(guān)系,二分類中標(biāo)簽與情感分析中的正向參數(shù)和神經(jīng)網(wǎng)絡(luò)模型的第2個(gè)參數(shù)(圖中標(biāo)1)更相關(guān),三分類中標(biāo)簽與情感分析中的正向參數(shù)和神經(jīng)網(wǎng)絡(luò)模型的第3個(gè)參數(shù)(圖中標(biāo)2)更相關(guān)。
機(jī)器學(xué)習(xí)模型分為模型訓(xùn)練和實(shí)際預(yù)測(cè)兩個(gè)過(guò)程。本研究將全部試驗(yàn)數(shù)據(jù)中的80%作為訓(xùn)練集,其余的20%作為測(cè)試集,在完成上述特征提取的步驟后,兩項(xiàng)特征數(shù)據(jù)融合通過(guò)分類模型查看效果。分類模型試驗(yàn)了貝葉斯(NB)、邏輯回歸(LR)、支持向量機(jī)(SVM)三種模型。
2? 模型效果
綜合以上實(shí)驗(yàn)結(jié)果數(shù)據(jù)可看出,cnn+lstm的效果相較其他神經(jīng)網(wǎng)絡(luò)模型在本實(shí)驗(yàn)中的表現(xiàn)是最好的,在加入情感分析特征后可以進(jìn)一步提高模型的正確率。
3? 結(jié)束語(yǔ)
本研究參考真實(shí)的油價(jià)變化對(duì)新聞數(shù)據(jù)打標(biāo)簽,利用深度學(xué)習(xí)的方法提取了新聞文本的特征,又通過(guò)情感分析的方法提取了新聞的情感特征,并將兩者相結(jié)合通過(guò)機(jī)器學(xué)習(xí)的分類算法研究新聞與油價(jià)變化之間的關(guān)系,在二分類、三分類模型中取得一定的效果,但由于時(shí)間精力及資源所限,仍有以下未盡之處值得深入探討研究:
在基于新聞數(shù)據(jù)進(jìn)行短期原油價(jià)格預(yù)測(cè)建模時(shí)語(yǔ)料的篩選是至關(guān)重要的,在本研究中曾嘗試直接使用粗放標(biāo)簽的原始新聞數(shù)據(jù)進(jìn)行建模,結(jié)果幾乎是隨機(jī)的無(wú)規(guī)律可循,而人工篩選標(biāo)簽的方法實(shí)質(zhì)上改變了原始新聞的數(shù)據(jù)分布,在真實(shí)場(chǎng)景下效果未必穩(wěn)定,因此找到一個(gè)高質(zhì)量的數(shù)據(jù)源或者具備大量有經(jīng)驗(yàn)專家的標(biāo)簽文本是實(shí)際應(yīng)用中成功的前提和關(guān)鍵。在計(jì)算資源滿足的條件下還可以嘗試提高神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度觀察預(yù)測(cè)效果。
單純使用詞嵌入方法的一個(gè)局限性在于,該方法主要是在文字層面對(duì)文本進(jìn)行特征轉(zhuǎn)化,許多實(shí)際造成由新聞文本引起投資者改變投資策略進(jìn)而引起油價(jià)變化的現(xiàn)象,不單純是由新聞文本本身內(nèi)容所導(dǎo)致,而是由于人類通過(guò)閱讀文本從認(rèn)知層面進(jìn)行聯(lián)想和推理而得出的結(jié)論。對(duì)文本進(jìn)行邏輯上的分析在現(xiàn)代技術(shù)條件下是非常困難的任務(wù),可以嘗試基于認(rèn)知理論的文本深層內(nèi)容表示方法,將新聞文本中可能聯(lián)想到的詞語(yǔ)補(bǔ)充到文本中以模擬人類認(rèn)知過(guò)程,從而提高模型效果。
另外,許多國(guó)際油價(jià)市場(chǎng)的投資者都會(huì)關(guān)注參與推特、臉書(shū)、各種論壇等各類社交媒體上的信息,他們經(jīng)常會(huì)在社交媒體上發(fā)表與市場(chǎng)投資相關(guān)的感想甚至是預(yù)測(cè)和見(jiàn)解,可以嘗試研究社交媒體上人們表達(dá)出來(lái)的情感傾向性與各類市場(chǎng)價(jià)格的波動(dòng)的因果關(guān)系。
4? 致謝
此論文的完成要感謝中油瑞飛公司中青年科技創(chuàng)新活動(dòng)的資助,感謝北京大學(xué)隋吉哲同學(xué)實(shí)習(xí)期間在前期理論探索及數(shù)據(jù)搜集方面的貢獻(xiàn),感謝馬君博士的大力支持和同事霍魁的熱心建議。
參考文獻(xiàn):
[1]????? 基于情感分析的國(guó)際原油價(jià)格走勢(shì)預(yù)測(cè)研究_徐振敬(2016年,碩士論文,北京化工大學(xué)).
[2]????? 基于深度特征提取的文本情感極性分類研究(2017年,碩士論文,山東大學(xué)).
[3]????? A review of natural language processing techniques for opinion mining systems(2017年,Elsevier ).
[4]????? Associated Activation-Driven Enrichment_ Understanding Implicit Information from a Cognitive Perspective(2015年,期刊).
[5]????? “Boom” or “Ruin”– Does it Make a Difference? Using Text Mining and Sentiment Analysis to Support Intraday Investment Decisions(2012年,期刊,IEEE).
[6]????? Text mining for market prediction_ A systematic review(2014年,期刊).