邵 波 1 李書涵 2 倪晨晨 1 吳旭婷 1
(1.浙江外國語學院 浙江 杭州 310023;2.杭州第二中學錢江學校 浙江 杭州 311000)
近些年,由于信息和互聯(lián)網(wǎng)行業(yè)的逐步發(fā)展,大數(shù)據(jù)掀起熱潮,數(shù)據(jù)可視化成為熱門話題之一。人們對海量數(shù)據(jù)的挖掘、運用和分析,為新一波盈利浪潮起到預(yù)告作用,也為物理、生物等領(lǐng)域和金融、通訊、軍事等行業(yè)發(fā)展帶來新的啟發(fā)。
數(shù)據(jù)可視化借助于圖形化手段,將稀疏又復(fù)雜的數(shù)據(jù)直觀性地顯現(xiàn)出來,在一定程度上可以弱化部分數(shù)據(jù)困局。但是對于挖掘收集到的各類數(shù)據(jù),如何解釋數(shù)據(jù),將復(fù)雜數(shù)據(jù)簡單化并以直觀的效果呈現(xiàn),是研究人員的一個重要任務(wù)。可視化技術(shù)與信息表達有密切、直接的聯(lián)系,是詮釋復(fù)雜數(shù)據(jù)的重要方法和手段。這種方式在升級發(fā)展的過程中面臨的主要問題便是信息超載。人們在面對 “信息爆炸”和 “數(shù)據(jù)過?!本置姹憩F(xiàn)出茫然無措的同時,也明顯感受到“信息貧乏”和“數(shù)據(jù)被關(guān)在牢籠中”的約束。
在互聯(lián)網(wǎng)與金融并行繁榮發(fā)展階段,計算器的使用和操作也更加便捷。行業(yè)研究人員為促進行業(yè)發(fā)展,不斷創(chuàng)新研究方法,深入研究數(shù)據(jù)信息中內(nèi)涵的價值,從而使學習和應(yīng)用計算機高級語言也成為了一種趨勢。計算機語言的普及以及使用率也因此得到大大提高,其主要可以分為以下三類:機器語言、匯編語言、高級語言。
1.概要
Python是提供簡單高效的高級數(shù)據(jù)結(jié)構(gòu)的一門計算機解釋性高級動態(tài)編程語言,具有跨平臺、開源、免費三大特點。它的動態(tài)類型和語法,使這門本質(zhì)為解釋型語言的編程語言在平臺運用和開發(fā)應(yīng)用方面,得到快速發(fā)展。
2.Python中數(shù)據(jù)可視化的工具使用
一圖勝千言。數(shù)據(jù)可視化可以通過Python的可視化工具包中的通用軟件工具和特定軟件工具實現(xiàn)。通用軟件工具是指集成開發(fā)環(huán)境(IDE),即同一軟件包內(nèi)包含所有生產(chǎn)工具的應(yīng)用程序,尤其是Enthought中的Canopy 和Continuum Analytics中的Anaconda都是操作便捷的工具;而特定軟件工具是指Python 繪圖庫,如:Bokeh、iPython、Matplotlib、Numpy以及 Seaborn等等。
眾所周知,Python的一大特點在于擁有豐富的第三方庫。但實際上,Python同時擁有標準庫和第三方庫兩類。標準庫在下載Python安裝包時即同時配備完成,方便用戶隨時調(diào)用;而第三方庫需要另外新安裝才可運用。
數(shù)據(jù)可視化旨在借助圖形化手段,將數(shù)據(jù)信息進行有效清晰地傳達與展示。實際上,數(shù)據(jù)可視化技術(shù)在廣義上包含四種概念:數(shù)據(jù)空間、數(shù)據(jù)開發(fā)、數(shù)據(jù)分析、數(shù)據(jù)可視化。本文從狹義上研究數(shù)據(jù)可視化技術(shù),即將大量離散數(shù)據(jù)集通過圖像、圖形等形式進行直觀表現(xiàn),并利用相關(guān)數(shù)據(jù)分析工具發(fā)現(xiàn)和挖掘潛在信息。
數(shù)據(jù)可視化的應(yīng)用可以分為三類:報表類、BI分析工具、數(shù)據(jù)可視化工具(國內(nèi))。其中,報表類似JReport、Excel、FineReport思邁特軟件(Smartbi)報表為代表;BI分析工具以Style Intelligence、BO等為代表;國內(nèi)的數(shù)據(jù)可視化工具則以BDP商業(yè)數(shù)據(jù)平臺、FineBI商業(yè)智能軟件等為代表。
數(shù)據(jù)可視化的起源可以追溯到20世紀50年代時計算機領(lǐng)域圖形學的早期,首批圖形圖表便是人們利用計算機創(chuàng)建的。數(shù)據(jù)可視化的發(fā)展可具體分為三個階段:科學可視化、信息可視化、數(shù)據(jù)可視化??茖W可視化起源于1987年,由布魯斯·麥考梅克、托馬斯·德房蒂和瑪克辛·布朗三人共同編寫的美國國家科學基金會報告《Visualization in Scientific Computing》。這份報告極大地刺激并促進了數(shù)據(jù)可視化領(lǐng)域的發(fā)展,并強調(diào)了基于計算機的可視化技術(shù)方法需要創(chuàng)新的必要性。
數(shù)據(jù)可視化在國外先行發(fā)展。1990年,IEEE舉辦了首屆IEEE Visualization Conference,匯集物理、生物醫(yī)學、圖形學、計算機等領(lǐng)域或交叉學科領(lǐng)域的研究人員作為學術(shù)群體,鼓勵其參與并從事可視化研究。近年來,國內(nèi)外各行業(yè)研究人員對可視化研究愈發(fā)重視,不斷突破領(lǐng)域瓶頸,將可視化技術(shù)之發(fā)展至更多行業(yè)(地理學、天文學、氣象學等)和社會群體(政府、企業(yè)等)。事實上,很多互聯(lián)網(wǎng)公司在可視化領(lǐng)域也開拓了很多實踐,如2013年,由微軟開放的3D數(shù)據(jù)可視化工具—一“GeoFlow”,通過二維數(shù)據(jù)表或三維垂直圖的方式呈現(xiàn),支持Excel Data Model和PowerPivot數(shù)據(jù)模型和多種可視化類型。
1. Politic(政治)分析
數(shù)據(jù)可視化是當前政府發(fā)布數(shù)據(jù)的重要方式,因其具有直觀、易懂等特點,便于向不熟悉具體情況的普通大眾解釋數(shù)據(jù)。同時,圖文并茂的形式更容易引起人們的關(guān)注和興趣,利于數(shù)據(jù)普及宣傳。當前,國家正推進傳統(tǒng)數(shù)據(jù)形式向數(shù)據(jù)可視化方向發(fā)展,以進一步完善數(shù)據(jù)領(lǐng)域的全方面均衡發(fā)展,利用數(shù)據(jù)可視化在分析和科普宣傳方面的獨特優(yōu)勢,將數(shù)據(jù)可視化解讀運用到各行各業(yè)中去,推動各行業(yè)的數(shù)據(jù)發(fā)展,促進當前統(tǒng)籌規(guī)劃格局的進一步提升。
2. Economic(經(jīng)濟)分析
數(shù)據(jù)可視化在金融分析領(lǐng)域有良好的現(xiàn)實應(yīng)用基礎(chǔ)和巨大的發(fā)展前景。數(shù)據(jù)的可視化處理便于研究人員掌握當前經(jīng)濟領(lǐng)域政策變動和相關(guān)數(shù)據(jù)情況,還可以在數(shù)據(jù)之間建立相關(guān)聯(lián)系,便于進一步分析總結(jié),以便在已有數(shù)據(jù)的基礎(chǔ)上對某一行業(yè)或領(lǐng)域做出未來遠景展望和相關(guān)規(guī)劃。數(shù)據(jù)可視化在當前經(jīng)濟領(lǐng)域已經(jīng)有了較為廣泛的應(yīng)用,但仍有較大進步空間。
3.Society(社會)分析
圖1 貨幣供應(yīng)量當月對比圖
數(shù)據(jù)可視化技術(shù)的應(yīng)用能夠較好地對社會經(jīng)濟研究提供分析參考,通過直觀的視覺表現(xiàn),能夠?qū)?fù)雜的數(shù)據(jù)經(jīng)過處理后,以圖文形式展現(xiàn)出來,表明當前社會、行業(yè)或某領(lǐng)域的發(fā)展狀況或趨勢。這對于研究社會現(xiàn)象、預(yù)測發(fā)展趨勢、制定未來計劃等方面,具有重要的利用價值和研究意義。
4.Technology(技術(shù))分析
當前,數(shù)據(jù)處理主要借助計算機手段,運用軟件對所搜集到的信息進行處理,擁有多種方式方法,經(jīng)過特定條件篩選和選擇的數(shù)據(jù)匯集,為人們想要得到的數(shù)據(jù)信息,相關(guān)人員以此對過往情況加以判斷,并通過其中的蛛絲馬跡對未來預(yù)期作出合理猜想。
在數(shù)據(jù)可視化這一環(huán)節(jié),目前已有相關(guān)軟件如:BIEE、Microstrategy、Yonghong的Z-Suite等,能夠幫助專業(yè)技術(shù)人員對數(shù)據(jù)進行具體分析和可視化呈現(xiàn)。在當前大數(shù)據(jù)時代,數(shù)據(jù)可視化技術(shù)的發(fā)展和進步是一個大趨勢。未來,隨著數(shù)據(jù)可視化方法和工具的迭代更新,數(shù)據(jù)可視化技術(shù)必將擁有更廣闊的應(yīng)用前景和發(fā)展舞臺。
銀行未來發(fā)展的關(guān)鍵是強調(diào)效率、精準營銷。為提高銀行對業(yè)務(wù)的掌握和運用,國內(nèi)領(lǐng)先的數(shù)據(jù)智能踐行者根據(jù)杭州銀行的現(xiàn)狀,為其定制了數(shù)據(jù)可視化平臺,并將銀行現(xiàn)有的不同業(yè)務(wù)板塊間數(shù)據(jù)融合、統(tǒng)一展示,實現(xiàn)實時數(shù)據(jù)對接,增強銀行對其各項業(yè)務(wù)運行的掌控和對用戶畫像分析的能力。
圖2 2020年7月21日銀行金融數(shù)據(jù)大盤效果圖(數(shù)據(jù)來源:知乎)
1.量化投資策略
量化投資策略是指利用量化的方法,進行金融市場的分析、判斷和交易的策略、算法的總稱。其策略可應(yīng)用于量化選股、量化擇時、算法交易股指期貨套利、商品期貨套利、統(tǒng)計套利,風險控制,資產(chǎn)配置等。
在大數(shù)據(jù)時代,量化投資通過數(shù)量化方式及計算機程序化發(fā)出買賣指令,從而獲得穩(wěn)定收益,獲國內(nèi)外眾多投資者的青睞。由于其投資業(yè)績穩(wěn)定,市場規(guī)模和份額不斷擴大,投資者對于這種投資模式愈發(fā)認可。事實上,互聯(lián)網(wǎng)的發(fā)展使得新概念在世界范圍的傳播速度非???。作為一個概念,量化投資并不算新,國內(nèi)投資者早有耳聞。但是,真正的量化基金在國內(nèi)還比較罕見。同時,機器學習的發(fā)展也對量化投資起了促進作用。
2.指標選擇
初入股市,投資者最先學習的便是觀察和了解K線圖和日均線,從而進一步接觸到移動平均線(MA)理論。這是股市最常見的一種技術(shù)分析方法,對交易有較好的指導(dǎo)作用。
投資者能夠較好地運用移動平均線理論,不僅能判斷行情的真正趨勢,還能獲取可觀利潤。但移動平均線理論仍存局限性:其為股價定型后產(chǎn)生的圖形、反應(yīng)較慢,且不能反應(yīng)股價在當日的變化及成交量的大小。本文將選取5日均線和20日均線控制全倉買賣個股比亞迪(002594),量化交易股票進行分析。
3.代碼運行及實證分析
圖3 Python量化投資部分代碼
選定個股為比亞迪(002594),設(shè)置該策略回測區(qū)間為2020年1月1日-2021年5月22日 ,初始資金為10萬元,回測頻率為日級。回測結(jié)果如下:
圖4 基于量化策略的比亞迪(002594)回測結(jié)果
由圖4顯然得知,在2020年1月-2021年5月期間,該策略收益為262.55%,策略年化收益162.24%,超額收益為正,表現(xiàn)遠超滬深300指數(shù)??梢姡瑪?shù)據(jù)可視化對于證券投資的操作指導(dǎo)意義十分明顯,直觀清晰地判斷了股票走勢及買賣交易點設(shè)置。結(jié)合Python在機器學習中算法領(lǐng)域的突出表現(xiàn),挖掘數(shù)據(jù)內(nèi)在的價值指日可待。但是市場仍存在風險,如何把控風險成為數(shù)據(jù)可視化的新難題。
數(shù)據(jù)可視化近20年的開源運動,挖掘了眾多基于數(shù)據(jù)信息的重要資源,直接有力提高了信息技術(shù)的發(fā)展速度,并快速帶領(lǐng)世界進入大數(shù)據(jù)時代。Python在對金融數(shù)據(jù)進行可視化處理之后,能夠有據(jù)可查地制定更加科學嚴謹?shù)膱?zhí)行策略,更精準地把握投資者和投資機構(gòu)的投資行為、特征以及金融風險,有助于為投資者帶來更加優(yōu)質(zhì)的投資指導(dǎo)。