蔡欣衛(wèi) 江蘇省啟東中學(xué)
近年來(lái)在銀行、證券公司、投資公司的推動(dòng)下,金融領(lǐng)域快速發(fā)展,但處于自身封閉發(fā)展之中。使得銀行、金融行業(yè)無(wú)法達(dá)到金融信息的有效互通,處于平穩(wěn)發(fā)展期。因此大數(shù)據(jù)的海量信息處理能力與金融信息的聯(lián)合應(yīng)用,可以使金融信息得到有效利用,從而推動(dòng)金融領(lǐng)域快速發(fā)展,金融領(lǐng)域的發(fā)展也從封閉走向開(kāi)放。
大數(shù)據(jù)是指?jìng)鹘y(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)無(wú)法處理的大量數(shù)據(jù),它包括從大量非結(jié)構(gòu)化數(shù)據(jù)中提取隱藏信息和模式的技術(shù)。所謂大數(shù)據(jù)處理技術(shù),就是能夠在廣大范圍內(nèi)對(duì)不同用戶(hù)的分析需求實(shí)現(xiàn)響應(yīng)的技術(shù)[1]。大數(shù)據(jù)隨著非結(jié)構(gòu)化數(shù)據(jù)的增加而出現(xiàn)沒(méi)有預(yù)定義的結(jié)構(gòu)或格式,二十世紀(jì)九十年代,數(shù)據(jù)倉(cāng)庫(kù)之父的Bill Inmon 就常提及Big Data。2011年五月,在“云計(jì)算相遇大數(shù)據(jù)”的EMC world 會(huì)議中,EMC拋出了Big Data的概念,自此,大數(shù)據(jù)概念風(fēng)靡全球。作為一個(gè)面向應(yīng)用的領(lǐng)域,不可避免地需要將相關(guān)領(lǐng)域知識(shí)集成到信息系統(tǒng)中,這類(lèi)似于傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng),它具有嚴(yán)格的數(shù)學(xué)基礎(chǔ)、一套設(shè)計(jì)規(guī)則和實(shí)現(xiàn)機(jī)制,可以想象我們?cè)诖髷?shù)據(jù)方面可能有類(lèi)似的應(yīng)用。今天大數(shù)據(jù)全產(chǎn)業(yè)市場(chǎng)規(guī)模逐步提升,大數(shù)據(jù)在各個(gè)領(lǐng)域蓬勃發(fā)展。
從數(shù)據(jù)的類(lèi)別上看,“大數(shù)據(jù)”是指?jìng)鹘y(tǒng)數(shù)據(jù)或軟件工具無(wú)法處理或分析的信息。大數(shù)據(jù)定義了哪些信息超出了正常處理范圍,從而使用戶(hù)必須采用非傳統(tǒng)處理方法。大數(shù)據(jù)是復(fù)雜數(shù)據(jù)的集合,大數(shù)據(jù)可以?xún)?yōu)化海量信息,從而提取多樣化、高增長(zhǎng)率信息資產(chǎn),信息資產(chǎn)是信息本身所帶有的價(jià)值,即有價(jià)值的信息便是一種資產(chǎn),信息的價(jià)值是基于信息所具有的重要性質(zhì)。由于數(shù)據(jù)的種類(lèi)來(lái)源多樣,數(shù)據(jù)的價(jià)值密度較低,面對(duì)信息數(shù)據(jù)之海單單用人力去提取是不現(xiàn)實(shí)的,正是有了大數(shù)據(jù)從而使得我們研究問(wèn)題有了方向性。大數(shù)據(jù)就存在于我們?nèi)粘I钪校梢越o我們所處的時(shí)代帶來(lái)翻天覆地的變化,解決數(shù)據(jù)匱乏的種種問(wèn)題,大數(shù)據(jù)技術(shù)可以提取最有價(jià)值的信息,提高獲取信息的效率[2]。
大數(shù)據(jù)的特點(diǎn)也十分明顯,即“大體量(Volume)、多樣性(Variety)、快速化(Velocity)、價(jià)值(Value)”。大數(shù)據(jù)的顯著特征,簡(jiǎn)稱(chēng)4v特征[3]。大數(shù)據(jù)種類(lèi)來(lái)源多樣化,需要存儲(chǔ)能力強(qiáng),容量較大,價(jià)值密度較低,采集數(shù)據(jù)如浪里淘沙;數(shù)據(jù)的多樣性是指不同的數(shù)據(jù)源,非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多,需要進(jìn)行清洗、整理、篩選等操作變?yōu)榻Y(jié)構(gòu)數(shù)據(jù);所謂的“價(jià)值密度低”是由于數(shù)據(jù)采集的不及時(shí),數(shù)據(jù)樣本不全面,數(shù)據(jù)可能不連續(xù);大數(shù)據(jù)可以有效提取有價(jià)值數(shù)據(jù),通過(guò)數(shù)據(jù)創(chuàng)造價(jià)值,使得提取數(shù)據(jù)有效快速傳遞,從而使得大數(shù)據(jù)的應(yīng)用變得廣泛。
大數(shù)據(jù)的主要來(lái)源是啟用互聯(lián)網(wǎng)的應(yīng)用程序,如:電子商務(wù)、社交媒體等。據(jù)估計(jì),到2020年底將產(chǎn)生大約40個(gè)zeta字節(jié)的數(shù)據(jù),這是2005年數(shù)據(jù)的300倍左右。
近十年來(lái),大數(shù)據(jù)領(lǐng)域的技術(shù)空間突飛猛進(jìn),各種類(lèi)型的技術(shù)試圖解決大數(shù)據(jù)相關(guān)問(wèn)題的關(guān)鍵方面。大數(shù)據(jù)中“什么是大”的特征實(shí)際上是相對(duì)于特定上下文的。今天,在一個(gè)典型的定義中,大數(shù)據(jù)問(wèn)題被確定為現(xiàn)有的軟件工具無(wú)法在規(guī)定的時(shí)間內(nèi)(速度)以所需的準(zhǔn)確性(精確性)和合理的成本(價(jià)值)存儲(chǔ)、細(xì)化和處理任何任意語(yǔ)義和結(jié)構(gòu)(體積)的有針對(duì)性的高容量數(shù)據(jù)[4]?,F(xiàn)代大數(shù)據(jù)問(wèn)題是由過(guò)去20年技術(shù)和業(yè)務(wù)發(fā)生的三個(gè)根本性變化驅(qū)動(dòng)的。首先,數(shù)字存儲(chǔ)比紙張更具成本效益,用于存儲(chǔ)文檔、數(shù)字、圖表等內(nèi)容,對(duì)于任何其他存儲(chǔ)媒體,如照片、音頻、視頻等存儲(chǔ)其他人力消耗資產(chǎn)也是如此;其次,通過(guò)網(wǎng)絡(luò)(以及現(xiàn)在與物聯(lián)網(wǎng))在各個(gè)領(lǐng)域使用非常大規(guī)模的固定或移動(dòng)設(shè)備創(chuàng)造和消費(fèi)數(shù)據(jù)的速度是前所未有的;最后,每個(gè)企業(yè)越來(lái)越需要監(jiān)測(cè)和預(yù)測(cè)微觀和宏觀層面的業(yè)務(wù)活動(dòng),以應(yīng)對(duì)日益增長(zhǎng)的市場(chǎng)壓力和競(jìng)爭(zhēng)。這些變化最終導(dǎo)致在過(guò)去15年左右數(shù)據(jù)管理軟件領(lǐng)域出現(xiàn)各種大數(shù)據(jù)工具和平臺(tái),所有這些都沒(méi)有被標(biāo)記為大數(shù)據(jù)工具和平臺(tái),因?yàn)椤按髷?shù)據(jù)”一詞在本世紀(jì)初才流行起來(lái)。
大數(shù)據(jù)時(shí)代,每個(gè)生成的數(shù)據(jù)都是可能有用的,因?yàn)榭梢詮闹刑崛∫恍┲匾奶卣?。例如,?lái)自推文的情感分析、來(lái)自報(bào)紙的正面和負(fù)面評(píng)論、來(lái)自各種電子商務(wù)網(wǎng)站的評(píng)級(jí)。在各部門(mén)有效利用大數(shù)據(jù)有助于各決策者作出適當(dāng)決策,也有助于迅速獲取風(fēng)險(xiǎn)并及時(shí)采取適當(dāng)行動(dòng)。一段時(shí)間以來(lái),金融研究所一直在使用傳統(tǒng)的數(shù)據(jù)方法收集大量數(shù)據(jù)[5],但大數(shù)據(jù)是指龐大和復(fù)雜的數(shù)據(jù)集,以至于很難使用手頭的數(shù)據(jù)庫(kù)管理工具或傳統(tǒng)的處理應(yīng)用程序進(jìn)行處理。零售行業(yè)、金融、醫(yī)療保健和媒體等部門(mén)由于交易和庫(kù)存的高流通而產(chǎn)生大量的千兆字節(jié)數(shù)據(jù)。這些公司可以利用大數(shù)據(jù)洞察力來(lái)確保更高的可移植性。在所有這些部門(mén),數(shù)據(jù)是最重要的資產(chǎn)之一,因?yàn)樗兄跊Q策和風(fēng)險(xiǎn)管理。
例如,銀行正在使用大數(shù)據(jù)來(lái)改變他們的業(yè)務(wù)流程、組織和整個(gè)行業(yè)。在一天結(jié)束時(shí),銀行部門(mén)最終每天進(jìn)行數(shù)百次交易,從而生成一個(gè)數(shù)據(jù)池,而目前這些公司的一個(gè)尚未解決的問(wèn)題是如何分析這些數(shù)據(jù)并為決策獲得有用的信息,同時(shí)金融部門(mén)正在利用大數(shù)據(jù)通過(guò)開(kāi)發(fā)預(yù)測(cè)算法來(lái)預(yù)測(cè)股票的走勢(shì)和市場(chǎng)上的證券。大數(shù)據(jù)是一個(gè)非常有用的工具的另一個(gè)領(lǐng)域是分析大量復(fù)雜的股票市場(chǎng)交換數(shù)據(jù),并利用它做出關(guān)鍵的財(cái)務(wù)決策。利用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的智能決策系統(tǒng)可以對(duì)股票市場(chǎng)進(jìn)行預(yù)測(cè)。有了大數(shù)據(jù)平臺(tái),股市交易員和投資組合經(jīng)理可以處理大量的非結(jié)構(gòu)化數(shù)據(jù),以確定投資的最佳情況。金融公司使用非結(jié)構(gòu)化的公共信息,如新聞、產(chǎn)品評(píng)審、供應(yīng)商數(shù)據(jù)和價(jià)目表更改,并使用大數(shù)據(jù)技術(shù)對(duì)其進(jìn)行處理,從而產(chǎn)生數(shù)學(xué)模型,幫助交易者決定購(gòu)買(mǎi)或出售哪種股票。根據(jù)一項(xiàng)調(diào)查,大約30%的公司和金融部門(mén)已經(jīng)開(kāi)始實(shí)施大數(shù)據(jù),并以各種方式使用大數(shù)據(jù)的技術(shù)為目標(biāo),以減輕風(fēng)險(xiǎn),并從生成的數(shù)據(jù)中獲得更多的利益[6]。
大數(shù)據(jù)是科技界最熱門(mén)的研究課題之一,在氣候、經(jīng)濟(jì)、衛(wèi)生、社會(huì)科學(xué)等社會(huì)各個(gè)領(lǐng)域都具有巨大的潛力。大數(shù)據(jù)目前被視為數(shù)據(jù)集,其大小超出了常用軟件工具捕獲、管理和管理的能力。我們目前已經(jīng)體會(huì)到了大數(shù)據(jù)在金融,商業(yè),健康等各種應(yīng)用中的威力。大數(shù)據(jù)具有跨越變革企業(yè)運(yùn)營(yíng)和流程的潛力,可以從大數(shù)據(jù)中高度受益的部門(mén)之一是金融部門(mén)。他們可以獲得大量的交易數(shù)據(jù),這些數(shù)據(jù)可以被處理,以獲得相對(duì)于同行的競(jìng)爭(zhēng)優(yōu)勢(shì),增強(qiáng)客戶(hù)銀行體驗(yàn)、風(fēng)險(xiǎn)分析和緩解、操作和優(yōu)化[7]。
解決系統(tǒng)金融工程等問(wèn)題的研究通常需要收集和分析大量的復(fù)雜數(shù)據(jù),這使它們成為大數(shù)據(jù)應(yīng)用的自然范例。由于使用互聯(lián)網(wǎng)和技術(shù),數(shù)據(jù)正在迅速增加,因此使用技術(shù)和管理這些數(shù)據(jù)并從中提取有用的信息和模式是非常重要的。在這種情況下,大數(shù)據(jù)可以成為處理如此龐大和復(fù)雜的數(shù)據(jù)集的非常有用的技術(shù),金融機(jī)構(gòu)正在以各種方式利用大數(shù)據(jù)為其組織提供更好的業(yè)務(wù)成果。大數(shù)據(jù)掃描組織中發(fā)生的所有金融交易,這確保了欺詐活動(dòng)的實(shí)時(shí)檢測(cè),使得任何對(duì)正常行為的改變都會(huì)立即被抓?。欢鴶?shù)據(jù)分割過(guò)程上下文營(yíng)銷(xiāo),這總是導(dǎo)致更大的回報(bào)相比廣譜營(yíng)銷(xiāo)。
如前所述,對(duì)金融行業(yè)數(shù)據(jù)的健康統(tǒng)計(jì)的遠(yuǎn)程監(jiān)測(cè)將產(chǎn)生大量的數(shù)據(jù)增量,所以銀行數(shù)據(jù)管理庫(kù)程序?qū)⑿枰?jí),以處理增加的數(shù)量,并提供設(shè)備狀況的實(shí)時(shí)分析。從大數(shù)據(jù)的角度來(lái)看,現(xiàn)有的程序已經(jīng)捕捉和演示了大數(shù)據(jù)不同特征的處理,隨著程序規(guī)模的擴(kuò)大,將需要更強(qiáng)大的大數(shù)據(jù)管理工具和分析。在這一點(diǎn)上,大數(shù)據(jù)和分析的行業(yè)趨勢(shì)正在發(fā)展,反過(guò)來(lái),這導(dǎo)致了前所未有的大數(shù)據(jù)解決方案的提供。
大數(shù)據(jù)工具的開(kāi)發(fā)在當(dāng)今時(shí)代既具有挑戰(zhàn)性又令人興奮。雖然研究提高了快速處理大量數(shù)據(jù)的能力,但新技術(shù)更廣泛的用例仍然受到以下事實(shí)的限制:還有更多的問(wèn)題不是大數(shù)據(jù)性質(zhì)的。然而獲取和利用更多數(shù)據(jù)的范圍可能會(huì)增加,而不是出于以下兩個(gè)原因:首先,隨著大數(shù)據(jù)工具的成熟,易用性將使該技術(shù)更容易獲得,這加強(qiáng)了更多數(shù)據(jù)收集的理由,特別是考慮到降低了存儲(chǔ)成本;其次,隨著采用技術(shù)的增加和對(duì)技術(shù)的理解在更廣泛的范圍中得到增強(qiáng),將建立更多的商業(yè)價(jià)值主張。同樣,這將提供更多的數(shù)據(jù)。因此,大數(shù)據(jù)的發(fā)展也會(huì)更加迅速,在金融等行業(yè)的應(yīng)用也會(huì)更加廣泛。