潘志洋
天津工業(yè)大學(xué)軟件學(xué)院,天津,300387
黨的十八大以來(lái),大數(shù)據(jù)逐步上升到國(guó)家戰(zhàn)略的層次。時(shí)代要求我們要把握信息革命歷史機(jī)遇,用好大數(shù)據(jù),增強(qiáng)利用數(shù)據(jù)推進(jìn)各項(xiàng)工作的本領(lǐng),不斷提高對(duì)大數(shù)據(jù)發(fā)展規(guī)律的把握能力,使大數(shù)據(jù)在各項(xiàng)工作中發(fā)揮更大作用[1]。大數(shù)據(jù)技術(shù)是指針對(duì)包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)在內(nèi)多種多樣的數(shù)據(jù),快速?gòu)闹刑崛∮行畔⒌募夹g(shù)。傳統(tǒng)的數(shù)據(jù)分析技術(shù)重點(diǎn)關(guān)注使用適宜的既定統(tǒng)計(jì)方法針對(duì)數(shù)據(jù)展開(kāi)分析,以便從中發(fā)掘具體的功能和價(jià)值。相較于傳統(tǒng)的數(shù)據(jù)分析,大數(shù)據(jù)技術(shù)的關(guān)鍵目標(biāo)之一在于在浩如煙海、結(jié)構(gòu)繁復(fù)的大量數(shù)據(jù)之中發(fā)掘各類(lèi)數(shù)據(jù)背后的潛在的客觀規(guī)律,借此最大化數(shù)據(jù)所能體現(xiàn)的價(jià)值。為此,應(yīng)當(dāng)切實(shí)地結(jié)合機(jī)器學(xué)習(xí),通過(guò)計(jì)算機(jī)發(fā)掘數(shù)據(jù),并從中篩選信息,獲取相應(yīng)的知識(shí)。只有相應(yīng)地發(fā)展機(jī)器學(xué)習(xí),大數(shù)據(jù)技術(shù)的目標(biāo)才可以獲得可以實(shí)現(xiàn)的保障。具體而言,大數(shù)據(jù)的特征大致如下:一是數(shù)據(jù)在體量方面極其巨大;二是數(shù)據(jù)在類(lèi)型方面極其繁多;三是數(shù)據(jù)價(jià)值性密度較為低下;四是眾多數(shù)據(jù)需要進(jìn)行即時(shí)快速的處理。因此,受制于大數(shù)據(jù)的各種特征,發(fā)展機(jī)器學(xué)習(xí)需要從研究方向、主要評(píng)測(cè)指標(biāo)和相關(guān)核心技術(shù)三個(gè)維度出發(fā),具體地結(jié)合實(shí)際進(jìn)行。
機(jī)器學(xué)習(xí)屬于人工智能領(lǐng)域的關(guān)鍵研究?jī)?nèi)容,具體而言是指計(jì)算機(jī)借助經(jīng)驗(yàn)調(diào)整自身系統(tǒng)性能的行為。人類(lèi)擁有學(xué)習(xí)能力,人類(lèi)的學(xué)習(xí)行為背后蘊(yùn)藏著極其復(fù)雜的運(yùn)行機(jī)制,模仿這種運(yùn)行機(jī)制得出的就是機(jī)器學(xué)習(xí)理論的基礎(chǔ)。機(jī)器學(xué)習(xí)的主要研究方向在于通過(guò)計(jì)算機(jī)模擬或是復(fù)現(xiàn)人類(lèi)獲取知識(shí)進(jìn)行學(xué)習(xí)的過(guò)程,進(jìn)而經(jīng)由針對(duì)既有知識(shí)進(jìn)行解構(gòu)、創(chuàng)新、再重構(gòu)的過(guò)程,幫助計(jì)算機(jī)提升狀況處理效率和處理能力,最終幫助計(jì)算機(jī)從各類(lèi)數(shù)據(jù)之中獲取相應(yīng)的知識(shí)。
機(jī)器學(xué)習(xí)研究方向大致可以分為三個(gè)特點(diǎn)。一是機(jī)器學(xué)習(xí)本質(zhì)屬于跨數(shù)學(xué)與計(jì)算機(jī)學(xué)科的交叉研究方向;二是機(jī)器學(xué)習(xí)具有顯著的知識(shí)集團(tuán)化特征;三是近年來(lái)機(jī)器學(xué)習(xí)的理論發(fā)展和技術(shù)革新速度均大大超過(guò)傳統(tǒng)學(xué)科[2]。而研究學(xué)習(xí)機(jī)制是發(fā)展機(jī)器學(xué)習(xí)的基礎(chǔ),且進(jìn)入大數(shù)據(jù)時(shí)代之后社會(huì)各行各業(yè)對(duì)于數(shù)據(jù)分析的需求都在持續(xù)增長(zhǎng),更加高效的信息運(yùn)用方法對(duì)于發(fā)展機(jī)器學(xué)習(xí)的重要性越發(fā)凸顯,逐漸成為促進(jìn)機(jī)器學(xué)習(xí)發(fā)展的主要?jiǎng)恿υ碵2]。
大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)的發(fā)展更加偏向于強(qiáng)調(diào)學(xué)習(xí)行為本身,而機(jī)器學(xué)習(xí)逐漸成為底層技術(shù)和服務(wù)技術(shù),研究方向主要體現(xiàn)在以機(jī)器學(xué)習(xí)為基礎(chǔ),針對(duì)復(fù)雜多變的各類(lèi)數(shù)據(jù),進(jìn)行更加深入的分析,并更加有效地運(yùn)用數(shù)據(jù)中所包含的信息。機(jī)器學(xué)習(xí)的發(fā)展方向逐漸向智能化的數(shù)據(jù)分析發(fā)展,同時(shí)已經(jīng)為智能化的數(shù)據(jù)分析技術(shù)提供了關(guān)鍵的基礎(chǔ)。此外,身處大數(shù)據(jù)時(shí)代,數(shù)據(jù)產(chǎn)生速率不斷加快,以至于帶來(lái)了數(shù)量遠(yuǎn)超從前的數(shù)據(jù)增長(zhǎng)。與此同時(shí),嶄新數(shù)據(jù)分析需求仍在隨著時(shí)代的發(fā)展持續(xù)地出現(xiàn),諸如文本理解、文本情感分析、圖像搜索與圖像理解和圖形及網(wǎng)絡(luò)數(shù)據(jù)分析,不僅為機(jī)器學(xué)習(xí)的研究提供了嶄新的研究方向,還促使更多的新型機(jī)器學(xué)習(xí)方法產(chǎn)生并投入實(shí)際應(yīng)用。在對(duì)機(jī)器學(xué)習(xí)的研究中,只有切實(shí)地解決是否可以拓展的疑問(wèn),才可以更加有效地進(jìn)行數(shù)據(jù)分析。大數(shù)據(jù)時(shí)代的特征及其所需要求大致包含三個(gè)方面。
在互聯(lián)網(wǎng)及金融行業(yè),訓(xùn)練實(shí)例的數(shù)量極其豐富,每日出現(xiàn)包含數(shù)十億事件的數(shù)據(jù)集合也是司空見(jiàn)慣的。同時(shí),包含傳感器在內(nèi)的各類(lèi)設(shè)備持續(xù)性記錄觀察數(shù)據(jù)也可以作為訓(xùn)練數(shù)據(jù)投入使用。而此類(lèi)數(shù)據(jù)集合動(dòng)輒可以高達(dá)數(shù)百TB,針對(duì)大型數(shù)據(jù)集合,最為理想的方式是結(jié)合服務(wù)器集合的存儲(chǔ)與帶寬。為此,可以采用最新的計(jì)算框架簡(jiǎn)化針對(duì)大型數(shù)據(jù)集進(jìn)行計(jì)算的工作。機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用通常包含自然語(yǔ)言、圖形以及視頻,而這些數(shù)據(jù)所包含的數(shù)據(jù)實(shí)例具備眾多數(shù)量特征,在數(shù)量方面遠(yuǎn)超當(dāng)下可以輕易進(jìn)行處理的特征。為求促進(jìn)計(jì)算擴(kuò)展到更加豐富的程度,在特征空間內(nèi)并行計(jì)算可以得到較好的效果,另外可以引入在特征空間內(nèi)進(jìn)行迭代運(yùn)算的具體算法。
在部分應(yīng)用場(chǎng)景中,諸如AI導(dǎo)航和智能化差異化推送,都需要及時(shí)進(jìn)行預(yù)測(cè)。受限于預(yù)測(cè)速度,為求較短的預(yù)測(cè)時(shí)間,預(yù)測(cè)算法需要復(fù)合的并行化處理。計(jì)算時(shí)間通常取決于單項(xiàng)任務(wù)的處理時(shí)間以及時(shí)延,可以通過(guò)提升一臺(tái)機(jī)器的性能與吞吐量減少單項(xiàng)任務(wù)所需的計(jì)算時(shí)間;將任務(wù)設(shè)置為復(fù)數(shù)彼此相關(guān)的進(jìn)程組,由于不同進(jìn)程所需的處理時(shí)間不一,任務(wù)的總體處理時(shí)間取決于各個(gè)進(jìn)程的計(jì)算所花費(fèi)的時(shí)間,如果其中一個(gè)進(jìn)程處理時(shí)間有所延長(zhǎng),任務(wù)在總體層面就會(huì)相應(yīng)地遭遇時(shí)延,以至于拖慢任務(wù)的完成。部分精確度較高的學(xué)習(xí)算法以復(fù)雜的非線(xiàn)性模型或是造價(jià)不菲的計(jì)算子程序?yàn)榛A(chǔ),為此,分配計(jì)算作業(yè)至不同的處理單元才是大數(shù)據(jù)學(xué)習(xí)算法的重點(diǎn)工作。在特殊行業(yè)內(nèi),部分?jǐn)?shù)據(jù)在基礎(chǔ)特征方面呈現(xiàn)非線(xiàn)性的結(jié)構(gòu),在其中運(yùn)用高精度非線(xiàn)性表現(xiàn)方法在性能方面勝于普通的簡(jiǎn)單算法。這種算法的共同性質(zhì)是計(jì)算較為復(fù)雜,一臺(tái)機(jī)器的學(xué)習(xí)速度會(huì)極其緩慢,使用并行多節(jié)點(diǎn)處理或是多核處理則可以較好地提升針對(duì)大數(shù)據(jù)使用復(fù)合算法和模型計(jì)算的速度。
在部分應(yīng)用場(chǎng)景下,對(duì)于順序和彼此依賴(lài)的預(yù)測(cè)要求較高,其中具有高度復(fù)雜的聯(lián)合輸出空間,并行化處理可以有效提高速度?,F(xiàn)實(shí)中的很多問(wèn)題,諸如物體的追蹤、語(yǔ)音的識(shí)別和機(jī)器的翻譯,都需要執(zhí)行一整套彼此依賴(lài)的預(yù)測(cè),乃至需要構(gòu)造預(yù)測(cè)層級(jí)。假設(shè)以一個(gè)級(jí)聯(lián)為任務(wù),那么就會(huì)帶來(lái)充足的聯(lián)合輸出空間,而計(jì)算變得更為復(fù)雜,一般會(huì)帶來(lái)極高的計(jì)算成本。為了求出調(diào)整學(xué)習(xí)算法所包含的超參數(shù),評(píng)估統(tǒng)計(jì)的重要性,需要反復(fù)執(zhí)行學(xué)習(xí)行為和預(yù)測(cè),也就是所謂的可并行化處理的具體運(yùn)用,原本就很適應(yīng)并行化處理。在具體的參數(shù)掃描過(guò)程中,可以通過(guò)在配置有所不同的同一數(shù)據(jù)集合上反復(fù)運(yùn)行學(xué)習(xí)算法,進(jìn)而在一個(gè)驗(yàn)證集合上具體地進(jìn)行評(píng)估。
針對(duì)大數(shù)據(jù)進(jìn)行價(jià)值發(fā)現(xiàn)的難度較高,為大數(shù)據(jù)分析服務(wù)的機(jī)器學(xué)習(xí)技術(shù)在三個(gè)方面需具備符合預(yù)期的適應(yīng)能力。
一般而言,經(jīng)由訓(xùn)練樣本進(jìn)行訓(xùn)練的機(jī)器學(xué)習(xí)算法需要具備充足的泛化能力,換句話(huà)說(shuō)也就是針對(duì)新輸入合理地進(jìn)行響應(yīng)的能力,該項(xiàng)能力在對(duì)于機(jī)器學(xué)習(xí)算法性能進(jìn)行評(píng)估的過(guò)程中基本具備十分重要的參考價(jià)值[3]。機(jī)器學(xué)習(xí)中最為基礎(chǔ)的目標(biāo)在于針對(duì)訓(xùn)練數(shù)據(jù)之中的實(shí)例進(jìn)行相應(yīng)的泛化延伸。不論如何,在測(cè)試中看到相同實(shí)例都是不現(xiàn)實(shí)的。而通過(guò)訓(xùn)練數(shù)據(jù)得出較好的表現(xiàn)相對(duì)來(lái)說(shuō)是較為簡(jiǎn)單的,僅僅需要針對(duì)具體實(shí)例進(jìn)行記憶。在機(jī)器學(xué)習(xí)的過(guò)程中,訓(xùn)練速度與測(cè)試速度會(huì)影響學(xué)習(xí)速度,而訓(xùn)練速度與測(cè)試速度是彼此相關(guān)的。部分算法的訓(xùn)練速度較為理想,測(cè)試速度則相對(duì)較為緩慢;部分算法則正好相反。為此,相對(duì)重要的研究方向之一在于調(diào)整訓(xùn)練速度和測(cè)試速度,以便獲得同時(shí)保證兩種速度的機(jī)器學(xué)習(xí)算法[4]。
功能可以較好滿(mǎn)足預(yù)期的機(jī)器學(xué)習(xí)算法大多是不透明的,對(duì)于用戶(hù)來(lái)說(shuō),可以看到的僅限最后的輸出結(jié)果,而得出結(jié)果的過(guò)程是欠缺的。伴隨著數(shù)據(jù)總量的增多、問(wèn)題復(fù)雜程度的提升,對(duì)于過(guò)程的需求也在逐漸增長(zhǎng)。偏向算法研究的機(jī)器學(xué)習(xí)的原型系統(tǒng)在轉(zhuǎn)向?qū)嶋H的機(jī)器學(xué)習(xí)的系統(tǒng)時(shí)會(huì)受到更加繁多復(fù)雜的內(nèi)外因素影響,其中較為關(guān)鍵的是現(xiàn)實(shí)中不同的領(lǐng)域不同的誤判結(jié)果所需支付的代價(jià)間的平衡性。部分誤判結(jié)果需要支付較為高昂的代價(jià),而部分誤判結(jié)果的代價(jià)無(wú)關(guān)痛癢。為此,應(yīng)借助大數(shù)據(jù)分析的核心優(yōu)勢(shì),綜合各種數(shù)據(jù)與因素針對(duì)特定物事進(jìn)行全方位無(wú)死角的解讀。代價(jià)敏感較為符合要求的學(xué)習(xí)算法可以提供較為理想的解決方向,借由引入代價(jià)相關(guān)信息衡量誤判的嚴(yán)重程度。
如今,人工智能通過(guò)模糊語(yǔ)言搜集快速高效化分析處理模塊,實(shí)現(xiàn)對(duì)龐大數(shù)據(jù)的分類(lèi)和篩選。數(shù)據(jù)處理既包含有標(biāo)識(shí)的數(shù)據(jù),也包含海量未標(biāo)識(shí)數(shù)據(jù),還包含雜質(zhì)較多且不一致不完整的臟數(shù)據(jù)與不平衡數(shù)據(jù)。如果按照既有習(xí)慣直接舍棄臟數(shù)據(jù),僅僅使用有標(biāo)識(shí)數(shù)據(jù)而不使用未標(biāo)識(shí)數(shù)據(jù),在數(shù)據(jù)運(yùn)用方面就會(huì)造成較為可觀的浪費(fèi),同時(shí)也會(huì)影響到已掌握模型的泛化運(yùn)用能力。且通過(guò)一個(gè)任務(wù)學(xué)習(xí)得到的知識(shí)應(yīng)當(dāng)可以遷移至有其共性的其他任務(wù)之中,以便盡可能地提高在其他任務(wù)中進(jìn)行學(xué)習(xí)的性能。舉例而言,用以監(jiān)督學(xué)習(xí)的公式中包含學(xué)習(xí)函數(shù),而在大數(shù)據(jù)場(chǎng)景下,很多情況需要學(xué)習(xí)一連串的相關(guān)函數(shù),盡管判斷函數(shù)存在一定的差異,但是其中仍有許多共性。
當(dāng)下,機(jī)器學(xué)習(xí)的研究與實(shí)際運(yùn)用過(guò)程中最為常見(jiàn)且相對(duì)關(guān)鍵的核心技術(shù)主要包含集成的學(xué)習(xí)、半監(jiān)督式的學(xué)習(xí)與概率圖模型學(xué)習(xí)以及遷移式的學(xué)習(xí)。
在現(xiàn)實(shí)之中,群體決策通常高于個(gè)體決策,尤其是群體之中見(jiàn)解均不同的情況。在機(jī)器學(xué)習(xí)中同理,集成學(xué)習(xí)是指整合復(fù)數(shù)不同學(xué)習(xí)系統(tǒng)得出的結(jié)果,以便獲得超出個(gè)體學(xué)習(xí)系統(tǒng)的理想學(xué)習(xí)效果。通過(guò)集成學(xué)習(xí),哪怕是更為簡(jiǎn)單的學(xué)習(xí)系統(tǒng)也可以得到更為理想的學(xué)習(xí)效果。此外,集成學(xué)習(xí)所具備的架構(gòu)特性原本就適合并行處理,可以為提高大數(shù)據(jù)時(shí)代背景下的訓(xùn)練效率和測(cè)試效率奠定較為符合預(yù)期的基礎(chǔ)。傳統(tǒng)機(jī)器學(xué)習(xí)的核心在于檢索,檢索全部的可能函數(shù)并相應(yīng)地構(gòu)造假設(shè)空間集合,以便從中選取最為貼合未知函數(shù)的相近函數(shù)。而在統(tǒng)計(jì)、計(jì)算與表示層面會(huì)面臨一定的問(wèn)題,可用的訓(xùn)練數(shù)據(jù)同時(shí)存在很多,甚至存在復(fù)數(shù)精確度相近的不同假設(shè),其或許會(huì)在相同的訓(xùn)練數(shù)據(jù)上得到相同的表現(xiàn),但換用新的數(shù)據(jù)則會(huì)出現(xiàn)較大偏差,而使用集成學(xué)習(xí)的簡(jiǎn)單平等投票則可以避免這些問(wèn)題。
參考傳統(tǒng)機(jī)器學(xué)習(xí)的理論框架,機(jī)器學(xué)習(xí)可以分為有監(jiān)督的學(xué)習(xí)和無(wú)監(jiān)督的學(xué)習(xí)。前者使用的是有標(biāo)識(shí)數(shù)據(jù),后者則僅僅使用未標(biāo)識(shí)數(shù)據(jù)。進(jìn)入大數(shù)據(jù)時(shí)代后,數(shù)據(jù)采集和數(shù)據(jù)存儲(chǔ)方面的技術(shù)高速發(fā)展,大量未標(biāo)識(shí)數(shù)據(jù)的收集逐漸變得輕而易舉。同時(shí),大量的有標(biāo)識(shí)數(shù)據(jù)則需仰賴(lài)領(lǐng)域內(nèi)專(zhuān)家的幫助,不僅極其耗時(shí)耗神,還需要面對(duì)容易出現(xiàn)錯(cuò)誤的風(fēng)險(xiǎn)。因而在現(xiàn)實(shí)之中,未標(biāo)識(shí)數(shù)據(jù)在數(shù)量方面已經(jīng)遠(yuǎn)超有標(biāo)識(shí)數(shù)據(jù),只有充分地利用未標(biāo)識(shí)數(shù)據(jù),機(jī)器學(xué)習(xí)所得模型的泛化能力才可以得到保障。大數(shù)據(jù)的發(fā)展對(duì)于處理海量不確定數(shù)據(jù)提出了較高的要求,而不確定數(shù)據(jù)廣泛存在于各行各業(yè),通過(guò)這些不確定數(shù)據(jù)分解出信息并相應(yīng)地獲取知識(shí)逐漸成為大數(shù)據(jù)分析的重點(diǎn)發(fā)展目標(biāo)[5]。概率圖模型是概率論與圖論結(jié)合后的產(chǎn)物,是圖形化表現(xiàn)概率實(shí)際分布的結(jié)果,為把握隨機(jī)變量之間錯(cuò)綜復(fù)雜的依賴(lài)關(guān)系并構(gòu)造規(guī)模較大的復(fù)數(shù)變量統(tǒng)計(jì)模型創(chuàng)造了統(tǒng)一的條件。
進(jìn)入大數(shù)據(jù)時(shí)代后,大量嶄新的數(shù)據(jù)出現(xiàn)在各行各業(yè),只有獲得海量有標(biāo)識(shí)數(shù)據(jù)的訓(xùn)練用數(shù)據(jù),才可以在嶄新的數(shù)據(jù)處理上運(yùn)用傳統(tǒng)的機(jī)器學(xué)習(xí)方法。針對(duì)各行各業(yè)差異化地設(shè)置訓(xùn)練數(shù)據(jù)需要占用大量的人力物力,而在不同場(chǎng)景間遷移轉(zhuǎn)化知識(shí)的能力可以相應(yīng)地解決問(wèn)題。遷移式的學(xué)習(xí)在傳統(tǒng)的機(jī)器學(xué)習(xí)之中較為匱乏,根源是傳統(tǒng)的機(jī)器學(xué)習(xí)通常要求學(xué)習(xí)的知識(shí)與應(yīng)用的場(chǎng)景具備一致的統(tǒng)計(jì)特征。當(dāng)二者彼此分離之后,相關(guān)統(tǒng)計(jì)特征會(huì)隨之發(fā)生改變,統(tǒng)計(jì)學(xué)習(xí)的效率會(huì)大幅降低。而遷移式的學(xué)習(xí)可以較好地解決該問(wèn)題,其主要借助源頭任務(wù)中的相關(guān)知識(shí)相應(yīng)地提升目標(biāo)任務(wù)中的學(xué)習(xí)效率與學(xué)習(xí)性能,這不僅可以幫助計(jì)算機(jī)掌握更為有效的學(xué)習(xí)能力,還可以推動(dòng)機(jī)器學(xué)習(xí)相關(guān)研究的發(fā)展。
在當(dāng)下的大數(shù)據(jù)時(shí)代,無(wú)標(biāo)識(shí)數(shù)據(jù)與少量有標(biāo)識(shí)數(shù)據(jù)構(gòu)成了絕大部分的數(shù)據(jù),對(duì)此,采用半監(jiān)督式的學(xué)習(xí)方法可以較為切實(shí)地處理這一類(lèi)數(shù)據(jù)。伴隨著數(shù)據(jù)量的急速增長(zhǎng),單一的學(xué)習(xí)器所能得出的學(xué)習(xí)成果和學(xué)習(xí)效率難以滿(mǎn)足實(shí)際的需求,只有通過(guò)復(fù)數(shù)學(xué)習(xí)器進(jìn)行集成的學(xué)習(xí),才可以更加有效地得出學(xué)習(xí)成果。概率圖模型借由圖形可視化處理,可以為結(jié)構(gòu)多樣的大數(shù)據(jù)分析工作提供簡(jiǎn)約卻有效的分析模型。只有通過(guò)遷移式的學(xué)習(xí),既有學(xué)習(xí)成果才可以在持續(xù)累積的過(guò)程中逐漸引入其他未知的學(xué)習(xí)領(lǐng)域。只有充分切實(shí)地關(guān)注機(jī)器學(xué)習(xí)的相關(guān)技術(shù)及其相關(guān)方式方法,機(jī)器學(xué)習(xí)才可以取得更加長(zhǎng)足的發(fā)展。