韓雪純
摘要:大數(shù)據(jù)時(shí)代下數(shù)據(jù)的出現(xiàn)和傳輸呈現(xiàn)出了一種以幾何形式增長(zhǎng)的形態(tài)出現(xiàn),不論是數(shù)據(jù)的規(guī)模、內(nèi)容還是精確程度都為服務(wù)器的進(jìn)步與完善帶來(lái)了極大的挑戰(zhàn)。本文以此為出發(fā)點(diǎn),就大數(shù)據(jù)時(shí)代下機(jī)器學(xué)習(xí)的應(yīng)用研究做詳細(xì)深入的探究,主要針對(duì)當(dāng)下機(jī)器學(xué)習(xí)的重要內(nèi)容做分析。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;機(jī)器學(xué)習(xí);數(shù)據(jù);應(yīng)用
大數(shù)據(jù)時(shí)代的到來(lái)給傳統(tǒng)機(jī)器的學(xué)習(xí)提出了一個(gè)較為巨大的數(shù)據(jù)難題,即如何面對(duì)龐大的數(shù)據(jù)群體開展處理活動(dòng),目前傳統(tǒng)機(jī)器學(xué)習(xí)主要存在的問(wèn)題在系統(tǒng)與用戶的語(yǔ)言差異及如何模仿并模擬人的學(xué)習(xí)過(guò)程。基于當(dāng)下對(duì)于大數(shù)據(jù)處理的基本要求,如何滿足上述條件,成為了傳統(tǒng)機(jī)器學(xué)習(xí)主要方向。
1 基于大數(shù)據(jù)時(shí)代下機(jī)器學(xué)習(xí)的評(píng)價(jià)指標(biāo)
數(shù)據(jù)的龐大性及處理的復(fù)雜程度對(duì)于傳統(tǒng)機(jī)器提出了極為嚴(yán)苛的要求,但當(dāng)下傳統(tǒng)機(jī)器的處理能力有限,顯然不能滿足當(dāng)下的需求,進(jìn)而形成了傳統(tǒng)機(jī)器的發(fā)展緩慢與大數(shù)據(jù)需求激增的矛盾。因此傳統(tǒng)機(jī)器需要進(jìn)行機(jī)器學(xué)習(xí),以全新的運(yùn)營(yíng)系統(tǒng)及算法來(lái)滿足當(dāng)下需求,而評(píng)價(jià)其傳統(tǒng)機(jī)器是否達(dá)標(biāo)需要通過(guò)以下幾個(gè)方面來(lái)評(píng)價(jià)。
(1)計(jì)算速度的評(píng)價(jià)指標(biāo)。大數(shù)據(jù)時(shí)代最突出的特征就數(shù)據(jù)的數(shù)量與其產(chǎn)生的速度,因此機(jī)器學(xué)習(xí)的評(píng)價(jià)指標(biāo)中,計(jì)算速度作為一個(gè)重要指標(biāo),是檢驗(yàn)機(jī)器學(xué)習(xí)是否符合當(dāng)下標(biāo)準(zhǔn)的重要內(nèi)容。而在機(jī)器計(jì)算速度的評(píng)價(jià)指標(biāo)中,與計(jì)算速度相關(guān)的速度內(nèi)容又包括訓(xùn)練與預(yù)測(cè)兩方面,訓(xùn)練與預(yù)測(cè)是兩個(gè)不可分割的內(nèi)容[1],前者是指在計(jì)算中得出最優(yōu)方案的計(jì)算速度,后者則是指運(yùn)用最優(yōu)方案進(jìn)行計(jì)算產(chǎn)生結(jié)構(gòu)的具體速度,兩者的結(jié)合共同成為衡量機(jī)器計(jì)算速度的重要標(biāo)準(zhǔn)。
(2)泛化能力的考察與實(shí)踐。機(jī)器學(xué)習(xí)的根本目標(biāo),是通過(guò)學(xué)習(xí),將能夠得出的最優(yōu)方案進(jìn)行推廣,成為可以廣泛使用的方案,因此對(duì)數(shù)據(jù)處理能力的合理性,即機(jī)器學(xué)習(xí)的泛化能力也成為了當(dāng)下衡量的重要標(biāo)準(zhǔn)之一。
(3)數(shù)據(jù)處理與標(biāo)識(shí)能力。數(shù)據(jù)處理與標(biāo)識(shí)能力是指在當(dāng)下數(shù)據(jù)中,機(jī)器對(duì)于數(shù)據(jù)進(jìn)行分辨,將有標(biāo)識(shí)的數(shù)據(jù)進(jìn)行處理與運(yùn)用,未標(biāo)識(shí)的數(shù)據(jù)在傳統(tǒng)機(jī)器計(jì)算中處于廢棄不完整數(shù)據(jù),會(huì)被丟棄,但是實(shí)際這些數(shù)據(jù)中有很多數(shù)據(jù)可以重新被標(biāo)識(shí),成為完整數(shù)據(jù)被利用。因此,對(duì)于數(shù)據(jù)的處理與標(biāo)識(shí)能力也成為了當(dāng)下機(jī)器學(xué)習(xí)的重要評(píng)價(jià)標(biāo)準(zhǔn)之一。
(4)錯(cuò)誤代價(jià)的處理及收斂反應(yīng)。對(duì)于機(jī)器計(jì)算中出現(xiàn)的錯(cuò)誤及造成的代價(jià)與機(jī)器自身的收斂反應(yīng)也稱之為代價(jià)敏感,代價(jià)敏感是基于在訓(xùn)練計(jì)算只能夠,機(jī)器對(duì)于出現(xiàn)錯(cuò)誤造成的數(shù)據(jù)損失是否能夠盡快回復(fù)和收斂,并基于損失數(shù)據(jù),計(jì)算產(chǎn)生代價(jià)得出相應(yīng)的結(jié)論,這是基于大數(shù)據(jù)時(shí)代下,數(shù)據(jù)整理缺乏一定的統(tǒng)籌性,很多數(shù)據(jù)的質(zhì)量與內(nèi)容參差不齊,因此,代價(jià)敏感作為機(jī)器學(xué)習(xí)算法中需要實(shí)際應(yīng)用的一個(gè)內(nèi)容,更是機(jī)器學(xué)習(xí)新技術(shù)的推廣考核重要標(biāo)準(zhǔn)。
(5)對(duì)于算法的可解釋性及預(yù)測(cè)結(jié)果分析。對(duì)于用戶而言,機(jī)器計(jì)算的過(guò)程是“幕后”進(jìn)行的,用戶只通過(guò)輸入相關(guān)的指令,就可以看到輸出的數(shù)據(jù)內(nèi)容,但對(duì)于內(nèi)容產(chǎn)生的方式、原因及過(guò)程往往一概不知,這就造成當(dāng)下數(shù)據(jù)泛濫,用戶面對(duì)復(fù)雜數(shù)據(jù)處理時(shí),機(jī)器學(xué)習(xí)能力較差,用戶無(wú)從解決的現(xiàn)象出現(xiàn)。歸根究底是對(duì)于機(jī)器算法的可解釋性一直以來(lái)被稀釋,不被重視,而基于大數(shù)據(jù)時(shí)代的到來(lái),機(jī)器的可解釋性也應(yīng)當(dāng)作為其重要的數(shù)據(jù)考核標(biāo)準(zhǔn)成為當(dāng)下計(jì)算學(xué)習(xí)的評(píng)價(jià)體系中的一方面。[2]
2 對(duì)于當(dāng)下機(jī)器學(xué)習(xí)應(yīng)用的關(guān)鍵技術(shù)探究
截止到目前為止,機(jī)器學(xué)習(xí)應(yīng)用的關(guān)鍵技術(shù)主要通過(guò)機(jī)器學(xué)習(xí)理論框架構(gòu)建的十余種關(guān)鍵技術(shù),本文著重分析其中三種應(yīng)用最為廣泛的機(jī)器學(xué)習(xí)關(guān)鍵技術(shù)。
(1)半監(jiān)督學(xué)習(xí)技術(shù)。半監(jiān)督學(xué)習(xí)技術(shù)是基于傳統(tǒng)機(jī)器計(jì)算弊端產(chǎn)生的機(jī)器學(xué)習(xí)技術(shù),在傳統(tǒng)機(jī)器數(shù)據(jù)處理時(shí),對(duì)于未標(biāo)識(shí)的數(shù)據(jù),一般以損失數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)被丟棄,這種就是在傳統(tǒng)機(jī)器中較為常見的無(wú)監(jiān)督學(xué)習(xí),與其對(duì)應(yīng)的監(jiān)督學(xué)習(xí)就是處理以標(biāo)識(shí)的各類數(shù)據(jù)。半監(jiān)督學(xué)習(xí)技術(shù)基于兩者之間,一方面地域有標(biāo)識(shí)數(shù)據(jù)進(jìn)行處理,一方面將未標(biāo)識(shí)數(shù)據(jù)進(jìn)行分類,在分類的基礎(chǔ)上重新處理,將未標(biāo)識(shí)數(shù)據(jù)中的完整數(shù)據(jù)、有用數(shù)據(jù)進(jìn)行分類,歸入有標(biāo)識(shí)數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)的回收利用,提高數(shù)據(jù)利用率的同時(shí),避免了數(shù)據(jù)浪費(fèi)現(xiàn)象的出現(xiàn)。尤其是在基于當(dāng)下數(shù)據(jù)泛濫的大數(shù)據(jù)時(shí)代,未標(biāo)識(shí)數(shù)據(jù)的數(shù)量遠(yuǎn)遠(yuǎn)高于標(biāo)識(shí)數(shù)據(jù),其未標(biāo)識(shí)數(shù)據(jù)的價(jià)值如果不加以重新分類梳理,很多有價(jià)值的數(shù)據(jù)就會(huì)被浪費(fèi)。
(2)不同學(xué)習(xí)系統(tǒng)的集成學(xué)習(xí)技術(shù)。不同學(xué)習(xí)系統(tǒng)的集成學(xué)習(xí)技術(shù)就是指將不同學(xué)習(xí)系統(tǒng)進(jìn)行整合,來(lái)實(shí)現(xiàn)優(yōu)化現(xiàn)有學(xué)習(xí)系統(tǒng),各取所長(zhǎng)的學(xué)習(xí)構(gòu)架。其原理簡(jiǎn)單來(lái)講,可簡(jiǎn)化為“團(tuán)結(jié)就是力量”,不論是機(jī)器還是人,都需要依靠團(tuán)隊(duì)的力量,單個(gè)學(xué)習(xí)系統(tǒng)再?gòu)?qiáng)大,也不過(guò)集成系統(tǒng)的優(yōu)勢(shì),將不同機(jī)器的學(xué)習(xí)系統(tǒng)串聯(lián)共同使用,不僅是應(yīng)對(duì)當(dāng)下大數(shù)據(jù)時(shí)代的數(shù)據(jù)處理問(wèn)題,更是機(jī)器學(xué)習(xí)擬人的一個(gè)重要過(guò)程中,與此同時(shí),集成學(xué)習(xí)技術(shù)本身是建立在現(xiàn)有學(xué)習(xí)系統(tǒng)之上開展的,難度系數(shù)不大,另一方面廣泛的運(yùn)用能夠?yàn)閿?shù)據(jù)的分析與處理發(fā)展趨勢(shì)提出更多可發(fā)展方向。
(3)分類與遷移標(biāo)識(shí)數(shù)據(jù)學(xué)習(xí)技術(shù)。在上文中提到,大數(shù)據(jù)時(shí)代雖然帶來(lái)龐大的數(shù)據(jù)量,但是這些數(shù)據(jù)的質(zhì)量參差不齊,因此需要進(jìn)行標(biāo)識(shí)數(shù)據(jù)與未標(biāo)識(shí)數(shù)據(jù)的處理來(lái)分類,簡(jiǎn)化數(shù)據(jù)處理的內(nèi)容及工作量,而這個(gè)分類過(guò)程就是本文所指的分類與遷移標(biāo)識(shí)數(shù)據(jù)學(xué)習(xí)技術(shù)。該技術(shù)需要基于一定的訓(xùn)練數(shù)據(jù)基礎(chǔ)上進(jìn)行,但是大數(shù)據(jù)時(shí)代提出了更大的難題,即不僅數(shù)據(jù)的數(shù)據(jù)幾何形式上升,對(duì)于數(shù)據(jù)的實(shí)質(zhì)內(nèi)容、分類,也大大激增,如果不同數(shù)據(jù)領(lǐng)域之間都進(jìn)行一定基礎(chǔ)的訓(xùn)練數(shù)據(jù)再投入使用,所耗費(fèi)的人力物力是不現(xiàn)實(shí)的,也不符合當(dāng)下機(jī)器學(xué)習(xí)的原則。因此,要求機(jī)器學(xué)習(xí)技術(shù)的擬人化,將已有的訓(xùn)練數(shù)據(jù)領(lǐng)域互相結(jié)合,即如同人在面對(duì)困難時(shí),會(huì)先運(yùn)用已有的知識(shí)尋求解決困難的辦法,這也是機(jī)器學(xué)習(xí)應(yīng)用技術(shù)的一個(gè)非常重要的方面。
3 結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代的到來(lái)與快速發(fā)展,對(duì)于機(jī)器學(xué)習(xí)的應(yīng)用將會(huì)提出更多具有挑戰(zhàn)性的內(nèi)容,機(jī)器的擬人化學(xué)習(xí)是當(dāng)下學(xué)習(xí)技術(shù)中最為廣泛應(yīng)用的一種方式,也是未來(lái)機(jī)器學(xué)習(xí)發(fā)展的一個(gè)主要趨勢(shì)和基本方向,更是機(jī)器學(xué)習(xí)在后續(xù)發(fā)展中需要不斷實(shí)踐與論證的主要內(nèi)容。
參考文獻(xiàn):
[1]何曉飛,張敏玲,郭茂祖.大數(shù)據(jù)時(shí)代的機(jī)器學(xué)習(xí)研究??把訹J].軟件學(xué)報(bào),2015(09):144145.
[2]基于三元概念分析的機(jī)器學(xué)習(xí)算法研究及應(yīng)用[D].鄭州大學(xué),2017.