隋旻言,李驍漢
(武漢理工大學(xué)自動化學(xué)院,湖北武漢,430070)
數(shù)據(jù)降維是指將單幅圖像數(shù)據(jù)的高維化,使其轉(zhuǎn)化為高維空間中的數(shù)據(jù)集合,進行非線性降維,尋求高維數(shù)據(jù)結(jié)構(gòu)的一維表示向量,將其作為圖像數(shù)據(jù)的特征表達特定目標(biāo)。數(shù)據(jù)降維可以應(yīng)用于多個領(lǐng)域,尤其是大量數(shù)據(jù)的分析計算,包括機器學(xué)習(xí)相關(guān)工作。當(dāng)前機器學(xué)習(xí)分類應(yīng)用問題較為突出,很大程度上影響了具體工作的開展,分析基于數(shù)據(jù)降維的機器學(xué)習(xí)分類應(yīng)用問題、探討解決對策有一定的現(xiàn)實意義。
樣本歸類問題,是機器學(xué)習(xí)分類應(yīng)用最基礎(chǔ)的、最突出的問題,當(dāng)前機器學(xué)習(xí)的基本方式是神經(jīng)訓(xùn)練,該算法是對人體神經(jīng)系統(tǒng)進行模擬,通過廣泛收集非結(jié)構(gòu)化的海量數(shù)據(jù)進行學(xué)習(xí),但在對樣本進行歸類時,由于海量數(shù)據(jù)中相近數(shù)據(jù)極多,很難實現(xiàn)精確的歸類,導(dǎo)致機器學(xué)習(xí)耗時長、效率低。
當(dāng)前機器學(xué)習(xí)的一個核心弊端是較大的計算量,這也直接影響了分類應(yīng)用工作。機器人出現(xiàn)之初,為求保證其能夠有效模仿人類的行為、實現(xiàn)“人工智能”,設(shè)計人員采用了神經(jīng)訓(xùn)練法,這一算法的優(yōu)勢也是其弊端。具體來說,提升神經(jīng)訓(xùn)練成果的主要方法是大量增加樣本數(shù)據(jù),樣本數(shù)據(jù)越多,計算結(jié)果越理想,機器人的模仿能力也越強。
精度問題是當(dāng)前機器學(xué)習(xí)分類應(yīng)用的主要問題之一,對于精度標(biāo)準(zhǔn),各國的看法并不一致,總體而言,機器學(xué)習(xí)依然遵循樣本數(shù)量越多、精度越高的基本規(guī)律[1]。
隨機森林法是用隨機的方式建立一個擬森林狀的判斷系統(tǒng),在“判斷森林”(隨機森林)中,每一個進行判斷的程序都以一棵“決策樹”的形式存在,隨機森林的每一棵“決策樹”之間是沒有關(guān)聯(lián)的。隨機森林建成后,任意輸入樣本進入森林,森林中的“決策樹”都會分別進行一次判斷,分析該樣本應(yīng)該屬于哪一類,被最多“決策樹”判定的類別,就是該樣本的類別[2]。
K近鄰算法是最典型的降維算法,該算法理論上十分成熟。K近鄰算法的核心思路是,建立若干標(biāo)準(zhǔn)點 K,各自代表一個分類類別,將樣本代入特征空間,如果樣本在特征空間中最鄰近某個K點,即表示該樣本屬于該類別。與隨機森林法不同,雖然K近鄰算法也強調(diào)相似判斷,但樣本并給完全遵循非線性規(guī)律,而是在不明確的線性標(biāo)準(zhǔn)下給予模糊分類,再進行精細化處理,而且K近鄰算法不遵循“決策樹”式的多數(shù)原則,只要某個樣本距離K點最近,就屬于該類別。
實驗在虛擬環(huán)境下進行,通過參數(shù)帶入模擬實驗環(huán)境,應(yīng)用神經(jīng)訓(xùn)練法、隨機森林法、K近鄰算法對同一個機器人軟件進行訓(xùn)練,觀察機器人的學(xué)習(xí)效率和精確性。
所有實驗在人工干預(yù)下進行,應(yīng)用100個、1000個、10000個樣本進行三輪實驗,同一輪實驗內(nèi)應(yīng)用的樣本完全相同。通過對照,發(fā)現(xiàn)神經(jīng)訓(xùn)練法、隨機森林法、K近鄰算法的學(xué)習(xí)效率和精確性存在差異。神經(jīng)訓(xùn)練法、隨機森林法三組實驗所獲數(shù)據(jù)如表1所示。
表1 神經(jīng)訓(xùn)練法和隨機森林法實驗數(shù)據(jù)
結(jié)果表明,隨機森林法下,機器學(xué)習(xí)的效率更高,精確性也更好,能夠較好的滿足分類應(yīng)用要求。神經(jīng)訓(xùn)練法、K近鄰算法三組實驗所獲數(shù)據(jù)如表1所示。
表2 神經(jīng)訓(xùn)練法和K近鄰算法實驗數(shù)據(jù)
結(jié)果表明,K近鄰算法下,機器學(xué)習(xí)的效率更高,精確性也更好,能夠較好的滿足分類應(yīng)用要求。
經(jīng)過實驗對比,在應(yīng)用隨機森林法、K近鄰算法的情況下,可以實現(xiàn)數(shù)據(jù)降維,將多維度的數(shù)據(jù)以非線性條件進行分類,使所有數(shù)據(jù)能夠直接在特征空間內(nèi)與對應(yīng)的分類類別實現(xiàn)匹配,免去線性約束條件下神經(jīng)訓(xùn)練法復(fù)雜計算的麻煩,機器學(xué)習(xí)的效率高、分類應(yīng)用的成果也更好。此外,應(yīng)用隨機森林法進行數(shù)據(jù)降維,機器學(xué)習(xí)效率略低于K近鄰算法,但精度略高,這也體現(xiàn)了兩類算法各自的優(yōu)劣勢。
通過數(shù)據(jù)降維的方式可以加以應(yīng)對,可行的計算方式包括隨機森林法、K近鄰算法等。模擬實驗表明,隨機森林法、K近鄰算法在機器學(xué)習(xí)中的效率更好,后續(xù)工作中,可作為機器學(xué)習(xí)的參考方式。
[1]楊磊, 唐曉燕.基于流形學(xué)習(xí)的高光譜圖像非線性降維算法[J].河南理工大學(xué)學(xué)報(自然科學(xué)版), 2016, 35(05): 660-665.
[2]李海亭, 肖建華, 李艷紅.機器學(xué)習(xí)在車載激光點云分類中的應(yīng)用研究[J].華中師范大學(xué)學(xué)報(自然科學(xué)版), 2015, 49(03): 460-464.
[3]王懿.基于自然語言處理和機器學(xué)習(xí)的文本分類及其應(yīng)用研究[J].《中國科學(xué)院研究生院(成都計算機應(yīng)用研究所)》 , 2006.
[4]羅凱旋,鐘凡,趙亮,賀福初.評估幾種降維分類器應(yīng)用于生物質(zhì)譜數(shù)據(jù)的性能 [J]《中國科學(xué):生命科學(xué)》, 2010,40(6):544-550.
[5]楊秀鋒.基于機器學(xué)習(xí)的生物醫(yī)學(xué)數(shù)據(jù)處理方法研究[J].中國科學(xué)院大學(xué),2014.