潘穎輝
摘要:隨著信息庫中的信息總量日漸龐雜,信息處理變得越來越困難,互聯(lián)網(wǎng)逐漸步入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)顧名思義,意味著互聯(lián)網(wǎng)使用者需要管理、分析和反饋日常生活中產(chǎn)生的大量數(shù)據(jù)。而機(jī)器學(xué)習(xí)算法對(duì)于數(shù)據(jù)收集,分析和集成非常有效。
關(guān)鍵詞:大數(shù)據(jù);機(jī)器學(xué)習(xí);算法
中圖分類號(hào):G642? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)32-0187-02
1 大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)的特點(diǎn)最初由維克托和肯尼斯在二人編寫的《大數(shù)據(jù)時(shí)代》中提出,分別為volume(數(shù)據(jù)量大),velocity(輸入和處理速度快),variety(數(shù)據(jù)多樣性)和value(價(jià)值密度低),俗稱為“4V”特點(diǎn),這種說法與歸納受到了大家的廣泛認(rèn)同并在后續(xù)研究中被頻繁引用[1]。
2 傳統(tǒng)的機(jī)器學(xué)習(xí)相關(guān)理論
機(jī)器學(xué)習(xí)在近年來研究人工智能的技術(shù)中占據(jù)的地位和比重已經(jīng)越來越大,并發(fā)展成了一門涉及統(tǒng)計(jì)學(xué)、凸分析(Convex analysis)、概率性等多領(lǐng)域的交叉性學(xué)科[2]。
2.1 機(jī)器學(xué)習(xí)類型
機(jī)器學(xué)習(xí)的類型大致分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、自學(xué)習(xí)、異常檢測(cè)和機(jī)器人學(xué)習(xí)。
監(jiān)督學(xué)習(xí)是用一組現(xiàn)有的培訓(xùn)數(shù)據(jù)樣本使被監(jiān)督的對(duì)象達(dá)到應(yīng)有性能的學(xué)習(xí)過程,大多數(shù)是用于學(xué)習(xí)一個(gè)具體功能的機(jī)器學(xué)習(xí)任務(wù)。在監(jiān)督學(xué)習(xí)中,每組示范數(shù)據(jù)的例子都包括輸入對(duì)象和期望的輸出值。半監(jiān)督學(xué)習(xí)使用的訓(xùn)練數(shù)據(jù)介于沒有任何標(biāo)記的訓(xùn)練數(shù)據(jù)和有完全標(biāo)記的訓(xùn)練數(shù)據(jù)之間。無監(jiān)督學(xué)習(xí)從輸入的未標(biāo)記的一組數(shù)測(cè)試據(jù)中查找結(jié)構(gòu)和學(xué)習(xí),通常通過識(shí)別數(shù)據(jù)中的共性來判斷新數(shù)據(jù)中有無這種共性并做出反應(yīng),基于這種特點(diǎn),無監(jiān)督學(xué)習(xí)通常被運(yùn)用于統(tǒng)計(jì)和總結(jié)。強(qiáng)化學(xué)習(xí)是包括監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)在內(nèi)的三大機(jī)器學(xué)習(xí)范式之一。自學(xué)習(xí)是一種沒有外部反饋和監(jiān)督的學(xué)習(xí),是有自學(xué)習(xí)能力的神經(jīng)網(wǎng)絡(luò),被稱為Crossbar自適應(yīng)陣列(CAA)。異常檢測(cè)是對(duì)于那些觀察結(jié)果與大多數(shù)數(shù)據(jù)結(jié)果不同的數(shù)據(jù)的懷疑和識(shí)別行為。機(jī)器人學(xué)習(xí)是機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過程中自動(dòng)生成的相當(dāng)于“課程表”的學(xué)習(xí)經(jīng)驗(yàn)序列表,通過計(jì)算機(jī)的自動(dòng)探索和交互積累經(jīng)驗(yàn)和獲取新技能[3]。
2.2 機(jī)器學(xué)習(xí)主要算法
機(jī)器學(xué)習(xí)中算法主要分為決策樹算法、SVM算法、樸素貝葉斯、Adaboost算法和K均值算法。
決策樹算法可用于直觀地表達(dá)決策和描述數(shù)據(jù),其中的主要算法是ID3算法和C4.5算法。二分迭代法器3(ID3)是C4.5算法的前提,其用處是在數(shù)據(jù)集里處理和生成決策樹。C4.5是ID3算法的擴(kuò)展,C4.5由于其生成的決策樹可在分類部分使用常常被當(dāng)作統(tǒng)計(jì)分類器[4]。
SVM算法,被稱為支持向量機(jī)或支持向量網(wǎng)絡(luò),屬于監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)算法。SVM算法在多維度空間中構(gòu)建了一組超平面用于分類、預(yù)測(cè)以及其他工作。SVM分為線性和非線性兩種,若是線性的,可以用兩個(gè)平行的超平面分割兩種不同類別的數(shù)據(jù)來使兩者的間隔擴(kuò)大;若是非線性分類,則每個(gè)點(diǎn)積都可以使用非線性核函數(shù)進(jìn)行替代。
樸素貝葉斯是貝葉斯定理中較為簡單的概率分類器,是一種文本分類方法:把從有限集合中繪制的模型標(biāo)簽定義于問題實(shí)例的數(shù)據(jù),表示為特征值的向量。這種訓(xùn)練分類數(shù)據(jù)方法的算法不是單一的,只要有這一原理的算法都可以使用。
Adaboost算法的全稱是Adaptive Boosting,該算法更適合與其他的機(jī)器學(xué)習(xí)算法一并使用來提高計(jì)算機(jī)的學(xué)習(xí)能力。
K均值算法,此類算法最初來自信號(hào)處理,分區(qū)數(shù)據(jù)觀測(cè)到集群中,通過集群中心對(duì)數(shù)據(jù)進(jìn)行建模從而找到可比較的空間范圍的數(shù)據(jù)集群,該算法是機(jī)器學(xué)習(xí)的重要基礎(chǔ)。
2.3 傳統(tǒng)的機(jī)器學(xué)習(xí)遇到的挑戰(zhàn)
傳統(tǒng)機(jī)器學(xué)習(xí)的問題在于,雖然算法看起來很復(fù)雜但缺乏智能性,仍需要大量專業(yè)知識(shí)和人為干預(yù)來處理大數(shù)據(jù)。大量應(yīng)用功能需要計(jì)算機(jī)領(lǐng)域的專家來識(shí)別和操作,以便于降低大數(shù)據(jù)對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)的復(fù)雜性以及方便傳統(tǒng)機(jī)器學(xué)習(xí)算法生效。除此之外,傳統(tǒng)機(jī)器學(xué)習(xí)的學(xué)習(xí)處理過程也略顯拖沓,大大增加了處理信息所需的時(shí)間。
機(jī)器學(xué)習(xí)可以通過開發(fā)高效快速的算法和數(shù)據(jù)驅(qū)動(dòng)模型來實(shí)時(shí)處理大數(shù)據(jù),從而產(chǎn)生準(zhǔn)確的結(jié)果和分析,這是任何人工操作和其他傳統(tǒng)計(jì)算機(jī)操作面對(duì)大數(shù)據(jù)都無法達(dá)到的成果,因此在大數(shù)據(jù)背景下的機(jī)器學(xué)習(xí)是必要的。
3 大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法
3.1 大數(shù)據(jù)處理的基本策略
大數(shù)據(jù)處理機(jī)器學(xué)習(xí)的基本策略大致分為分治策略和大數(shù)據(jù)抽樣。
分治策略的原理是基于多分支遞歸的算法,其工作原理是將一個(gè)復(fù)雜的問題拆分成數(shù)個(gè)相同或相似的子問題,待子問題足夠簡單后將解決子問題的方法帶入最初的問題中加以解決。分治策略對(duì)于大數(shù)據(jù)處理的一個(gè)重要優(yōu)勢(shì)在于優(yōu)化,如果在處理數(shù)據(jù)的每一步將搜索空間減少進(jìn)而整個(gè)算法的漸進(jìn)復(fù)雜度與修剪步驟相同,取決于對(duì)幾何序數(shù)求和,這就是所謂的檢索功能[5]。
大數(shù)據(jù)抽樣在機(jī)器學(xué)習(xí)中更是相當(dāng)重要的一部分,采樣偏差會(huì)影響機(jī)器學(xué)習(xí)算法構(gòu)建的模型的性能,而在機(jī)器學(xué)習(xí)的培訓(xùn)和學(xué)習(xí)階段,確保數(shù)據(jù)樣本反映建模的基礎(chǔ)分布非常關(guān)鍵。對(duì)于大數(shù)據(jù)的利用管理,采用適合的采樣技術(shù)所花費(fèi)的成本比大數(shù)據(jù)整體更高效,減少抽樣偏差是重中之重。
3.2 大數(shù)據(jù)分類
大數(shù)據(jù)分類是依靠已知訓(xùn)練數(shù)據(jù)集來確定新觀察值屬于子種群中的哪一個(gè)的度量方法。是機(jī)器學(xué)習(xí)算法的分類中監(jiān)督學(xué)習(xí)的一個(gè)典型標(biāo)準(zhǔn)實(shí)例,意為是人為控制相應(yīng)的訓(xùn)練數(shù)據(jù)集合和訓(xùn)練結(jié)果的機(jī)器學(xué)習(xí)。大數(shù)據(jù)分類將數(shù)據(jù)劃分為各個(gè)類別并把劃分結(jié)果定義為數(shù)個(gè)可量化的屬性,且命名這些屬性為特征或是解釋變量。這些解釋變量既有可能是實(shí)際的值,也有可能是分類的類別、分類的等級(jí)和具體的整數(shù)等。一種算法對(duì)于分類產(chǎn)生的具體實(shí)現(xiàn),就是分類器把輸入的數(shù)據(jù)映射后的結(jié)果。大數(shù)據(jù)分析算法有非概率分類和概率分類兩種分類子類,但通用的算法是概率算法。這是由于概率算法對(duì)于大數(shù)據(jù)處理的優(yōu)勢(shì)在于其算法本質(zhì)為產(chǎn)生的概率,意味著可以更加高效率地把概率分類器和更大的機(jī)器學(xué)習(xí)任務(wù)合并,以最大限度地避免錯(cuò)誤傳播數(shù)據(jù)。
3.3 大數(shù)據(jù)回歸分析
回歸分析最常使用的形式是線性回歸,研究人員通常根據(jù)需求的數(shù)學(xué)標(biāo)準(zhǔn)來判斷最適合數(shù)據(jù)的線性組合。由于可以通過自變量給定的組值來估算出因變量的總體平均值,不同的回歸形式來估計(jì)替代位置參數(shù)或在更廣泛的非線性模型集合中估計(jì)條件期望的時(shí)候使用的過程也略有偏差?;貧w分析不僅可以在機(jī)器學(xué)習(xí)中用于預(yù)測(cè),更可以用來推斷自變量與因變量之間的因果,揭示固定數(shù)據(jù)集中因變量和自變量集合之間的關(guān)系。為了方便將回歸用于進(jìn)行預(yù)測(cè)還用于推斷因果關(guān)系兩者進(jìn)行有效區(qū)分,研究者需要詳細(xì)描述現(xiàn)有的關(guān)系值是否對(duì)新情境具有預(yù)測(cè)能力,或者提出兩種變量之間的關(guān)系具有因果聯(lián)系的原因。在這一點(diǎn)上,提出因果聯(lián)系的原因?qū)τ诋?dāng)研究者希望使用觀測(cè)數(shù)據(jù)來估計(jì)因果關(guān)系時(shí)就顯得尤為重要。在處理數(shù)據(jù)的過程中,研究者根據(jù)其選擇的想要估計(jì)的模型來使用他們選擇的方法來估計(jì)該模型的參數(shù)。
3.4 大數(shù)據(jù)聚類
大數(shù)據(jù)聚類算法可以基于聚類算法的聚類模型對(duì)大數(shù)據(jù)進(jìn)行分類。目前已經(jīng)有超過100種發(fā)布的聚類算法,因此研究中無法全部提供模型來對(duì)其進(jìn)行詳細(xì)的分類。除非有數(shù)學(xué)上的原因證明比起該特定聚類模型更適合使用另一個(gè)聚類模型,研究者通常習(xí)慣使用通過實(shí)驗(yàn)來選擇針對(duì)特定問題的最合適的聚類算法的方法,而且針對(duì)一種模型設(shè)計(jì)的算法通常會(huì)在包含完全不同的模型的數(shù)據(jù)集上失敗。分層聚類算法是一套聚類中比較核心且完整的方法,它們的區(qū)別在于計(jì)算距離的方式不同。除了通常選擇距離函數(shù)外,用戶還需要確定鏈接標(biāo)準(zhǔn)來加以使用。通用的選擇一般為單鏈接聚類,完整鏈接聚類和UPGMA或WPGMA。另外分層聚類可以被區(qū)分成是聚集性的或分散性的[6]。
3.5 大數(shù)據(jù)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則學(xué)習(xí)是一種反饋大數(shù)據(jù)中變量之間的相互關(guān)系的機(jī)器學(xué)習(xí)方法,其特點(diǎn)在于使用特定的方法來識(shí)別數(shù)據(jù)庫里的規(guī)則和數(shù)據(jù)交互時(shí)的規(guī)律性,這種交互規(guī)律可用于信息的處理中。
關(guān)聯(lián)規(guī)則的優(yōu)點(diǎn)在于這種方法可以同時(shí)滿足用戶指定最小置信度和用戶指定最小支持兩種需求。每當(dāng)計(jì)算機(jī)應(yīng)用最低支持閾值來查找數(shù)據(jù)庫中的所有頻繁項(xiàng)目集后最低置信約束使用這些頻繁項(xiàng)目集來形成規(guī)則,隨后這兩個(gè)步驟就意味著關(guān)聯(lián)規(guī)則的生成。
目前已經(jīng)研究出了許多用于生成關(guān)聯(lián)規(guī)則的算法,比如Apriori算法、FP Growth算法和 Eclat算法。Apriori算法一般使用廣度優(yōu)先策略對(duì)于項(xiàng)目集合進(jìn)行搜索和計(jì)數(shù),以此來用備選的生成函數(shù)進(jìn)行向下封閉;FPGrowth算法首先對(duì)集中項(xiàng)目出現(xiàn)次數(shù)統(tǒng)計(jì)后將數(shù)據(jù)存儲(chǔ)在表內(nèi),以便于用這些數(shù)據(jù)創(chuàng)建接下來的樹狀結(jié)構(gòu)。
但正是因?yàn)樗鼈兪怯糜谕诰蝾l繁項(xiàng)集的算法,因此通常只能完成一半的工作,當(dāng)該關(guān)聯(lián)算法使用數(shù)據(jù)庫中的頻繁項(xiàng)目集生成規(guī)則了之后,就需要執(zhí)行另一個(gè)算法了。
3.6 大數(shù)據(jù)集成學(xué)習(xí)
相比于機(jī)器學(xué)習(xí)中的其他組成學(xué)習(xí)算法,集成方法由于可以用多種學(xué)習(xí)算法而擁有著更強(qiáng)的預(yù)測(cè)處理能力。機(jī)器學(xué)習(xí)中的集成算法一般由具體的替代模型群組構(gòu)成,而這些替代模型群組中又有著更加靈活的結(jié)構(gòu),這是這種算法和傳統(tǒng)集成最大的不同。
在監(jiān)督學(xué)習(xí)算法中,集成算法同樣占據(jù)著優(yōu)勢(shì),這種優(yōu)勢(shì)在于集成的特點(diǎn)使其擁有更多的數(shù)據(jù)假設(shè)集群,對(duì)比于其他的監(jiān)督學(xué)習(xí)算法更能生成優(yōu)良的假設(shè)結(jié)果。這種優(yōu)勢(shì)也意味著集成算法的預(yù)測(cè)數(shù)據(jù)集合需要的計(jì)算量更大,以此可以用這種大量計(jì)算的特點(diǎn)來彌補(bǔ)其他學(xué)習(xí)效果較差的算法,因此那些處理速度快的算法更容易與集成算法互相促進(jìn)。
由于集成算法的訓(xùn)練數(shù)據(jù)和用模型預(yù)測(cè)的能力明顯體現(xiàn)出其身為監(jiān)督學(xué)習(xí)特性的機(jī)器學(xué)習(xí)算法,因此雖然集成算法反饋單個(gè)假設(shè)為代表,但構(gòu)建模型的假設(shè)空間內(nèi)也許并不包含這種假設(shè),這同樣體現(xiàn)了集成算法在這方面功能具有極大的靈活性,這使得集成算法在訓(xùn)練數(shù)據(jù)時(shí)比單個(gè)模型要更占優(yōu)勢(shì)。
4 結(jié)論
針對(duì)大數(shù)據(jù)處理的聚類算法、選擇特征算法、回歸算法和關(guān)聯(lián)算法等方法,它們不僅在對(duì)于大數(shù)據(jù)的提取方面展現(xiàn)出了巨大的潛力,更是有利于最大效率上地利用大數(shù)據(jù)和表示大數(shù)據(jù)的分層。大數(shù)據(jù)也是促進(jìn)這些機(jī)器算法不斷地訓(xùn)練和進(jìn)化的后盾,這種良性促進(jìn)的關(guān)系讓人不禁想要探索未來的機(jī)器學(xué)習(xí)算法會(huì)取得的成就,那成就無疑是值得期待的。
參考文獻(xiàn):
[1] 肖紅.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法探討[J].通訊世界,2017(6):265-266.
[2] 李成錄.大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)算法的綜述[J].信息記錄材料,2018,19(5):4-5.
[3] 陳學(xué)武,肖港.基于大數(shù)據(jù)技術(shù)的制造企業(yè)商業(yè)模式創(chuàng)新[J].經(jīng)貿(mào)實(shí)踐,2018(8):245-246.
[4] 孫凱.大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用淺析[J].科學(xué)技術(shù)創(chuàng)新,2018(18):82-83.
[5] 朱巍,陳慧慧,田思媛,等.人工智能:從科學(xué)夢(mèng)到新藍(lán)?!斯ぶ悄墚a(chǎn)業(yè)發(fā)展分析及對(duì)策[J].科技進(jìn)步與對(duì)策,2016,33(21):66-70.
[6] 張紹成,孫時(shí)光,曲洋,等.大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用研究[J].遼寧大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,44(1):15-17.
【通聯(lián)編輯:代影】