歐華杰
機器學習是由模式識別、人工智能計算學習理論為基礎所轉(zhuǎn)變的一類計算機科學分支,此也為人工智能核心,被廣泛應用至各相關領域中。據(jù)研究表明,多數(shù)狀態(tài)下,處理數(shù)據(jù)規(guī)模越大,機器學習模型效率越高。所以,機器學習為大數(shù)據(jù)智能分析主要方式。于大數(shù)據(jù)背景下,本文針對機器學習算法予以探討,提升數(shù)據(jù)處理價值。
一、機器學習算法概念及重要性
(一)機器學習算法概念
機器學習即Machine Learning,為一項多領域綜合學科,涉及算法復雜度理論、逼近論、統(tǒng)計學及概率論等多項理論。此學科將計算機如何模擬及實現(xiàn)人類學習行為作為主要研究內(nèi)容,探究計算機獲取新知識、技能方式,將已存在知識結構予以重新組織,實現(xiàn)自身性能不斷優(yōu)化。機器學習為人工智能核心,也為使計算機擁有智能的基本方式,現(xiàn)已逐漸應用至與人工智能相關的各領域中,主要為綜合及歸納而并非演繹。
(二)機器學習算法重要性
機器學習為現(xiàn)階段大數(shù)據(jù)重要處理方式,可將多種優(yōu)勢予以結合,針對具體問題選取最為適宜處理方式,如以2017年AlphaGO與柯潔所開展的圍棋比賽中,AlphaGO以3:0比分贏得比賽,此正為機器學習重要標志。此算法可將人為因素所造成的局限性予以突破,借助深度學習、決策樹及神經(jīng)網(wǎng)絡等,將數(shù)據(jù)予以科學處理,并將數(shù)據(jù)運算速度予以有效提升?,F(xiàn)階段統(tǒng)計調(diào)查、商業(yè)活動及信息網(wǎng)絡等均會產(chǎn)生大量數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)處理手段已難以滿足此類數(shù)據(jù)處理需求,急需機器學習予以處理。
二、機器學習典型算法分析
(一)C4.5算法
C4.5算法為目前此領域中較為著名的一類算法,將基于Quinlan所設計的ID3算法予以優(yōu)化后得到的一種分類決策樹算法。決策樹為一項預測模型,為對象值、對象屬性二者間映射關系的表現(xiàn)方式,樹中各節(jié)點分別代表不同對象,各分叉路徑則為某項可能屬性值。由數(shù)據(jù)所構成的決策樹機器學習方式即被稱作決策樹學習,通常稱為決策樹。C4.5算法借助決策樹模型,針對不同數(shù)據(jù)以樹形結構方式予以分類,于此基礎上,使計算機可針對數(shù)據(jù)開展智能處理、選擇,實現(xiàn)自我學習。
(二)K-MEANS算法
機器學習中數(shù)據(jù)相似度為一項重要概念,借助大量數(shù)據(jù)分析,找尋同原有數(shù)據(jù)具備高相似度的數(shù)據(jù)集合,為機器學習重要基礎。僅有將數(shù)據(jù)間相似度予以精準分析,方可對計算機數(shù)據(jù)處理、自我學習效率予以保證。K-MEANS算法即將數(shù)據(jù)間相似度量為基礎的一類間接聚類方式,將n個對象結合自身屬性分至k個分割,k (三)SVM支持向量機算法 針對大量數(shù)據(jù)處理、分析,除需對數(shù)據(jù)開展相應分類外,也應于此基礎上開展統(tǒng)計工作。此算法為一類監(jiān)督式學習方式,以統(tǒng)計學理論中VC維理論、結構風險最小原理為基礎,結合有限樣本信息于模型復雜性、學習能力間找尋最優(yōu)處理路徑,以獲取最佳泛化能力。支持向量機方式為近幾年所提出的數(shù)據(jù)算法,主要思想包括以下兩層面:一為針對線性可分狀態(tài)予以分析,而線性不可分狀態(tài)則借助非線性映射算法,實現(xiàn)樣本間轉(zhuǎn)化,即由低維輸入空間線性不可分變?yōu)楦呔S特征空間,實現(xiàn)線性可分;二為將結構風險最小化理論為基礎,于特征空間中創(chuàng)建最優(yōu)分割平面,實現(xiàn)全局優(yōu)化。 三、機器學習算法于大數(shù)據(jù)處理中的主要方式 (一)數(shù)據(jù)并行算法 傳統(tǒng)數(shù)據(jù)處理方式難以充分滿足大數(shù)據(jù)處理需求,主要導致原因為各機器學習方式并未實現(xiàn)并行化數(shù)據(jù)處理,單獨數(shù)據(jù)處理難以自主實現(xiàn)大數(shù)據(jù)處置,為滿足大數(shù)據(jù)處理需求,聯(lián)合各數(shù)據(jù)處理機制,開展并行化運轉(zhuǎn),方可實現(xiàn)大數(shù)據(jù)整體處置。此方式主要運行理念即為將大數(shù)據(jù)行“碎片化”處理,拆分為可交由機器獨立處理的模塊,借助各數(shù)據(jù)綜合實現(xiàn)大數(shù)據(jù)整體掌握。如以圖像處理平臺為例,主要算法為并行算法,將各數(shù)據(jù)處理壓力不斷降低,提高數(shù)據(jù)運算能力。并行算法需同分治算法及聚類算法等予以有效綜合,實現(xiàn)三類算法的有效融合,方可提升數(shù)據(jù)處理速度,也可于一定程度上保障機器學習精準性。 (二)聚類算法 數(shù)據(jù)處理、數(shù)據(jù)挖掘中最為常用的一類算法便為聚類算法,于大數(shù)據(jù)處理中具備良好應用成效。聚類算法首先將數(shù)據(jù)結合不同類型予以劃分,將大型數(shù)據(jù)劃分至多項子數(shù)據(jù)節(jié)點中。其次,針對所劃分完成的數(shù)據(jù)節(jié)點開展針對性處理,提升數(shù)據(jù)處理效率。此算法于機器學習中實際應用途徑可分為三類:一為借助非迭代化數(shù)據(jù)擴展方式,即通過模糊集理論,針對數(shù)據(jù)開展FCM均值聚類分析,將數(shù)據(jù)予以精準分離;二為持續(xù)擴充子集合方式,于空間層面提升數(shù)據(jù)集合精準性;三為抽樣均值算法,有效提升數(shù)據(jù)處理效率。 (三)分治算法 分治算法于大數(shù)據(jù)處理領域而言,具備良好優(yōu)勢,可被引用至并行運算、分布式計算中。將大數(shù)據(jù)作為對象開展機器學習,因樣本的數(shù)據(jù)差異將會對數(shù)據(jù)處理質(zhì)量造成一定影響,除會增加數(shù)據(jù)運算量外,也會對機器學習效率形成制約,增加數(shù)據(jù)精準分析難度,影響數(shù)據(jù)判斷質(zhì)量。而借助引用分治算法,可對原始樣本開展預處理,挑除冗余及無效數(shù)據(jù),提升原始樣本數(shù)據(jù)集合質(zhì)量。于此處理手段下,可明確機器學習目標并降低學習難度,輔助機器生成準確判斷。選取樣本數(shù)據(jù)集合時,通常使用約減法及壓縮近鄰法等方式,數(shù)據(jù)處理原理即為尋找同大數(shù)據(jù)所相應的最小數(shù)據(jù)集合,借助一系列測試對子集予以不斷優(yōu)化、完善。此時,計算機所找尋數(shù)據(jù)樣本可表示全部樣本且具備高科學性,以此為開展數(shù)據(jù)判斷、決策提供參考。引入分治算法前,需具備滿足要求的置信范圍,于規(guī)定范圍內(nèi)開展數(shù)據(jù)剔除、數(shù)據(jù)篩選工作,如可利用Bag of Little Bootstraps,縮減因抽樣所導致的數(shù)據(jù)失誤,提升數(shù)據(jù)處理精準性。 四、結束語 大數(shù)據(jù)為現(xiàn)階段研究熱點,需配備科學、合理機器學習算法滿足社會需求,并提升數(shù)據(jù)處理效率。結合大數(shù)據(jù)特點,借助聚類算法及分治算法等,增強數(shù)據(jù)處理條理性,降低數(shù)據(jù)分析、數(shù)據(jù)處理難度,增強機器學習能力。此外,為于大數(shù)據(jù)領域有所突破,還應將傳統(tǒng)機器算法予以優(yōu)化升級,全面提升數(shù)據(jù)處理能力。