• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)分析和處理

      2021-09-26 03:21:04孫開(kāi)華代余杰封晴
      中國(guó)新通信 2021年13期
      關(guān)鍵詞:分析處理機(jī)器學(xué)習(xí)大數(shù)據(jù)技術(shù)

      孫開(kāi)華 代余杰 封晴

      【摘要】? ? 隨著信息技術(shù)的高速發(fā)展,如何對(duì)海量復(fù)雜數(shù)據(jù)有效分析是當(dāng)前重要課題。在語(yǔ)音識(shí)別、自然語(yǔ)言處理等數(shù)據(jù)處理領(lǐng)域,深度學(xué)習(xí)改變傳統(tǒng)機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)發(fā)展使得各行業(yè)使用需求迫切,普通行業(yè)使用者需要大量時(shí)間成本學(xué)習(xí)使用。機(jī)器學(xué)習(xí)智能算法可以挖掘頻譜大數(shù)據(jù)中的有用信息,提高頻譜資源利用率。介紹機(jī)器學(xué)習(xí)技術(shù),探討頻譜大數(shù)據(jù)分析機(jī)器學(xué)習(xí)方法,對(duì)機(jī)器學(xué)習(xí)的應(yīng)用前景進(jìn)行展望。

      【關(guān)鍵詞】? ? 機(jī)器學(xué)習(xí)? ? 大數(shù)據(jù)技術(shù)? ? 分析處理

      引言:

      隨著通信技術(shù)的發(fā)展,龐大數(shù)據(jù)驅(qū)動(dòng)有效決策,成為企業(yè)社會(huì)高效發(fā)展的推動(dòng)力。如何對(duì)海量復(fù)雜數(shù)據(jù)有效分析是當(dāng)前需要解決的重要課題。傳統(tǒng)分析系統(tǒng)基于結(jié)構(gòu)化數(shù)據(jù)聯(lián)機(jī)分析處理系統(tǒng),深度學(xué)習(xí)改變以往機(jī)器學(xué)習(xí)方法,在圖像理解等應(yīng)用領(lǐng)域取得突破性進(jìn)展。深度學(xué)習(xí)系工具系統(tǒng)提供較好系統(tǒng)支持,普通行業(yè)使用者需要大量時(shí)間成本學(xué)習(xí)相關(guān)API,借助分布式計(jì)算技術(shù)構(gòu)建深度學(xué)習(xí)系統(tǒng)可以滿(mǎn)足普通用戶(hù)使用深度學(xué)習(xí)需求。

      一、大數(shù)據(jù)下機(jī)器學(xué)習(xí)算法研究

      大數(shù)據(jù)上指不能載入計(jì)算機(jī)內(nèi)存儲(chǔ)器的數(shù)據(jù)。大數(shù)據(jù)特征為積累速度快,如何對(duì)大數(shù)據(jù)進(jìn)行有效挖掘是現(xiàn)代產(chǎn)業(yè)發(fā)展的重要方向[1]。必須深入研究大數(shù)據(jù)下機(jī)器學(xué)習(xí)算法問(wèn)題。機(jī)器學(xué)習(xí)算法包括大數(shù)據(jù)特征選擇,噪音數(shù)據(jù)會(huì)降低學(xué)習(xí)算法運(yùn)行質(zhì)量。應(yīng)采取標(biāo)準(zhǔn)遴選代表性樣本。在子集基礎(chǔ)上學(xué)習(xí)方法構(gòu)造,Jordan提出分治算法進(jìn)行大數(shù)據(jù)統(tǒng)計(jì)推理[2]。應(yīng)用傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行大數(shù)據(jù)處理,必須采取并行化處理,Cheng等以大規(guī)??缮炜s數(shù)據(jù)為處理對(duì)象實(shí)現(xiàn)數(shù)據(jù)分析。

      采取傳統(tǒng)機(jī)器學(xué)習(xí)方法存在置信區(qū)間擬合模型預(yù)測(cè)未執(zhí)行等問(wèn)題。傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)采取梯度下降法調(diào)整權(quán)值參數(shù)。Huang提出采取隨機(jī)賦值方式。為確保大規(guī)模數(shù)據(jù)并行處理,Papadimitriou通過(guò)MapReduce模型滿(mǎn)足大規(guī)模數(shù)據(jù)聚類(lèi)需求。Apriori算法為關(guān)聯(lián)分析基礎(chǔ)算法,需通過(guò)并行與增量解決大數(shù)據(jù)關(guān)聯(lián)問(wèn)題。Li提出Apriori算法,提高學(xué)習(xí)效率。

      二、大數(shù)據(jù)機(jī)器學(xué)習(xí)技術(shù)面臨問(wèn)題

      當(dāng)今大數(shù)據(jù)時(shí)代,人們意識(shí)到大數(shù)據(jù)隱藏更多價(jià)值,對(duì)大數(shù)據(jù)挖掘能獲得很大的社會(huì)經(jīng)濟(jì)效益。機(jī)器學(xué)習(xí)是對(duì)海量數(shù)據(jù)分析重要技術(shù),傳統(tǒng)串行機(jī)器學(xué)習(xí)難以完成大規(guī)模數(shù)據(jù)處理。大規(guī)模機(jī)器學(xué)習(xí)旨在構(gòu)建處理大數(shù)據(jù)的平臺(tái),CCF將結(jié)合機(jī)器學(xué)習(xí)算法大數(shù)據(jù)分析技術(shù)選為研究熱點(diǎn)。大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)需要通過(guò)編程抽象降低設(shè)計(jì)復(fù)雜性。

      大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)要重點(diǎn)研究處理大數(shù)據(jù)計(jì)算性能問(wèn)題。為提供終端用戶(hù)良好易用性,大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)建立高層易用編程抽象模型。大規(guī)模數(shù)據(jù)使得串行機(jī)器學(xué)習(xí)算法無(wú)法完成計(jì)算。隨著Hadoop分布式計(jì)算平臺(tái)出現(xiàn),需要對(duì)機(jī)器學(xué)習(xí)進(jìn)行并行化設(shè)計(jì)[3]。目前通常實(shí)現(xiàn)基于分布式計(jì)算平臺(tái)提供接口,提供與傳統(tǒng)機(jī)器學(xué)習(xí)算法相同的編程接口。如Mahout與MLlib提供經(jīng)典分類(lèi)聚類(lèi)等算法基于分布式并行化實(shí)現(xiàn)。并行算法庫(kù)設(shè)計(jì)減輕數(shù)據(jù)分析進(jìn)行大數(shù)據(jù)應(yīng)用分析,但并行算法庫(kù)提供數(shù)量有限,難以滿(mǎn)足大數(shù)據(jù)分析應(yīng)用需求。需要熟悉底層分布平臺(tái)編程語(yǔ)言,對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行定制式改進(jìn)優(yōu)化。

      矩陣運(yùn)輸是機(jī)器學(xué)習(xí)的重要分析建模方法,目前已有很多關(guān)于設(shè)計(jì)分布式矩陣計(jì)算庫(kù)的研究。如HAMA是基于MapReduce的分布式矩陣運(yùn)算實(shí)現(xiàn),Marlin采用RDD表示存儲(chǔ)矩陣。Presto實(shí)現(xiàn)基于分布式稀疏矩陣達(dá)到負(fù)載平衡。PbdR項(xiàng)目與R緊耦合使用戶(hù)可實(shí)現(xiàn)分布是基于矩陣機(jī)器學(xué)習(xí)算法。

      矩陣運(yùn)算庫(kù)未針對(duì)應(yīng)用程序計(jì)算路程進(jìn)行優(yōu)化。如對(duì)多個(gè)矩陣相乘操作帶來(lái)不同計(jì)算量。矩陣庫(kù)無(wú)法針對(duì)計(jì)算表達(dá)式,只能由用戶(hù)決定乘法順序。如對(duì)分布式內(nèi)存計(jì)算平臺(tái)Spark無(wú)法自行決定矩陣數(shù)據(jù)是否存在內(nèi)存中。難以由用戶(hù)針對(duì)矩陣計(jì)算流程實(shí)現(xiàn)性能優(yōu)化方案。大數(shù)據(jù)平臺(tái)處理需支持多個(gè)底層計(jì)算平臺(tái)。

      三、機(jī)器學(xué)習(xí)的大數(shù)據(jù)分析技術(shù)研究

      近年來(lái)出現(xiàn)很多構(gòu)建大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)相關(guān)工作,Spark MLlib綁定在底層計(jì)算平臺(tái)Spark上,滿(mǎn)足分布式存儲(chǔ)于上層應(yīng)用開(kāi)發(fā)要求。目前MLlib提供機(jī)器學(xué)習(xí)中分聚類(lèi)等算法,上層用戶(hù)難以用MLlib解決大數(shù)據(jù)應(yīng)用需求,無(wú)法滿(mǎn)足用戶(hù)對(duì)算法內(nèi)實(shí)現(xiàn)定制化需求。

      SystemML進(jìn)入Apache孵化項(xiàng)目開(kāi)發(fā)大規(guī)模數(shù)據(jù)學(xué)習(xí)系統(tǒng),DML構(gòu)成代碼被SystemML自動(dòng)轉(zhuǎn)換為地層Spark作業(yè)運(yùn)行。屏蔽底層分布式實(shí)現(xiàn)細(xì)節(jié),但DML語(yǔ)言不能兼容標(biāo)準(zhǔn)的R/Python環(huán)境。

      TensorFlow可運(yùn)行在多種異構(gòu)平臺(tái)下大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng),將數(shù)據(jù)流圖節(jié)點(diǎn)映射到集群中多臺(tái)機(jī)器。提供多種語(yǔ)言接口包含Java等,但提供接口主要針對(duì)深度神經(jīng)網(wǎng)絡(luò)算法。Presto擴(kuò)展語(yǔ)言采用矩陣模型實(shí)現(xiàn)分布式機(jī)器學(xué)習(xí),將數(shù)據(jù)進(jìn)行分區(qū)實(shí)現(xiàn)負(fù)載均衡,用戶(hù)容易對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行定制化實(shí)現(xiàn)[4]。但底層采用C++實(shí)現(xiàn)框架,與現(xiàn)有大數(shù)據(jù)環(huán)境Hadoop不兼容。目前對(duì)數(shù)據(jù)計(jì)算處理有多種設(shè)備平臺(tái),近年來(lái)出現(xiàn)支持底層多計(jì)算設(shè)備平臺(tái)系統(tǒng)。Glinda在異構(gòu)平臺(tái)下對(duì)工作流分區(qū)采用預(yù)測(cè)法加速數(shù)據(jù)并行應(yīng)用。研究在GPU上實(shí)現(xiàn)矩陣操作,用途模型估計(jì)任意硬件平臺(tái)下計(jì)算執(zhí)行時(shí)間。但基于GPU異構(gòu)平臺(tái)不提供分布式計(jì)算平臺(tái)調(diào)度。Musketeer將前端框架與后端執(zhí)行引擎解耦,可映射到后端多種計(jì)算平臺(tái)執(zhí)行。

      四、頻譜大數(shù)據(jù)

      大數(shù)據(jù)價(jià)值更多體現(xiàn)在隱藏待開(kāi)發(fā)的信息資源,大數(shù)據(jù)受到大量的關(guān)注,機(jī)器學(xué)習(xí)是通過(guò)創(chuàng)建計(jì)算系統(tǒng)不斷學(xué)習(xí)經(jīng)驗(yàn),更好地執(zhí)行下次任務(wù)。大數(shù)據(jù)成為機(jī)器學(xué)習(xí)的資源。近年來(lái)機(jī)器學(xué)習(xí)理念不斷提出,計(jì)算機(jī)性能得到很大提高。

      機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘等領(lǐng)域取得很大進(jìn)展。無(wú)線(xiàn)通信是數(shù)據(jù)不通過(guò)實(shí)體線(xiàn)纜傳輸?shù)耐ㄐ欧绞?。每種無(wú)線(xiàn)業(yè)務(wù)對(duì)應(yīng)無(wú)線(xiàn)頻譜特定區(qū)域,社會(huì)不斷進(jìn)步使得業(yè)頻譜數(shù)據(jù)廣度擴(kuò)大[5]。頻譜大數(shù)據(jù)是分析處理的海量復(fù)雜頻譜數(shù)據(jù)集,包括用戶(hù)相關(guān)數(shù)據(jù)等。頻譜狀態(tài)數(shù)據(jù)由不同時(shí)空頻率信號(hào)表現(xiàn)不同特征數(shù)據(jù)。頻譜大數(shù)據(jù)體現(xiàn)大量、多樣化的特點(diǎn)。9-30000GHz頻譜范圍有限,面對(duì)有限頻譜資源大數(shù)據(jù),如何有效挖掘有價(jià)值信息,提高頻譜利用率問(wèn)題受到關(guān)注。頻譜大數(shù)據(jù)分析是從具有多樣性,針對(duì)頻譜大數(shù)據(jù)特性需用特定機(jī)器學(xué)習(xí)方法。

      五、頻譜大數(shù)據(jù)分析機(jī)器學(xué)習(xí)方法

      大量性是頻譜大數(shù)據(jù)的基本屬性,假設(shè)1s內(nèi)1m?空間可感知0-1kHz頻率內(nèi)頻譜能量為1字節(jié),1h內(nèi)1km?可感知0-1GHz頻譜能量值為3.6EB,無(wú)線(xiàn)頻譜狀態(tài)數(shù)據(jù)在時(shí)空方向得到擴(kuò)大,考慮用戶(hù)相關(guān)數(shù)據(jù)頻譜大數(shù)據(jù)規(guī)模更大。傳統(tǒng)數(shù)據(jù)處理法是將小數(shù)據(jù)存儲(chǔ)于工作站,面對(duì)大數(shù)據(jù)難以在要求時(shí)間內(nèi)完成計(jì)算。

      典型測(cè)量是對(duì)數(shù)據(jù)分布式存儲(chǔ),分布式存儲(chǔ)是空間分布,將頻譜大數(shù)據(jù)分區(qū)為多個(gè)小塊。并行化計(jì)算隨時(shí)在適合計(jì)算機(jī)上運(yùn)行適合程序。分布式并行學(xué)習(xí)方法中云計(jì)算最具代表性。綜合多種計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)。

      數(shù)據(jù)快速收發(fā)要求計(jì)算機(jī)具有高速處理能力,高速數(shù)據(jù)處理是頻譜預(yù)測(cè)的重要前提。數(shù)據(jù)處理耗時(shí)長(zhǎng),預(yù)測(cè)結(jié)果無(wú)意義,使得頻譜使用紊亂,導(dǎo)致頻譜資源緊張。高速實(shí)時(shí)數(shù)據(jù)處理技術(shù)值得關(guān)注。使用梯度算法訓(xùn)練學(xué)習(xí)網(wǎng)絡(luò),使其速度不能滿(mǎn)足需要。研究提出極速學(xué)習(xí)機(jī)算法是前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,網(wǎng)絡(luò)結(jié)構(gòu)為輸入層與輸出層,可達(dá)到快速學(xué)習(xí)的需求[6]。

      ELM算法時(shí)間消耗大,研究提出新數(shù)據(jù)有序添加的在線(xiàn)序列ELM算法提高計(jì)算速度。圖形處理器平臺(tái)采用分布架構(gòu)提高計(jì)算能力。將ELM算法用于GPU平臺(tái)提高數(shù)據(jù)分析速度。

      頻譜大數(shù)據(jù)分類(lèi)為數(shù)據(jù)結(jié)構(gòu)及相關(guān)性等。傳統(tǒng)數(shù)據(jù)處理方法無(wú)法處理頻譜多樣性大數(shù)據(jù)。核學(xué)習(xí)核函數(shù)可以把混雜數(shù)據(jù)映射到高維空間,完成多樣化數(shù)據(jù)區(qū)分。在非線(xiàn)性頻譜數(shù)據(jù)融合等問(wèn)題上表現(xiàn)突出,隨著算法不斷完善,新算法數(shù)據(jù)分析能力得到加強(qiáng)。面向頻譜大數(shù)據(jù)分析,分布并行學(xué)習(xí),多樣性學(xué)習(xí)法得到深入研究。

      大數(shù)據(jù)挖掘在于得到隱藏重要信息,由于數(shù)據(jù)大量性,數(shù)據(jù)收發(fā)存在干擾等現(xiàn)象。頻譜大數(shù)據(jù)價(jià)值密度低為數(shù)據(jù)挖掘帶來(lái)挑戰(zhàn),要求采用學(xué)習(xí)算法深入數(shù)據(jù)挖掘。深度學(xué)習(xí)是傳統(tǒng)淺層次學(xué)習(xí)深度化結(jié)果,傳統(tǒng)淺層次學(xué)習(xí)模型不包含隱層單元。

      神經(jīng)網(wǎng)絡(luò)中包含隱層單元為數(shù)據(jù)表征,淺層學(xué)習(xí)需要輸入專(zhuān)家預(yù)選優(yōu)秀特征,特征選擇好則系統(tǒng)性能好。深度學(xué)習(xí)強(qiáng)調(diào)模型結(jié)構(gòu)深度,著力于構(gòu)建數(shù)據(jù)特征自我學(xué)習(xí),將原始特征變換成高級(jí)特征。

      特征學(xué)習(xí)算法對(duì)標(biāo)記數(shù)據(jù)分析成熟,對(duì)無(wú)標(biāo)記數(shù)據(jù)特征學(xué)習(xí)研究受到重視。

      六、結(jié)束語(yǔ)

      本文簡(jiǎn)單介紹幾種機(jī)器學(xué)習(xí)方法,頻譜大數(shù)據(jù)分析處理機(jī)器學(xué)習(xí)方法應(yīng)用不是所有方法的堆疊。選擇適合的方法解決問(wèn)題,講究多種方法有機(jī)融合,為大數(shù)據(jù)分析處理智能系統(tǒng)樹(shù)立更高目標(biāo)。隨著科技的進(jìn)步,微型平臺(tái)系統(tǒng),涉密數(shù)據(jù)傳輸?shù)葐?wèn)題對(duì)機(jī)器學(xué)習(xí)法提出嚴(yán)格要求。如移動(dòng)終端不斷普及,機(jī)器學(xué)習(xí)應(yīng)用是必然趨勢(shì)。需要深入研究高速機(jī)器學(xué)習(xí)方法。

      參? 考? 文? 獻(xiàn)

      [1]胡航,杜爽,梁佳柔,康忠琳.學(xué)習(xí)績(jī)效預(yù)測(cè)模型構(gòu)建:源于學(xué)習(xí)行為大數(shù)據(jù)分析[J].中國(guó)遠(yuǎn)程教育,2021(04):8-20+76.

      [2]蔣姮博,張劍,方榮超,歐陽(yáng)婉卿,羅禹杰,盧曉宇.基于大數(shù)據(jù)分析的列車(chē)輪對(duì)故障診斷方法[J].湖南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,36(01):91-98.

      [3]胡志強(qiáng),羅榮.基于大數(shù)據(jù)分析的作戰(zhàn)智能決策支持系統(tǒng)構(gòu)建[J].指揮信息系統(tǒng)與技術(shù),2021,12(01):27-33.

      [4]魏英杰. 利用人工智能和大數(shù)據(jù)分析實(shí)現(xiàn)廢棄物處理設(shè)施的自動(dòng)化運(yùn)行[N]. 世界金屬導(dǎo)報(bào),2021-02-23(B16).

      [5]無(wú)錫市經(jīng)濟(jì)學(xué)會(huì)課題組. 大數(shù)據(jù)時(shí)代的融合發(fā)展對(duì)策[N]. 無(wú)錫日?qǐng)?bào),2021-01-30(004).

      [6]陳麗萍,吳其林,李小榮.“大數(shù)據(jù)分析”課程案例設(shè)計(jì)與分析——以網(wǎng)絡(luò)新聞分析案例設(shè)計(jì)為例[J].內(nèi)蒙古財(cái)經(jīng)大學(xué)學(xué)報(bào),2021,19(01):26-28.

      猜你喜歡
      分析處理機(jī)器學(xué)習(xí)大數(shù)據(jù)技術(shù)
      風(fēng)力發(fā)電機(jī)組批量性故障分析及處理
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      論大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究
      高校檔案管理信息服務(wù)中大數(shù)據(jù)技術(shù)的應(yīng)用
      大數(shù)據(jù)技術(shù)在電氣工程中的應(yīng)用探討
      大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      汽輪機(jī)DEH系統(tǒng)常見(jiàn)故障的分析處理
      布拖县| 永顺县| 舞阳县| 黄冈市| 东乡县| 武城县| 山阴县| 永清县| 蚌埠市| 安乡县| 克拉玛依市| 长治市| 清水河县| 邛崃市| 理塘县| 丰都县| 平武县| 措勤县| 巴青县| 罗甸县| 巴中市| 梧州市| 迭部县| 怀来县| 民丰县| 八宿县| 内黄县| 什邡市| 凤山市| 湄潭县| 临朐县| 霍林郭勒市| 德清县| 中西区| 麻城市| 商洛市| 罗田县| 平昌县| 滦平县| 杨浦区| 布拖县|