天津航天長征火箭制造有限公司 石杉 鄭偉 李曉鵬
信息智能化技術的發(fā)展速度和衍生的各種技術工具成為社會轉型發(fā)展的技術支持,尤其在大數(shù)據領域,人工智能技術的應用為數(shù)據采集速率、數(shù)據識別準確率等方面帶來極大提升?;诖?,本文對當前時代下大數(shù)據分析的重要性進行探討,并圍繞人工智能技術分析以此為基礎的大數(shù)據發(fā)展網絡技術設計,在掌握數(shù)據挖掘人物之后對大數(shù)據人工智能分析方法進行研究,具體包括及其學習、深度學習、計算智能等方面。
目前,大數(shù)據已經成為人類發(fā)展的重要經濟資產,然而海量的數(shù)據仍對挖掘、分析和計算技術提出更高要求。人工智能技術作為大數(shù)據分析的重要方式之一,其深度學習、機器學習等技術均有效滿足了日益復雜的大數(shù)據分析。因此,為拓展大數(shù)據分析的應用范圍,優(yōu)化大數(shù)據分析任務,以人工智能為基礎研究大數(shù)據分析方法并掌握其技術要點是必要的。
所謂大數(shù)據,指的是非結構化數(shù)據的集合,相較于傳統(tǒng)數(shù)據管理工具,其具有鮮明的數(shù)據采集、存儲與處理能力,在對其開展目標信息的提取工作時,必須通過處理海量數(shù)據方可實現(xiàn)。但是一旦有效挖掘數(shù)據信息,就能夠獲得大量的內在價值信息和科學知識,促進數(shù)字經濟的快速發(fā)展。新時期下,新媒體技術、移動通信網絡幾乎覆蓋全球,數(shù)據信息無處不在,在經濟發(fā)展方面,通過對產業(yè)、工業(yè)發(fā)展相關數(shù)據進行深入分析,能夠為產業(yè)經濟結構的調整提供有效支持;在制造方面,通過結合物聯(lián)網、BIM等技術,能夠為制造業(yè)轉型和社會發(fā)展提供強有力的技術支持;在人們日常生活中,大數(shù)據分析的落實能夠優(yōu)化網絡體驗,得到更為人性化、智能化的信息獲取體驗??偠灾髷?shù)據分析的重要性是顯而易見的,它不僅體現(xiàn)在經濟社會發(fā)展層面,也作用于人們的日常生活[1]。
大數(shù)據技術下的網絡掃描主要是利用電子系統(tǒng)對相關數(shù)據信息進行準確識別、讀取和記錄的過程,從而能夠針對那些尚未通過授權的信息數(shù)據實施綜合檢測,做好數(shù)據驗證,提升數(shù)據信息安全性,但立足于人工智能技術層面分析,查詢相關信息數(shù)據中存在較高難度,為此想要進一步處理該種問題,需要針對相關數(shù)據信息實施全面掃描。通過大數(shù)據對相關信息數(shù)據實施全面掃描,是對瀏覽數(shù)據實施定性分析和分類活動,整個操作中所用數(shù)據參數(shù)為分辨率,也是數(shù)據掃描關鍵。
提取大數(shù)據信息即通過人工智能技術平臺對相關數(shù)據信息進行全面瀏覽,從中提取價值信息。現(xiàn)有數(shù)字技術是基于人工智能技術進行網絡識別,相關操作思路如下,率先采集目標客戶相關瀏覽信息數(shù)據,并對具體數(shù)據實施預處理,初步確定大數(shù)據屬性特征,順利過濾無用信息[2]。
數(shù)據分析法主要包括聚類分析、特征數(shù)據分析、相關性分析和人工神經網絡等分析方法,其中聚類分析法主要針對相似性采集信息數(shù)據實施有效分類和科學分組,促進相關信息按照分段形式展現(xiàn)。該種方法論盡管看起來是分析各種雜亂數(shù)據信息,結合分析目標對各種數(shù)據信息實施科學分組,并結合各種數(shù)據集內在聯(lián)系提取有用信息,明確信息價值。在實施聚類分析中存在一定問題,數(shù)據具有個性化特征,導致數(shù)據統(tǒng)計無法進行合理分析,影響數(shù)據識別。人工神經網絡分析即通過模擬大腦神經網絡的信息存儲、處理方法,對原本混亂、復雜的數(shù)據信息實施全面抽象分析,順利接收計算結果,提取價值信息。比如基于數(shù)學模型形成的人工神經網絡技術通過創(chuàng)建全新算法,將神經網絡數(shù)值輸入其中。采集各種數(shù)據信息中聯(lián)系現(xiàn)實需求合理分析相關數(shù)據,通過數(shù)據分析保障人工智能技術合理應用。相關性分析即借助大數(shù)據對數(shù)據庫內各種數(shù)據聯(lián)系實施科學分析和揭示,借助相關性分析可以幫助針對所采集信息數(shù)據實施科學分析,深入挖掘處理各種隱藏信息,準確辨別隱藏數(shù)據唯一性,應用該種方法具有較高準確性和目的性,可以支持數(shù)據進行精準分析。
為進一步提高大數(shù)據識別簡易性,需要在實施大數(shù)據識別中對相關搜尋數(shù)據信息進行完整、全面描述,但對于大數(shù)據識別網絡的描述也具有重要作用。除此之外,因為大數(shù)據最終輸出結果為基礎數(shù)據集,需要對相關操作進行合理定義,進一步迎合廣大用戶多樣需求。為此需要準確把握大數(shù)據識別主要數(shù)據來源。
基于人工智能技術誕生的大數(shù)據技術應用于大數(shù)據網絡檢測當中可以提高相關信息檢驗速度,提高傳輸數(shù)據安全性。對目標數(shù)據進行提取挖掘大數(shù)據屬性特征,利用大數(shù)據技術來提取相關性,融合屬性檢測,實現(xiàn)預期數(shù)據檢驗目標,創(chuàng)建大數(shù)據挖掘系統(tǒng)。
對于人工智能技術而言,機器學習在大數(shù)據分析中的應用主要體現(xiàn)在4個方面,具體如下。
3.1.1 大數(shù)據聚類
將機器學習技術應用于大數(shù)據分析工作時,初步就是大數(shù)據聚類,只有這樣才能保證數(shù)據分析結果的全面性,但是由于大數(shù)據聚類與傳統(tǒng)聚類不同,其具有跨學科、跨領域的特點,所以以往的傳統(tǒng)聚類算法難以直接應用。因此,當研究人員開展以機器學習為基礎的大數(shù)據分析工作時,應對聚類算法進行優(yōu)化,或是直接選擇新型算法,其中,若是采用傳統(tǒng)聚類算法,應先對現(xiàn)有數(shù)據進行阻塞與簡化,然后通過計算結果重新組合的方式實現(xiàn)大數(shù)據分析,或是采用并行聚類算法,依托于計算機處理數(shù)據速度的提升實現(xiàn)經典大數(shù)據的分析。
從目前主流計算框架來看,Map Reduce作為常用的分布式計算框架之一,其主要方式是簡化處理數(shù)據分塊,然后將各個分塊的分析結果進行合并,最終實現(xiàn)數(shù)據的并行化;或是以Hadoop平臺為基礎的K-means聚類算法,依托于Map、Combine、Reduce的劃分實現(xiàn)自下而上的凝聚式層次聚類分析,強化文本類數(shù)據聚類時的準確性。除此之外,還有在Map Reduce的發(fā)展下,基于密度的聚類方法,即DB-SCAN,這一聚類算法分為4個階段,階段一為數(shù)據預處理;階段二是局部DB SCAN;階段三為合并集群獲得;階段四是全局集群處理,在依次落實處理環(huán)節(jié)后將其應用于軌跡聚類[3]。通過上述分析可知,不同的大數(shù)據聚類算法,其側重點存在差異性,以Map Reduce為基礎的大數(shù)據聚類算法主要是強化聚類效果,并對海量數(shù)據計算的復雜度進行有效降低;而K-means算法則注重大數(shù)據分析速度與性能的提升。而且,目前傳統(tǒng)聚類算法優(yōu)化研究也處于持續(xù)狀態(tài),尤其是面對越來越大的數(shù)據量以及難度不斷提高的數(shù)據分析難題,通過采用并行聚類算法和改進傳統(tǒng)聚類算法,是目前以人工智能機械學習為基礎的,大數(shù)據聚類算法研究與發(fā)展的主要方向。
3.1.2 大數(shù)據關聯(lián)挖掘
在面對海量數(shù)據查找任務時,主要采用關聯(lián)挖掘對數(shù)據集合之間的關聯(lián)、因果等信息進行查找與整合。目前,常用的關聯(lián)分析算法有Apriori關聯(lián)規(guī)則分析、FPGrowth關聯(lián)規(guī)則分析等,但是在算法的實際應用過程中,傳統(tǒng)串行算法將給I/O帶來過大的負載,且數(shù)據關聯(lián)挖掘時間成本較大,隨著數(shù)據量的增加,需要查找的數(shù)據規(guī)模越來越大,對計算能力和存儲容量的要求越來越高。因此,在算法實際應用過程中,可融入Map Reduce或Spark分布式計算框架,依托于分布式、并行化的處理優(yōu)化,提升數(shù)據計算速度,從而使大數(shù)據關聯(lián)挖掘得以廣泛應用,比如日志分析領域、醫(yī)療疾病診斷領域、交通智能管理領域、數(shù)值分析領域等,極大地滿足了多個社會行業(yè)對數(shù)據分析與利用的需求。
3.1.3 大數(shù)據分類
大數(shù)據分類也是數(shù)據挖掘的一種技術手段,因而與其他技術工具相同,分類算法豐富且先進。比如主要應用于非均衡數(shù)據的分類工作的,以Map Reduce為基礎的隨機森林算法,通過依托于決策樹算法的并行化,能夠有效加快最佳分裂屬性的選擇過程;再如結合了Mahout的隨機森林,為實時檢測點對點僵尸網絡的工作提供技術支持。除此之外,還包括Map Reduce與K近鄰分類器的結合應用等,有效提升了大數(shù)據分類的泛化性能,使其能夠應用的更為寬泛[4]。
3.1.4 大數(shù)據預測
作為大數(shù)據研究的核心內容,以機器學習為基礎的大數(shù)據預測應用也十分廣泛,涉及的學習算法也十分豐富。比如應用于金融領域的機器學習算法,通過針對流式大數(shù)據以及市場結構的差異性進行可擴展交易模型的建立,最后結合運用邏輯回歸方法實時預測目標市場產品的價格?;蚴菍DFS、集合特征學習等技術進行整合,依托于支持向量機運用的網絡對入侵攻擊進行預測的算法等;再如應用于醫(yī)療領域的流感預測指數(shù)模型、結合向量機方法的綜合分析預測等,為該領域精準個性化醫(yī)療的實現(xiàn)提供技術支持;亦或是應用于電網負荷的以動態(tài)需求響應為基礎的預測平臺,依托于語義信息的集成采集獲得目標動態(tài)數(shù)據,然后利用回歸樹模型對海量歷史數(shù)據進行訓練,最后對Web端的電能消耗進行預測,從而實現(xiàn)智能用電需求管理。
自2006年開始,深度學習成為機器學習的重要學習方法之一,在大數(shù)據分析中,其主要應用于圖像、自然語言處理以及語音等領域。在大數(shù)據分析過程中,評價其明顯的計算密集性特點,深度學習訓練的使用需要確定隱層權值與閾值參數(shù)等,然后依托于大量的迭代計算完成相關分析工作。
以中等規(guī)模的數(shù)據為例,即便僅有幾個隱層,但每個隱層均具有幾百個節(jié)點的深層網絡,學習時間在幾天或幾周之間。數(shù)據規(guī)模與模型訓練時間存在正比關系,在龐大的訓練量下,主要采用分布式的方式降低深度學習訓練成本,具體實現(xiàn)方式包括:(1)以Map Reduce為基礎的深度學習分布式方式,能夠有效提升大量數(shù)據的處理速度,解決深度學習的可拓展問題,減少網絡節(jié)點的通信代價;(2)以Spark為基礎的深度學習分布式方式,以內存為基礎開展大數(shù)據計算工作,相較于第一種算法,這種學習方法更適用于迭代型計算任務,目前常用的學習模式有R_CRBN模型、卷積神經網絡等。因而,通過在大數(shù)據分析中運用該技術功能,能夠直觀的將復雜信息呈現(xiàn)給用戶,幫助其根據分析結果對未來做出精準預測[5]。
除此之外,現(xiàn)有的以大數(shù)據分析優(yōu)化為目標的深度學習算法正處于不斷改進狀態(tài),針對樣本數(shù)量缺乏、質量不足等常見問題,固定模型重用策略被提出并應用,能夠很好地獲取判別信息,降低數(shù)據分析過程中需要投入的訓練樣本數(shù)量。此外,強化檢測器性能、改進訓練樣本質量的方法不斷豐富,根據深度學習一訓練步驟實現(xiàn)對各種數(shù)據的迭代計算,從而改變當前的工作質量。
計算智能為人工智能分支之一,其具有隨機性、啟發(fā)式特征,在大規(guī)模優(yōu)化方面能夠發(fā)揮良好作用,而傳統(tǒng)算法以收斂速度為側重點,強調集中化思想,若所需分析的數(shù)據過于龐大,則會使傳統(tǒng)算法難以處理,即使能夠處理分析也會形成較大時間消耗,數(shù)據分析效率嚴重不足。而當前數(shù)據復雜性、規(guī)模化程度日益增加,此時可在大數(shù)據分析時引入分布式算法,從群智能、進化算法兩個方面展開大數(shù)據分析。(1)群智能算法分析。其構建了分布式計算環(huán)境,對算法搜索過程具有較強加速效果,其主要借助粒子群算法、布谷鳥算法、蟻群算法、螢火蟲算法等順利完成大數(shù)據分析。(2)進化算法分析。該算法分析方式含有大量迭代計算,在具體大數(shù)據分析過程中,主要通過大數(shù)據分組保障運算分析效率,通過長期的進化算法研究,進化算法現(xiàn)已能夠實現(xiàn)差分自動分組,降低不同分組內的變量依賴程度,借助智能化分析提高算法分析效率,以此解決傳統(tǒng)算法在預算效率方面的不足。除此之外,大數(shù)據分析時還可混合運用多種算法,如貪心算法、遺傳算法、模擬退火算法等,同時融入加速技術、分布式計算等,對原算法精準優(yōu)化,繼而提高數(shù)據分析效率。
綜上所述,人工智能在大數(shù)據分析中發(fā)揮的作用日益關鍵,所取得的成果也日益豐富。為促進大數(shù)據的更好發(fā)展,強化其智能化水平,應對大數(shù)據積累、關聯(lián)分析、分類、預測挖掘任務進行分析,并研究分布式深度學習及其算法的改進,最后從群智能、進化算法兩方面開展分析研究,以此更好應對大數(shù)據分析帶來的挑戰(zhàn)。
引用
[1]金晶.基于大數(shù)據分析的5G-Advanced節(jié)能演進創(chuàng)新應用方法研究[J].廣東通信技術,2022,42(2):24-29.
[2]郭文欣,吳忭.人工智能視域下基于設計的實施研究方法:框架及案例分析[J].中國教育信息化,2022,28(6):54-63.
[3]高長元,張曉星,張樹臣.多維鄰近性對跨界聯(lián)盟協(xié)同創(chuàng)新的影響研究——基于人工智能合作專利的數(shù)據分析[J].科學學與科學技術管理,2021,42(5):100-117.
[4]楊偉,劉健.基于生態(tài)流量的數(shù)字創(chuàng)新生態(tài)系統(tǒng)演化模式——人工智能行業(yè)的探索性研究[J].技術經濟,2021,40(9):34-44.
[5]趙婷婷,韓雅杰,楊夢楠,等.基于機器學習的時序數(shù)據預測方法研究綜述[J].天津科技大學學報,2021,36(5):1-9.