陳國靖 詹躍明
摘 要:隨著信息化時代的到來,信息爆炸給世界信息化帶來了巨大的改變,同時對人們的生活造成極大的影響。在生活中,人們常常會遇到很多信息,卻難以發(fā)現(xiàn)其中的有效信息。如何將有效信息從眾多信息中過濾挖掘出來就成為一個值得探究的問題。本文從物聯(lián)網(wǎng)與大數(shù)據(jù)的關(guān)系入手,結(jié)合SVM算法的特征,分析SVM算法相比于其他數(shù)據(jù)挖掘方法的優(yōu)勢。
關(guān)鍵詞:SVM算法;支持向量機;物聯(lián)網(wǎng);大數(shù)據(jù)
中圖分類號:TP311.13文獻標識碼:A文章編號:1003-5168(2020)26-0008-03
Absrtact: With the advent of the information age, the information explosion has brought tremendous changes to the world's informationization, and has a great impact on people's lives. In life, people often encounter a lot of information, but it is difficult to find effective information among them. How to filter and dig out effective information from a large amount of information has become a question worth exploring. This paper started with the relationship between the Internet of Things and big data, combined with the characteristics of the SVM algorithm, and analyzed the advantages of the SVM algorithm compared to other data mining methods.
Keywords: SVM algorithm;support vector machine;Internet of Things;big data
數(shù)據(jù)處理和有效信息挖掘是現(xiàn)代信息技術(shù)的重要組成部分,能夠在巨大的信息流中為用戶提取所需的信息[1-2]。數(shù)據(jù)轉(zhuǎn)化為價值是當今時代重要的財富創(chuàng)造途徑,許多企業(yè)通過應(yīng)用大數(shù)據(jù)技術(shù)實現(xiàn)良好的發(fā)展。由此可見,大數(shù)據(jù)技術(shù)能夠利用數(shù)據(jù),為多個行業(yè)提供服務(wù)。其中,物聯(lián)網(wǎng)行業(yè)因與大數(shù)據(jù)技術(shù)的結(jié)合而發(fā)生許多變化,這些變化又反過來促進了大數(shù)據(jù)領(lǐng)域的變革。
1 大數(shù)據(jù)與物聯(lián)網(wǎng)概述
1.1 物聯(lián)網(wǎng)的概念
物聯(lián)網(wǎng)是現(xiàn)代信息技術(shù)的重要組成部分,其主要思想是對物品進行信息化管理。通常用局域網(wǎng)或互聯(lián)網(wǎng)將某個區(qū)域中的人、傳感器、機器、計算機系統(tǒng)連成一個整體,進行遠程化、信息化、智能化的整體管理。其將真實物品的控制信息轉(zhuǎn)變?yōu)闄C器所能識別的語言,最終通過計算機系統(tǒng)對物品進行遠程管理。
1.2 大數(shù)據(jù)的概念
當今社會,大數(shù)據(jù)能夠集合廣大的數(shù)據(jù)信息,而這些信息中必然存在對某個領(lǐng)域有效的信息,能夠促進這個領(lǐng)域的發(fā)展。大數(shù)據(jù)算法對于有效信息的提取和分析具有重要作用?,F(xiàn)代社會,大數(shù)據(jù)呈現(xiàn)出三種新特征。一是信息增長速度加快。當前,電子設(shè)備逐漸進入千家萬戶,個人擁有的電子設(shè)備通常超過兩個,電子設(shè)備使用過程中必將產(chǎn)生一定的信息。二是數(shù)據(jù)類型的廣泛性。由于數(shù)據(jù)來源不同、參數(shù)和形態(tài)的不同,數(shù)據(jù)類型趨于多樣化,數(shù)據(jù)表現(xiàn)出異構(gòu)化特征,而多類數(shù)據(jù)往往難以進行整合分析,這種特征催生了多種大數(shù)據(jù)分類算法。三是數(shù)據(jù)信息規(guī)模不斷擴大。數(shù)據(jù)量的擴大使得信息規(guī)模不斷擴大,尤其是企業(yè)信息,往往需要依托較大規(guī)模的數(shù)據(jù)庫來進行管理。
1.3 大數(shù)據(jù)與物聯(lián)網(wǎng)的關(guān)系
大數(shù)據(jù)由物聯(lián)網(wǎng)中各個運行的設(shè)備或某種操作產(chǎn)生,不斷發(fā)展和完善。這種完善將推動社會的發(fā)展和生活方式的改變,再反向促進大數(shù)據(jù)的變革。這樣的相互作用形成了良好的循環(huán),使得兩者雙向進步、快速發(fā)展。
2 大數(shù)據(jù)的有效信息挖掘?qū)ξ锫?lián)網(wǎng)的意義
2.1 有效提升數(shù)據(jù)的價值
隨著信息產(chǎn)業(yè)的不斷發(fā)展,數(shù)據(jù)產(chǎn)生價值已經(jīng)成為迫切需求,大數(shù)據(jù)中的有效信息挖掘能夠為這個問題提供一定的解決方法[3-4]。例如,大數(shù)據(jù)技術(shù)從終端信息渠道采集大量用戶數(shù)據(jù),在計算機系統(tǒng)中加以分析,對最核心的信息予以深入研究和分析預(yù)測,最終使大量數(shù)據(jù)變成數(shù)量少卻有價值的信息。
2.2 促進多個領(lǐng)域的發(fā)展
在物聯(lián)網(wǎng)行業(yè),大數(shù)據(jù)的應(yīng)用隨處可見。無論是常見的移動數(shù)據(jù)設(shè)備,還是高科技的智能物流、智能家居等領(lǐng)域,都與大數(shù)據(jù)的應(yīng)用密不可分。同時,大數(shù)據(jù)的飛速發(fā)展使得高精尖芯片的需求增加,使得芯片的核心技術(shù)加速提升成為重要的研究課題。因此,物聯(lián)網(wǎng)與大數(shù)據(jù)的結(jié)合能促進多個領(lǐng)域的發(fā)展,極大地改變了人們的生活方式。
2.3 變革故障處理方式
當物聯(lián)網(wǎng)中某個設(shè)備發(fā)生故障時,大數(shù)據(jù)系統(tǒng)能夠?qū)崟r將最后的運行數(shù)據(jù)反饋出來,便于發(fā)現(xiàn)故障原因。收到數(shù)據(jù)后,診斷系統(tǒng)能夠及時進行分析,找到適宜的解決辦法,并且將信息存入數(shù)據(jù)庫,以便在下一次發(fā)生相似故障時有據(jù)可查,迅速做出反應(yīng)。
2.4 進行定位感知
大數(shù)據(jù)分離的有效信息不僅能夠簡單地定位設(shè)備位置和故障位置,還能定位產(chǎn)品運行的健康狀態(tài)。定位感知技術(shù)可以察覺設(shè)備的一舉一動,一旦出現(xiàn)問題,就能及時定位現(xiàn)場,幫助技術(shù)人員及時處理問題,提高故障處理效率。同時,定位感知技術(shù)有利于感知設(shè)備的效能、負載等,優(yōu)化設(shè)備性能。
2.5 進行數(shù)據(jù)感知
大數(shù)據(jù)能夠通過數(shù)據(jù)進行一定的預(yù)測。計算機云端存儲各種設(shè)備數(shù)據(jù)后,再進行數(shù)據(jù)挖掘,利用有效信息形成回歸曲線,預(yù)測數(shù)據(jù)走向。這一作用不僅能幫助信息使用者優(yōu)化相關(guān)產(chǎn)品,還能通過分析運行數(shù)據(jù)和已出現(xiàn)的故障,診斷設(shè)備存在的隱患,及時預(yù)測問題發(fā)展方向,解除隱患,避免產(chǎn)生更大的經(jīng)濟損失。
3 SVM的內(nèi)涵及特征
3.1 SVM的定義
SVM指的是支持向量機,是一種常見的判別方法。在機器學習領(lǐng)域,它是一個有監(jiān)督的學習模型,通常用來進行模式識別、分類以及回歸分析。
3.2 SVM的主要思想
SVM的主要思想可以概括為兩點。SVM將數(shù)據(jù)劃分為兩類,一種是線性可分的數(shù)據(jù),一種是線性不可分的數(shù)據(jù)。對于線性可分的情況,直接采用線性回歸方式進行數(shù)據(jù)分析和擬合。而對于線性不可分的情況,通過使用非線性映射算法,將數(shù)據(jù)從低維特征空間輸入高維特征空間,使得原本線性不可分的數(shù)據(jù)轉(zhuǎn)化為高維可分數(shù)據(jù),進而采用一般算法進行分析和處理。
3.3 SVM的主要特征
SVM是一種全局優(yōu)化方式。其目的是建立一種模型,對目標函數(shù)進行分析,發(fā)現(xiàn)目標函數(shù)全局最小值。相比其他算法,SVM更注重全局優(yōu)化,而不是尋求局部最優(yōu)值。其通過最大決策邊界的邊緣方式來控制模型,對模型進行約束和限制,需要用戶為其提供相應(yīng)的參數(shù),如使用核函數(shù)類型和引入松弛變量等。SVM在數(shù)據(jù)分類方面具有良好的特性,能夠?qū)γ恳唤M被分析出來的數(shù)據(jù)設(shè)置一個啞變量,對每組數(shù)據(jù)進行有效的標識。SVM一般用于二類問題,對于多類問題使用效果不佳。
4 基于SVM的物聯(lián)網(wǎng)大數(shù)據(jù)信息過濾挖掘主要內(nèi)容
4.1 數(shù)據(jù)采集
不同類型的數(shù)據(jù)均可采用多源信息資源云檢索機制進行監(jiān)管,每個發(fā)布者收集一組下層傳感器數(shù)據(jù),并將相關(guān)數(shù)據(jù)流發(fā)布給相應(yīng)子集,數(shù)據(jù)采集前端接收相關(guān)信號,這時,數(shù)據(jù)管理系統(tǒng)就開始對下層傳感器匯報的數(shù)據(jù)進行分發(fā)統(tǒng)計,對采集的信息進行編碼,得到其物聯(lián)網(wǎng)環(huán)境下的編碼特征。
4.2 數(shù)據(jù)清洗及預(yù)處理
在物聯(lián)網(wǎng)架構(gòu)中,首先將各終端設(shè)備的數(shù)據(jù)信息和邏輯傳感器收集的實時數(shù)據(jù)收集起來,放置在數(shù)據(jù)庫中。如果原數(shù)據(jù)中有太多無用的數(shù)據(jù),就會干擾算法的判斷,人們要采用人工方法清洗數(shù)據(jù),分離有價值的數(shù)據(jù)特征。然后,基于SVM程序的腳本文件,從清洗后的數(shù)據(jù)中提取適量的特征,再把數(shù)據(jù)特征放入一個腳本生成的表格中等待下一步運算。在真實試驗中,當數(shù)據(jù)量較小、價值量較高時,可以不使用這一步。
4.3 數(shù)據(jù)中信息特征的提取及處理
物聯(lián)網(wǎng)大數(shù)據(jù)普遍具有離散性,較難發(fā)現(xiàn)規(guī)律,往往需要進行降維設(shè)計。
本研究采用差分進化算法,將數(shù)據(jù)劃分為數(shù)個子列,采用SVM算法進行降維,得到其相應(yīng)的二維表達式,物聯(lián)網(wǎng)傳感器數(shù)據(jù)特征滿足相關(guān)條件,再監(jiān)測數(shù)據(jù)關(guān)聯(lián)性,得到相應(yīng)數(shù)據(jù)關(guān)聯(lián)特征,然后設(shè)計干擾濾波對數(shù)據(jù)噪聲進行清除,得到濾波函數(shù),最后采用多個樣本進行訓(xùn)練,根據(jù)重要程度,對非主要因素與主要因素的關(guān)聯(lián)序列進行排列,通過以上分析對數(shù)據(jù)進行關(guān)聯(lián)特征提取和降維映射,有效提高數(shù)據(jù)過濾的成功率。
4.4 SVM算法的引入和數(shù)據(jù)挖掘的實現(xiàn)
對于上述過程已經(jīng)處理過的數(shù)據(jù),人們需要設(shè)計有效信息的過濾算法。傳統(tǒng)的數(shù)據(jù)過濾采用粒子濾波算法,該算法對粒子初始軌跡要求較高,日常采集或提取的數(shù)據(jù)噪聲較大,通常無法達到要求。SVM算法改進了這一技術(shù),可以有效清理大數(shù)據(jù)技術(shù)獲得的信息,篩選和濾除異常數(shù)據(jù),如噪聲數(shù)據(jù)、無用數(shù)據(jù)、缺失數(shù)據(jù)、錯誤數(shù)據(jù)等,隨后將數(shù)據(jù)整合,對于不同設(shè)備和不同來源的數(shù)據(jù),根據(jù)其數(shù)據(jù)特性進行分類,將能采用相同處理方法的數(shù)據(jù)聚合到一起。對于較少的特殊數(shù)據(jù),可以通過轉(zhuǎn)化運算將其轉(zhuǎn)化為相同區(qū)間、便于處理的數(shù)據(jù)。人們要制定一定的數(shù)據(jù)挖掘規(guī)則并設(shè)計濾波器參數(shù),將非關(guān)聯(lián)信息濾除,保留有效信息特征,提高信息挖掘效率?;谝陨细倪M思想,人們可以引入SVM算法進行數(shù)據(jù)挖掘。
首先,定義SVM算法失真敏感參數(shù),求出具有最小距離的SVM節(jié)點。對于所求出的有效數(shù)據(jù),人們要設(shè)定數(shù)據(jù)聚集樹關(guān)聯(lián)性強度。然后,假定標準支持向量機解,采用SVM算法,得到有效信息的關(guān)聯(lián)情況,通過篩選有效數(shù)據(jù)類型,不斷簡化數(shù)據(jù),將物聯(lián)網(wǎng)所在結(jié)點區(qū)域劃分為若干個互不重疊的塊,得到數(shù)據(jù)挖掘最短無偏時延,進而得到物聯(lián)網(wǎng)大數(shù)據(jù)的數(shù)據(jù)聚集樹上的父結(jié)點的數(shù)據(jù)無偏相位特征。
5 基于SVM的物聯(lián)網(wǎng)大數(shù)據(jù)有效信息過濾挖掘的優(yōu)勢
5.1 高效提取主相關(guān)因素
與傳統(tǒng)的物聯(lián)網(wǎng)大數(shù)據(jù)信息過濾方法相比,基于SVM的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘提高了物聯(lián)網(wǎng)大數(shù)據(jù)特征的提取效率,SVM算法能夠?qū)τ行畔⒌年P(guān)聯(lián)因子進行排序,提取主相關(guān)因素作為過濾的主要內(nèi)容,通過設(shè)計一定的模型架構(gòu),建成適當?shù)臑V波器將非關(guān)聯(lián)因素進行整合過濾,實現(xiàn)對數(shù)據(jù)的整體約束和仿真。
5.2 分類規(guī)整處理
SVM算法可以對數(shù)據(jù)進行統(tǒng)一規(guī)整,統(tǒng)一處理相同類型的信息,有效挖掘信息特征。對于不同類型的信息,SVM算法可以采用不同的分析方法,最終進行有效信息的整合,實現(xiàn)有效信息的挖掘。
5.3 有效進行數(shù)據(jù)預(yù)測
SVM算法通過對現(xiàn)有數(shù)據(jù)進行線性分析、回歸擬合等,得出數(shù)據(jù)的函數(shù)預(yù)測模型,對未來的數(shù)據(jù)進行有效預(yù)測。對物聯(lián)網(wǎng)設(shè)備而言,SVM算法能夠根據(jù)其運行狀況、參數(shù)、用戶使用習慣等數(shù)據(jù),預(yù)測其未來一段時間的運行數(shù)據(jù),及時進行適應(yīng)性調(diào)整。
6 結(jié)論
通過分析物聯(lián)網(wǎng)大數(shù)據(jù)的特征和SVM算法特性,筆者發(fā)現(xiàn),基于SVM的物聯(lián)網(wǎng)大數(shù)據(jù)有效信息過濾挖掘方法可以顯著提高物聯(lián)網(wǎng)信息挖掘速度。未來,該技術(shù)將廣泛應(yīng)用到互聯(lián)網(wǎng)行業(yè)和更多使用大數(shù)據(jù)的行業(yè)中。
參考文獻:
[1]李明皓,劉曉偉,于楊,等.大數(shù)據(jù)物聯(lián)網(wǎng)信息交互與數(shù)據(jù)感知[J].機械設(shè)計與制造,2017(11):263-265.
[2]郭濤,高米翔,韓鵬.工業(yè)物聯(lián)網(wǎng)感知層協(xié)議分析與應(yīng)用展望[J].物聯(lián)網(wǎng)技術(shù),2016(6):52-55.
[3]吳勇毅.虛擬現(xiàn)實、量子信息引領(lǐng)中國科技未來發(fā)展[J].通信世界,2016(3):37-38.
[4]彭曉珊.關(guān)于物聯(lián)網(wǎng)技術(shù)發(fā)展及應(yīng)用前景研究[J].汕頭科技,2010(1):25-30.