陳亮
摘 要:隨著數(shù)據(jù)通信、傳感器等相關(guān)技術(shù)的不斷發(fā)展,以數(shù)據(jù)流為首的獲取數(shù)據(jù)量方式逐漸成為工業(yè)生產(chǎn)領(lǐng)域中常用的方式手段。舉例而言,典型工業(yè)應(yīng)用領(lǐng)域如電力系統(tǒng)對于數(shù)據(jù)流處理方式的依賴程度較高。究其原因,主要是因為數(shù)據(jù)流方式在一定程度上具備高精度、高效性的優(yōu)勢特點,通過發(fā)揮自身的功能優(yōu)勢,獲取連續(xù)有序的數(shù)據(jù)項序列,提高工業(yè)生產(chǎn)領(lǐng)域工作效率與質(zhì)量。針對于此,本文主要立足于數(shù)據(jù)流情況對數(shù)據(jù)流概要與數(shù)據(jù)流相關(guān)技術(shù)內(nèi)容進行研究與分析,以供參考。
關(guān)鍵詞:數(shù)據(jù)流;傳感數(shù)據(jù);預(yù)測;分析
前言:數(shù)據(jù)流基本上可以理解為具有實時性、連續(xù)性以及有序性特點的數(shù)據(jù)項序列。其中,關(guān)于數(shù)據(jù)流的數(shù)量在理論上是趨于無限的,一般難以對其進行完整存儲。與此同時,數(shù)據(jù)流上的查詢可事先注冊于系統(tǒng),按照觸發(fā)方式或者周期性表達方式促使數(shù)據(jù)流連續(xù)運行,并周而復(fù)始返回查詢結(jié)果。不難看出,數(shù)據(jù)流在一定程度上可以利用長時間運行以及連續(xù)性查詢特點,廣泛應(yīng)用于多個典型領(lǐng)域當中。結(jié)合當前應(yīng)用發(fā)展情況來看,數(shù)據(jù)流概要以及相關(guān)分析技術(shù)已經(jīng)成功應(yīng)用于我國工業(yè)領(lǐng)域生產(chǎn)當中,無論是在數(shù)據(jù)分析效率還是在數(shù)據(jù)應(yīng)用效率方面均得到了明顯加強。
1 數(shù)據(jù)流概要及數(shù)據(jù)流分析技術(shù)應(yīng)用
1.1 數(shù)據(jù)流預(yù)處理
對于數(shù)據(jù)流序列而言,如果序列中某個元素存在缺失或者延遲到達現(xiàn)象,就很容易導(dǎo)致在準確修正方面存在較大難度。舉例而言,在傳感器網(wǎng)絡(luò)環(huán)境中,如果存在網(wǎng)絡(luò)擁堵或者噪聲干擾等異常現(xiàn)象,數(shù)據(jù)采集通常會利用監(jiān)聽模式啟動采集裝置并發(fā)送相關(guān)數(shù)據(jù)。但是需要注意的是,在這種運行模式下,采集時刻數(shù)據(jù)可能會無法預(yù)期到達[1]。
此時一般該時刻數(shù)據(jù)通常設(shè)置為零,容易造成誤差問題??梢哉f,如何高效準確重構(gòu)傳感器數(shù)據(jù)始終是傳感器數(shù)據(jù)流分析工作予以重點解決的問題。結(jié)合當前應(yīng)用情況來看,關(guān)于異常數(shù)據(jù)檢測方法的應(yīng)用主要可以從統(tǒng)計、特征選擇以及神經(jīng)網(wǎng)絡(luò)等方面進行研究與分析。
1.2 數(shù)據(jù)流概要生成技術(shù)
數(shù)據(jù)流概要生成技術(shù)基本上可以視為保障數(shù)據(jù)流得以安全高效應(yīng)用的重要技術(shù)內(nèi)容。結(jié)合當前應(yīng)情況來看,構(gòu)建數(shù)據(jù)流概要通常會涉及到以下幾種方法內(nèi)容:
(1)抽樣方法。抽樣方法基本上可以視為生成概要數(shù)據(jù)結(jié)構(gòu)的重要手段,可從數(shù)據(jù)集中抽取小部分數(shù)據(jù)進行應(yīng)用與分析,并根據(jù)該樣本集合情況獲得最終查詢結(jié)果。一般來說,抽樣方法可根據(jù)作用性質(zhì)不同,細化分為均勻抽樣與偏移抽樣兩種方式。在具體使用過程中,研究人員可根據(jù)實際情況進行合理選用。
(2)直方圖方法。直方圖方法主要是將一個大數(shù)據(jù)集劃分為多個小數(shù)據(jù)集。其中,小數(shù)據(jù)集的每一個數(shù)字都可以代表數(shù)據(jù)流特征及相關(guān)頻率。結(jié)合實踐應(yīng)用情況來看,直方圖表示方法具有較強的直觀性與簡潔性,一般多可以很好地描述大數(shù)據(jù)集輪廓[2]。
(3)小波方法。小波方法可以視為一種具有通用性特點的數(shù)字信號處理技術(shù),主要根據(jù)輸入的模擬量以及數(shù)字量,將其變換成為小波參數(shù)。其中,少數(shù)幾個小波參數(shù)可以擁有較大能量。結(jié)合這一特性,研究人員可選擇少數(shù)小波參數(shù)還原原始信號。結(jié)合當前應(yīng)用情況來看,小波分析方法通常會被應(yīng)用于數(shù)據(jù)庫領(lǐng)域當中。舉例而言,利用小波分析方法對高維數(shù)據(jù)進行降維處理。
1.3 數(shù)據(jù)流預(yù)測與分類
結(jié)合當前應(yīng)研究情況來看,在數(shù)據(jù)流挖掘算法的研究方面,主要可以從計算數(shù)據(jù)流信號、典型趨勢以及決策樹預(yù)測等方面進行研究與分析。結(jié)合分析反饋情況來看,數(shù)據(jù)挖掘領(lǐng)域中的未來連續(xù)值在一定程度上可以視為預(yù)測數(shù)值。其中,對于預(yù)測未知連續(xù)值或者離散值所屬的類別而言,研究人員可以從數(shù)據(jù)流預(yù)測與其相關(guān)分類工作方面進行研究與分析,具體如下:
一方面,在數(shù)據(jù)流預(yù)測分析方面,研究人員可利用回歸分析中最小二乘法實現(xiàn)對基于異常模式下趨勢監(jiān)測工作的優(yōu)化分析。以車輛跟蹤信息以及電力負荷數(shù)據(jù)為例,研究人員可利用上述方法對變化的數(shù)據(jù)流值進行科學預(yù)測。另一方面,研究人員也可以利用人工智能方法對預(yù)測數(shù)據(jù)流中的周期穩(wěn)定性進行研究與分析。結(jié)合分析反饋情況來看,基于人工智能方法的數(shù)據(jù)流預(yù)測分析工作在預(yù)測精度方面表現(xiàn)較高。而回歸分析中的最小二乘法雖在預(yù)測速度方面表現(xiàn)較快,但是在預(yù)測精度方面遠不及人工智能方法。但是需要注意的是,人工智能方法在數(shù)據(jù)流預(yù)測方面還是存在不確定因素,如無法適應(yīng)流值在不同時段所涉及到的波動特點[3]。
2 數(shù)據(jù)流在典型應(yīng)用領(lǐng)域中的實踐分析
2.1 傳感器網(wǎng)絡(luò)查詢
傳感器網(wǎng)絡(luò)多可以應(yīng)用于不同監(jiān)控應(yīng)用領(lǐng)域當中。其中,像復(fù)雜的過濾以及對異常事件警報活動的響應(yīng)都可以應(yīng)用傳感器網(wǎng)絡(luò)進行實現(xiàn)。其中,多數(shù)據(jù)流上的聚集以及連接可利用分析功能實現(xiàn)對多個數(shù)據(jù)源的研究分析。根據(jù)分析反饋結(jié)果,以單個數(shù)據(jù)流的聚集用作為單個傳感器錯誤補償。結(jié)合以往的應(yīng)用實踐經(jīng)驗來看,傳感器網(wǎng)絡(luò)查詢方式可應(yīng)用于配電站匯報工作當中。舉例而言,工作人員可結(jié)合電力消耗統(tǒng)計情況對配電站發(fā)電速率進行調(diào)整優(yōu)化。除此之外,工作人員也可以將該種方式應(yīng)用于核電廠異常事件監(jiān)測當中,加強對相關(guān)數(shù)據(jù)的監(jiān)測管理。
2.2 網(wǎng)絡(luò)流量分析
一般來說,在實時情況下,Internet通信量相關(guān)分析系統(tǒng)可以在流量統(tǒng)計以及關(guān)鍵條件檢測中得到良好應(yīng)用。其中,Internet中比較受歡迎的信息源以及目的地址流量模式,可以有效遵守能量分配規(guī)律,實現(xiàn)示例查詢過程。舉例而言,在網(wǎng)絡(luò)流量分析過程中,可根據(jù)每一個源目的對所使用的帶寬數(shù)量進行研究分析,并按照協(xié)議類型以及子網(wǎng)掩碼分組進行針對性處理[4]。
2.3 事務(wù)日志分析
Web使用日志的在線挖掘以及電話呼叫進入等功能可以實現(xiàn)對數(shù)據(jù)流模式特征的集中體現(xiàn)。舉例而言,事務(wù)日志分析主要以發(fā)現(xiàn)客戶行為模式為主,對于存在欺詐可疑消費等行為所涉及到的數(shù)據(jù)進行動態(tài)獲取。在檢測分析過程中,系統(tǒng)可通過實時檢查Web服務(wù)器日志情況,對當前數(shù)據(jù)流問題進行研究分析。并主動挖掘移動電話記錄,對各個用戶以及電話呼叫過程中所存在的基站數(shù)目進行研究分析。
2.4 股票行情自動收錄
股票價格在線分析主要可以從其相關(guān)性以及識別趨勢等方面進行動態(tài)研究與分析,并根據(jù)分析反饋結(jié)果對套匯時機以及未來價格進行預(yù)測。舉例而言,在分析過程中,研究人員可根據(jù)最近成交量的最高振蕩變更率表現(xiàn)情況,查找所有價格介于一定范圍的股票,完成對股票行情自動收錄過程[5]。
結(jié)論:總而言之,數(shù)據(jù)流研究所涉及的領(lǐng)域范圍十分寬泛。為保障數(shù)據(jù)流可以在各行業(yè)領(lǐng)域中得到良好應(yīng)用與推廣,建議相關(guān)研究人員應(yīng)該對數(shù)據(jù)流概要以及數(shù)據(jù)流分析技術(shù)等問題進行統(tǒng)籌規(guī)劃與合理部署。與此同時,重點針對潛在的新數(shù)據(jù)流應(yīng)用需求進行研究分析,并主動結(jié)合人工智能等新興技術(shù)內(nèi)容,實現(xiàn)對相關(guān)數(shù)據(jù)內(nèi)容的動態(tài)研究與分析。需要注意的是,當前數(shù)據(jù)流所涉及到的部分研究成果難以直接應(yīng)用于各領(lǐng)域當中,仍舊需要研究人員不斷努力以及付諸實踐,健全優(yōu)化數(shù)據(jù)流管理系統(tǒng)及相關(guān)技術(shù)內(nèi)容,保障數(shù)據(jù)流應(yīng)用發(fā)展進程。
參考文獻:
[1]周勇. 基于并行計算的數(shù)據(jù)流處理方法研究[D].大連理工大學,2018.
[2]陳華輝,施伯樂,錢江波,陳葉芳. 基于小波概要的并行數(shù)據(jù)流聚類[J]. 軟件學報,2020,21(04):644-658.
[3]曹振麗,孫瑞志,李勐. 一種基于高斯混合模型的不確定數(shù)據(jù)流聚類方法[J]. 計算機研究與發(fā)展,2019,51(S2):102-109.
[4]王德文,李俊. 能源互聯(lián)網(wǎng)多能擾動識別的數(shù)據(jù)流處理模型[J]. 電力系統(tǒng)自動化,2018,40(23):49-55+69.
[5]陳華輝,施伯樂. 數(shù)據(jù)流上具有數(shù)據(jù)遺忘特性的小波概要[J]. 計算機研究與發(fā)展,2019,46(02):268-279.
(國電南瑞科技股份有限公司,江蘇 南京 210000)