田亞平聶新明
(1.江蘇師范大學(xué)后勤集團(tuán) 江蘇徐州 221116;2.江蘇師范大學(xué)物理與電子工程學(xué)院 江蘇徐州 221116)
能源互聯(lián)網(wǎng)大數(shù)據(jù)結(jié)構(gòu)的發(fā)展趨勢*
田亞平1聶新明2
(1.江蘇師范大學(xué)后勤集團(tuán) 江蘇徐州 221116;2.江蘇師范大學(xué)物理與電子工程學(xué)院 江蘇徐州 221116)
傳統(tǒng)數(shù)據(jù)挖掘技術(shù)更關(guān)注解決模型學(xué)習(xí)問題,與底層的數(shù)據(jù)管理銜接不緊。但當(dāng)面對包含客戶服務(wù)中心信息系統(tǒng)的語音數(shù)據(jù)、設(shè)備在線監(jiān)測系統(tǒng)中的視頻數(shù)據(jù)和圖像數(shù)據(jù)等能源互聯(lián)網(wǎng)大數(shù)據(jù)時,數(shù)據(jù)遷移成本極高、完全內(nèi)存計(jì)算容易導(dǎo)致空間不足,因此,亟須對傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進(jìn)行重新設(shè)計(jì),使之適應(yīng)能源大數(shù)據(jù)社會化商務(wù)系統(tǒng)是一個多源異構(gòu)復(fù)雜系統(tǒng),這也是能源社會化商務(wù)戰(zhàn)略的發(fā)展趨勢。
數(shù)據(jù)挖掘 能源 互聯(lián)網(wǎng) 大數(shù)據(jù) 社會化
隨著互聯(lián)網(wǎng)發(fā)展迅速,進(jìn)入了雙向互動的 Web2.0 和移動互聯(lián)網(wǎng)時代,每個個體既是信息的消費(fèi)者,也是信息的生產(chǎn)者,實(shí)現(xiàn)了異種設(shè)備的即插即用,具備自組織、 自愈等功能,產(chǎn)生眾多的新業(yè)態(tài)和商業(yè)新模式,成為當(dāng)前最活躍的創(chuàng)新創(chuàng)業(yè)之土壤。能源互聯(lián)網(wǎng)緊密耦合信息網(wǎng)絡(luò)、天然氣網(wǎng)絡(luò)、交通網(wǎng)絡(luò)等復(fù)雜網(wǎng)絡(luò),充分有效地利用分布式可再生能源滿足用戶多樣化能源需求的一種新型能源體系結(jié)構(gòu)[1]。
能源互聯(lián)網(wǎng)要求企業(yè)運(yùn)用大數(shù)據(jù)技術(shù)對設(shè)備狀態(tài)、電能負(fù)載等數(shù)據(jù)進(jìn)行分析挖掘與預(yù)測, 開展精準(zhǔn)調(diào)度、故障判斷和預(yù)測性維護(hù),提高能源利用效率和安全穩(wěn)定運(yùn)行水平,因此,深入理解和運(yùn)用大數(shù)據(jù)技術(shù)成為了為能源互聯(lián)網(wǎng)發(fā)展保駕護(hù)航的重要載體。
1.數(shù)據(jù)存儲與管理
關(guān)系數(shù)據(jù)模型經(jīng)過數(shù)十年的積淀和發(fā)展,擅長結(jié)構(gòu)化數(shù)據(jù)的處理,事務(wù)語義保證機(jī)制完善,但遇到擴(kuò)展能力的困難。反之,NoSQL數(shù)據(jù)模型擴(kuò)展能力好、能很好支持異構(gòu)數(shù)據(jù)及其分析,卻缺乏事務(wù)語義保證。在能源互聯(lián)網(wǎng)實(shí)踐分析型應(yīng)用中,既要用到結(jié)構(gòu)化數(shù)據(jù)、又要用到半/無結(jié)構(gòu)化數(shù)據(jù),比如,在社會化能源消費(fèi)的情境推薦技術(shù)需要從社會關(guān)系網(wǎng)絡(luò)中挖掘情境信息,結(jié)合結(jié)構(gòu)化商務(wù)交易數(shù)據(jù)生成推薦[2],因此,在能源大數(shù)據(jù)領(lǐng)域關(guān)系數(shù)據(jù)模型和NoSQL 數(shù)據(jù)模型的融合成為必然發(fā)展趨勢??傊?,目前關(guān)系數(shù)據(jù)模型和 NoSQL 數(shù)據(jù)模型呈現(xiàn)出相互借鑒和啟發(fā)、逐步走向融合的發(fā)展趨勢,即:關(guān)系數(shù)據(jù)模型試圖改進(jìn)其擴(kuò)展能力和異構(gòu)數(shù)據(jù)支持能力,而 NoSQL 數(shù)據(jù)模型試圖增強(qiáng)其事務(wù)語義保證能力。
2. 計(jì)算模型的發(fā)展現(xiàn)狀
MapReduce 模型優(yōu)勢在于簡單易用、靈活性高、獨(dú)立于云數(shù)據(jù)庫系統(tǒng)、容錯能力強(qiáng)。但是,MapReduce 經(jīng)常被描述成為一種ETL (Extract-Transform-Load)工具,其缺點(diǎn)也非常明顯,比如,缺乏高層語言支持、缺乏數(shù)據(jù)模式、數(shù)據(jù)流不靈活、調(diào)度和I/O效率低等[4]。很多計(jì)算過程難以用 Map 和 Reduce 函數(shù)刻畫,如迭代計(jì)算和圖處理[5],因?yàn)?MapReduce 需要啟動多輪Map和 Reduce 任務(wù),額外開銷極大。 HaLoop和Twister被提出改進(jìn) MapReduce 在迭代計(jì)算上的性能,但仍然不能很好地解決 MapReduce 由數(shù)據(jù)流單一導(dǎo)致的不擅長處理迭代計(jì)算和圖處理的問題。于是 BSP(Bulkynchronous Parallel model)模型被引入到云計(jì)算中,多種基于 BSP的系統(tǒng)被研制出,如Yahoo!的Graph和開源的Hama。 BSP 在迭代計(jì)算、子任務(wù)間依賴性強(qiáng)、實(shí)時性要求高的應(yīng)用上更有優(yōu)勢。但是,BSP 將數(shù)據(jù)都存儲在內(nèi)存,數(shù)據(jù)處理規(guī)模受到極大制約;同時,BSP 模型中各任務(wù)之間的消息通信也是難以消除的效率瓶頸, 且缺乏完善的容錯管理機(jī)制。
融合社會網(wǎng)絡(luò)的能源互聯(lián)網(wǎng)社會化商務(wù)應(yīng)用環(huán)境比傳統(tǒng)電力市場電子商務(wù)更為復(fù)雜,更迫切需要借助面向大數(shù)據(jù)的商務(wù)智能技術(shù),才能有效實(shí)現(xiàn)一系列智能化精確信息管理。 而幾乎所有的基于數(shù)據(jù)挖掘、處理和分析的商務(wù)智能技術(shù)無不與底層多源異構(gòu)大數(shù)據(jù)存儲、管理和分析密切相關(guān)。 本項(xiàng)目面向能源互聯(lián)網(wǎng)社會化商務(wù)這一新興應(yīng)用之需求, 對大數(shù)據(jù)存儲和管理及適應(yīng)大數(shù)據(jù)計(jì)算的數(shù)據(jù)挖掘、 分析、處理兩個層面的若干關(guān)鍵技術(shù)問題展開攻關(guān),形成自主知識產(chǎn)權(quán),為能源互聯(lián)網(wǎng)社會化電子商務(wù)產(chǎn)業(yè)發(fā)展提供技術(shù)先導(dǎo)。進(jìn)一步地,通過實(shí)施多源異構(gòu)大數(shù)據(jù)分析平臺的工程化建設(shè),并在分布式新能源企業(yè)進(jìn)行示范應(yīng)用。
綜上所述,融合社會網(wǎng)絡(luò)的能源互聯(lián)網(wǎng)數(shù)據(jù)索引分析平臺,比一般意義上的電力市場的電子商務(wù)更為復(fù)雜, 更迫切需要借助面向普通用戶的大數(shù)據(jù)的商務(wù)智能技術(shù), 才能有效實(shí)現(xiàn)一系列智能化智慧能源大數(shù)據(jù)管理應(yīng)用,包括:①能夠表征能源互聯(lián)網(wǎng)的參與者--人的特征的數(shù)據(jù);②反應(yīng)能源生產(chǎn)、配送的數(shù)據(jù);③反應(yīng)能源消費(fèi)、交易和調(diào)控的投資決策支撐數(shù)據(jù);④對能源互聯(lián)網(wǎng)有影響的社會經(jīng)濟(jì)環(huán)境數(shù)據(jù)。幾乎所有的基于數(shù)據(jù)挖掘、處理和分析的商務(wù)智能技術(shù)無不與底層多源異構(gòu)大數(shù)據(jù)存儲、管理和分析密切相關(guān)。大數(shù)據(jù)的深入應(yīng)用在面向能源互聯(lián)網(wǎng)社會化商務(wù)這一新興應(yīng)用之需求,對能源大數(shù)據(jù)存儲和管理及適應(yīng)大數(shù)據(jù)計(jì)算的數(shù)據(jù)挖掘、分析、處理兩個層面的若干關(guān)鍵技術(shù)問題展開攻關(guān),進(jìn)一步地,實(shí)施多源異構(gòu)大數(shù)據(jù)分析平臺的工程化建設(shè),并在地方能源企業(yè)進(jìn)行示范應(yīng)用,非常有價值和意義。
[1]杰里米·里夫金.第三次工業(yè)革命[M].張體偉,孫毅寧.譯.北京:中信出版社,2012.
[2] Adomavicius G., and Alexander T. Context-aware recommended systems. Recommended Systems Handbook, 2011, pp:217-253.
[3] Lee K H, Lee Y J, Chai H, et al. Parallel data processing with MapReduce: a survey[J]. ACM SIGMOD Record, 2012, 40(4): 11-20.
[4] Olson C, Reed B, Srivastava U, et al. Pig latin: a not-soforeign language for data processing[C]. Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008: 1099-1110.
[5] Bu Y, Howe B, Balazinska M,et al. HaLoop: Eff cent iterative data processing on large clusters[J]. Proceedings of the VLDB Endowment, 2010, 3(1-2): 285-296.
田亞平(1986-),女,碩士,技術(shù)員,研究方向:網(wǎng)絡(luò)工程、通訊信息處理;
聶新明(1988-),男,碩士,講師,研究方向:大數(shù)據(jù)挖掘、能源互聯(lián)網(wǎng)
*基金信息:江蘇高校自然基金面上項(xiàng)目(16KJB51009)