摘 要:隨著新興技術(shù)和所有相關(guān)設(shè)備的出現(xiàn),預(yù)計未來幾年將會產(chǎn)生大量數(shù)據(jù)并在可預(yù)見的未來繼續(xù)??沙掷m(xù)計算研究計算機工程師和科學家高效且有效地設(shè)計計算機和相關(guān)子系統(tǒng)的過程至關(guān)重要。然而,當前的智能機器學習系統(tǒng)是性能驅(qū)動的。隨著大型數(shù)據(jù)集中的學習任務(wù),網(wǎng)絡(luò)中隱藏節(jié)點的數(shù)量將因此顯著增加,最終導致計算復(fù)雜性的指數(shù)級地增長。本文簡要論述了大數(shù)據(jù)中機器學習的難點,關(guān)鍵機制,和未來的大致發(fā)展。
關(guān)鍵詞:大數(shù)據(jù);機器學習;可持續(xù)發(fā)展;效能
中圖分類號:TP181 文獻標識碼:A 文章編號:1004-7344(2018)33-0027-02
1 背景介紹
時至今日,計算機科學已經(jīng)對人類科學和發(fā)展有了深遠的影響。隨著新技術(shù)和伴隨而來的新型設(shè)備,預(yù)計將創(chuàng)建與人類整個歷史中創(chuàng)建的數(shù)據(jù)一樣多的數(shù)據(jù)[1]。鑒于未來幾年至十幾年將產(chǎn)生,和存儲的數(shù)據(jù)量前所未有,現(xiàn)階段的大多數(shù)的技術(shù)行業(yè)面臨的一大挑戰(zhàn)是如何從中受益,從而促進產(chǎn)業(yè)的持續(xù)發(fā)展。在過去十幾年中,作為一種人工智能技術(shù),機器學習已廣泛應(yīng)用于氣候?qū)W,地理信息學,醫(yī)學,金融和經(jīng)濟等眾多大型復(fù)雜數(shù)據(jù)密集領(lǐng)域[2~4]。然而,當前基于智能機器學習的系統(tǒng)本身并不具有足夠的效率或可擴展性來處理大量數(shù)據(jù)。比如,多年來,已知大多數(shù)非參數(shù)和無模型方法需要高計算成本來找到整體最優(yōu)解。對于高維的數(shù)據(jù),它們良好的數(shù)據(jù)擬合能力不僅使他們更容易受到泛化問題的影響,而且導致計算復(fù)雜性呈指數(shù)級別上升。因此,設(shè)計更精確的機器學習系統(tǒng)以滿足市場需求將導致由于增加的計算成本而導致更高的能量浪費的可能性。
如今,更需要設(shè)計和開發(fā)有效的機器學習模型,以應(yīng)對符合類似能源相關(guān)計劃的未來需求。這種以能效為導向的數(shù)據(jù)建模對于許多數(shù)據(jù)缺乏的領(lǐng)域非常重要,因為它們會影響許多相關(guān)行業(yè)。開發(fā)與設(shè)計人員應(yīng)關(guān)注最高性能和最低能耗,以擺脫傳統(tǒng)的“性能與能源使用”之間的權(quán)衡,并增加可用于節(jié)能建模的選項的數(shù)量和多樣性。然而,盡管我們需要為大型和復(fù)雜的數(shù)據(jù)密集型領(lǐng)域提供這種高效且可持續(xù)的數(shù)據(jù)建模方法,但據(jù)現(xiàn)有知識,該領(lǐng)域僅提出了少數(shù)這些文獻[5~6]。
本文對現(xiàn)有的一些可持續(xù)和節(jié)能機器學習文獻進行回顧,包括與各種需求和建議有關(guān)的理論,實證和實驗研究。此文的目標是為計算機科學和其他領(lǐng)域的工程師,科學家和研究人員引入新的視角,并為未來的研究工作提供路線圖。
2 來自大數(shù)據(jù)的挑戰(zhàn)
計算機科學領(lǐng)域通常是數(shù)據(jù)密集型的,其最終結(jié)果的質(zhì)量往往隨著可用數(shù)據(jù)的數(shù)量和質(zhì)量而提高。然而,當前的智能機器學習系統(tǒng)在達到足夠的效率之前還有漫長的道路要走,在許多情況下,這些數(shù)據(jù)中有越來越多的部分未被探索或者未充分利用。當現(xiàn)有方法無法捕獲此類數(shù)據(jù)時,對我們的最終結(jié)果常常造成本質(zhì)的影響。當過去的概念無法跟上變化時,傳統(tǒng)和過去的經(jīng)驗就不足以成為下一步做什么的指導。有效地理解和使用這些新的原始數(shù)據(jù)和信息對當今的工程師和研究人員構(gòu)成了巨大的挑戰(zhàn)。為了更好地適應(yīng)新環(huán)境下大數(shù)據(jù)的產(chǎn)生和處理,更加優(yōu)化的算法,更加全面的考慮是必要的。
例如,最近的一些文獻可以說明文獻中科學數(shù)據(jù)生成的巨大增長。據(jù)估計,在地理信息和氣候研究領(lǐng)域,目前有數(shù)千個無線傳感器,每天每個傳感器產(chǎn)生大約1GB字節(jié)的數(shù)據(jù)[7]。這種傳感器在以前從未有過的空間和時間維度上測量和記錄關(guān)于自然環(huán)境的信息。這些環(huán)境信息由傳感器通過其傳感設(shè)備收集,傳感設(shè)備連接到具有數(shù)字無線電通信的小型低功率計算機系統(tǒng)。傳感器節(jié)點將其自身組織成網(wǎng)絡(luò)以傳送,并且可能將收集的數(shù)據(jù)處理到基站,在基站中,傳感器節(jié)點可以通過網(wǎng)絡(luò)提供給用戶。這些傳感器每年產(chǎn)生的數(shù)據(jù),需要實時決定要分析的數(shù)據(jù)量,傳輸量以進行進一步分析[8]。
再例如在這些傳感器中,針對于大數(shù)據(jù)的算法是極其重要的。許多傳感器采用復(fù)雜算法將原始信號轉(zhuǎn)換為有意義的數(shù)據(jù)。當大規(guī)模收集數(shù)據(jù)時,人們不再手動檢測和診斷傳感器故障。需要自動數(shù)據(jù)清理方法,可以實時檢測和糾正傳感器故障。預(yù)測模型和因果模型都是生態(tài)科學和生態(tài)系統(tǒng)管理所必需的。生態(tài)模型的一個具有挑戰(zhàn)性的方面是需要同時考慮許多不同類型的大數(shù)據(jù),這些數(shù)據(jù)在許多不同的空間和時間尺度上都是如此。
3 數(shù)據(jù)建模和有效機器學習的關(guān)鍵機制
考慮到大量數(shù)據(jù)涌入,絕對有必要改進傳統(tǒng)計算/分析數(shù)據(jù)模型的設(shè)計和開發(fā)方式??沙掷m(xù)數(shù)據(jù)建??梢远x為一種數(shù)據(jù)建模技術(shù),旨在通過以有效和高效的方式發(fā)現(xiàn)模式和相關(guān)性來理解其自身領(lǐng)域中的大量數(shù)據(jù)??沙掷m(xù)數(shù)據(jù)建模專注于以最小的計算成本實現(xiàn)最大的學習準確性,以及大量數(shù)據(jù)的快速有效處理??沙掷m(xù)數(shù)據(jù)建模似乎是理想的,因為它很容易有效地處理大量數(shù)據(jù),并且在許多情況下觀察到相關(guān)的成本降低。從更廣泛的角度來看,它需要在電子科學領(lǐng)域進行數(shù)據(jù)建模革命。事實上,這些新設(shè)計的可持續(xù)數(shù)據(jù)模型將有效地應(yīng)對上述數(shù)據(jù)問題,從而為各種電子科學領(lǐng)域帶來益處。[9~12]因此,在本節(jié)中,我們將討論和提供有關(guān)可持續(xù)數(shù)據(jù)建模的幾個關(guān)鍵機制。
(1)大數(shù)據(jù)計算系統(tǒng)的需求根據(jù)儲存系統(tǒng)的不同和如何分析數(shù)據(jù)的時間約束的不同,可以大致分為兩大類[13]。第一類是批量處理大量硬盤數(shù)據(jù)需要擺脫時間限制。第二類是需要實時內(nèi)存數(shù)據(jù)的處理或者在很短的時間進行內(nèi)存數(shù)據(jù)處理[14~15]。下一代計算大數(shù)據(jù)分析系統(tǒng)需要兩者的創(chuàng)新設(shè)計可以提供良好匹配的硬件和軟件大數(shù)據(jù)算法和底層計算和存儲資源。從這兩類來看,近年來的GPU計算和分布式計算很好地迎合了這兩類基本的需求。從而為大數(shù)據(jù)的建模和計算提供強有力的支持和支撐。
(2)淺層機器學習模型例如矢量機已經(jīng)大量被用于解決簡單或者強約束的問題。但是這些淺層機器學習模型有限的建模和表征能力并不能保證在復(fù)雜模型中的良好表現(xiàn),比如在處理自然語言的時候。2006年,深度學習模型在人工智能領(lǐng)域出現(xiàn)。其基本特點是利用多層信息處理模型來識別數(shù)據(jù)中存在的模式問題。深度學習的主要優(yōu)點是提高了芯片處理能力和降低了計算硬件成本。并且由于新的云計算的出現(xiàn),深度學習必將在大數(shù)據(jù)的建模和處理問題上為工程師和研究人員帶來更多的便利。
(3)可持續(xù)數(shù)據(jù)建模的關(guān)鍵成功要素之一是保持或改善其性能,同時顯著降低其計算成本。最近的數(shù)據(jù)建模研究表明,集成的方法已經(jīng)獲得了很大的普及,因為它們通常比單個模型表現(xiàn)更好[16~17]。集成的方法使用多個模型來獲得比從任何模型獲得的更好的性能[17~18]。但是,它可能導致計算成本的顯著增加。如果模型處理大規(guī)模數(shù)據(jù),模型復(fù)雜性和計算要求將呈指數(shù)地增長。這一項機制在整個大數(shù)據(jù)和機器學習的發(fā)展中至關(guān)重要。①大數(shù)據(jù)本身復(fù)雜性和容量的增長必然導致更大的計算成本和模型復(fù)雜度。②計算成本和復(fù)雜度的增長反過來刺激新技術(shù)和新設(shè)備的出現(xiàn)。從而形成良性循環(huán)。
4 結(jié) 論
在本文中,我們概述了可持續(xù)數(shù)據(jù)建模的當前研究狀況。特別是,我們討論了大數(shù)據(jù)密集型領(lǐng)域的方面,包括:①模型能效,包含機器學習中的計算要求,可能的方法;以及;②數(shù)據(jù)密集型區(qū)域的結(jié)構(gòu)和設(shè)計,包括數(shù)據(jù)模型和特征之間的關(guān)系。隨著電子科學數(shù)據(jù)的激增,可持續(xù)數(shù)據(jù)建模已經(jīng)被證明可以提供前進的方法,因為它易于處理大量數(shù)據(jù)。我們還可以設(shè)想,這種數(shù)據(jù)建模革命可以很容易地擴展到電子科學的各個領(lǐng)域。這些新設(shè)計的可持續(xù)數(shù)據(jù)模型不僅能夠應(yīng)對新興的大規(guī)模數(shù)據(jù)模式,而且還能夠最大限度地提高各種電子科學領(lǐng)域的回報。
參考文獻
[1]Koomey J G. Estimating total power consumption by servers in the US and the world[J]. 2007.
[2]蘇金樹,張博鋒,徐 昕.基于機器學習的文本分類技術(shù)研究進展[D]. 2006.
[3]楊善林,倪志偉.機器學習與智能決策支持系統(tǒng)[J].北京:科學版社, 2004.
[4]何 清,李 寧,羅文娟,等.大數(shù)據(jù)下的機器學習算法綜述[J].模式識別與人工智能,2014,27(4):327~336.
[5]Yoo P D,Ng J W P, Zomaya A Y. An energy-efficient kernel framework for large-scale data modeling and classification[C].Parallel and Distributed Processing Workshops and Phd Forum (IPDPSW),2011 IEEE International Symposium on. IEEE,2011: 404~408.
[6]Cheng H, Tan P N, Jin R. Efficient algorithm for localized support vector machine[J].IEEE Transactions on Knowledge and Data Engineering, 2010,22(4):537~549.
[7]Perera C, Zaslavsky A, Christen P, et al. Sensing as a service model for smart cities supported by internet of things[J].Transactions on Emerging Telecommunications Technologies, 2014, 25(1): 81~93.
[8]譚東寧,譚東漢.小樣本機器學習理論:統(tǒng)計學習理論[J].南京理工大學學報:自然科學版,2001,25(1):108~112.
[9]Marwah M, Shah A, Bash C, et al. Using data mining to help design sustainable products[J].Computer, 2011, 44(8): 103~106.
[10]Sundaravaradan N,Patnaik D,Ramakrishnan N,et al.Discovering Life Cycle Assessment Trees from Impact Factor Databases[C].AAAI, 2011.
[11]Sundaravaradan N,Marwah M,Shah A,et al.Data mining approaches for life cycle assessment[C].Sustainable Systems and Technology (ISSST),2011 IEEE International Symposium on. IEEE,2011: 1~6.
[12]Patnaik D,Marwah M,Sharma R K,et al.Data mining for modeling chiller systems in data centers[C].International Symposium on Intelligent Data Analysis.Springer,Berlin, Heidelberg,2010:125~136.
[13]Baldominos Gómez A,Albacete García E,Saez Achaerandio Y,et al.A scalable machine learning online service for big data real-time analysis[J]. 2014.
[14]Huang H H,Liu H.Big data machine learning and graph analytics:Current state and future challenges[C].Big Data (Big Data),2014 IEEE International Conference on.IEEE,2014:16~17.
[15]Bifet A,Morales G D F.Big data stream learning with Samoa[C].2014 IEEE International Conference on Data Mining Workshop (ICDMW). IEEE,2014:1199~1202.
[16]Yang P,Hwa Yang Y,B Zhou B,et al.A review of ensemble methods in bioinformatics[J].Current Bioinformatics,2010,5(4):296~308.
[17]Opitz D,Maclin R. Popular ensemble methods:An empirical study[J]. Journal of artificial intelligence research,1999,11:169~198.
[18]Polikar R.Ensemble based systems in decision making[J]. IEEE Circuits and systems magazine,2006,6(3):21~45.
收稿日期:2018-10-17