朱小棟, 高春昌, 王恒山
(上海理工大學管理學院,上海 200093)
引入資源即服務(wù)的云計算架構(gòu)及其應(yīng)用
朱小棟, 高春昌, 王恒山
(上海理工大學管理學院,上海 200093)
提出引入資源的四層云計算構(gòu)架,闡述資源在云環(huán)境中的必要性.同時從資源的角度,給出云和云計算的概念.設(shè)計云計算環(huán)境下的數(shù)據(jù)采集模型,并從數(shù)據(jù)資源的角度,設(shè)計應(yīng)用廣義搜索樹的面向云計算的數(shù)據(jù)預處理機制.與已有的云計算構(gòu)架對比,該構(gòu)架更能體現(xiàn)出云計算技術(shù)的特性,為云計算提供了一個思考方向.
云;云計算;數(shù)據(jù)采集;數(shù)據(jù)預處理;架構(gòu);資源
云計算將計算任務(wù)分布在大量計算機構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計算力、存儲空間和各種軟件服務(wù)[1].人們在生活中逐漸感受到云計算的魅力.云計算技術(shù)自2006年提出以來,Google、Amazon、Yahoo等互聯(lián)網(wǎng)服務(wù)商,IBM、Microsoft等IT廠商都紛紛提出了自己的云計算戰(zhàn)略,各電信運營商也對云計算投入了極大的關(guān)注,云計算平臺極低的成本、良好的擴充性已成為學術(shù)研究和IT產(chǎn)業(yè)的關(guān)注熱點.Google宣稱由于使用了云計算技術(shù),其計算成本僅為競爭對手的1/100,存儲成本僅為競爭對手的1/30[2].當今,數(shù)據(jù)采集已經(jīng)在互聯(lián)網(wǎng)及分布式領(lǐng)域得到廣泛使用.由于云環(huán)境下數(shù)據(jù)的海量、實時、分布式的特點為數(shù)據(jù)采集帶來了極大的挑戰(zhàn),數(shù)據(jù)采集領(lǐng)域已經(jīng)發(fā)生了重要的變化.因此,及時準確地采集到所需的數(shù)據(jù)尤為必要.在云平臺的應(yīng)用中,對海量數(shù)據(jù)的處理需求,給計算設(shè)備的性能帶來了嚴峻的考驗,同時也為數(shù)據(jù)處理帶來了新的問題,因此數(shù)據(jù)的預處理工作已成必然.云平臺下的數(shù)據(jù)往往由于其數(shù)據(jù)的海量性、實時性等因素,不能夠很好地被采集,引入RaaS的云平臺構(gòu)架將云計算的內(nèi)容直指其核心——數(shù)據(jù)資源,為云平臺下的數(shù)據(jù)采集等工作起到了很大的幫助.
針對現(xiàn)有的云計算構(gòu)架中的不足,提出了引入RaaS的云計算構(gòu)架,從資源的角度詮釋云和云計算的概念,從數(shù)據(jù)資源的角度對云計算下的數(shù)據(jù)采集和預處理問題進行描述和設(shè)計.
1.1 相關(guān)研究
伴隨著云計算及其技術(shù)的廣泛應(yīng)用,對于什么是云計算及其應(yīng)用有著激烈的討論,尹紅風在文獻[3]中回顧了錢學森先生晚年的開放復雜巨系統(tǒng)和思維科學,并分析這些理論對計算機科學的新發(fā)展、云計算技術(shù)的發(fā)展所做出的理論貢獻.Armbrust等[4]對什么是云計算、和以前的模型如SaaS(software as a service)有什么不同、為什么現(xiàn)在是云計算發(fā)展的最佳時機、云計算將創(chuàng)造什么樣新的機遇、有哪些挑戰(zhàn)以及如何應(yīng)對等一系列問題進行了詳細的解答.Yau等[5]從軟件工程的角度對云計算的應(yīng)用系統(tǒng)開發(fā)所遇到的挑戰(zhàn)問題進行了理論分析.張興旺等[6]創(chuàng)建了基于云計算的大規(guī)模數(shù)據(jù)處理框架模型,說明了云計算在大規(guī)模數(shù)據(jù)處理中的可行性.劉真等[7]提出并實現(xiàn)了基于云計算的鐵路數(shù)據(jù)模型,通過大規(guī)模鐵路貨票數(shù)據(jù)處理實例,驗證了其可擴展性和高效性.
云計算描述了一種基于互聯(lián)網(wǎng)的新的IT服務(wù)增加、使用和交付模式,常涉及通過互聯(lián)網(wǎng)來提供動態(tài)、易擴展而且經(jīng)常是虛擬化的資源.中國云計算中心認為云計算是一種基于因特網(wǎng)的超級計算模式.現(xiàn)有的云計算大多是將云計算架構(gòu)簡單地根據(jù)其應(yīng)用平臺、設(shè)施或軟件將其分為幾個層次,不能夠體現(xiàn)云計算的核心問題.本文通過云計算對數(shù)據(jù)的使用,指明云計算的核心問題就是對資源的應(yīng)用,明確地提出了引入RaaS(resource as a service)的云計算架構(gòu),并對數(shù)據(jù)的采集和預處理進行了描述.
1.2 基于資源的云計算概念
定義1 云是基于互聯(lián)網(wǎng)的復雜網(wǎng)絡(luò)系統(tǒng).
云平臺不僅僅是一個平臺、系統(tǒng)或者設(shè)備,它將PC以及其它設(shè)備的大量信息和處理設(shè)備集中在一起協(xié)同工作,使用平臺中空閑的處理和存儲設(shè)備最大限度地使用平臺內(nèi)的設(shè)備,對信息進行并行計算,從而實現(xiàn)高效的數(shù)據(jù)處理.
云涉及多個系統(tǒng),如軟件提供系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)等,從而形成一個涉及多個系統(tǒng)的復雜網(wǎng)絡(luò).
定義2 云計算是利用系統(tǒng)資源池內(nèi)的閑置資源,根據(jù)系統(tǒng)需求進行計算的集中計算模式.
云計算技術(shù)實現(xiàn)了不同資源的快速組建進而形成新的解決方案,可以實現(xiàn)異地資源本地化.云計算通過用戶終端付費或免費的方式實現(xiàn)使用本身不具有的事物,也無需耗費精力對其進行維護,而且還可以根據(jù)用戶的需要而增減服務(wù).云計算能夠確通過平臺將資源進行整合,從而形成新的問題解決方案,為用戶節(jié)省成本.云計算通過并行計算實現(xiàn)了數(shù)據(jù)的快速處理,形成多種備選的方案,具有良好的可擴展性,通過免費或購買的方式實現(xiàn)這些服務(wù)產(chǎn)品的使用,具有快速的實施速度,并且在這一系列活動過程當中沒有產(chǎn)生任何的環(huán)境負擔,是綠色無污染的產(chǎn)業(yè)活動.
1.3 引入RaaS的云計算架構(gòu)
傳統(tǒng)的云計算服務(wù)模式包括3層:軟件即服務(wù)SaaS,平臺即服務(wù)PaaS(platform as a service),基礎(chǔ)設(shè)施即服務(wù)IaaS(infrastructure as a service).本研究在此基礎(chǔ)上提出新型的服務(wù)模式資源即服務(wù)RaaS,提出了引入RaaS的云計算架構(gòu),如圖1所示.
物質(zhì)、能源、信息被稱為21世紀的三大支柱,信息發(fā)揮越來越重要的作用.因此,本文將信息資源作為云計算構(gòu)架的一個層次,清晰地體現(xiàn)資源在云平臺中的重要作用.RaaS這一構(gòu)架層次的引入,將資源作為云服務(wù)的內(nèi)容.
這一構(gòu)架層次實現(xiàn)以數(shù)據(jù)作為云計算的服務(wù)內(nèi)容,利用云平臺進行數(shù)據(jù)采集和數(shù)據(jù)處理,明確數(shù)據(jù)的搜索范圍,提高了效率.另一方面,節(jié)約不必要的數(shù)據(jù)處理設(shè)備,節(jié)省了成本,達到實現(xiàn)云計算的目的.
圖1 引入RaaS云計算架構(gòu)Fig.1 Cloud computing architecture with RaaS
數(shù)據(jù)是云計算的對象,從RaaS的角度,進一步研究基于該架構(gòu)的數(shù)據(jù)采集模型和數(shù)據(jù)預處理模型.
在云平臺中數(shù)據(jù)往往具有很強的動態(tài)性,動態(tài)數(shù)據(jù)的特征為數(shù)據(jù)采集工作帶來了極大的挑戰(zhàn),高質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù)采集結(jié)果,對于云計算中的數(shù)據(jù)應(yīng)用具有重要意義.
目前,網(wǎng)絡(luò)數(shù)據(jù)采集大致包括利用網(wǎng)絡(luò)爬行器WebCrawler、網(wǎng)絡(luò)抓包軟件wireshark、商業(yè)搜索引擎、Web日志文件抓取,以及其它一些網(wǎng)絡(luò)信息的數(shù)據(jù)采集方法等.Bharat[8]在1998年設(shè)計的所謂“連接服務(wù)器”,是以AltaVista一個擁有1億URL地址的大型爬行器作為基礎(chǔ).2000年,Broder等[9]進一步提出“連接服務(wù)器”的改進版,可以提供新近收集的數(shù)據(jù),并利用圖形描述Web的結(jié)構(gòu)關(guān)系.數(shù)據(jù)的采集結(jié)果直接關(guān)系到所要驗證結(jié)果的準確性,這一環(huán)節(jié)至關(guān)重要.
云計算可以實現(xiàn)數(shù)據(jù)的規(guī)則更改,對不符合采集規(guī)則的任務(wù)進行二次設(shè)定,從而得出規(guī)范的數(shù)據(jù),為下一步的數(shù)據(jù)預處理工作帶來極大的方便.云環(huán)境下數(shù)據(jù)采集模型如圖2所示.數(shù)據(jù)采集的各個階段劃分很重要,能夠幫助用戶獲得合適的數(shù)據(jù).
a.確定采集對象 從研究問題的角度出發(fā),選擇正確的數(shù)據(jù)采集方向.
b.設(shè)定采集規(guī)則 由于數(shù)據(jù)的海量性,往往一批數(shù)據(jù)中包含眾多的冗余信息,選取需要的數(shù)據(jù)進行采集,舍棄冗余度不必要的數(shù)據(jù).同時檢查采集規(guī)則是否合適,如不合適,則重新設(shè)定采集規(guī)則.之后進行數(shù)據(jù)采集.
c.導出數(shù)據(jù) 當數(shù)據(jù)采集結(jié)束后導出數(shù)據(jù),并以所需的格式對數(shù)據(jù)進行存儲.
圖2 云環(huán)境下數(shù)據(jù)采集模型Fig.2 Data gathering model in cloud environment
數(shù)據(jù)采集所得到的大多數(shù)原始數(shù)據(jù)都是臟數(shù)據(jù),嚴重影響了數(shù)據(jù)分析的準確性.伴隨著云計算的興起,對數(shù)據(jù)處理的速度和精確程度有了更高的要求.因此,對數(shù)據(jù)進行預處理使其規(guī)范化和可操作化,對數(shù)據(jù)的后期挖掘與分析極為有利.網(wǎng)絡(luò)數(shù)據(jù)與日俱增,使得傳統(tǒng)的數(shù)據(jù)預處理方式在云計算環(huán)境下已經(jīng)不再適用.如何對網(wǎng)絡(luò)數(shù)據(jù)進行及時、高效預處理引起了越來越多學者的關(guān)注.
Dean等[10]介紹了一個大型集群上簡化數(shù)據(jù)處理的MapReduce方法,其具有很強的容錯能力,不會因為部分數(shù)據(jù)問題而影響數(shù)據(jù)處理能力.Elteir等[11]研究了通過異步數(shù)據(jù)處理增強MapReduce的方法.
云計算是利用資源池中的處理設(shè)備對數(shù)據(jù)進行集中處理,因此,要找到平臺當中空閑適合的處理設(shè)備.采用廣度優(yōu)先樹的方法能較好地搜尋平臺當中的空閑設(shè)備.
圖3(見下頁)給出了云計算下數(shù)據(jù)預處理模型示意圖,從數(shù)據(jù)采集設(shè)備得到數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗與變換,云計算采用的是MapReduce進行數(shù)據(jù)處理,在Map環(huán)節(jié)中同時將空值點、噪聲點和不一致點清除,并對需要變換屬性的數(shù)據(jù)進行屬性的變換.在Reduce環(huán)節(jié)當中去除冗余和數(shù)據(jù)集成,從而得出精簡的數(shù)據(jù),如圖3所示.
圖3 云計算下數(shù)據(jù)預處理模型Fig.3 Data preprocessing model in cloud environment
微博作為一個復雜網(wǎng)絡(luò)的典型實例,也是一個云,個人PC終端和云平臺的交互形成了一個復雜網(wǎng)絡(luò),從而證實云是基于互聯(lián)網(wǎng)的復雜網(wǎng)絡(luò).微博從無到有僅僅用了幾年的時間,如今中國四大門戶都已開通微博.根據(jù)騰訊新聞,2011年上半年中國微博用戶數(shù)量從6 311萬增長到1.95億,半年增幅達208.9%,手機微博的應(yīng)用也成為亮點,手機網(wǎng)民使用微博比例也從2010年末的15.5%上升至34%.現(xiàn)有的研究都集中在微博信息的輿論以及信息情報機制等方面.微博作為云平臺下流式數(shù)據(jù)的一個代表,對社會輿論導向具有很大的影響.樣本數(shù)據(jù)3 360條,研究其數(shù)據(jù)演變情況,對于流式數(shù)據(jù)處理和引導社會輿論都具有重要意義.本文同樣也采用微博數(shù)據(jù)作為研究對象.
以Twitter網(wǎng)一周內(nèi)的熱點話題為例,樣本數(shù)據(jù)3 360條,在這類微博信息中,要求的數(shù)據(jù)是熱點話題,因此在數(shù)據(jù)采集時只要側(cè)重這幾個方面的采集規(guī)則即可.采集中的規(guī)則包括時間、標題、查詢關(guān)鍵字(關(guān)鍵字)、事件等多個方面.鑒于在數(shù)據(jù)分析中(假設(shè))不會用到所有的數(shù)據(jù)屬性值,在預處理中對數(shù)據(jù)進行清洗、變換、去冗等處理,包括將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)值型數(shù)據(jù),合并同類項最終得到簡單明確的1 176條數(shù)據(jù).
針對Twitter網(wǎng)站中一周內(nèi)的熱點話題數(shù)據(jù)的采集和預處理之后,能夠快速得出圖4所示的曲線.
由圖4可見,對于一般性的話題其持續(xù)時間t在20 h以下,顯示了網(wǎng)絡(luò)微博數(shù)據(jù)的短壽命,而對于凸顯節(jié)日性的話題則持續(xù)時間比較長,且這類的數(shù)據(jù)也是輿情監(jiān)督的重點,對于非常規(guī)的熱點話題進行監(jiān)督并對可能出現(xiàn)的突發(fā)事件進行調(diào)控.
圖4 熱點話題持續(xù)時間Fig.4 Duration of hot topics
云計算廣泛應(yīng)用于IT產(chǎn)業(yè)、電子商務(wù)、軍事、物流等多個領(lǐng)域或者是多個領(lǐng)域相結(jié)合的復雜網(wǎng)絡(luò)當中.如何提高云計算的服務(wù)效率,并為終端用戶提供準確的信息服務(wù)等已經(jīng)成為學術(shù)研究和各個云服務(wù)商產(chǎn)業(yè)的新焦點,本文對當前的云計算架構(gòu)中的不足提出了引入RaaS的云計算架構(gòu),反映了云計算的信息資源服務(wù)層次,并對云環(huán)境中的數(shù)據(jù)采集和預處理進行了研究.云計算中的用戶隱私和數(shù)據(jù)安全性等方面的研究,將是筆者下一步工作的重點.
[1] 劉鵬.云計算[M].北京:電子工業(yè)出版社,2010.
[2] 孫健,賈曉菁.Google云計算平臺的技術(shù)架構(gòu)及對其成本的影響研究[J].電信科學,2010(1):38-44.
[3] 尹紅風,戴汝為.思維與智慧科學及工程[J].上海理工大學學報,2011,33(1),18-23.
[4] Armbrust M,F(xiàn)ox A,Griffith R,et al.Above the clouds:a Berkeley view of cloud computing[R].Tech Rep UCB/EECS-2009-28.Berkeley:University of California,2009:1-23.
[5] Yau S,An H.Software engineering meets services and cloud computing[J].Computer Society,2011,44(10):47-53.
[6] 張興旺,李晨暉,秦曉珠.云計算環(huán)境下大規(guī)模數(shù)據(jù)處理的研究與初步實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2011,204(4):17-23.
[7] 劉真,劉峰,張寶鵬,等.云計算模型在鐵路大規(guī)模數(shù)據(jù)處理中的應(yīng)用[J].北京交通大學學報,2010,10,34(5):14-19.
[8] Bharat K,Broder A,Henzinger M,et al.The connectivity server:fast access to linkage information on the Web[J].Computer Networks and ISDN System,1998,30(1):469-477.
[9] Broder A,Kumar R,Moghoul F.Graph structure in the web[J].Computer Networks and ISDN System,2000,33(1):309-320.
[10] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM-50th anniversary issue:1958-2008,2008,51(1):107-113.
[11] Elteir M,Lin H,F(xiàn)eng W.Enhancing MapReduce via asynchronous data processing[C]∥IEEE 16th International Conference on Parallel and Distributed Systems,New York:IEEE Press,2010,397-405.
(編輯:金 虹)
Cloud Computing Architecture with Resource and Its Application
ZHUXiao-dong, GAOChun-chang, WANGHeng-shan
(Business School,University of Shanghai for Science and Technology,Shanghai 200093,China)
A cloud computing architecture with four levels was presented.The notion of resource as a service RAAS was proposed and interpreted.Compared with existing cloud computing architectures,it reflects the core characteristics of cloud computing technology more exactly.The definitions of cloud and cloud computing were given from the standing point of data resource.The data acquisition model was designed.The way of selecting the processing equipment in cloud environment in term of data resource was described,which provides a new direction for the application of cloud computing.
cloud;cloud computing;data acquisition;data preprocessing;architecture;resource
TP 315;TP 274
A
1007-6735(2013)03-0289-05
2012-09-14
上海市教委科研創(chuàng)新基金資助項目(12YZ103);教育部高等學校博士點基金資助項目(20123120120004);教育部人文社會科學青年基金資助項目(12YJC870037);國家自然科學基金資助項目(71071098);上海理工大學人文社會學攀登計劃基金資助項目(5812114277)
朱小棟(1981-),男,講師.研究方向:云計算、軟件工程、電子商務(wù)、知識發(fā)現(xiàn).E-mail:zhuxd@usst.edu.cn