主題論壇:大數(shù)據(jù)系統(tǒng)
5月25日下午,“大數(shù)據(jù)系統(tǒng)”主題論壇在貴陽金陽萬麗酒店3F貴陽大廳2舉行,論壇主席為中國計算機學(xué)會大數(shù)據(jù)專家委員會秘書長、中國科學(xué)院計算技術(shù)研究所副總工兼所長助理程學(xué)旗研究員,主持人為中國科學(xué)院計算技術(shù)研究所靳小龍副研究員。會場座無虛席,現(xiàn)場觀眾反響熱烈。程學(xué)旗研究員表示,“大數(shù)據(jù)系統(tǒng)”論壇主要從兩方面來進行討論交流:一方面是如何使用大數(shù)據(jù)關(guān)鍵詞,另一方面是如何把數(shù)據(jù)存儲好,管理好,使用好。
“大數(shù)據(jù)系統(tǒng)”主題論壇會場
程學(xué)旗研究員在會上做了“大數(shù)據(jù)引擎與分析系統(tǒng)”的精彩報告。程學(xué)旗研究員認為,大數(shù)據(jù)已從概念理解階段到了價值挖掘階段,需要大數(shù)據(jù)引擎來推動其發(fā)展。大數(shù)據(jù)引擎是數(shù)據(jù)從自然的分布存在到價值業(yè)務(wù)空間的心臟,分很多方面,包括數(shù)據(jù)的存儲管理、數(shù)據(jù)的分布式計算以及對數(shù)據(jù)價值的挖掘等。
程學(xué)旗研究員表示,大數(shù)據(jù)的商業(yè)價值是企業(yè)的核心價值,對它的認識要從大數(shù)據(jù)分析流水線來看,不能孤立在某個點上。挖掘數(shù)據(jù)的價值,體量、精準度、時效性都是關(guān)鍵因素,未來大數(shù)據(jù)要與“快數(shù)據(jù)”結(jié)合起來,因為數(shù)據(jù)的商業(yè)價值會隨數(shù)據(jù)分析時間增長而降低。在時效性上,流式數(shù)據(jù)處理具有優(yōu)勢,應(yīng)以其為核心追求數(shù)據(jù)商業(yè)價值的最大化。同時,他表示,大數(shù)據(jù)的深度分析、分布式計算框架、異質(zhì)數(shù)據(jù)的管理將是大數(shù)據(jù)生態(tài)追求的3個方向。
程學(xué)旗研究員接受采訪
清華大學(xué)計算機科學(xué)與技術(shù)系教授陳文光在論壇上作了題為“大數(shù)據(jù)分析平臺——從擴展性到性能”的精彩演講。陳文光教授說,設(shè)計大數(shù)據(jù)分析系統(tǒng)最關(guān)注的兩個因素是性能和擴展性,而現(xiàn)有系統(tǒng)中,這兩個因素是一對矛盾體,提高性能的時候必然減少容錯性。這是錯誤的。可以使用更少的節(jié)點和更短的運行時間來完成同樣的大數(shù)據(jù)分析任務(wù),未完成容錯需求甚至可以采用開銷更大的容錯技術(shù),但即使這樣,用于容錯的時間仍然要比現(xiàn)有系統(tǒng)小很多。我們應(yīng)該追求比較好的性能和一定能力的容錯,以性能優(yōu)先來設(shè)計大數(shù)據(jù)系統(tǒng),盡量使用較少的節(jié)點,可以通過有序訪問節(jié)點進行控制、盡量減少寫入硬盤、設(shè)計結(jié)構(gòu)優(yōu)化等多種方式來實現(xiàn),這是未來大數(shù)據(jù)所需要的。陳文光教授表示他們在做的系統(tǒng)就是基于這些思想,并已經(jīng)初步通過測試進行了驗證。
中國移動蘇州研發(fā)中心總經(jīng)理助理兼CTO錢嶺在“大數(shù)據(jù)系統(tǒng)”主題論壇結(jié)合中國移動所做的對大數(shù)據(jù)系統(tǒng)整合的實踐,作了精彩演講。
錢嶺表示,運營商是數(shù)據(jù)資源優(yōu)勢擁有者之一,擁有“數(shù)據(jù)金礦”的運營商如何挖掘數(shù)據(jù)價值是其面臨挑戰(zhàn)。運營商希望建立一個企業(yè)級的大數(shù)據(jù)平臺來滿足通用的、定期的以及遠期的需求。這樣的企業(yè)大數(shù)據(jù)平臺的功能要把資源、服務(wù)、數(shù)據(jù)、應(yīng)用和用戶統(tǒng)一關(guān)聯(lián)起來,并提供統(tǒng)一的應(yīng)用開發(fā)和運行環(huán)境。
現(xiàn)有運營商運營系統(tǒng)存在種類繁多、相互孤立、數(shù)據(jù)分散在各個維度、建設(shè)成本高、管理開銷大、安全風(fēng)險高等問題。要整合這些系統(tǒng)建立大數(shù)據(jù)平臺,首先要統(tǒng)籌考慮管理、業(yè)務(wù)重構(gòu)和平臺技術(shù)實現(xiàn)3方面的要求。其次針對數(shù)據(jù)源分散管理,需要解決4個問題,第一是企業(yè)管理問題,即解決體系架構(gòu)調(diào)整的問題;第二是數(shù)據(jù)質(zhì)量管理問題;第三是數(shù)據(jù)變現(xiàn)的管理問題;第四是數(shù)據(jù)安全的管理問題。再次是實現(xiàn)運營優(yōu)化,通過建立技術(shù)體系,把平臺管理、應(yīng)用開發(fā)、商品解耦結(jié)合起來,明確技術(shù)體系架構(gòu),包括技術(shù)體系的基礎(chǔ)來源,是自主研發(fā)還是采購,是集成還是開源等。
中國科學(xué)院計算技術(shù)研究所研究員陳世敏在“大數(shù)據(jù)系統(tǒng)”主題論壇作了題為“非易失存儲的大數(shù)據(jù)管理系統(tǒng)優(yōu)化”的精彩演講。
陳世敏研究員表示,flash的發(fā)展主要朝兩個方向。一個是增加存儲單位可存儲比特數(shù)。另一個是以三維體表達更高的秘鑰,目前其發(fā)展受到了向下擴展難的制約。新一代NVM技術(shù)因此產(chǎn)生,其中發(fā)展最成熟的具有代表性的技術(shù)是PCM,另一個是STT-RAM(自旋扭矩轉(zhuǎn)換存儲器)。它們的共性是不存儲電荷,而是改變單元的電阻,最終結(jié)果是非易失的,是可字節(jié)尋址的,而且訪問速度接近DRAM。所以在系統(tǒng)中,NVM可能會用于DRAM的替代和擴展。對內(nèi)存出現(xiàn)故障的系統(tǒng)也可以提供非易失的存儲,進行快速的恢復(fù)。當(dāng)NVM系統(tǒng)真正替代DRAM系統(tǒng)時,它將會給存儲系統(tǒng)帶來嶄新的變化,在現(xiàn)實中產(chǎn)生巨大的作用。
陳世敏研究員接受采訪
柏睿數(shù)據(jù)總裁兼CTO劉睿民在“大數(shù)據(jù)系統(tǒng)”主題論壇作了題為“基于流數(shù)據(jù)庫及內(nèi)存分析建立物聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用”的演講。劉睿民認為,流處理成為熱門話題,是因為大數(shù)據(jù)的價值最大化實現(xiàn)基于數(shù)據(jù)的鮮活性,而流處理能夠?qū)崿F(xiàn)實時的數(shù)據(jù)分析處理。SQL數(shù)據(jù)庫具有很多分布式的優(yōu)化策略,在實時分析的流處理下,可以通過SQL來做表達,SQL的擴展性應(yīng)對實時大數(shù)據(jù)的分析是非常有優(yōu)勢的。
通過SQL建立IoT應(yīng)用,無論是不同的傳感器還是建立模型,都可以通過ROW處理持續(xù)不斷地查詢、分析,不過必須要保證時效性,為此甚至需要重新審視忽視的細節(jié)。
劉睿民總裁接受采訪