王眾
“星環(huán)號”能帶著人類逃離太陽系,因?yàn)樗鼘?shí)現(xiàn)了超光速飛行;星環(huán)科技希望建立數(shù)據(jù)時(shí)代的里程碑,則要突破性能極限。
《三體》中,由于太陽系受到未知文明的打擊而降維消失,地球人類僅剩的最后兩人乘 “星環(huán)號” 曲率引擎驅(qū)動飛船離開太陽系,從而保存了地球文明。在2013年的上海,一幫研究大數(shù)據(jù)的專家攜手創(chuàng)辦了一家叫“星環(huán)”的公司,致力于在大數(shù)據(jù)時(shí)代打造一艘高速的航空母艦。這不是巧合,創(chuàng)始人兼CTO孫元浩正是因?yàn)樽x了《三體》,才定下了這個(gè)名字。
星環(huán)科技的核心團(tuán)隊(duì)來自于英特爾的研發(fā)團(tuán)隊(duì),是國內(nèi)最早的大數(shù)據(jù)Apache Hadoop發(fā)行版團(tuán)隊(duì),從2009年起即開始致力于大數(shù)據(jù)平臺軟件的自主創(chuàng)新和開發(fā);彼時(shí),基于Apache Hadoop開源技術(shù)的數(shù)據(jù)管理及分析平臺提供商Cloudera剛成立一年,如今,Cloudera在“福布斯2016全球最佳云計(jì)算公司100強(qiáng)”中排名第五。
國際舞臺新玩家
在“Gartner 2016年數(shù)據(jù)倉庫及數(shù)據(jù)管理解決方案魔力象限”中,星環(huán)科技登上最具遠(yuǎn)見象限,且是唯一上榜的中國廠商。讓星環(huán)科技與與老大哥Cloudera并肩而立的功臣產(chǎn)品Transwarp Data Hub (TDH)是基于Apache Hadoop和Apache Spark的分布式內(nèi)存分析引擎和實(shí)時(shí)在線大規(guī)模計(jì)算分析平臺。目前星環(huán)TDH已經(jīng)在恒豐銀行等多個(gè)領(lǐng)域有替代傳統(tǒng)技術(shù)數(shù)據(jù)倉庫的落地案例。
2015年,星環(huán)科技的TDH4.0版本全面通過了TPC-DS 100T的99項(xiàng)測試。TPC-DS是TPC(事務(wù)處理性能委員會)評測決策支持系統(tǒng)的測試基準(zhǔn)。這個(gè)測試集包含了對大數(shù)據(jù)集的統(tǒng)計(jì)、報(bào)表生成、聯(lián)機(jī)查詢、數(shù)據(jù)挖掘等復(fù)雜應(yīng)用,與真實(shí)場景非常接近,是難度較大的一個(gè)測試集,也是目前業(yè)界公認(rèn)的數(shù)據(jù)倉庫測試準(zhǔn)則。到目前為止,能夠通過100T測試的廠商寥寥無幾。孫元浩介紹,TDH相比開源Hadoop版本有10~1000倍的性能提升,可以處理GB到PB級別的數(shù)據(jù)。
“星環(huán)號”之所以能帶著人類逃離太陽系,是因?yàn)槠鋵?shí)現(xiàn)了超光速飛行;星環(huán)科技希望建立數(shù)據(jù)時(shí)代的里程碑,則要努力突破大數(shù)據(jù)存儲、計(jì)算和管理的性能極限。事實(shí)上,較早啟用大數(shù)據(jù)技術(shù)的金融業(yè),其數(shù)據(jù)量在100TB至1PB級別;數(shù)據(jù)量級龐大的電信業(yè),其數(shù)據(jù)量已經(jīng)達(dá)到了PB級。比起數(shù)據(jù)爆炸的速度,目前的大數(shù)據(jù)處理技術(shù)還在追趕中,即便是百倍的提升,也只是一個(gè)開端。
開辟無人區(qū)
如今舉國都在數(shù)據(jù)化,基于業(yè)務(wù)差異,不同行業(yè)對大數(shù)據(jù)分析的需求各有側(cè)重,孫元浩分析,后Hadoop時(shí)代又回到了解決大數(shù)據(jù)的4個(gè)V上,即數(shù)據(jù)量(Volume)、數(shù)據(jù)類型(Variety)、速度(Velocity)和價(jià)值(Value)。
目前,金融業(yè)重視海量數(shù)據(jù)處理效率,以及利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)為營銷和風(fēng)控等業(yè)務(wù)提供幫助;政府具有PB級數(shù)據(jù),更看重如何用最低成本建設(shè)搜索引擎;相形之下,電力行業(yè)的要求更多樣。電力行業(yè)的數(shù)據(jù)源來源于電力生產(chǎn)和電能使用的各個(gè)環(huán)節(jié),其產(chǎn)業(yè)鏈前端的要求尤為復(fù)雜,華風(fēng)數(shù)據(jù)和星環(huán)科技聯(lián)手為國電電力寧波風(fēng)電開發(fā)有限公司建立的風(fēng)電場大數(shù)據(jù)分析平臺就是一例典型應(yīng)用,也造就了第一家成功將大數(shù)據(jù)應(yīng)用于生產(chǎn)的風(fēng)電場。
首先,風(fēng)電場通常具有地理環(huán)境惡劣、場站分散的特點(diǎn),很難留住人才,因此對自動化、遠(yuǎn)程集控要求較高。其次,目前發(fā)電機(jī)組的數(shù)據(jù)采集和監(jiān)控系統(tǒng)都是由風(fēng)電機(jī)組制造商配套提供的,但是各廠家的系統(tǒng)互不兼容,因此數(shù)據(jù)類型復(fù)雜。
另外,風(fēng)能具有高度的隨機(jī)波動性與間歇性,對電力供需平衡、電力系統(tǒng)安全以及電能質(zhì)量帶來了嚴(yán)峻挑戰(zhàn)。智能風(fēng)機(jī)上配備有大量的傳感器。以每臺風(fēng)機(jī)每秒反饋1200個(gè)傳感器數(shù)據(jù)為例,一個(gè)設(shè)有100臺風(fēng)機(jī)的風(fēng)電場向數(shù)據(jù)中心回傳的數(shù)據(jù)率相當(dāng)于12萬點(diǎn)/秒。傳統(tǒng)的做法是先存儲再處理;當(dāng)發(fā)現(xiàn)問題時(shí),為時(shí)已晚。這就要求風(fēng)電企業(yè)及時(shí)掌握所有風(fēng)機(jī)的實(shí)時(shí)數(shù)據(jù)和狀況,以便及時(shí)調(diào)整檢修。
所以,寧波風(fēng)電需要在寧波市區(qū)建立生產(chǎn)集控中心,能夠遠(yuǎn)程監(jiān)視、控制、調(diào)度所有的風(fēng)電場,實(shí)現(xiàn)實(shí)時(shí)報(bào)警、在線診斷故障、及時(shí)處理故障,降低損失發(fā)電量;以及海量數(shù)據(jù)存儲, 為風(fēng)機(jī)運(yùn)行優(yōu)化、性能提升提供精準(zhǔn)的數(shù)據(jù)支撐;最終實(shí)現(xiàn)無人值班、少人值守。這幾乎涵蓋了4個(gè)V的挑戰(zhàn)。
針對這些需求,華風(fēng)數(shù)據(jù)基于星環(huán)科技的TDH設(shè)計(jì)了集數(shù)據(jù)整合、系統(tǒng)整合、應(yīng)用整合的統(tǒng)一平臺,采用了多通道數(shù)據(jù)傳輸技術(shù),支持多種通訊協(xié)議;星環(huán)的實(shí)時(shí)流處理技術(shù)融合了事件驅(qū)動和低延時(shí)處理,能夠?qū)γ棵?2萬點(diǎn)數(shù)據(jù)進(jìn)行實(shí)時(shí)的處理與分析,當(dāng)傳感器數(shù)據(jù)值超過閾值時(shí)實(shí)時(shí)報(bào)警;數(shù)據(jù)存儲分析集群能存儲海量歷史數(shù)據(jù),并基于風(fēng)機(jī)歷史數(shù)據(jù)做查詢與統(tǒng)計(jì)分析。
同時(shí)TDH支持R語言無縫對接并提供圖形化界面,使得寧波風(fēng)電能通過R語言進(jìn)行數(shù)據(jù)挖掘,并能直接調(diào)用星環(huán)科技TranswarpR的機(jī)器學(xué)習(xí)算法庫,降低了業(yè)務(wù)人員學(xué)習(xí)時(shí)間成本。孫元浩表示,幾年前大家開始關(guān)注機(jī)器學(xué)習(xí)領(lǐng)域,相比傳統(tǒng)利用人工經(jīng)驗(yàn)去設(shè)定并驗(yàn)證模型和規(guī)則,利用機(jī)器學(xué)習(xí)的方法分析大數(shù)據(jù)更準(zhǔn)確。
隨著大數(shù)據(jù)應(yīng)用的發(fā)展,最終各行業(yè)都會將重心放在挖掘數(shù)據(jù)背后的價(jià)值上。目前走在前列的,當(dāng)屬2016年的當(dāng)紅炸子雞金融業(yè)。孫元浩介紹,星環(huán)科技提供的深度學(xué)習(xí)已經(jīng)在金融領(lǐng)域中幫助客戶利用大數(shù)據(jù)做營銷、風(fēng)險(xiǎn)分析、預(yù)測壞帳,等等。
對于大數(shù)據(jù)的未來,孫元浩認(rèn)為有四個(gè)發(fā)展方向:第一,替代數(shù)據(jù)庫方面,主要是用新的引擎來處理大規(guī)模數(shù)據(jù),大量的用戶數(shù)據(jù)仍然是結(jié)構(gòu)化數(shù)據(jù);第二,處理非結(jié)構(gòu)化數(shù)據(jù),這塊主要用到深度學(xué)習(xí)來處理圖像、語音、人機(jī)交互等;第三,實(shí)時(shí)計(jì)算,主要是流計(jì)算——如何將批處理和事件處理兩個(gè)模型融合起來,在非常短的延時(shí)內(nèi)完成復(fù)雜事務(wù)處理;第四,數(shù)據(jù)挖掘和數(shù)據(jù)分析的工具,目的是將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)變得普及化。這也是星環(huán)科技深挖的領(lǐng)域。
孫元浩介紹,大數(shù)據(jù)應(yīng)用產(chǎn)業(yè)鏈大致可分為四層:大數(shù)據(jù)平臺基礎(chǔ)軟件層、工具層、應(yīng)用層和專業(yè)服務(wù)層;星環(huán)科技將專注于前兩層。后兩層的行業(yè)屬性較強(qiáng),他表示,目前大數(shù)據(jù)的行業(yè)應(yīng)用解決方案稀缺,很適合新玩家們作為入口一展身手。