張瑞飛
我們專注于自然語言處理,主要在大型企業(yè)市場落地,在落地過程中我們遇到一些問題,今天借這個機(jī)會把我們的后臺處理能力和我們對大數(shù)據(jù)未來的一些認(rèn)識在這里給大家分享一下。
我們有大量數(shù)據(jù)來自互聯(lián)網(wǎng)和企業(yè)內(nèi)部,怎么把這兩方面的數(shù)據(jù)融合起來,去解決數(shù)據(jù)壁壘問題?我們看到傳統(tǒng)企業(yè)和互聯(lián)網(wǎng)企業(yè)在做的過程中產(chǎn)生了不同的痛點。從互聯(lián)網(wǎng)企業(yè)來講,他們能夠把數(shù)據(jù)遷移到云上,但是缺乏在云和企業(yè)之間的數(shù)據(jù)同步。從傳統(tǒng)企業(yè)來講,我們看到了大數(shù)據(jù)已經(jīng)推動了很多數(shù)據(jù)分析手段的進(jìn)步,包括人工智能和大數(shù)據(jù)的處理手段正在向傳統(tǒng)企業(yè)靠攏,但是他們似乎對數(shù)據(jù)孤島的處理手段準(zhǔn)備不充分,我們需要解決這個問題。
在利用大數(shù)據(jù)提升政府治理能力方面,我國出臺了多項政策,推進(jìn)政府?dāng)?shù)據(jù)匯聚、共享、開放,取得了諸多進(jìn)展。各地紛紛將大數(shù)據(jù)作為提升政府治理能力的重要手段,通過高效采集、有效整合、深化應(yīng)用政府?dāng)?shù)據(jù)和社會數(shù)據(jù),提升政府決策和風(fēng)險防范水平,提高社會治理的精準(zhǔn)性和有效性。在今年的數(shù)字中國建設(shè)中,各地紛紛推動大數(shù)據(jù)交換與共享應(yīng)用工程。
在這個過程當(dāng)中,人才儲備的壓力給我們帶來很多成本上的增長。另外,我們有一些系統(tǒng)開發(fā)出來,在沒有裝實際應(yīng)用的時候,平臺已經(jīng)占用了十幾臺服務(wù)器,給我們的交付帶來很大的難度。這個難度就是傳統(tǒng)大數(shù)據(jù)架構(gòu)導(dǎo)致的缺陷,我們稱它是Lambda架構(gòu)缺陷。
現(xiàn)在我們常說ETL已死,ETL是什么呢?我們早期在做數(shù)據(jù)倉庫的時候,有很多交易型數(shù)據(jù)需要向數(shù)倉里面做加載、傳輸、轉(zhuǎn)換和抽取。當(dāng)時發(fā)展出來的ETL技術(shù)應(yīng)用到今天已經(jīng)落后了,我們需要用一個全局式的、能夠完全支持分布和共享的數(shù)據(jù)處理能力,這個能力是什么呢?是數(shù)據(jù)通道。
我們在數(shù)據(jù)共享的時候,需要一個數(shù)據(jù)高速路,但是傳統(tǒng)大數(shù)據(jù)很少講這些,我們講得比較多的是如何構(gòu)建一個大的分布式集群,把數(shù)據(jù)放在這里,卻沒有真正共享起來。我們需要一條路能夠以TB級的內(nèi)存緩存、處理數(shù)據(jù),我們在探討一種新的數(shù)據(jù)交換、清洗和共享方式。
基于這些,谷歌從2014年開始探討,為世界貢獻(xiàn)了一個容易使用而又強(qiáng)大的全新生態(tài)。Google在2016年2月高調(diào)宣布將其數(shù)據(jù)流水線產(chǎn)品(Google Dataflow)貢獻(xiàn)給Apache基金會孵化,2017年1月10日Apache對外宣布的開源平臺Apache Beam,Google則發(fā)布了Cloud Dataflow。
我們把這些能力定義為大數(shù)據(jù)2.0能力,不僅關(guān)注傳統(tǒng)的大數(shù)據(jù)存儲,更關(guān)注大數(shù)據(jù)使用、共享、交換、處理。我們借鑒了谷歌和亞馬遜的思想,把系統(tǒng)設(shè)計成同時處理幾十萬個或者上百萬個數(shù)據(jù)來源,同時支持實時的一體化平臺。解決什么問題呢?解決剛才我說的很重要的問題,就是我們到底該如何簡單交付?我們該如何讓普通人進(jìn)行大數(shù)據(jù)和人工智能的建模和開發(fā)?我們的深度學(xué)習(xí)資源池和大數(shù)據(jù)資源池以及圖處理資源池能不能放在一個平臺里面進(jìn)行交付?
我們基于大數(shù)據(jù)交換共享平臺Buffer Data Exchange做了一些跨云的數(shù)據(jù)中心交換和共享,支持幾乎所有數(shù)據(jù)源,包括關(guān)系型數(shù)據(jù)庫、各類文件、大數(shù)據(jù)平臺、物聯(lián)網(wǎng)數(shù)據(jù)。大數(shù)據(jù)今天處理的也許不一定是我們常見的數(shù)據(jù)庫,可能是物聯(lián)網(wǎng)的一個協(xié)議,也可能是日志文件?;谶@個我們也做了一些整合,一方面我們給AWS做數(shù)據(jù)遷移,另外一方面實現(xiàn)了云之間不同模塊的遷移。利用這個能力去做一些云災(zāi)備,包括處理一些遷移過程當(dāng)中的系統(tǒng)升級,比如把Oracle10遷移到Oracle11上,這是一個自動化的、平臺化的過程,我們把數(shù)據(jù)加載到內(nèi)存里面去加工。
這里有一個例子是技偵電信監(jiān)測大數(shù)據(jù)平臺,這個數(shù)據(jù)平臺可以動態(tài)擴(kuò)展數(shù)據(jù)。目前我們部署比較大的規(guī)模是3個PB、412個節(jié)點。技偵的數(shù)據(jù)量特別大,每天有20多億條數(shù)據(jù),其中有2.7億條云清單,每個月有124個TB級的數(shù)據(jù),并且數(shù)據(jù)特別復(fù)雜,有很多不同類型的數(shù)據(jù)資源,包括視頻、網(wǎng)監(jiān)、反恐等不同的資源,我們跨越了所有數(shù)據(jù)格式和資源,提供了高效處理能力,給我們?nèi)斯ぶ悄芷脚_產(chǎn)生一個統(tǒng)一接口。我們建了一個集群,把數(shù)據(jù)采集過來進(jìn)行統(tǒng)一加工。這樣的話,我們僅用33個節(jié)點就能夠支持全省的技偵數(shù)據(jù)量,對比傳統(tǒng)方式有了比較大的提升,基本上實現(xiàn)了毫秒級或者秒級的數(shù)據(jù)查詢。
還有一個例子是對互聯(lián)網(wǎng)的改造,互聯(lián)網(wǎng)公司的數(shù)據(jù)日增量是20TB到40TB,所以實際上是有架構(gòu)遷移的剛需,比如從傳統(tǒng)的Hive系統(tǒng)遷移到新的系統(tǒng)上。我們把性能提升了560倍,延時從80秒減少到0.3秒。我們提供了這樣一種能力,就是如何解決數(shù)據(jù)交換和共享的問題。我認(rèn)為,在海量數(shù)據(jù)和多元數(shù)據(jù)匯集上,如何解決高速計算、壓縮以及簡單交付的問題,這是未來幾年大數(shù)據(jù)發(fā)展的核心問題。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)