楊明川 劉倩 趙繼壯
(中國(guó)電信股份有限公司研究院,北京 102200)
2020年3月4日,中共中央政治局常務(wù)委員會(huì)召開會(huì)議,明確指出“加快5G網(wǎng)絡(luò)、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度”,將數(shù)據(jù)中心建設(shè)列入“新基建”系統(tǒng)布局范疇。2020年4月20日,國(guó)家發(fā)展和改革委員會(huì)明確將大數(shù)據(jù)中心與人工智能、云計(jì)算、區(qū)塊鏈等共同納入新型基礎(chǔ)設(shè)施的范圍。其中,數(shù)據(jù)中心的發(fā)展是重心,人工智能、云計(jì)算、區(qū)塊鏈等新技術(shù)需要通過數(shù)據(jù)中心進(jìn)行聚合發(fā)展。因此,在政策紅利和數(shù)字經(jīng)濟(jì)加速發(fā)展的雙重刺激下,數(shù)據(jù)中心迎來前所未有的發(fā)展機(jī)遇,并正在邁入人工智能數(shù)據(jù)中心的新階段。
20世紀(jì)40年代,重達(dá)30 t的世界第一臺(tái)全自動(dòng)電子數(shù)據(jù)計(jì)算機(jī)“埃尼阿克”誕生,從此革命性地開啟了人類的新時(shí)代;20世紀(jì)90年代,隨著計(jì)算機(jī)技術(shù)、通信技術(shù)、互聯(lián)網(wǎng)技術(shù)的逐步發(fā)展,全球進(jìn)入了信息化時(shí)代。總體上,呈現(xiàn)從軟件化到互聯(lián)網(wǎng)化,再到云化、智能化的技術(shù)演進(jìn)趨勢(shì)(見圖1)。
從圖1可以看到,數(shù)據(jù)中心的發(fā)展與技術(shù)演進(jìn)趨勢(shì)緊密相關(guān),每個(gè)階段技術(shù)的演進(jìn)也促進(jìn)了數(shù)據(jù)中心的發(fā)展,具體可以分為幾個(gè)階段:第一個(gè)階段是物理數(shù)據(jù)中心,對(duì)應(yīng)軟件化階段。電信企業(yè)面向大型企業(yè)提供機(jī)房,包括場(chǎng)地、電源、網(wǎng)絡(luò)、通信設(shè)備等基礎(chǔ)電信資源和設(shè)施的托管及線路維護(hù)服務(wù)。第二個(gè)階段是互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center,IDC),對(duì)應(yīng)互聯(lián)網(wǎng)化階段。隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的興起,服務(wù)器、主機(jī)、出口帶寬等設(shè)備與資源集中放置與維護(hù)需求激增,主機(jī)托管、網(wǎng)站托管等商業(yè)模式出現(xiàn)。第三個(gè)階段是云化數(shù)據(jù)中心,對(duì)應(yīng)云化階段。在數(shù)據(jù)中心物理基礎(chǔ)設(shè)施之上,通過計(jì)算和存儲(chǔ)虛擬化等云計(jì)算技術(shù),使得數(shù)據(jù)中心能夠按需提供計(jì)算力。隨著人工智能和大數(shù)據(jù)技術(shù)的快速發(fā)展,數(shù)據(jù)中心也即將向智能化發(fā)展,主要基于如下幾個(gè)方面的因素。
圖1 信息化和數(shù)字化技術(shù)演進(jìn)趨勢(shì)
首先,人工智能對(duì)算力的需求逐年迅猛增長(zhǎng),已成為最重要的算力資源需求之一。OpenAI在2018年發(fā)布的《AI與計(jì)算》提出[1],人工智能對(duì)算力的需求,2012—2018年增長(zhǎng)了30 萬倍。國(guó)際數(shù)據(jù)公司(International Data Corporation,IDC)《2019年中國(guó)AI基礎(chǔ)架構(gòu)市場(chǎng)調(diào)查報(bào)告》顯示[2],2019年中國(guó)AI服務(wù)器出貨量同比增長(zhǎng)46.7%;IDC及浪潮聯(lián)合發(fā)布的《2020—2021中國(guó)人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》指出[3],2020年中國(guó)人工智能服務(wù)器占整體服務(wù)器市場(chǎng)的16%左右,占全球人工智能服務(wù)器市場(chǎng)的1/3。
其次,AI正在規(guī)?;?、深入地進(jìn)入各個(gè)行業(yè)。艾瑞咨詢《2020年中國(guó)人工智能產(chǎn)業(yè)研究報(bào)告》顯示[4],到2025年,人工智能核心產(chǎn)業(yè)規(guī)模預(yù)計(jì)將超過1500 億元,人工智能產(chǎn)業(yè)規(guī)模預(yù)計(jì)超過4500 億元。中國(guó)人工智能市場(chǎng)主要客戶來自政府城市治理和運(yùn)營(yíng)(公安、司法、城市運(yùn)營(yíng)、政務(wù)、交通運(yùn)輸管理、國(guó)土資源、環(huán)保等),互聯(lián)網(wǎng)與金融行業(yè)也位居前列[5]。
第三,行業(yè)領(lǐng)頭企業(yè)紛紛布局人工智能基礎(chǔ)設(shè)施。百度在AI的基礎(chǔ)設(shè)施上有百度大腦、飛槳、昆侖等底層基礎(chǔ)設(shè)施,有百度智能云、Apollo、小度等融合基礎(chǔ)設(shè)施。阿里達(dá)摩院發(fā)布了Al芯片含光800,并構(gòu)建亞洲種類最全、規(guī)模最大的人工智能集群,包括圖形處理器(Graphics Processing Unit,GPU)、現(xiàn)場(chǎng)可編程門陣列(Field-Programmable Gate Array,F(xiàn)PGA)、網(wǎng)絡(luò)處理器(Neural-network Processing Unit,NPU)、中央處理器(Central Processing Unit,CPU)、超算集群、第三代神龍架構(gòu)等在內(nèi)的公共云服務(wù),形成面向人工智能產(chǎn)業(yè)的支持。
人工智能數(shù)據(jù)中心從概念上來看,是以數(shù)據(jù)中心為基礎(chǔ)的人工智能的基礎(chǔ)設(shè)施[6]。具體來說,人工智能數(shù)據(jù)中心是在超算中心和云計(jì)算數(shù)據(jù)中心大規(guī)模并行計(jì)算和數(shù)據(jù)處理的技術(shù)架構(gòu)基礎(chǔ)之上,通過大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)保障其高效、安全運(yùn)營(yíng),以人工智能專用芯片為計(jì)算算力底座,融合公共算力服務(wù)、數(shù)據(jù)開放共享、智能生態(tài)建設(shè)、產(chǎn)業(yè)創(chuàng)新聚集“四位一體”的綜合平臺(tái),可提供算力、數(shù)據(jù)和算法等人工智能全棧能力,是當(dāng)前人工智能快速發(fā)展和應(yīng)用所依托的新型算力基礎(chǔ)設(shè)施。人工智能數(shù)據(jù)中心在發(fā)展過程中主要面臨如下挑戰(zhàn)[7]。
算力是人工智能發(fā)展的基礎(chǔ),AI模型構(gòu)建所需算力呈現(xiàn)出階躍式增長(zhǎng)。單一架構(gòu)處理器已無法滿足人工智能等新型數(shù)字化技術(shù)對(duì)算力的需求。為確保人工智能進(jìn)一步快速發(fā)展,充分釋放算力,需要將CPU、GPU、FPGA等異構(gòu)算力進(jìn)行充分融合。
當(dāng)前,大多數(shù)AI芯片及服務(wù)器仍然為獨(dú)占使用,無法同時(shí)支持多用戶或者多任務(wù)并行處理,導(dǎo)致算力資源利用率低。通過GPU虛擬化切片技術(shù)及相應(yīng)的池化調(diào)度技術(shù),可以充分利用算力資源,實(shí)現(xiàn)靈活調(diào)度,并降低碎片化,從而節(jié)約算力成本,幫助企業(yè)降本增效。
在數(shù)據(jù)中心應(yīng)用架構(gòu)從集中式走向分布式的背景之下,廣義的算力應(yīng)包含計(jì)算能力、存儲(chǔ)能力和網(wǎng)絡(luò)能力。近年來,SSD及GPU等AI芯片已大幅提升了數(shù)據(jù)存儲(chǔ)和處理能力,而數(shù)據(jù)中心網(wǎng)絡(luò)通信時(shí)延卻成為算力進(jìn)一步提升的瓶頸,零丟包、低時(shí)延、高吞吐的智能無損網(wǎng)絡(luò)將成為下一代數(shù)據(jù)中心的網(wǎng)絡(luò)解決方案。
IDC在《IDC:2025年中國(guó)將擁有全球最大的數(shù)據(jù)圈》白皮書中預(yù)測(cè)[4],2018—2025年全球數(shù)據(jù)總量將增長(zhǎng)5倍以上,2025年將達(dá)到175 ZB,其中人工智能相關(guān)數(shù)據(jù)復(fù)合年增長(zhǎng)率為68%。5G與萬物互聯(lián)帶來數(shù)據(jù)爆炸,為人工智能提供了充足的“燃料”,算力是人工智能發(fā)展的“引擎”,數(shù)據(jù)與算力融合是人工智能數(shù)據(jù)中心的使命[8]。
隨著人們對(duì)用戶隱私和數(shù)據(jù)安全關(guān)注度的不斷提高,在不同的組織之間,甚至在同一家公司的不同部門之間,收集和分享數(shù)據(jù)變得越來越困難,一些高度敏感數(shù)據(jù)只允許數(shù)據(jù)所有者擁有,進(jìn)而形成各自孤立的數(shù)據(jù)孤島。安全多方計(jì)算、可信執(zhí)行環(huán)境、聯(lián)邦學(xué)習(xí)等技術(shù),可在充分的數(shù)據(jù)安全和隱私保護(hù)前提下,實(shí)現(xiàn)數(shù)據(jù)共享、協(xié)作和融合[9-10]。
數(shù)據(jù)中心是能耗大戶,除了IT設(shè)備本身的能耗外,用于制冷的非IT設(shè)備能耗帶來的巨額的額外電能費(fèi)用已經(jīng)成為數(shù)據(jù)中心高速發(fā)展的瓶頸,空調(diào)制冷系統(tǒng)優(yōu)化成為降低數(shù)據(jù)中心基礎(chǔ)設(shè)施能耗的關(guān)鍵所在。通過人工智能技術(shù),根據(jù)歷史數(shù)據(jù)學(xué)習(xí)各項(xiàng)參數(shù)對(duì)電源使用效率(Power Usage Effectiveness,PUE)的影響,可滿足溫控要求,并進(jìn)一步降低PUE,突破傳統(tǒng)節(jié)能天花板[11]。
隨著數(shù)據(jù)中心規(guī)模越來越大,運(yùn)維成本越來越高,單純的人工已經(jīng)無法滿足運(yùn)維要求,自動(dòng)化運(yùn)維成為必然。一方面,采用自動(dòng)化腳本、深度學(xué)習(xí)等方式,通過對(duì)數(shù)據(jù)的學(xué)習(xí),實(shí)現(xiàn)關(guān)鍵設(shè)備的預(yù)警或者自愈;另一方面,通過自動(dòng)化巡檢機(jī)器人代替人工巡檢,以零人工的全自動(dòng)化運(yùn)維為最終目標(biāo)。
在數(shù)據(jù)中心加快步伐部署48核以及64核等更高核心CPU來應(yīng)對(duì)激增的算力需求的同時(shí),為了應(yīng)對(duì)計(jì)算多元化的需求,越來越多的場(chǎng)景開始引入通用加速芯片,加速硬件承擔(dān)了大部分的新算力需求。
(1)GPU
具有數(shù)以千計(jì)的計(jì)算核心,相比CPU可實(shí)現(xiàn)10~100 倍應(yīng)用吞吐量,使用GPU來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),所使用的訓(xùn)練集可以更大,所耗費(fèi)的時(shí)間能夠大幅縮短,占用的數(shù)據(jù)中心基礎(chǔ)設(shè)施也更少。相比于其他的定制化神經(jīng)網(wǎng)絡(luò)計(jì)算芯片,GPU具有良好的可編程性和通用性。
(2)FPGA
其靈活性介于CPU、GPU之間,在硬件固定的前提下,允許靈活使用軟件進(jìn)行編程。近年來,F(xiàn)PGA在數(shù)據(jù)中心的應(yīng)用日益廣泛,已在全球七大超級(jí)云計(jì)算數(shù)據(jù)中心IBM、Facebook、微軟Azure、AWS、百度云、阿里云、騰訊云得到部署。
(3)專用集成電路(Application Specific Integrated Circuit,ASIC)
是一種為專用目的設(shè)計(jì),面向特定用戶需求的定制芯片統(tǒng)稱。目前,全球各大芯片公司都在積極地進(jìn)行AI芯片的布局,谷歌的TPU、Pixel Visual Core,英特爾的Myriad系列VPU等,各式各樣的ASIC芯片相繼在市場(chǎng)上得到了充分的實(shí)踐與驗(yàn)證。
超威半導(dǎo)體公司(Advanced Micro Devices, Inc.,AMD)的Chiplet、英特爾的Foveros等技術(shù),正在致力于設(shè)計(jì)統(tǒng)一的高速互聯(lián)技術(shù),實(shí)現(xiàn)CPU、GPU、FPGA、ASIC等計(jì)算單元的按需組合,來應(yīng)對(duì)更多樣的異構(gòu)計(jì)算需求[5]。
當(dāng)前,GPU仍然是數(shù)據(jù)中心最通用、最主流的加速計(jì)算方案。算力應(yīng)用方往往由于GPU資源本身的相對(duì)稀缺性,面臨大規(guī)模訓(xùn)練無法完成或訓(xùn)練效率低下、推理環(huán)節(jié)時(shí)延長(zhǎng)導(dǎo)致前端用戶體驗(yàn)不佳等問題。GPU虛擬化切片技術(shù)及相應(yīng)的虛擬圖形處理單元(virtual GPU,vGPU)池化調(diào)度技術(shù)能夠有效提升GPU利用率,充分發(fā)揮算力,幫助企業(yè)降低成本。
(1)GPU虛擬化切片技術(shù)
NVIDIA vGPU是目前主流的GPU虛擬化技術(shù)方案,把一塊物理GPU虛擬成多塊vGPU卡,每個(gè)虛擬機(jī)(VM)可以獨(dú)占一塊vGPU,每個(gè)vGPU直接跟物理GPU對(duì)接,在多個(gè)工作負(fù)載之間共享GPU,從而帶來了成本效益和可擴(kuò)展性。在某些場(chǎng)景下的AI模型訓(xùn)練或推理時(shí),其算力要求不需要占用整塊GPU,一塊GPU卡多租戶共享使用,使得GPU負(fù)載任務(wù)量以及利用率成倍提升。
(2)vGPU池化調(diào)度技術(shù)
GPU虛擬化切片技術(shù)使得按需調(diào)度GPU資源成為可能,vGPU調(diào)度方法在共享計(jì)算環(huán)境中公平有效地分配資源?;贙ubernetes原生調(diào)度器可以深度開發(fā)滿足企業(yè)需求的容器編排引擎,調(diào)度器以最終計(jì)算資源利用率最優(yōu)為目標(biāo),挑選滿足要求的節(jié)點(diǎn)來部署容器。常用的調(diào)度算法有Binpack、Spread等。如圖2所示,Binpack算法會(huì)優(yōu)先將一張GPU卡分配完后,再分配另一張GPU卡,減少資源碎片;而Spread算法,系統(tǒng)會(huì)盡量將申請(qǐng)的顯存分散到各個(gè)GPU上,減少資源空置。
可以承載遠(yuǎn)程直接數(shù)據(jù)存取(RDMA)的無丟包損失、無吞吐?lián)p失、無時(shí)延損失的開放以太網(wǎng),是面向AI調(diào)度的數(shù)據(jù)中心網(wǎng)絡(luò)主要發(fā)展方向。當(dāng)前,華為已經(jīng)發(fā)布了AI Fabric智能無損數(shù)據(jù)中心網(wǎng)絡(luò)方案。通用的無損網(wǎng)絡(luò)擁塞控制算法DCQCN需要網(wǎng)卡和網(wǎng)絡(luò)進(jìn)行協(xié)作,每個(gè)節(jié)點(diǎn)需要配置數(shù)十個(gè)參數(shù),全網(wǎng)參數(shù)組合達(dá)到幾十萬,而通用的配置又無法同時(shí)達(dá)到零丟包、低延遲和高吞吐要求。AI Fabric方案,一方面通過研發(fā)提煉流量模型特征;另一方面通過在交換機(jī)集成AI芯片,實(shí)時(shí)采集流量特征和網(wǎng)絡(luò)狀態(tài),基于AI算法,本地實(shí)時(shí)決策并動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)參數(shù)配置,使得交換機(jī)緩存得到合理高效的利用。同時(shí),基于全局采集的流量特征和網(wǎng)絡(luò)狀態(tài)數(shù)據(jù),結(jié)合智能擁塞調(diào)度算法,對(duì)未來流量進(jìn)行預(yù)測(cè),從全局視角實(shí)時(shí)修正網(wǎng)卡和網(wǎng)絡(luò)參數(shù)配置,實(shí)現(xiàn)RDMA業(yè)務(wù)流的零丟包、高吞吐和超低時(shí)延,加速AI時(shí)代的計(jì)算和存儲(chǔ)效率[12]。
圖2 Binpack與Spread調(diào)度算法
在數(shù)據(jù)上云的大背景下,隨著網(wǎng)絡(luò)和存儲(chǔ)硬件能力的提升,存儲(chǔ)計(jì)算分離逐漸成為了大數(shù)據(jù)處理的一大趨勢(shì)。但是,通過網(wǎng)絡(luò)從遠(yuǎn)端存儲(chǔ)讀取數(shù)據(jù)仍然是代價(jià)較大的操作。在深度學(xué)習(xí)訓(xùn)練場(chǎng)景下,海量訓(xùn)練數(shù)據(jù)預(yù)處理帶來更高的數(shù)據(jù)吞吐,性能瓶頸更加明顯。此外,跨平臺(tái)業(yè)務(wù)無法自動(dòng)化調(diào)度、數(shù)據(jù)多平臺(tái)重復(fù)存儲(chǔ)、數(shù)據(jù)處理流程長(zhǎng)、熱點(diǎn)數(shù)據(jù)訪問慢等諸多問題更是應(yīng)運(yùn)而生。AI及大數(shù)據(jù)混合計(jì)算加速技術(shù)可解決以上問題。
在大數(shù)據(jù)湖之上、計(jì)算節(jié)點(diǎn)之下構(gòu)建虛擬數(shù)據(jù)湖,即在存儲(chǔ)框架和計(jì)算框架之間增加中間緩存層,提高緩存效率及緩存命中率,快速定位和讀取緩存數(shù)據(jù);簡(jiǎn)化存儲(chǔ)接入,統(tǒng)一各種持久化存儲(chǔ)系統(tǒng)(如Amazon S3、Google Cloud Storage、OpenStack Swift、HDFS、Ceph、NFS等),向上提供統(tǒng)一的API和全局命名空間;構(gòu)建基于內(nèi)存、固態(tài)硬盤及磁盤的智能多級(jí)緩存機(jī)制,一方面降低數(shù)據(jù)應(yīng)用存儲(chǔ)成本,另一方面為關(guān)鍵熱數(shù)據(jù)提供內(nèi)存級(jí)I/O吞吐率。
提供GPU加速計(jì)算服務(wù),直接利用GPU進(jìn)行數(shù)據(jù)預(yù)處理。如表1所示,使用Pandas對(duì)DataFrame二維表格進(jìn)行操作,通過計(jì)算在CPU上使用RAPIDS-CUDF用時(shí)與在GPU上用時(shí)的比值,可以看到,在海量數(shù)據(jù)預(yù)處理場(chǎng)景下,GPU與CPU相比處理速度可達(dá)幾十倍以上(GPU型號(hào):NVIDIA?V100 Tensor Core;CPU型號(hào):Intel?Xeon?Silver 4214)。提供數(shù)據(jù)編排調(diào)度服務(wù),根據(jù)用戶業(yè)務(wù)需求,通過智能調(diào)度系統(tǒng),組建完整的數(shù)據(jù)流程,滿足AI業(yè)務(wù)需求。
表1 CPU與GPU各類數(shù)據(jù)操作處理時(shí)間比值
數(shù)據(jù)協(xié)作與隱私保護(hù)技術(shù)主要包括安全多方計(jì)算、可信執(zhí)行環(huán)境、聯(lián)邦學(xué)習(xí)[13]。
(1)安全多方計(jì)算(Secure Multi-Party Computation, MPC):指在沒有可信第三方的情況下,通過多方共同參與,安全完成協(xié)同計(jì)算。基于秘密分享、模糊傳輸、同態(tài)加密、混淆電路等,優(yōu)勢(shì)在于采用單次隨機(jī)加密策略、原始數(shù)據(jù)不能被還原、每次數(shù)據(jù)都需要參與方共同協(xié)調(diào),很好地保證了計(jì)算的安全性。
(2)可信執(zhí)行環(huán)境(Trusted Execution Environment, TEE):基于硬件實(shí)現(xiàn),在CPU上構(gòu)建一塊區(qū)域,為數(shù)據(jù)和代碼執(zhí)行提供獨(dú)立的安全計(jì)算空間,其可信前提是硬件不存在漏洞,市面上常見的解決方案包括英特爾的SGX、ARM的TrustZone。
(3)聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L):隨著人工智能技術(shù)的不斷發(fā)展,訓(xùn)練人工智能算法模型所需要的數(shù)據(jù)也正面臨數(shù)據(jù)共享的問題,人工智能數(shù)據(jù)中心需要通過新的技術(shù)來保證不同企業(yè)間的數(shù)據(jù)協(xié)作。而聯(lián)邦學(xué)習(xí)不僅可以在保證數(shù)據(jù)隱私安全的基礎(chǔ)上,將模型的存儲(chǔ)和訓(xùn)練分配給本地邊緣側(cè)設(shè)備完成,同時(shí)各個(gè)節(jié)點(diǎn)根據(jù)各自學(xué)習(xí)到的信息共同對(duì)模型進(jìn)行更新,進(jìn)而完成模型的多維度信息訓(xùn)練。聯(lián)邦學(xué)習(xí)通過多方的補(bǔ)充拓展數(shù)據(jù)維度,同時(shí)在整個(gè)模型訓(xùn)練的過程中不涉及原始數(shù)據(jù)的傳輸,保障了參與各方的隱私。另外,在聯(lián)邦學(xué)習(xí)加持下的服務(wù)來源于本地,避免了網(wǎng)絡(luò)傳輸原始數(shù)據(jù)造成的計(jì)算時(shí)間開銷。
人工智能開發(fā)平臺(tái)是數(shù)據(jù)中心AI基礎(chǔ)設(shè)施及資源與產(chǎn)業(yè)下游AI產(chǎn)品及解決方案連接的重要樞紐,互聯(lián)網(wǎng)廠商(如百度、阿里巴巴、騰訊、京東等)、AI科技公司(如科大訊飛、商湯等)、行業(yè)企業(yè)(如華為、中興、浪潮等)等紛紛參與到AI開發(fā)平臺(tái)的建設(shè)中,中國(guó)電信作為運(yùn)營(yíng)商,為滿足自身企業(yè)數(shù)字化轉(zhuǎn)型的需求,也研發(fā)了具有自主產(chǎn)權(quán)的AI賦能平臺(tái)。
人工智能開發(fā)平臺(tái)提供集中資源管理、集約數(shù)據(jù)接入、一站AI開發(fā)、統(tǒng)一模型管理、便捷AI服務(wù),促進(jìn)多團(tuán)隊(duì)流水線“一條龍”協(xié)作,服務(wù)企業(yè)AI及數(shù)據(jù)科學(xué)探索,主要包括以下功能。
(1)數(shù)據(jù)接入及標(biāo)注模塊:提供數(shù)據(jù)接入、清洗、探索等預(yù)處理服務(wù),以及數(shù)據(jù)標(biāo)注和特征工程服務(wù)。
(2)模型訓(xùn)練模塊:提供面向人工智能模型學(xué)習(xí)的訓(xùn)練能力,滿足算法研發(fā)人員進(jìn)行AI能力模型的設(shè)計(jì)、開發(fā)、測(cè)試和發(fā)布等要求。
(3)模型管理模塊:提供統(tǒng)一的AI模型管理能力,對(duì)AI模型的基礎(chǔ)信息、生命周期、配套引擎、使用申請(qǐng)等內(nèi)容進(jìn)行集中管控,提升模型的復(fù)用效率。
(4)推理服務(wù)模塊:提供人工智能在線推理環(huán)境,實(shí)現(xiàn)AI能力的對(duì)外服務(wù),并可支持海量服務(wù)請(qǐng)求。
(5)資源管理模塊:提供各類應(yīng)用部署運(yùn)行環(huán)境,并根據(jù)各應(yīng)用的使用要求對(duì)基礎(chǔ)資源進(jìn)行動(dòng)態(tài)調(diào)度。
Google利用Deepmind系統(tǒng)節(jié)省30%數(shù)據(jù)中心能耗,節(jié)省上億美元電費(fèi);阿里巴巴通過DC Brain智能化電力和熱能管理實(shí)現(xiàn)25%的節(jié)能;中國(guó)電信目前也已在多個(gè)機(jī)房試點(diǎn)AI節(jié)能效果,挖掘潛在節(jié)能空間,實(shí)現(xiàn)精細(xì)化、定制化節(jié)能。數(shù)據(jù)中心智慧節(jié)能的實(shí)施包括數(shù)據(jù)采集、場(chǎng)景化AI建模、策略執(zhí)行3個(gè)環(huán)節(jié)。
(1)數(shù)據(jù)采集環(huán)節(jié)
收集機(jī)房面積、機(jī)柜數(shù)量、空調(diào)額定顯冷量等靜態(tài)數(shù)據(jù),動(dòng)態(tài)采集機(jī)柜溫濕度、負(fù)載、地板出風(fēng)量等機(jī)柜數(shù)據(jù),空調(diào)出/回風(fēng)溫度、電流等空調(diào)數(shù)據(jù),冷凍水出/回水溫度、冷卻出/回水溫度、水流量、泵頻率、冷塔頻率及各部分功率等水冷機(jī)組數(shù)據(jù)。
(2)場(chǎng)景化AI建模環(huán)節(jié)
包括機(jī)柜出風(fēng)溫度預(yù)測(cè)模型,通過機(jī)柜負(fù)載、機(jī)柜進(jìn)風(fēng)溫度與出風(fēng)地板開度預(yù)測(cè)機(jī)柜出風(fēng)溫度,指導(dǎo)出風(fēng)地板調(diào)節(jié);熱平衡模型,建立機(jī)房設(shè)備發(fā)熱與空調(diào)輸出冷量,空調(diào)功耗的平衡關(guān)系,指導(dǎo)空調(diào)溫度與PID參數(shù)調(diào)節(jié);水冷機(jī)組功耗/制冷量預(yù)測(cè)模型,采集水冷機(jī)組運(yùn)行參數(shù),建立主機(jī)功耗與制冷量預(yù)測(cè)模型,尋找最優(yōu)主機(jī)功耗下的冷凍出水溫度。通過數(shù)據(jù)中心機(jī)房數(shù)字孿生系統(tǒng)可對(duì)預(yù)測(cè)結(jié)果進(jìn)行可視化展示。
(3)策略執(zhí)行環(huán)節(jié)
根據(jù)數(shù)據(jù)中心機(jī)房本身的基礎(chǔ)設(shè)施條件的不同,一部分機(jī)房可以實(shí)現(xiàn)全自動(dòng)控制,另一部分機(jī)房可根據(jù)AI策略進(jìn)行人工實(shí)施。
建設(shè)數(shù)據(jù)中心基礎(chǔ)設(shè)施管理系統(tǒng)(Data Center Infrastructure Management,DCIM),通過軟件、硬件和傳感器等對(duì)數(shù)據(jù)中心關(guān)鍵設(shè)備(如電源、交換機(jī)、路由器、服務(wù)器等)進(jìn)行集中監(jiān)控、容量規(guī)劃、一鍵控制等管理操作[14]。
在此基礎(chǔ)上,采用自動(dòng)化腳本、深度學(xué)習(xí)等方式實(shí)現(xiàn)對(duì)數(shù)據(jù)的學(xué)習(xí)、對(duì)關(guān)鍵設(shè)備智能監(jiān)測(cè)的預(yù)警。從揭示設(shè)備運(yùn)行狀態(tài)劣化發(fā)展趨勢(shì)規(guī)律與特征入手,預(yù)報(bào)設(shè)備運(yùn)行狀態(tài),預(yù)測(cè)今后多長(zhǎng)時(shí)間設(shè)備運(yùn)行狀態(tài)將達(dá)到不可接受的程度,并根據(jù)惡化程度進(jìn)行早期故障預(yù)警,制定可行的安全保障措施及設(shè)備維修計(jì)劃,實(shí)現(xiàn)關(guān)鍵設(shè)備監(jiān)控、調(diào)配、預(yù)警及自愈。
人工巡視效率低、成本高、漏檢多,信息傳遞流程繁瑣,故障溯源困難。自動(dòng)化巡檢機(jī)器人為降低運(yùn)維成本、提升運(yùn)維效率提供了新的解決方案,不僅可以對(duì)服務(wù)器等設(shè)備進(jìn)行全天候巡視和自主檢測(cè),還可以針對(duì)涉密關(guān)鍵區(qū)域及高風(fēng)險(xiǎn)區(qū)域等人工巡檢難以開展的區(qū)域進(jìn)行監(jiān)控和診斷[15]。
當(dāng)前,巡檢機(jī)器人以機(jī)器人技術(shù)為硬件主體,以AI圖像識(shí)別檢測(cè)等技術(shù)為算法核心,可通過計(jì)算機(jī)視覺方案完成機(jī)房的檢測(cè)巡視、故障燈識(shí)別;通過紅外傳感器實(shí)現(xiàn)機(jī)房設(shè)備溫度監(jiān)控;通過聲光、氣體傳感器實(shí)現(xiàn)火災(zāi)等隱患的排查。主流巡檢機(jī)器人具有支持7×24 h設(shè)備巡檢,溫濕度、異味、空氣質(zhì)量、噪聲等動(dòng)態(tài)環(huán)境監(jiān)測(cè),以及設(shè)備盤點(diǎn)等功能[16]。
人工智能數(shù)據(jù)中心代表了未來數(shù)字化的發(fā)展方向。隨著智能化社會(huì)的不斷發(fā)展,人工智能數(shù)據(jù)中心將成為新基建的核心,不再局限于算力供應(yīng),而成為融合公共算力生產(chǎn)、數(shù)據(jù)開放共享、智慧生態(tài)建設(shè)、產(chǎn)業(yè)創(chuàng)新聚集四大功能為一體的綜合平臺(tái)。通過人工智能數(shù)據(jù)中心,可以把數(shù)據(jù)、算力、網(wǎng)絡(luò)、存儲(chǔ)等資源有效地整合起來,并將大數(shù)據(jù)、人工智能、區(qū)塊鏈、物聯(lián)網(wǎng)、新型網(wǎng)絡(luò)等新技術(shù)充分融合。以人工智能數(shù)據(jù)中心為載體,為數(shù)字化的新基建提供統(tǒng)一的承載方案,其廣泛應(yīng)用將加速推動(dòng)產(chǎn)業(yè)AI化和AI產(chǎn)業(yè)化,帶動(dòng)形成多層級(jí)產(chǎn)業(yè)生態(tài)體系,推動(dòng)數(shù)字經(jīng)濟(jì)與傳統(tǒng)產(chǎn)業(yè)深度融合,加速產(chǎn)業(yè)轉(zhuǎn)型升級(jí),促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展。目前,人工智能數(shù)據(jù)中心還處于起步階段,諸多技術(shù)還處于探索之中,特別是資源和技術(shù)的充分融合還有很長(zhǎng)的路要走。