趙倩穎 邢文娟 雷 波 周國強 李志強
1 中國電信股份有限公司研究院 北京 102209
2 中國電信股份有限公司廣東分公司 廣東 510081
在2020年5月召開的全國兩會上,“新型基礎(chǔ)設(shè)施建設(shè)”首次被寫入2020年政府工作報告?!凹訌娦滦突A(chǔ)設(shè)施建設(shè),發(fā)展新一代信息網(wǎng)絡(luò)”成為國家重要戰(zhàn)略部署。2020年12月23日,發(fā)改委、工信部等部委在《關(guān)于加快構(gòu)建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見》中提出“推動算力資源服務(wù)化”,要求構(gòu)建一體化算力服務(wù)體系,優(yōu)化算力資源需求結(jié)構(gòu),提升基礎(chǔ)設(shè)施利用效能。“新型基礎(chǔ)設(shè)施建設(shè)”與“算力一體化服務(wù)體系”成為數(shù)字化中國的重要戰(zhàn)略目標。
算力基礎(chǔ)設(shè)施的形態(tài)多樣、分布廣泛、歸屬復(fù)雜,且算力的度量存在一定難度;同時孤島算力功能單一、位置固定、計算能力有限,單點式的算力供給已無法滿足業(yè)務(wù)多樣化的需求,限制了新興產(chǎn)業(yè)的發(fā)展。算力作為社會發(fā)展新動能,使其像水、電等基礎(chǔ)能源一樣按需、按量、靈活地供給將成為算力未來的發(fā)展趨勢。因此亟需構(gòu)建一體化的算力服務(wù)體系,將分布式的、多級的算力通過網(wǎng)絡(luò)進行整合,并結(jié)合人工智能、安全、綠色等技術(shù),賦能算力產(chǎn)業(yè)的多樣化發(fā)展。本文根據(jù)算力業(yè)務(wù)及算力資源的特點,介紹了算力業(yè)務(wù)對算力服務(wù)的需求,從而總結(jié)出算力服務(wù)的特征,為今后算力產(chǎn)業(yè)的發(fā)展提供新的思考方向。
業(yè)務(wù)對算力的需求是多樣化的,目前主要體現(xiàn)為低時延、高移動性、大算力以及潮汐性需求。
時延是影響算力服務(wù)性能的重要評價指標之一,是決定用戶體驗的關(guān)鍵性因素,因此低時延便成為了新興業(yè)務(wù)最主要的訴求之一,也促使了邊緣計算的誕生。典型的低時延場景如虛擬現(xiàn)實(Virtual Reality,VR)、增強現(xiàn)實(Augmented Reality,AR)等,用戶參與度較高,時延需求主要來自人與人或者人與設(shè)備之間的流暢交互。VR、AR場景中要求設(shè)備能對人給出的信號做出及時的反應(yīng),因此,人機交互體驗的優(yōu)化對時延提出了10ms的高要求[1]。在IoT的場景下,人與設(shè)備或設(shè)備與設(shè)備在協(xié)調(diào)工作時需要通過網(wǎng)絡(luò)進行通信。在工業(yè)互聯(lián)網(wǎng)的場景下,工廠實現(xiàn)高效率的自動化生產(chǎn)需要完成實時的操作控制,如果生產(chǎn)的某些步驟因未及時接收到指令而出現(xiàn)滯后便會影響產(chǎn)品質(zhì)量甚至導(dǎo)致系統(tǒng)崩潰,因此工業(yè)互聯(lián)網(wǎng)對于時延也提出了較高的要求,達到1~10 ms[1]。
業(yè)務(wù)的低時延需求通常通過將計算節(jié)點下沉至業(yè)務(wù)邊緣側(cè)實現(xiàn),在泛在計算場景下也可通過選擇距離業(yè)務(wù)合理位置的資源節(jié)點實現(xiàn)。當單節(jié)點邊緣資源無法滿足資源需求時,還需要通過協(xié)同技術(shù),由多個邊緣節(jié)點共同為業(yè)務(wù)提供服務(wù)。
在如武器研發(fā)、基因測序、氣候模擬等高精尖科學研究場景,其計算任務(wù)密集,精確度要求極高。如果在單臺計算機上進行處理可能需要花費以年為單位的時間。該類場景對國家安全、經(jīng)濟和社會發(fā)展具有舉足輕重的意義,為此各國不斷研發(fā)超級計算中心,從而超級計算中心排名也成為了一個國家科研實力的體現(xiàn),是國家科技發(fā)展水平和綜合國力的重要標志。以科學研究為主的大算力場景,對網(wǎng)絡(luò)和計算都有著新的需求。大規(guī)??茖W數(shù)據(jù)傳輸?shù)膸捫枨笠堰_到100Gbps,未來將達到Tb/s以上,同時還提出超高可靠、確定性時延、端到端按需QoS等需求;此外,個別科學裝置已經(jīng)提出每秒百億億次浮點計算(EFlops)的需求,依靠原有的單一建設(shè)專用算力池的方式,成本偏高且資源利用效率偏低。為滿足業(yè)務(wù)的大算力需求,可以利用高性能計算技術(shù),通過構(gòu)建超級計算中心和云計算中心實現(xiàn)對大算力業(yè)務(wù)的資源供給。在未來可以通過網(wǎng)絡(luò)將數(shù)據(jù)源周圍閑散算力(云計算、邊緣計算等)調(diào)度起來以彌補大型科學裝置的算力缺口。
與手機業(yè)務(wù)相同,業(yè)務(wù)從請求發(fā)起到結(jié)束期間往往不會固定在同一個位置,因此算力服務(wù)需要滿足用戶的高移動性需求。典型的場景如旅游直播、自動駕駛等,此類場景往往具有較高的移動性。例如,在旅游直播場景下,主播需要從A市到B市,沿途分享A市和到B市之間的風景。此時,直播服務(wù)需要能夠提供美顏功能,并保障主播與觀眾之間的實時互動(如彈幕交流、語音和視頻連接、直播商務(wù)等)。在此場景中,隨著錨點位置的不斷變化,在變化過程中使用相同的計算資源會增加服務(wù)和計算之間的物理距離,導(dǎo)致時延增加。因此,需要即時根據(jù)用戶的位置調(diào)整算力服務(wù)的位置[2]。在自動駕駛場景下,移動性是其最突出的特點,車輛在駕駛過程中要在復(fù)雜的交通環(huán)境中及時感知環(huán)境變化并做出響應(yīng),這要求車輛與車輛、行人、道路設(shè)施之間進行低時延通信,而隨著車輛位置的快速變化,某一個算力服務(wù)的節(jié)點會很快由低時延節(jié)點變成高時延節(jié)點,為了滿足其低時延的需求,需要不斷切換算力服務(wù)節(jié)點位置,從而達到自動駕駛所需要的毫秒級時延[1]。面對業(yè)務(wù)的高移動性需求,首先需要整網(wǎng)算力資源的全局視圖,并配合人工智能技術(shù)實現(xiàn)業(yè)務(wù)的智能編排調(diào)度,從而實現(xiàn)在高移動性場景下的業(yè)務(wù)無縫切換。
業(yè)務(wù)的潮汐需求往往最容易被人忽略,但該場景相對于其他需求都更具普遍性。以辦公樓宇的視頻監(jiān)控為例,白天辦公區(qū)的人流量大,需要處理分析的數(shù)據(jù)也會更加復(fù)雜;而在夜間,樓宇內(nèi)空無一人,視頻畫面幾乎處于靜止狀態(tài),不需要對其進行過多處理。因此在該種場景下,同一個業(yè)務(wù)隨著時間的變化,計算需求量發(fā)生了明顯的波動。因此,算力服務(wù)需要隨著業(yè)務(wù)需求量的變化,對所供給的計算資源進行調(diào)整,已實現(xiàn)資源的最大化利用。為滿足業(yè)務(wù)的潮汐需求,算力服務(wù)需要結(jié)合人工智能技術(shù),通過流量預(yù)測等業(yè)務(wù)感知手段實現(xiàn)對資源使用量的預(yù)判,從而實現(xiàn)資源的最佳使用。
通常情況下,每種業(yè)務(wù)對算力服務(wù)的需求并不是單一的,也不是固定的。以車聯(lián)網(wǎng)為例,它具有明顯的高移動性和低時延特性,并且對于復(fù)雜環(huán)境的計算需求量也較高。因此,算力資源需要結(jié)合網(wǎng)絡(luò)以及新興的技術(shù),實現(xiàn)業(yè)務(wù)的多維算力服務(wù)需求。
根據(jù)業(yè)務(wù)對算力服務(wù)的需求,算力服務(wù)需滿足綠色、共享、智能、可信等特征才能更好地支撐算力的典型應(yīng)用場景。算力需求與算力服務(wù)特征之間的對應(yīng)關(guān)系如圖1所示,每種場景需要協(xié)同多種算力特性來實現(xiàn)其需求。
算力資源是耗電量大戶,根據(jù)最新國家數(shù)據(jù)顯示,2020年國內(nèi)數(shù)據(jù)中心年耗電量為2 045億千瓦時,占全社會用電量的2.7%,相當于三峽大壩兩年的發(fā)電量[3],為服務(wù)器供電和冷卻所需的電能占到數(shù)據(jù)中心總運營成本的40%。由于業(yè)務(wù)明顯的潮汐特性,計算資源在高峰時期往往處于超負荷運轉(zhuǎn),出現(xiàn)供不應(yīng)求的現(xiàn)象,而在低谷時期卻常常處于空閑狀態(tài),寶貴的算力、電力資源被白白消耗。因此,實現(xiàn)綠色算力服務(wù)是“雙碳”戰(zhàn)略下不容忽視的問題。
實現(xiàn)“雙碳戰(zhàn)略”下的綠色算力服務(wù)需要解決包括以下兩個維度的問題,一是針對算力基礎(chǔ)設(shè)施風火水電的節(jié)能減排,二是針對業(yè)務(wù)層面的任務(wù)合理安排調(diào)度。首先,想要實現(xiàn)物理設(shè)施節(jié)能減排可以從算力基礎(chǔ)設(shè)施的建設(shè)前和建設(shè)后兩方面入手。正如前文所述,數(shù)據(jù)中心是耗電量大戶,因此在算力中心建設(shè)前需要優(yōu)先考慮算力中心的地理位置,例如亞馬遜、谷歌傾向于將數(shù)據(jù)中心建在愛爾蘭,除了被愛爾蘭的稅收政策吸引外,更重要的原因是這里氣候寒冷,可以大大減少數(shù)據(jù)中心因為降溫所產(chǎn)生的電費,而微軟甚至將數(shù)據(jù)中心建在海里,依靠海水的溫度來為數(shù)據(jù)中心降溫。據(jù)信通院數(shù)據(jù)顯示[4],如圖2所示,目前我國大部分算力分布在京津冀、川渝陜、長三角、粵港澳等東部高成本地區(qū),而地廣人稀,氣候溫度等適合數(shù)據(jù)中心部署的西部地區(qū),算力規(guī)模偏小,這種現(xiàn)狀也是由于大量的業(yè)務(wù)處于東部導(dǎo)致的。在數(shù)字經(jīng)濟飛速發(fā)展的前提下,我國提出“東數(shù)西算”戰(zhàn)略,正是從算力設(shè)施建設(shè)位置的角度出發(fā),提前布局算力資源[5]。而在算力基礎(chǔ)設(shè)施建設(shè)后,更重要的則是使用先進綠色技術(shù)產(chǎn)品,在硬件技術(shù)創(chuàng)新、清潔能源應(yīng)用以及綠色IDC技術(shù)三方面持續(xù)提升能源高效清潔利用水平,優(yōu)化綠色管理能力。其次,針對業(yè)務(wù)層面的合理安排調(diào)度,主要面向業(yè)務(wù)的潮汐效應(yīng),在業(yè)務(wù)層面的解決方式是尋找在時間上相互匹配的業(yè)務(wù)。由于業(yè)務(wù)可以分為用戶驅(qū)動型和結(jié)果驅(qū)動型兩種,用戶驅(qū)動型可以理解為,此類服務(wù)的使用時間與用戶的作息時間強相關(guān),例如游戲、視頻等,通常會在周末或傍晚出現(xiàn)使用高峰;而結(jié)果驅(qū)動型則只關(guān)心最后的產(chǎn)出數(shù)據(jù)和總時間,具體在什么時候進行計算不是其核心訴求,例如AI訓(xùn)練、科學計算等。因此,針對于同一算力資源池,可以將兩類業(yè)務(wù)結(jié)合,優(yōu)先處理用戶驅(qū)動型業(yè)務(wù),并在計算資源閑時處理結(jié)果驅(qū)動型業(yè)務(wù),充分發(fā)揮算力資源的能力,以提高資源使用效率。而在技術(shù)層面則要使用彈性擴縮容等技術(shù),在計算資源閑時,關(guān)閉部分服務(wù)資源以節(jié)約能耗。
共享算力服務(wù),是指依托網(wǎng)絡(luò)連接將分布的算力和業(yè)務(wù)進行互聯(lián)共享,可以解決由于算力及業(yè)務(wù)分布不均造成的算力資源缺乏問題及單點高質(zhì)量算力供給不足問題。由于新型業(yè)務(wù)的飛速發(fā)展,單點算力資源已很難滿足業(yè)務(wù)大算力、低時延、高移動性需求。
共享算力是共享經(jīng)濟在計算機領(lǐng)域的創(chuàng)新突破。共享算力分為共享單點算力和共享多個算力資源池,前者是在一個資源池內(nèi)的按需使用,主要針對大算力業(yè)務(wù)需求,后者實現(xiàn)對多資源池的按需使用,主要針對低時延和高移動性需求。共享算力最為人所熟知的一種形態(tài)便是云計算,云計算的高靈活性、可擴展性使得業(yè)務(wù)可以按需使用云池中的計算資源。云計算主要解決的是計算資源使用方和計算資源擁有方之間的資源分布不均的問題,滿足了業(yè)務(wù)的大算力需求。在“東數(shù)西算”戰(zhàn)略的牽引下,東部業(yè)務(wù)西部處理會成為一個普遍的場景,但當東部數(shù)據(jù)傳送到西部時,其物理時延顯著加大,因此需要建設(shè)覆蓋全國的高質(zhì)量網(wǎng)絡(luò)基礎(chǔ)設(shè)施,提升算力服務(wù)質(zhì)量。而面對低時延和高移動性需求,共享算力則需要實現(xiàn)多算力節(jié)點資源的按需使用,需解決以下兩個方面的問題:首先需要建設(shè)泛在的邊緣計算節(jié)點,這是由于超低時延必須要有較近的物理位置來保障,位置較高的云計算節(jié)點在時延保障上難以有更大的提升;其次,需要建設(shè)高效的編排管控調(diào)度系統(tǒng),由于低時延業(yè)務(wù)往往同時也具備大算力業(yè)務(wù)的特征,單點算力無法滿足其高質(zhì)量需求,還需要多邊緣節(jié)點之間的協(xié)同。而高移動性的場景由于用戶位置的不斷變化,天然需要在多節(jié)點之間進行切換,良好的協(xié)同管理機制是業(yè)務(wù)低時延大帶寬需求的保障[6]。
智能算力服務(wù)分為面向智能的計算和面向計算的智能兩個方面。面向智能的計算是指提供算力服務(wù)的資源支撐底座能夠原生支持智能化的業(yè)務(wù),為各行各業(yè)提供實時計算、實時AI服務(wù)等計算業(yè)務(wù),最為人所熟知的就是智能芯片,提供由GPU、ASIC、FPGA或其他加速器支撐的高密集、高并行計算能力的智能算力[4];面向計算的智能是指整個算力服務(wù)的過程,通過人工智能技術(shù)提升服務(wù)質(zhì)量,增強用戶體驗,包含計算業(yè)務(wù)自動化運營、智能管理、智能工作流業(yè)務(wù)編排、智能資源編排等能力,實現(xiàn)算力需求的預(yù)判和算力資源的動態(tài)實時調(diào)整,主動、高效、安全、綠色地滿足其服務(wù)需求[7]。針對業(yè)務(wù)的移動性和潮汐性,智能服務(wù)的需求顯得尤為突出。
智能算力服務(wù)貫穿整個算力服務(wù)始終,首先在算力基礎(chǔ)設(shè)施建設(shè)階段,針對當前算力業(yè)務(wù)的智能原生的特點,需要建立大量基于GPU、FPGA 等芯片的智能計算中心、智能服務(wù)集群以提供足夠的智能算力,主要應(yīng)用于高性能計算、海量數(shù)據(jù)挖掘、海量數(shù)據(jù)分布式存儲與調(diào)度、模型訓(xùn)練、推理識別等業(yè)務(wù)場景,以滿足用戶多種多樣的AI業(yè)務(wù)需求。另一方面,智能算力服務(wù)也應(yīng)包括計算智能、網(wǎng)絡(luò)智能等。在人工智能蓬勃發(fā)展的大背景下,一方面智能業(yè)務(wù)對智能算力(如AI芯片)的需求急劇增加,另一方面,人工智能技術(shù)在提升整個業(yè)務(wù)流程智能化方面起到關(guān)鍵作用。如在算網(wǎng)資源信息收集階段,需要利用AI智能預(yù)測算力資源的變化情況;在分析用戶需求階段,以目前的云計算服務(wù)為例,在用戶購買資源時需要用戶進行自主選擇認為符合要求的計算資源,在業(yè)務(wù)部署后不能按照業(yè)務(wù)計算量的變化主動進行資源的釋放與增加。這樣可能需要用戶對計算具有很高的理解,同時也會導(dǎo)致由于業(yè)務(wù)對資源持續(xù)占用造成大量的浪費,因此需要重點研究針對用戶需求的智能化預(yù)測。
可信安全作為服務(wù)的一項基本能力是算力服務(wù)天然需要具備的特性。在任何場景下,安全可信都是開展算力服務(wù)的前提??尚潘懔Ψ?wù)要求對大到國家軍事政治等機密安全,小到對商業(yè)機密、個人隱私和財產(chǎn)安全都要有充分的保障。
可信算力服務(wù)主要對計算資源的安全可信、網(wǎng)絡(luò)信息安全,以及交易可信提供保障。首先,針對計算資源的安全可信上,可信算力服務(wù)可以通過對算力提供方的資質(zhì)核驗以及可信度的評估確保提供服務(wù)的算力安全可靠;其次,針對網(wǎng)絡(luò)信息安全要保證數(shù)據(jù)信息的硬件、軟件及數(shù)據(jù)受到保護,不因偶然的或者惡意的原因而遭到破壞、更改和泄露,系統(tǒng)連續(xù)可靠正常地運行,信息服務(wù)不中斷。這涉及計算機科學、網(wǎng)絡(luò)技術(shù)、通信技術(shù)、密碼技術(shù)、信息安全技術(shù)、系統(tǒng)工程、應(yīng)用數(shù)學、數(shù)論、信息論等多種學科的綜合。最后,針對可信交易問題,要確保交易的準確和可溯源,這就要涉及到區(qū)塊鏈等相關(guān)技術(shù)。
未來,計算的發(fā)展將從過去提供單一的網(wǎng)絡(luò)服務(wù)、網(wǎng)絡(luò)連接服務(wù)、計算服務(wù),逐步走向云網(wǎng)邊端協(xié)同服務(wù),走向算力跟網(wǎng)絡(luò)、計算跟網(wǎng)絡(luò)深度融合。算力服務(wù)需要依托網(wǎng)絡(luò)、智能、綠色、可信等技術(shù),將泛在的計算資源連接成網(wǎng),賦予其更強大的生命力,使算力網(wǎng)絡(luò)化、智能化、綠色化、可信化,從而實現(xiàn)算力資源的靈活按需供給。