商志彪 雷波 郭茜
摘要:提出一種基于端口地勢(shì)值比較的數(shù)據(jù)轉(zhuǎn)發(fā)新技術(shù)——Nature Flow。該技術(shù)不僅能有效確保二層數(shù)據(jù)無(wú)環(huán)路轉(zhuǎn)發(fā),而且能提升數(shù)據(jù)中心網(wǎng)絡(luò)開(kāi)放能力。新轉(zhuǎn)發(fā)架構(gòu)的價(jià)值在于構(gòu)建大規(guī)模二層拓?fù)浯姝h(huán)網(wǎng)絡(luò)的無(wú)環(huán)轉(zhuǎn)發(fā)能力、對(duì)應(yīng)用程序開(kāi)放網(wǎng)絡(luò)端到端的距離感知能力、網(wǎng)絡(luò)故障快速收斂和自愈能力、網(wǎng)絡(luò)擁塞時(shí)的流量自主調(diào)優(yōu)能力等。新轉(zhuǎn)發(fā)架構(gòu)有望變革現(xiàn)有技術(shù),助力未來(lái)數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)。
關(guān)鍵詞:Nature Flow;端口地勢(shì)值比較;無(wú)環(huán)路轉(zhuǎn)發(fā);自愈能力;端到端距離感知;流量自主調(diào)優(yōu)
Abstract: A new data forwarding technology Nature Flow based on the comparison of port terrain values is proposed, which can effectively ensure the no-loop forwarding of layer 2 data and improve the network opening ability of the data center. The value of the new forwarding architecture lies in the following aspects: the acyclic forwarding ability of large-scale two-layer network with topological rings, the end-to-end distance perception ability for the application in open network, the rapid convergence and self-healing ability of network failure, and selftuning ability of traffic in network congestion. The new forwarding architecture is expected to change the existing technology and help the future data center network construction.
Keywords: Nature Flow; port terrain value comparison; no-loop forwarding; self-healing ability; end-to-end distance sensing; traffic self-tuning
1. 新轉(zhuǎn)發(fā)架構(gòu)Nature Flow概述
1.1 傳統(tǒng)L2轉(zhuǎn)發(fā)原理
總體上,數(shù)據(jù)中心需要一個(gè)二層網(wǎng)絡(luò)。傳統(tǒng)的二層轉(zhuǎn)發(fā)通過(guò)報(bào)文中的目的媒體接入控制(DMAC)、虛擬局域網(wǎng)(VLAN)、PORT(計(jì)算機(jī)端口)信息查表來(lái)確定報(bào)文的出端口,并完成源媒體接入控制(SMAC)的學(xué)習(xí)。除了出端口信息外,所查表項(xiàng)結(jié)果幾乎不包含其他可有效指導(dǎo)網(wǎng)絡(luò)報(bào)文轉(zhuǎn)發(fā)的全局性信息。二層數(shù)據(jù)報(bào)文一旦遇到拓?fù)洵h(huán)路,將會(huì)造成“環(huán)路風(fēng)暴”,整個(gè)報(bào)文轉(zhuǎn)發(fā)系統(tǒng)將面臨崩潰。
1.2 Nature Flow轉(zhuǎn)發(fā)架構(gòu)
Nature Flow轉(zhuǎn)發(fā)架構(gòu)是一種全新的轉(zhuǎn)發(fā)與控制體系。它在每個(gè)轉(zhuǎn)發(fā)設(shè)備端口上設(shè)置邏輯地勢(shì)值,并在報(bào)文轉(zhuǎn)發(fā)時(shí)通過(guò)比較該值來(lái)判斷和選擇轉(zhuǎn)發(fā)出口。Nature Flow可實(shí)現(xiàn)二層數(shù)據(jù)包無(wú)環(huán)路轉(zhuǎn)發(fā)。這種在轉(zhuǎn)發(fā)中去除環(huán)路的方式與現(xiàn)有的生成樹(shù)協(xié)議(STP)[1]完全不同。STP的目標(biāo)是建立拓?fù)錈o(wú)環(huán)網(wǎng)絡(luò),而新轉(zhuǎn)發(fā)架構(gòu)的目標(biāo)是在拓?fù)浯姝h(huán)的網(wǎng)絡(luò)中完成無(wú)環(huán)路的二層數(shù)據(jù)轉(zhuǎn)發(fā)。拓?fù)洵h(huán)路可以有效提升整體網(wǎng)絡(luò)的可靠性,而轉(zhuǎn)發(fā)環(huán)路的存在是導(dǎo)致網(wǎng)絡(luò)中出現(xiàn)“環(huán)路風(fēng)暴”的根本原因。
三層路由轉(zhuǎn)發(fā)可實(shí)現(xiàn)數(shù)據(jù)流在拓?fù)浯姝h(huán)網(wǎng)絡(luò)上的無(wú)環(huán)路轉(zhuǎn)發(fā)。Nature Flow轉(zhuǎn)發(fā)架構(gòu)也是一種新型的二層路由轉(zhuǎn)發(fā)協(xié)議,在一定程度上可以通過(guò)對(duì)現(xiàn)有地址解析協(xié)議(ARP)/鄰居發(fā)現(xiàn)協(xié)議(ND) 等的改造來(lái)初步實(shí)現(xiàn)。
Nature Flow轉(zhuǎn)發(fā)體系的構(gòu)建大致包括兩個(gè)階段:
(1)分布式地勢(shì)圖的構(gòu)建
媒體接入控制(MAC)地址的擁有端通過(guò)一種全新方式向整個(gè)網(wǎng)絡(luò)發(fā)布該MAC地址的網(wǎng)絡(luò)轉(zhuǎn)發(fā)地勢(shì)值,該值被記錄在途經(jīng)的每個(gè)網(wǎng)絡(luò)設(shè)備的每個(gè)端口上。針對(duì)固定的某個(gè)端口,該值等于端口到MAC地址所需經(jīng)歷的端到端的網(wǎng)絡(luò)距離。當(dāng)該MAC地址的地勢(shì)值在全網(wǎng)發(fā)布完成時(shí),一個(gè)類(lèi)似“等高線(xiàn)”形態(tài)的全網(wǎng)絡(luò)的分布式地勢(shì)值分布圖將會(huì)形成。
(2)數(shù)據(jù)轉(zhuǎn)發(fā)依地勢(shì)高低進(jìn)行自然流動(dòng)
在地勢(shì)分布構(gòu)建完成之后,轉(zhuǎn)發(fā)規(guī)則的設(shè)計(jì)變得非常簡(jiǎn)單。參照自然界中水自然流動(dòng)的原理,建立只允許數(shù)據(jù)報(bào)文從高地勢(shì)值向更低地勢(shì)值的轉(zhuǎn)發(fā)規(guī)則,以確保每轉(zhuǎn)發(fā)一次的地勢(shì)值都比之前路徑節(jié)點(diǎn)的地勢(shì)值低。在這種條件的約束下,整個(gè)轉(zhuǎn)發(fā)路徑中的環(huán)路就不會(huì)形成。如果轉(zhuǎn)發(fā)設(shè)備中存在多條更低地勢(shì)的轉(zhuǎn)發(fā)路徑,就選取對(duì)應(yīng)地勢(shì)最低的那一條。
1.3新概念:端口地勢(shì)值和全播過(guò)程
地勢(shì)值是Nature Flow轉(zhuǎn)發(fā)架構(gòu)下的新概念。設(shè)備的每個(gè)轉(zhuǎn)發(fā)端口都具有一個(gè)或者多個(gè)針對(duì)某個(gè)目的MAC的地勢(shì)值。該值被記錄在MAC查找結(jié)果表中,并在轉(zhuǎn)發(fā)時(shí)被用來(lái)比較權(quán)衡。端口地勢(shì)值記錄的是從該端口到達(dá)特定目的MAC優(yōu)選路徑上的全部鏈路在某一種鏈路屬性上的累加和。該累加和同時(shí)也表示,在某種屬性下,該端口到達(dá)目的MAC的網(wǎng)絡(luò)距離。以跳數(shù)(HOP)作為鏈路屬性為例,假設(shè)某端口到達(dá)目的MAC的累加和為3,則從該端口轉(zhuǎn)發(fā)數(shù)據(jù)包到目的MAC接收端共有3跳的網(wǎng)絡(luò)距離。在新轉(zhuǎn)發(fā)架構(gòu)下,鏈路屬性有多種,如HOP、時(shí)延、可靠性等。該屬性需要具有隨鏈路增加而累加增大的特征。同一個(gè)端口對(duì)不同目的MAC會(huì)有不同的地勢(shì)值。整個(gè)網(wǎng)絡(luò)中每個(gè)設(shè)備的每個(gè)端口針對(duì)相同目的MAC也會(huì)有不同的地勢(shì)值。這是新架構(gòu)與傳統(tǒng)MAC表中數(shù)據(jù)結(jié)構(gòu)最大的不同,也是新轉(zhuǎn)發(fā)架構(gòu)得以實(shí)現(xiàn)更高網(wǎng)絡(luò)能力的基礎(chǔ)。
全播是Nature Flow轉(zhuǎn)發(fā)架構(gòu)下構(gòu)建網(wǎng)絡(luò)地勢(shì)分布的過(guò)程,也是在地勢(shì)轉(zhuǎn)發(fā)網(wǎng)絡(luò)中對(duì)傳統(tǒng)廣播過(guò)程的有效替代。全播的發(fā)起者是MAC地址的擁有者,也是設(shè)備轉(zhuǎn)發(fā)表項(xiàng)中的目的MAC端。發(fā)起者通過(guò)全播過(guò)程在全網(wǎng)中建立MAC地址的地勢(shì)值分布。與廣播和組播過(guò)程不同,在傳播過(guò)程中全播會(huì)在報(bào)文中攜帶地勢(shì)值,并且在每次設(shè)備轉(zhuǎn)發(fā)時(shí)修正報(bào)文中的地勢(shì)值。假設(shè)針對(duì)某個(gè)轉(zhuǎn)發(fā)系統(tǒng),即在同一個(gè)VLAN或者虛擬網(wǎng)絡(luò)標(biāo)識(shí)(VNI)內(nèi),存在A、B、C、D共4個(gè)端口。由A口收到地勢(shì)值為1的某個(gè)MAC地址的全播報(bào)文,在轉(zhuǎn)發(fā)時(shí)會(huì)向B、C、D口轉(zhuǎn)發(fā)地勢(shì)值為2的全播報(bào)文。上述轉(zhuǎn)發(fā)行為是以HOP為地勢(shì)的參考屬性。針對(duì)來(lái)自相同MAC地址的全播報(bào)文,中間轉(zhuǎn)發(fā)設(shè)備會(huì)自主記錄來(lái)自不同入端口的地勢(shì)值,并只會(huì)向遠(yuǎn)端傳播當(dāng)下最小地勢(shì)值的全播報(bào)文(其他地勢(shì)值對(duì)應(yīng)的路徑均作為本地備份路徑)。這種傳播方式可以有效地減少報(bào)文的傳播次數(shù),同時(shí)也避免了報(bào)文的環(huán)路傳播。
以HOP為鏈路屬性參考,全播過(guò)程使網(wǎng)絡(luò)中每個(gè)端口均記錄到達(dá)該MAC的最優(yōu)“生存時(shí)間(TTL)值”。同時(shí)這個(gè)傳播過(guò)程是隨時(shí)可以擴(kuò)展的,更適合鏈路的動(dòng)態(tài)變化的場(chǎng)景。如圖1所示,該圖以MAC節(jié)點(diǎn)A完成基于跳數(shù)的全播過(guò)程來(lái)說(shuō)明整個(gè)轉(zhuǎn)發(fā)控制過(guò)程。
在Nature Flow轉(zhuǎn)發(fā)系統(tǒng)中,假設(shè)網(wǎng)絡(luò)中存在末端系統(tǒng)(ES)節(jié)點(diǎn)和中間系統(tǒng)(IS)節(jié)點(diǎn)。圖1中橙色的圓點(diǎn)表示ES節(jié)點(diǎn),即具有MAC地址的實(shí)體,是全播的發(fā)起者。ES節(jié)點(diǎn)對(duì)應(yīng)每個(gè)應(yīng)用程序(APP)或者主機(jī)的MAC地址,具有轉(zhuǎn)發(fā)表項(xiàng)和協(xié)議棧能力,同時(shí)也是全播的終結(jié)點(diǎn)。圖1中藍(lán)色八邊形表示IS節(jié)點(diǎn),即整個(gè)網(wǎng)絡(luò)中的數(shù)據(jù)轉(zhuǎn)發(fā)設(shè)備,如交換機(jī)或者路由器,是全播的轉(zhuǎn)發(fā)節(jié)點(diǎn)和地勢(shì)值累加節(jié)點(diǎn)。
每個(gè)ES節(jié)點(diǎn)需要向全網(wǎng)全播自己的MAC地址,以使得網(wǎng)絡(luò)中其他節(jié)點(diǎn)獲得相應(yīng)的的網(wǎng)絡(luò)距離和出端口信息。反之,在接收其他節(jié)點(diǎn)發(fā)送過(guò)來(lái)的全播報(bào)文時(shí),ES節(jié)點(diǎn)也獲得去往該節(jié)點(diǎn)的出口信息和網(wǎng)絡(luò)距離信息(記錄在全播報(bào)文中的經(jīng)過(guò)無(wú)數(shù)次累加之后的地勢(shì)值)。作為全播報(bào)文的發(fā)起者,ES節(jié)點(diǎn)發(fā)送出去的初始全播報(bào)文的地勢(shì)值是最低的。以HOP為例,如果在全播報(bào)文中設(shè)置HOP=1,那么以后每被設(shè)備轉(zhuǎn)發(fā)一次則加1。
假設(shè)圖1中所有的節(jié)點(diǎn)和路徑都處于同一個(gè)轉(zhuǎn)發(fā)系統(tǒng)(即VLAN)中,以IS節(jié)點(diǎn)A為例,當(dāng)IS收到HOP=1的來(lái)自MAC A的全播地勢(shì)信息時(shí),轉(zhuǎn)發(fā)系統(tǒng)內(nèi)有3個(gè)端口:連接MAC A的端口、連接節(jié)點(diǎn)B的端口、連接節(jié)點(diǎn)D的端口。根據(jù)水平分割原理,出端口為節(jié)點(diǎn)B和節(jié)點(diǎn)D的方向。網(wǎng)絡(luò)設(shè)備在向下轉(zhuǎn)發(fā)全播時(shí),需要在報(bào)文的當(dāng)前地勢(shì)值中累積增加從節(jié)點(diǎn)B到節(jié)點(diǎn)A(或者從節(jié)點(diǎn)D到節(jié)點(diǎn)A)的地勢(shì)差值,然后將修改后的全播報(bào)文發(fā)送給節(jié)點(diǎn)B和節(jié)點(diǎn)D。圖1中的數(shù)字表示的是,在整個(gè)全播過(guò)程完成后各個(gè)節(jié)點(diǎn)的端口以跳數(shù)為參考的地勢(shì)值分布,其中節(jié)點(diǎn)C和節(jié)點(diǎn)E都會(huì)收到兩個(gè)地勢(shì)值。然而,設(shè)備只把最低的地勢(shì)值3累加后向外傳播,并將更大的地勢(shì)值作為本地備份鏈路使用。同一個(gè)MAC地址通過(guò)全播的方式不斷擴(kuò)散,并在整個(gè)網(wǎng)絡(luò)中形成一種類(lèi)似“等高線(xiàn)”的地勢(shì)分布。該地勢(shì)分布為反方向的數(shù)據(jù)轉(zhuǎn)發(fā)以提供路徑指導(dǎo)。圖1的拓?fù)浣Y(jié)構(gòu)存在環(huán)路。節(jié)點(diǎn)C和節(jié)點(diǎn)E可以同時(shí)存在兩個(gè)轉(zhuǎn)發(fā)地勢(shì)值,并形成轉(zhuǎn)發(fā)出口的主備關(guān)系。不同的出口對(duì)應(yīng)不同的到達(dá)MAC A的路徑(圖1中我們以綠色字體和黑色字體進(jìn)行區(qū)別)。
1.4 Nature Flow架構(gòu)下的設(shè)備轉(zhuǎn)發(fā)規(guī)則
Nature Flow轉(zhuǎn)發(fā)系統(tǒng)與傳統(tǒng)的轉(zhuǎn)發(fā)規(guī)則完全不同。傳統(tǒng)轉(zhuǎn)發(fā)規(guī)則中的MAC結(jié)果表中不記錄地勢(shì)值信息,只記錄出接口信息。傳統(tǒng)轉(zhuǎn)發(fā)規(guī)則只能查找到特定的出口,進(jìn)而完成數(shù)據(jù)的轉(zhuǎn)發(fā),并不適應(yīng)網(wǎng)絡(luò)的拓?fù)渥兓?。Nature Flow通過(guò)全播建立基于自身MAC的整網(wǎng)出端口地勢(shì)值分布,使得轉(zhuǎn)發(fā)數(shù)據(jù)流量可以像自然界中水流一樣在整個(gè)基于地勢(shì)分布的網(wǎng)絡(luò)內(nèi)流動(dòng)。這也是新的轉(zhuǎn)發(fā)架構(gòu)被命名為Nature Flow的原因。
假設(shè)存在網(wǎng)絡(luò)轉(zhuǎn)發(fā)設(shè)備M,從A端口進(jìn)入的目的地址為MAC X,轉(zhuǎn)發(fā)系統(tǒng)為VLAN Y數(shù)據(jù)流量,那么設(shè)備轉(zhuǎn)發(fā)規(guī)則為:
(1)FIND端口組{O} IN VLAN Y where DMAC=MAC X且端口i的地勢(shì)小于端口A的地勢(shì);
(2)最優(yōu)出口i=MIN{端口i地勢(shì)} where i in端口組{O}。
依據(jù)轉(zhuǎn)發(fā)規(guī)則,系統(tǒng)在第1步尋找全部可用的無(wú)環(huán)路轉(zhuǎn)發(fā)端口組,在第2步尋找端口組中最優(yōu)轉(zhuǎn)發(fā)路徑的出端口,以實(shí)現(xiàn)到達(dá)目標(biāo)節(jié)點(diǎn)網(wǎng)絡(luò)距離最小的出口路徑轉(zhuǎn)發(fā)。在鏈路發(fā)生變化時(shí),這種轉(zhuǎn)發(fā)方式可以有更多的轉(zhuǎn)發(fā)路徑選擇,并具有更高的魯棒性。除此之外,第2步的最優(yōu)出口策略也可以進(jìn)行調(diào)節(jié)。比如,在發(fā)生出口擁塞時(shí),如果所轉(zhuǎn)發(fā)的報(bào)文沒(méi)有保序要求,那么第2步就可變更為尋找最大剩余帶寬的路徑出口,以更好地自主規(guī)避網(wǎng)絡(luò)擁塞。
2 Nature Flow架構(gòu)網(wǎng)絡(luò)的潛在應(yīng)用價(jià)值
2.1 大規(guī)模網(wǎng)絡(luò)二層數(shù)據(jù)轉(zhuǎn)發(fā)中去除環(huán)路的能力
在數(shù)據(jù)網(wǎng)絡(luò)中,無(wú)論是三層路由協(xié)議還是二層轉(zhuǎn)發(fā)都面臨環(huán)路轉(zhuǎn)發(fā)問(wèn)題。以開(kāi)放式最短路徑優(yōu)先(OSPF)[2]和邊界網(wǎng)關(guān)協(xié)議(BGP)[3]為例,OSPF區(qū)域內(nèi)通過(guò)最短路徑優(yōu)先(SPF)算法實(shí)現(xiàn)無(wú)環(huán)路路由,OSPF區(qū)域間通過(guò)強(qiáng)制與骨干區(qū)域連接實(shí)現(xiàn)去環(huán)。外部邊界網(wǎng)關(guān)協(xié)議(EBGP)通過(guò)自治區(qū)域路徑信息(AS-PATH)屬性的序列檢查來(lái)實(shí)現(xiàn)防環(huán),內(nèi)部邊界網(wǎng)關(guān)協(xié)議(IBGP)通過(guò)限制路由學(xué)習(xí)來(lái)實(shí)現(xiàn)無(wú)環(huán)。Nature Flow以基礎(chǔ)的二層轉(zhuǎn)發(fā)架構(gòu)為起點(diǎn),它去除環(huán)路的原理主要通過(guò)轉(zhuǎn)發(fā)地勢(shì)值的持續(xù)遞減來(lái)實(shí)現(xiàn),即數(shù)據(jù)流的每次轉(zhuǎn)發(fā)行為都會(huì)使該地勢(shì)值降低一次。這樣地勢(shì)值就不可能回到原來(lái)的高度,也就無(wú)法形成閉合的網(wǎng)絡(luò)轉(zhuǎn)發(fā)環(huán)路。該技術(shù)打破當(dāng)前二層網(wǎng)絡(luò)必須部署在樹(shù)形網(wǎng)絡(luò)拓?fù)渖系南拗?,可以?shí)現(xiàn)規(guī)模更大、拓?fù)涓訌?fù)雜的二層網(wǎng)絡(luò)。在超大規(guī)模數(shù)據(jù)中心組網(wǎng)實(shí)踐中,基于距離向量的路由算法具有更小的網(wǎng)絡(luò)狀態(tài)同步需求,并逐漸在諸如FaceBook設(shè)計(jì)的F4[4]和F16數(shù)據(jù)中心Fabric架構(gòu)下使用。同時(shí)為了方便大規(guī)模網(wǎng)絡(luò)的運(yùn)維和管理,超大規(guī)模數(shù)據(jù)中心更傾向于使用單一的路由協(xié)議[5]。Nature Flow能夠很好地滿(mǎn)足上述條件。當(dāng)二層網(wǎng)絡(luò)不再受廣播風(fēng)暴、規(guī)模等問(wèn)題限制時(shí),數(shù)據(jù)中心網(wǎng)絡(luò)的發(fā)展將迎來(lái)新的機(jī)遇。
2.2 應(yīng)用程序?qū)W(wǎng)絡(luò)端到端距離的感知能力
在現(xiàn)有的數(shù)據(jù)中心網(wǎng)絡(luò)系統(tǒng)中,信息技術(shù)(IT)系統(tǒng)負(fù)責(zé)發(fā)送和接收數(shù)據(jù)報(bào)文,通信技術(shù)(CT)系統(tǒng)負(fù)責(zé)轉(zhuǎn)發(fā)數(shù)據(jù)報(bào)文。然而,IT系統(tǒng)和CT系統(tǒng)之間的深度交互卻是有限的。這給整個(gè)系統(tǒng)業(yè)務(wù)的故障定位帶來(lái)很大的困難,比如涉及業(yè)務(wù)軟件系統(tǒng)的傳輸控制協(xié)議(TCP)時(shí)間超時(shí)等故障問(wèn)題。
在Nature Flow轉(zhuǎn)發(fā)系統(tǒng)中,每個(gè)ES節(jié)點(diǎn)都會(huì)記錄目的MAC端的累積地勢(shì)值,即到達(dá)目的MAC的網(wǎng)絡(luò)距離。如圖2所示,以跳數(shù)為例,假設(shè)數(shù)據(jù)通信發(fā)生在MAC A和MAC B之間,那么在故障發(fā)生之前,MAC A設(shè)備上記錄MAC B的以HOP為參考的地勢(shì)值為3。當(dāng)故障發(fā)生后,網(wǎng)絡(luò)會(huì)動(dòng)態(tài)收斂并更新地勢(shì)值,MAC A設(shè)備上記錄MAC B的以HOP為參考的地勢(shì)值會(huì)變成5。此時(shí),MAC A設(shè)備可以通過(guò)這種變化感知到網(wǎng)絡(luò)狀態(tài)也發(fā)生了變化。如果HOP變成5之后不可接受,那么應(yīng)用軟件可以更靈活地進(jìn)行判別與處理。在新架構(gòu)下,應(yīng)用程序可通過(guò)對(duì)本地目的MAC表中的地勢(shì)值的查詢(xún)來(lái)發(fā)現(xiàn)網(wǎng)絡(luò)的變化,以提升應(yīng)用程序?qū)W(wǎng)絡(luò)的感知能力。與此同時(shí),網(wǎng)絡(luò)也向應(yīng)用開(kāi)放端到端的網(wǎng)絡(luò)距離感知能力。在傳統(tǒng)的網(wǎng)絡(luò)中,應(yīng)用無(wú)法感知網(wǎng)絡(luò)的變化和具體狀態(tài),只能通過(guò)應(yīng)用層的超時(shí)異常來(lái)報(bào)告網(wǎng)絡(luò)故障。類(lèi)似Ping的運(yùn)維手段也無(wú)法反映圖2中的網(wǎng)絡(luò)變化過(guò)程差異。新轉(zhuǎn)發(fā)架構(gòu)的這一開(kāi)放能力,將在云計(jì)算與網(wǎng)絡(luò)技術(shù)的融合中帶來(lái)巨大的商業(yè)價(jià)值。IT系統(tǒng)可以查詢(xún)到達(dá)目標(biāo)網(wǎng)絡(luò)的端到端距離,可更好地感知網(wǎng)絡(luò)的變化,從而更好地規(guī)劃如何使用網(wǎng)絡(luò)來(lái)打造更優(yōu)質(zhì)的云平臺(tái),實(shí)現(xiàn)網(wǎng)端入云和云端知網(wǎng)的信息通信技術(shù)(ICT)融合,助力運(yùn)營(yíng)商打造更優(yōu)質(zhì)、更開(kāi)放的網(wǎng)絡(luò)新平臺(tái)。以當(dāng)前的內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)業(yè)務(wù)為例,新轉(zhuǎn)發(fā)架構(gòu)可以使業(yè)務(wù)通過(guò)判斷不同緩存節(jié)點(diǎn)到達(dá)目標(biāo)互聯(lián)網(wǎng)協(xié)議(IP)的網(wǎng)絡(luò)距離來(lái)選擇最近的緩存節(jié)點(diǎn),而不是只能依靠固定物理地址與固定IP的對(duì)應(yīng)關(guān)系來(lái)計(jì)算遠(yuǎn)近距離。其中,后者只是算法的能力,而不是網(wǎng)絡(luò)的開(kāi)放能力。同時(shí)后者僅粗略地估計(jì)距離,在時(shí)延方面的應(yīng)用比較有限。
2.3 網(wǎng)絡(luò)彈縮的快速收斂及自愈能力
任何轉(zhuǎn)發(fā)和路由算法都需要面對(duì)網(wǎng)絡(luò)中設(shè)備和鏈路的動(dòng)態(tài)增刪。在動(dòng)態(tài)增刪過(guò)程中,快速收斂特性是整個(gè)算法的核心優(yōu)勢(shì)。在Nature Flow轉(zhuǎn)發(fā)系統(tǒng)中,鏈路的增刪會(huì)帶來(lái)局部多個(gè)MAC地址的地勢(shì)值變化,并需要觸發(fā)對(duì)前期全播過(guò)程的擴(kuò)展。當(dāng)整個(gè)擴(kuò)展的全播過(guò)程完成時(shí),新的轉(zhuǎn)發(fā)地勢(shì)分布就會(huì)形成,整個(gè)網(wǎng)絡(luò)的快速收斂也將實(shí)現(xiàn)。
網(wǎng)絡(luò)的變動(dòng)情況大體上分為兩類(lèi):網(wǎng)絡(luò)鏈路的增加和網(wǎng)絡(luò)鏈路的刪除。網(wǎng)絡(luò)中整臺(tái)網(wǎng)絡(luò)設(shè)備的增減可以映射為多條網(wǎng)絡(luò)鏈路的變動(dòng)。
在Nature Flow系統(tǒng)中,如果增加新的鏈路,新鏈路兩端的節(jié)點(diǎn)設(shè)備在感知到網(wǎng)絡(luò)發(fā)生變化后,會(huì)針對(duì)本地MAC表中具有相同轉(zhuǎn)發(fā)系統(tǒng)(即VLAN)的條目,在新鏈路上啟動(dòng)新的地勢(shì)分布的全播。該過(guò)程不僅實(shí)現(xiàn)向新增鏈路的兩個(gè)端口發(fā)送本地最優(yōu)地勢(shì)值的全播報(bào)文,還實(shí)現(xiàn)新增接口針對(duì)轉(zhuǎn)發(fā)系統(tǒng)內(nèi)全部MAC的地勢(shì)值的分布。此外,如果出現(xiàn)新增鏈路接口的地勢(shì)值低于設(shè)備原有地勢(shì)值的情況,就需要把新的最小的地勢(shì)值繼續(xù)通過(guò)全播的方式向遠(yuǎn)端傳遞。
在Nature Flow系統(tǒng)中,假設(shè)原有鏈路可被刪除,包括鏈路故障或者節(jié)點(diǎn)故障等情況。在刪除前的全播過(guò)程中,如果該鏈路作為最優(yōu)路徑被選中,則需要向原來(lái)的該鏈路全播方向發(fā)送一種全新的全播鏈路刪除報(bào)文,以告知整個(gè)路徑中的節(jié)點(diǎn)刪除轉(zhuǎn)發(fā)表項(xiàng)中早期通告過(guò)的針對(duì)某個(gè)MAC地址的地勢(shì)值,并重新選擇最小的地勢(shì)值路徑。全播鏈路刪除報(bào)文需要擴(kuò)散至整個(gè)故障鏈路以下的全部網(wǎng)絡(luò)節(jié)點(diǎn)和主機(jī)節(jié)點(diǎn)。如果在前期的全播傳播中,被刪除的鏈路只作為備份路徑使用,那么只需要在MAC轉(zhuǎn)發(fā)表中刪除原有的備份表項(xiàng),同時(shí)通過(guò)全播擴(kuò)展過(guò)程只在備份鏈路上通告刪除備份路徑的相關(guān)表項(xiàng)。
在整體算法設(shè)計(jì)上,鏈路的動(dòng)態(tài)增刪只涉及原有全播過(guò)程的擴(kuò)展和修正。全播報(bào)文傳遞完成意味著對(duì)應(yīng)的網(wǎng)絡(luò)收斂過(guò)程的完成。與傳統(tǒng)網(wǎng)絡(luò)中的雙向轉(zhuǎn)發(fā)檢測(cè)(BFD)和快速重路由(FRR)過(guò)程相比,新的轉(zhuǎn)發(fā)框架可以有效實(shí)現(xiàn)網(wǎng)絡(luò)的自愈,能夠更好地應(yīng)對(duì)網(wǎng)絡(luò)的故障收斂。
Nature Flow轉(zhuǎn)發(fā)框架是為未來(lái)數(shù)據(jù)中心動(dòng)態(tài)網(wǎng)絡(luò)而設(shè)計(jì)的。如果網(wǎng)絡(luò)中的某條鏈路屬性發(fā)生變化,整個(gè)網(wǎng)絡(luò)中基于該屬性的地勢(shì)分布的變化也可能會(huì)被觸發(fā)。通常情況下,以HOP為參考的屬性不易發(fā)生變化,可以作為Nature Flow的基礎(chǔ)屬性。然而,以時(shí)延為參考的鏈路屬性卻常常是動(dòng)態(tài)變化的。如果某一條鏈路時(shí)延屬性的變動(dòng)超出一定范圍,就需要通過(guò)全播來(lái)重新發(fā)送到全網(wǎng)。該實(shí)現(xiàn)過(guò)程與鏈路的增刪類(lèi)似。如果某條鏈路的時(shí)延屬性變大,那么需要?jiǎng)h除原來(lái)的低時(shí)延全播通告,同時(shí)完成新的更大時(shí)延的全播通告;如果某條鏈路的時(shí)延屬性變小,就需要?jiǎng)h除原來(lái)較大的時(shí)延全播通告,同時(shí)完成新的較小時(shí)延的全播通告。
如圖3所示,我們對(duì)每個(gè)IS設(shè)備的端口進(jìn)行詳細(xì)命名。命名規(guī)則為:以向上為1開(kāi)始,并沿順時(shí)針?lè)较蜻f增。在全播過(guò)程完成后,各設(shè)備的轉(zhuǎn)發(fā)表項(xiàng)狀態(tài)如表1所示。轉(zhuǎn)發(fā)設(shè)備可以根據(jù)目的MAC、轉(zhuǎn)發(fā)系統(tǒng)、入端口來(lái)查找整個(gè)表項(xiàng),并找到有效的出端口。例如,當(dāng)主用出口發(fā)生故障時(shí),C1和C2這類(lèi)具有備用出口的轉(zhuǎn)發(fā)就需要網(wǎng)絡(luò)設(shè)備感知到故障,并刪除當(dāng)前的最優(yōu)路徑。主路徑刪除后,再次查詢(xún)時(shí)備用路徑就會(huì)被作為最優(yōu)的轉(zhuǎn)發(fā)出接口,完全不需要FRR過(guò)程和拓?fù)錈o(wú)環(huán)備份(LFA)保護(hù),這具有在大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)中應(yīng)用的潛力。
2.4 路徑資源占用的擁塞調(diào)度與自主調(diào)優(yōu)能力
針對(duì)數(shù)據(jù)中心網(wǎng)絡(luò),網(wǎng)絡(luò)流量模型具有一定的突發(fā)性和動(dòng)態(tài)性特征[6]。網(wǎng)絡(luò)鏈路利用率的不均衡調(diào)節(jié)和擁塞控制調(diào)節(jié)就變得極為重要。在高性能計(jì)算(HPC)網(wǎng)絡(luò)和分布式存儲(chǔ)網(wǎng)絡(luò)中,應(yīng)用對(duì)丟包極為敏感。例如,1%的丟包可能會(huì)造成極為重大的性能損失。這就需要網(wǎng)絡(luò)在整體上構(gòu)建路徑擁塞控制調(diào)節(jié)機(jī)制,以盡可能減少網(wǎng)絡(luò)擁塞造成的丟包[7]。繼DCQCN(數(shù)據(jù)中心QCN)之后,2019年阿里巴巴集團(tuán)提出高精度擁塞控制(HPCC)算法[8],通過(guò)在TCP協(xié)議的確認(rèn)字符(ACK)報(bào)文中增加擁塞控制標(biāo)識(shí)來(lái)完成有效的端點(diǎn)發(fā)送流量控制,并通過(guò)有效調(diào)節(jié)應(yīng)用發(fā)送端的流量大小來(lái)規(guī)避進(jìn)一步的擁塞。但是對(duì)于網(wǎng)絡(luò)內(nèi)部由其他流量對(duì)共享鏈路資源的爭(zhēng)用所帶來(lái)的擁塞,僅通過(guò)該算法在發(fā)送端調(diào)節(jié)流量是不能徹底地解決這一問(wèn)題的。本文所提出的Nature Flow算法可以有效地解決此類(lèi)鏈路擁塞問(wèn)題,并實(shí)現(xiàn)對(duì)擁塞控制的自主優(yōu)化調(diào)度。
Nature Flow架構(gòu)的轉(zhuǎn)發(fā)設(shè)計(jì)在擁塞控制方面具有如下可行方案:
(1)當(dāng)整體網(wǎng)絡(luò)中存在軟件定義網(wǎng)絡(luò)(SDN)控制器等全局統(tǒng)一管控平臺(tái)時(shí),如果某條鏈路發(fā)生擁塞,就可以針對(duì)該鏈路中占比較大的擁塞流量,調(diào)高該端口針對(duì)該條流量的地勢(shì)值。該地勢(shì)值的變動(dòng)會(huì)重新觸發(fā)整個(gè)網(wǎng)絡(luò)的地勢(shì)變化和局部重新選路,使得部分流量繞行擁塞鏈路。
(2)如果在最優(yōu)路徑轉(zhuǎn)發(fā)時(shí)仍然出現(xiàn)鏈路擁塞,Nature Flow則有能力調(diào)節(jié)轉(zhuǎn)發(fā)選路策略。比如,針對(duì)無(wú)嚴(yán)格保序要求的報(bào)文,如用戶(hù)數(shù)據(jù)報(bào)協(xié)議(UDP)報(bào)文,Nature Flow不再按照最優(yōu)路徑轉(zhuǎn)發(fā),而是在全部無(wú)環(huán)轉(zhuǎn)發(fā)路徑組中選擇當(dāng)前剩余帶寬最大的路徑,以避免進(jìn)一步加劇擁塞。
(3)當(dāng)某條鏈路發(fā)生擁塞時(shí),基于Nature Flow的轉(zhuǎn)發(fā)架構(gòu)具有鏈路增刪的快速收斂能力,可以在擁塞鏈路的局部增加對(duì)應(yīng)轉(zhuǎn)發(fā)系統(tǒng)的鏈路。其他轉(zhuǎn)發(fā)系統(tǒng)的鏈路也可以被臨時(shí)借用到擁塞鏈路的流量轉(zhuǎn)發(fā)上,并在擁塞解除后被重新還原,以實(shí)現(xiàn)網(wǎng)絡(luò)架構(gòu)對(duì)擁塞的動(dòng)態(tài)應(yīng)對(duì)。
與傳統(tǒng)路由協(xié)議和二層轉(zhuǎn)發(fā)相比,Nature Flow轉(zhuǎn)發(fā)架構(gòu)在全網(wǎng)絡(luò)所有設(shè)備的MAC表項(xiàng)中分布式地記錄網(wǎng)絡(luò)距離(即地勢(shì)值)的全局性信息。相比于當(dāng)前的鏈路狀態(tài)算法,如OSPF和ISIS等,該架構(gòu)使用全局性信息來(lái)指導(dǎo)網(wǎng)絡(luò)流量轉(zhuǎn)發(fā),具有更優(yōu)的網(wǎng)絡(luò)動(dòng)態(tài)適應(yīng)性。
Nature Flow在網(wǎng)絡(luò)流量工程調(diào)節(jié)方面也具有綜合優(yōu)勢(shì),尤其是在與未來(lái)網(wǎng)絡(luò)SDN控制器及人工智能(AI)技術(shù)的結(jié)合方面。全播過(guò)程使每個(gè)MAC地址都有一張網(wǎng)絡(luò)地勢(shì)分布圖,可以有效指導(dǎo)網(wǎng)絡(luò)路徑轉(zhuǎn)發(fā),規(guī)避無(wú)環(huán)路和擁塞。更重要的是,通過(guò)SDN控制器或者AI技術(shù)來(lái)優(yōu)化和調(diào)節(jié)這些地勢(shì)值,可以實(shí)現(xiàn)對(duì)整個(gè)網(wǎng)絡(luò)流量的精準(zhǔn)調(diào)度與控制。
3 對(duì)新轉(zhuǎn)發(fā)架構(gòu)的思考
3.1 Nature Flow新架構(gòu)給現(xiàn)有設(shè)備帶來(lái)的改變
新轉(zhuǎn)發(fā)架構(gòu)改變了整個(gè)二層MAC數(shù)據(jù)流的轉(zhuǎn)發(fā)規(guī)則,給整個(gè)網(wǎng)絡(luò)能力的開(kāi)放帶來(lái)新的機(jī)會(huì)與挑戰(zhàn)。新架構(gòu)可以解決當(dāng)前網(wǎng)絡(luò)所面臨的諸多難題,但同時(shí)也對(duì)轉(zhuǎn)發(fā)設(shè)備提出新的要求。Nature Flow新轉(zhuǎn)發(fā)架構(gòu)的實(shí)現(xiàn)會(huì)給網(wǎng)絡(luò)設(shè)備帶來(lái)如下需求:
(1)MAC轉(zhuǎn)發(fā)表項(xiàng)的數(shù)據(jù)結(jié)構(gòu)變化
Nature Flow轉(zhuǎn)發(fā)架構(gòu)改變了底層目的MAC轉(zhuǎn)發(fā)表的數(shù)據(jù)結(jié)構(gòu),在MAC轉(zhuǎn)發(fā)表中增加了一個(gè)或多個(gè)基于屬性的地勢(shì)值。這種改變?cè)黾恿薓AC轉(zhuǎn)發(fā)表項(xiàng)的大小,但并未增加MAC表項(xiàng)的條目需求。MAC表項(xiàng)的條目增加僅僅是備份鏈路的增加,它可以解決傳統(tǒng)MAC飄逸等帶來(lái)的相關(guān)問(wèn)題。MAC學(xué)習(xí)和MAC老化都是由整個(gè)全播過(guò)程來(lái)完成的。在當(dāng)前的網(wǎng)絡(luò)協(xié)議中增加全播能力并不是一件困難的事情。具體的全播過(guò)程可以在現(xiàn)有網(wǎng)絡(luò)上通過(guò)免費(fèi)ARP等相關(guān)技術(shù)的改造來(lái)實(shí)現(xiàn)。
(2)設(shè)備轉(zhuǎn)發(fā)邏輯和算法的創(chuàng)新
基于地勢(shì)的全播過(guò)程創(chuàng)新地打造一組針對(duì)目的MAC地址的無(wú)環(huán)路轉(zhuǎn)發(fā)路徑。相關(guān)路徑信息被分布式地記錄在設(shè)備的轉(zhuǎn)發(fā)表項(xiàng)中。由于有地勢(shì)值的指導(dǎo),Nature Flow轉(zhuǎn)發(fā)邏輯路徑選擇的空間更大,優(yōu)選路徑的策略更多,可以實(shí)現(xiàn)更高效的數(shù)據(jù)流量工程能力。此外,與實(shí)現(xiàn)IP路由的參數(shù)化模塊庫(kù)(LPM)查找類(lèi)似,網(wǎng)絡(luò)設(shè)備也需要比原來(lái)傳統(tǒng)轉(zhuǎn)發(fā)邏輯更加復(fù)雜的算法。新的轉(zhuǎn)發(fā)邏輯雖然可以在純軟件的基礎(chǔ)上實(shí)現(xiàn),比如將地勢(shì)轉(zhuǎn)發(fā)邏輯構(gòu)建在基于軟件的MAC路由信息表(RIB)中,真實(shí)的報(bào)文轉(zhuǎn)發(fā)依然由傳統(tǒng)的轉(zhuǎn)發(fā)芯片來(lái)承擔(dān)。更近一步地,如果能夠在芯片層面實(shí)現(xiàn)對(duì)新的轉(zhuǎn)發(fā)架構(gòu)邏輯的支持,就有可能打造出新的數(shù)通轉(zhuǎn)發(fā)設(shè)備,如白盒設(shè)備等。
(3)全播報(bào)文的控制與對(duì)賬
新轉(zhuǎn)發(fā)架構(gòu)建立在整個(gè)網(wǎng)絡(luò)的全播過(guò)程上,取代了傳統(tǒng)的泛洪式轉(zhuǎn)發(fā)。由于需要建立高效的全播地勢(shì)分布,整個(gè)網(wǎng)絡(luò)中全播流量的帶寬需求會(huì)比傳統(tǒng)網(wǎng)絡(luò)有所提升。在某些高動(dòng)態(tài)網(wǎng)絡(luò)中,新增鏈路和刪除鏈路帶來(lái)的全播流量會(huì)增加。當(dāng)然,這種增加是相對(duì)于傳統(tǒng)轉(zhuǎn)發(fā)環(huán)境而言的。如果考慮整個(gè)網(wǎng)絡(luò)接口的帶寬,那么從最早的1 GE增長(zhǎng)到目前的10 GE和25 GE,帶寬需求的占比可能并未增加。在理論上,如果需要構(gòu)建一個(gè)高效的動(dòng)態(tài)管理路由網(wǎng)絡(luò),控制層面的流量與接口帶寬的比例必須是合理的,以避免1 GE帶寬的網(wǎng)絡(luò)和10 GE帶寬的網(wǎng)絡(luò)使用同樣帶寬(如500 Mbit/s)的管理和控制流量。全播過(guò)程的安全控制最好由SDN控制器來(lái)完成??刂破魇侨中畔⒌膿碛姓撸耆梢詫?shí)現(xiàn)對(duì)整個(gè)網(wǎng)絡(luò)地勢(shì)分布的實(shí)時(shí)控制和一致性對(duì)賬,并提供更高的網(wǎng)絡(luò)穩(wěn)定性和一致性,進(jìn)而打造軟件可控的未來(lái)數(shù)據(jù)中心網(wǎng)絡(luò)。
3.2 Nature Flow應(yīng)用場(chǎng)景與未來(lái)目標(biāo)
新的轉(zhuǎn)發(fā)架構(gòu)更適用于數(shù)據(jù)中心的超大規(guī)模組網(wǎng),能夠?qū)崿F(xiàn)網(wǎng)絡(luò)規(guī)模和鏈路的動(dòng)態(tài)彈縮。在與云計(jì)算技術(shù)融合方面,新的轉(zhuǎn)發(fā)架構(gòu)可以把網(wǎng)絡(luò)的端到端基礎(chǔ)能力開(kāi)放給軟件應(yīng)用,使得軟件程序在通信發(fā)起時(shí)可初步預(yù)測(cè)“信息”被送達(dá)的情況,比如需要多少跳網(wǎng)絡(luò),或者需要多少時(shí)延等。這種開(kāi)放能力不僅有助于提升軟件應(yīng)用感知能力和應(yīng)用網(wǎng)絡(luò)平臺(tái)能力,還能提高網(wǎng)絡(luò)運(yùn)維和排障效率。網(wǎng)絡(luò)轉(zhuǎn)發(fā)端到端能力的開(kāi)放更適合打造面向未來(lái)的確定性網(wǎng)絡(luò)。與當(dāng)前應(yīng)用程序需要網(wǎng)絡(luò)具有端到端確定性保障不同,端到端能力開(kāi)放(或可感知網(wǎng)絡(luò))把整體網(wǎng)絡(luò)視作一個(gè)動(dòng)態(tài)過(guò)程,并由IT軟件的應(yīng)用程序來(lái)判斷網(wǎng)絡(luò)的確定性。例如,當(dāng)信息在3跳之內(nèi)或者3 s之內(nèi)可達(dá)時(shí),成功的概率在90%以上。不同于當(dāng)前的基于報(bào)文復(fù)制和副本消除的確定性網(wǎng)絡(luò)解決方案,新的轉(zhuǎn)發(fā)架構(gòu)把網(wǎng)絡(luò)基礎(chǔ)能力的選擇權(quán)交給應(yīng)用端,同時(shí)網(wǎng)絡(luò)本身只致力于提供更低時(shí)延、更大帶寬等技術(shù)指標(biāo)。該轉(zhuǎn)發(fā)架構(gòu)更適用于網(wǎng)絡(luò)分片技術(shù)和網(wǎng)絡(luò)流量工程的精細(xì)化管控。當(dāng)MAC表多記錄一種不同鏈路屬性的地勢(shì)值時(shí),整個(gè)轉(zhuǎn)發(fā)層就會(huì)提供一種基于該鏈路屬性的分片轉(zhuǎn)發(fā)能力。在5G的切片轉(zhuǎn)發(fā)應(yīng)用中,帶寬敏感流量可以通過(guò)基于HOP的地勢(shì)轉(zhuǎn)發(fā)實(shí)現(xiàn),時(shí)間敏感流量可以在基于時(shí)延的地勢(shì)轉(zhuǎn)發(fā)中實(shí)現(xiàn)。針對(duì)同一個(gè)物理網(wǎng)絡(luò)、同一個(gè)目標(biāo)地址,當(dāng)應(yīng)用所需要的網(wǎng)絡(luò)指標(biāo)不同時(shí),支持Nature Flow的轉(zhuǎn)發(fā)系統(tǒng)可以實(shí)現(xiàn)不同路徑的路由轉(zhuǎn)發(fā)處理。
新轉(zhuǎn)發(fā)架構(gòu)的最大貢獻(xiàn)在于從根本上解決了網(wǎng)絡(luò)環(huán)路轉(zhuǎn)發(fā)的問(wèn)題。雖然在極端情況下仍然存在環(huán)路的可能,但是當(dāng)新轉(zhuǎn)發(fā)架構(gòu)配合SDN控制器構(gòu)建整個(gè)網(wǎng)絡(luò)時(shí),通過(guò)控制器層面的基于全局算法的防環(huán)路補(bǔ)充機(jī)制,可以徹底地解決環(huán)路問(wèn)題。雖然新轉(zhuǎn)發(fā)架構(gòu)的目標(biāo)在于為二層網(wǎng)絡(luò)設(shè)計(jì),但是其防環(huán)路的原理完全可以被其他三層路由協(xié)議所借鑒,如路由信息協(xié)議(RIP)等。由于在控制和轉(zhuǎn)發(fā)之間只使用全局分布式的地勢(shì)值,新轉(zhuǎn)發(fā)架構(gòu)更適合在SDN控制器上引入AI算法,也更適合作為未來(lái)白盒設(shè)備的基礎(chǔ)轉(zhuǎn)發(fā)規(guī)則,同時(shí)還可以對(duì)原生SDN[9]系統(tǒng)的Openflow流表做更深入的改進(jìn)。
Nature Flow轉(zhuǎn)發(fā)架構(gòu)是一種新的轉(zhuǎn)發(fā)與控制的框架體系。相比于傳統(tǒng)轉(zhuǎn)發(fā)架構(gòu),Nature Flow可實(shí)現(xiàn)設(shè)備整體轉(zhuǎn)發(fā)規(guī)則的高度統(tǒng)一和全網(wǎng)分布式差異化地勢(shì)的分布,通過(guò)分布式的設(shè)備算力降低整個(gè)網(wǎng)絡(luò)中SDN控制器的負(fù)擔(dān)[10],可以打造更大規(guī)模、更精準(zhǔn)的流量控制數(shù)據(jù)中心網(wǎng)絡(luò),具有變革當(dāng)前數(shù)據(jù)中心網(wǎng)絡(luò)的潛力。
在某種程度上,Nature Flow是一種基于MAC的二層路由內(nèi)部網(wǎng)關(guān)協(xié)議(IGP)算法,可實(shí)現(xiàn)對(duì)單播路由的無(wú)環(huán)路計(jì)算,并在新框架中使用全播來(lái)替代傳統(tǒng)的廣播轉(zhuǎn)發(fā)。Nature Flow的組播或可通過(guò)配合最新的BIER(基于比特索引的顯示組播復(fù)制)協(xié)議來(lái)實(shí)現(xiàn)。引入Nature Flow會(huì)給數(shù)據(jù)中心網(wǎng)絡(luò)帶來(lái)新的變化和需求,比如對(duì)帶內(nèi)遙測(cè)技術(shù)(INT)的需求。Nature Flow需要INT來(lái)獲取每條鏈路的不同維度的屬性值,如丟包、時(shí)延等。此外,Nature Flow可以實(shí)現(xiàn)高效的網(wǎng)絡(luò)自愈和流量自主調(diào)優(yōu)。在這種情況下,數(shù)據(jù)轉(zhuǎn)發(fā)路徑相對(duì)不完全固定,這對(duì)數(shù)據(jù)中心的運(yùn)維和排障能力提出新的要求,對(duì)流量可視化、歷史流量轉(zhuǎn)發(fā)路徑確認(rèn)等的需求更為迫切。此外,當(dāng)前數(shù)據(jù)中心大多使用基于Overlay的虛擬擴(kuò)展局域網(wǎng)(VXLAN)等相關(guān)技術(shù)。Nature Flow與VXLAN的結(jié)合必然會(huì)在Overlay層實(shí)現(xiàn)這使得Overlay層的應(yīng)用程序可以感知到到達(dá)通信對(duì)端的“網(wǎng)絡(luò)距離”,從而把網(wǎng)絡(luò)層的基礎(chǔ)能力開(kāi)放給平臺(tái)層和應(yīng)用層,有助于實(shí)現(xiàn)ICT技術(shù)的深度融合與綜合提升。諸如VXLAN、SRv6等Overlay技術(shù)本質(zhì)上是基于隧道實(shí)現(xiàn)的遠(yuǎn)程連接。Nature Flow雖然在設(shè)計(jì)時(shí)是將鏈路作為承載流量的基本元素,但是完全可以平滑擴(kuò)展到向支持鏈路一樣來(lái)支持隧道。該方法把隧道看成一種基于Overlay的特殊鏈路,實(shí)現(xiàn)了與當(dāng)前數(shù)據(jù)中心主流協(xié)議的結(jié)合。
4 結(jié)束語(yǔ)
Nature Flow轉(zhuǎn)控架構(gòu)基于自然界水流的無(wú)環(huán)路流淌,為每個(gè)設(shè)備的端口引入地勢(shì)值的新概念。網(wǎng)絡(luò)轉(zhuǎn)發(fā)路徑的構(gòu)建過(guò)程以創(chuàng)新的全播過(guò)程來(lái)實(shí)現(xiàn),轉(zhuǎn)發(fā)出口選擇轉(zhuǎn)換為對(duì)應(yīng)出口地勢(shì)值的比較結(jié)果。新架構(gòu)轉(zhuǎn)發(fā)表中記錄的地勢(shì)值,為應(yīng)用程序?qū)W(wǎng)絡(luò)的端到端距離感知提供基礎(chǔ)能力,也為網(wǎng)絡(luò)動(dòng)態(tài)變化時(shí)路由快速收斂和擁塞控制提供指導(dǎo)和支撐。新架構(gòu)能夠有效提高現(xiàn)有網(wǎng)絡(luò)的基礎(chǔ)能力,更適用于未來(lái)大規(guī)模高動(dòng)態(tài)數(shù)據(jù)中心網(wǎng)絡(luò)的建設(shè)。我們希望產(chǎn)業(yè)界、學(xué)術(shù)界的研究者能夠關(guān)注Nature Flow這一新技術(shù),對(duì)其做進(jìn)一步研究,以解決當(dāng)前網(wǎng)絡(luò)所面臨的諸多問(wèn)題,進(jìn)而推動(dòng)未來(lái)網(wǎng)絡(luò)的變革。
參考文獻(xiàn)
[1] IEEE. Local and metropolitan area networks: media access control (MAC) bridges: 802.1D-2004[S]. 2004
[2] IETF. OSPF version 2: RFC 2328 [S]. 1998
[3] IETF. A border gateway protocol 4 (BGP-4): RFC 4271 [S]. 2006
[4] 馬紹文. 超大規(guī)模云網(wǎng)絡(luò)數(shù)據(jù)中心創(chuàng)新 [EB/OL].(2020-04-21)[2021-04-10]. https://www.sdnlab.com/24039.html
[5] IETF. Use of BGP for routing in large-scale data centers: RFC 7938 [S]. 2016
[6] ROY A, ZENG H, BAGGA J, et al. Inside the social networks (datacenter) network [C]//Proceedings of the 2015 ACM Conference on Special Interest Group on Data Communication. New York, NY, USA: ACM, 2015: 123-137
[7] 王江龍, 雷波, 解云鵬, 等. 云網(wǎng)一體化數(shù)據(jù)中心網(wǎng)絡(luò)關(guān)鍵技術(shù) [J]. 電信技術(shù), 2020, 36(4): 125-135
[8] LI Y, MIAO R, ZHANG M. Hgh precision congestion control [EB/OL]. [2021-04-10]. https:// dl.acm.org/doi/pdf/10.1145/3341302.3342085
[9] MCKEOWN N, ANDERSON T, BALAKRISHNAN H, et al. OpenFlow: enabling innovation in campus networks [EB/OL]. (2008-04)[2021-04-10]. http://www.sigcomm.org/node/2683
[10] 鄔賀銓. 關(guān)于5G的十點(diǎn)思考 [J]. 中興通訊技術(shù), 2020, 26(1): 2-4. DOI: 10.12142/ZTETJ.202001002
作者簡(jiǎn)介
商志彪,中興通訊股份有限公司運(yùn)營(yíng)商市場(chǎng)數(shù)據(jù)中心網(wǎng)絡(luò)方案總工;曾從事網(wǎng)絡(luò)處理器芯片開(kāi)發(fā)工作,現(xiàn)致力于運(yùn)營(yíng)商5GC NFV云、SDN IT云、云網(wǎng)融合方案,以及數(shù)據(jù)中心場(chǎng)景新技術(shù)的研究;獲發(fā)明專(zhuān)利5項(xiàng)。
雷波,中國(guó)電信股份有限公司研究院未來(lái)網(wǎng)絡(luò)研究中心主任,邊緣計(jì)算產(chǎn)業(yè)聯(lián)盟ECNI工作組聯(lián)席主席、CCSA“網(wǎng)絡(luò)5.0技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)”管理與運(yùn)營(yíng)組組長(zhǎng);主要研究方向?yàn)槲磥?lái)網(wǎng)絡(luò)架構(gòu)、新型IP網(wǎng)絡(luò)技術(shù)等;發(fā)表論文數(shù)十篇,出版圖書(shū)《邊緣計(jì)算與算力網(wǎng)絡(luò)》和《邊緣計(jì)算2.0:網(wǎng)絡(luò)架構(gòu)與技術(shù)體系》。
郭茜,北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院副教授,現(xiàn)擔(dān)任中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)北京科技大學(xué)會(huì)員代表、數(shù)據(jù)庫(kù)專(zhuān)委會(huì)通信委員;研究方向?yàn)閿?shù)據(jù)查詢(xún)處理、信息安全等;曾主持多項(xiàng)國(guó)家自然科學(xué)青年基金和校企合作項(xiàng)目;發(fā)表論文近30篇。