譚婧
人在干,天在看,云在算。
云計算越發(fā)展,云安全越重要。
故事得從小小的芯片講起。
一家以色列的芯片公司,名叫Annapurna Labs,以喜馬拉雅山脈的最高十峰之一——安娜普爾納峰命名。
兩位創(chuàng)始人Billy和Nafea曾想在創(chuàng)業(yè)之前攀登此峰,挑戰(zhàn)人生極限。結(jié)果,造化弄人,沒登上此峰,卻登上了芯片界的險峰,換了個角度實現(xiàn)人生理想。
日后,這家智能網(wǎng)卡起家的公司,被亞馬遜云科技公司(AWS)以3.5億美元高價收購。
這場收購,買到了定制化芯片(ASIC)的能力。
此時,AWS公司副總裁技術(shù)大神Anthony Liguori(安東尼·利古里)出場,為Nitro system打下牢固的基礎(chǔ),此處按下另表。自此,AWS芯片實力大增。
云計算走到今天,為了突破創(chuàng)新,不得不向芯片問路。這背后的本質(zhì)是,系統(tǒng)架構(gòu)創(chuàng)新。
系統(tǒng)架構(gòu)是什么?芯片以及配套的軟硬件。
這一次創(chuàng)新,帶來的機會是:誰能成為下一代數(shù)據(jù)中心虛擬化標(biāo)準(zhǔn)架構(gòu)的“王者”?
處在相同段位的技術(shù)領(lǐng)袖,判斷總是出奇的相似。
2016年,阿里云彈性計算產(chǎn)品線負責(zé)人張獻濤博士低調(diào)地往返于北京和杭州兩地多次,他在勸說一位芯片主架構(gòu)師加入阿里云。
起初,人家不來。原因也很清楚,2016年誰會相信互聯(lián)網(wǎng)公司需要芯片技術(shù)。也許是三顧茅廬的誠意,也許是前景,這位生于1979年的主架構(gòu)師被勸動了。
張獻濤博士當(dāng)時的原話是:“你在傳統(tǒng)公司很多年了,理解不透互聯(lián)網(wǎng)公司的決心,這件事情前人絕對沒做過,它可以改變云計算里面最核心的技術(shù)?!?信仰的光,最是感召。隨后,多位重量級芯片技術(shù)大拿前后加入阿里云。
他們眼睛里面的光芒,從何而來?這要從虛擬化技術(shù)的過往講起。
2004年,張獻濤博士在讀,專攻虛擬化技術(shù)。當(dāng)時,全球研究同領(lǐng)域的人不多,可能加起來不到一百人。擇業(yè)范圍太小了,張博士也擔(dān)心畢業(yè)之后能不能找到工作。
彼時,著名高校和前沿公司在研究虛擬化,斯坦福大學(xué)、劍橋大學(xué),微軟公司、英特爾公司。問題是,沒有太多的地方用。
1997年,斯坦福大學(xué)背景的教授創(chuàng)立VMWare公司,成了虛擬化技術(shù)的商業(yè)鼻祖,但它主要在PC上運行,這和云計算數(shù)據(jù)中心需要的虛擬化技術(shù),大有不同。 或者說,云計算之前的虛擬化技術(shù),可以被稱為傳統(tǒng)虛擬技術(shù)。
七八年轉(zhuǎn)瞬而過,2005年,英特爾和AMD也看出來虛擬化技術(shù)的重要性了,運功發(fā)力推出了VT-x和VT-d,推了一把虛擬化技術(shù)的進程。阿里云成立的時候,思路也很清晰,必須拋棄那些不適用于云計算的虛擬化技術(shù),才能做云計算的領(lǐng)頭羊。
所以,阿里云自研虛擬化就從深度定制化和產(chǎn)品化的開源虛擬化軟件Xen和KVM開始。
2014年是張獻濤博士在英特爾的最后一年。這一年,距離他開始博士研究,已經(jīng)過去了整整十年。這十年,他全神貫注研究虛擬化。
這一年,他加入阿里云。 云計算實現(xiàn)了虛擬化技術(shù)的躍遷,大家突然意識到虛擬化技術(shù)“值錢”了。
但是,傳統(tǒng)技術(shù)的缺陷明顯,性能損耗,隔離性差,這些依然在給云安全以重錘。 沒有云計算廠商不重視安全,安全是隨著技術(shù)發(fā)展動態(tài)變化的。
所謂魔高一尺,道高一丈。 但是,很多人對安全有偏見,觀點“看似挺對,其實不對”: “現(xiàn)在才講安全,你以前的產(chǎn)品是不是都不安全?”實際上,阿里云安全團隊,獨立于集團的安全部門,是一支幾千人的團隊,只干一件事,安全。張獻濤博士坦言:“只要是個軟件,都會有安全相關(guān)的bug或者漏洞,所以,沒有絕對安全,只有更安全?!?/p>
解決安全問題,不是“堆”多少人力,而是徹底解決傳統(tǒng)技術(shù)的“缺陷”,安全的防線才能拔高。用芯片解決缺陷是一個正確的方向,一開始只有AWS和阿里云兩大巨頭死死盯著這條路。
多年后,回頭再看AWS的芯片收購案,抄了研發(fā)的近道,每年都為AWS省下大筆資金。省的,就是賺的。 但是,阿里云的技術(shù)團隊不會走“重點技術(shù)采購于別家”這條路。說得再實際一點,體量越大的廠商,越是黑客眼里的唐僧肉。
“體量”逼著阿里云拿出巨大的決心從架構(gòu)創(chuàng)新做起,一舉解決整個一代云計算技術(shù)面臨的痛點。 先烈們說:“勞資,打的就是精銳?!卑⒗镌普f:“我們,干的就是自研。”
2016年的時候,張獻濤博士天天都在思考:如何通過架構(gòu)創(chuàng)新解決傳統(tǒng)虛擬化在云計算場景中的問題? 只有把虛擬技術(shù)想透徹的人,才能從根本上解決虛擬化的安全問題。 誰搞定了云計算架構(gòu)創(chuàng)新,誰將在云場景中收益巨大。
2017年10月,阿里云神龍架構(gòu)發(fā)布。2017年11月,AWS Nitro system發(fā)布。 全球兩家頂級云廠商,不謀而合地打響了云計算芯片創(chuàng)新的全球第一槍。 張獻濤博士談道:“神龍芯片,引領(lǐng)了下一代數(shù)據(jù)中心的虛擬化標(biāo)準(zhǔn)架構(gòu)?!?/p>
從安全的角度講,有了神龍芯片,阿里云的虛擬化安全就引領(lǐng)了一個時代。 怎么做到的?
第一,用芯片實現(xiàn)隔離。 處理器和內(nèi)存隔離,有兩個層面:安全,性能。
張獻濤博士談道:“所謂性能的隔離,是一臺物理機上有兩個虛擬機的時候,互相不干擾,性能隔離做得不好,性能輸出會忽高忽低,這樣不能服務(wù)于企業(yè)客戶。這也解釋了為什么阿里云2017年推出了企業(yè)級實例,做到完全隔離?!?/p>
阿里云2017年的企業(yè)級實例產(chǎn)品和神龍前后腳推出,這不是巧合,是一起解決“不得不面對”的問題。 在技術(shù)早期階段,安全常常有讓步于性能的無奈。
“性能”對著“安全”吼:“你能不能讓我先實現(xiàn)了,再考慮你?!卑踩卮鸬溃骸靶邪。凑l也離不了我。你不重視我,我就讓客戶難受?!?/p>
第二,用芯片解決出入口漏洞。就像防賊要防住門窗一樣,IO鏈路上是最容易出安全漏洞的。傳統(tǒng)的虛擬化相關(guān)軟件在那個時間點上,完完全全過時了。神龍芯片大刀闊斧,把該砍掉的全砍掉,所有IO鏈路完全用硬件實現(xiàn)。
現(xiàn)在,網(wǎng)絡(luò)和存儲的IO都做到了用單獨的硬件隊列在硬件中去實現(xiàn)。這樣,硬件上A和B兩個虛擬機的數(shù)據(jù)鏈路做到了完全隔離。 此時,硬件實現(xiàn)了軟件要做的事情,硬件的攻擊面小于軟件的,所以,更安全了。
另外,阿里云把CPU、內(nèi)存的虛擬化做得極其精簡。
張獻濤博士說:“所謂極其精簡,(就是)我們知道軟件的安全漏洞和它的代碼行數(shù)一定是成正比的,所以,會審查每一行代碼的安全問題?!?/p>
近幾年,主流公有云廠商將安全能力列為平臺基礎(chǔ)能力,大舉投入。本質(zhì)是,云計算今非昔比,“性能”履行當(dāng)年對“安全”的承諾。 性能解決了,更多兵力要劃撥到安全的戰(zhàn)場上去。Gartner發(fā)布2021年需深挖的9項重要戰(zhàn)略科技趨勢,其中之一是加密計算,到2025年將有一半的大型企業(yè)使用。
阿里云對加密計算的研究,得從神龍芯片的研發(fā)時間開始推算。 因為神龍芯片一石三鳥,為云安全解決了三個問題:性能隔離\數(shù)據(jù)鏈路隔離以及建立獨立安全屋。
簡單理解,獨立安全屋就是加密計算。 加密計算是創(chuàng)造一個隔離環(huán)境,誰也進不來,管理員(阿里云)也不行。加密計算靠的是硬件(處理器),把代碼和數(shù)據(jù)放到一個硬件保護起來的安全環(huán)境中去計算。 前文也提了,云計算走到今天,為突破創(chuàng)新,不得不聯(lián)手芯片。阿里云都這么努力,英特爾這種老牌芯片公司會吃閑飯嗎?
加密計算技術(shù)有很多種,其中英特爾公司的SGX(Software Guard Extension,指令集擴展)尤為出名。英特爾推出SGX這項技術(shù),可以追溯到2004年。
十年后,SGX成為了系統(tǒng)安全領(lǐng)域的重大進展。當(dāng)下,SGX是較為成熟的加密計算技術(shù),阿里云也是最早支持SGX能力的云廠商之一。
SGX能夠在計算平臺上提供一個可信的隔離空間,保障用戶關(guān)鍵代碼和數(shù)據(jù)的機密性和完整性。SGX出貨量肯定很大,因為捆在英特爾CPU里面了。
SGX的原理是,提供了一系列的擴展指令集,核心就是CPU運行的時候可以切換到Enclave的SGX模式。切到這個模式里之后,當(dāng)CPU去內(nèi)存里取指令的時候,是把加密過的指令取到CPU里解密。加密內(nèi)存中的數(shù)據(jù),加密后的“密文”只有在處理器里才會被解密成“明文”。在CPU里完成這個解密,再完成這個指令的執(zhí)行。
處理器和內(nèi)存都參與了加密,所以,這個運算過程在外部看來永遠是一個密文。要么打破內(nèi)存加密,要么打破芯片處理器加密,黑客攻擊難度都很大。 加密計算用戶可以讓數(shù)據(jù)的計算在保險柜中進行,實現(xiàn)運行數(shù)據(jù)的“可用不可見”。
SGX2.0帶來的好消息是,英特爾SGX技術(shù)迭代了,到了這一代,Ice Lake(第三代英特爾?至強?可擴展處理器)可在多路服務(wù)器上支持SGX。
SGX2.0也是一個突破性的技術(shù),從根本上解決了企業(yè)對于機器學(xué)習(xí)、人工智能等GB級以上數(shù)據(jù)量的高效運算技術(shù)需求,為金融互聯(lián)網(wǎng)等使用場景,提供了更高安全等級數(shù)據(jù)保護的支持。
或者說,目前,SGX2.0是真實場景、大數(shù)據(jù)、大規(guī)模情況下進行隱私計算唯一可實踐的技術(shù)路徑。
有用的數(shù)據(jù),從一出生就需要保護。所以,按數(shù)據(jù)生命周期的階段來劃分加密計算,有三位鏢師:鏢師一,保護存儲中的數(shù)據(jù),數(shù)據(jù)加密;鏢師二,保護傳輸中的數(shù)據(jù),加密協(xié)議;鏢師三,保護使用中的數(shù)據(jù),加密計算。
其中,鏢師三最難,保護使用中的數(shù)據(jù),需用兩部《兵法》:出自英特爾的SGX2.0+Enclave以及出自阿里云自研虛擬化Enclave。
Enclave,中文譯為“飛地”,簡單理解就是大空間里劃出來一個小空間。Enclave是一個隔離環(huán)境,可以理解為,虛擬機中的虛擬機。
把云計算比喻為一座宏偉大廈,從地基往上的每一層樓,每一個房間,都要安全,Enclave就好比房間里面隔離出來的保險柜。
SGX+Enclave是“硬件”技術(shù)。用硬件安全強制保障軟件安全,最終達到保障虛擬化的安全的目的。這里的硬件,指的是英特爾的硬件。
自阿里云自研虛擬化Enclave是用神龍芯片構(gòu)建了一個安全的微型服務(wù)器,通過芯片的隔離技術(shù),構(gòu)建了一個安全的執(zhí)行環(huán)境。 可以這樣說,沒有第三代神龍架構(gòu),就不會有阿里云自研虛擬化Enclave這種加密計算技術(shù)。
原理是,在虛擬機創(chuàng)建了Enclave隔離環(huán)境后,用本地加密通道對隔離環(huán)境下達指令和應(yīng)用,提供全隔離、高可信的計算環(huán)境,隔離存儲設(shè)備、可交互環(huán)境和外部網(wǎng)絡(luò)連接。
看到里面的東西,所以整個運行環(huán)境對阿里云來說不在一個樓層里,相當(dāng)于阿里云在三樓,SGX是在地下室操作。
所以,永遠不用擔(dān)心數(shù)據(jù)會被云廠商偷窺。兩部《兵法》理念相同,用不同的底層軟硬件技術(shù)實現(xiàn)。 阿里云是業(yè)界最早實現(xiàn)加密計算(同時支持基于硬件及虛擬化)與可信計算的云廠商,這些能力內(nèi)置在阿里云最新發(fā)布的第七代ECS云服務(wù)器里。
此外,第七代ECS云服務(wù)不僅支持加密計算,還融合了可信計算,阿里云也是業(yè)界最早同時提供這兩種原生計算安全的廠商。
加密計算涉及硬件、BIOS、操作系統(tǒng)、虛擬化、管控軟件、SDK、遠程證明服務(wù)等組件的開發(fā)與改造,技術(shù)難點很多,最難點在于虛擬化技術(shù)需要與阿里云彈性計算的神龍架構(gòu)融合。
這背后有三支攻堅小組:安全小組、虛擬化小組、神龍軟硬一體化小組。其中,安全小組里遍地是高(A)手(+)和高(a)高(li)手(xing)。黑客見狀,高聲大呼:放棄幻想,趁早改行。
可以預(yù)見,加密計算作為一種基礎(chǔ)技術(shù),將作為運算環(huán)境必不可少的一部分,存在于越來越多的計算節(jié)點上,配套的加密計算應(yīng)用也會應(yīng)運而生,將會給云計算帶來新一輪大發(fā)展。 安危他日終須仗,甘苦來時要共嘗,技術(shù)發(fā)展和安全的關(guān)系就是這樣。
阿里云用芯片一小步,成就云安全一大步。最后,補充一個問題:神龍芯片的本質(zhì)是什么?
正是當(dāng)今資本追捧,軟硬一體,深度協(xié)同,使用芯片對數(shù)據(jù)面加速的三好學(xué)生優(yōu)秀班干部——DPU。