Ann Bednarz
利用機器學(xué)習(xí),數(shù)據(jù)中心運營商能夠更好地處理散熱、功耗和性能等問題。
隨著企業(yè)開始采用經(jīng)過數(shù)據(jù)中心大運營商和托管服務(wù)提供商試用和測試過的機器學(xué)習(xí)技術(shù),人工智能將在數(shù)據(jù)中心運營中扮演更重要的角色。
目前的混合計算環(huán)境通常涉及到本地數(shù)據(jù)中心、云和托管站點,以及邊緣計算部署。企業(yè)發(fā)現(xiàn)管理數(shù)據(jù)中心的傳統(tǒng)方法并不是最優(yōu)的。通過使用人工智能,正如機器學(xué)習(xí)所展示的那樣,極有可能簡化復(fù)雜計算設(shè)施的管理。
目前,人工智能在數(shù)據(jù)中心的應(yīng)用主要是圍繞使用機器學(xué)習(xí)來監(jiān)測設(shè)施組件,并進行自動管理,例如電源和配電單元、散熱基礎(chǔ)設(shè)施、機架系統(tǒng)和物理安全等。
在數(shù)據(jù)中心設(shè)施內(nèi)部,有越來越多的傳感器收集來自包括電源備份(UPS)、配電裝置、開關(guān)設(shè)備和冷水機組在內(nèi)的設(shè)備的數(shù)據(jù)。關(guān)于這些設(shè)備及其環(huán)境的數(shù)據(jù)由機器學(xué)習(xí)算法進行解讀,這些算法深度分析性能和容量,并確定適當?shù)捻憫?yīng),例如更改設(shè)置或者發(fā)送警報等。隨著條件的變化,機器學(xué)習(xí)系統(tǒng)從變化中學(xué)習(xí)——它實際上是被訓(xùn)練為自我調(diào)整,而不是依賴于具體的編程指令來執(zhí)行其任務(wù)。
其目的是使數(shù)據(jù)中心運營商能夠提高設(shè)施的可靠性和效率,并有可能更自主地運行這些設(shè)施。然而,獲取數(shù)據(jù)并不是一項簡單的任務(wù)。
施耐德電氣公司數(shù)據(jù)中心全球解決方案高級主管Steve Carlini說,基本需求是獲取來自主要組件的實時數(shù)據(jù)。也就是那些冷水機組、冷卻塔、通風機、風扇等組件的實時數(shù)據(jù)。在IT設(shè)備方面,它意味著服務(wù)器利用率、溫度和功耗等指標。
Carlini說:“很難對數(shù)據(jù)中心進行評價。數(shù)據(jù)中心與配電和散熱有關(guān)的連接點是非常多的,如果企業(yè)想嘗試人工智能,就需要獲得這些連接點的數(shù)據(jù)?!?/p>
IT專業(yè)人員習(xí)慣于設(shè)備監(jiān)測和實時報警,但在機房設(shè)施方面并非如此。Carlini說:“IT設(shè)備對信息的要求是即時的,而在電力系統(tǒng)中,不是即時的,其環(huán)境不同?!?/p>
過去不到十年的時間里,第一個數(shù)據(jù)中心已經(jīng)完全儀表化了,用儀表來監(jiān)測供電和散熱。在儀表存在的地方,很難進行標準化:數(shù)據(jù)中心運營商依賴于采用多種通信協(xié)議的樓宇管理系統(tǒng)——從Modbus和BACnet到LONworks和Niagara,并且必須兼容不共享數(shù)據(jù)或者不能通過遠程控制進行操作的設(shè)備。Carlini說:“TCP/IP、以太網(wǎng)連接——這類連接在傳動系統(tǒng)和散熱領(lǐng)域是前所未聞的?!?/p>
好消息是數(shù)據(jù)中心監(jiān)測正朝著高級分析和機器學(xué)習(xí)所需的深度發(fā)展。Carlini說:“服務(wù)提供商和托管提供商一直非常擅長在子架級或者機架級進行監(jiān)測,以及對能源使用情況的監(jiān)測。企業(yè)開始部署它,這取決于數(shù)據(jù)中心的規(guī)模?!?/p>
機器學(xué)習(xí)讓數(shù)據(jù)中心保持涼爽
2016年,德爾塔航空公司由于電力系統(tǒng)故障導(dǎo)致數(shù)據(jù)中心停電,三天時間內(nèi)停飛了大約2000次航班,使該航空公司損失了1.5億美元。這正是基于機器學(xué)習(xí)的自動管理功能可以避免的應(yīng)用場景。由于數(shù)據(jù)中心性能的進步以及云中數(shù)據(jù)池的出現(xiàn),智能系統(tǒng)有可能發(fā)現(xiàn)數(shù)據(jù)中心運營中的漏洞,從而提高效率,而這是手動過程做不到的。
機器學(xué)習(xí)推動的智能應(yīng)用的一個簡單例子是基于狀態(tài)的維護,它應(yīng)用于數(shù)據(jù)中心中的消耗品,例如,冷卻過濾器等。Carlini說,通過監(jiān)測流過多個過濾器的空氣流量,智能系統(tǒng)可以檢測到一些過濾器是否比其他過濾器更容易堵塞,然后把空氣引導(dǎo)到不容易堵塞的單元中,直到需要更換所有過濾器為止。
另一個例子是監(jiān)測UPS系統(tǒng)中電池的溫度和放電情況。智能系統(tǒng)能夠發(fā)現(xiàn)一個UPS系統(tǒng)運行的環(huán)境更熱一些,并且可能比其他系統(tǒng)更頻繁地放電,然后會將其指定為備份UPS,而不是主用UPS。Carlini說:“它站在你的角度為你思考。這可以手動完成,但機器也可以做到。這是最基本的。”
層次更高的應(yīng)用是動態(tài)散熱優(yōu)化,這是當今數(shù)據(jù)中心機器學(xué)習(xí)更常見的例子之一,尤其是對于數(shù)據(jù)中心大運營商和托管提供商。
通過動態(tài)散熱優(yōu)化,數(shù)據(jù)中心管理人員可以根據(jù)環(huán)境條件監(jiān)測并控制機房的散熱基礎(chǔ)設(shè)施。當設(shè)備移動或者計算流量出現(xiàn)激增時,建筑物內(nèi)的熱負荷也會發(fā)生變化。動態(tài)調(diào)節(jié)散熱輸出,以轉(zhuǎn)移熱負荷,這有助于避免不必要的散熱能力并降低運行成本。
451 Research公司的數(shù)據(jù)中心技術(shù)和生態(tài)效率IT渠道研究總監(jiān)Rhonda Ascierto評論說,托管服務(wù)提供商是動態(tài)散熱優(yōu)化技術(shù)的主要采用者。Ascierto說:“機器學(xué)習(xí)對數(shù)據(jù)中心來說并不陌生。長期以來,人們一直想根據(jù)容量和需求來更好地進行適當?shù)纳?,而機器學(xué)習(xí)使您能夠?qū)崟r地完成這項工作?!?/p>
Vigilent是動態(tài)散熱優(yōu)化領(lǐng)域的領(lǐng)導(dǎo)者,其技術(shù)用于優(yōu)化數(shù)據(jù)中心設(shè)施中的空氣流,自動發(fā)現(xiàn)并消除熱點。
Vigilent的創(chuàng)始人、總裁兼首席技術(shù)官Cliff Federspiel說,數(shù)據(jù)中心運營商運行的散熱設(shè)備往往比實際需要的多?!八a(chǎn)生的溫度分布通常還是能接受的,但代價很高?!?/p>
如果有一個熱點,典型的反應(yīng)是進一步提高散熱能力。在現(xiàn)實中,如果空氣流速過快會產(chǎn)生壓力差,干擾設(shè)備上的空氣流,或者阻礙熱空氣返回到散熱設(shè)備。盡管這與我們的直覺不符,但能更有效地降低風扇速度。
Vigilent基于機器學(xué)習(xí)的技術(shù)知道哪些空氣流設(shè)置能夠優(yōu)化每一客戶的熱環(huán)境。該公司稱,在需要散熱的地方提供適量的散熱,通常能夠把能源費用減少40%。
除了自動散熱系統(tǒng)外,Vigilent的軟件還為客戶提供了分析功能,用來對其設(shè)施做出操作決策。
Federspiel說:“我們的客戶對使用這些數(shù)據(jù)來幫助管理他們的資本支出、他們的容量規(guī)劃以及可靠性計劃越來越感興趣。這為數(shù)據(jù)中心很多新的依賴于數(shù)據(jù)的決策帶來了機會?!?/p>
人工智能讓現(xiàn)有的流程更好
展望未來,數(shù)據(jù)中心運營商正在把成功的動態(tài)散熱優(yōu)化技術(shù)擴展應(yīng)用到其他領(lǐng)域。一般來說,在注入機器學(xué)習(xí)已經(jīng)成熟的領(lǐng)域中,人們也比較熟悉其需要重復(fù)性任務(wù)的流程。
Ascierto說:“數(shù)據(jù)中心新的基于機器學(xué)習(xí)的方法最有可能應(yīng)用于現(xiàn)有的業(yè)務(wù)流程,因為機器學(xué)習(xí)在全面理解業(yè)務(wù)問題和規(guī)則時是最有效的?!?/p>
當然,企業(yè)現(xiàn)在也有監(jiān)測工具。長期可用的數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)軟件能夠讓人們深入了解數(shù)據(jù)中心資產(chǎn)、相互依賴性、性能和容量。DCIM軟件處理的功能包括遠程設(shè)備監(jiān)測、供電和環(huán)境監(jiān)測、IT資產(chǎn)管理、數(shù)據(jù)管理和報告等。企業(yè)使用DCIM軟件來簡化容量規(guī)劃和資源分配,并確保盡可能有效地使用電源、設(shè)備和機房空間。
Ascierto說:“如果你有基本的監(jiān)測和資產(chǎn)管理機制,那么你的容量預(yù)測能力會大幅度提高。人們現(xiàn)在正在使用自己的數(shù)據(jù)開展這方面的工作。”
下一步:向DCIM混合軟件添加外部數(shù)據(jù)。這就是機器學(xué)習(xí)發(fā)揮關(guān)鍵作用的地方。
數(shù)據(jù)中心管理即服務(wù),也就是DMaaS,是基于DCIM軟件的服務(wù)。但它不是DCIM軟件簡單的SaaS交付版本。DMaaS進一步收集數(shù)據(jù),匯集多個數(shù)據(jù)中心的設(shè)備和設(shè)施數(shù)據(jù)。然后,使用機器學(xué)習(xí)對數(shù)據(jù)進行匿名化和匯總處理,并進行大規(guī)模分析。
DMaaS市場的兩家早期參與者是施耐德和伊頓公司。這兩家供應(yīng)商利用其數(shù)據(jù)中心多年的經(jīng)驗挖掘出大量數(shù)據(jù),其中包括設(shè)計和建造數(shù)據(jù)中心、樓宇管理、配電,以及供電和散熱服務(wù)等。
Ascierto說:“施耐德和伊頓正在從事的工作將帶來巨大的變化,也就是擁有大量客戶數(shù)據(jù)的數(shù)據(jù)湖。這對數(shù)據(jù)中心部門來說非常有趣?!?/p>
這些數(shù)據(jù)來自各種客戶的各種操作環(huán)境,因此獲得這些數(shù)據(jù)后,企業(yè)能夠把自己數(shù)據(jù)中心的性能與全球基準性能進行比較。例如,施耐德被稱為EcoStruxure IT的DMaaS產(chǎn)品,與含有500多名客戶和220萬個傳感器的基準數(shù)據(jù)的數(shù)據(jù)湖相關(guān)聯(lián)。
Ascierto說:“企業(yè)不僅可以使用自己的數(shù)據(jù)來理解和解決這些問題,而且還可以使用數(shù)千個其他設(shè)施的數(shù)據(jù),包括許多與你的企業(yè)非常相似的設(shè)施的數(shù)據(jù)。這就是最大的不同?!?/p>
例如,預(yù)測性和預(yù)防性維護受益于深度智能。Ascierto說:“基于其他機器——這些機器運行在類似的使用環(huán)境中,有類似的使用情況、類似的壽命,以及類似的組件,人工智能能夠預(yù)測哪里會出現(xiàn)問題?!?/p>
場景規(guī)劃是另一種能夠從機器學(xué)習(xí)受益的流程。例如,企業(yè)現(xiàn)在進行場景規(guī)劃,估算設(shè)備移動對功耗的影響。Ascierto說:“沒有機器學(xué)習(xí)也能做這項工作。但是,把機器學(xué)習(xí)數(shù)據(jù)和歷史數(shù)據(jù)應(yīng)用到具體的配置和不同的設(shè)計中——能夠確定某一配置或者設(shè)計結(jié)果的能力會大幅度提升?!?/p>
風險分析和風險緩解計劃也將受益于更深入的分析。Ascierto說:“數(shù)據(jù)中心現(xiàn)在實在太復(fù)雜了,而且規(guī)模如此龐大,以至于人類很難找到模式,但對于機器來說這非常簡單。”
未來,機器學(xué)習(xí)在數(shù)據(jù)中心的廣泛應(yīng)用將使得企業(yè)擁有更強的深度分析能力,更好地決定在哪里運行哪些工作負載。Ascierto說:“這對企業(yè)來說是非常有價值的,尤其是如果他們圍繞最佳執(zhí)行場所做決定的時候。這一應(yīng)用程序應(yīng)該運行在這個數(shù)據(jù)中心嗎?或者我們應(yīng)該使用托管數(shù)據(jù)中心?”
展望未來,智能系統(tǒng)可以承擔更復(fù)雜的任務(wù),使數(shù)據(jù)中心能夠根據(jù)在哪里運行最有效或者最可靠來動態(tài)地調(diào)整工作負載。Carlini說:“復(fù)雜的人工智能對未來還是有一些影響的?!?/p>
同時,對于初創(chuàng)企業(yè),他強調(diào)了設(shè)施部門和IT部門加強合作的重要性。
Carlini說:“最重要的是要全面考慮數(shù)據(jù)中心的所有領(lǐng)域——供電、散熱和IT機房。”業(yè)界正在努力確保不同領(lǐng)域技術(shù)之間的互操作性。企業(yè)在人員配備方面也需要這樣做。
他說:“從技術(shù)上說,這變得越來越簡單,但在部門間,還是有孤島?!?/p>
Ann Bednarz涉及的領(lǐng)域包括《網(wǎng)絡(luò)世界》的IT職業(yè)、外包和互聯(lián)網(wǎng)文化。
原文網(wǎng)址
https://www.networkworld.com/article/3274654/data-center/ai-boosts-data-center-availability-efficiency.html