中國(guó)船舶重工集團(tuán)公司第七一六研究所 王凱龍
內(nèi)存漏洞包括內(nèi)存泄漏(Memory Leak)、重復(fù)釋放內(nèi)存(Double Free)和釋放后讀寫(xiě)(Use after Free),均源于內(nèi)存的動(dòng)態(tài)分配過(guò)程。內(nèi)存泄漏是指應(yīng)用程序運(yùn)行過(guò)程中未及時(shí)將動(dòng)態(tài)分配的堆區(qū)內(nèi)存釋放,導(dǎo)致可用內(nèi)存持續(xù)減少,進(jìn)而造成系統(tǒng)內(nèi)存耗盡,運(yùn)行緩慢甚至崩潰的嚴(yán)重問(wèn)題。重復(fù)釋放同一塊內(nèi)存、釋放后讀寫(xiě)會(huì)造成指針訪(fǎng)問(wèn)未知區(qū)域,這兩種漏洞均會(huì)導(dǎo)致不可預(yù)測(cè)的結(jié)果。
Linux內(nèi)核基于C語(yǔ)言編寫(xiě),在具有高運(yùn)行效率的同時(shí)也存在著較大的內(nèi)存泄漏隱患。內(nèi)核在管理內(nèi)存資源的同時(shí),也占用內(nèi)存資源,不合理的使用可能會(huì)造成各種異常。
目前定位內(nèi)存漏洞的方法主要有靜態(tài)檢測(cè)與動(dòng)態(tài)檢測(cè)。靜態(tài)檢測(cè)方法通過(guò)直接檢視源碼,可以較早發(fā)現(xiàn)問(wèn)題,以較低的代價(jià)進(jìn)行修復(fù),但誤報(bào)漏報(bào)的風(fēng)險(xiǎn)較大。動(dòng)態(tài)檢測(cè)方法通過(guò)插入檢測(cè)代碼到目標(biāo)程序中,實(shí)時(shí)跟蹤內(nèi)存操作,可以得到較準(zhǔn)確的檢測(cè)結(jié)果。但目前多數(shù)動(dòng)態(tài)檢測(cè)方法不支持內(nèi)存泄漏檢測(cè),且有概率引入新的安全風(fēng)險(xiǎn),不適合在生產(chǎn)環(huán)境中大量使用。
eBPF技術(shù)是近年來(lái)linux系統(tǒng)領(lǐng)域的一個(gè)重大創(chuàng)新,具備較高的執(zhí)行效率和生產(chǎn)環(huán)境安全性,支持用戶(hù)可編程,加入系統(tǒng)后無(wú)需重復(fù)編譯內(nèi)核。將eBPF技術(shù)與內(nèi)存漏洞動(dòng)態(tài)檢測(cè)方法相結(jié)合,可有效支持內(nèi)存泄漏檢測(cè),并在保證檢測(cè)準(zhǔn)確性的同時(shí)有效降低對(duì)系統(tǒng)性能的影響。
誕生于1992年的伯克利包過(guò)濾伯克利包過(guò)濾(Berkeley Bag過(guò)濾),可以免去內(nèi)核到用戶(hù)空間的無(wú)用數(shù)據(jù)包拷貝。BPF程序包含一個(gè)簡(jiǎn)單的字節(jié)碼,可經(jīng)用戶(hù)空間注入內(nèi)核,經(jīng)過(guò)驗(yàn)證程序進(jìn)行檢查(防止內(nèi)核崩潰或安全問(wèn)題)后附加到套接字。BPF的語(yǔ)言簡(jiǎn)潔易用,同時(shí)BPF為編譯而設(shè)計(jì)實(shí)現(xiàn)了內(nèi)核即時(shí)(JIT)虛擬機(jī),這是該工具的杰出特色。
2013年,BPF在原有基礎(chǔ)上增加了map與tail call等新功能,性能也得到顯著提高。修改后版本稱(chēng)eBPF,與經(jīng)典BPF做區(qū)別。同時(shí),JIT虛擬機(jī)被重寫(xiě)。eBPF比經(jīng)典BPF更接近本機(jī)語(yǔ)言,且在內(nèi)核中開(kāi)放了新的掛載點(diǎn),可以基于Event運(yùn)行程序,非常高效,可支持內(nèi)核內(nèi)編程,并可以增強(qiáng)其他跟蹤器。
eBPF在功能上做了較大拓展,可通過(guò)kprobe得到內(nèi)核函數(shù)運(yùn)行信息,無(wú)需額外加入插樁代碼重新編譯內(nèi)核,也無(wú)需借助類(lèi)似gdb的調(diào)試工具。除此之外可以即時(shí)獲取代碼執(zhí)行當(dāng)前的寄存器狀態(tài)以及調(diào)用棧信息。其原理類(lèi)似在指令中增加保存點(diǎn),內(nèi)核執(zhí)行至此會(huì)自動(dòng)保存當(dāng)前寄存器狀態(tài)與棧信息,然后進(jìn)入斷點(diǎn)處掛載的處理程序。程序執(zhí)行完畢,內(nèi)核返回到保存點(diǎn)位置,并將寄存器狀態(tài)恢復(fù)。
BCC(BPF Compiler Collection)是基于eBPF的開(kāi)發(fā)工具包。它封裝了一系列高效的內(nèi)核跟蹤和操作接口,并提供了開(kāi)箱即用的檢測(cè)工具和Demo。BCC在eBPF提供的接口基礎(chǔ)上進(jìn)行封裝,同時(shí)提供高級(jí)語(yǔ)言對(duì)應(yīng)編程接口。
圖1 eBPF運(yùn)行流程圖
KFENCE是一個(gè)低采樣的內(nèi)存錯(cuò)誤檢測(cè)工具,可以Patch形式編入內(nèi)核。它根據(jù)采樣間隔進(jìn)行受保護(hù)的內(nèi)存分配,采樣間隔到期后,通過(guò)主分配器(SLAB或SLUB)進(jìn)行的下一次分配將由KFENCE的對(duì)象池提供,同時(shí)重置計(jì)時(shí)器,等待到期后的下一次分配。每個(gè)KFENCE對(duì)象都駐留在專(zhuān)用頁(yè)面上,對(duì)象頁(yè)面左右兩側(cè)的頁(yè)面是受保護(hù)頁(yè)面,其屬性為受保護(hù)狀態(tài),對(duì)它們的任何訪(fǎng)問(wèn)都會(huì)導(dǎo)致頁(yè)面錯(cuò)誤,KFENCE攔截此類(lèi)頁(yè)面錯(cuò)誤并報(bào)告越界訪(fǎng)問(wèn)。在KFENCE對(duì)象被釋放后,對(duì)象的頁(yè)面將再次受到保護(hù),并被標(biāo)記為已釋放,對(duì)該對(duì)象的任何訪(fǎng)問(wèn)都會(huì)導(dǎo)致故障。KFENCE攔截此故障,并報(bào)告use-after-free錯(cuò)誤。
圖2 KFENCE保護(hù)內(nèi)存分布圖
KFENCE犧牲了一定的檢測(cè)精度換取了較小的性能開(kāi)銷(xiāo),相比于與同類(lèi)方法,更適合在產(chǎn)品環(huán)境中部署,用于檢測(cè)內(nèi)存漏洞。
KFENCE檢測(cè)方法可用于檢查內(nèi)存訪(fǎng)問(wèn)越界、重復(fù)釋放和use-after-free問(wèn)題,但無(wú)法檢測(cè)內(nèi)存泄漏問(wèn)題,另外,僅支持內(nèi)存監(jiān)測(cè),無(wú)法對(duì)內(nèi)存錯(cuò)誤做即時(shí)處理。本文通過(guò)加入eBPF模塊,補(bǔ)足了內(nèi)存泄漏檢測(cè)功能,同時(shí)在KFENCE接口處掛載內(nèi)存錯(cuò)誤處理ePBF模塊,對(duì)所報(bào)錯(cuò)誤進(jìn)行即時(shí)處理,可有效降低內(nèi)存錯(cuò)誤對(duì)系統(tǒng)運(yùn)行造成的負(fù)面影響。
針對(duì)內(nèi)存泄漏問(wèn)題,Linux公開(kāi)了用于內(nèi)存分配的跟蹤點(diǎn),可以通過(guò)eBPF程序?qū)ζ溥M(jìn)行檢測(cè)。本文采用的內(nèi)存泄漏檢測(cè)方法跟蹤并匹配內(nèi)存分配和重新分配請(qǐng)求,并收集記錄每個(gè)分配的調(diào)用堆棧,最終可以打印一個(gè)概要,其中統(tǒng)計(jì)了調(diào)用堆棧申請(qǐng)后沒(méi)有釋放的內(nèi)存數(shù)量。
方法流程如圖3所示。
圖3 基于eBPF/KFENCE的linux內(nèi)核態(tài)內(nèi)存漏洞檢測(cè)方法流程圖
(1)各線(xiàn)程的每次內(nèi)存申請(qǐng)和釋放均由eBPF模塊記錄,模塊通過(guò)判斷分配和釋放操作的不匹配,定位出泄漏內(nèi)存的調(diào)用棧。
(2)KFENCE按預(yù)設(shè)時(shí)間間隔進(jìn)行采樣,每次時(shí)間間隔到期后的下一次內(nèi)存分配將從KFENCE對(duì)象池進(jìn)行分配,對(duì)此塊內(nèi)存的操作將受到KFENCE的監(jiān)控。
(3)若內(nèi)存訪(fǎng)問(wèn)出現(xiàn)越界錯(cuò)誤或釋放后使用錯(cuò)誤,系統(tǒng)拋出故障,由KFENCE接收,轉(zhuǎn)交eBPF模塊處理。
(4)內(nèi)存占用期間由ePBF模塊監(jiān)控,可實(shí)時(shí)獲取不同內(nèi)核線(xiàn)程的內(nèi)存占用情況,某線(xiàn)程內(nèi)存占用持續(xù)增長(zhǎng)達(dá)到閾值后報(bào)出內(nèi)存泄漏風(fēng)險(xiǎn)。
(5)若內(nèi)存釋放出現(xiàn)重復(fù)釋放錯(cuò)誤,系統(tǒng)拋出故障,由KFENCE接收,轉(zhuǎn)交ePBF模塊處理。
本次測(cè)試環(huán)境為x86平臺(tái),單CPU四核,4G內(nèi)存,linux內(nèi)核版本5.9.1。為更好體現(xiàn)本方法對(duì)系統(tǒng)響應(yīng)時(shí)間的影響,預(yù)先加入內(nèi)核實(shí)時(shí)補(bǔ)丁,版本為5.9.1-rt20。測(cè)試內(nèi)容包括內(nèi)存漏洞檢測(cè)功能測(cè)試與檢測(cè)方法對(duì)系統(tǒng)性能影響測(cè)試。
本文選取了KFENCE測(cè)試集,并從內(nèi)存漏洞測(cè)試集Juliet Test Suite中選取了CWE-401 Memory Leak的一部分移植至內(nèi)核態(tài)用于功能驗(yàn)證。將本文提出的內(nèi)存漏洞檢測(cè)方法在該測(cè)試集中進(jìn)行實(shí)驗(yàn)。
測(cè)試集具體信息如表1所示。
表1 測(cè)試集具體信息
測(cè)試關(guān)注的性能項(xiàng)為系統(tǒng)響應(yīng)時(shí)間與內(nèi)存占用率,本文選取的測(cè)試工具為開(kāi)源測(cè)試工具rt-test和系統(tǒng)內(nèi)存統(tǒng)計(jì)工具free。測(cè)試階段分兩次運(yùn)行系統(tǒng),一次執(zhí)行檢測(cè),另一次不執(zhí)行檢測(cè)。系統(tǒng)響應(yīng)時(shí)間記錄1000000次,并統(tǒng)計(jì)響應(yīng)時(shí)間分布情況,測(cè)試結(jié)果如表2所示。
表2 測(cè)試結(jié)果
功能測(cè)試結(jié)果顯示,本文提出的測(cè)試模塊可以較準(zhǔn)確地檢測(cè)到各個(gè)種類(lèi)的內(nèi)核態(tài)內(nèi)存漏洞。性能測(cè)試結(jié)果顯示,測(cè)試模塊對(duì)系統(tǒng)響應(yīng)時(shí)間的影響保持在us級(jí),未產(chǎn)生過(guò)大延遲,最大響應(yīng)延遲增加3us,內(nèi)存占用率提高0.07%,未對(duì)系統(tǒng)性能產(chǎn)生明顯影響。
Linux內(nèi)核中在具有高運(yùn)行效率的同時(shí)也存在著較大的內(nèi)存泄漏隱患,可能會(huì)引發(fā)不可預(yù)測(cè)的系統(tǒng)異常,有必要進(jìn)行運(yùn)行時(shí)的動(dòng)態(tài)檢測(cè),但現(xiàn)有的動(dòng)態(tài)檢測(cè)方法不能較好的覆蓋所有種類(lèi)的內(nèi)存漏洞,且對(duì)系統(tǒng)性能有一定的影響,不適合在生產(chǎn)環(huán)境中大量使用。本文提出了一種基于eBPF/KFENCE的linux內(nèi)核態(tài)內(nèi)存漏洞檢測(cè)方法,經(jīng)實(shí)驗(yàn)驗(yàn)證,該方法可以較準(zhǔn)確地檢測(cè)所有常見(jiàn)種類(lèi)的內(nèi)存漏洞,且對(duì)系統(tǒng)性能影響小,具有較高的實(shí)用價(jià)值。