陳 軍
(北京優(yōu)特捷信息技術(shù)有限公司 北京 100102)
互聯(lián)網(wǎng)和云計算的普及,讓IT 系統(tǒng)每天產(chǎn)生的日志量暴增.日志是一種帶時間戳的時間序列文本數(shù)據(jù),由IT 系統(tǒng)生成,可能每秒鐘產(chǎn)生數(shù)百萬條,每天達(dá)到PB 級,具有數(shù)據(jù)量大、產(chǎn)生速度快的特點(diǎn),而日志里往往包含重要的系統(tǒng)和應(yīng)用信息,存儲、分析這些日志屬于準(zhǔn)實時大數(shù)據(jù)(Fast Big Data).如何高效存儲、快速分析這些日志,成為業(yè)界的挑戰(zhàn).
產(chǎn)業(yè)界通常采用準(zhǔn)實時搜索引擎來存儲、分析日志這種時間序列文本數(shù)據(jù),對日志建立倒排索引,方便檢索.日志是非結(jié)構(gòu)化或半結(jié)構(gòu)化文本數(shù)據(jù),在對其進(jìn)行統(tǒng)計分析時,需要抽取其中的字段進(jìn)行結(jié)構(gòu)化.產(chǎn)業(yè)界通常有兩種解決方案:一種是日志存儲前抽取字段做結(jié)構(gòu)化,稱作寫時建模(Schema On Write),抽取字段會導(dǎo)致存儲膨脹,花費(fèi)更多的存儲空間,但節(jié)省了分析的時間,是以空間換時間;另一種是在日志統(tǒng)計分析時才做結(jié)構(gòu)化,稱作讀時建模(Schema On Read),由于只存儲原始日志及其倒排索引,也被稱作Schemaless,分析時根據(jù)需求抽取相關(guān)字段,更靈活,節(jié)省了存儲空間,但在分析時需要花更多時間,屬于以時間換空間.存儲空間與分析時間的矛盾難以解決,只能根據(jù)具體場景做取舍.這兩種方案在存儲時都會對索引文件及日志原文進(jìn)行壓縮,但壓縮率有限,而且由于日志的產(chǎn)生速度可能非???,為了不丟日志,需要在很短的時間內(nèi)把日志處理完并寫入永久存儲介質(zhì)(SSD 或硬盤),所以對索引構(gòu)建及壓縮的速度都有要求.這些屬于在線日志的處理方式,對檢索延遲要求高,需要放松對存儲空間的成本要求.
另外還有數(shù)據(jù)量龐大的日志不需要經(jīng)常檢索分析,屬于近線日志或離線日志,它們對檢索延遲要求不高,但對存儲空間的成本要求較高.數(shù)年前多倫多大學(xué)發(fā)明了CLP 技術(shù),對索引構(gòu)建和壓縮做了優(yōu)化,日志寫入速度快,但壓縮率和檢索性能相對低.
清華大學(xué)張廣艷教授團(tuán)隊對近線日志和離線日志做了進(jìn)一步探索和研究,通過深入研究日志數(shù)據(jù)常見的兩種模式:靜態(tài)模式和動態(tài)模式,及其常用處理算法,提出了對應(yīng)的解決方案:對離線日志基于靜態(tài)模式,提出了LogReducer 方法,實現(xiàn)了較高的壓縮率;對近線日志基于靜態(tài)模式和動態(tài)模式,提出了LogGrep 方法,實現(xiàn)了較高的壓縮率和較低的檢索延遲.高壓縮率與低檢索延遲的矛盾焦點(diǎn)在于數(shù)據(jù)的壓縮粒度,張廣艷教授團(tuán)隊通過挖掘日志數(shù)據(jù)模式,找到了數(shù)據(jù)壓縮的最佳粒度.他們還在某國際著名云廠商的真實生產(chǎn)場景對CLP、LogReducer 和LogGrep 做了評測.
計算機(jī)系統(tǒng)的高吞吐率和低延遲往往互相矛盾,日志處理系統(tǒng)需要同時兼顧高壓縮率、高壓縮速度、低檢索延遲三個互相矛盾的要求,張廣艷教授團(tuán)隊在這方面做出了有益的探索,從日志存儲分析全生命周期的視角,同時實現(xiàn)了高壓縮率和低檢索延遲.
現(xiàn)在IT 運(yùn)維監(jiān)控進(jìn)入“可觀測性”(Observability)時代,需要把日志、指標(biāo)、鏈路追蹤三個維度的數(shù)據(jù)進(jìn)行準(zhǔn)實時觀測,隨時了解IT 系統(tǒng)的健康度.指標(biāo)數(shù)據(jù)與日志數(shù)據(jù)有一定的相似度,如何讓系統(tǒng)能夠同時存儲日志、指標(biāo)、鏈路追蹤這三種數(shù)據(jù),并能夠準(zhǔn)實時分析海量數(shù)據(jù),對學(xué)術(shù)界和產(chǎn)業(yè)界又提出了新的挑戰(zhàn).另外,基于日志的安全態(tài)勢感知及用戶與實體行為分析,需要從全量日志中找到安全攻擊的蛛絲馬跡,也要求準(zhǔn)實時分析海量日志.希望能有更多團(tuán)隊在這個領(lǐng)域深入研究,推陳出新.
亮點(diǎn)論文
魏鈞宇,張廣艷,陳軍超.數(shù)據(jù)模式感知的低成本云日志存儲系統(tǒng)[J].計算機(jī)研究與發(fā)展,2023,60(11):2442-2452.DOI: 10.7544/issn1000-1239.202330178