文/崔鍇
(南京大學(xué)信息化建設(shè)管理服務(wù)中心 江蘇省南京市 210093)
隨著學(xué)校的學(xué)術(shù)科研能力的大幅度提升,及“雙一流”高校對學(xué)科建設(shè)的需求,各學(xué)科對學(xué)術(shù)資源的訪問及國際學(xué)術(shù)交流的日益頻繁,各學(xué)科出現(xiàn)數(shù)據(jù)庫資源訪問問題。為了能夠更好的為師生提供教學(xué)與科研服務(wù),通過數(shù)據(jù)分析、篩選、去重后,由圖書館的180個國內(nèi)外數(shù)據(jù)庫訪問記錄中選取 TOP20 的境外域名作為此次優(yōu)化的方向。我們針對此需求進行多次測試,逐步優(yōu)化并解決了現(xiàn)有的數(shù)據(jù)庫資源訪問問題。
針對我校在校師生訪問量較大的國際期刊、數(shù)據(jù)庫等,通過出口智能優(yōu)化選路的方式達到最佳的訪問體驗。計劃通過利用流量分析設(shè)備、多鏈路智能選路設(shè)備的配合完成智能選路方案的可行性調(diào)研。除優(yōu)化訪問外,智能選路方案還能提供智能監(jiān)控、主動告警、故障定位、數(shù)據(jù)對比及平臺可視化數(shù)據(jù)展示的功能。
在項目建設(shè)完畢后,希望通過這一整體解決方案,在降低運維故障率的同時,能夠協(xié)助網(wǎng)絡(luò)運維工作中減輕運維壓力、提高運維效率,更加自動化、智能化、可視化的完成網(wǎng)絡(luò)運維工作。
基于以上目標(biāo),我們選擇了業(yè)內(nèi)較為知名的網(wǎng)絡(luò)廠商如:北京派網(wǎng)、深信服科技、華為、未來網(wǎng)絡(luò)、網(wǎng)瑞達科技等,針對項目需求分別進行了可行性交流、產(chǎn)品功能評估、制定實施方案。
廠商產(chǎn)品型號 設(shè)備可行性分析調(diào)研。
派網(wǎng) Panabit-NPM:支持強大的應(yīng)用識別能力并可對在網(wǎng)流量進行靈活調(diào)度。
深信服 AD:支持多鏈路智能選路流量分擔(dān)、鏈路監(jiān)控、DNS代理。
華為 USG 防火墻:設(shè)備基于應(yīng)用的智能選路功能能力不足。
未來網(wǎng)絡(luò)探針盒:支持有線無線、支持主動探測,具有告警功能。
圖1:Pannabit-NPM引流測試圖
圖2:深信服AD與探針配合測試智能選路功能圖
網(wǎng)瑞達探針盒:不支持無線網(wǎng)絡(luò)訪問方式,無法模擬無線用戶的訪問情況。
派網(wǎng) Panalog:支持基于應(yīng)用、協(xié)議的流量分析以及可視化的報表展示功能。
在進行多次溝通調(diào)研意見后,我們最終確定了滿足項目需求的產(chǎn)品:
(1)基于出口流量調(diào)度并具有自動選路功能的廠商產(chǎn)品:北京派網(wǎng)(Panabit-NPM)、深信服科技(深信服 AD);
(2)基于主動探針模式并具有監(jiān)控告警的功能的廠商產(chǎn)品:未來網(wǎng)絡(luò)(探針盒);
(3)基于出口流量分析并具有日志統(tǒng)計、數(shù)據(jù)對比的廠商產(chǎn)品:北京派網(wǎng)(Panalog)作為實現(xiàn)目標(biāo)功能的子系統(tǒng)模塊。
考慮到目前校園網(wǎng)使用的整體情況,本著盡量不影響校園網(wǎng)現(xiàn)網(wǎng)環(huán)境、不影響用戶體驗、盡量減少出口原有線路及配置改動的原則進行項目規(guī)劃和制定相應(yīng)的測試方案。
圖3:我校數(shù)據(jù)庫出口優(yōu)化項目拓撲圖
圖4:TOP20數(shù)據(jù)庫訪問情況總覽
圖5:智能選路效果顯著的13個資源站點
針對境外數(shù)據(jù)庫優(yōu)化訪問的目標(biāo),項目組計劃通過兩個階段完成整體項目方案的實施規(guī)劃。
第一階段:
在測試環(huán)境中完成項目囊括的各子系統(tǒng)的功能測試,主要內(nèi)容包括:
(1)派網(wǎng) Panabit-NPM 完成應(yīng)用識別,域名選路、流量牽引的功能。
(2)深信服AD完成智能選路并統(tǒng)計相關(guān)流量和路由連接情況的記錄的工作。
(3)探針設(shè)備模擬用戶在各時間段內(nèi)對境外數(shù)據(jù)庫進行的實時訪問,將記錄并分析訪問結(jié)果后再與AD選路結(jié)果進行人工比對,從而驗證智能選路的正確性。
圖6:智能選路效果數(shù)值(柱形圖)
圖7:人工優(yōu)化結(jié)果
(4)派網(wǎng) Panalog 日志系統(tǒng)對途徑的流量進行分類統(tǒng)計,以及流量可視化功能的展現(xiàn)。
第二階段:
通過一階段的測試情況,在完成預(yù)期的計劃目標(biāo)后,將各子系統(tǒng)與現(xiàn)網(wǎng)環(huán)境相連完成設(shè)備方案部署,并進行智能優(yōu)化選路,主要內(nèi)容包括:
(1)通過對途徑測試設(shè)備的流量進行數(shù)據(jù)分析、篩選、去重后,從圖書館覆蓋的180個國內(nèi)外數(shù)據(jù)庫訪問記錄中選取TO20的境外域名作為此次優(yōu)化的方向。
(2)將篩選出的TOP20域名通過流量負載均衡設(shè)備完成引流動作至AD設(shè)備。
(3)智能選路設(shè)備根據(jù)內(nèi)置地址庫、智能 RTT 值的配合進行智能選路并記錄相關(guān)數(shù)據(jù)。
(4)探針設(shè)備針對多線路出口進行模擬用戶對以下域名進行訪問對比測試,分析訪問結(jié)果、若出現(xiàn)訪問問題,可以定位問題發(fā)生點并給出解決方案。
實施計劃:
第一階段:在測試環(huán)境中完成項目囊括的各子系統(tǒng)的功能測試。
具體計劃如下:
(1)派網(wǎng) Panabit-NPM完成應(yīng)用識別,域名選路、流量牽引的功能,同時Panalog日志系統(tǒng)對途徑的流量進行分類統(tǒng)計,以及流量可視化功能的展現(xiàn)。如圖1所示。
(2)深信服AD完成智能選路并統(tǒng)計相關(guān)流量和路由連接情況的記錄的工作。
(3)探針設(shè)備模擬用戶在各時間段內(nèi)對境外數(shù)據(jù)庫進行的實時訪問,將記錄并分析訪問結(jié)果后再與AD選路結(jié)果進行人工比對,從而驗證AD智能選路的正確性。如圖2所示。
第二階段:完成TOP 20的數(shù)據(jù)庫自動智能選路模式功能測試,并對結(jié)果進行驗證。
具體計劃如下:
(1)我校出口共有五條線路:電信、聯(lián)通、移動、教育網(wǎng)、教育網(wǎng)(國際保障),接在出口的交換機上。
(2)下聯(lián)華為防火墻(主主)——上網(wǎng)行為管理(主備)——Panabit(AC 主機和核心之間)——核心交換機。AC備機網(wǎng)口默認(rèn)斷電,所有上網(wǎng)流量均從AC主機和核心之間的線路轉(zhuǎn)發(fā)。
(3)Panabit 設(shè)備部署在上網(wǎng)行為管理(AC)主機和核心交換機之間,上下各做 4 組萬兆橋,通過路由策略將訪問指定數(shù)據(jù)庫域名的流量指向 AD。深信服AD的WAN口連接五條外網(wǎng)線路到出口交換機,LAN口直連 Panibit設(shè)備,用于接收訪問指定數(shù)據(jù)庫的流量。訪問數(shù)據(jù)庫的流量從Panabit走到AD,經(jīng)選路策略選路后轉(zhuǎn)換為AD上外網(wǎng)線路的IP上網(wǎng)。其余不在 Panabit路由策略中的流量正常走AC到華為防火墻出去上網(wǎng)。當(dāng)AC發(fā)生主備切換時,所有流量切換到備機和核心之間,Panabit 路由和AD選路策略失效,所有流量正常由AC和華為防火墻轉(zhuǎn)發(fā),不影響現(xiàn)有業(yè)務(wù)。
割接影響及恢復(fù)措施:
(1)割接前對設(shè)備進行配置,待割接后上架運行,割接網(wǎng)絡(luò)中斷時間大約 2-3 分鐘。
(2)割接后,如果出現(xiàn)外網(wǎng)數(shù)據(jù)庫訪問有問題時,如加載過慢,網(wǎng)頁打不開等現(xiàn)象時,通過修改 Panabit 設(shè)備中的流量指向策略,恢復(fù)原路由走向。
(1)學(xué)校提供各運營商的出口備用 IP 地址,防止因用戶惡意下載導(dǎo)致 IP 地址被封。
(2)Panabit 需提供溯源功能,便于學(xué)校將出現(xiàn)安全問題時,提供溯源證據(jù)。
部署了兩個設(shè)備:
(1)將 Panabit 置入現(xiàn)網(wǎng)中,設(shè)備在出口防火墻與流量控制設(shè)備中橋接模式串入現(xiàn)網(wǎng),以獲取真實的用戶訪問流量信息。
(2)將深信服設(shè)備旁掛至學(xué)校出口,目前實現(xiàn)了 電信、聯(lián)通、移動、教育網(wǎng)四個運營商的出口環(huán)境,與學(xué)?,F(xiàn)有的出口環(huán)境分離。
(3)將需要測試優(yōu)化的域名在 Panabit 策略路由 策略中進行引流,通過千兆的線路引流至深信服,通過深信服進行動態(tài)選路。探針設(shè)備線路上線:
圖8:選取的TOP20域名的原始數(shù)據(jù)記錄值(未進行智能優(yōu)化的訪問數(shù)據(jù))
圖9:TOP20域名的智能選路前后對比數(shù)據(jù)訪問情況(每天)
(1)目前深信服設(shè)備共六個電口,四個運營商線路共占用四個電口,一個與 Panabit互聯(lián)的口,一個管理口。探針目前因為 Panabit 流量分析設(shè)備甩到深信服的流量需要占用端口,所有目前沒有多余的端口來支持,此次將探針線路和Panabit引流線路接入二層交換機,再用一根網(wǎng)線接入深信服設(shè)備,以達到探針和Panabit 引流線路同時接入。
(2)利用真實用戶流量測試網(wǎng)絡(luò)性能,以及探針設(shè)備會主動發(fā)請求測試數(shù)據(jù),來測試網(wǎng)絡(luò)性能,以上兩種方式兩個維度的數(shù)據(jù)來保障測試數(shù)據(jù)的準(zhǔn)確性。
(3)在設(shè)備自動選路的同時,人工定期監(jiān)測網(wǎng)絡(luò)運行的質(zhì)量數(shù)據(jù),根據(jù)測試數(shù)據(jù)人工進行優(yōu)化出口調(diào)整,目前支持 IP 地址和泛域名(例如:*.nature.com)的方式進行手動的策略調(diào)度。
現(xiàn)場測試:
(1)現(xiàn)場連接 NJU 無線網(wǎng)絡(luò),模擬真實用戶訪問,使用電腦測試 Top20 域名訪問的網(wǎng)絡(luò)延時數(shù)據(jù)。
(2)測試手動引流 Ip 地址功能測試,發(fā)現(xiàn)該引流方式在深信服設(shè)備教育網(wǎng)出口策略存在環(huán)路,因為前期想要歸屬我校的教育網(wǎng)地址作為出口地址NAT訪問,該地址在總部進行了國際帶寬的保障,并且學(xué)校已經(jīng)將此地址報備給了數(shù)據(jù)庫廠商。調(diào)整了教育網(wǎng)的出口互聯(lián)地址,教育網(wǎng)地區(qū)網(wǎng)絡(luò)中心配合將該地址直接指向測試設(shè)備,環(huán)路問題解決。我校數(shù)據(jù)庫出口優(yōu)化項目拓撲圖如圖3所示。
本次項目我們在充分調(diào)研后根據(jù)校園網(wǎng)出口情況完成了項目分段實施,具體如下:
第一階段:通過設(shè)備選型,功能測試及樣本選擇,完成測試環(huán)境的搭建,功能實現(xiàn),以此來確認(rèn)項目可行性。
第二階段:將數(shù)據(jù)庫智能選路、優(yōu)化置入校園網(wǎng)現(xiàn)網(wǎng)環(huán)境中,通過數(shù)據(jù)分析、篩選、去重后,由圖書館的180個國內(nèi)外數(shù)據(jù)庫訪問記錄中選取 TOP20 的境外域名作為此次優(yōu)化的方向。如圖4所示。
根據(jù)智能優(yōu)化選路 的訪問情況,我們通過流量分析設(shè)備取得13個資源站點的服務(wù)與應(yīng)用延時平均值數(shù)據(jù),并與未進行智能優(yōu)化選路的數(shù)據(jù)進行對比,優(yōu)化效果最高提升了60.85%。如圖5、圖6所示。
服務(wù)延時:訪問客戶端與被測域名響應(yīng)時間。
應(yīng)用延時:訪問客戶端與被測服務(wù)數(shù)據(jù)響應(yīng)時間。
此次上線的 Top20 域名中,我們發(fā)現(xiàn)存在7個智能選路效果不佳的域名,針對這些域名進行人工復(fù)核驗證,我們通過探針設(shè)備模擬用戶行為在內(nèi)網(wǎng)環(huán)境中進行多出口的網(wǎng)絡(luò)數(shù)據(jù)測試,并進行數(shù)據(jù)分析得出智能選路并非是最優(yōu)效果,我們針對這7個域名手動設(shè)置了最優(yōu)訪問線路,得出如圖7所示數(shù)據(jù):
如圖8、圖9。
出口選路優(yōu)化:
選路策略與現(xiàn)網(wǎng)出口環(huán)境融合,在滿足校園網(wǎng)出口訪問策略及安全訪問策略等條件下,達到針對需求訪問資源的優(yōu)化訪問及保障,提升用戶體驗,保障學(xué)術(shù)訪問質(zhì)量。
訪問質(zhì)量檢測及優(yōu)化:
針對出口的訪問情況進行智能化的預(yù)警監(jiān)控,針對超過閾值的信息及被動故障進行人工判定,并提出解決方案,定期提供數(shù)據(jù)化的對比展示,定期提供數(shù)據(jù)化的運維數(shù)據(jù)報表。
訪問資源優(yōu)化工作如:
(1)重點安保時期,保障學(xué)術(shù)訪問質(zhì)量。
(2)重點學(xué)術(shù)需求時期,例如 海外學(xué)術(shù)視頻會議保障,大流量科研數(shù)據(jù)傳輸保障。
(3)對用戶提出學(xué)術(shù)科研保障需求,進行技術(shù)支持。
后續(xù)數(shù)據(jù)支持:
(1)現(xiàn)網(wǎng) Panabit 流量分析設(shè)備日志記錄數(shù)據(jù) 180個數(shù)據(jù)庫網(wǎng)站中,以流量排名并去重后得出選取Top20(名單附錄)。
(2)利用 Panabit 的流量分析內(nèi)容,進行服務(wù)延時和應(yīng)用延時等數(shù)據(jù)進行收集并進行對比分析。目前已經(jīng)開始記錄每日測試數(shù)據(jù)平均值。
(3)利用深信服自動選路,來判斷資源訪問優(yōu)先級。
(4)利用自動測試探針進行自動化的測試任務(wù),采集周期性數(shù)據(jù)。目前五個探針,分別代表了教育網(wǎng)出口、聯(lián)通出口、移動出口、電信出口以及自動選路策略的探針,每三個小時測試一次 Top20 測試列表中的境外數(shù)據(jù)庫網(wǎng)站的網(wǎng)絡(luò)往返延時數(shù)據(jù)以及 Http 的網(wǎng)絡(luò)測試數(shù)據(jù)等。
綜上所述,目前通過智能選路及人工優(yōu)化的方式,可最大程度的保障境外數(shù)據(jù)庫的訪問效果,較之前靜態(tài)路由調(diào)度的方式,更加靈活、高效,提升了學(xué)術(shù)訪問體驗。通過對境外數(shù)據(jù)庫應(yīng)用訪問數(shù)據(jù)進行監(jiān)控,根據(jù)探針數(shù)據(jù)采集、出口設(shè)備運行的情況,設(shè)置合理閾值,能夠在故障發(fā)生時完成主動告警并進行人工干預(yù)。