業(yè)務(wù)系統(tǒng)故障往往不一定是網(wǎng)絡(luò)或者應(yīng)用單一的問(wèn)題,存在一類或多類故障并存的可能。某些故障則是業(yè)務(wù)系統(tǒng)和網(wǎng)絡(luò)設(shè)備工作機(jī)制沖突導(dǎo)致的。
某航空公司華南客服中心,客服人員使用客服系統(tǒng)接電話時(shí)經(jīng)常出現(xiàn)接聽(tīng)失敗的現(xiàn)象,由于客服服務(wù)器位于北京數(shù)據(jù)中心,中間涉及的網(wǎng)絡(luò)設(shè)備較多,一直未能定位到故障原因。
如圖1拓?fù)渌?,每個(gè)客服人員桌面都會(huì)有一臺(tái)電腦跟電話機(jī),一天中會(huì)出現(xiàn)幾次偶發(fā)故障,故障發(fā)生時(shí),用電腦上的客服軟件接聽(tīng)用戶電話失敗,如果及時(shí)改用座機(jī)接聽(tīng)則可成功,我們用科來(lái)網(wǎng)絡(luò)回溯分析系統(tǒng)在華南客服中心廣域網(wǎng)出口抓包分析:
客服人員可以用電腦和座機(jī)接聽(tīng)電話,電腦接聽(tīng)電話失敗時(shí),改用座機(jī)可以成功接聽(tīng)。
規(guī)律分析:電腦與座機(jī)是連接同一個(gè)hub上,座機(jī)可以成功接聽(tīng)電話說(shuō)明網(wǎng)絡(luò)連接正常,需要從電腦客服軟件的角度分析問(wèn)題。
故障發(fā)生時(shí)間段主要集中在午休后及凌晨時(shí)段,重置電腦的客服軟件后也能恢復(fù)正常。
規(guī)律分析:這兩個(gè)時(shí)間段的特點(diǎn)就是接聽(tīng)的電話數(shù)量比較少,很可能是空閑時(shí)間太長(zhǎng),電腦客服軟件某些連接被中斷了。
圖1
圖2
圖3
圖4
重現(xiàn)故障,使用科來(lái)網(wǎng)絡(luò)回溯分析系統(tǒng)將客服電腦與北京服務(wù)器之間的通信流量進(jìn)行回溯、分析,尋找故障原因。
在深圳客服中心尋找一臺(tái)客服電腦,首先驗(yàn)證該客服電腦、座機(jī)都能正常接聽(tīng)電話;然后從16:12開(kāi)始閑置該客服電腦,超過(guò)半個(gè)小時(shí)候,16:48再撥打該客戶座機(jī),接聽(tīng)失敗,故障成功重現(xiàn)。
客 服 電 腦 的IP為XX.XX.22.21,與北京的兩臺(tái)服務(wù)器有通信流量,分別是:
XX.XX.176.51,經(jīng)確認(rèn)為客服軟件界面的服務(wù)器
XX.XX.203.155,經(jīng)確認(rèn)為客服軟件控制插件的服務(wù)器
從客服電腦XX.XX.22.21與服務(wù)器XX.XX.176.51通信的TCP幾乎時(shí)序圖可以看到(如圖3),兩者采用了長(zhǎng)連接的機(jī)制,在空閑的時(shí)間,客戶端每隔幾秒鐘就會(huì)發(fā)送一個(gè)GET的請(qǐng)求與服務(wù)器保持連接。
從 16:12分至 16:48分,每個(gè)6分鐘客戶端與服務(wù)器就跟新一次TCP連接,未曾中斷過(guò)(如圖4),因此軟件界面一直能夠正常顯示。
從客服電腦XX.XX.22.21與服務(wù)器XX.XX.203.155在16:12分至16:48期間只有3對(duì)TCP連接一直保持(如圖5),如果這三對(duì)TCP連接沒(méi)有采用長(zhǎng)連接的傳輸機(jī)制,很可能會(huì)因?yàn)榭臻e太長(zhǎng)時(shí)間而被網(wǎng)絡(luò)中的防火墻等設(shè)備中斷連接。
果然,客戶端在空閑的2090秒(34分鐘)的時(shí)間內(nèi)沒(méi)有發(fā)送任何保持連接的數(shù)據(jù)包(如圖6),等到客服電腦重新發(fā)起接聽(tīng)電話請(qǐng)求的時(shí)候,客戶端的請(qǐng)求已經(jīng)無(wú)法到達(dá)服務(wù)器端,一直在發(fā)起重傳的請(qǐng)求,最后客服人員看到請(qǐng)求超時(shí)的告警提示。
大部分防火墻都會(huì)將空閑時(shí)間超過(guò)30分鐘的TCP連接斷開(kāi),而控制進(jìn)程在空閑的34分鐘內(nèi)沒(méi)有采用長(zhǎng)連接機(jī)制保持連接,所以被防火墻中斷了,再有電話接入的時(shí)候便會(huì)出現(xiàn)接聽(tīng)失敗的現(xiàn)象。
圖5
圖6
修改防火墻的策略:增長(zhǎng)訪問(wèn)北京XX.XX.203.155的TCP連接的空閑時(shí)間。
(注:該策略實(shí)施后,偶發(fā)故障出現(xiàn)的次數(shù)明顯下降)
優(yōu)化客服控制插件程序設(shè)置,能從根本上解決問(wèn)題。
客戶通過(guò)檢測(cè)防火墻規(guī)則、長(zhǎng)Ping網(wǎng)絡(luò)進(jìn)行檢測(cè),并未發(fā)現(xiàn)異常,在服務(wù)器中也未發(fā)現(xiàn)告警信息,難以確定問(wèn)題的原因。
通過(guò)網(wǎng)絡(luò)分析技術(shù)可以迅速還原網(wǎng)絡(luò)中的每一個(gè)TCP會(huì)話,通過(guò)圖形化界面就能夠快速找到問(wèn)題為程序并未進(jìn)行定時(shí)?;睿阑饓Τ瑫r(shí)關(guān)閉會(huì)話導(dǎo)致,很快就幫助用戶解決了困擾已久的問(wèn)題。
成都科來(lái)軟件有限公司
電話:400-6869-069 010-82601814
網(wǎng)址:www.colasoft.com.cn
論壇:www.csna.cn