王蘇利 李瑋 周安琳 陳志欣
摘 要:寬帶業(yè)務(wù)很多都是倒裝機(jī),裝維人員直接到用戶家中安裝寬帶,開通后再反向生成開戶訂單,所以首先需要對光貓或IPTV在終端系統(tǒng) (以下簡稱ONU) 出庫,出庫成功后,ONU系統(tǒng)會將光貓/IPTV的設(shè)備信息返回到前端資源系統(tǒng),但有時會出現(xiàn)系統(tǒng)間調(diào)用超時,實際終端已出庫,而資源系統(tǒng)沒有收到ONU系統(tǒng)的返回信息,裝維人員再次從資源系統(tǒng)點擊出庫報“該設(shè)備已出庫”,導(dǎo)致業(yè)務(wù)卡單,不能繼續(xù)施工,影響用戶安裝使用,本方案就是為解決該問題而制定的。
關(guān)鍵詞:終端;接口;超時;能力優(yōu)化
一、背景
裝維人員在用戶家中安裝寬帶,現(xiàn)場出庫光貓或IPTV終端失敗,總提示接口調(diào)用超時,再次出庫終端,又會報“該設(shè)備已出庫”,導(dǎo)致業(yè)務(wù)卡單,不能繼續(xù)施工,影響用戶安裝使用,系統(tǒng)間調(diào)用超時問題已嚴(yán)重影響客戶感知和一線使用人員感知,亟待解決。
二、原因分析
按照應(yīng)用和網(wǎng)絡(luò)兩方面分析總結(jié)超時原因:
1、應(yīng)用方面,分析業(yè)務(wù)量并不大,平均每天1萬個請求左右,高峰期在1.5萬,主機(jī)、數(shù)據(jù)庫接口的配置完全能支撐萬級的業(yè)務(wù)請求調(diào)用,并且在超時期間,主機(jī)CPU、內(nèi)存較空閑,數(shù)據(jù)庫沒有長時間的鎖,應(yīng)用日志刷新正常。
2、網(wǎng)絡(luò)方面,分析雙方系統(tǒng)部署情況和調(diào)用流程
(1)部署情況:資源后端服務(wù)一共2臺主機(jī)4套服務(wù),部署在x.x.14.x網(wǎng)段的虛機(jī)上;ONU接口出庫服務(wù)1
臺主機(jī)2套服務(wù),部署在x.x.26.x網(wǎng)段的AIX小型機(jī)上,不同的主機(jī)環(huán)境和網(wǎng)段,一個是小機(jī),一個是虛機(jī)。
(2)調(diào)用流程:資源后端4套服務(wù)通過四層交換機(jī)負(fù)載調(diào)用ONU出庫接口的2套服務(wù)。
(3)網(wǎng)絡(luò)上通過雙方互相ping地址,延時基本都是10ms以下,但實際的生產(chǎn)接口,之間調(diào)用都是大包,和
分析測試的場景還是有較大差異,故雙方系統(tǒng)部署的網(wǎng)絡(luò)和硬件環(huán)境需要進(jìn)一步定位排除,雙方系統(tǒng)目前部
署在不同的網(wǎng)段,經(jīng)過了四層,所以為排除網(wǎng)絡(luò)原因,嘗試將雙方系統(tǒng)部署在同一網(wǎng)段。
三、實施方法和過程
部署新環(huán)境復(fù)雜,需要時間,但一線業(yè)務(wù)因無法施工,影響用戶安裝使用,反應(yīng)極其強(qiáng)烈,急需快速解決,經(jīng)過討論評審,計劃分步實施,分二次實施優(yōu)化。
1、第一次優(yōu)化
重點實現(xiàn),減少超時現(xiàn)象的發(fā)生頻率,以及超時出現(xiàn)后,再次調(diào)用不再報錯,改造方案如下:
(1)資源系統(tǒng)調(diào)用ONU超時時間由10秒改成20秒。
(2)資源系統(tǒng)做oracle表分析。
(3)資源系統(tǒng)增加日志請求和返回時間、SN/MAC、訂單號等主要信息落表。
(4)第一次調(diào)用超時后,裝維人員如果在資源系統(tǒng)再次點擊出庫調(diào)用,ONU系統(tǒng)判斷相同的流水和SN,則認(rèn)為是超時導(dǎo)致的二次重復(fù)請求,這種請求特殊處理,給前端資源系統(tǒng)直接返回成功和設(shè)備信息,不再返回報錯,保證前端可以繼續(xù)施工,不再卡單。
2、第一次優(yōu)化后效果
資源系統(tǒng)、ONU系統(tǒng)按照方案分別完成改造并部署上線,經(jīng)過兩周的觀察,問題得到有效緩解,雖然不能從根本上解決超時的問題,但經(jīng)過此次改造,已基本不影響工單施工,超時現(xiàn)象減少,同時超時后第二次點擊出庫,也能成功進(jìn)行終端占用,可以繼續(xù)施工,不會卡單,不再出現(xiàn)在用戶家無法裝機(jī)的情況。
3、第二次優(yōu)化
雖然超時后再次調(diào)用可以繼續(xù)施工,但對于裝維人員的使用和感知,還是不好,并且仍會出現(xiàn)超時現(xiàn)象,如果超時后,還需要裝維人員二次點擊出庫,所以必須從根本上解決超時問題。此次解決方案的重點是嘗試將雙方系統(tǒng)部署在同一網(wǎng)段內(nèi),繞開四層,讓資源系統(tǒng)直接調(diào)用ONU系統(tǒng),經(jīng)過分析評審,沒有多余且可靠的小型機(jī),資源系統(tǒng)無法重新部署,故新申請?zhí)摍C(jī),將ONU系統(tǒng)部署在新虛機(jī)上,同資源系統(tǒng)在同一網(wǎng)段。因為是新的環(huán)境,不僅需要程序改造,而且環(huán)境本身也需要修改和配置,優(yōu)化時間緊,任務(wù)重,所以分工必須明確,如下:
(1)ONU系統(tǒng)評估影響,并修改程序參數(shù)、配置文件。
(2)平臺人員評估并申請主機(jī)資源,如CPU、操作系統(tǒng)、存儲等。
(3)協(xié)調(diào)申請新網(wǎng)絡(luò)地址,與資源系統(tǒng)在同一網(wǎng)段內(nèi)。
(4)完成以上資源準(zhǔn)備后,新虛機(jī)上部署服務(wù)、程序移植,測試驗證。
4、第二次優(yōu)化后效果
程序部署上線后,經(jīng)過一周的觀察,問題得到根本解決,觀察系統(tǒng)日志以及一線使用人員確認(rèn),已無超時現(xiàn)象發(fā)生,系統(tǒng)運(yùn)行平穩(wěn)。
四、小結(jié)
第一次優(yōu)化是通過變相方案,解決了超時后引起的報錯以及延長超時時間設(shè)置,并未找到根本原因,但這種解決方案能從一定程度上降低影響,保證業(yè)務(wù)可以繼續(xù)施工,但最終在一個臨界點上還會使問題集中爆發(fā);第二次優(yōu)化將2個系統(tǒng)的服務(wù)部署在同一網(wǎng)段,屏蔽了網(wǎng)絡(luò)影響,問題得到徹底解決。