孫忠?guī)r
(中國移動(dòng)通信集團(tuán)內(nèi)蒙古有限公司 呼和浩特 010090)
彩鈴業(yè)務(wù)經(jīng)過多年發(fā)展,已經(jīng)逐漸成為運(yùn)營商重要的盈利來源。因此確保彩鈴業(yè)務(wù)系統(tǒng)的安全性也具有非常重要的意義。
目前彩鈴業(yè)務(wù)系統(tǒng)的平臺(tái)架構(gòu)已經(jīng)比較成熟。通常一套彩鈴系統(tǒng)包括管理平面、呼叫平面兩大部分,每個(gè)平面內(nèi)部又包含前置交換放音模塊和后臺(tái)數(shù)據(jù)處理模塊,如圖1所示。
從安全性角度考慮:
圖1 彩鈴系統(tǒng)
從數(shù)量來講,管理節(jié)點(diǎn)數(shù)量較少(通常只有1套),而呼叫節(jié)點(diǎn)數(shù)量較多(通常3套以上)。呼叫節(jié)點(diǎn)由于數(shù)量較多,可以通過網(wǎng)絡(luò)路由方式做到一定的備份冗余。而相比之下,管理節(jié)點(diǎn)則存在單點(diǎn)故障風(fēng)險(xiǎn)。
從內(nèi)容來講,數(shù)據(jù)庫是彩鈴業(yè)務(wù)系統(tǒng)的核心,其數(shù)據(jù)極為重要。管理節(jié)點(diǎn)保存的是用戶鈴音訂購關(guān)系、用戶話單等重要數(shù)據(jù),而呼叫節(jié)點(diǎn)的數(shù)據(jù)都是從管理節(jié)點(diǎn)復(fù)制而來,因此管理節(jié)點(diǎn)保存的數(shù)據(jù)更加重要。
從設(shè)備組成來講,前置交換放音模塊均為基于交換機(jī)改造的CT設(shè)備架構(gòu),穩(wěn)定性較高;后臺(tái)數(shù)據(jù)處理模塊則是基于小型機(jī)、PC Server的IT設(shè)備架構(gòu),穩(wěn)定性較之CT設(shè)備有一定差距。
綜合以上對彩鈴系統(tǒng)的安全性分析可以看出,彩鈴系統(tǒng)的核心在于管理節(jié)點(diǎn)的中心數(shù)據(jù)庫。如何保護(hù)好彩鈴管理節(jié)點(diǎn)里存儲(chǔ)的數(shù)據(jù),保證其穩(wěn)定可靠地運(yùn)行,并為業(yè)務(wù)系統(tǒng)提供快捷可靠的訪問,是彩鈴系統(tǒng)安全重要的問題之一。
彩鈴系統(tǒng)的核心數(shù)據(jù)主要存儲(chǔ)于數(shù)據(jù)庫系統(tǒng)中。彩鈴業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)主要包括管理節(jié)點(diǎn)的一個(gè)中心數(shù)據(jù)庫和多個(gè)呼叫節(jié)點(diǎn)的呼叫數(shù)據(jù)庫。
其中,管理流程訪問中心數(shù)據(jù)庫,呼叫流程分散在各個(gè)呼叫節(jié)點(diǎn)上,訪問對應(yīng)的呼叫數(shù)據(jù)庫。呼叫數(shù)據(jù)庫通過IP網(wǎng)絡(luò)訪問管理數(shù)據(jù)庫,并將其中部分?jǐn)?shù)據(jù)庫表同步到呼叫數(shù)據(jù)庫中,以供呼叫流程使用(如圖2所示)。
圖2 彩鈴數(shù)據(jù)庫系統(tǒng)組網(wǎng)
彩鈴數(shù)據(jù)庫容災(zāi)解決方案是通過建立一個(gè)包含特定軟硬件的系統(tǒng),來實(shí)現(xiàn)對彩鈴管理平面的中心數(shù)據(jù)庫的保障。
彩鈴數(shù)據(jù)庫容災(zāi)系統(tǒng)主要由以下部分組成。
(1)生產(chǎn)系統(tǒng):即當(dāng)前業(yè)務(wù)使用的管理數(shù)據(jù)庫系統(tǒng);
(2)容災(zāi)系統(tǒng):通常和生產(chǎn)系統(tǒng)處于不同的物理位置,通過網(wǎng)絡(luò)與生產(chǎn)系統(tǒng)相連。當(dāng)發(fā)生災(zāi)害時(shí),能夠迅速接管生產(chǎn)系統(tǒng)所有的業(yè)務(wù),并能盡量保證數(shù)據(jù)不丟失。容災(zāi)系統(tǒng)的硬件設(shè)備可以和生產(chǎn)不同,但是操作系統(tǒng)和數(shù)據(jù)庫版本必須一致。另外考慮到災(zāi)難后需要接管生產(chǎn)的應(yīng)用,因此機(jī)器配置性能不應(yīng)低于生產(chǎn)系統(tǒng);
(3)容災(zāi)網(wǎng)絡(luò):容災(zāi)網(wǎng)絡(luò)通常需要獨(dú)立的數(shù)據(jù)傳輸通道以保障數(shù)據(jù)的同步要求,數(shù)據(jù)容災(zāi)的效率高低與容災(zāi)網(wǎng)絡(luò)有密切關(guān)系。容災(zāi)網(wǎng)絡(luò)的帶寬可以通過采集主庫系統(tǒng)忙時(shí)的redo增量進(jìn)行計(jì)算;
(4)容災(zāi)技術(shù):根據(jù)彩鈴的業(yè)務(wù)特性及業(yè)界數(shù)據(jù)庫容災(zāi)領(lǐng)域的經(jīng)驗(yàn),可以采用Oracle的DataGuard技術(shù)來實(shí)現(xiàn)數(shù)據(jù)庫容災(zāi)。DataGuard是Oracle數(shù)據(jù)庫的重要功能之一。Oracle在發(fā)生數(shù)據(jù)寫操作時(shí),會(huì)首先將數(shù)據(jù)寫入日志文件(redo log)中。DataGuard技術(shù)正是利用了這一點(diǎn),除將重做信息寫到本地外,還寫入到遠(yuǎn)程的容災(zāi)數(shù)據(jù)庫中。容災(zāi)數(shù)據(jù)庫通過不停的應(yīng)用重做信息即可實(shí)現(xiàn)與生產(chǎn)系統(tǒng)的同步。使用DataGuard功能進(jìn)行容災(zāi)對生產(chǎn)系統(tǒng)性能影響很小。
為了簡化運(yùn)維及容災(zāi)切換,還可針對彩鈴特性開發(fā)容災(zāi)專用腳本。通過使用該腳本,可以有效加強(qiáng)數(shù)據(jù)庫的容災(zāi)功能以及自管理功能。
圖3 彩鈴數(shù)據(jù)庫容災(zāi)系統(tǒng)典型結(jié)構(gòu)
在管理中心機(jī)房,中心數(shù)據(jù)庫的雙機(jī)直接連入公共的生產(chǎn)網(wǎng)絡(luò)提供數(shù)據(jù)服務(wù),同時(shí)建立連接生產(chǎn)機(jī)房與容災(zāi)機(jī)房的容災(zāi)網(wǎng)絡(luò),以保證容災(zāi)系統(tǒng)與生產(chǎn)系統(tǒng)間的數(shù)據(jù)同步傳輸;各個(gè)呼叫節(jié)點(diǎn)機(jī)房的呼叫數(shù)據(jù)庫僅接入生產(chǎn)網(wǎng)絡(luò)即可。
在異地的容災(zāi)機(jī)房,容災(zāi)系統(tǒng)同時(shí)連入生產(chǎn)網(wǎng)絡(luò)和容災(zāi)網(wǎng)絡(luò),以保證容災(zāi)系統(tǒng)接管生產(chǎn)系統(tǒng)后的數(shù)據(jù)訪問。
生產(chǎn)數(shù)據(jù)庫與容災(zāi)數(shù)據(jù)庫均采用雙機(jī),采用DataGuard技術(shù)實(shí)現(xiàn)全庫的容災(zāi)。
在實(shí)際組網(wǎng)中,容災(zāi)數(shù)據(jù)庫可以新建,也可以與呼叫節(jié)點(diǎn)數(shù)據(jù)庫合設(shè)。這兩種方式在容災(zāi)功能上完全一致,都可以實(shí)現(xiàn)對生產(chǎn)數(shù)據(jù)庫的容災(zāi)備份,所不同的是后者建設(shè)成本較低,一方面節(jié)約了新建容災(zāi)系統(tǒng)的軟硬件成本,有效降低CAPEX;另一方面簡化了彩鈴系統(tǒng)的網(wǎng)元數(shù)量,減少運(yùn)營維護(hù)成本,有效降低OPEX。
數(shù)據(jù)庫容災(zāi)提供3種可選的同步策略。
(1)最多保護(hù)模式:提供最高程度的數(shù)據(jù)保護(hù)。生產(chǎn)系統(tǒng)數(shù)據(jù)庫的redo信息只有成功傳送到至少一個(gè)容災(zāi)數(shù)據(jù)庫后,數(shù)據(jù)才能被寫入數(shù)據(jù)庫中。否則生產(chǎn)系統(tǒng)數(shù)據(jù)庫將關(guān)閉,以避免與容災(zāi)數(shù)據(jù)庫間產(chǎn)生數(shù)據(jù)差異。這種方式能保證數(shù)據(jù)的一致性,但是對生產(chǎn)系統(tǒng)數(shù)據(jù)庫性能影響嚴(yán)重,有可能造成較大沖擊;
(2)最大有效模式:提供次一級的數(shù)據(jù)保護(hù)。與上面模式的區(qū)別在于,當(dāng)redo數(shù)據(jù)被判斷為無法及時(shí)傳送到容災(zāi)數(shù)據(jù)庫時(shí),生產(chǎn)系統(tǒng)數(shù)據(jù)庫會(huì)臨時(shí)將自己的級別降到最大性能模式,這樣生產(chǎn)系統(tǒng)數(shù)據(jù)庫仍然能正常工作。這種方式是在保證生產(chǎn)系統(tǒng)數(shù)據(jù)庫有效性前提下的最高數(shù)據(jù)保護(hù)模式;
(3)最大性能模式:默認(rèn)的數(shù)據(jù)保護(hù)模式。生產(chǎn)系統(tǒng)數(shù)據(jù)庫不會(huì)等待信息到容災(zāi)數(shù)據(jù)庫后再進(jìn)行寫操作。這種方式是在保證不影響生產(chǎn)系統(tǒng)數(shù)據(jù)庫性能前提下的最高數(shù)據(jù)保護(hù)模式。
通過數(shù)據(jù)庫容災(zāi),能夠在核心的數(shù)據(jù)庫系統(tǒng)故障后迅速接管業(yè)務(wù),大大提高業(yè)務(wù)連續(xù)性,保障系統(tǒng)的連續(xù)運(yùn)行。
彩鈴核心數(shù)據(jù)集中存儲(chǔ)在管理節(jié)點(diǎn)的中心數(shù)據(jù)庫中。通過中心數(shù)據(jù)庫的異地容災(zāi)系統(tǒng),可以把自然或人為的災(zāi)害對當(dāng)前數(shù)據(jù)的損失降到最低,從而高度保障核心數(shù)據(jù)安全。
彩鈴中心數(shù)據(jù)庫是整個(gè)業(yè)務(wù)的數(shù)據(jù)核心,一旦出現(xiàn)故障影響很大。實(shí)現(xiàn)數(shù)據(jù)庫容災(zāi)之后,通過對容災(zāi)數(shù)據(jù)庫和生產(chǎn)數(shù)據(jù)庫的交替操作,可以大大減少系統(tǒng)升級、補(bǔ)丁和重裝系統(tǒng)等的計(jì)劃停機(jī)時(shí)間,從而降低業(yè)務(wù)風(fēng)險(xiǎn),提升操作效率。
通過對業(yè)務(wù)的深度分析,僅對最核心的中心數(shù)據(jù)庫部分進(jìn)行容災(zāi),以較低的價(jià)格實(shí)現(xiàn)較好的容災(zāi)效果。在容災(zāi)數(shù)據(jù)庫的建設(shè)上,硬件可以與生產(chǎn)系統(tǒng)合設(shè),軟件采用Oracle自帶DataGuard功能,無需額外付費(fèi)。
容災(zāi)系統(tǒng)除了必要的軟硬件之外,還需要完善、成熟的流程制度來確保其發(fā)揮最大的作用。因此,在完成了容災(zāi)方案設(shè)計(jì)、工程實(shí)施之后,相關(guān)的容災(zāi)切換、容災(zāi)測試等也是必不可少的。
在正常情況下,IVR管理流程訪問管理節(jié)點(diǎn),數(shù)據(jù)庫采用管理節(jié)點(diǎn)的數(shù)據(jù)庫。當(dāng)管理節(jié)點(diǎn)數(shù)據(jù)庫發(fā)生災(zāi)難時(shí),修改VXML/Web Portal/USDP的數(shù)據(jù)庫配置,指向容災(zāi)數(shù)據(jù)庫。
在正常情況下,呼叫流程訪問管理節(jié)點(diǎn),數(shù)據(jù)庫采用管理節(jié)點(diǎn)的數(shù)據(jù)庫。當(dāng)管理節(jié)點(diǎn)數(shù)據(jù)庫發(fā)生災(zāi)難時(shí),通過MMP修改管理節(jié)點(diǎn)的CTI的aplogic配置,將引用的數(shù)據(jù)源由原來的生產(chǎn)數(shù)據(jù)庫改為容災(zāi)數(shù)據(jù)庫。
管理節(jié)點(diǎn)的Web Portal/USDP/VXML/GW正常情況下都掛在管理節(jié)點(diǎn)的F5下面,Portal Server使用1個(gè)VIP對外,在生產(chǎn)節(jié)點(diǎn)防火墻上NAT成公網(wǎng)地址。當(dāng)生產(chǎn)數(shù)據(jù)庫發(fā)生災(zāi)難時(shí),修改VXML/Web Portal/USDP/GW的數(shù)據(jù)庫配置,指向容災(zāi)數(shù)據(jù)庫。
管理節(jié)點(diǎn)的Web Portal/USDP/VXML/GW正常情況下都掛在管理節(jié)點(diǎn)的F5下面。當(dāng)生產(chǎn)數(shù)據(jù)庫發(fā)生災(zāi)難時(shí),修改VXML/Web Portal/USDP/GW的數(shù)據(jù)庫配置,指向容災(zāi)數(shù)據(jù)庫。
USDP和短信之間的連接是由USDP發(fā)起,所以數(shù)據(jù)發(fā)生災(zāi)難時(shí),對短信無影響。
如果數(shù)據(jù)庫是正常的switch over,需要修改同步節(jié)點(diǎn)的dblink,指向容災(zāi)管理數(shù)據(jù)庫;
如果數(shù)據(jù)庫是異常的fail over,則需要重新建立由同步節(jié)點(diǎn)到容災(zāi)數(shù)據(jù)庫的同步環(huán)境。
在生產(chǎn)數(shù)據(jù)庫發(fā)生故障的時(shí)候,需要按照下面的步驟來恢復(fù)業(yè)務(wù)。
(1)手工將生產(chǎn)數(shù)據(jù)庫切換到容災(zāi)數(shù)據(jù)庫;
(2)修改 VXML/Web Portal/USDP 的數(shù)據(jù)庫配置,指向容災(zāi)數(shù)據(jù)庫;
(3)通過MMP修改生產(chǎn)管理節(jié)點(diǎn)的CTI的aplogic配置,將引用的數(shù)據(jù)源由原來的生產(chǎn)數(shù)據(jù)庫改為容災(zāi)數(shù)據(jù)庫;
(4)如果數(shù)據(jù)庫是正常的switch over,需要修改同步節(jié)點(diǎn)的dblink,指向容災(zāi)管理數(shù)據(jù)庫即可;
(5)如果數(shù)據(jù)庫是異常的fail over,則需要重新建立由同步節(jié)點(diǎn)到容災(zāi)數(shù)據(jù)庫的同步環(huán)境。
根據(jù)故障情況,按照容災(zāi)切換方案進(jìn)行切換操作,操作完成后進(jìn)行業(yè)務(wù)測試和驗(yàn)證,確保容災(zāi)切換順利完成。
(1)各節(jié)點(diǎn)呼叫流程能聽到定制的彩鈴;
(2)管理流程IVR能夠接入;
(3)GW能正常訪問中央音樂平臺(tái);
(4)用戶能訪問Web頁面,并正常完成開銷戶、下載;
(5)用戶能收到提示短信,并通過上行短信能完成開戶下載操作。
彩鈴系統(tǒng)是一個(gè)復(fù)雜而重要的系統(tǒng),數(shù)據(jù)庫存儲(chǔ)著業(yè)務(wù)所需的所有關(guān)鍵信息,對核心數(shù)據(jù)進(jìn)行完善、有效的保護(hù)是非常必要的。通過數(shù)據(jù)庫容災(zāi),可以大大提高彩鈴的業(yè)務(wù)連續(xù)性,并有效保障彩鈴核心數(shù)據(jù)安全。
容災(zāi)系統(tǒng)的建設(shè),不僅要考慮容災(zāi)的需求,還要綜合考慮經(jīng)濟(jì)性、可操作性和易管理性,結(jié)合彩鈴系統(tǒng)的實(shí)際情況,選擇最為科學(xué)的建設(shè)方案。容災(zāi)系統(tǒng)建設(shè)完成后,還需要制定科學(xué)的切換方案和測試方案,以確保系統(tǒng)發(fā)揮最大的作用。