曹輝標
摘 要:文章從公司實際情況出發(fā),以現(xiàn)有運營系統(tǒng)及運營保障機制為例,介紹了如何進行穩(wěn)定可靠運營系統(tǒng)的日常運行保障,同時通過對運營維護中關鍵技術的描述,闡述了在未來一段時間內運營維護工作的發(fā)展方向。
關鍵詞:運營系統(tǒng);運維;穩(wěn)定;可靠
引言
隨著公司業(yè)務的發(fā)展壯大,企業(yè)的日常運營維護工作已經(jīng)越來越被重視,運營系統(tǒng)的可靠穩(wěn)定關系著客戶使用滿意的高低。因此,打造一個穩(wěn)定、可靠的運營系統(tǒng)是所有運營企業(yè)的核心工作,由此孕育而生的關鍵技術也越來越多,也更好的為運營系統(tǒng)的維護提供了技術保障。
1 定義
運營維護簡稱運維,一般是指對企業(yè)已經(jīng)建立好的網(wǎng)絡系統(tǒng)軟硬件的維護以及對信息系統(tǒng)的維護。例如,電腦硬件、軟件維修,電話問題處理等基礎維護工作。同時也包含了對外的運營系統(tǒng)的維護,要保證運營系統(tǒng)是在正常運作的,通過各種手段,有人工的也有自動的,進行監(jiān)控,出現(xiàn)問題及時處理解決等等。
2 運營維護
運營系統(tǒng)的穩(wěn)定可靠是運營維護的重點工作,要對公司內部、外部使用的所有自運營系統(tǒng)的正常運作進行保證,保證服務器能夠正常運行,保證系統(tǒng)資源足夠使用,在必要時進行硬件升級,保證出問題時能夠第一時間分析解決問題,主要可以從以下幾個方面采取保證措施。
2.1 巡檢保障
運營系統(tǒng)由兩大部分組成,一部分是運行環(huán)境,包括網(wǎng)絡、硬件等資源,一部分是系統(tǒng)程序,包括各種應用程序以及網(wǎng)站等。要保證系統(tǒng)的穩(wěn)定,就必須保證運行環(huán)境和系統(tǒng)程序是穩(wěn)定正常的,為此可以通過日常巡檢來進行檢查保證。
每天至少對運行環(huán)境進行兩次巡檢,包括應用程序開啟、系統(tǒng)資源、系統(tǒng)事件日志、系統(tǒng)監(jiān)控情況等等,確保運行環(huán)境是正常的。
只有環(huán)境的正常也是不夠的,還必須保證程序開啟后能夠正常提供工作,因此需要安排人員通過一些自動化程序驗證以及人工的巡檢驗證來保證應用程序能正常提供業(yè)務功能。
2.2 監(jiān)控保障
為了保證系統(tǒng)的穩(wěn)定可靠,如果僅僅是通過人為的巡檢保障是不夠的,還需要配置完備的運營監(jiān)控機制,進行主動監(jiān)控以及主動報警。
一般的監(jiān)控系統(tǒng)能做到的是進行郵件和短信報警,但是如果在夜間出現(xiàn)問題,就很容易被忽略,因此需要一套能提供電話報警的監(jiān)控系統(tǒng),同時對于運營系統(tǒng)的各種參數(shù)需要定期進行分析,也需要一套對各種運營參數(shù)能提供詳細報表的監(jiān)控系統(tǒng)。
監(jiān)控系統(tǒng)一:
一套自主開發(fā)的監(jiān)控系統(tǒng),主要是對系統(tǒng)資源的使用情況以及應用程序啟用情況進行監(jiān)控。
運營系統(tǒng)每臺服務器安裝客戶端,同時安裝一臺服務器端,客戶端將報警信息提交到服務器端,服務器端連接到報警終端,報警終端連接公司語音網(wǎng)關系統(tǒng)和短信平臺,一旦報警終端收到報警信息,將向系統(tǒng)負責人員發(fā)送一條報警信息,告知某某系統(tǒng)出現(xiàn)問題,同時向報警手機撥打報警電話,語音提示系統(tǒng)負責人查看報警信息。雙管齊下進行報警提醒,避免只有短信晚間容易讓負責人遺漏報警信息的問題。
監(jiān)控系統(tǒng)二:
一套比較成熟的監(jiān)控軟件,對系統(tǒng)、網(wǎng)絡、資源以及整體的可用性進行比較全面的監(jiān)控,并產(chǎn)生詳細的日志,這套系統(tǒng)主要是通過日志用來對系統(tǒng)的可用性進行分析,并為系統(tǒng)是否需要進行優(yōu)化升級等操作提供可靠的參考依據(jù)。
通過這兩套監(jiān)控系統(tǒng)配合人為的日常巡檢,對運營系統(tǒng)的正常穩(wěn)定運行提供了有效的保障。
2.3 可靠性、可用性保障
系統(tǒng)穩(wěn)定可靠的運行,要考慮到各種可能出現(xiàn)的意外情況,例如服務器出現(xiàn)故障、網(wǎng)絡中斷或是機房無法正常工作等等,針對這些情況,必須要采取相應的措施來保證運營系統(tǒng)的可靠性和可用性。
目前通常都是采取如下措施:
1)數(shù)據(jù)庫本地做鏡像,在主服務器出現(xiàn)故障時立即切換。
2)程序本地做負載均衡,避免出現(xiàn)單點故障。
3)數(shù)據(jù)庫異地做日志傳送,在機房或網(wǎng)絡出問題時,切換到異地服務器。
4)程序異地做備份,在機房或網(wǎng)絡出問題時,異地啟用。
3 運營系統(tǒng)要求
運營系統(tǒng)的穩(wěn)定可靠必須建立在一定的要求之上,只有滿足這些要求,才能建設一個穩(wěn)定、可靠并且高效的運營系統(tǒng)。
3.1 性能要求
運營系統(tǒng)的用戶群體是企業(yè)用戶,較為集中使用時間為6:30-20:00,在高度集中使用時對于性能要求較高,內存、CPU、磁盤IO都要能滿足使用,支持高并發(fā),保證使用速度較快,不會有過多的延遲。
3.2 擴展要求
隨著用戶量的增加,服務器、數(shù)據(jù)庫性能以及容量方面都要能夠通過較為簡單的方式實現(xiàn)擴容,最好是能夠在線擴容,保證服務不會中斷。同時服務要能夠支持負載均衡,以提高系統(tǒng)速度及可用性。
3.3 本地災備
數(shù)據(jù)實現(xiàn)本地鏡像,當服務器或是數(shù)據(jù)庫無法正常工作時,能夠實現(xiàn)本地服務的快速切換(最好是能夠做到秒級切換)。
3.4 異地災備
數(shù)據(jù)實現(xiàn)異地備份,當機房遇到不可抗力的自然災難導致機房整體不可用時,能夠快速的啟動異地的備用系統(tǒng)提供正常服務。
3.5 網(wǎng)絡要求
運營系統(tǒng)網(wǎng)絡必須保持7*24小時通暢,提供電信、網(wǎng)通、移動、教育網(wǎng)等主流運營商的多線接入,保證網(wǎng)間互聯(lián)的順暢,當出現(xiàn)移動終端無法登陸系統(tǒng)時,能夠迅速的定位并解決問題。保證運營網(wǎng)絡的資源使用不會被同機房其它系統(tǒng)影響。
3.6 安全要求
系統(tǒng)用戶數(shù)據(jù)保密性要求極高,絕對不容許泄密事件的發(fā)生。同時要求運營系統(tǒng)能夠主動的防御外部的攻擊以及抵御病毒的破壞。
3.7 響應要求
運營系統(tǒng)要能提供7*24小時的服務,當出現(xiàn)問題需要調整溝通時能夠立即進行響應。
3.8 團隊要求
一套成功的系統(tǒng),除了必須具備上述強大可靠的服務器、網(wǎng)絡安全等硬件支撐能力、完善的系統(tǒng)和數(shù)據(jù)安全保障能力、完善的系統(tǒng)監(jiān)控和保障機制之外,更重要的是能夠有一支強大的技術管理團隊。公司在開始規(guī)劃運營系統(tǒng)的同時,即開始著手運維團隊的建設和規(guī)劃,并一直給予很高的重視。目前所有運營系統(tǒng)都交付公司的運維團隊負責,運維團隊成員都具備多年的工作經(jīng)驗,每個技術人員都有自已專長。運維團隊創(chuàng)建初始就按ITIL流程進行規(guī)范化日常維護和管理。通過近幾年的實踐和摸索,目前已經(jīng)有較為完備的服務臺、事件管理、變更管理、問題管理等流程。通過ITIL最佳化實踐經(jīng)驗,所有故障都將通過服務臺進行工單記錄、流程化故障處理。針對所有變更按流程進行白盒、黑盒等測試,只有測試通過后才提交運維部進行發(fā)布升級,針對每個流程都有完備的記錄和日志跟蹤,做到所有操作都有跡可循。
4 運維關鍵技術
運維是一項綜合性的工作,運維工程師在運維過程中會遇見形形色色的各種問題需要參與解決并從運維角度給出參考意見,包括架構設計、系統(tǒng)使用資源的評估、應用軟件設計的缺陷評估、系統(tǒng)資源調優(yōu)、托管機房選擇、安全調優(yōu)等等,并參與整個項目的實施過程。隨著時間的推移,越來越多的新技術會出現(xiàn)在運維過程中,例如集群技術應用、動態(tài)擴展的架構、安全運營中心(SOC)構建、網(wǎng)站加速(CDN)、大數(shù)據(jù)存儲等等,所以運維人員要與時俱進,需要不斷地通過這些新技術新的應用來完善運營系統(tǒng),使得系統(tǒng)更加穩(wěn)定可靠。這里主要介紹一下集群技術的應用。
集群技術應用:集群是由兩臺或多臺節(jié)點機(服務器)構成的一種松散耦合的計算節(jié)點集合,為用戶提供網(wǎng)絡服務或應用程序(包括數(shù)據(jù)庫、Web服務和文件服務等)的單一客戶視圖,同時提供接近容錯機的故障恢復能力。例如高性能計算科學集群,高可用性集群,負載均衡集群,分布式儲、計算存儲集群,數(shù)據(jù)庫集群,郵件集群等。集群由于機器較多,管理起來比較復雜,需要綜合考慮到以下幾點因素:
1)智能監(jiān)控
包括對集群系統(tǒng)故障的監(jiān)控以及資源、負載、網(wǎng)絡流量等使用情況的實時監(jiān)控,從而保證集群系統(tǒng)穩(wěn)定可靠的運行,并且對可能出現(xiàn)的問題及時處理。
2)故障維護
集群服務器數(shù)量較多,出現(xiàn)服務器宕機以及硬件故障的概率也隨之增大,因此,從系統(tǒng)穩(wěn)定性可靠性角度出發(fā),要充分考慮到故障問題,更多的通過應用程序的冗余負載部署來解決此類問題。同時要針對可能出現(xiàn)的問題,建立較為完備的應急響應機制,從而快速有效的采取解決措施。
3)運維自動化
集群服務器多,一些日常的工作,例如修改密碼,系統(tǒng)升級,系統(tǒng)發(fā)布等工作量比較大,需要借助一些自動化工具來批量完成這些日常工作,提高工作效率。
5 構建穩(wěn)定可靠運營系統(tǒng)
構建穩(wěn)定可靠的運營系統(tǒng)是所有對外運營公司的核心工作,需要通過一支穩(wěn)定高效的團隊來進行建設。綜合前文所述,穩(wěn)定可靠運營系統(tǒng)的構建影響因素很多,需要根據(jù)經(jīng)驗不斷的進行運維策略的制定,并不斷進行調整,確保人工和自動巡檢的有效性,保證監(jiān)控保障機制使用到位,避免出現(xiàn)監(jiān)控不到位的情況,同時通過各種運維高新技術的學習和使用,確保運營系統(tǒng)的穩(wěn)定、可靠。
參考文獻
[1] (美)阿爾斯帕瓦,(美)羅賓斯.網(wǎng)站運維:保持數(shù)據(jù)實時的秘技[M].楊建華譯.北京:電子工業(yè)出版社.
[2]劉宇熹,陳尹立.計算機系統(tǒng)服務外包及運行維護管理[M].北京:清華大學出版社.
[3]楊威.網(wǎng)站組建、管理與維護[M].北京:電子工業(yè)出版社。
[4]葛世倫,尹雋.信息系統(tǒng)運行與維護[M].北京:電子工業(yè)出版社.