張琦
摘要:隨著我國(guó)經(jīng)濟(jì)的不斷發(fā)展,企業(yè)科學(xué)管理水平的提高,企業(yè)管理信息化越來(lái)越受到企業(yè)的重視。企業(yè)信息系統(tǒng)投運(yùn)后就進(jìn)入系統(tǒng)運(yùn)行維護(hù)階段,保障企業(yè)計(jì)算機(jī)信息系統(tǒng)安全、可靠、高效運(yùn)行是系統(tǒng)維護(hù)的首要任務(wù)和目標(biāo),同時(shí)還需優(yōu)化信息系統(tǒng),使系統(tǒng)能夠不斷改善和提高,以便充分發(fā)揮企業(yè)信息系統(tǒng)的作用,更好的為企業(yè)提供務(wù),提升企業(yè)科學(xué)管理水平,提高工作效率。本文主要在平時(shí)運(yùn)維過(guò)程的經(jīng)驗(yàn)基礎(chǔ)上分析企業(yè)信息系統(tǒng)運(yùn)行維護(hù)管理的方法。
關(guān)鍵詞:信息系統(tǒng);運(yùn)行維護(hù);故障;管理
企業(yè)信息化建設(shè)涉及到整個(gè)企業(yè)的經(jīng)營(yíng)管理系統(tǒng),企業(yè)ERP(企業(yè)資源計(jì)劃)系統(tǒng)、OA辦公自動(dòng)化系統(tǒng)等先進(jìn)的管理系統(tǒng)都進(jìn)入企業(yè)并成為企業(yè)重要的綜合管理系統(tǒng)。在企業(yè)信息系統(tǒng)投入正常運(yùn)行之后,做好企業(yè)信息系統(tǒng)的日常維護(hù)和管理工作,確保企業(yè)的信息系統(tǒng)正常運(yùn)行,是為企業(yè)帶來(lái)更多經(jīng)濟(jì)效益的重要舉措。企業(yè)信息系統(tǒng)運(yùn)行維護(hù)管理主要體現(xiàn)在日常運(yùn)行維護(hù)和故障管理兩方面。
1 系統(tǒng)日常運(yùn)行維護(hù)管理
企業(yè)信息系統(tǒng)投入使用以后,日常運(yùn)行的維護(hù)工作是非常重要的,確保企業(yè)計(jì)算機(jī)信息系統(tǒng)正常安全運(yùn)行是系統(tǒng)維護(hù)的首要任務(wù)和目標(biāo)。
1.1 巡檢與監(jiān)控管理
制定信息系統(tǒng)巡檢計(jì)劃,定期對(duì)服務(wù)器、數(shù)據(jù)庫(kù)、中間件、應(yīng)用系統(tǒng)等進(jìn)行巡檢,及時(shí)發(fā)現(xiàn)存在的各種安全隱患;通過(guò)監(jiān)控系統(tǒng),實(shí)時(shí)監(jiān)測(cè)服務(wù)器、數(shù)據(jù)庫(kù)、中間件、會(huì)話(huà)數(shù)等,及時(shí)了解系統(tǒng)當(dāng)前運(yùn)行狀態(tài)。其主要包括:監(jiān)控系統(tǒng)的安全狀況,發(fā)現(xiàn)不良侵入立即采取措施予以制止;檢查系統(tǒng)日志和各種告警信息,根據(jù)分析結(jié)果提出解決方案;監(jiān)控各應(yīng)用系統(tǒng)間接口運(yùn)行情況,對(duì)發(fā)現(xiàn)的異常數(shù)據(jù)要及時(shí)處理;對(duì)數(shù)據(jù)庫(kù)中垃圾數(shù)據(jù)的定時(shí)清理,及對(duì)歷史數(shù)據(jù)的及時(shí)遷移,優(yōu)化系統(tǒng)性能;檢查系統(tǒng)進(jìn)程是否正常;檢查磁盤(pán)的空間占用率;檢查CPU、內(nèi)存的使用情況;檢查群集軟件運(yùn)行情況等。
1.2 軟硬件啟停作業(yè)
信息系統(tǒng)啟停操作是為了使信息系統(tǒng)適應(yīng)環(huán)境和各種其他因素的變化,及時(shí)地進(jìn)行重啟、升級(jí)、更新補(bǔ)丁,保證系統(tǒng)正常的工作,滿(mǎn)足系統(tǒng)用戶(hù)對(duì)系統(tǒng)的要求。首先必須了解系統(tǒng)環(huán)境搭建過(guò)程,整理軟硬件清單、相關(guān)作業(yè)指導(dǎo)書(shū),這能更好地指導(dǎo)系統(tǒng)的維護(hù)過(guò)程。在系統(tǒng)部署階段,能更好地規(guī)劃系統(tǒng)軟硬件配置,如搭建集群、主備等雙機(jī)模式,避免信息系統(tǒng)于單機(jī)環(huán)境運(yùn)行;在停機(jī)前必須保護(hù)好現(xiàn)有數(shù)據(jù),做好備份;在升級(jí)更新前還需做好舊應(yīng)用軟件備份,如出現(xiàn)新版本不能穩(wěn)定運(yùn)行時(shí)能第一時(shí)間恢復(fù)系統(tǒng)。
1.3 權(quán)限管理與數(shù)據(jù)處理
用戶(hù)變更應(yīng)用系統(tǒng)權(quán)限、處理業(yè)務(wù)數(shù)據(jù)時(shí),需用戶(hù)所在部門(mén)審查和業(yè)務(wù)管理部門(mén)審批后交由系統(tǒng)管理員確認(rèn),進(jìn)行增刪改操作。用戶(hù)權(quán)限分配須遵循最小權(quán)限原則,用戶(hù)口令長(zhǎng)度應(yīng)滿(mǎn)足密碼復(fù)雜性要求,用戶(hù)賬號(hào)的命名規(guī)則應(yīng)規(guī)范管理;進(jìn)行業(yè)務(wù)數(shù)據(jù)的變更操作前需做好備份工作,并在有人監(jiān)護(hù)的情況下嚴(yán)格按照作業(yè)指導(dǎo)書(shū)開(kāi)展工作。
2 系統(tǒng)故障管理
故障管理是計(jì)算機(jī)信息系統(tǒng)維護(hù)當(dāng)中的復(fù)雜過(guò)程,應(yīng)當(dāng)將故障維護(hù)作為出發(fā)點(diǎn),積極采取綜合性措施,確保計(jì)算進(jìn)信息系統(tǒng)得以正常運(yùn)行,發(fā)揮其應(yīng)有作用。信息系統(tǒng)發(fā)生故障后,信息系統(tǒng)管理員應(yīng)組織相關(guān)人員對(duì)故障進(jìn)行處理,需從網(wǎng)絡(luò)、服務(wù)器、接口、數(shù)據(jù)庫(kù)、應(yīng)用等多方面定位問(wèn)題。一般結(jié)合監(jiān)控分析系統(tǒng)的實(shí)時(shí)告警信息,可以很快地分析出故障的影響范圍和問(wèn)題原因。無(wú)論大小的故障,都應(yīng)該及時(shí)地記錄故障的發(fā)生時(shí)間、故障的現(xiàn)象、故障發(fā)生時(shí)的工作環(huán)境、處理的方法、處理的結(jié)果、處理人員、善后措施、原因分析等,形成故障處理分析報(bào)告,這對(duì)于信息系統(tǒng)的運(yùn)維具有重要的意義。
2.1 數(shù)據(jù)庫(kù)故障
表空間不足、歸檔日志空間占滿(mǎn)是一般常見(jiàn)的故障,數(shù)據(jù)庫(kù)備份恢復(fù)操作是極少出現(xiàn),所以這里重點(diǎn)介紹常見(jiàn)的故障處理方法。表空間不足也就是指在非自動(dòng)擴(kuò)展設(shè)備上建立的表空間的使用率接近或等于100%,數(shù)據(jù)自身已經(jīng)不能再處理任何增加空間的SQL語(yǔ)句。當(dāng)表空間不足出現(xiàn)時(shí),我們一般可以通過(guò)ORACLE自身的日志或者前端提示的錯(cuò)誤信息進(jìn)行快速定位,通過(guò)擴(kuò)充表空間的設(shè)備文件進(jìn)行故障的排除。歸檔日志空間占滿(mǎn)大多是由于大批量數(shù)據(jù)變動(dòng)引起歸檔日志空間被占滿(mǎn)而造成數(shù)據(jù)庫(kù)沒(méi)有響應(yīng),登錄對(duì)應(yīng)的實(shí)例數(shù)據(jù)庫(kù)時(shí)會(huì)報(bào)無(wú)法登陸,等待日志空間回收;解決此類(lèi)問(wèn)題的辦法就是備份歸檔日志,然后刪除歸檔日志空間的歸檔日志文件。
2.2 應(yīng)用服務(wù)器故障
當(dāng)出現(xiàn)服務(wù)器不響應(yīng)新的請(qǐng)求、請(qǐng)求超時(shí)、請(qǐng)求處理的時(shí)間長(zhǎng)等,這可能是應(yīng)用服務(wù)器掛起故障。例如內(nèi)存溢出,即當(dāng)JVM最大的內(nèi)存數(shù)無(wú)法滿(mǎn)足應(yīng)用邏輯處理的需求,系統(tǒng)就會(huì)報(bào)內(nèi)存溢出(OutOfMemoryError)錯(cuò)誤,從而掛起應(yīng)用服務(wù),這一般需直接重啟應(yīng)用服務(wù)來(lái)解決問(wèn)題。一般來(lái)說(shuō),服務(wù)器掛起之后可能會(huì)崩潰,這需馬上進(jìn)行線(xiàn)程監(jiān)控,查看每個(gè)線(xiàn)程在特定時(shí)刻正在執(zhí)行什么操作的信息,是否存在死鎖或大量請(qǐng)求等,通過(guò)kill -3那些影響性能的進(jìn)程。對(duì)于應(yīng)用服務(wù)器故障,我們平時(shí)應(yīng)注重對(duì)SQL語(yǔ)句優(yōu)化、weblogic配置調(diào)整、JVM配置優(yōu)化、擴(kuò)充應(yīng)用服務(wù)器內(nèi)存和CPU等系統(tǒng)性能優(yōu)化,能有效降低故障發(fā)生次數(shù)。
3 結(jié)束語(yǔ)
針對(duì)企業(yè)信息系統(tǒng)所開(kāi)展的運(yùn)行維護(hù)管理的工作核心在于:依托于網(wǎng)絡(luò)、服務(wù)器、軟硬件平臺(tái)、應(yīng)用軟件等相關(guān)技術(shù)支持,確保系統(tǒng)安全、可靠運(yùn)行。在運(yùn)維過(guò)程中,需注重日常的巡檢和監(jiān)控,規(guī)范信息系統(tǒng)運(yùn)行維護(hù)的流程,及時(shí)定位故障源并解決,提高系統(tǒng)可用性。
參考文獻(xiàn)
[1]葛世倫.信息系統(tǒng)運(yùn)行與維護(hù)[M].北京:電子工業(yè)出版社,2012.
(作者單位:黑龍江煙草工業(yè)有限責(zé)任公司綏化卷煙廠(chǎng))