陳德軍
(鹽城市體育彩票管理中心 ,224005)
對電腦體育彩票終端機故障規(guī)律及其數據安全保障體系的探討
陳德軍
(鹽城市體育彩票管理中心 ,224005)
本文借助電子產品可靠性方面的研究成果對彩票終端機故障規(guī)律進行探討,揭示了終端機故障的宏觀必然性與微觀偶然性,以此為基礎提出了故障控制策略,并對電腦彩票終端機數據安全保障體系建設問題提出了設想。
電子產品;故障曲線;控制策略;保障體系
“十二五”規(guī)劃期間,預計鹽城電腦體育彩票銷售規(guī)模達45億元,為體育事業(yè)的發(fā)展和社會公益做出了重大的貢獻。回顧電腦體育彩票終端機使用情況,分析其故障規(guī)律,總結維修經驗,對保障電腦體育彩票數據安全,保持電腦體育彩票健康、持續(xù)、穩(wěn)定發(fā)展具有重要意義。
體彩剛進江蘇之際,根據國家體彩中心的安排,江蘇省體彩中心對當時福建電腦體育彩票系統(tǒng)進行了考察,參照當時福建體彩機器配置模式自行采購零部件組裝了300臺PC機作為電腦體育彩票銷售終端機。這批機器大約使用了一年半時間。對于這批機器,一方面是零部件的可靠性不高,另一方面國家體彩中心配套的加密卡穩(wěn)定性有缺陷,再加上當時終端機軟件設計在故障容錯能力方面有欠缺,在實際使用中故障率偏高?;谶@個情況,再加上對統(tǒng)一管理因素的考慮,國家體彩中心決定放棄自行組裝PC的代用模式,選用專用POS機作為彩票銷售終端機,99年11月江蘇的PC兼容機全部換用日本歐姆龍公司的RS6500專用POS機,鹽城亦是。此后幾年又陸續(xù)淘汰了RS6500型POS機,更換成高騰、英特達幾批不同型號的機器。到2015年全市高騰、英特達裝機總量達到1060臺。這些機器因出廠批次的不同,配用的零部件有差異,先后曾經大面積發(fā)生打印機類、鍵盤類和讀票機類等問題,我市級中心會同上級部門研究并采取改進措施,有效地解決了問題。
從近幾年全省故障統(tǒng)計情況看,全省終端機故障率處于一個相對穩(wěn)定時期。據省中心技術部門匯總統(tǒng)計各市上報的2012年~2014年度共36個月的終端機故障情況,終端機的故障點主要集中在打印機類(占48.11%),鍵盤類(占20.35%),讀票機類(占8%)三個方面,占終端機故障總數的76.46%。如果剔除打印機熱敏頭因長期使用受化學侵蝕和鍵盤物件布局不合理因素故障,以及銷售員帶電拔插現象,自2012年以來,全省連續(xù)三個月的終端機平均故障間隔時間(MTFB)都超過1萬小時,不低于終端機出廠可靠性指標(MTFB=1萬小時)。這個情況表示全省在用的終端機的主機沒有出現因使用時間長而可靠性下降的問題。在此要作特別說明的是,鹽城1060臺終端連續(xù)使用近五年時間考驗,每年故障點和故障率相對穩(wěn)定,表明機器的故障率沒有隨使用延長而明顯降低。市中心每月統(tǒng)計故障情況,目的在于及時監(jiān)控全市終端機可靠性變化情況。在終端機可靠性沒有出現明顯下降情況,使用淘汰辦法更換終端機不是控制機器故障率的合理做法。
夏季高溫和雷雨天氣對于電子產品來說,是不利的使用環(huán)境,也是電子產品故障高發(fā)的季節(jié),我市許多彩票終端機在露天工作,加上通風降溫不良,機器故障率季節(jié)性上升是自然規(guī)律,對此需要從改善環(huán)境方面采取措施,積極防范事故。不改善機器工作環(huán)境,僅靠換機器和備件是很難降低機器故障率的。如果我們仔細分析電子產品在使用中故障規(guī)律,就會發(fā)現不良環(huán)境下更換新機器會面臨更大的故障高發(fā)風險。
從本質上看,所有產品都會發(fā)生故障,只是發(fā)生故障的時間取決于產品設計、選用的材料、產品的工作環(huán)境、以及設備承受的壓力。產品故障有不同的發(fā)生模式,導致故障的原因也多種多樣,質量監(jiān)控中沒有發(fā)現的制造缺陷,產品設計承載強度不夠,材料選用不當,制造過程遺漏的污染物等等,都會導致產品發(fā)生故障或性能下降。一般而言,機械零件的壽命服從對數正態(tài)分布、正態(tài)分布或威爾分布,電子設備的壽命則服從指數分布,即電子產品可靠度為
(表1)
R(t) = P( T > t ) = (exp(-λt)
其瞬時故障率函數λ(t) = λ,是不隨時間而變的常數。
美軍對航空技術裝備故障率做了大量研究,總結出6種基本類型故障曲線(如表1)。
浴盆曲線是一種典型的故障曲線。產品壽命初期故障率相對較高,這是由設計和制造上的缺陷,如材料不合格,裝配不當,質量檢驗不認真等因素造成的。經過產品磨合和調試后,不合格的產品在正式投入使用前被淘汰掉。在早期的高故障期之后是產品的偶然故障期,也是產品的有用壽命期,其特點是故障率低且穩(wěn)定。偶然性故障是由偶然性因素引起的,如制造工藝上的偶然缺陷、材料缺陷、維護不良、操作不當、以及環(huán)境因素等造成的。設備在什么時候發(fā)生偶然性故障是不可預測的。一般來說再好的維護工作也不能消除偶然性故障。在產品有用壽命期之后是耗損故障期,特點是隨使用時間的增加故障率迅速上升,是由產品的磨損、疲勞、腐蝕、老化、耗損等因素導致產品內在的物理和化學特性發(fā)生變化而造成的。
機械動力類產品一般都有浴盆故障率曲線,產品壽命為正態(tài)分布,特點是產品壽命在T1~T2時間段的可能性很大,壽命少于T1時間或大于T2時間的可能性比較小。
電子類產品的故障率一般為常數,或早期產品壽命隨時間略有變化,但很快進入穩(wěn)定不變期。電子產品的壽命分布為指數分布,特點是使用時間超過某個特定時間Ts后,使用時間繼續(xù)延長,壽命概率保持不變。換言之,雖然使用壽命時間T2比T1大,但T2出現的概率與T1出現的概率是相同的。這就是美國軍方對電子產品不規(guī)定使用壽命限定的原因。例如美國的航天飛機,是60年代設計,70年代制造的,機上使用的計算機PC8080其民用產品是70年代后期投放市場的PC80計算機,其后出現了8086,80286,80386,486,586,PⅡ,PⅢ,PⅣ及I(X)型號?,F在,時間過了30多年,民間的PC80計算機早無足跡,但美國航天飛機上的PC80機器至今還在繼續(xù)使用。
體彩銷售終端機本質上是在一臺普通計算機上配專用體彩銷售軟件而成的專用計算機,對其硬件故障的探討可以完全引用計算機行業(yè)多年來積累起來的計算機故障機理研究成果。本節(jié)所用材料來自美國德州儀器公司技術開發(fā)組的P.Viswanadham & P.Singh 著《 Failure Modes and Mechanics in Electronic Packages 》一書。
2.1 電腦設備的故障類型
電腦彩票終端機出現的各種電子故障可歸為短路故障、開路故障和間歇性故障三種類型。如雷擊造成的Modem卡故障是典型的感應電擊穿短路或燒蝕開路故障,而終端電子儲存盤出現間歇性故障和開路故障。
2.1.1 短路故障
當在兩條線路之間出現導一條導電路徑時,就會發(fā)生電路短路。電荷遷移、金屬遷移、離子污染、侵蝕、機械應力、制造缺陷等都是可能導致電路短路的原因。有時候,短路電流明顯增大引起過載電流導致災難性故障。電子產品起火就是短路故障的惡果之一。短路產生的大電流引起元件溫度升高,如果再加上潮濕影響,高溫會增強短路機制,最終導致設備故障。
2.1.2 開路(斷路)故障
某個電路的走線因工作應力而斷裂使電路不導電,就出現開路故障。當焊接點有極細小的裂縫時,斷路故障呈現出高阻抗電路特征。電子設備中不同材料不同的熱脹冷縮特性在材料之間產生機械性熱應力,是導致電路斷路故障的主要原因。腐蝕、金屬遷移、機械應力都會造成大量的開路故障。元器件上接插部件的制造缺陷,如插頭空隙、對金屬材料的過度加工、工藝污染等都會使接插部件所能承受的機械應力達不到正常工作應力要求,導致產品發(fā)生早期故障。另一方面,設備使用一段時間后因磨損或材料性能下降也會導致開路故障,提前終止產品設計壽命。對電路進行通斷性檢測,很容易診斷是否有開路故障。
2.1.3 間歇性故障
顧名思義,是暫時性故障,開機后時有時無,維修時又可能沒有故障。這類故障有時會隨機器溫度變化時有時無。電腦中的接插件最容易出現此類故障。當元器件的工作參數受工作時間和環(huán)境壓力影響出現漂移時,電子噪聲也會使設備產生間歇性故障。電腦中的冷卻風扇和機械硬盤和軟盤產生的振動對間歇性故障有強烈影響。阿爾法粒子有時也會引起間歇性故障,尤其是引起內存故障。如果不良環(huán)境壓力持續(xù)增大,間歇性故障會演變?yōu)橛谰眯远搪坊蜷_路故障。電腦中的板卡插槽與金手指,電子盤插針和插座,都是間歇性故障的高發(fā)區(qū)。
2.2 電腦部件故障機理
2.2.1 電路板故障
電腦中使用的電路板基本上都是環(huán)氧樹脂玻璃纖維多層板,通過表面或內部銅質導線為板上的分立元器件提供電源和信號連接通道。由于制造過程中使用的 材料性能及其化學特性,以及加工過程的復雜性,在成品板中產生的缺陷會導致設備在使用中發(fā)生故障。
(1)電路板預浸料坯缺陷
玻璃纖維板夾層間的細微裂紋及高溫高濕環(huán)境下銅介質遷移場所是離子污染和霧化通道,最終要導致電腦發(fā)生短路故障。
(2)信號/電源走線刻蝕缺陷
銅箔抗蝕涂層清除不干凈,殘留的抗蝕涂層使非引線區(qū)域的銅箔不能徹底被腐蝕清除,造成電路短路??涛g過程中抗蝕涂層脫落會使銅線遭到腐蝕發(fā)生斷路故障。電路板制造中的模壓過程可能造成導線斷裂或重疊等機械性損傷,尤其是接觸不良會引起間歇性故障。銅箔上的手印和汗?jié)n會使銅箔氧化。銅箔上沉積的油脂、粉塵、纖維、毛發(fā)、皮屑都會使夾層粘貼不緊密而產生裂縫,銅箔上的劃痕還可能引起短路或斷路。
(3)焊孔缺陷
電路板上鉆孔的表面質量及孔內的鍍銅質量對焊孔的可靠性有嚴重影響。毛糙的孔壁容易產生虛焊。沒有鉆通或部分鉆通的焊孔會造成斷路故障。不合適的鉆孔操作會使環(huán)氧樹脂鉆屑結塊,使鍍銅層粘貼不良。鉆孔還可能使電路板內的夾層分離從而導致使用故障??變儒冦~缺陷在波峰焊接時也會引起假焊問題。
(4)掩膜缺陷
掩膜的作用是保護膜下的銅質電路不受刻板、焊接、電鍍化學、大氣侵蝕和退化、以及裝配操作的損害。掩膜與焊孔對位偏差會造成元器件管腳焊接不良。
2.2.2 元器件安裝故障
電子元器件在電路板上有兩種安裝方式。一是插孔安裝,管腳直接插入電路板焊孔,焊接在電路板上。這種方式已經使用了幾十年,元件安裝牢固,并且焊腳尺寸較大,不適用于高密度安裝。目前,計算機設備中大量采用的是表面貼裝技術,元件尺寸可以做得非常小,能夠在較小的電路板上安裝更多的元器件,有利于電子組件的小型化。但表面貼裝焊點容易受不同材料因熱脹冷縮不同而產生的復合應力的影響,從而發(fā)生焊點故障。
2.2.3 連接故障
虛焊故障是電子器件連接中常見的缺陷,其產生原因多種多樣。焊接中產生的氣泡是導致虛焊的一個主要原因。表面貼裝技術采用的粘貼工藝和材料對連接質量也有重要影響。焊接點的熱脹冷縮應力有可能撕裂焊腳,電路板沒清除干凈的焊料顆粒也會引起短路故障。
2.2.4 侵蝕與遷移故障
金屬材料因電化學作用而產生的侵蝕現象容易造成斷路故障,而金屬材料的遷移(金屬晶體生長)則可能造成短路故障。
2.2.5 連接件故障
機械、熱應力、磨損、侵蝕、加工污漬、制造缺陷等因素,單獨或組合作用會導致連接件發(fā)生故障。連接頭松頭,插腳接觸力小,板卡振動等因素會引起間歇性故障。
2.2.6 電超載(EOS)和靜電放電(ESD)
電應力失效約占所有半導體現場失效的50%。有兩種失效形式:(1)電壓引起的失效,起因于絕緣損壞或氧化物擊穿;(2)電流引起的,金屬敷鍍層因放電電流而加熱燒毀或熔化。電壓或電流超載時間大于1μs所引起的破壞稱為電超載失效,小于1μs的稱為靜電放電失效。來自電源通斷、繼電器動作的電壓或電流的瞬時作用都能引起EOS。在EOS時,大電流引起的高溫失控狀態(tài)能使硅熔化造成短路,也可能因金屬敷鍍層熔化而造成斷路。
靜電放電(ESD)是積累的靜電電荷(100V~20kV)通過低電阻的集成電路模塊對地快速(數百皮秒~1ms)放電,損壞絕緣薄膜(如氧化物閘門),以及在CMOS中引起熱效應。在靜電作用下,電子部件的性能通常下降,有時完全失效。大電荷靜電放電容易給電子設備帶來致命損傷。在干燥環(huán)境下,如果不采取靜電防護措施,人體自身攜帶的靜電就足以摧毀一個集成電路模塊。對電子產品失效機制的研究表明,對電子設備制造、維修以及操作人員的培訓是將電應力損傷減到最小的關鍵所在,因為他們不但對大多數電荷積累而且對大多數放電負有責任。防止ESD有三種方法:
(1)將電荷積累減到最小或消除。
(2)將積累的電荷引入導體中。
(3)把絕緣體中積累的電荷中和掉。
關于ESD對電子設備的危害問題,以及雷電產生的感應電對用電話線路傳輸數據的Modem卡的破壞機理,《 Predicting Semiconductor Failure Modes 》一文有詳細論述。該文已全文譯出,在此不贅述。
2.3 基于故障機理的推論
從上述的6種故障的粗略機理分析可見,設計、制造、工作環(huán)境、操作使用方法等環(huán)節(jié)的多種危害因素都會對終端機的可靠性產生影響。一個故障現象的產生,往往是多種因素組合作用的產物。對于某臺具體終端機來說,各種危害因素怎樣組合,什么時候才使設備發(fā)生故障具有很大的偶然性,而且這種偶然性不會隨機器使用時間的長短發(fā)生顯著性變化,這就是計算機設備故障規(guī)律中故障率基本恒定,設備壽命呈指數分布的根源所在。改善機器工作環(huán)境,加強維修保養(yǎng),從客觀上講,有助于抑制危害因素,控制終端機故障率,但不可能徹底消滅故障。對于新投入使用的終端機,危害因素并未減少,同樣面臨著故障問題。由于故障機理分析中的危害因素是客觀存在,并且是不可能消滅的,因此,任何想一勞永逸地解決終端機故障問題的方案是不存在的。大批量更換終端機并不能消除各個環(huán)節(jié)的故障危害因素,因此,設想通過大批量更換終端機來消除終端機故障問題,易勞而無功。體彩中心作為終端機廠商的用戶,對機器設計制造過程無能為力,對終端機使用環(huán)境條件的控制力度也有限,面對全市1060臺裝機量,我們要承認客觀存在的大量危害因素,在思想觀念上要認識到,宏觀上個別終端機出故障是必然的,而在微觀上故障出在哪一臺是偶然的。對彩票終端機故障管理的基本思路應該是:宏觀上采取措施減少危害因素;微觀上提高維修工作效率,減少故障停機損失。
電腦彩票終端機,不論是新機器還是舊機器,在使用中都面臨著客觀存在的高溫、雷電、潮濕、粉塵、大氣污染(硫化物、碳化物等)、感應電場等故障因素。這些危害因素與機器故障有密切關系,但在什么時候以什么方式使終端機出現什么故障有很大的隨機性。由于這些危害因素在客觀上是不可能得到根除的,這就迫使我們要承認宏觀上終端機出故障的必然性,而彩票安全要求我們必須采取措施保障終端機數據安全,保護電腦體育彩票的整體利益。
3.1 終端機故障控制策略的核心思想——保障數據安全
從電腦彩票設備安全管理上看,既然電腦彩票終端機發(fā)生故障有其客觀必然性,把終端機故障控制策略目標定位在終端機不出故障這個不可能實現的目標上就是錯誤的。彩票終端機故障造成的主要危害是彩票數據丟失、不準確等影響彩票正常開獎,其次是耽誤銷售時間,影響銷售量并增加維護費用開支。終端機故障控制策略要針對其主要故障危害,控制策略的核心應該是確保終端機數據安全,手段是建立彩票終端機數據安全保障體系。
3.2 數據安全保障體系的基本方針
建議以“嚴格控制,確保數據,預防為主,維修為輔”作為終端機數據安全保障體系的基本方針。
嚴格控制,是指對電腦體育彩票技術體系進行嚴格控制與管理,嚴格執(zhí)行技術管理規(guī)章制度,堅決把終端機故障危害控制在不丟失數據范圍內,堅決杜絕有令不行,有禁不止,隨意行動,盲目操作,小問題捅大紕漏。
所謂小問題捅大紕漏,是指終端機上某個部件發(fā)生故障使機器自身不能正常輸出如票樣、無兌獎數據源等,銷售員或機器維修人員不按《終端機故障處理管理條例》等管理規(guī)定的要求進行處理,耽誤了銷售時間,亦產生了社會糾紛。
確保數據,是指維修工作在任何情況下的第一任務是數據安全。要按照省中心頒發(fā)的《終端機故障處理管理條例》要求,完善制度保障安全。只有在開獎前不影響數據準確性,才能避免銷售糾紛,才可以把終端機故障危害控制在能夠接受的范圍內,才能保證電腦彩票數據安全。
預防為主,維修為輔是指在技術安全管理上從二個層次采取防范措施。第一個層次是防止單個終端機故障危害擴大化。無數據性故障,就把故障機器可能產生的危害控制在可接受范圍內。省頒布的《終端機故障處理管理條例》及《關于對電腦彩票銷售點終端機不及時送修現象的管理辦法》就是解決這個層次的保障問題。第二個層次是采取措施改善終端機工作環(huán)境,減少銷售員不良操作行為,從而減少客觀存在的引發(fā)終端機故障的危害因素對終端機的損害,降低機器故障率。同時進一步改善維修工作條件,提高故障處理響應速度和維修效率,減少故障停機損失。
3.3 終端機數據安全保障體系結構架構設想
初步設想的終端機數據安全保障體系應由三個部分組成:(1)組織架構;(2)信息架構;(3)物流架構。對數據安全保障體系架構的設想,不是拋棄現有的電腦體育彩票終端機維修體系,而是要對此加以改進和完善。
3.3.1 組織架構
目前我市現行的維修體系主體上是省市二級架構,正調整為省市縣三級維修機構。不論是幾級架構,都必須解決好維修工作的決策問題、執(zhí)行問題、核查問題和條件保障問題。其中的人員保障問題和工作條件保障問題,尤其是維修人員方面存在的人員到崗能力不到崗問題,多年來都沒有得到很好解決。在這方面有許多細節(jié)問題需要深入研究,有些問題還涉及市、縣管理機構領導的思想觀念問題。
3.3.2 信息流架構
信息流架構是數據安全保障體系組織架構協(xié)調運轉的基礎。信息溝通不暢,必然造成組織架構配合困難,運轉不靈,甚至相互埋怨。保障信息流暢,需要規(guī)章制度、行政管理、檢查監(jiān)督幾個方面共同努力做好工作。在組織結構中存在的信息私有化問題,也是各級體彩管理機構要認真研究解決的問題。
3.3.3 物流架構
近年來,省、市終端機技術維修工作中的物流工作還是比較流暢的,但物流渠道中的不良品的沉淀問題仍然是個要加以研究解決的問題。進一步怎樣減少沉淀損失,提高維修備件利用效率,是改善現行物流結構的重要議題。
3.4 終端機數據安全保障體系的工作模式
引用我市ISO9000系列標準中建議的管理工作模式,采用計劃——試驗——執(zhí)行——檢查改進,四個階段螺旋式循環(huán)發(fā)展工作模式,逐步完善數據安全保障體系,提高安全保障水平。這個模式稱為PDCA循環(huán)模式,其精髓是采用負反饋校正機制對初始的第一個循環(huán)執(zhí)行效果進行檢查評審:(1)總結經驗,把有效的好的做法形成書面工作規(guī)范,今后遇到同類問題照搬照套,避免重復嘗試,節(jié)約時間、節(jié)約成本、減少差錯和失敗風險;(2)發(fā)現新問題,在一個新層次上再進行PDCA循環(huán),解決問題后又形成書面的補充工作規(guī)范。PDCA循環(huán)的負反饋核心機制可以推動終端機數據安全保障體系的工作不斷完善,水平不斷提高,可以使安全保障從被動地應付故障維修逐步走向主動地控制故障,徹底扭轉被動應付局面。
3.5 保障體系建設步驟初步設想
建設終端機數據安全保障體系,不是要否定和推倒現行的終端機維修工作體系,而是在現有基礎上,逐步向“嚴格控制,確保數據,預防為主,維修為輔”的數據安全保障體系過渡。對建設步驟的初步設想框架是總體規(guī)劃,分步實施,PDCA循環(huán)完善。在總體規(guī)劃階段有四個重要問題需要深入研究探討:
1)體系結構的遷移問題。保障體系的組織結構、信息結構、物流結構都存在著優(yōu)化問題。
2)建立和完善新體系的規(guī)章制度及操作辦法問題??己伺c獎勵問題的難點在于:(1)用什么指標考核?(2)怎樣解決單位內部的平衡問題?
3)人員培訓問題。
4)技術裝備條件問題。
5)效率與成本問題。
本文對建設電腦彩票終端機數據安全保障體系提出了一些粗略的構想,對其中面臨的主要問題有所涉及,但還沒有形成明確解決方案,僅起拋磚引玉之用,希望從事終端機管理和維修工作的同仁共同關注和探討這些問題,以集眾人的群體智慧共同保障電腦彩票系統(tǒng)安全,為體育彩票持續(xù)、穩(wěn)定、健康發(fā)展做一份貢獻。
[1](美)查利R.布魯克斯 阿肖克.考霍萊著 謝斐娟 孫家驤譯,工程材料的失效分析,機械工業(yè)出版社,北京,2003.4。
[2] P.Viswanadham & P.Singh, Failure Modes and Mechanics in Electronic Packages, Chapman & Hall, New York, 1998。
[3] 秦英孝主編,可靠性?維修性?保障性概論,國防工業(yè)出版社,北京,2002.10。
[4] D.Hadden, P.bergstrom, T.Samad, H.bennet, Application Challenges: System Health Management for Complex System。
[5] F.Kimura, T.Hata, N.Kobayashi, Reliability-Centered Maintenance Planning based on Computer-Aided FMEA。
[6] E.Landwehr, M.Carroll, Hardware Requirements for Secre Computer Systems: A Framework。
The Discussion on Malfunction Rule and Data Security Assurance System of Computer Sports Lottery Terminal
Chen Dejun
(Yancheng Sports Lottery Management Center,224005)
This thesis discusses the malfunction rule of lottery terminal on the basis of the research achievements about the reliability of electronic products. Revealing the macroscopic inevitability and microcosmic contingency of terminal malfunction, the thesis sets forth some malfunction controlling strategies and assumes a lot on the construction of data security assurance system of computer lottery terminal.
electronic products;malfunction curve;controlling strategy;assurance system