張 騰,姜姍姍,陳 韜,宗麗娜,毛鵬飛,徐宮健
(北京航天測(cè)控技術(shù)有限公司,北京 100041)
測(cè)控設(shè)備在各類(lèi)航天裝備中承擔(dān)重要參數(shù)測(cè)量、中繼控制等功能,對(duì)接眾多信號(hào)接口眾,發(fā)揮地面神經(jīng)中樞的作用。裝配的正常測(cè)試、發(fā)射等任務(wù)要求地面測(cè)控具備更穩(wěn)定、更可靠的特性。長(zhǎng)期工作的測(cè)控設(shè)備主要實(shí)現(xiàn)裝備持續(xù)的信號(hào)采集、數(shù)據(jù)通訊、指令控制等,為符合裝備測(cè)試的需求,其控制功能、信號(hào)處理功能、通訊功能等要求更低的故障率和更長(zhǎng)的無(wú)故障間隔時(shí)間。
以產(chǎn)品壽命時(shí)間維度考慮產(chǎn)品可靠性,產(chǎn)品可靠性的保障工作需要研制階段的可靠性預(yù)計(jì)為產(chǎn)品設(shè)計(jì)進(jìn)行約束,測(cè)試階段的可靠性試驗(yàn)對(duì)產(chǎn)品進(jìn)行可靠性驗(yàn)證,剔除缺陷產(chǎn)品、改進(jìn)產(chǎn)品設(shè)計(jì)和制造,并最終形成可靠性達(dá)標(biāo)的產(chǎn)品。但當(dāng)多數(shù)產(chǎn)品實(shí)際投入應(yīng)用后,缺乏可靠性狀態(tài)的監(jiān)測(cè)和評(píng)估,產(chǎn)品是否可以正常的長(zhǎng)期使用具有較大的不確定性。
以產(chǎn)品可靠性測(cè)試方法維度考慮產(chǎn)品可靠性,根據(jù)相關(guān)標(biāo)準(zhǔn)和要求對(duì)設(shè)備的各組件進(jìn)行測(cè)試和試驗(yàn)驗(yàn)證[1-2],一般受限于測(cè)試工裝、測(cè)試方法等因素,多直接基于對(duì)外信號(hào)接口實(shí)現(xiàn)測(cè)試,即通過(guò)加入激勵(lì)和測(cè)量資源,判定設(shè)備組件的功能和性能情況,該方式可直接測(cè)試的數(shù)據(jù)點(diǎn)和數(shù)據(jù)類(lèi)型完全基于接口引出情況,可測(cè)數(shù)據(jù)和故障激發(fā)能力有限,難以提前發(fā)現(xiàn)問(wèn)題。設(shè)備內(nèi)部的測(cè)試可以為設(shè)備狀態(tài)預(yù)估提供更多的數(shù)據(jù)支持,如內(nèi)建的板級(jí)邊界掃描測(cè)試(BST, boundary scan testing)技術(shù)針為支持IEEE1149.1標(biāo)準(zhǔn)的元器件提供了連接檢測(cè)方法,但對(duì)非BST元器件無(wú)法直接測(cè)試[3-4];基于探針接觸的板級(jí)測(cè)試系統(tǒng)可以獲取更豐富的板卡運(yùn)行狀態(tài),但不能滿足裝機(jī)后板卡狀態(tài)測(cè)試需要[5]。
為確保測(cè)控設(shè)備長(zhǎng)期加電特性符合需求,針對(duì)測(cè)控設(shè)備運(yùn)行穩(wěn)定性的驗(yàn)證,尤其是系統(tǒng)長(zhǎng)期對(duì)接工作條件下的驗(yàn)證,設(shè)計(jì)“全壽命”、“里應(yīng)外合”的綜合驗(yàn)證方法,從設(shè)計(jì)層面注入內(nèi)部測(cè)試功能,結(jié)合外部測(cè)試,經(jīng)趨勢(shì)評(píng)估和故障評(píng)估,為設(shè)備的健康度進(jìn)行判定[6-7],在應(yīng)用前剔除可發(fā)現(xiàn)的缺陷設(shè)備、在應(yīng)用后可預(yù)警可能出現(xiàn)的缺陷設(shè)備,以提升長(zhǎng)期加電設(shè)備的可靠性驗(yàn)證程度。
全文以某裝備的測(cè)控設(shè)備進(jìn)行具體介紹。該測(cè)控設(shè)備用于裝備的地面測(cè)試,功能包括接收控制端指令,控制裝備的供配電、狀態(tài)轉(zhuǎn)換等,采集裝備關(guān)鍵信號(hào)(包括狀態(tài)信號(hào)、模擬信號(hào)、通訊信號(hào)等),形成數(shù)據(jù)包回傳至控制端。測(cè)控設(shè)備以標(biāo)準(zhǔn)4U上架機(jī)箱的形式安裝于測(cè)試機(jī)柜內(nèi),測(cè)控設(shè)備基本組成包括基于實(shí)時(shí)操作系統(tǒng)的CPU主控模塊、BC/BM/RT可配的1553B通訊模塊、多通道RS422串口通訊模塊、多通道模擬量模塊(模擬量采集和輸出)、多通道狀態(tài)量模塊(狀態(tài)量采集和輸出)、電源模塊等,各模塊均為板卡形式、通過(guò)背板實(shí)現(xiàn)板間連接,此外,背板將板卡對(duì)外信號(hào)通過(guò)機(jī)箱面板連接器引出。
測(cè)控設(shè)備啟動(dòng)后,CPU主控模塊運(yùn)行實(shí)時(shí)測(cè)試流程,根據(jù)指令執(zhí)行相應(yīng)動(dòng)作,并以固定時(shí)間間隔,將運(yùn)行狀態(tài)數(shù)據(jù)通過(guò)以太網(wǎng)回傳至遠(yuǎn)程控制端。
圖1 測(cè)控設(shè)備組成原理
測(cè)控設(shè)備的驗(yàn)證常通過(guò)產(chǎn)品對(duì)外接口、在獨(dú)立工作環(huán)境下進(jìn)行功能、性能的測(cè)試,針對(duì)產(chǎn)品內(nèi)部電路、邏輯運(yùn)行狀態(tài)等缺乏相關(guān)測(cè)試,且在應(yīng)用階段缺少精細(xì)化狀態(tài)監(jiān)測(cè),即只能在單機(jī)環(huán)境下通過(guò)接口的電氣特性判定整體功能,涉及的測(cè)試面有限。模塊內(nèi)部設(shè)計(jì)測(cè)試,即在設(shè)計(jì)階段將測(cè)試功能嵌入到測(cè)控設(shè)備模塊級(jí)產(chǎn)品中,重點(diǎn)針對(duì)模塊內(nèi)部關(guān)鍵功能電路,尤其是電路中不可測(cè)不易測(cè)部分,并將測(cè)試覆蓋至產(chǎn)品全壽命階段,此外,模塊是一個(gè)系統(tǒng)的組件,系統(tǒng)運(yùn)行環(huán)境影響模塊的長(zhǎng)期工作可靠性,結(jié)合模塊運(yùn)行環(huán)境的監(jiān)測(cè),為模塊的狀態(tài)判斷提供必要的參考數(shù)據(jù)[8-9]。具體方法:
1)利用或額外增加模塊的嵌入式功能,如可編程邏輯器件、CPU、MCU等,設(shè)計(jì)該類(lèi)元器件和外部關(guān)鍵元器件主要信號(hào)之間的連接,除基礎(chǔ)的控制應(yīng)用外,增加主要信號(hào)的邏輯、時(shí)序變化持續(xù)監(jiān)測(cè)進(jìn)程和狀態(tài)判斷進(jìn)程,提供芯片級(jí)的測(cè)試數(shù)據(jù),用于模塊的狀態(tài)評(píng)估;
2)設(shè)計(jì)多種環(huán)境傳感器(如溫濕度、振動(dòng)等)、電壓電流監(jiān)測(cè)等元器件,用于模塊應(yīng)用環(huán)境、電源供電等外部狀態(tài)的持續(xù)監(jiān)測(cè),提供運(yùn)行環(huán)境數(shù)據(jù),用于模塊的系數(shù)修正、異常提醒、故障定位等。
對(duì)基于測(cè)控設(shè)備的模擬量模塊、1553B模塊等包含較復(fù)雜內(nèi)部控制的模塊開(kāi)展測(cè)試性?xún)?nèi)部設(shè)計(jì)。模塊均以FPGA為邏輯控制元器件,通過(guò)FPGA監(jiān)測(cè)其它功能元器件和環(huán)境的狀態(tài)變化情況。
以模擬量模塊的AD內(nèi)部測(cè)試舉例如下。模擬量采集電路由調(diào)理電路、AD電路、FPGA電路、溫濕度監(jiān)測(cè)電路等部分組成。其中,調(diào)理電路接口直接引出模塊外,可通過(guò)外部接口進(jìn)行測(cè)試;AD與FPGA的接口均在模塊內(nèi),無(wú)法直接測(cè)量。為測(cè)試AD芯片長(zhǎng)期工作下的時(shí)序穩(wěn)定性和工作性能,補(bǔ)償不同溫度下AD轉(zhuǎn)換精度,基于FPGA與AD芯片的電氣連接,結(jié)合溫濕度傳感器,在FPGA內(nèi)設(shè)計(jì)AD芯片的控制接口時(shí)序測(cè)試、轉(zhuǎn)換速率測(cè)試和溫度測(cè)試。
模擬量模塊使用的AD芯片是一種16位逐次逼近型電容結(jié)構(gòu)的A/D轉(zhuǎn)換器,主要由控制邏輯、SAR寄存器、輸入輸出控制、基準(zhǔn)、時(shí)鐘、D/A轉(zhuǎn)換器和比較器組合而成,具備串行或并行控制通訊接口。模擬量模塊AD控制采用串行方式,接口數(shù)量較少,接口包含CONVST啟動(dòng)AD轉(zhuǎn)換信號(hào)、BUSY轉(zhuǎn)換忙信號(hào)、CS片選信號(hào)、RD讀控制信號(hào)、DATA并行數(shù)據(jù)信號(hào),該類(lèi)信號(hào)均與FPGA連接。AD控制時(shí)序如圖2所示,AD芯片接收到CONVST轉(zhuǎn)換信號(hào)后啟動(dòng)AD轉(zhuǎn)換,經(jīng)過(guò)tCONV時(shí)間后轉(zhuǎn)換完成,BUSY信號(hào)拉低,通知FPGA可接收CS、RD信號(hào)以讀取相應(yīng)通道的數(shù)據(jù)。
圖2 AD控制時(shí)序
設(shè)計(jì)的AD內(nèi)部測(cè)試有:
1)tCONV最大時(shí)間,即AD芯片轉(zhuǎn)換所需的最大時(shí)間,F(xiàn)PGA持續(xù)監(jiān)測(cè)BUSY上升沿后的保持時(shí)間,監(jiān)測(cè)時(shí)間變化趨勢(shì)、是否超出閾值時(shí)間值、BUSY信號(hào)是否一直未拉低等情況,F(xiàn)PGA對(duì)監(jiān)測(cè)情況進(jìn)行記錄和數(shù)據(jù)上報(bào)。對(duì)于時(shí)間變化未超出閾值的情況,持續(xù)收集數(shù)據(jù)進(jìn)行趨勢(shì)評(píng)估;對(duì)偶發(fā)有超出閾值時(shí)間、可正常完成AD轉(zhuǎn)換的情況,認(rèn)為AD性能下降,進(jìn)行趨勢(shì)評(píng)估;對(duì)BUSY信號(hào)一直為低的情況,認(rèn)為AD故障,進(jìn)入故障評(píng)估;
2)轉(zhuǎn)換速率,即AD芯片轉(zhuǎn)換、數(shù)據(jù)讀取等一個(gè)完整周期所需的時(shí)間。通過(guò)FPGA設(shè)計(jì)在AD芯片指標(biāo)允許范圍內(nèi)調(diào)整CONVST的周期,用以測(cè)試轉(zhuǎn)換速率的邊界值,為具體應(yīng)用提供參考;
3)溫度測(cè)試,即溫度對(duì)AD性能參數(shù)的測(cè)試影響情況。如對(duì)使用內(nèi)部參考電壓的AD芯片,該參考電壓受溫度變化會(huì)產(chǎn)生影響,進(jìn)而影響AD采集準(zhǔn)確度。測(cè)控設(shè)備長(zhǎng)期工作產(chǎn)生的熱量較高,通過(guò)設(shè)計(jì)板載溫濕度傳感器,由板上FPGA采集環(huán)境參數(shù),測(cè)試溫度對(duì)AD采集數(shù)據(jù)以及AD運(yùn)行穩(wěn)定性的影響。此外,經(jīng)收集處理的數(shù)據(jù)可為AD長(zhǎng)期運(yùn)行的精度提供修正。
以各模塊共有的PCI總線通訊內(nèi)部測(cè)試舉例如下。模塊采用FPGA結(jié)合PCI-LocalBus橋芯片實(shí)現(xiàn)總線通訊,該橋芯片主要由PCI總線接口模塊、本地總線接口模塊、FIFO構(gòu)成的多個(gè)數(shù)據(jù)傳輸通道、配置寄存器、控制邏輯等構(gòu)成,它滿足PCI2.2規(guī)范的應(yīng)用,能夠進(jìn)行高達(dá)132 MB/s的猝發(fā)(burst)傳輸,集成了PLX數(shù)據(jù)管道結(jié)構(gòu)(PLX data pipe architecture)技術(shù),包括DMA引擎、可編程的PCI發(fā)起者和目標(biāo)設(shè)備間的數(shù)據(jù)傳輸模式、以及PCI信息轉(zhuǎn)發(fā)功能。
PCI-LocalBus協(xié)議轉(zhuǎn)換芯片以Target目標(biāo)模式運(yùn)行,F(xiàn)PGA連接PCI-LocalBus協(xié)議轉(zhuǎn)換芯片的本地總線一側(cè),通過(guò)對(duì)本地總線的操作實(shí)現(xiàn)總線數(shù)據(jù)的讀寫(xiě)功能。PCI總線的主要狀態(tài)和控制信號(hào)有FRAME#總線通訊起始信號(hào)、C/BE#命令/位選擇信號(hào)、IRDY#發(fā)起傳輸準(zhǔn)備完成信號(hào)、TRDY#目標(biāo)準(zhǔn)備完成信號(hào)、DEVSEL#設(shè)備選擇信號(hào)等;LocalBus總線的主要狀態(tài)和控制信號(hào)有ADS#地址選通信號(hào)、LW/R#讀寫(xiě)控制信號(hào)、READY#準(zhǔn)備好信號(hào)等。以讀操作時(shí)序?yàn)槔?,PCI讀時(shí)序如圖3所示,上半部分為PCI總線時(shí)序、下半部分為L(zhǎng)ocal總線時(shí)序,由PCI一側(cè)發(fā)起讀數(shù)請(qǐng)求,Local端從FPGA獲取數(shù)據(jù)后,轉(zhuǎn)換至PCI端。
圖3 PCI橋片讀轉(zhuǎn)換時(shí)序
設(shè)計(jì)的PCI-LocalBus協(xié)議轉(zhuǎn)換內(nèi)部測(cè)試為監(jiān)測(cè)協(xié)議轉(zhuǎn)換芯片的轉(zhuǎn)換情況,以判定PCI總線通訊轉(zhuǎn)換的完成狀態(tài)、評(píng)估轉(zhuǎn)換芯片的性能狀態(tài)。設(shè)計(jì)FPGA增加PCI總線一側(cè)的FRAME、IRDY、TRDY信號(hào)采集資源,當(dāng)監(jiān)測(cè)到FRAME低有效、并在此之后10個(gè)CLK時(shí)間以?xún)?nèi)ADS置低為監(jiān)測(cè)進(jìn)程觸發(fā)起點(diǎn)(表征監(jiān)測(cè)到對(duì)本模塊的讀操作),以READY上升沿為計(jì)時(shí)起點(diǎn)(表征Local端讀取完成),監(jiān)測(cè)IRDY信號(hào)的下次上升沿的時(shí)間tIRDY,監(jiān)測(cè)TRDY信號(hào)的下降沿時(shí)間tTRDY1和之后再次拉高的時(shí)間tTRDY2,并持續(xù)記錄和數(shù)據(jù)上報(bào)[10-11]。對(duì)于時(shí)間變化未超出閾值的情況,持續(xù)收集數(shù)據(jù)進(jìn)行趨勢(shì)評(píng)估;對(duì)偶發(fā)有超出閾值時(shí)間、可正常置高的情況,認(rèn)為轉(zhuǎn)換性能下降,進(jìn)行趨勢(shì)評(píng)估;對(duì)IRDY或TRDY信號(hào)為按照時(shí)序發(fā)送高低變化的情況,認(rèn)為轉(zhuǎn)換芯片故障,進(jìn)入故障評(píng)估。
模塊外部測(cè)試即通過(guò)模塊對(duì)外接口進(jìn)行測(cè)試,除常規(guī)靜態(tài)測(cè)試外,需對(duì)長(zhǎng)期運(yùn)行狀態(tài)下接口動(dòng)態(tài)特性變化的測(cè)試,該測(cè)試包括正常運(yùn)行動(dòng)態(tài)監(jiān)測(cè)和故障注入動(dòng)態(tài)監(jiān)測(cè)。同樣,僅在單機(jī)環(huán)境下通過(guò)模塊外部接口的特性測(cè)試效果有限。模塊外部測(cè)試設(shè)計(jì),即在設(shè)計(jì)階段將測(cè)試功能嵌入到測(cè)控設(shè)備系統(tǒng)級(jí)產(chǎn)品,采用獨(dú)立資源實(shí)現(xiàn)系統(tǒng)內(nèi)關(guān)鍵模塊和可靠性短板模塊的全壽命測(cè)試。
具體方法:設(shè)計(jì)與系統(tǒng)一體化的嵌入式模塊資源,該獨(dú)立資源與被測(cè)模塊隔離,具備更高的可靠性,且模塊的自身故障不會(huì)產(chǎn)生相互疊加和干擾。該嵌入式的模塊資源通過(guò)獨(dú)立的通訊接口和非易失的存儲(chǔ)方式實(shí)現(xiàn)關(guān)鍵模塊的“黑匣子”功能。
測(cè)控設(shè)備內(nèi)關(guān)鍵且可靠性較低的模塊為CPU主控模塊,該模塊運(yùn)行實(shí)時(shí)操作系統(tǒng),并根據(jù)網(wǎng)絡(luò)指令進(jìn)行嚴(yán)格時(shí)間內(nèi)的復(fù)合動(dòng)作響應(yīng)。CPU主控模塊為3U計(jì)算機(jī)模塊,采用國(guó)產(chǎn)龍芯處理器。該計(jì)算機(jī)模塊具有完整的計(jì)算機(jī)功能,集成網(wǎng)絡(luò)、顯示、PCI-PCI橋、SATA接口、聲卡、串口、VGA、USB接口等功能。該模塊為成品模塊,不具備板級(jí)設(shè)計(jì)測(cè)試的條件,為實(shí)現(xiàn)模塊長(zhǎng)期工作的穩(wěn)定性監(jiān)測(cè),需額外設(shè)計(jì)獨(dú)立資源?;谧畲蟪潭鹊幕ゲ桓蓴_原則和CPU主控模塊的實(shí)際應(yīng)用情況,設(shè)計(jì)獨(dú)立的CPU監(jiān)測(cè)模塊,該模塊與CPU主控模塊均通過(guò)背板通訊總線連接。CPU監(jiān)測(cè)模塊組成包含控制電路、存儲(chǔ)電路、背板總線通訊電路、外部通訊電路。CPU主控模塊啟動(dòng)運(yùn)行后,通過(guò)背板通訊總線持續(xù)以設(shè)定的時(shí)間間隔向CPU監(jiān)測(cè)模塊進(jìn)行喂狗,CPU監(jiān)測(cè)模塊據(jù)此判定CPU主控模塊的任務(wù)實(shí)時(shí)性調(diào)度情況。為測(cè)試CPU主控模塊的健壯性,通過(guò)正常和非正常的測(cè)試條件,測(cè)量CPU主控模塊的喂狗最大最小間隔、喂狗間隔時(shí)間趨勢(shì)等數(shù)據(jù),具體測(cè)試條件包含:
1)正常條件測(cè)試:在正常應(yīng)用環(huán)境下進(jìn)行測(cè)試,如系統(tǒng)內(nèi)各模塊均正常工作、外部加注允許范圍內(nèi)的輸入輸出條件(如模擬電壓信號(hào)、串口通訊數(shù)據(jù)等)、網(wǎng)絡(luò)發(fā)送正確的控制指令、室溫環(huán)境等。CPU主控模塊運(yùn)行應(yīng)用測(cè)試流程,并長(zhǎng)期運(yùn)行,監(jiān)測(cè)器喂狗間隔變化;
2)非正常條件測(cè)試:通過(guò)注入故障或邊緣狀態(tài)條件,在非正常應(yīng)用環(huán)境下測(cè)試,監(jiān)測(cè)CPU主控模塊喂狗間隔變化,如調(diào)整背板總線下的模塊類(lèi)型、數(shù)量和槽位、額外增加CPU占用率、通訊接口注入異常格式或長(zhǎng)度的數(shù)據(jù)、拉偏供電電壓值、網(wǎng)絡(luò)接口異常接入或斷開(kāi)、硬盤(pán)存儲(chǔ)滿、背板總線注入中斷等措施[12-13]。
對(duì)于未超出喂狗間隔閾時(shí)間的,持續(xù)收集數(shù)據(jù)進(jìn)行趨勢(shì)評(píng)估;對(duì)偶發(fā)有超出閾值時(shí)間、可正常完成喂狗和測(cè)試流程的情況,認(rèn)為CPU主控模塊或外部條件變化對(duì)應(yīng)用流程穩(wěn)定運(yùn)行有影響風(fēng)險(xiǎn),追查外部條件,并持續(xù)的進(jìn)行趨勢(shì)評(píng)估;對(duì)經(jīng)常超出閾值時(shí)間或流程中斷停止的情況,認(rèn)為CPU主控模塊運(yùn)行故障,進(jìn)入故障評(píng)估,排查故障原因。
模塊內(nèi)部設(shè)計(jì)測(cè)試和模塊外部設(shè)計(jì)測(cè)試均在設(shè)備內(nèi)實(shí)現(xiàn)狀態(tài)監(jiān)測(cè),針對(duì)一些重要且不易內(nèi)部監(jiān)測(cè)的信號(hào),采用設(shè)備接口引出的方式,利用工裝、儀器等進(jìn)行精細(xì)化測(cè)試。以電源模塊的測(cè)試為例,測(cè)控設(shè)備所使用的電源模塊為DCDC電源,即直流28 V輸入、直流12 V、5 V、3.3 V輸出。為判別電源模塊的長(zhǎng)期加電狀態(tài),需要測(cè)量電源加載后的輸入和輸出端的上電瞬時(shí)電壓、電流,以及工作過(guò)程中電流電壓波動(dòng)等,該測(cè)試需要較多資源,且電源模塊屬于相對(duì)可靠性較高的組件,因此將電源模塊的輸入、輸出信號(hào)進(jìn)行引出,使用數(shù)據(jù)采集記錄器、示波器等儀器持續(xù)測(cè)試電源在不同條件下長(zhǎng)期運(yùn)行的穩(wěn)定性。具體測(cè)試條件包含:
1)正常負(fù)載條件下,監(jiān)測(cè)瞬時(shí)啟動(dòng)、關(guān)閉以及正常運(yùn)行時(shí)的電壓、電流峰值,以及正常運(yùn)行時(shí)相同測(cè)試條件下的平均值;
2)通過(guò)調(diào)整負(fù)載模塊工作狀態(tài)調(diào)整負(fù)載阻性和容性變化、拉偏電源輸入等方式監(jiān)測(cè)電源輸出電壓、電流峰值,以及相同測(cè)試條件下的平均值[14-15]。
對(duì)于未超出電源閾值的狀態(tài),持續(xù)收集數(shù)據(jù)進(jìn)行趨勢(shì)評(píng)估;對(duì)偶發(fā)有超出電源閾值、可正?;謴?fù)供電的情況,認(rèn)為電源模塊或外部條件變化對(duì)其穩(wěn)定運(yùn)行有影響風(fēng)險(xiǎn),追查外部條件,并持續(xù)的進(jìn)行趨勢(shì)評(píng)估;對(duì)經(jīng)常或持續(xù)超出閾值的情況,認(rèn)為電源模塊故障,進(jìn)入故障評(píng)估,排查故障原因。
根據(jù)可靠性試驗(yàn)過(guò)程長(zhǎng)時(shí)間的測(cè)試數(shù)據(jù)開(kāi)展測(cè)試評(píng)估,測(cè)試評(píng)估分為趨勢(shì)評(píng)估和故障評(píng)估。
趨勢(shì)評(píng)估為沒(méi)有超出允許范圍內(nèi)的健康度評(píng)估。趨勢(shì)評(píng)估對(duì)設(shè)備維修性、可靠性和可用性有很大的影響,正確的狀態(tài)評(píng)估結(jié)果可以提高設(shè)備執(zhí)行任務(wù)的可靠性與安全性,減少維修時(shí)間和維護(hù)費(fèi)用,提高可用性和綜合保障能力。測(cè)控設(shè)備的趨勢(shì)評(píng)估采用化整為零的方式,以設(shè)備各組件、模塊的測(cè)試數(shù)據(jù)評(píng)價(jià)整體各功能的趨勢(shì),對(duì)于任何功能出現(xiàn)狀態(tài)較差的趨勢(shì),均表征整體可靠性下降,需立即分析處理,防止故障問(wèn)題出現(xiàn)。測(cè)控設(shè)備的趨勢(shì)評(píng)估將測(cè)試數(shù)據(jù)進(jìn)行等級(jí)劃分,以測(cè)試時(shí)間為橫軸、以測(cè)試數(shù)據(jù)為縱軸,對(duì)落入各等級(jí)的數(shù)據(jù)點(diǎn)數(shù)量與該單元時(shí)間的總測(cè)試點(diǎn)數(shù)量進(jìn)行比較,等級(jí)劃分、趨勢(shì)狀態(tài)判別均基于已有指標(biāo)、理論計(jì)算、歷史測(cè)試記錄和專(zhuān)家指導(dǎo)等綜合給出量化指標(biāo),為整體是否滿足長(zhǎng)期可靠運(yùn)行條件提供狀態(tài)預(yù)測(cè)意見(jiàn)[16]。
故障評(píng)估為有超出允許范圍的評(píng)估。測(cè)控設(shè)備的精細(xì)化測(cè)試數(shù)據(jù)將一些設(shè)備或模塊內(nèi)部不可測(cè)、不易測(cè)部分轉(zhuǎn)化為可測(cè)項(xiàng)目,同趨勢(shì)評(píng)估,均基于已有指標(biāo)、理論計(jì)算、歷史測(cè)試記錄和專(zhuān)家指導(dǎo)等綜合給出量化的故障界限指標(biāo),超出該指標(biāo)不能表征整體出現(xiàn)故障,僅表征某一功能出現(xiàn)較大程度偏差,需結(jié)合故障發(fā)生率判定是否需要立即維修處理,防止更嚴(yán)重的整體故障發(fā)生。對(duì)于已發(fā)生的整體故障,可根據(jù)該超出故障指標(biāo)項(xiàng)排查和定位問(wèn)題。測(cè)控設(shè)備故障評(píng)估以測(cè)試時(shí)間為橫軸、以測(cè)試數(shù)據(jù)為縱軸,對(duì)故障點(diǎn)數(shù)量與該單元時(shí)間的總測(cè)試點(diǎn)數(shù)量進(jìn)行比較,測(cè)定故障發(fā)生率[17-18],為整體提供故障預(yù)測(cè)和故障排查指導(dǎo)意見(jiàn)。
根據(jù)上文設(shè)計(jì)的測(cè)試方法示例,通過(guò)試驗(yàn)和條件激發(fā)開(kāi)展驗(yàn)證試驗(yàn),并對(duì)測(cè)試結(jié)果進(jìn)行評(píng)估:
1)如圖4所示,以模擬量模塊長(zhǎng)期加電測(cè)試AD電路的tCONV最大時(shí)間為例,加電試驗(yàn)時(shí)間為30天,每日測(cè)量2 880個(gè)數(shù)據(jù)點(diǎn),將低于2.5 μs的數(shù)據(jù)點(diǎn)記為A等級(jí)、將2.5~2.8 μs的數(shù)據(jù)點(diǎn)記為B等級(jí),將2.8~3.0 μs的數(shù)據(jù)記為C等級(jí),將大于等于3.0 μs的數(shù)據(jù)記為故障。經(jīng)測(cè)試,30天的全部數(shù)據(jù)點(diǎn)均落在A、B等級(jí)內(nèi),隨著加電時(shí)間增長(zhǎng),落入B等級(jí)的數(shù)據(jù)略有增加,但無(wú)C等級(jí)數(shù)據(jù)點(diǎn)和故障點(diǎn),認(rèn)為AD電路部分狀態(tài)良好。
圖4 AD電路tCONV最大時(shí)間測(cè)試統(tǒng)計(jì)
2)以1553B模塊長(zhǎng)期加電測(cè)試PCI總線通訊電路為例,加電試驗(yàn)時(shí)間為30天,除去1553B控制通訊測(cè)試外,每60 s執(zhí)行一次PCI總線讀取動(dòng)作(動(dòng)作內(nèi)容為讀取設(shè)備ID),每日測(cè)量1 440個(gè)數(shù)據(jù)點(diǎn),將tIRDY不大于4 CLK、tTRDY1不大于3 CLK、(tTRDY2-tIRDY)不大于±1 CLK的組合條件列為A等級(jí)(任意一個(gè)時(shí)間超過(guò)上述時(shí)間,均不認(rèn)為A等級(jí)),將tIRDY為4~6 CLK、tTRDY1為3~5 CLK、(tTRDY2-tIRDY)±2 CLK的組合條件列為B等級(jí)(任意一個(gè)時(shí)間超過(guò)上述時(shí)間,均不認(rèn)為B等級(jí)),將tIRDY為5~10 CLK、tTRDY1為4~9 CLK、(tTRDY2-tIRDY)±5 CLK的組合條件列為C等級(jí)(任意一個(gè)時(shí)間超過(guò)上述時(shí)間,均不認(rèn)為C等級(jí)),將tIRDY、tTRDY1、tTRDY2任意一個(gè)有超出C等級(jí)的數(shù)據(jù)記為故障。經(jīng)測(cè)試,30天的全部數(shù)據(jù)點(diǎn)均落在A等級(jí)內(nèi),無(wú)B、C等級(jí)數(shù)據(jù)點(diǎn)和故障點(diǎn),認(rèn)為PCI總線通訊電路部分狀態(tài)良好;
3)以CPU主控模塊長(zhǎng)期加電測(cè)試喂狗間隔變化為例,加電試驗(yàn)時(shí)間為30天,喂狗間隔設(shè)定為17 ms,將低于17 ms*2的數(shù)據(jù)點(diǎn)記為A等級(jí)、將17 ms*2~17 ms*7數(shù)據(jù)點(diǎn)記為B等級(jí),將17 ms*7~17 ms*10的數(shù)據(jù)記為C等級(jí),將大于等于17 ms*10的數(shù)據(jù)記為故障。測(cè)試統(tǒng)計(jì)如下:正常條件運(yùn)行30天,測(cè)試喂狗間隔時(shí)間均為A、B等級(jí),沒(méi)有出現(xiàn)其它等級(jí)情況,但隨著持續(xù)工作時(shí)間增加,落入B等級(jí)的數(shù)據(jù)有輕微的波動(dòng),認(rèn)為CPU主控模塊狀態(tài)良好;在注入相應(yīng)條件后,有出現(xiàn)C等級(jí)情況,未出現(xiàn)其他等級(jí)情況,當(dāng)條件撤銷(xiāo)后,測(cè)試數(shù)據(jù)均為A、B等級(jí),表征主控模塊對(duì)異常條件具備規(guī)避措施,所加異常條件不會(huì)對(duì)主控流程造成影響,認(rèn)為CPU主控模塊狀態(tài)良好。
表1 異常條件加注時(shí)間內(nèi)各等級(jí)數(shù)據(jù)點(diǎn)占比 %
測(cè)試條件中,當(dāng)使CPU占用率超過(guò)90%以后,會(huì)發(fā)生喂狗間隔大于等于17 ms*10的故障情況,根據(jù)該情況進(jìn)行故障率評(píng)估,統(tǒng)計(jì)CPU占用率超過(guò)90%以后故障點(diǎn)數(shù)量與該單元時(shí)間的總測(cè)試點(diǎn)數(shù)量的占比,根據(jù)測(cè)試情況,當(dāng)CPU占用率超過(guò)96%以后,CPU任務(wù)調(diào)度出現(xiàn)更大程度的延時(shí),不能完全滿足實(shí)時(shí)操作系統(tǒng)下的應(yīng)用調(diào)度要求,可能出現(xiàn)整體故障,評(píng)估建議立即排查應(yīng)用程序、操作系統(tǒng)、模塊接口、供電等可能原因,以降低CPU使用占用率[19]。
表2 CPU占用率超過(guò)90%后的故障率 %
4)以電源模塊上電輸出瞬時(shí)電流為例,電源模塊輸入直流經(jīng)取樣電阻轉(zhuǎn)換為電壓由示波器探頭采集,按照測(cè)控設(shè)備未帶外部模擬負(fù)載單機(jī)條件和測(cè)控設(shè)備接入外部模擬負(fù)載對(duì)接條件分別測(cè)試,試驗(yàn)時(shí)間為30天,每日測(cè)量10次,將單機(jī)條件上電瞬時(shí)峰值2.95~3.15 A、對(duì)接條件上電瞬時(shí)峰值3.8~4.0 A的數(shù)據(jù)點(diǎn)記為A等級(jí),將單機(jī)條件上電瞬時(shí)峰值2.85~2.95 A以及3.15~3.3 A、對(duì)接條件上電瞬時(shí)峰值3.7~3.8 A以及4.0~4.15 A的數(shù)據(jù)點(diǎn)記為B等級(jí),其中如單機(jī)條件的上電瞬時(shí)峰值介于2.85~2.95 A,相應(yīng)的對(duì)接條件范圍應(yīng)為3.7~3.8 A(C等級(jí)類(lèi)同),將單機(jī)條件上電瞬時(shí)峰值2.5~2.85 A以及3.3~3.7 A、對(duì)接條件上電瞬時(shí)峰值3.5~3.7 A以及4.15~4.4 A的數(shù)據(jù)點(diǎn)記為C等級(jí),將超出上述范圍的數(shù)據(jù)記為故障。經(jīng)測(cè)試,30天落在A、B、C等級(jí)的數(shù)據(jù)點(diǎn)占比分別為89%、10.3%、0.7%,無(wú)故障數(shù)據(jù)點(diǎn),單以該測(cè)試結(jié)果認(rèn)為電源模塊狀態(tài)良好[20]。
以上列出4組試驗(yàn)數(shù)據(jù)表征測(cè)控設(shè)備的AD電路、PCI通訊電路、CPU模塊、電源模塊在長(zhǎng)期正常加電工作條件均未出現(xiàn)故障情況,且狀態(tài)良好,異常條件下有規(guī)避措施,并基于測(cè)試評(píng)估結(jié)果提供故障排查意見(jiàn)。
為解決長(zhǎng)期工作的測(cè)控設(shè)備穩(wěn)定性驗(yàn)證問(wèn)題提出了一種精細(xì)化測(cè)試和評(píng)估思路, “里應(yīng)外合”的綜合驗(yàn)證方法將測(cè)試內(nèi)容延伸到芯片級(jí)、將測(cè)試過(guò)程覆蓋到產(chǎn)品全壽命。從設(shè)計(jì)層面注入測(cè)試功能,不可外測(cè)的模塊內(nèi)部接口設(shè)計(jì)嵌入式的內(nèi)部測(cè)試功能,可測(cè)的外部接口設(shè)計(jì)動(dòng)態(tài)、激發(fā)故障的外部測(cè)試手段,通過(guò)對(duì)長(zhǎng)時(shí)間測(cè)試的數(shù)據(jù)進(jìn)行歸類(lèi)、總結(jié),形成趨勢(shì)評(píng)估和故障評(píng)估結(jié)果,為測(cè)控設(shè)備的長(zhǎng)期穩(wěn)定運(yùn)行提供驗(yàn)證數(shù)據(jù)支撐。該驗(yàn)證方法可應(yīng)用于航天等高可靠測(cè)控領(lǐng)域。