欒恩杰 /中國工程院院士、國際宇航科學(xué)院院士
隨著我國現(xiàn)代化進程的發(fā)展,重大工程和復(fù)雜工程系統(tǒng)的實施,特別是“十二五”之前的16 項重大科技專項、“十三五”的165 項重大工程項目的進行,使得工程系統(tǒng)與系統(tǒng)工程成為科技界、經(jīng)濟界和社會學(xué)界廣泛關(guān)注的問題。2018年是錢學(xué)森院士的《組織管理的技術(shù)——系統(tǒng)工程》一文發(fā)表40 周年,所以在2018 年的“系統(tǒng)工程研討會”上,專家、學(xué)者們呼吁將“系統(tǒng)工程”設(shè)為一級學(xué)科。
“工程”這個詞最早出現(xiàn)在18 世紀的歐洲,是指作戰(zhàn)兵器的制造和執(zhí)行服務(wù)于軍事目的的工作,即“制造兵器和服務(wù)軍事”2個內(nèi)容。在我國,“工程”的說法可能更早,華夏先民給我們留下的四川都江堰、陜西鄭國渠和廣西桂林興安縣靈渠是世界上最完整、最精彩的古代大型水利工程,可以稱為古代科技工程的輝煌杰作。靈渠建于秦始皇33 年(公元前214 年),都江堰建于秦昭襄王51 年(公元前256 年),所以我國科技史的工程概念是在2000 多年前提出的。
錢學(xué)森院士對“工程”的定義是:“把服務(wù)于特定目的的各項工作的總體稱為工程。如水利工程、機械工程、土木工程、電力工程……”,那么這個特定系統(tǒng)的“組織建立或者是系統(tǒng)管理,就可以統(tǒng)統(tǒng)看成是系統(tǒng)工程”,而“國外所謂管理科學(xué)、系統(tǒng)分析、系統(tǒng)研究以及費效分析等工程內(nèi)容之?dāng)?shù)學(xué)理論和算法可以統(tǒng)一看成是運籌學(xué)”。
在談到工程的系統(tǒng)性概念時,錢學(xué)森說:“我們把極其復(fù)雜的研究對象稱為‘系統(tǒng)’,即由相互作用和相互依賴的若干組成部分結(jié)合的具有特定功能的有機整體,而且這個‘系統(tǒng)’本身又是它所屬的一個更大系統(tǒng)的組成部分”,而“導(dǎo)彈武器系統(tǒng)是現(xiàn)代最復(fù)雜的工程系統(tǒng)之一”。錢老的這段論述包含有工程系統(tǒng)、系統(tǒng)工程和運籌學(xué)3 個概念。以航天而言,載人航天工程、探月工程、“兩彈一星”工程,這些復(fù)雜的工程都像導(dǎo)彈武器系統(tǒng)一樣是一個復(fù)雜的工程系統(tǒng),而實現(xiàn)其工程目標的組織管理是與這個工程系統(tǒng)伴生的系統(tǒng)工程,所以錢學(xué)森說,“系統(tǒng)工程是組織管理系統(tǒng)的技術(shù)”。
“系統(tǒng)工程的概念并不神秘,這是人類自有生產(chǎn)活動以來,已經(jīng)干了幾千年的事?!蔽覈?000多年前的水利工程,“按今天系統(tǒng)工程的觀點是一項杰出的大型工程建設(shè)”,也是杰出的系統(tǒng)工程的實踐。
近代將系統(tǒng)工程概念提出并以相應(yīng)的理論進行分析、規(guī)劃、決策和運行,以最佳路徑、最可靠保證和最小消耗達到工程系統(tǒng)所追求最優(yōu)目標的首次實現(xiàn),是在20 世紀60 年代末美國“阿波羅”登月計劃上體現(xiàn)的。我國開始研究系統(tǒng)工程,或集中力量建設(shè)研究隊伍是1979 年7 月中國自動化學(xué)會在蕪湖召開的“系統(tǒng)工程學(xué)術(shù)討論會”,同年10 月相關(guān)單位在北京舉辦“系統(tǒng)工程學(xué)術(shù)討論會”,提議成立中國系統(tǒng)工程學(xué)會,并在西安交通大學(xué)、清華大學(xué)、天津大學(xué)、哈爾濱工業(yè)大學(xué)、國防科技大學(xué)等高等院校成立系統(tǒng)工程研究室、研究所?!拔覈萍脊ぷ髡咭呀?jīng)認識到,系統(tǒng)工程同現(xiàn)代化建設(shè)各個領(lǐng)域的組織管理工作是緊密聯(lián)系在一起的”“系統(tǒng)工程師,它的理科是培養(yǎng)從事基礎(chǔ)理論研究工作的組織管理科學(xué)家”“我們需要的組織管理科學(xué)家和系統(tǒng)工程師,其數(shù)量和質(zhì)量都絕不會少于或次于自然科學(xué)家和一般工程技術(shù)的工程師”。
任何一門學(xué)科的成熟性表達是其概念的描述和邏輯推理的數(shù)學(xué)形式,系統(tǒng)工程的數(shù)學(xué)支撐是運籌學(xué),在現(xiàn)代數(shù)學(xué)理論和電子計算機技術(shù)的支持下,各種定量描述、模型方法、模擬實驗和優(yōu)化設(shè)計,以及大數(shù)據(jù)和計算機能力的提高構(gòu)成的人工智能正在促進現(xiàn)代系統(tǒng)工程的科學(xué)與技術(shù)基礎(chǔ)發(fā)展。經(jīng)典的線性規(guī)劃、非線性規(guī)劃、博弈論、排隊論、搜索論、庫存論、決策論、可靠性以及大系統(tǒng)理論、算法論等都可以納入運籌學(xué)之中。
23 年前(1996 年),中國航天遇到新技術(shù)、新型號、新任務(wù)的挑戰(zhàn),在市場、改革、隊伍建設(shè)等各種新環(huán)境下,航天工業(yè)遇到了從未有過的困難,導(dǎo)彈試驗、火箭發(fā)射相繼失利。黨中央、國務(wù)院、中央軍委領(lǐng)導(dǎo)十分關(guān)注,明確指示要抓質(zhì)量、抓管理、保成功。
當(dāng)時是“技術(shù)問題”與“管理問題”并存,細究起來很多技術(shù)問題并非只能到發(fā)射時間才出現(xiàn),它是可以通過管理使薄弱環(huán)節(jié)得以早期暴露并得到解決的,所以技術(shù)問題的背后仍然存在管理問題。而管理正是系統(tǒng)工程的核心任務(wù),所以必須從上到下,全面反思。從理性認識層面看,就是重塑中國航天的系統(tǒng)工程理論,重振中國航天傳統(tǒng),續(xù)寫“兩彈一星”偉業(yè)。
根據(jù)出現(xiàn)問題的屬性及其被潛延至發(fā)射場的各路關(guān)口入手,中國航天提出了幾十項系統(tǒng)工程措施,最著名的是質(zhì)量管理72條、28 條、“雙五條”(實際上是包含在72 條之內(nèi)的)。但在故障出現(xiàn)后,徹底解決問題的“技術(shù)問題歸零”的五條準則是早于總綱性的72 條提出的。這五條準則是指對研制中出現(xiàn)問題時必須執(zhí)行的處置程序及充分必要技術(shù)要求,所謂“歸零”就是“問題銷賬”,將問題解決到底,不留任何隱患。
第一條是定位問題。在故障出現(xiàn)后首先要分析清楚,從理性思考而言,任何一個問題的產(chǎn)生必有其原因,或者反過來講,有某個原因的存在必然會有產(chǎn)生某種問題的可能。在這樣的思考邏輯下,可以形成內(nèi)含的原因集和外部的顯現(xiàn)集2 個集合,在分析故障原因的時候,大多是從獲取的現(xiàn)象(光側(cè)(含目視)、雷測)和數(shù)據(jù)(遙測)作為外面顯現(xiàn)集反推尋找內(nèi)部原因。以(A B C,a b c)三元素的簡單例子說明其定位邏輯,A(a b)表示A 因可以引起(a b)兩種表現(xiàn),B(a c)和C(b c)表示A因和B因的顯現(xiàn),如圖1 所示。
圖1 原因集和顯現(xiàn)集邏輯映射關(guān)系
如果故障的“顯現(xiàn)集”出現(xiàn)(a b)則它必為A 因所為,如果出現(xiàn)(a c),則A、C 皆有可能是其“原因”。如果這個故障只是一個原因引起,則說明按目前獲取的“顯現(xiàn)集”尚不能準確定位,必然再構(gòu)造出充分的顯現(xiàn)集。這就是“故障定位”工作,其要求是“定位準確”。原因集和顯現(xiàn)集的映射關(guān)系是可逆的,如果將顯現(xiàn)集作為原因,也能找到它內(nèi)部的顯現(xiàn)。
第二條是機理問題。在準確定位之后,根據(jù)系統(tǒng)工程運行要求,要將這個部位產(chǎn)生問題的機理弄清楚,即以已經(jīng)準確定位的事件為頂事件,產(chǎn)生這個頂事件的所有可能的事件作為底事件,將其故障的傳遞鏈梳理清楚,如圖2 所示。
這就是系統(tǒng)工程里的故障樹分析方法(FTA),這項工作的要求是弄清故障的傳遞關(guān)系。根據(jù)F1,F(xiàn)2,…,F(xiàn)n 各個底事件實際存在的狀態(tài),或根據(jù)充分的旁證將不可能項Fi 去掉,則可以獲得比較充分的故障傳遞過程和比較清楚的機理認識。
第三條是問題復(fù)現(xiàn)。上述2項工作完成后,要分析結(jié)果是否真實和驗證工作的準確性,在各種模擬、仿真狀態(tài)下對定位和機理的“復(fù)現(xiàn)”性進行檢驗。
圖2 故障樹分析方法
此處的復(fù)現(xiàn)不是讓這種“故障”在實際系統(tǒng)再進行一次“重復(fù)”,而是“問題”的復(fù)現(xiàn),這個“復(fù)現(xiàn)”是從驗證定位和機理分析的準確性出發(fā)的(見圖3)。在五條準則貫徹之前,曾發(fā)生過一個型號因為同一個原因連續(xù)幾發(fā)相繼失利的案例,其教訓(xùn)是十分沉痛的。就是因為缺少這個復(fù)現(xiàn)的環(huán)節(jié),使有些故障并沒有徹底解決而反復(fù)出現(xiàn)。
這一步的要求是“問題得到復(fù)現(xiàn)”,得不到復(fù)現(xiàn)說明因果集缺項或故障樹不完整。
圖3 問題復(fù)現(xiàn)圖
第四條是措施有效。在定位準確、機理清楚、問題復(fù)現(xiàn)后,就可以提出針對問題的解決辦法。在措施方法的設(shè)計和實施中,必須按照工程設(shè)計程序的要求進行,需經(jīng)過部分實物驗證、系統(tǒng)試驗驗證以及各環(huán)節(jié)的技術(shù)評審。
第五條是“舉一反三”。對已發(fā)生的故障,本系統(tǒng)、本型號要進行舉一反三思考,對類似環(huán)節(jié)、同批次產(chǎn)品(元器件)要進行相應(yīng)的處置。其他型號也要以該故障為案例,完成相應(yīng)的復(fù)查和復(fù)核,有些重大的典型案例舉一反三的范圍還要擴大。同時,對國外航天領(lǐng)域出現(xiàn)的故障也要進行舉一反三的思考,比如國外某型號的雙星發(fā)射軟件問題,其釋放程序是先釋放雙星中的甲星,并以甲星已發(fā)射為條件再釋放乙星。但在發(fā)射單星時,采用的軟件卻是雙星狀態(tài),由于沒有甲星,以至始終建立不起來甲星已發(fā)射的條件,使得任務(wù)失利。對類似的問題也要像自己出現(xiàn)問題一樣進行舉一反三思考,全面檢查軟件版本與實際狀態(tài)的匹配性。“舉一反三”是將經(jīng)驗和教訓(xùn)逐步擴展的過程,是使多方受益、多領(lǐng)域提高的過程。
“定位準確、機理清楚、問題復(fù)現(xiàn)、措施有效、舉一反三”這五條準則的嚴格貫徹,在改變被動局面和保持高可靠發(fā)射中起到了重要作用。其解決故障問題的程序和要求全面、合理且具工程實踐性,已作為中國航天系統(tǒng)工程的重要成果被國際宇航界認可和采用,現(xiàn)在已成為“國際標準”(2015 年,ISO 18238《航天質(zhì)量問題歸零管理》)。
需要特別說明的是,這五條準則是出現(xiàn)故障之后的技術(shù)處理的規(guī)定,而更重要的是在故障沒有發(fā)生前的工作,是從源頭處防止和杜絕問題的發(fā)生,這更是系統(tǒng)工程要研究的內(nèi)容,這類前期性工作更值得深入思考和總結(jié)提煉。
系統(tǒng)工程的內(nèi)容極其豐富,特別是航天系統(tǒng)工程包括從規(guī)劃—設(shè)計—制造—交付—服務(wù)—退役全生命周期的活動。在此,筆者僅就幾點不可缺少的系統(tǒng)工程要求進行介紹。
此處規(guī)劃應(yīng)包括計劃和籌劃。而在英語語境下,規(guī)劃和計劃(plan)是同一個詞,這里的規(guī)劃則是廣義的?,F(xiàn)代系統(tǒng)工程的起步是從需求分析開始,而且將工程系統(tǒng)立項前的論證工作納入到工程的前期準備。從系統(tǒng)的規(guī)模和學(xué)科形態(tài)而言,現(xiàn)代工程已不具備單一行業(yè)性質(zhì),它往往是跨行業(yè)、跨學(xué)科的工程行為,且其科學(xué)性、技術(shù)性、專業(yè)性交叉在一起;它已非某一專業(yè)人員的獨立行為,是一個大協(xié)同的系統(tǒng)性行為,這就使得系統(tǒng)的規(guī)劃成為系統(tǒng)工程的重要前提。
以工程立項為目標的工程規(guī)劃的內(nèi)容要比工程設(shè)計所涉及的內(nèi)容和領(lǐng)域更廣泛,需要相關(guān)的領(lǐng)域?qū)<覅⑴c研究,甚至還需要社會科學(xué)領(lǐng)域的專家參加。做任何一件事,事先都要進行籌劃,從工程而言,則都屬于“規(guī)劃”的內(nèi)容,從系統(tǒng)運行的可靠性和適應(yīng)性而言,有些工程系統(tǒng)還設(shè)置有“任務(wù)規(guī)劃系統(tǒng)”,比如戰(zhàn)術(shù)導(dǎo)彈的最安全路徑或最短路徑、最快路徑、最經(jīng)濟路徑選擇,則是這類系統(tǒng)要完成的工作??梢哉f,沒有規(guī)劃的研究是沒有站在全局的觀點分析工程系統(tǒng)的存在及運行,沒有規(guī)劃指導(dǎo)下的大力協(xié)同則不是系統(tǒng)工程。
我們用“系統(tǒng)工程”這一名詞來定義工程的實現(xiàn)與管理,它一定具有系統(tǒng)性。錢學(xué)森是這樣定義“系統(tǒng)”的:“所謂系統(tǒng)是指由一些相互關(guān)聯(lián)、相互作用、相互影響的組成部分構(gòu)成并具有某些功能的整體”。
整體的運行必須是有序的,是不能隨機隨意、雜亂無章、各行其事的運行,它的互相關(guān)聯(lián)、作用和影響都要為實現(xiàn)某種功能而貢獻?!皬?0 世紀40 年代末形成控制論科學(xué),50 年代誕生了工程控制論和生物控制論,60 年代現(xiàn)代控制論發(fā)展形成了大系統(tǒng)理論”以及當(dāng)代的“人工智能控制”,都是人類按著他們的意圖創(chuàng)造的系統(tǒng),它不是自然物,而是一個人造物,所以其系統(tǒng)實現(xiàn)的功能性、各分系統(tǒng)的支持性和整體的協(xié)同性就是這個人造物在自然物環(huán)境下運行的基本條件。
所以,程序化工作和程序性管理則是使系統(tǒng)工程得以運行的基本要求,上下環(huán)節(jié)的無縫連接、左右部分的匹配相容、各分系統(tǒng)子功能對系統(tǒng)總目標的貢獻是系統(tǒng)工程運行的核心任務(wù)。
導(dǎo)彈武器系統(tǒng)是現(xiàn)代最復(fù)雜的工程系統(tǒng)之一,實現(xiàn)這個武器系統(tǒng)功能的系統(tǒng)工程必須有極其嚴密、充分正確的程序保證。一個沒有程序設(shè)計的工程管理,不稱其為系統(tǒng)工程。而一個優(yōu)秀的系統(tǒng)工程師,他的工程實現(xiàn)就像一個樂隊的指揮在演奏一曲優(yōu)美的樂章一樣,節(jié)奏混亂將破壞動人的樂曲,而程序的混亂必定會造成一個工程系統(tǒng)的失敗,所以沒有“程序”設(shè)計就不是系統(tǒng)工程。
任何工程皆有風(fēng)險,差異只是風(fēng)險出現(xiàn)可能性的大小,風(fēng)險引起的危害和損失的多少,風(fēng)險規(guī)避的難易、程度之高低。根據(jù)這3 點的不同,一般要進行比較統(tǒng)一的風(fēng)險分級管理,以避免不同組織、不同項目因自建格式標準而引起同行或異域的困惑和誤解。美國NASA 與其他政府組織、工業(yè)部門共同確定了廣泛應(yīng)用的低、中、高3 級風(fēng)險的定義。
其中,低風(fēng)險是指不影響性能降低、進程中斷、費用增長的可控、可接受的風(fēng)險;中等風(fēng)險是可能引起性能降低、進程中斷、費用增長,需采取特殊行動的風(fēng)險;高風(fēng)險是指性能大幅降低、進程停止、費用極大超支,需采取重大的附加行動和優(yōu)先管理的風(fēng)險。
NASA 將這3 種風(fēng)險表征在“風(fēng)險矩陣”中,如圖4 所示。
該矩陣大多為5×5,是為了方便風(fēng)險討論時使用,它兼具或然性和后果的定性、定量度量方法,它的不足是沒辦法處理聚集的風(fēng)險(總風(fēng)險),這個二維矩陣反映不出風(fēng)險對工程環(huán)境的敏感性。風(fēng)險與任務(wù)目標共生,所以風(fēng)險是人造工程必然存在的;正因為是人造物,所以風(fēng)險也是可以通過人們的努力去規(guī)避的。
系統(tǒng)工程對風(fēng)險的處置主要體現(xiàn)在2 個方面:一個是風(fēng)險的分析,即風(fēng)險源的篩選,根據(jù)本系統(tǒng)的技術(shù)特點確定可能產(chǎn)生風(fēng)險的源頭(或稱為“風(fēng)險因素”),特別是對相似系統(tǒng)已經(jīng)出現(xiàn)問題的先驗性經(jīng)驗與教訓(xùn)、歷史文獻和故障文檔的啟示和啟發(fā)。另一個是預(yù)案設(shè)計。預(yù)案設(shè)計的產(chǎn)生是設(shè)計者根據(jù)“系統(tǒng)各階段所經(jīng)歷的過程和事件”中可能出現(xiàn)的非期望狀態(tài)及其后果;假定該狀態(tài)已經(jīng)發(fā)生,為保證系統(tǒng)正常運行(或可接受的條件下運行)應(yīng)采取的措施。這是在系統(tǒng)及相關(guān)環(huán)節(jié)設(shè)計時就進行的預(yù)先設(shè)計方案,所以稱為“預(yù)案”。這個概念和過程在各類系統(tǒng)運行中都是相同的,要把預(yù)案按其非期望狀態(tài)出現(xiàn)和應(yīng)當(dāng)采取的處置方案都納入到正常運行程序之中,不應(yīng)把預(yù)案和正案分開單獨設(shè)置。所以“預(yù)案”就成為“根據(jù)運行狀態(tài)決定是否運行的正案”,預(yù)案設(shè)計程序如圖5 所示。
圖4 NASA“風(fēng)險矩陣”圖
在預(yù)案設(shè)計中常用的方法是:“故障報告、分析和糾正措施系統(tǒng)(FRACA)”和“失效模式影響與危害性分析(FMECA)”。在1996年質(zhì)量整頓中,將以上2 種技術(shù)和故障樹方法(FTA)統(tǒng)稱為“3F”,在航天系統(tǒng)進行普及和推廣,現(xiàn)已成中國航天的設(shè)計規(guī)范。
包括各階段、各類別的技術(shù)方案、實施方案、試驗驗證的結(jié)果、各階段向下一個階段的轉(zhuǎn)變、出廠與進場放行準則的實現(xiàn)等評審、鑒定和決策建議。近些年,人們對“成果評審”和“進級評審”都比較熟悉,這里重點強調(diào)的是系統(tǒng)工程運行中必不可少的非擁護性評審,由參與評審的專家從被評審對象的各角度、各切面去審視與分析,盡量挖掘出系統(tǒng)可能存在的問題和隱患。非擁護性評審是NASA 首先提出來的概念,在工程全生命周期內(nèi)設(shè)置幾十個關(guān)口進行評審與評價,是航天高可靠性要求的具體實踐。實踐證明,在關(guān)鍵技術(shù)攻關(guān)、技術(shù)狀態(tài)控制等方面,嚴格的非擁護性評審是十分必要的。
圖5 預(yù)案設(shè)計程序
在評價過程中,可以提升認識問題的深度和分析問題的角度,如軟件復(fù)雜度問題,隨著需求的不斷增加,為了增加新的功能,軟件具有極大優(yōu)勢,所以這種軟件快速增長的趨勢提出了一個新的課題。僅從飛行軟件而言,NASA 做過統(tǒng)計,結(jié)論是每隔10 年飛行軟件增加一個數(shù)量級,因此可以說飛行軟件就是航天器的一塊“復(fù)雜度海綿”,輕易吸納越來越多的內(nèi)容。以空軍為例,軟件規(guī)模從F-4A 的1000 行增加到F-22 的170 萬行,而到最近的F-35 戰(zhàn)斗機軟件包含有570 萬行代碼。這為飛行系統(tǒng)提出一個新的課題,系統(tǒng)工程如何應(yīng)對工程軟件的快速增長,以及由此引發(fā)的軟件復(fù)雜度和軟件風(fēng)險問題。目前,一個完美的軟件開發(fā)流程的缺陷率為萬分之一(10000 行代碼一個缺陷),100 萬行代碼的系統(tǒng)可能存在100 個左右的缺陷。
從軟件架構(gòu)(包括功能性和非功能性需求)而言,其復(fù)雜性、可維護性、可測性、可擴展性和可交互性這些軟件的質(zhì)量特性都要得到很好的滿足,這就是中國航天已經(jīng)實施了20 余年的“軟件工程化”工作,使軟件可測、可評、可知、可透明。NASA 為此提出建立“軟件架構(gòu)評審委員會”和培養(yǎng)“軟件架構(gòu)師”的要求,NASA 正在研究和開發(fā)“基于模型的軟件可簡化故障防護的工程實現(xiàn)、提高系統(tǒng)健壯性”。麻省理工學(xué)院(MIT)則開始重視“雙語人才”的培養(yǎng),按MIT 校長拉斐爾·里夫所言,這個雙語是指“人類的專業(yè)性語言和現(xiàn)代計算機語言”,他說“為了培育雙語人士,我們必須創(chuàng)建一個新的架構(gòu)”。簡而言之,在特定項目中“參考架構(gòu)”是一個作為共同參考、可復(fù)用的架構(gòu),以使項目在一個較好的架構(gòu)基礎(chǔ)上開展設(shè)計。
總之,沒有規(guī)劃性的籌劃就不是系統(tǒng)工程,沒有程序性的設(shè)計就不是系統(tǒng)工程,沒有風(fēng)險分析和處置預(yù)案就不是系統(tǒng)工程,沒有各階段的評價(含非擁護性評審)就不是系統(tǒng)工程。