勞驍賢 錢 程,2,3 李春光,3
(1.浙江大學(xué)信息與電子工程學(xué)院,浙江杭州 310027;2.浙江大學(xué)工程師學(xué)院,浙江杭州 310015;3.浙江大學(xué)寧波研究院,浙江寧波 315100)
預(yù)警系統(tǒng)[1]是一種在危險(xiǎn)發(fā)生之前,根據(jù)以往規(guī)律和當(dāng)前觀測(cè)識(shí)別異常,進(jìn)而發(fā)出警示信號(hào)的系統(tǒng)。一個(gè)良好的預(yù)警系統(tǒng)既可以幫助消息接收者及時(shí)應(yīng)對(duì)危險(xiǎn)從而規(guī)避傷害,也可以幫助系統(tǒng)構(gòu)建者及時(shí)發(fā)現(xiàn)異常從而消除危險(xiǎn)。當(dāng)下,預(yù)警系統(tǒng)廣泛應(yīng)用于各個(gè)領(lǐng)域,如自然災(zāi)害預(yù)警、金融風(fēng)險(xiǎn)預(yù)警、網(wǎng)絡(luò)安全預(yù)警、交通安全預(yù)警等,實(shí)現(xiàn)了巨大的經(jīng)濟(jì)效益和社會(huì)效益。
在傳統(tǒng)預(yù)警系統(tǒng)中,專家通過自身的經(jīng)驗(yàn)和直覺對(duì)警情進(jìn)行分析和判斷。然而,他們難以及時(shí)處理大量信息并作出決策,且作出的決策比較主觀。決策的滯后性和主觀性使得預(yù)警的有效性難以得到保證。為了實(shí)現(xiàn)自動(dòng)預(yù)警,部分研究者試圖根據(jù)警兆和警情的邏輯關(guān)系建立物理模型來實(shí)現(xiàn)預(yù)警。建立精確的物理模型、篩選恰當(dāng)?shù)闹笜?biāo)以及確定合適的指標(biāo)權(quán)重需要對(duì)預(yù)警場(chǎng)景有深入的理解,不同專家的理解不同,因此在建立模型、確定指標(biāo)以及各指標(biāo)權(quán)重時(shí)會(huì)帶來一定的主觀性。在復(fù)雜場(chǎng)景中,模型、指標(biāo)以及各指標(biāo)權(quán)重的確定很困難,依賴物理模型的方法效率低下。借助數(shù)理統(tǒng)計(jì)技術(shù),如相關(guān)性分析、假設(shè)檢驗(yàn)等,可以從一定程度上緩解上述方案主觀、低效的問題,然而統(tǒng)計(jì)方法需要對(duì)數(shù)據(jù)的分布等作出假設(shè),在復(fù)雜場(chǎng)景中,這些假設(shè)很難貼合實(shí)際,會(huì)影響預(yù)警性能。
近年來,隨著人工智能技術(shù)的快速發(fā)展,越來越多的人工智能方法被應(yīng)用到了預(yù)警系統(tǒng)中。這些方法在減少人力的同時(shí)提升了預(yù)警性能。本文重點(diǎn)關(guān)注了機(jī)器學(xué)習(xí)、專家系統(tǒng)以及多源信息融合技術(shù)在預(yù)警系統(tǒng)中的應(yīng)用。機(jī)器學(xué)習(xí)是一種從數(shù)據(jù)中自動(dòng)提取特征、總結(jié)規(guī)律,并利用這些規(guī)律進(jìn)行決策的技術(shù)。專家系統(tǒng)是一種基于知識(shí)表示和推理的人工智能應(yīng)用程序,其模擬了專家根據(jù)知識(shí)進(jìn)行決策的過程。相較于數(shù)據(jù)依賴的機(jī)器學(xué)習(xí)方法,專家系統(tǒng)側(cè)重于領(lǐng)域知識(shí)的構(gòu)建,能解決數(shù)據(jù)不確定和決策邏輯復(fù)雜的問題。多源信息融合技術(shù)是一種自動(dòng)整合不同信息源的技術(shù),由于考慮了更全面的信息,預(yù)警系統(tǒng)可以作出更準(zhǔn)確、可靠的結(jié)論。智能方法可以克服傳統(tǒng)預(yù)警系統(tǒng)的弊端,越來越多的工作專注于研究預(yù)警系統(tǒng)中的智能方法。
本文將對(duì)預(yù)警系統(tǒng)中的智能方法進(jìn)行介紹,結(jié)構(gòu)安排如下:第2 節(jié)首先介紹傳統(tǒng)預(yù)警系統(tǒng),第3 節(jié)重點(diǎn)講述基于機(jī)器學(xué)習(xí)的預(yù)警系統(tǒng),第4 節(jié)著重介紹基于專家系統(tǒng)的預(yù)警系統(tǒng),第5 節(jié)闡述基于多源信息融合技術(shù)的預(yù)警系統(tǒng),第6 節(jié)對(duì)本文內(nèi)容進(jìn)行了總結(jié)與展望。
本節(jié)介紹傳統(tǒng)預(yù)警系統(tǒng)。在早期的山洪預(yù)警中,專家根據(jù)降雨量和水位的實(shí)時(shí)監(jiān)測(cè)值分析警情,進(jìn)而作出決策。為了實(shí)現(xiàn)自動(dòng)預(yù)警,文獻(xiàn)[2]根據(jù)降雨特性、地表特征和居民分布等因素設(shè)計(jì)了動(dòng)態(tài)預(yù)警指數(shù),并采用水位流量模型計(jì)算出了每個(gè)時(shí)期的最大降雨量,隨后通過比較最大降雨量和預(yù)警指數(shù)來決定是否發(fā)出預(yù)警信號(hào)。在文獻(xiàn)[3]中,研究人員根據(jù)不同地域氣候、地形的特性設(shè)計(jì)水文模型和監(jiān)測(cè)指標(biāo),并根據(jù)水文模型和監(jiān)測(cè)指標(biāo)模擬山洪的演進(jìn)過程,隨后將模擬流量和設(shè)定閾值相比較來實(shí)現(xiàn)山洪預(yù)警。該模型受參數(shù)影響大,需要專家對(duì)該流域水文過程的物理機(jī)制有較深的理解。在政治危機(jī)預(yù)警中,一些專家直接通過人工分析來預(yù)測(cè)政治危機(jī),另外一些專家基于各自的理解設(shè)計(jì)了預(yù)警模型來自動(dòng)地預(yù)測(cè)政治危機(jī)[4-5]。例如宏觀結(jié)構(gòu)預(yù)測(cè)模型通過預(yù)測(cè)政治、社會(huì)、經(jīng)濟(jì)、人口的發(fā)展趨勢(shì)來對(duì)國(guó)家的不穩(wěn)定趨勢(shì)進(jìn)行預(yù)警,另外一些研究者在模型中加入領(lǐng)導(dǎo)人、各組織、各國(guó)之間互動(dòng)事件的發(fā)生頻率和事件性質(zhì)來幫助預(yù)測(cè)局勢(shì)動(dòng)蕩程度,還有一些研究者將領(lǐng)導(dǎo)人的個(gè)性、領(lǐng)導(dǎo)風(fēng)格等因素加入預(yù)警模型??梢姡煌瑢<业恼我娊獠煌?,建立的模型也不同,這樣的設(shè)計(jì)方法具有較強(qiáng)的主觀性。在山體滑坡預(yù)警中,文獻(xiàn)[6]研究了從1977年到2019年應(yīng)用于全球13個(gè)地區(qū)的山體滑坡預(yù)警系統(tǒng),其假設(shè)降雨是滑坡的主要或唯一觸發(fā)因素,并根據(jù)不同地區(qū)的地理、氣候特點(diǎn)設(shè)計(jì)了不同的基于降雨量的預(yù)警模型,使用的降雨量指標(biāo)包括累積降雨量、降雨持續(xù)時(shí)間、土壤濕度等。不同的預(yù)警系統(tǒng)根據(jù)所設(shè)指標(biāo)和專家知識(shí)設(shè)計(jì)了經(jīng)驗(yàn)閾值來劃分警情警度。這樣的模型具有一定的科學(xué)性,但因?yàn)椴煌貐^(qū)的環(huán)境和氣候差距很大,模型不具備通用性,且監(jiān)測(cè)指標(biāo)和閾值的確定具有較強(qiáng)的主觀性。在財(cái)務(wù)危機(jī)預(yù)警中,常用的預(yù)警方法包括歷史經(jīng)驗(yàn)法和實(shí)證法。歷史經(jīng)驗(yàn)法是根據(jù)企業(yè)歷史經(jīng)驗(yàn)來確定預(yù)警信號(hào),隨后實(shí)施預(yù)警,預(yù)警信號(hào)包括銷售的非預(yù)期下降、管理層大量拋售本公司股票、統(tǒng)計(jì)數(shù)據(jù)過緩等。歷史經(jīng)驗(yàn)法的通用性強(qiáng),對(duì)任何企業(yè)都適用,但是缺乏理論支持,且在財(cái)務(wù)指標(biāo)、指標(biāo)權(quán)重的選取上具有主觀性。在實(shí)證法中,研究人員先建立一個(gè)理論模型,如多元判別模型,再找到影響預(yù)測(cè)性能的關(guān)鍵指標(biāo),通過跟蹤這些指標(biāo)來判別財(cái)務(wù)狀況。實(shí)證法具有較強(qiáng)的理論性,但通用性較差,實(shí)際場(chǎng)景中很難建立起一個(gè)對(duì)所有公司都適用的理論模型。
可見,傳統(tǒng)方法在選擇合適的模型、指標(biāo)以及指標(biāo)權(quán)重方面尤為困難,此外一些模型可能對(duì)指標(biāo)變量有嚴(yán)苛的要求,如多元判別模型中要求選取的變量滿足正態(tài)分布且兩兩之間不共線,而在實(shí)際場(chǎng)景中,往往具有大量的、錯(cuò)綜復(fù)雜的指標(biāo)變量,指標(biāo)變量常常不滿足正態(tài)分布,且指標(biāo)變量之間經(jīng)常是共線的。此外,模型和模型參數(shù)的最優(yōu)選取會(huì)隨著場(chǎng)景和時(shí)間的變化而變化。由于模型缺乏自我學(xué)習(xí)和自我更新能力,專家需要不斷地調(diào)整模型和模型參數(shù),導(dǎo)致預(yù)警系統(tǒng)的穩(wěn)定性和靈活性較差。
為了緩解上述問題,一些預(yù)警系統(tǒng)在設(shè)計(jì)過程中借助了數(shù)理統(tǒng)計(jì)技術(shù)來幫助選取指標(biāo)和構(gòu)建模型。在山洪預(yù)警中,專家借助數(shù)理統(tǒng)計(jì)技術(shù)設(shè)計(jì)了CWI(Compound Warning Index)指標(biāo),CWI 由降雨強(qiáng)度和有效降雨量的乘積構(gòu)成,是一個(gè)基于統(tǒng)計(jì)數(shù)據(jù)得到的、與水文特征無關(guān)的指標(biāo)。文獻(xiàn)[7]在突發(fā)地質(zhì)災(zāi)害氣象預(yù)警中,通過卡方檢驗(yàn)來判別地質(zhì)環(huán)境因子獨(dú)立性,從而解決了指標(biāo)共線的問題,優(yōu)化了指標(biāo)的選取。在文獻(xiàn)[8]提及的空氣壓縮機(jī)故障預(yù)警系統(tǒng)中,使用了滑動(dòng)窗口統(tǒng)計(jì)方法來確定判定系統(tǒng)故障的閾值。文獻(xiàn)[9]在電氣火災(zāi)預(yù)警中,基于互信息篩選出了與警情相關(guān)性高且獨(dú)立的變量作為預(yù)警指標(biāo)。在文獻(xiàn)[10]中,為了消除冗余變量,使用了Spearman 相關(guān)系數(shù)得到每個(gè)自變量的相關(guān)性分?jǐn)?shù),并篩選出了相關(guān)性分?jǐn)?shù)高于0.8 的變量作為預(yù)警指標(biāo)。文獻(xiàn)[11]提供了一個(gè)嶄新的思考角度:在自然界的復(fù)雜系統(tǒng)中普遍會(huì)存在某個(gè)關(guān)鍵臨界點(diǎn),而這個(gè)關(guān)鍵臨界點(diǎn)可以由統(tǒng)計(jì)分析發(fā)現(xiàn),它的出現(xiàn)意味著出現(xiàn)了系統(tǒng)發(fā)生重大轉(zhuǎn)變的前兆。研究人員開始探索有效的警兆指標(biāo)來監(jiān)測(cè)臨界點(diǎn)的出現(xiàn)。例如,在氣候急變預(yù)警中定義二氧化鈣濃度一階自相關(guān)系數(shù)為警兆指標(biāo),當(dāng)氣候出現(xiàn)從溫室向冰室劇變的情況時(shí),警兆指標(biāo)急劇上漲,此時(shí)認(rèn)為臨界點(diǎn)出現(xiàn)。另外一些研究人員發(fā)現(xiàn)了其他能夠標(biāo)志臨界點(diǎn)出現(xiàn)的現(xiàn)象[12],如DFA 指數(shù)[13]的劇漲、方差的劇漲以及偏度的劇漲等。在土地荒漠化預(yù)警中[14],專家研究發(fā)現(xiàn)植被自組織模式的增加是土地貧瘠的征兆,因此量化了植被自組織模式并以此作為警兆指標(biāo)。在癲癇發(fā)作預(yù)警中,專家實(shí)驗(yàn)發(fā)現(xiàn)在癲癇發(fā)作的幾小時(shí)前,大腦常常會(huì)出現(xiàn)輕微的能量爆發(fā)使得腦電信號(hào)的方差增大,因此專家將腦電信號(hào)的方差作為了警兆指標(biāo)。在金融重大事件預(yù)警中,研究人員基于隱含波動(dòng)率設(shè)計(jì)了VIX 指數(shù)[15],也稱“恐慌指數(shù)”,VIX的增加常被認(rèn)為是金融市場(chǎng)出現(xiàn)重大事件的早期預(yù)警現(xiàn)象。
借助數(shù)理統(tǒng)計(jì)技術(shù)可以幫助指標(biāo)和模型的選取。然而,統(tǒng)計(jì)技術(shù)常常需要對(duì)數(shù)據(jù)的分布等作一些假設(shè),這些假設(shè)常常不貼合實(shí)際,可能會(huì)造成模型和指標(biāo)選取不當(dāng)。例如在文獻(xiàn)[16]中提到,并非所有場(chǎng)景在發(fā)生重大轉(zhuǎn)變之前都會(huì)存在這樣一個(gè)臨界點(diǎn),在這樣的場(chǎng)景下基于臨界點(diǎn)的預(yù)警模型便不再適用。此外,利用不合適的相關(guān)性分析法來篩選指標(biāo)可能會(huì)造成信息的丟失。再者,當(dāng)自變量維數(shù)較高、自變量和因變量常呈現(xiàn)非線性關(guān)系時(shí),傳統(tǒng)模型很難適用,其展現(xiàn)的性能常常不盡如人意。
為了克服傳統(tǒng)預(yù)警系統(tǒng)的諸多弊端,一些機(jī)器學(xué)習(xí)方法被應(yīng)用于預(yù)警系統(tǒng),本節(jié)重點(diǎn)講述基于機(jī)器學(xué)習(xí)方法的預(yù)警系統(tǒng)。實(shí)際場(chǎng)景中,一般能采集到錯(cuò)綜復(fù)雜的信息,這些信息常常含有大量冗余和噪聲。冗余和噪聲不利于預(yù)警系統(tǒng)的構(gòu)建,而利用機(jī)器學(xué)習(xí)特征提取算法可以去除這些冗余和噪聲。本文首先介紹特征提取算法,良好的特征提取算法能夠自動(dòng)地發(fā)現(xiàn)數(shù)據(jù)本質(zhì)的結(jié)構(gòu)。除提取特征以外,機(jī)器學(xué)習(xí)還可以幫助構(gòu)建良好的預(yù)警模型。目的不同,選擇的模型也不同。系統(tǒng)在正常階段和異常階段會(huì)表現(xiàn)出不同的狀態(tài),異常狀態(tài)的出現(xiàn)被視為一種危險(xiǎn)信號(hào)。如果需要根據(jù)監(jiān)測(cè)指標(biāo)來判斷當(dāng)前系統(tǒng)是否出現(xiàn)了異常,那么可以將預(yù)警視為分類問題,將機(jī)器學(xué)習(xí)中的分類模型作為預(yù)警模型。此時(shí),模型的輸入為監(jiān)測(cè)指標(biāo),模型的輸出為系統(tǒng)在未來某時(shí)刻的危險(xiǎn)等級(jí)。從另一目的看,預(yù)警系統(tǒng)需要對(duì)正常狀態(tài)下的指標(biāo)走勢(shì)進(jìn)行預(yù)測(cè),這樣的問題可視為回歸問題。指標(biāo)在正常模式下可以被預(yù)測(cè),在異常狀態(tài)下難以被預(yù)測(cè),因此利用預(yù)測(cè)偏差便可以度量系統(tǒng)的異常程度。此時(shí),模型的輸入為監(jiān)測(cè)指標(biāo),模型的輸出為系統(tǒng)風(fēng)險(xiǎn)相關(guān)指標(biāo)在未來某時(shí)刻的預(yù)測(cè)值。在介紹特征提取算法后,本節(jié)也對(duì)基于分類和回歸的預(yù)警方法進(jìn)行介紹。
在機(jī)器學(xué)習(xí)算法中,主成分分析[17](Principal Component Analysis,PCA)和因子分析[18](Factor Analysis,F(xiàn)A)是兩種經(jīng)典的無監(jiān)督的特征提取算法。PCA 和FA 直接根據(jù)數(shù)據(jù)的內(nèi)部關(guān)系來去除噪聲和冗余,從而提取到關(guān)鍵特征,其示意圖見圖1。另外,在有標(biāo)簽的情況下,也可以使用有監(jiān)督的特征提取方法,如Lasso 回歸、神經(jīng)網(wǎng)絡(luò)等。假設(shè)原始數(shù)據(jù)為X,特征提取函數(shù)為f,則可以根據(jù)特征提取函數(shù)得到特征z,其形式如下:
圖1 PCA和FA示例Fig.1 Sketches of PCA and FA
本小節(jié)將對(duì)特征提取方法進(jìn)行介紹。
PCA 可以從大量變量中提取得到幾個(gè)主成分,這些主成分是原始變量的線性組合。假設(shè)有若干樣本,每個(gè)樣本有p個(gè)變量,記x1,x2,…,xp為原變量,z1,z2,…,zm(m≤p)為新的變量,也稱主成分,PCA的數(shù)學(xué)模型可以構(gòu)建如下:
可見,主成分實(shí)際上是各原變量的線性組合。
文獻(xiàn)[19]中利用PCA 進(jìn)行財(cái)務(wù)預(yù)警模型,其將上市公司的財(cái)務(wù)數(shù)據(jù)作為樣本,根據(jù)累積貢獻(xiàn)率提取了前7 個(gè)主成分作為關(guān)鍵特征進(jìn)行后續(xù)的分析。文獻(xiàn)[20]在超短期強(qiáng)降水預(yù)警中使用了PCA 算法來對(duì)高維的氣象數(shù)據(jù)進(jìn)行特征提取。文獻(xiàn)[21]在跨境資本異常波動(dòng)的風(fēng)險(xiǎn)預(yù)警中結(jié)合了Lasso 和PCA 構(gòu)建了Lasso-PCA 雙重篩選模型來得到預(yù)警因子,隨后利用該預(yù)警因子幫助捕捉到不同類型的跨境資本異動(dòng)行為。
與PCA 不同,F(xiàn)A 從眾多變量?jī)?nèi)部之間的依賴關(guān)系中提取出少量的、不相關(guān)的基礎(chǔ)因子,它將原始變量拆解成公共因子和特殊因子兩部分。假設(shè)有若干樣本,每個(gè)樣本有p個(gè)變量,記x1,x2,…,xp為原變量,f1,f2,…,fk(k≤p)為新的變量,也稱因子,F(xiàn)A的數(shù)學(xué)模型可以構(gòu)建如下:
其中,f1,f2,…,fk被稱為公共因子,εi被稱為特殊因子,各因子的線性組合構(gòu)成了原始的指標(biāo)。
文獻(xiàn)[22]對(duì)30 個(gè)上市公司財(cái)務(wù)指標(biāo)進(jìn)行了多因子分析,根據(jù)方差累積貢獻(xiàn)率提取了前5 個(gè)公共因子來進(jìn)行作為預(yù)警指標(biāo)。在學(xué)業(yè)危機(jī)預(yù)警中,文獻(xiàn)[23]利用FA 從學(xué)科成績(jī)中提取出了11個(gè)關(guān)鍵因子作為預(yù)警指標(biāo)。
除了經(jīng)典機(jī)器學(xué)習(xí)特征提取方法,一些深度神經(jīng)網(wǎng)絡(luò)模型也被廣泛用于特征提取。通過標(biāo)簽的引導(dǎo),神經(jīng)網(wǎng)絡(luò)可以從大量的數(shù)據(jù)中自動(dòng)地提取特征,是一種更加智能的特征提取方法。文獻(xiàn)[8]提及的空氣壓縮機(jī)故障預(yù)警系統(tǒng)中使用了PCA 和神經(jīng)網(wǎng)絡(luò)分別進(jìn)行線性和非線性特征提取,得到具有代表性的若干變量來構(gòu)建動(dòng)態(tài)記憶矩陣,并通過動(dòng)態(tài)記憶矩陣構(gòu)建了MSET 物理模型以實(shí)現(xiàn)預(yù)警。文獻(xiàn)[24]先是利用經(jīng)驗(yàn)?zāi)B(tài)分解提取大氣電場(chǎng)的頻域特征,隨后使用稀疏自編碼器對(duì)頻域特性進(jìn)行進(jìn)一步的特征提取,以此得到更好的特征來幫助提升雷電預(yù)警性能。在地震預(yù)警中,P 波常常會(huì)與局部的脈沖噪聲混淆,從而產(chǎn)生誤報(bào),為了避免兩者混淆,文獻(xiàn)[25]設(shè)計(jì)了一種基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的特征提取器,其利用噪聲波和P 波來訓(xùn)練GAN,將去掉最后兩層的判別器作為特征提取器,該特征提取器能夠在特征空間區(qū)分P 波和噪聲波,并借助隨機(jī)森林分類器完成地震預(yù)警任務(wù)。在文獻(xiàn)[26]中,使用了attentionbased Encoder 進(jìn)行時(shí)序數(shù)據(jù)進(jìn)行特征提取,得到了上下文特征,隨后將得到的上下文特征輸入到Decoder來輸出病情惡化預(yù)測(cè)結(jié)果,該方法在對(duì)時(shí)序數(shù)據(jù)編碼時(shí)使用了attention 機(jī)制,使得與預(yù)測(cè)任務(wù)更相關(guān)的序列趨勢(shì)受到更多的關(guān)注。文獻(xiàn)[10]在流化催化裂化預(yù)警中,先是利用了Spearman 相關(guān)系數(shù)對(duì)指標(biāo)進(jìn)行初篩,隨后基于變量以及變量之間的關(guān)系建立了有向圖,這種圖表征可以很好地表達(dá)變量之間的關(guān)系,具有更強(qiáng)的可解釋性。得益于圖表征所具備的空間結(jié)構(gòu),文章使用了卷積神經(jīng)網(wǎng)絡(luò)來提取深層空間特征,得到的特征被送入神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)反應(yīng)溫度,在反應(yīng)溫度異常高時(shí)發(fā)出預(yù)警信號(hào),實(shí)現(xiàn)了預(yù)警任務(wù)。文獻(xiàn)[27]中提出了一種基于CNN-LSTM 的磨煤故障預(yù)警方法,其將磨煤機(jī)7 個(gè)測(cè)點(diǎn)參數(shù)的多元時(shí)間序列輸入CNN,通過64個(gè)卷積核來進(jìn)行特征提取,得到一段具有時(shí)間依賴性的序列,隨后序列通過最大池化層和dropout 層,并按照時(shí)間順序輸入到LSTM 神經(jīng)網(wǎng)絡(luò)來對(duì)指標(biāo)進(jìn)行預(yù)測(cè)。
基于上述內(nèi)容對(duì)機(jī)器學(xué)習(xí)特征提取方法進(jìn)行了總結(jié),如表1 所示。相較于傳統(tǒng)的機(jī)器學(xué)習(xí)特征提取算法,神經(jīng)網(wǎng)絡(luò)特征提取算法能夠更好地應(yīng)對(duì)高維異構(gòu)數(shù)據(jù)、捕捉深層特征,具有良好的通用性。現(xiàn)如今越來越多的研究使用神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)特征提取。
表1 特征提取方法Tab.1 Feature extraction methods
在對(duì)原始數(shù)據(jù)進(jìn)行特征提取后,就可以將特征送入分類器來完成判別任務(wù)。假設(shè)由數(shù)據(jù)X得到的特征為Z,分類器為C,則可由分類器對(duì)警報(bào)類別進(jìn)行預(yù)測(cè):
在金融領(lǐng)域,Logit[28]、Probit 等模型被廣泛應(yīng)用于貨幣危機(jī)預(yù)警、銀行破產(chǎn)危機(jī)預(yù)警等場(chǎng)景。這些模型不僅被用于危機(jī)預(yù)警,也常常被用于分析導(dǎo)致危機(jī)的關(guān)鍵因素。文獻(xiàn)[29]利用了多元Logit 模型來對(duì)1980 年至1994 年中的銀行破產(chǎn)危機(jī)進(jìn)行研究,從而發(fā)現(xiàn)國(guó)家的低GDP、高實(shí)際利率、高通脹是銀行危機(jī)的重要前兆。文獻(xiàn)[30]借助Logit和Probit模型,用GDP 增長(zhǎng)率和境外資產(chǎn)來進(jìn)行貨幣危機(jī)預(yù)警。文獻(xiàn)[31-32]利用了Probit 和Logit 回歸來對(duì)銀行危機(jī)進(jìn)行預(yù)測(cè)和預(yù)警。文獻(xiàn)[33]提出了一種基于SVM 的學(xué)業(yè)異常預(yù)警系統(tǒng),其利用Kendall 相關(guān)性分析得到了7 個(gè)與“順利畢業(yè)”相關(guān)的學(xué)業(yè)指標(biāo),利用每個(gè)學(xué)生前三學(xué)年的學(xué)業(yè)指標(biāo)和最后一學(xué)年的畢業(yè)情況來訓(xùn)練SVM 分類器,得到的SVM 分類器能夠?qū)W(xué)生的畢業(yè)情況進(jìn)行預(yù)測(cè),對(duì)預(yù)測(cè)為不能順利畢業(yè)的學(xué)生發(fā)出預(yù)警信號(hào),從而實(shí)現(xiàn)學(xué)業(yè)預(yù)警。在重型敗血癥預(yù)警中,文獻(xiàn)[34]設(shè)計(jì)了隨機(jī)森林分類器來判斷未來1 個(gè)小時(shí)之內(nèi)是否會(huì)出現(xiàn)病情。文獻(xiàn)[35]提出了一種用于電力系統(tǒng)的預(yù)警模型,稱為CMEW-EKNN 模型,其從異常檢測(cè)的角度出發(fā),在人工篩選指標(biāo)后,利用場(chǎng)景中的大量正常樣本來訓(xùn)練模型,通過設(shè)定EKNN 中的距離拒絕選項(xiàng)來判斷新的樣本點(diǎn)是否為異常點(diǎn)。為了進(jìn)一步提升模型的準(zhǔn)確性和魯棒性,作者引入了一個(gè)自適應(yīng)的折扣因子來優(yōu)化決策邊界,最后證明了該模型在多種電力系統(tǒng)中都具有良好的預(yù)警性能。
基于經(jīng)典機(jī)器學(xué)習(xí)分類模型的預(yù)警系統(tǒng)在諸多場(chǎng)景發(fā)揮了功效,然而其在處理高維非線性場(chǎng)景和非結(jié)構(gòu)化數(shù)據(jù)時(shí)會(huì)受到較大的限制。神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的函數(shù)擬合能力和廣泛的通用性,近年來越來越多的研究者試圖將神經(jīng)網(wǎng)絡(luò)應(yīng)用于預(yù)警系統(tǒng)。文獻(xiàn)[36]使用神經(jīng)網(wǎng)絡(luò)構(gòu)建了商業(yè)信貸風(fēng)險(xiǎn)預(yù)警系統(tǒng),其將預(yù)處理過后的信貸風(fēng)險(xiǎn)作為輸入,由網(wǎng)絡(luò)中間層自動(dòng)進(jìn)行特征抽取,最后由輸出層判別信貸風(fēng)險(xiǎn)的等級(jí)。在政治危機(jī)預(yù)警中,文獻(xiàn)[4]利用大量多方面的、與政治密切相關(guān)的數(shù)據(jù)建立了貝葉斯神經(jīng)網(wǎng)絡(luò)來對(duì)未來是否會(huì)發(fā)生沖突進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)預(yù)警。文獻(xiàn)[37]設(shè)計(jì)了一種基于模糊神經(jīng)網(wǎng)絡(luò)的通用工業(yè)事故預(yù)警模型。模糊神經(jīng)網(wǎng)絡(luò)利用大量的人工特征進(jìn)行推理,網(wǎng)絡(luò)不僅能夠?qū)榫冗M(jìn)行分類,還能夠?qū)轭愋瓦M(jìn)行分類。文獻(xiàn)[26]視病情惡化為一個(gè)二分類問題,提出了一種新的基于attention 的神經(jīng)網(wǎng)絡(luò)架構(gòu)來從患者生理時(shí)序數(shù)據(jù)中自動(dòng)提取特征,并輸出病情惡化的概率,從而實(shí)現(xiàn)了病情惡化預(yù)警。為了實(shí)現(xiàn)更全面、準(zhǔn)確的診斷和預(yù)警,文獻(xiàn)[38]利用了多模態(tài)數(shù)據(jù),具體來說,其使用了梯度提升模型來對(duì)未來某個(gè)時(shí)間點(diǎn)發(fā)病的概率進(jìn)行預(yù)測(cè),并由利用神經(jīng)網(wǎng)絡(luò)模型根據(jù)X 射線圖像輸出顯著圖,其中模型的輸入為臨床數(shù)據(jù)和X 射線圖像,訓(xùn)練標(biāo)簽為病情在未來某個(gè)時(shí)間點(diǎn)是否惡化,在梯度提升模型輸出發(fā)病概率的同時(shí),神經(jīng)網(wǎng)絡(luò)輸出與之相對(duì)應(yīng)的顯著圖,從而更好地幫助醫(yī)療人員進(jìn)行臨床診斷以防止病情突發(fā)。文獻(xiàn)[24]中設(shè)計(jì)的雷電預(yù)警系統(tǒng)在利用集成經(jīng)驗(yàn)?zāi)B(tài)分解和稀疏自編碼器進(jìn)行特征提取和降維后,利用LSTM網(wǎng)絡(luò)進(jìn)行分類,實(shí)現(xiàn)了閃電臨近預(yù)警。
綜合上述,對(duì)分類的方法進(jìn)行了總結(jié),如表2所示。經(jīng)典機(jī)器學(xué)習(xí)分類模型首先利用特征提取算法提取到優(yōu)良的特征,再將特征送入分類器來輸出類別。神經(jīng)網(wǎng)絡(luò)可以從大量數(shù)據(jù)中自動(dòng)地提取特征并進(jìn)行自我更新,擁有更強(qiáng)大的分類性能,能夠適應(yīng)更復(fù)雜的場(chǎng)景。
表2 基于分類的方法Tab.2 Classification methods
基于回歸的方法核心在于對(duì)正常狀態(tài)下的指標(biāo)利用回歸器進(jìn)行準(zhǔn)確的預(yù)測(cè),隨后利用預(yù)測(cè)偏差來度量系統(tǒng)的異常程度。假設(shè)由數(shù)據(jù)X得到的特征為Z,回歸器為R,則可由回歸器對(duì)指標(biāo)進(jìn)行預(yù)測(cè):
在結(jié)構(gòu)性經(jīng)濟(jì)危機(jī)預(yù)警中,文獻(xiàn)[39]提出經(jīng)濟(jì)風(fēng)險(xiǎn)的若干個(gè)關(guān)鍵滯后因子后,利用逐步回歸方法確定各因子的最佳權(quán)重來得到預(yù)測(cè)模型。模型能夠預(yù)測(cè)未來三個(gè)季度的經(jīng)濟(jì)壓力,具有良好的預(yù)警性能。在風(fēng)電機(jī)組變速箱故障預(yù)警中,文獻(xiàn)[40]認(rèn)為變速箱油溫出現(xiàn)異常是齒輪箱發(fā)生故障的重要前兆,提出了一種結(jié)合改進(jìn)蟻獅優(yōu)化(Improved Ant Lion Optimizer,IALO)和支持向量回歸(Support Vector Regression,SVR)的回歸模型。模型利用了皮爾遜相關(guān)系數(shù)來篩選輸入變量,隨后將多變量輸入SVR 模型來預(yù)測(cè)正常狀態(tài)下的變速箱溫度。當(dāng)變速箱出現(xiàn)異常時(shí),預(yù)測(cè)誤差偏離了正常范圍,此時(shí)系統(tǒng)發(fā)出預(yù)警信號(hào)。文獻(xiàn)[41]中設(shè)計(jì)了一種豬肉價(jià)格預(yù)測(cè)與風(fēng)險(xiǎn)預(yù)警系統(tǒng),其首先利用相關(guān)性分析、均方差分析和PCA 得到預(yù)警指標(biāo),隨后利用SVR 模型來預(yù)測(cè)豬肉價(jià)格。系統(tǒng)通過把預(yù)測(cè)得到的價(jià)格波動(dòng)率和當(dāng)前實(shí)際的波動(dòng)率作比較來衡量風(fēng)險(xiǎn)大小,進(jìn)而實(shí)現(xiàn)預(yù)警任務(wù)。
在大多數(shù)簡(jiǎn)單的應(yīng)用中,經(jīng)典機(jī)器學(xué)習(xí)回歸模型的性能良好,然而在一些場(chǎng)景中,時(shí)序指標(biāo)的變化模式比較復(fù)雜,經(jīng)典回歸模型難以捕捉這些模式,因此需要借助深度神經(jīng)網(wǎng)絡(luò)來捕捉這些模式。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一些變種,如LSTM,GRU 等,具有優(yōu)良的長(zhǎng)短期記憶能力,能夠良好地捕捉時(shí)序數(shù)據(jù)的規(guī)律,在基于回歸的預(yù)警模型中廣被使用。文獻(xiàn)[42]中設(shè)計(jì)了一種基于小波分解和ARIMA-GRU 混合模型的外貿(mào)風(fēng)險(xiǎn)預(yù)警模型,該模型利用小波分解將外貿(mào)風(fēng)險(xiǎn)指數(shù)時(shí)序數(shù)據(jù)分解成低頻數(shù)據(jù)和高頻數(shù)據(jù),對(duì)穩(wěn)態(tài)、線性的低頻數(shù)據(jù)采用ARIMA 模型來預(yù)測(cè),對(duì)非線性、強(qiáng)波動(dòng)的高頻數(shù)據(jù)采用GRU 模型來預(yù)測(cè),最后根據(jù)預(yù)測(cè)值相對(duì)于理論值的偏離程度來確定警級(jí)。在經(jīng)濟(jì)預(yù)警中,文獻(xiàn)[43]通過市場(chǎng)分析構(gòu)建綜合預(yù)警指數(shù)來反映經(jīng)濟(jì)預(yù)期風(fēng)險(xiǎn),使用遺傳神經(jīng)網(wǎng)絡(luò)混合模型來對(duì)綜合預(yù)警指數(shù)進(jìn)行預(yù)測(cè),并對(duì)顯著高的綜合預(yù)警指數(shù)發(fā)出預(yù)警信號(hào)。文獻(xiàn)[44]提出了一種針對(duì)廣義復(fù)雜系統(tǒng)的預(yù)警信號(hào)的識(shí)別方法,該方法訓(xùn)練了一個(gè)圖神經(jīng)網(wǎng)絡(luò)來高效地破壞一個(gè)復(fù)雜系統(tǒng)。對(duì)于一個(gè)新的復(fù)雜系統(tǒng),神經(jīng)網(wǎng)絡(luò)會(huì)為每個(gè)節(jié)點(diǎn)輸出其被優(yōu)先拆解的分?jǐn)?shù),節(jié)點(diǎn)被不斷去除直到系統(tǒng)崩潰,系統(tǒng)中最大連接部分規(guī)模減小的比例被視為系統(tǒng)的破壞程度,系統(tǒng)基于該破壞程度指標(biāo)發(fā)出預(yù)警信號(hào)。這樣的預(yù)警方法在諸多場(chǎng)景都能適用,如交通阻塞預(yù)警、病毒傳播預(yù)警。在設(shè)備性能退化預(yù)警中,文獻(xiàn)[45]提出了一種基于LSTM 的階段性能退化預(yù)警方法,其基于數(shù)據(jù)和機(jī)理分析確定了若干個(gè)性能監(jiān)控參數(shù)為預(yù)警指標(biāo),利用了LSTM 模型來對(duì)指標(biāo)進(jìn)行預(yù)測(cè),當(dāng)預(yù)測(cè)值相對(duì)于預(yù)期值發(fā)生重大偏離時(shí),認(rèn)為設(shè)備性能有退化的前兆,因此發(fā)出預(yù)警信號(hào)。針對(duì)流化催化裂化預(yù)警,文獻(xiàn)[10]利用了BiLSTM 網(wǎng)絡(luò)來預(yù)測(cè)反應(yīng)溫度,在反應(yīng)溫度異常高時(shí)發(fā)出預(yù)警信號(hào),同時(shí)利用了PCASDG 模型對(duì)當(dāng)前狀態(tài)進(jìn)行推演,從而幫助決策者更好地控制風(fēng)險(xiǎn)。文獻(xiàn)[27]中提出了一種基于CNNLSTM 的磨煤故障預(yù)警方法,其將磨煤機(jī)7個(gè)測(cè)點(diǎn)參數(shù)的多元時(shí)間序列作為輸入,利用CNN 來提取特征后,用LSTM 輸出多元時(shí)間序列預(yù)測(cè)值,基于預(yù)測(cè)值和實(shí)際值得到偏離度,當(dāng)偏離度超出閾值時(shí)認(rèn)為磨煤機(jī)有發(fā)生故障的趨勢(shì),此時(shí)發(fā)出預(yù)警信號(hào)。
綜合上述內(nèi)容,對(duì)回歸的方法進(jìn)行了總結(jié),如表3 所示。經(jīng)典回歸模型在處理變量少、任務(wù)簡(jiǎn)單的場(chǎng)景下能達(dá)到較好的性能。越來越多的研究關(guān)注于利用LSTM、GRU 等神經(jīng)網(wǎng)絡(luò)來捕捉時(shí)序中的規(guī)律,從而在復(fù)雜場(chǎng)景下達(dá)到更好的預(yù)警目的。
表3 基于回歸的方法Tab.3 Regression methods
專家系統(tǒng)起始于20 世紀(jì)60 年代,是一種根據(jù)規(guī)則進(jìn)行推理和決策的智能程序系統(tǒng),是人工智能的一個(gè)發(fā)展分支。專家系統(tǒng)的工作流程如圖2 所示,其通過知識(shí)獲取將專家知識(shí)保存于知識(shí)庫(kù)中,使用者利用人機(jī)交互接口來輸入問題,專家系統(tǒng)利用知識(shí)庫(kù)和推理機(jī)來得到判斷,隨后再次通過人機(jī)交互接口來輸出結(jié)果。專家系統(tǒng)以知識(shí)推理為核心,決策具有較高的科學(xué)性、穩(wěn)定性。本節(jié)將對(duì)基于專家系統(tǒng)的預(yù)警系統(tǒng)進(jìn)行介紹。
圖2 專家系統(tǒng)流程圖Fig.2 Schematic of expert system
文獻(xiàn)[46]將分層模糊專家系統(tǒng)應(yīng)用于鉆井溢流預(yù)警系統(tǒng)中,系統(tǒng)利用了專家的經(jīng)驗(yàn)知識(shí)建立知識(shí)庫(kù),并設(shè)計(jì)了推理機(jī)來模擬專家估計(jì)溢流程度,當(dāng)溢流程度大時(shí)發(fā)出預(yù)警信號(hào)。文獻(xiàn)[47]構(gòu)建了一種基于專家系統(tǒng)的城市供水網(wǎng)管安全預(yù)警系統(tǒng)。系統(tǒng)結(jié)合了行業(yè)內(nèi)學(xué)者專家的研究成果構(gòu)造了趨勢(shì)面模型來計(jì)算管網(wǎng)管線壓力,并基于該模型設(shè)計(jì)了知識(shí)庫(kù);通過對(duì)引發(fā)管網(wǎng)爆管的相關(guān)指標(biāo)進(jìn)行監(jiān)測(cè),推理機(jī)可以計(jì)算出管網(wǎng)爆管概率,并在爆管概率高時(shí)發(fā)出預(yù)警信號(hào)。在光伏陣列故障預(yù)警中,文獻(xiàn)[48]設(shè)計(jì)了基于規(guī)則、案例、神經(jīng)網(wǎng)絡(luò)的三種專家系統(tǒng)。基于規(guī)則的專家系統(tǒng)利用了樹結(jié)構(gòu)將故障知識(shí)轉(zhuǎn)換成產(chǎn)生式規(guī)則,并將規(guī)則保存到知識(shí)庫(kù)中;基于案例的專家系統(tǒng)將原案例使用矩陣來表達(dá),并將該表達(dá)矩陣放于知識(shí)庫(kù)中,有待檢案例便可計(jì)算其與源案例的相似度,從而進(jìn)行推斷;基于神經(jīng)網(wǎng)絡(luò)的專家系統(tǒng)將由光伏歷史數(shù)據(jù)提取到的故障特征向量用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,并將神經(jīng)網(wǎng)絡(luò)保存在知識(shí)庫(kù)中。文獻(xiàn)[49]中首次在干旱預(yù)警領(lǐng)域中利用了專家系統(tǒng)。該方法基于專家的領(lǐng)域知識(shí)建立了一個(gè)規(guī)則庫(kù),接著利用規(guī)則庫(kù)來對(duì)真實(shí)場(chǎng)景下的輸入數(shù)據(jù)模式產(chǎn)生概率式推理,并引入了確定性因子來度量推理的不確定性,系統(tǒng)最終同時(shí)輸出土地質(zhì)量評(píng)估和置信水平,實(shí)現(xiàn)了基于領(lǐng)域知識(shí)的自動(dòng)干旱預(yù)警。文獻(xiàn)[50]在洪水預(yù)警中發(fā)現(xiàn)洪水的相關(guān)監(jiān)測(cè)指標(biāo)在監(jiān)測(cè)過程存在不確定性,即某時(shí)刻若干監(jiān)測(cè)指標(biāo)會(huì)出現(xiàn)空缺值,且監(jiān)測(cè)指標(biāo)和輸出之間存在非線性關(guān)系。為了處理這種輸入不確定性、輸入輸出非線性的場(chǎng)景,該文使用了模糊專家系統(tǒng)來構(gòu)建洪水預(yù)警系統(tǒng)。在井漏預(yù)警過程中,文獻(xiàn)[51]為了應(yīng)對(duì)監(jiān)測(cè)數(shù)據(jù)高度不確定的情況,設(shè)計(jì)了基于模糊專家系統(tǒng)的井漏預(yù)警系統(tǒng)。系統(tǒng)模擬了專家在鉆井過程中根據(jù)監(jiān)測(cè)數(shù)據(jù)來對(duì)井漏的類型和程度作出決策的過程,實(shí)現(xiàn)了準(zhǔn)確、高效的預(yù)警。
基于專家系統(tǒng)的預(yù)警系統(tǒng)可以在輸入高度不確定、輸入輸出非線性的預(yù)警場(chǎng)景發(fā)揮良好的作用。專家系統(tǒng)可以有效地利用歷史經(jīng)驗(yàn),針對(duì)具體場(chǎng)景進(jìn)行邏輯推理,作出的決策具有更強(qiáng)的可解釋性。
在一些復(fù)雜場(chǎng)景中,僅憑單一的信息源可能很難作出全面、準(zhǔn)確的評(píng)價(jià),此時(shí)需要結(jié)合多個(gè)信息源,如圖3 所示。信息融合技術(shù)可以自動(dòng)融合多源信息,幫助預(yù)警系統(tǒng)作出更加全面、合理的決策。按照融合時(shí)信息的抽象程度,信息融合可分為數(shù)據(jù)層融合、特征層融合和決策層融合,如圖4所示。數(shù)據(jù)層融合指對(duì)各個(gè)信息源的原始數(shù)據(jù)進(jìn)行分析和關(guān)聯(lián),進(jìn)而得到更全面、更精確的數(shù)據(jù)。數(shù)據(jù)層融合需要對(duì)不同源的原始數(shù)據(jù)直接進(jìn)行融合,因此要求數(shù)據(jù)是同構(gòu)的。特征層融合指對(duì)從各個(gè)信息源提取到的特征進(jìn)行融合。特征層融合將原始數(shù)據(jù)進(jìn)行特征抽取之后再處理,因此也適用于異構(gòu)數(shù)據(jù)。決策層信息融合指對(duì)各個(gè)信息源獨(dú)立作出的決策進(jìn)行集成。決策層融合方法直觀,易于設(shè)計(jì),因此應(yīng)用場(chǎng)景較為廣泛。本節(jié)將對(duì)基于信息融合方法的預(yù)警系統(tǒng)進(jìn)行介紹。
圖3 信息融合示例Fig.3 Example of information fusion
圖4 不同層的信息融合Fig.4 Information fusion of different levels
文獻(xiàn)[52]提出的露天礦邊坡動(dòng)態(tài)預(yù)警系統(tǒng)采用了聯(lián)邦Kalman濾波,其融合同一剖面多測(cè)點(diǎn)的位移監(jiān)測(cè)信息,獲得了各剖面實(shí)時(shí)穩(wěn)定狀態(tài)的動(dòng)態(tài)位移融合值,并將動(dòng)態(tài)位移融合值和動(dòng)態(tài)位移分級(jí)預(yù)警閾值相比較來實(shí)現(xiàn)分級(jí)預(yù)警。在文獻(xiàn)[53]中提出了一種基于兩級(jí)信息融合的隧道掘進(jìn)機(jī)拆裝裝置作業(yè)安全模型。第一級(jí)融合是數(shù)據(jù)層融合。系統(tǒng)通過層次分析法和熵權(quán)法來將不同數(shù)據(jù)進(jìn)行加權(quán)結(jié)合,從而得到綜合預(yù)警指標(biāo)。第二級(jí)融合是決策層融合。系統(tǒng)將GM、ARIMA、LSTM 三個(gè)模型分別對(duì)綜合預(yù)警指標(biāo)進(jìn)行預(yù)測(cè),隨后集成三個(gè)模型的預(yù)測(cè)結(jié)果得到最終預(yù)測(cè)和判斷警級(jí)。在室內(nèi)火災(zāi)預(yù)警系統(tǒng)中,文獻(xiàn)[54]提出的預(yù)警系統(tǒng)分別采集了氣候、煙濃度、一氧化碳濃度數(shù)據(jù)。系統(tǒng)在提取得到特征后,將所有特征輸入到神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中自動(dòng)融合了多源信息。在測(cè)試時(shí),預(yù)警系統(tǒng)可以基于不同氣體的采集數(shù)據(jù)來輸出火災(zāi)的發(fā)生概率,從而完成室內(nèi)火災(zāi)預(yù)警任務(wù)。對(duì)于電氣火災(zāi)預(yù)警,文獻(xiàn)[9]設(shè)計(jì)的預(yù)警系統(tǒng)在對(duì)采集到的多源信息提取特征后,將特征輸入到多組神經(jīng)網(wǎng)絡(luò)來得到多組的火災(zāi)概率預(yù)測(cè)值。基于D-S證據(jù)理論的證據(jù)融合規(guī)則,系統(tǒng)將多個(gè)預(yù)測(cè)值進(jìn)行融合,實(shí)現(xiàn)了良好的預(yù)警性能。在新冠肺炎死亡預(yù)警中,文獻(xiàn)[55]提出的系統(tǒng)使用了四種模型分別預(yù)測(cè)患者在未來二十四小時(shí)內(nèi)死亡的概率,隨后利用加權(quán)投票法將不同的預(yù)測(cè)結(jié)果進(jìn)行融合。文獻(xiàn)[56]提出了一種針對(duì)ARDS發(fā)作的實(shí)時(shí)預(yù)警系統(tǒng)。為了克服單個(gè)信號(hào)決策不及時(shí)的問題,系統(tǒng)對(duì)受試者的心率、呼吸頻率、血氧飽和度等多個(gè)生理信號(hào)進(jìn)行實(shí)時(shí)采集,當(dāng)系統(tǒng)發(fā)現(xiàn)單個(gè)信號(hào)出現(xiàn)異常,將計(jì)算所有信號(hào)的偏離程度,隨后利用核嶺回歸來對(duì)多個(gè)信號(hào)的決策信號(hào)進(jìn)行融合。實(shí)驗(yàn)證明該方法實(shí)現(xiàn)了更快速、更精確的預(yù)警。文獻(xiàn)[57]提出了一種基于多傳感器數(shù)據(jù)融合的隧道故障預(yù)警方法。隧道在發(fā)生故障之前,會(huì)出現(xiàn)一系列征兆,例如聲發(fā)射靜默期、基于聲發(fā)射的b值快速下降、聲發(fā)射熵和應(yīng)變場(chǎng)協(xié)方差的快速增加,為了及時(shí)發(fā)現(xiàn)危險(xiǎn)前兆,系統(tǒng)采用了多傳感器來監(jiān)測(cè)數(shù)據(jù),隨后通過D-S 證據(jù)理論融合多個(gè)預(yù)警分?jǐn)?shù),實(shí)現(xiàn)了決策融合。在COVID-19 病情惡化風(fēng)險(xiǎn)預(yù)警中,文獻(xiàn)[38]提出的預(yù)警系統(tǒng)分別利用了梯度提升模型和神經(jīng)網(wǎng)絡(luò)模型來對(duì)未來某個(gè)時(shí)間點(diǎn)發(fā)病的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),最后將結(jié)果進(jìn)行集成得到了最終預(yù)測(cè)概率。其中,梯度提升模型的輸入為患者的臨床數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)的輸入為患者的X 射線圖像。該系統(tǒng)利用了表格和圖像數(shù)據(jù),實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)的融合決策。
根據(jù)上述內(nèi)容對(duì)基于信息融合的預(yù)警系統(tǒng)進(jìn)行了總結(jié),如表4 所示。同構(gòu)數(shù)據(jù)可以在各種層次進(jìn)行信息融合。異構(gòu)數(shù)據(jù)的不同數(shù)據(jù)源的含義和量綱不同,因此大多在特征層或決策層完成信息融合。數(shù)據(jù)層的信息融合通常是綜合考慮多個(gè)傳感器多方面的數(shù)據(jù),以此減少誤差或使信息更為全面。數(shù)據(jù)層融合比較直觀,但容易造成信息丟失;特征層信息融合最常見的做法是利用神經(jīng)網(wǎng)絡(luò)來自動(dòng)處理不同的特征。神經(jīng)網(wǎng)絡(luò)能夠?qū)Σ煌卣鬟M(jìn)行最優(yōu)融合,以提升預(yù)警性能,然而,這種融合方式缺乏可解釋性,提取到的特征缺乏物理意義。決策層的信息融合通常是集成多個(gè)模型的預(yù)測(cè)結(jié)果來得到最終決策,決策層融合方法比較直觀,且易于設(shè)計(jì),因此廣泛被使用。
表4 基于信息融合的方法Tab.4 Methods based on information fusion
一個(gè)良好的預(yù)警系統(tǒng)可以讓目標(biāo)人群可預(yù)備即將發(fā)生的危險(xiǎn),進(jìn)而規(guī)避傷害。構(gòu)建良好的預(yù)警系統(tǒng)是一項(xiàng)重要且富有挑戰(zhàn)性的任務(wù)。傳統(tǒng)預(yù)警系統(tǒng)存在著諸多局限性,這促使研究人員不斷探索性能更優(yōu)、適用性更強(qiáng)的預(yù)警系統(tǒng)。近年來,隨著人工智能的蓬勃發(fā)展,諸多智能方法被應(yīng)用于預(yù)警系統(tǒng)中,這大大提升了預(yù)警系統(tǒng)的性能。本文對(duì)預(yù)警系統(tǒng)中的智能方法進(jìn)行了綜述,首先簡(jiǎn)要介紹了傳統(tǒng)預(yù)警方法及其局限性,隨后闡述了預(yù)警系統(tǒng)中的機(jī)器學(xué)習(xí)方法,其中包括特征提取方法、基于分類的方法和基于回歸的方法,最后介紹了基于專家系統(tǒng)的預(yù)警系統(tǒng)和基于信息融合的預(yù)警系統(tǒng)??偟膩碚f,基于機(jī)器學(xué)習(xí)的方法以數(shù)據(jù)為支撐,從數(shù)據(jù)中挖掘出預(yù)警場(chǎng)景的關(guān)鍵信息,進(jìn)而完成預(yù)警?;趯<蚁到y(tǒng)的方法利用專家知識(shí)來構(gòu)建預(yù)警系統(tǒng)。基于信息融合的方法能夠綜合考慮多個(gè)信息源的數(shù)據(jù)來實(shí)現(xiàn)預(yù)警。
當(dāng)前,利用智能方法的預(yù)警系統(tǒng)在諸多領(lǐng)域都展現(xiàn)出了良好的性能。然而,這類方法仍存在諸多挑戰(zhàn)。以下將對(duì)預(yù)警系統(tǒng)智能方法中存在的一些局限性和未來可能的發(fā)展方向進(jìn)行分析和探討。
(1)基于學(xué)習(xí)的方法需要大量的樣本進(jìn)行訓(xùn)練,然而在一些特定的場(chǎng)景中,樣本數(shù)量常常是稀少的,樣本不足可能會(huì)導(dǎo)致模型過擬合,從而影響預(yù)警性能。因此,如何在小樣本的情況下使用機(jī)器學(xué)習(xí),是設(shè)計(jì)預(yù)警系統(tǒng)智能方法時(shí)需要解決的一個(gè)問題。
(2)越復(fù)雜的機(jī)器學(xué)習(xí)模型需要越多的數(shù)據(jù)量。在真實(shí)場(chǎng)景中,一部分預(yù)警過程可以用物理模型來表達(dá)。如果能將物理模型和機(jī)器學(xué)習(xí)模型相結(jié)合[58],可大大減少機(jī)器學(xué)習(xí)模型的復(fù)雜度,從而減少所需要的數(shù)據(jù)量。因此,如何更好地將兩種模型相結(jié)合是值得研究的一個(gè)問題。
(3)在預(yù)警系統(tǒng)的智能方法中,基于數(shù)據(jù)的學(xué)習(xí)方法可以在數(shù)據(jù)和算力的支持下達(dá)到較高的精度,而基于知識(shí)的推理方法能夠利用專家知識(shí)解決特定場(chǎng)景下的復(fù)雜問題。在當(dāng)前的預(yù)警系統(tǒng)智能方法中,基于學(xué)習(xí)的方法和基于推理的方法是分離的。如果將機(jī)器學(xué)習(xí)和邏輯推理結(jié)合工作,預(yù)警系統(tǒng)能夠達(dá)到更高的智能水平,這也是預(yù)警系統(tǒng)智能方法在未來值得研究的方向。
(4)近年來以ChatGPT 為代表的大型語(yǔ)言模型應(yīng)運(yùn)而生,其在事件識(shí)別、文本分析等場(chǎng)景發(fā)揮了作用。如何將ChatGPT這類新技術(shù)應(yīng)用于預(yù)警系統(tǒng)也是值得研究的一個(gè)方向。