錢 鋼,金 鑫,張鋒明,朱 峰,陳 楠,陳武軍,陳明強(qiáng),汪 力
(1.國(guó)網(wǎng)浙江省電力有限公司紹興供電公司,浙江 紹興 312000;2.寧波天靈信息科技有限公司,浙江 寧波 315000)
為掌握故障應(yīng)急事故發(fā)生情況,采取有效的防控方案,需對(duì)故障應(yīng)急事故實(shí)施常規(guī)分析[1],各級(jí)故障應(yīng)急事故管理單位需依據(jù)相關(guān)標(biāo)準(zhǔn),結(jié)合當(dāng)前監(jiān)測(cè)數(shù)據(jù)對(duì)故障應(yīng)急事故實(shí)施分析并編寫報(bào)告[2]。由于故障應(yīng)急事故報(bào)告中包含大量數(shù)據(jù),且需對(duì)這些數(shù)據(jù)進(jìn)行多次統(tǒng)計(jì)分析,導(dǎo)致報(bào)告中容易出現(xiàn)大量重復(fù)內(nèi)容和錯(cuò)誤數(shù)據(jù)[3]。同時(shí)由于檢測(cè)報(bào)告來源不同,其內(nèi)容與格式也有所差異,相關(guān)學(xué)者對(duì)此進(jìn)行了研究,周啟等人[4]以大壩安全監(jiān)測(cè)資料分析報(bào)告自動(dòng)生成系統(tǒng)為研究對(duì)象,以系統(tǒng)方案、實(shí)現(xiàn)技術(shù)、功能要求等為研究?jī)?nèi)容,實(shí)現(xiàn)監(jiān)測(cè)資料整編分析報(bào)告生成的自動(dòng)化、規(guī)范化和專業(yè)化,該系統(tǒng)科學(xué)高效,滿足水庫(kù)大壩安全管理需要;楊夢(mèng)、周恩波[5]構(gòu)建了一個(gè)基于專家系統(tǒng)的煤礦事故現(xiàn)場(chǎng)處置報(bào)告自動(dòng)生成系統(tǒng),系統(tǒng)整合了應(yīng)急預(yù)案、安全規(guī)章制度、領(lǐng)域?qū)<液褪鹿拾咐木仍幹梅椒ㄒ约敖?jīng)驗(yàn)知識(shí),在發(fā)生事故時(shí)可以根據(jù)事故現(xiàn)場(chǎng)實(shí)時(shí)信息,匹配規(guī)則進(jìn)行推理,得到所需處置措施,指揮人員還可以輸入查詢信息,搜索符合查詢條件且與當(dāng)前事故特征最相似的歷史事故案例,獲取真實(shí)歷史救援經(jīng)驗(yàn)知識(shí)支持。但上述方法受時(shí)間與需求影響,應(yīng)急報(bào)告內(nèi)容與格式會(huì)有所變化,因此需要提出一種更加有效的故障應(yīng)急事故報(bào)告自動(dòng)生成方法。
作為計(jì)算機(jī)科學(xué)領(lǐng)域和人工智能領(lǐng)域的主要研究?jī)?nèi)容之一,自然語(yǔ)言處理技術(shù)包含語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)等數(shù)門科學(xué)內(nèi)容,通過研究日常使用的自然語(yǔ)言,利用計(jì)算機(jī)正確處理人類自然語(yǔ)言,實(shí)現(xiàn)人與計(jì)算機(jī)間自然語(yǔ)言有效溝通[6]。因此,本文基于自然語(yǔ)言處理技術(shù)對(duì)故障應(yīng)急事故報(bào)告自動(dòng)生成方法進(jìn)行了研究。
基于自然語(yǔ)言處理的故障應(yīng)急事故報(bào)告自動(dòng)生成方法主要由數(shù)據(jù)來源、數(shù)據(jù)標(biāo)準(zhǔn)處理、資料分析、報(bào)告生成等環(huán)節(jié)組成,具體結(jié)構(gòu)如圖1 所示。
圖1 故障應(yīng)急事故報(bào)告自動(dòng)生成結(jié)構(gòu)
基于自然語(yǔ)言處理的故障應(yīng)急事故報(bào)告自動(dòng)生成方法中,數(shù)據(jù)來源由數(shù)據(jù)庫(kù)與模板庫(kù)共同組成[7],將所采集的監(jiān)測(cè)數(shù)據(jù)納入到數(shù)據(jù)庫(kù)內(nèi),同時(shí)依照相關(guān)標(biāo)準(zhǔn)定制可配置的模板庫(kù),數(shù)據(jù)來源是故障應(yīng)急事故報(bào)告自動(dòng)生成的基礎(chǔ)[8]。
數(shù)據(jù)標(biāo)準(zhǔn)處理是以數(shù)據(jù)來源為基礎(chǔ),對(duì)相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)查詢、管理與檢驗(yàn)等操作,其中數(shù)據(jù)管理采用OLE(對(duì)象鏈接和嵌入)服務(wù)功能,利用該功能可將采集于不同應(yīng)用程序的數(shù)據(jù)信息創(chuàng)建為復(fù)合文檔[9],適用于大部分類型數(shù)據(jù)。Visual C++完全支持OLE 自動(dòng)化,通過Visual C++能夠有效編譯自動(dòng)化控制器,控制Word 等文字處理應(yīng)用程序,協(xié)同完成報(bào)告自動(dòng)生成任務(wù)。采用這種方法,可在無(wú)須人工操作的條件下,令兩個(gè)應(yīng)用程序自動(dòng)相互作用。
資料分析環(huán)節(jié)依照數(shù)據(jù)標(biāo)準(zhǔn)處理、模板格式與內(nèi)容要求,基于相關(guān)數(shù)據(jù)進(jìn)行圖表繪制、模型構(gòu)建與在線分析,考慮故障應(yīng)急事故專業(yè)需求,可在部分有需要的條件下提供在線分析,完成專業(yè)數(shù)據(jù)分析。數(shù)據(jù)在線分析過程中采用自然語(yǔ)言處理技術(shù),利用基于詞典與規(guī)則的語(yǔ)法分析算法,可令生成的故障應(yīng)急事故報(bào)告具有更強(qiáng)的適應(yīng)性[10]。
報(bào)告生成環(huán)節(jié)依照資料分析結(jié)果與模板需求,自動(dòng)進(jìn)行監(jiān)測(cè)數(shù)據(jù)分析報(bào)告配置與生成,用戶可依照實(shí)際需求與自身習(xí)慣在Web 端設(shè)計(jì)模板報(bào)告樣式,在服務(wù)器終端自動(dòng)生成報(bào)告并展示。
由于數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)來源于不同應(yīng)用程序,為保障生成報(bào)告內(nèi)數(shù)據(jù)的準(zhǔn)確性與統(tǒng)一性,需要數(shù)據(jù)進(jìn)行檢驗(yàn)處理,利用得分匹配法對(duì)數(shù)據(jù)進(jìn)行缺失值借補(bǔ)處理[11]。
由于數(shù)據(jù)管理過程中不同變量間具有一定相關(guān)性,因此考慮故障應(yīng)急事故統(tǒng)計(jì)數(shù)據(jù)的縱向數(shù)據(jù)集的變量特點(diǎn),選取得分匹配法實(shí)施借補(bǔ),即在包含完整數(shù)據(jù)的時(shí)間點(diǎn)記錄內(nèi),確定與缺失數(shù)據(jù)時(shí)點(diǎn)記錄內(nèi)未缺失變量取值得分匹配度最高的時(shí)點(diǎn)記錄,基于該完整時(shí)點(diǎn)記錄內(nèi)的對(duì)應(yīng)變量值,結(jié)合實(shí)際變量完成數(shù)據(jù)借補(bǔ),詳細(xì)過程如下。
以Xit表示變量,其中,i=1,2,…,I 表示變量數(shù)量,t=1,2,…,T 表示變量取值的時(shí)點(diǎn)數(shù)量。在X11缺失的條件下,可在包含完成數(shù)據(jù)的記錄內(nèi)確定一個(gè)t 值,由此令匹配值k 為:
其中,?i表示依照第i 個(gè)變量觀測(cè)數(shù)據(jù)確定的標(biāo)準(zhǔn)差。不同時(shí)點(diǎn)下變量的取值差異除以?i的主要目的是消除不同變量的量綱差別。
基于式(1)得到借補(bǔ)值為:
檢驗(yàn)完成后,利用OLE 服務(wù)功能,將采集于不同應(yīng)用程序的數(shù)據(jù)信息創(chuàng)建為復(fù)合文檔。
利用計(jì)算機(jī)準(zhǔn)確處理人類自然語(yǔ)言,分析并明確自然語(yǔ)言的含義是自然語(yǔ)言處理技術(shù)的主要目標(biāo)[12]。基于上述創(chuàng)建的復(fù)合文檔,利用自然語(yǔ)言處理技術(shù)能夠提升故障應(yīng)急事故報(bào)告的適應(yīng)性。自然語(yǔ)言處理流程圖如圖2 所示。
圖2 自然語(yǔ)言處理流程
對(duì)復(fù)合文檔內(nèi)的句子進(jìn)行自然語(yǔ)言處理的過程包括數(shù)據(jù)結(jié)構(gòu)定義、詞性標(biāo)注、句法分析、語(yǔ)義識(shí)別與數(shù)據(jù)提取等。
1.3.1 數(shù)據(jù)結(jié)構(gòu)定義與詞性標(biāo)注
數(shù)據(jù)結(jié)構(gòu)定義是將復(fù)合文檔內(nèi)的數(shù)據(jù)信息劃分為單詞與句子兩個(gè)數(shù)據(jù)結(jié)構(gòu)。
單詞結(jié)構(gòu)所體現(xiàn)的是單詞內(nèi)的文字、詞性與句子成分等屬性,并對(duì)單詞的基本操作實(shí)施定義。單詞詞性可通過單個(gè)字母代表,如表1 所示。詞性標(biāo)注可依照故障應(yīng)急事故報(bào)告的詳細(xì)要求進(jìn)行對(duì)應(yīng)的修正與擴(kuò)展[13]。
句子結(jié)構(gòu)內(nèi)存在一個(gè)哈希表,其主要功能是存儲(chǔ)句子內(nèi)的全部單詞,并對(duì)句子的基本操作(如句子長(zhǎng)度、附加單詞等)進(jìn)行定義。
表1 詞性分析
1.3.2 句法分析
可將一個(gè)給定的輸入句子確定句法分析樹的過程理解為是句法分析過程[14]。例如復(fù)合文檔的輸入語(yǔ)句為:“The machine is running”。其句法分析樹如圖3 所示。
圖3 句法分析樹
輸入語(yǔ)句由名詞短語(yǔ)和動(dòng)詞短語(yǔ)共同組成,兩者分別由冠詞、名詞和動(dòng)詞、形容詞組成。
句法分析算法使用改進(jìn)的圖句法分析算法,有n 個(gè)詞語(yǔ)的語(yǔ)句的圖由n+1 個(gè)頂點(diǎn)與數(shù)條連接頂點(diǎn)的邊組成,若一條邊與相鄰邊匹配,則可將其擴(kuò)展后置入圖內(nèi),初始邊則定義為新邊的孩子邊。這樣,句法分析結(jié)束后,僅需確定由第一個(gè)節(jié)點(diǎn)至最后一個(gè)節(jié)點(diǎn)的邊,即可獲取一棵語(yǔ)法分析樹,利用這棵樹能夠?qū)崿F(xiàn)全部邊的遍歷。
1.3.3 語(yǔ)義識(shí)別與數(shù)據(jù)提取
由于報(bào)告中所用信息來源于不同應(yīng)用程序,因此普遍存在信息重復(fù)的問題,考慮故障應(yīng)急事故報(bào)告內(nèi)容清晰性與簡(jiǎn)潔性要求,需要通過一致度比較算法確定一致度較高內(nèi)容,并清除多余內(nèi)容。一致度描述的是兩者間的共性與區(qū)別[15],兩者間的共性與一致度之間呈正比例相關(guān);兩者間的區(qū)別與一致度之間呈反比例相關(guān)。
一致度計(jì)算過程中采用基于向量空間模型的文本一致度算法,向量空間模型內(nèi),可將故障應(yīng)急事故報(bào)告定義為由相互獨(dú)立詞條組(C1,C2,…,Cn)組成,統(tǒng)計(jì)單個(gè)詞條Ci的數(shù)量,確定Ci的詞頻,確定整個(gè)故障應(yīng)急事故報(bào)告內(nèi)Ci詞條所占的權(quán)重,以Qi表示。由此可將故障應(yīng)急事故報(bào)告文本間的一致度轉(zhuǎn)換成向量間夾角的余弦值,通過夾角描述一致度,兩者間呈反比例相關(guān),即夾角越大,對(duì)應(yīng)的一致度值(余弦值)越小,文本間一致度越低。以P1和P2分別表示兩份來源不同應(yīng)用程序的信息文檔,則可通過式(3)描述P1和P2間的一致度:
利用式(3)可確定兩份來源于不同應(yīng)用程序的信息文檔的一致度,設(shè)定一致度閾值。當(dāng)兩份文檔一致度計(jì)算結(jié)果低于設(shè)定閾值時(shí),還需進(jìn)行自然段落的一致度計(jì)算,具體計(jì)算流程如下:
流程1:對(duì)P1和P2進(jìn)行自然分段處理,針對(duì)自然分段后獲取的各段文檔實(shí)施分詞、去除停用詞等預(yù)處理,同時(shí)確定各段文檔內(nèi)詞的權(quán)重。
流程2:設(shè)定一個(gè)閾值,利用式(3)計(jì)算P1文檔內(nèi)的自然段落P1i同P2內(nèi)全部自然段落的一致度S,對(duì)比S 與閾值,若前者大于后者,需記錄P2文檔內(nèi)的段落與對(duì)應(yīng)的S 值,若前者小于后者,需進(jìn)行流程。
流程3:重復(fù)流程2,至P1文檔內(nèi)全部段落同P2文檔內(nèi)全部段落對(duì)比完成。
流程4:確定所記錄的段落數(shù)量,進(jìn)行標(biāo)記,獲取一致度較高的自然段落。
一致度計(jì)算具體流程如圖4 所示。
為驗(yàn)證基于自然語(yǔ)言處理的故障應(yīng)急事故報(bào)告自動(dòng)生成方法的應(yīng)用性能,以某發(fā)電廠為應(yīng)用對(duì)象,在其中某項(xiàng)設(shè)備發(fā)生故障的條件下,采用所提方法自動(dòng)生成故障應(yīng)急事故報(bào)告測(cè)試,結(jié)果如下。
對(duì)比所提方法中數(shù)據(jù)庫(kù)內(nèi)采集故障設(shè)備數(shù)據(jù)與故障設(shè)備原始數(shù)據(jù),所得結(jié)果如圖5 所示。
圖4 一致度計(jì)算流程
圖5 數(shù)據(jù)對(duì)比結(jié)果
圖5 內(nèi)所提方法采集數(shù)據(jù)大體上與故障設(shè)備原始數(shù)據(jù)走勢(shì)相同,部分區(qū)域存在一定差距的原因主要是應(yīng)用對(duì)象中的設(shè)備發(fā)生故障,導(dǎo)致監(jiān)測(cè)數(shù)據(jù)(即采集數(shù)據(jù))存在一定缺失現(xiàn)象。
以基于水晶報(bào)表的報(bào)告自動(dòng)生成方法和基于專家系統(tǒng)的報(bào)告自動(dòng)生成方法為對(duì)比方法,采用所提方法和對(duì)比方法對(duì)上一實(shí)驗(yàn)中缺失的數(shù)據(jù)進(jìn)行借補(bǔ)處理,記錄任意時(shí)間點(diǎn)下不同方法借補(bǔ)處理后所得數(shù)據(jù)與實(shí)際數(shù)據(jù)間的絕對(duì)偏差,結(jié)果如表2 所示。
分析表2 得到:隨著數(shù)據(jù)缺失比例的提升,不同方法對(duì)采集數(shù)據(jù)實(shí)施借補(bǔ)處理后,數(shù)據(jù)的絕對(duì)偏差也呈不同程度的上升趨勢(shì)。采用所提方法對(duì)采集數(shù)據(jù)進(jìn)行借補(bǔ)處理后,不同時(shí)間點(diǎn)下數(shù)據(jù)的絕對(duì)偏差始終低于另外兩種對(duì)比方法,且不同時(shí)間點(diǎn)下與兩種對(duì)比方法相比差異達(dá)到50%以上,由此說明所提方法具有較高的數(shù)據(jù)借補(bǔ)精度。
表2 數(shù)據(jù)借補(bǔ)測(cè)試結(jié)果
統(tǒng)計(jì)所提方法對(duì)故障應(yīng)急事故報(bào)告內(nèi)信息的不同詞性實(shí)施標(biāo)注后的查準(zhǔn)率、查全率與準(zhǔn)確度,結(jié)果如表3 所示。
表3 詞性標(biāo)注測(cè)試結(jié)果
分析表3 得到,所提方法對(duì)報(bào)告信息的不同詞性進(jìn)行標(biāo)注后,不同詞性標(biāo)注的查準(zhǔn)率、查全率與準(zhǔn)確度均值分別為95.67%,94.10%和94.47%,由此說明所提方法在詞性標(biāo)注方面具有較高的精度,能夠令所提方法具有更好的性能。
圖6 為所提方法在實(shí)際報(bào)告生成過程中的語(yǔ)義識(shí)別精度測(cè)試結(jié)果。
圖6 語(yǔ)義識(shí)別精度測(cè)試結(jié)果
分析圖6 可得到,所提方法對(duì)不同自然段落進(jìn)行語(yǔ)義識(shí)別所得的一致度結(jié)果與實(shí)際一致度值大致相同,計(jì)算結(jié)果誤差控制在1.5%以內(nèi)。由此說明所提方法具有較高的語(yǔ)義識(shí)別精度。
結(jié)合2.2 節(jié)、2.3 節(jié)和2.4 節(jié)實(shí)驗(yàn)結(jié)果可知,所提方法對(duì)于自然語(yǔ)言處理具有較高的精度,可實(shí)現(xiàn)故障應(yīng)急事故報(bào)告自動(dòng)生成,規(guī)范報(bào)告編制內(nèi)容。
圖7 為所提方法實(shí)際報(bào)告生成過程中的實(shí)時(shí)能耗。
圖7 實(shí)時(shí)能耗曲線
分析圖7 得到,所提方法在實(shí)際報(bào)告生成過程中的實(shí)時(shí)能耗基本控制在0.01×10-4~0.06×10-4J/s,平均能耗約為0.032×10-4J/s。實(shí)驗(yàn)數(shù)據(jù)表明所提方法在實(shí)際報(bào)告生成過程中具有較低的實(shí)時(shí)能耗。
在上述驗(yàn)證基礎(chǔ)上,對(duì)生成的報(bào)告規(guī)范性進(jìn)行了測(cè)評(píng),測(cè)評(píng)結(jié)果如表4 所示。
表4 故障應(yīng)急事故報(bào)告規(guī)范性評(píng)價(jià)
如表4 所示,所生成的報(bào)告規(guī)范性滿意度較高,平均完全滿意度在98%以上,可以應(yīng)用在實(shí)際中。
研究基于自然語(yǔ)言處理的故障應(yīng)急事故報(bào)告自動(dòng)生成方法,根據(jù)所采集故障設(shè)備數(shù)據(jù),采用自然語(yǔ)言處理技術(shù)中的數(shù)據(jù)結(jié)構(gòu)定義、詞性標(biāo)注、句法分析、語(yǔ)義識(shí)別與數(shù)據(jù)提取等過程自動(dòng)生成故障應(yīng)急事故報(bào)告,實(shí)驗(yàn)結(jié)果顯示所提方法中自然語(yǔ)言處理技術(shù)具有較高的精度。