王慧芳,曹 靖,羅 麟
(1.浙江大學(xué)電氣工程學(xué)院,杭州 310027;2.國(guó)網(wǎng)浙江省電力有限公司舟山供電公司,浙江 舟山 316021)
隨著智能電網(wǎng)建設(shè)的全面展開(kāi),以及電力信息通信與電網(wǎng)企業(yè)經(jīng)營(yíng)管理的深度融合,電力數(shù)據(jù)出現(xiàn)爆發(fā)性增長(zhǎng)[1-2]。這些數(shù)據(jù)中隱藏著豐富的關(guān)系到電網(wǎng)安全穩(wěn)定經(jīng)濟(jì)運(yùn)行的信息,因而成為電網(wǎng)企業(yè)寶貴的數(shù)據(jù)資產(chǎn)[3]。電力大數(shù)據(jù)雖已成為當(dāng)前熱點(diǎn)研究對(duì)象,然而每年只有少量的數(shù)據(jù)被挖掘利用[4],因此電力數(shù)據(jù)挖掘是智能電網(wǎng)發(fā)展迫切需要研究的前沿領(lǐng)域。
電網(wǎng)企業(yè)是資產(chǎn)密集型企業(yè),電力設(shè)備健康狀態(tài)管理是其核心任務(wù),利用大數(shù)據(jù)進(jìn)行科學(xué)管理是必然趨勢(shì)[5]。然而普遍認(rèn)為,電網(wǎng)數(shù)據(jù)存在體量大、類(lèi)型多、價(jià)值密度低和變化快的特點(diǎn),較難利用。其中,數(shù)據(jù)價(jià)值密度低,是指絕大部分?jǐn)?shù)據(jù)是電網(wǎng)正常數(shù)據(jù),只有極少量的異常數(shù)據(jù)[6]。數(shù)據(jù)的嚴(yán)重偏斜影響基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能方法的挖掘效果。幸運(yùn)的是,電力數(shù)據(jù)類(lèi)型眾多,其中文本數(shù)據(jù),因“重要的事情常常被記錄”而具有價(jià)值密度高的特點(diǎn),挖掘前景好,因此電力文本挖掘是電力設(shè)備健康管理重點(diǎn)關(guān)注的關(guān)鍵技術(shù)之一。
當(dāng)前自然語(yǔ)言處理、人工智能等技術(shù)快速發(fā)展,為電力文本挖掘提供了良好的技術(shù)基礎(chǔ);同時(shí)電網(wǎng)企業(yè)已積累了大量與電力設(shè)備健康相關(guān)的文本,如缺陷、消缺等短文本,以及試驗(yàn)、故障分析報(bào)告等長(zhǎng)文本,具備了文本挖掘的數(shù)據(jù)條件。此外,電網(wǎng)企業(yè)已建立了諸多與設(shè)備健康相關(guān)的標(biāo)準(zhǔn),如分別針對(duì)輸變電設(shè)備和配電網(wǎng)設(shè)備的缺陷分類(lèi)標(biāo)準(zhǔn)、設(shè)備狀態(tài)評(píng)價(jià)導(dǎo)則、狀態(tài)檢修試驗(yàn)規(guī)程等,為文本挖掘的應(yīng)用提供了參照與規(guī)則支持。因而,電力文本挖掘的條件已具備,且發(fā)展前景廣闊。
然而,由于現(xiàn)階段知識(shí)和技術(shù)層面上的匱乏,文本挖掘技術(shù)在國(guó)內(nèi)電力行業(yè)還屬于新興的前沿領(lǐng)域,大部分研究還處于探究試驗(yàn)階段,應(yīng)用效益尚未顯現(xiàn)。與互聯(lián)網(wǎng)、醫(yī)學(xué)等行業(yè)取得的成就相比,電力行業(yè)的文本挖掘研究還有待加強(qiáng)。
為此,基于電力文本挖掘領(lǐng)域已做的前期探索,本文歸納了電力文本數(shù)據(jù)挖掘的關(guān)鍵技術(shù)和典型應(yīng)用,分析了這一領(lǐng)域面臨的挑戰(zhàn)。首先介紹文本挖掘技術(shù)的發(fā)展歷程,指出文本挖掘技術(shù)的難點(diǎn);接著重點(diǎn)分析電力文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及研究現(xiàn)狀;然后介紹文本挖掘技術(shù)在電力缺陷文本中的典型應(yīng)用;最后,提出電力文本挖掘面臨的挑戰(zhàn)。
文本挖掘的概念最早出現(xiàn)在20世紀(jì)80年代中期,它集成了自然語(yǔ)言處理和數(shù)據(jù)挖掘的部分技術(shù)與理念,至今已有30多年的歷史。早期,文本挖掘的科學(xué)性一度受到質(zhì)疑和詬病,但隨著文本挖掘技術(shù)的進(jìn)步和發(fā)展,其應(yīng)用逐漸得到認(rèn)可,并成為研究熱點(diǎn)。
狹義上,文本挖掘是指從大量文本數(shù)據(jù)中提取事先未知的、可理解的、最終可用的知識(shí)的過(guò)程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息、解決問(wèn)題;廣義上,文本挖掘既包括文本知識(shí)抽取,也包括面向各種應(yīng)用的文本數(shù)據(jù)處理過(guò)程。
目前,理論研究方面,文本挖掘的主要研究方向有文本結(jié)構(gòu)分析、文本語(yǔ)義分析、文本摘要、文本關(guān)聯(lián)分析等;應(yīng)用研究方面,在社科情報(bào)和生物醫(yī)學(xué)領(lǐng)域的研究成果較多。在社科情報(bào)領(lǐng)域,文本挖掘被用于微博熱點(diǎn)話題監(jiān)測(cè)[7]、情感分析[8]、用戶評(píng)論語(yǔ)義分析[9]、垃圾郵件分類(lèi)[10]等。在生物醫(yī)學(xué)領(lǐng)域,有基于文本挖掘提取領(lǐng)域知識(shí)[11]、通過(guò)挖掘事件記錄發(fā)現(xiàn)突發(fā)事件與醫(yī)學(xué)救援裝備之間的關(guān)聯(lián)[12]等研究。
文本數(shù)據(jù)屬于自然語(yǔ)言,其挖掘涉及語(yǔ)言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、信息學(xué)、心理科學(xué)、認(rèn)知科學(xué)以及應(yīng)用領(lǐng)域等眾多學(xué)科。
從技術(shù)角度看,文本挖掘存在數(shù)據(jù)和方法兩方面困難。數(shù)據(jù)方面,文本屬于非結(jié)構(gòu)化數(shù)據(jù),無(wú)確定形式并且缺乏機(jī)器可理解的語(yǔ)義,需要轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)才能被進(jìn)一步挖掘;同時(shí),文本屬于自然語(yǔ)言范疇,容易出現(xiàn)模糊性和歧義性,準(zhǔn)確理解和使用難度大;此外,文本采用的語(yǔ)言不同,挖掘技術(shù)就難以簡(jiǎn)單地移植。方法方面,雖然現(xiàn)有的文本挖掘方法已能解決一部分問(wèn)題,但依然存在效果欠佳問(wèn)題,例如搜索引擎還無(wú)法根據(jù)輸入文本返回精準(zhǔn)答案;還有很多文本挖掘問(wèn)題尚無(wú)有效解決方法。
從應(yīng)用角度看,通用的文本挖掘方法運(yùn)用于專(zhuān)業(yè)領(lǐng)域時(shí),常會(huì)出現(xiàn)各種各樣的問(wèn)題,因此專(zhuān)業(yè)領(lǐng)域的文本挖掘需考慮通用挖掘方法的適應(yīng)性。此外,只有引入應(yīng)用領(lǐng)域的專(zhuān)業(yè)知識(shí),文本挖掘才更具有針對(duì)性與準(zhǔn)確性,因此需要結(jié)合應(yīng)用領(lǐng)域的專(zhuān)業(yè)特點(diǎn)去探索解決文本挖掘問(wèn)題的方法。
非結(jié)構(gòu)化的電力文本數(shù)據(jù)需要先進(jìn)行文本預(yù)處理以及文本表示,才能轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘。文本預(yù)處理通常包括文本分詞、詞性標(biāo)注與去停用詞等。電力文本預(yù)處理還需要構(gòu)建電力領(lǐng)域本體字典。
電力本體字典的構(gòu)建是指將電力詞匯分別按照同義、近義、反義、上下位、整體-部分等本體關(guān)系進(jìn)行組織,并存儲(chǔ)在數(shù)據(jù)庫(kù)中以供查詢(xún)、調(diào)用[13]。構(gòu)建電力本體字典前,首先要構(gòu)建電力文本語(yǔ)料庫(kù),如選擇各類(lèi)電力設(shè)備的缺陷、消缺、檢修、試驗(yàn)等記錄或報(bào)告,也可以選擇企業(yè)頒布的與電力設(shè)備相關(guān)的導(dǎo)則、標(biāo)準(zhǔn),還有電力企業(yè)的各種工單、工作票、操作票等;然后結(jié)合已有的外部通用字典,采用基于統(tǒng)計(jì)的分詞模型,如采用基于隱馬爾科夫模型、條件隨機(jī)場(chǎng)模型等,對(duì)語(yǔ)料庫(kù)進(jìn)行分詞,并基于詞頻對(duì)分詞結(jié)果進(jìn)行排序;最后依靠具有電力領(lǐng)域?qū)I(yè)知識(shí)的人員對(duì)專(zhuān)業(yè)術(shù)語(yǔ)、通俗用語(yǔ)、名詞堆砌的詞串和短語(yǔ)詞匯等進(jìn)行修正,并按照同義詞集、整體-部分關(guān)系、實(shí)體-屬性關(guān)系等構(gòu)建本體字典[14]。需說(shuō)明的是,本體字典的構(gòu)建不會(huì)是一次完成,而是隨著新語(yǔ)料庫(kù)的增加,會(huì)有補(bǔ)充或修訂。電力本體字典的構(gòu)建是必須的基礎(chǔ)工作,其質(zhì)量關(guān)系著后續(xù)電力文本挖掘的科學(xué)性。
文本分詞技術(shù)可分為3類(lèi):基于本體字典的分詞技術(shù)、基于統(tǒng)計(jì)規(guī)律的無(wú)字典分詞技術(shù)以及二者的結(jié)合。本體字典的建立可以大大提高分詞的準(zhǔn)確性與停用詞的識(shí)別效果?;诮y(tǒng)計(jì)規(guī)律的無(wú)字典分詞技術(shù)雖可以減輕建立字典的負(fù)擔(dān),但準(zhǔn)確性難以保證,分詞后需進(jìn)行詞性標(biāo)注。詞性既可以是名詞、動(dòng)詞等,也可以根據(jù)挖掘需求自行定義,例如文獻(xiàn)[15]中的大部件、小部件、屬性、程度,以及文獻(xiàn)[16]中的實(shí)體、缺陷現(xiàn)象、定性缺陷程度、定量缺陷程度等。詞性標(biāo)注的本質(zhì)是分類(lèi)問(wèn)題。將電力文本切分為一個(gè)個(gè)詞匯后,除了有用的電力詞匯,還會(huì)出現(xiàn)人名、地名、符號(hào)等停用詞[14],可根據(jù)實(shí)際挖掘需求去除待處理文本中的停用詞。
文本表示方法是指將文本數(shù)據(jù)表示成計(jì)算機(jī)可處理的形式,表示方式將直接影響后續(xù)數(shù)據(jù)挖掘的效率和效果。表示方法有很多,如向量空間模型、嵌入式向量模型等向量化表示方法,以及語(yǔ)義框架模型、樹(shù)/圖結(jié)構(gòu)模型、正則表達(dá)法等等。
(1)向量空間模型用于快速提取句子的整體含義,而對(duì)句子中詞匯順序不是很關(guān)注;而嵌入式向量模型用于需要突出某一個(gè)或幾個(gè)詞匯含義或順序的文本。常見(jiàn)的向量化方法有詞袋方法與Word2Vec方法。詞袋方法基于向量空間模型,簡(jiǎn)單通俗,但向量維度高,而且詞向量忽略了句法;Word2Vec方法基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到,屬于嵌入式向量模型,詞向量維度低,而且由于訓(xùn)練時(shí)考慮了上下文,不同詞之間具有同義、近義、反義等語(yǔ)義信息,可通過(guò)計(jì)算向量相似度衡量。Doc2Vec是Word2Vec的拓展,用類(lèi)似的方法將句子向量化,優(yōu)點(diǎn)在于可以提取句子主旨。
(2)語(yǔ)義框架模型,是指對(duì)于特定內(nèi)容的文本,根據(jù)其語(yǔ)法基本模型,定義語(yǔ)義槽和語(yǔ)義框架,然后采用基于本體字典的槽填充方法,實(shí)現(xiàn)文本的特殊表示。
(3)樹(shù)結(jié)構(gòu)模型可以分析句法結(jié)構(gòu),形成以“核心詞-依存關(guān)系-依存詞”為基本形式的依存關(guān)系樹(shù)。圖結(jié)構(gòu)模型是將一條文本表示為圖結(jié)構(gòu)形式,表示過(guò)程與知識(shí)圖譜相似,首先基于本體字典識(shí)別文本中的實(shí)體與屬性,然后進(jìn)行共指消解,查找出所有表示實(shí)體/屬性的詞當(dāng)中的同義詞,接下來(lái)進(jìn)行關(guān)系抽取,識(shí)別各實(shí)體/屬性間是否存在關(guān)系及相應(yīng)關(guān)系類(lèi)型,最后進(jìn)行關(guān)系篩選,如刪除冗余的包含關(guān)系等。圖結(jié)構(gòu)的表示形式能夠一定程度上反映文本中復(fù)雜的關(guān)聯(lián)信息,是文本挖掘的有效手段之一。
(4)電力文本還可以采用正則表達(dá)式法,用于提取句中的數(shù)字、字母、特殊符號(hào)等隱含重要信息的字段。不同的文本挖掘需求可以采用一種或多種方法融合表示。
電力文本在經(jīng)過(guò)預(yù)處理與表示環(huán)節(jié)后,轉(zhuǎn)化為計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),從而可以利用結(jié)構(gòu)化數(shù)據(jù)挖掘方法進(jìn)行數(shù)據(jù)挖掘。數(shù)據(jù)挖掘方法有很多,常見(jiàn)的有各種機(jī)器學(xué)習(xí)方法。
基于機(jī)器學(xué)習(xí)方法,可以根據(jù)學(xué)習(xí)模式將機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),是否有監(jiān)督取決于訓(xùn)練數(shù)據(jù)是否有標(biāo)注,有標(biāo)注的文本可以應(yīng)用于分類(lèi)問(wèn)題,無(wú)標(biāo)注的文本可以應(yīng)用于聚類(lèi)問(wèn)題。根據(jù)學(xué)習(xí)方法,又可以將機(jī)器學(xué)習(xí)分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等[17]。傳統(tǒng)機(jī)器學(xué)習(xí)算法有邏輯回歸、隱馬爾科夫方法、支持向量機(jī)方法、K近鄰方法、貝葉斯方法以及決策樹(shù)方法等;深度學(xué)習(xí)算法有深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、受限玻爾茲曼機(jī)和循環(huán)神經(jīng)網(wǎng)絡(luò)等。其中,由循環(huán)神經(jīng)網(wǎng)絡(luò)變種而來(lái)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),由于加入了長(zhǎng)期記憶機(jī)制,在處理長(zhǎng)序列時(shí)具有優(yōu)勢(shì),因而適用于長(zhǎng)文本的挖掘。
在電力文本挖掘領(lǐng)域,已有一些針對(duì)電力缺陷文本的應(yīng)用。電力缺陷文本來(lái)自于電網(wǎng)企業(yè)日常運(yùn)維記錄,一般包括計(jì)算機(jī)可直接處理的格式規(guī)范、語(yǔ)義清晰的內(nèi)容,如缺陷設(shè)備編號(hào)、名稱(chēng)、缺陷發(fā)現(xiàn)時(shí)間、缺陷等級(jí)等;也包括計(jì)算機(jī)難以理解的文本,主要為缺陷詳細(xì)描述,如“2號(hào)主變冷卻器風(fēng)扇有異響”“有載分接開(kāi)關(guān)呼吸器硅膠變色2/3以上”。缺陷描述由現(xiàn)場(chǎng)工作人員記錄,可能存在一些不規(guī)范或錯(cuò)誤需要進(jìn)行更正。此外,缺陷描述包含的內(nèi)容通常較為豐富,一條文本可能包含多條缺陷信息,每一條缺陷信息包含著缺陷發(fā)生部件、現(xiàn)象及程度等缺陷特征,因此需要進(jìn)行缺陷分離、特征抽取、關(guān)系挖掘等研究。圖1示例了缺陷文本挖掘的幾種典型應(yīng)用。
圖1 缺陷文本挖掘典型應(yīng)用
缺陷文本常常存在各種原因造成的質(zhì)量問(wèn)題,如描述不完整、有歧義等,若將這些存在質(zhì)量問(wèn)題的記錄作為有效文本進(jìn)行挖掘,會(huì)造成挖掘結(jié)果偏差。因此需采用適當(dāng)?shù)姆椒▽?duì)缺陷文本進(jìn)行質(zhì)量評(píng)價(jià),對(duì)質(zhì)量較差的歷史文本進(jìn)行質(zhì)量提升,對(duì)新錄入文本給出改進(jìn)建議,從源頭上保證文本質(zhì)量,對(duì)確保后續(xù)文本挖掘效果具有重要意義。
邵冠宇等進(jìn)行了卓有成效的研究[18]。通過(guò)對(duì)大量實(shí)際缺陷文本的分析,首先總結(jié)出電網(wǎng)設(shè)備缺陷文本容易出現(xiàn)的不完整、不具體、冗余度過(guò)高等問(wèn)題。然后,定義了缺陷文本質(zhì)量的評(píng)價(jià)指標(biāo),并提出了基于“層次-自適應(yīng)灰色關(guān)聯(lián)分析法”的評(píng)價(jià)方法。接著,基于潛在狄利克雷分布方法,結(jié)合國(guó)家電網(wǎng)公司的缺陷分類(lèi)標(biāo)準(zhǔn)修正文本。針對(duì)新錄入文本,利用文本質(zhì)量評(píng)價(jià)方法進(jìn)行質(zhì)量問(wèn)題提示,利用詞向量映射方法給出修正建議,保證新錄入缺陷文本的質(zhì)量。其算例表明,歷史缺陷文本在修正后其文本質(zhì)量得分有較大提升,新錄入文本存在的質(zhì)量問(wèn)題能被準(zhǔn)確識(shí)別并給出修正建議。
劉梓權(quán)等則提出了基于知識(shí)圖譜的缺陷文本錯(cuò)誤識(shí)別方法[19]。首先利用現(xiàn)有電力設(shè)備缺陷記錄語(yǔ)料庫(kù),通過(guò)實(shí)體抽取、屬性抽取、共指消解、關(guān)系抽取、關(guān)系篩選等步驟,構(gòu)建出電力設(shè)備缺陷知識(shí)圖譜;然后基于缺陷知識(shí)圖譜,采用圖搜索方法識(shí)別不同類(lèi)型的缺陷文本錯(cuò)誤并給出提示;最后通過(guò)算例分析表明,基于知識(shí)圖譜的缺陷文本錯(cuò)誤識(shí)別方法各項(xiàng)評(píng)估指標(biāo)均優(yōu)于其他人工智能學(xué)習(xí)方法,并且運(yùn)行效率能滿足工程應(yīng)用。
電力設(shè)備缺陷的嚴(yán)重程度常分為緊急、嚴(yán)重、一般3類(lèi),不同等級(jí)缺陷有不同的消缺時(shí)間要求,因此缺陷文本的準(zhǔn)確分類(lèi)非常重要。人工對(duì)缺陷文本進(jìn)行嚴(yán)重等級(jí)分類(lèi),不僅效率低,而且由于主觀因素和經(jīng)驗(yàn)差異,準(zhǔn)確性難以保障。
文獻(xiàn)[20]基于one-hot詞袋模型,實(shí)現(xiàn)了文本的向量化,然后基于KNN(自主區(qū)間搜索K最近鄰)算法,將待歸類(lèi)的缺陷文本與缺陷文本庫(kù)中已歸類(lèi)的缺陷文本進(jìn)行對(duì)比,找到最相近的文本,然后將待歸類(lèi)文本歸入最接近文本的一類(lèi)。算例驗(yàn)證了基于KNN算法對(duì)文本進(jìn)行分類(lèi)的可行性。
文獻(xiàn)[21]則提出了基于卷積神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本分類(lèi)模型。首先以大量經(jīng)過(guò)文本預(yù)處理的電力設(shè)備缺陷文本為語(yǔ)料庫(kù),訓(xùn)練出每個(gè)詞的詞向量表示,詞向量的各個(gè)維度代表通過(guò)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)到的詞的語(yǔ)義特征。然后參考電力設(shè)備用語(yǔ)規(guī)范,對(duì)同義詞的詞向量進(jìn)行合并。接下來(lái)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器,以準(zhǔn)確標(biāo)注缺陷等級(jí)的文本為訓(xùn)練數(shù)據(jù),構(gòu)建以缺陷文本為輸入、以分類(lèi)等級(jí)結(jié)果為輸出的電力缺陷文本分類(lèi)模型。算例展示了該模型在分類(lèi)效果上的顯著優(yōu)勢(shì),為電力文本分類(lèi)提供了有效手段。
我至今仍記得,高三某一天晚上,說(shuō)有臺(tái)風(fēng),學(xué)校很早就讓我們回宿舍了,而第二天早上,6點(diǎn)半都不到,您卻從校道上迎面走來(lái),想必您是整晚都沒(méi)回家。
目前,缺陷處理工作依賴(lài)于工作人員的知識(shí)與經(jīng)驗(yàn)。如果可以通過(guò)檢索找到相同缺陷情況的歷史記錄,就可以借鑒前人的經(jīng)驗(yàn),參考以往的處理方法對(duì)該缺陷進(jìn)行相應(yīng)處理,這在實(shí)際缺陷管理中,尤其是對(duì)于知識(shí)和經(jīng)驗(yàn)相對(duì)不足的人員有著重要的指導(dǎo)意義。
劉梓權(quán)等在已構(gòu)建的電力設(shè)備缺陷知識(shí)圖譜基礎(chǔ)上,利用圖搜索技術(shù)實(shí)現(xiàn)了電力設(shè)備缺陷文本的檢索[16]。算例對(duì)比了基于知識(shí)圖譜的缺陷記錄檢索方法與傳統(tǒng)機(jī)器學(xué)習(xí)語(yǔ)義分析方法的檢索效果,表明基于知識(shí)圖譜的檢索方法準(zhǔn)確性更好。
缺陷文本包含對(duì)缺陷細(xì)節(jié)的描述,如何提取這些細(xì)節(jié)、進(jìn)而統(tǒng)計(jì)分析發(fā)現(xiàn)缺陷規(guī)律是一個(gè)重要的問(wèn)題。
曹靖等通過(guò)建立缺陷文本語(yǔ)義框架,實(shí)現(xiàn)了缺陷細(xì)節(jié)的提取,為電力設(shè)備缺陷的精細(xì)化統(tǒng)計(jì)分析提供了技術(shù)手段[15]。缺陷文本的語(yǔ)義框架由大部件、小部件、屬性、程度4個(gè)語(yǔ)義槽構(gòu)成,在進(jìn)行缺陷文本的槽填充過(guò)程中記錄詞位信息,然后在構(gòu)建語(yǔ)義框架時(shí)根據(jù)詞位信息計(jì)算路徑距離,并區(qū)分核心詞是小部件或?qū)傩?,選擇不同方向的最小路徑距離進(jìn)行槽匹配,最后經(jīng)詞串合并實(shí)現(xiàn)最終的語(yǔ)義框架。由于缺陷細(xì)節(jié)即為語(yǔ)義框架中的語(yǔ)義槽,因此可對(duì)挖掘出的缺陷細(xì)節(jié)進(jìn)行統(tǒng)計(jì)分析。
電力設(shè)備缺陷文本蘊(yùn)藏著設(shè)備健康既往史,對(duì)客觀評(píng)價(jià)設(shè)備健康狀態(tài)發(fā)展過(guò)程大有用處。
邱劍等以斷路器為例提出通過(guò)缺陷文本挖掘把缺陷等級(jí)融入基于狀態(tài)監(jiān)測(cè)數(shù)據(jù)的狀態(tài)評(píng)價(jià)模型中,建立了比率型全壽命狀態(tài)評(píng)價(jià)模型[14]。其中,缺陷等級(jí)分類(lèi)采用基于KNN算法的文本分類(lèi)方法;比率型狀態(tài)信息融合模型可實(shí)現(xiàn)斷路器全壽命健康狀態(tài)的展示,對(duì)于電力設(shè)備狀態(tài)評(píng)價(jià)與全壽命健康管理有重要作用。
既然可以把缺陷嚴(yán)重程度分類(lèi)結(jié)果融入健康狀態(tài)評(píng)價(jià)模型,那么也可更進(jìn)一步從句子結(jié)構(gòu)和語(yǔ)義的角度對(duì)缺陷文本進(jìn)行深入挖掘,通過(guò)對(duì)比缺陷描述與標(biāo)準(zhǔn)導(dǎo)則,給出缺陷文本當(dāng)時(shí)場(chǎng)景下的設(shè)備健康得分,這樣設(shè)備既往史融入健康狀態(tài)評(píng)價(jià)的科學(xué)性會(huì)大大提高。但是,實(shí)際缺陷文本與標(biāo)準(zhǔn)導(dǎo)則之間的自動(dòng)準(zhǔn)確匹配仍是一個(gè)難題,對(duì)比文本相似度的準(zhǔn)確度不夠高,采用知識(shí)圖譜技術(shù),或者利用依存句法分析,將缺陷描述轉(zhuǎn)化為樹(shù)形結(jié)構(gòu),基于樹(shù)匹配算法與導(dǎo)則進(jìn)行比較,從而得到健康指數(shù)分值,是正在研究的解決辦法。
上述電力缺陷文本的挖掘研究提供了以下啟發(fā):
(1)電力文本種類(lèi)多,文本挖掘技術(shù)手段也多,需根據(jù)文本特點(diǎn)及挖掘需求研究適合的挖掘方法。
(2)文本挖掘效果與文本本身質(zhì)量、本體字典質(zhì)量有重大關(guān)系,因此應(yīng)通過(guò)管理和技術(shù)手段保證電力文本質(zhì)量,并建立完善的電力本體字典。
(3)文本數(shù)據(jù)是電力大數(shù)據(jù)中的一種模態(tài),需結(jié)合其他模態(tài)數(shù)據(jù)的挖掘成果,融合起來(lái)才能發(fā)揮更大的作用。
電力本體字典的構(gòu)建是電力領(lǐng)域文本挖掘的基礎(chǔ)工作。本體字典蘊(yùn)含了電力領(lǐng)域最基本的知識(shí),其質(zhì)量與數(shù)量不僅決定著文本預(yù)處理中分詞、詞性標(biāo)注等的準(zhǔn)確性,也影響著消除歧義、構(gòu)建知識(shí)圖譜等工作,是電力文本挖掘中最根本的知識(shí)庫(kù)。
電力本體字典的構(gòu)建是個(gè)難題。一方面,電力領(lǐng)域相關(guān)術(shù)語(yǔ)的數(shù)量非常龐大,僅名詞類(lèi)詞匯就有近萬(wàn)個(gè)。另一方面,電力領(lǐng)域分支眾多,在不同分支領(lǐng)域有不同的專(zhuān)業(yè)詞匯、俗稱(chēng)及表達(dá)習(xí)慣等,比如GIS在設(shè)備層面是指氣體絕緣組合電器,而在電網(wǎng)層面則是指地理信息系統(tǒng)。然而,電力領(lǐng)域畢竟是一個(gè)確定的封閉域,雖然困難,但只要電力領(lǐng)域科研工作者共同努力,不斷豐富完善,高質(zhì)量的電力本體字典建設(shè)是可以實(shí)現(xiàn)的。
劉梓權(quán)等雖然已經(jīng)對(duì)電力知識(shí)圖譜的構(gòu)建進(jìn)行了技術(shù)路線探索與驗(yàn)證[16],但僅限于變壓器的缺陷文本。從整個(gè)電力領(lǐng)域看,電力知識(shí)圖譜還缺乏頂層設(shè)計(jì),因此還具有巨大的發(fā)展?jié)摿Α?/p>
在已實(shí)踐的電力知識(shí)圖譜構(gòu)建過(guò)程中,基于本體字典進(jìn)行實(shí)體識(shí)別,準(zhǔn)確率較高;但在關(guān)系抽取中,如何定義電力實(shí)體間的關(guān)系類(lèi)型,做到不冗余、不缺漏,又滿足挖掘需求,是需要不斷實(shí)踐與總結(jié)的。此外,還有尚未實(shí)踐的知識(shí)圖譜領(lǐng)域更深層次問(wèn)題,比如:如何根據(jù)已有實(shí)體屬性與實(shí)體間的關(guān)系,推理得到新的屬性或者關(guān)系,這對(duì)于電力知識(shí)圖譜的智能化運(yùn)用非常關(guān)鍵;如何將各種電力知識(shí)表示成“實(shí)體-關(guān)系-實(shí)體”三元組,是一個(gè)富有挑戰(zhàn)性的問(wèn)題;是不是可以打破這種知識(shí)表示的限制,創(chuàng)造更多的知識(shí)表示的方法,更是一個(gè)關(guān)系電力知識(shí)圖譜架構(gòu)本身的值得研究的問(wèn)題。
目前大規(guī)模知識(shí)圖譜的應(yīng)用還比較有限,領(lǐng)域內(nèi)的知識(shí)圖譜更是如此。如何有效實(shí)現(xiàn)電力知識(shí)圖譜的應(yīng)用,提高大規(guī)模知識(shí)圖譜計(jì)算效率,不僅需要研究人員探索相關(guān)技術(shù),還需要發(fā)掘合適的應(yīng)用場(chǎng)景進(jìn)行示范。例如,在電力設(shè)備運(yùn)維管理的智能查詢(xún)、策略推送方面,知識(shí)圖譜技術(shù)可望有所作為。
前文介紹的各種文本挖掘應(yīng)用雖已能解決一小部分淺層次的問(wèn)題,然而要獲得更深層次的應(yīng)用,需進(jìn)行多模態(tài)數(shù)據(jù)融合挖掘研究。數(shù)據(jù)融合是數(shù)據(jù)挖掘的研究分支之一。除常見(jiàn)的結(jié)構(gòu)化數(shù)據(jù)外,還有文本、圖像、視頻、波形等多種模態(tài)的非結(jié)構(gòu)化數(shù)據(jù)。目前開(kāi)展較多的是結(jié)構(gòu)化數(shù)據(jù)之間的融合研究,如多傳感器監(jiān)測(cè)數(shù)據(jù)融合的故障診斷研究,但還缺乏多模態(tài)數(shù)據(jù)融合研究。以電力設(shè)備健康狀態(tài)評(píng)估為例,若通過(guò)對(duì)歷史缺陷文本的缺陷細(xì)節(jié)挖掘,獲得電力設(shè)備缺陷發(fā)生的深層次規(guī)律,指導(dǎo)設(shè)備進(jìn)行測(cè)試性設(shè)計(jì),獲得更有效的各種模態(tài)監(jiān)測(cè)數(shù)據(jù),再加上挖掘的設(shè)備既往史,則能更全面準(zhǔn)確地評(píng)估設(shè)備的健康狀態(tài)。因此電力文本數(shù)據(jù)挖掘與其他模態(tài)數(shù)據(jù)融合挖掘能提升工程應(yīng)用價(jià)值。
近十多年來(lái),自然語(yǔ)言處理技術(shù)發(fā)展迅速,促使機(jī)器能夠在一定程度上“理解”文本。但是,電力是個(gè)專(zhuān)業(yè)性非常強(qiáng)的行業(yè),且對(duì)文本挖掘模型的準(zhǔn)確性和可靠性要求高,需要研究者同時(shí)具備電力領(lǐng)域知識(shí)和文本挖掘經(jīng)驗(yàn),才能結(jié)合適應(yīng)性改進(jìn)和自主創(chuàng)新,建立起符合電力文本特點(diǎn)和應(yīng)用要求的文本挖掘技術(shù)體系。
目前,電力文本數(shù)據(jù)挖掘研究已引起重視,但還面臨著挖掘需求不明確、挖掘效果難以達(dá)到預(yù)期的困擾,已取得的研究成果還遠(yuǎn)遠(yuǎn)不足以支持智能電網(wǎng)和資產(chǎn)管理的發(fā)展,因此迫切需要有文本挖掘應(yīng)用成果來(lái)示范和引領(lǐng),啟發(fā)出更多的電力文本挖掘需求,吸引更多人員參與電力文本挖掘技術(shù)及應(yīng)用的研究中,促進(jìn)電力文本挖掘理論與工程應(yīng)用的蓬勃發(fā)展。