上官明霞 朱珊珊 陳曉亮 王晶華 郭光
摘要:面對電力復(fù)雜的數(shù)據(jù)環(huán)境下,傳統(tǒng)單一的數(shù)據(jù)分析技術(shù)已經(jīng)無法滿足現(xiàn)實應(yīng)用精準(zhǔn)需求,需集多種策略優(yōu)勢為一體的模型綜合處理數(shù)據(jù)信息。針對目前的發(fā)展瓶頸,采用融合性自然語言處理技術(shù)預(yù)測設(shè)備行為發(fā)展趨勢,提取數(shù)據(jù)語義,通過小波分解法去除詞義噪聲,利用貝葉斯先驗知識模型來推導(dǎo)后驗概率,從而作為神經(jīng)網(wǎng)絡(luò)動態(tài)權(quán)值變化及語義預(yù)測分布的依據(jù)。通過實驗測試證明了這種預(yù)測方法的可靠性及優(yōu)越性。
關(guān)鍵詞:大數(shù)據(jù);自然語言處理;貝葉斯;神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP393文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2018)20-65-3
Research on Semantics Analysis Method Based on Fusion Natural Language Processing Technology
SHANGGUAN Mingxia1, ZHU Shanshan1, CHEN Xiaoliang1, WANG Jinghua1, GUO Guang2(1. State Grid Shanxi Electric Power Company, Taiyuan Shanxi 030001, China; 2. Beijing Zhongke Chuangyi Technology Co., Ltd, Beijing 100198, China)
0引言
電力企業(yè)生產(chǎn)經(jīng)營活動中產(chǎn)生的海量數(shù)據(jù)具有實時性、易失性、突發(fā)性、無序性及無限性等特征,如何充分利用大規(guī)模高頻增量數(shù)據(jù)并快速獲取有價值的信息是當(dāng)前發(fā)展的難點[1]。國內(nèi)電力領(lǐng)域在大數(shù)據(jù)應(yīng)用方面雖有著急迫的需求,由于數(shù)據(jù)分析算法不能達(dá)到電力現(xiàn)有數(shù)據(jù)處理能力的要求,因此應(yīng)用仍然偏少,主要在信息化應(yīng)用平臺中會集成幾種傳統(tǒng)的算法,提供簡單的數(shù)據(jù)處理手段,復(fù)雜的高難度算法仍在不斷的研發(fā)實驗階段,后續(xù)需要對海量的數(shù)據(jù)進(jìn)行深度融合分析,為電網(wǎng)的運(yùn)行形態(tài)提供可靠的數(shù)據(jù)決策。
1分布式海量數(shù)據(jù)融合處理
自然語言處理技術(shù)隨著人工智能的發(fā)展越來越受到青睞,其主要目的是為了讓機(jī)器更容易理解自然語言。自然語言存在的形式廣泛,包括狹義的人造語言以及廣義的設(shè)備行為產(chǎn)生的數(shù)據(jù)語言。例如電網(wǎng)運(yùn)行過程中采集到的設(shè)備狀態(tài)參數(shù)就是一種自然語言形態(tài),數(shù)據(jù)之間具有很強(qiáng)的關(guān)聯(lián)性,通過自然語言處理手段尋找設(shè)備行為習(xí)慣,能夠更好地指導(dǎo)設(shè)備規(guī)律運(yùn)轉(zhuǎn)。
在龐大的電網(wǎng)數(shù)據(jù)體系中,數(shù)據(jù)來自不同的業(yè)務(wù)系統(tǒng),如何將所有分布式數(shù)據(jù)關(guān)聯(lián)統(tǒng)一分析處理是大數(shù)據(jù)一直在探索的難題。目前采用的方式是直接去分析數(shù)字語言,尋找1與0之間出現(xiàn)的概率,從而預(yù)測下一階段可能出現(xiàn)的數(shù)字集合,這種方法的缺陷是太過于客觀,在有限的時間段是有效的,很可能造成預(yù)測結(jié)果的不準(zhǔn)確。因為設(shè)備運(yùn)行同人類行為一樣,有一定的思想去主導(dǎo)其規(guī)律性運(yùn)轉(zhuǎn),因此要通過分析人類語言一樣去分析設(shè)備行為語言,將設(shè)備的主客觀形態(tài)統(tǒng)一后分析的結(jié)果將更加可靠有效[2]。采用相似度語義分析法對系統(tǒng)中的海洋數(shù)據(jù)進(jìn)行有效融合,具體實施架構(gòu)圖如圖1所示。
從圖3中明顯看出,2為提取的有用詞義向量,它的波形最接近與原始語義、2和1呈現(xiàn)出不規(guī)則的抖動,屬于詞義中夾雜的噪聲語義及沖擊性隨機(jī)參量。通過小波分解后提取出原始語義中特征向量,有助于提高下一階段的訓(xùn)練精準(zhǔn)度。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)速率設(shè)置為0.03,隱含層數(shù)設(shè)置為5,訓(xùn)練函數(shù)為4,把提取的語義向量2作為樣本輸入到建立好的貝葉斯神經(jīng)網(wǎng)絡(luò)當(dāng)中,進(jìn)行檢測,預(yù)測結(jié)果如圖4所示。
圖4中,藍(lán)色為2輸入的樣本,紅色為貝葉斯神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果,2條曲線相當(dāng)接近,預(yù)測值總是在測試樣本上下做小幅度波動,并且是在可接受范圍內(nèi)。因此可以證明,基于語義的貝葉斯神經(jīng)網(wǎng)絡(luò)對電力流量數(shù)據(jù)預(yù)測是真實有效并且是非常合理的,精準(zhǔn)度也是很高的。
4結(jié)束語
認(rèn)知智能是應(yīng)用自然語言處理技術(shù)的主要目的,讓機(jī)器更好地理解自然語言表達(dá)方式,語義分析方法是其中一種基本分析技術(shù),分析每個詞語之間的關(guān)聯(lián)及相似度,從而可推理語義表示邏輯關(guān)系。目前采用的傳統(tǒng)邏輯語義分析方法存在海量數(shù)據(jù)處理效率慢、語義表達(dá)預(yù)測不準(zhǔn)及模型擴(kuò)展能力較弱等問題,本文采用貝葉斯和神經(jīng)網(wǎng)絡(luò)方法組合的優(yōu)勢,既能提升語義分析模型的靈活性、精準(zhǔn)性,也能加強(qiáng)網(wǎng)絡(luò)的訓(xùn)練魯棒性。通過實測分析,預(yù)測效果有一定提高,此方法在電力數(shù)據(jù)分析預(yù)測應(yīng)用方面值得推廣借鑒。
參考文獻(xiàn)
[1]徐建偉,劉桂芬.基于貝葉斯正規(guī)化算法的BP神經(jīng)網(wǎng)絡(luò)泛化能力研究[J].數(shù)理醫(yī)藥學(xué)雜志,2007,20(3):293-295.
[2] Ivan Leudar.Parallel Distributed Processing:Explorations in the Microstructure of Cognition[J].Child Lang,1989,16(2): 467-470.
[3]王輝.用于預(yù)測的貝葉斯網(wǎng)絡(luò)[J].東北師大學(xué)報:自然科學(xué)版,2002,34(1):9-14.
[4]韓玲.基于人工神經(jīng)網(wǎng)絡(luò)—多層感知器(MLP)的遙感影像分類模型[J].測繪通報,2004(9): 29-30.
[5]楊斌,聶在平,夏耀先,等.基于貝葉斯神經(jīng)網(wǎng)絡(luò)的非參數(shù)回歸[J].電子科技大學(xué)學(xué)報,2002,31(2):159-162.