高明 陸宏治 梁雪青
摘 ?要:本文首先簡述了非結(jié)構(gòu)化數(shù)據(jù)的背景以及電力系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)的特點,然后闡述了對非結(jié)構(gòu)化數(shù)據(jù)挖掘利用時所遇到的問題,回顧了電力系統(tǒng)不同應(yīng)用層面非結(jié)構(gòu)化數(shù)據(jù)的處理方法及優(yōu)缺點。在此基礎(chǔ)上,從非結(jié)構(gòu)化數(shù)據(jù)處理中的數(shù)據(jù)提取、數(shù)據(jù)過濾、數(shù)據(jù)轉(zhuǎn)化和利用方面進行歸納和分析。最后根據(jù)電力系統(tǒng)戰(zhàn)略規(guī)劃,提出了未來非結(jié)構(gòu)化數(shù)據(jù)處理的發(fā)展方向。
關(guān)鍵詞:非結(jié)構(gòu)化數(shù)據(jù);大數(shù)據(jù)處理;電力系統(tǒng);聚類;智能算法
中圖分類號:TM7 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)17-0009-04
Abstract:This paper first briefly describes the background of unstructured data and the characteristics of unstructured data of power system,then expounds the problems encountered in the exploitation of unstructured data,the processing methods and advantages and disadvantages of unstructured data at different application levels in power system are reviewed. On this basis,the data extraction,data filtering,data transformation and utilization in unstructured data processing are summarized and analyzed. Finally,according to the strategic planning of power system,the development direction of unstructured data processing in the future is proposed.
Keywords:unstructured data;big data processing;power system;clustering;intelligent algorithm
0 ?引 ?言
如今,在移動互聯(lián)、大數(shù)據(jù)、人工智能時代背景下,在電力行業(yè)中,隨著能源互聯(lián)網(wǎng)、智能電網(wǎng)、泛在電力物聯(lián)網(wǎng)的建設(shè)和發(fā)展,各種網(wǎng)絡(luò)拓撲變得更加復(fù)雜,整個電力行業(yè)運營中產(chǎn)生爆炸式增長的多源異構(gòu)數(shù)據(jù)。伴隨著移動互聯(lián)技術(shù)的普遍應(yīng)用,電力物聯(lián)網(wǎng)中復(fù)雜的傳感器網(wǎng)絡(luò)產(chǎn)生了海量數(shù)據(jù),這些數(shù)據(jù)覆蓋了電力生產(chǎn)、傳輸、銷售等各個環(huán)節(jié),并且電力監(jiān)管和電力資源之間的信息交互數(shù)據(jù)也會不斷增長。電力行業(yè)產(chǎn)生的海量數(shù)據(jù)將會帶來存儲、傳輸和信息處理等各方面的挑戰(zhàn),也成為了移動互聯(lián)、物聯(lián)網(wǎng)及人工智能技術(shù)在電網(wǎng)企業(yè)融合應(yīng)用中需突破的實際問題。
在電力系統(tǒng)數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化的數(shù)據(jù)有著不同的應(yīng)用價值。結(jié)構(gòu)化數(shù)據(jù)通過統(tǒng)計分析可以用來制定發(fā)展策略、預(yù)測動向。但實際上,與電力企業(yè)內(nèi)目前用于記錄、統(tǒng)計、控制的顯性結(jié)構(gòu)化數(shù)據(jù)相比,大量的非結(jié)構(gòu)數(shù)據(jù)中蘊含了更加持久和影響深遠的價值,包含著大量可以提高企業(yè)效益的有利信息。對于電力企業(yè)來講,通過再檢索、共享、分析這些數(shù)據(jù),可以挖掘其中的隱藏價值,對電力公司的戰(zhàn)略部署、發(fā)展方向?qū)a(chǎn)生深遠影響[1]。
結(jié)構(gòu)化數(shù)據(jù)主要基于關(guān)系數(shù)據(jù)庫存儲,通過保存不同的業(yè)務(wù)數(shù)據(jù)到對應(yīng)的表中,方便查詢統(tǒng)計、操作便捷、易于維護。而非結(jié)構(gòu)數(shù)據(jù)占比較高,如設(shè)計圖紙、合同、報告、說明書、標書等,這些數(shù)據(jù)文件格式多樣、內(nèi)容繁多、不易理解,數(shù)據(jù)含義比較隱性,無法使用關(guān)系數(shù)據(jù)庫存儲,只能通過不同文件形式存放。鑒于非結(jié)構(gòu)化數(shù)據(jù)的特點,對這些非結(jié)構(gòu)化數(shù)據(jù)存儲檢索時難度會比較大。為了獲得其中蘊含的價值,需要在使用這些非結(jié)構(gòu)化數(shù)據(jù)時,必須根據(jù)具體需要對其進行預(yù)處理,將其標準化,建立更加智能化的系統(tǒng)來處理這些數(shù)據(jù),深入挖掘其中的價值。
1 ?電力系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)的特點
根據(jù)數(shù)據(jù)來源以及數(shù)據(jù)特征結(jié)構(gòu)的不同,電力系統(tǒng)中所產(chǎn)生的數(shù)據(jù)可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如表1所示。
結(jié)構(gòu)化數(shù)據(jù)特征表現(xiàn)為可以在固定字段集合中存放并且可以用二維表表示;而半結(jié)構(gòu)化數(shù)據(jù)雖然說是結(jié)構(gòu)化的,但是數(shù)據(jù)結(jié)構(gòu)變化大,因此不能像結(jié)構(gòu)化數(shù)據(jù)一樣簡單地通過建立表來處理,但適合將數(shù)據(jù)元素用標簽區(qū)分,用XML來存儲;非結(jié)構(gòu)化數(shù)據(jù)本身主要表現(xiàn)為格式和標準多樣,存儲量大且增長速快,可以是任何類型的數(shù)字信息形式,如文本、圖片、Web頁面、Office文檔、電子郵件等[2]。非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容無法直接獲取,如有些音頻視頻文件需要用相應(yīng)的方式打開才能讀取,所以難以用數(shù)據(jù)庫中的二維邏輯表表示,且檢索困難,大部分要借助處理方法或者處理工具才能方便管理利用,但是這些非結(jié)構(gòu)化數(shù)據(jù)中所蘊含的價值是巨大的。這類數(shù)據(jù)在電力系統(tǒng)中占80%以上,例如故障錄波、監(jiān)控視頻、圖像、CIM等數(shù)據(jù)[3]。
在電力系統(tǒng)中,對非結(jié)構(gòu)化數(shù)據(jù)的處理上存在以下問題[4-7]:
(1)相比于結(jié)構(gòu)化數(shù)據(jù),電力系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生速度快、格式多樣化、價值密度較低等導(dǎo)致難以系統(tǒng)化,部門之間的數(shù)據(jù)交互很多依靠掃描件、郵件、人工傳遞的方式,這就使得數(shù)據(jù)傳遞效率低下,交互成本高。
(2)非結(jié)構(gòu)化數(shù)據(jù)的管理無法雙向進行,只能根據(jù)業(yè)務(wù)的需要單向傳遞,由于傳遞缺乏實效性導(dǎo)致更新以及變更后的文檔不能完整及時地傳到用戶那里,而且文檔利用的情況無法及時反饋。
(3)目前非結(jié)構(gòu)化數(shù)據(jù)的傳輸主要通過數(shù)據(jù)交互平臺,但是由于傳輸通道的容量較小、傳輸速度較低,通常需要在保證主要信息的前提下,刪除圖片、正文數(shù)據(jù)信息,導(dǎo)致信息存在失真的情況。
(4)非結(jié)構(gòu)化數(shù)據(jù)在業(yè)務(wù)系統(tǒng)間傳遞時,文件標識沒有統(tǒng)一的定義標準,導(dǎo)致更新文件版本時,需要人為定位歷史版本。
2 ?電力系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)的處理方法的現(xiàn)狀
2.1 ?采集提取
非結(jié)構(gòu)化數(shù)據(jù)的采集提取,是指從一個數(shù)據(jù)集中抽取一類所需的信息導(dǎo)入對應(yīng)數(shù)據(jù)庫的過程,提取技術(shù)有很多種,可以根據(jù)不同的標準來分類。例如,根據(jù)人為參與程度可以分為人工方式、人工輔助方式和全自動方式的提取方法。非結(jié)構(gòu)化數(shù)據(jù)的提取相對比較復(fù)雜,對于文本數(shù)據(jù),一般需要采用模糊匹配法匹配行上的字段并逐行進行抽取。數(shù)據(jù)的抽取涉及到幾個關(guān)鍵的問題:數(shù)據(jù)倉庫需要抽取的數(shù)據(jù)內(nèi)容;數(shù)據(jù)抽取的來源;數(shù)據(jù)存放在哪個系統(tǒng)的數(shù)據(jù)庫;根據(jù)需要制定各個系統(tǒng)的數(shù)據(jù)抽取規(guī)則;確定所抽取記錄的唯一標示符。
文獻[8]利用聚焦類網(wǎng)絡(luò)爬蟲Scrapy構(gòu)架來采集網(wǎng)頁非結(jié)構(gòu)化數(shù)據(jù)信息,爬蟲根據(jù)提交的查詢表單,尋找選擇合適的Web數(shù)據(jù)庫,然后把頁面存儲到本地的數(shù)據(jù)庫中。
文獻[9]提出了一種從數(shù)據(jù)庫抽取數(shù)據(jù)的方法,該方法將ODBC用于數(shù)據(jù)抽取,為了建立數(shù)據(jù)倉庫,在數(shù)據(jù)轉(zhuǎn)換過程中應(yīng)用轉(zhuǎn)換規(guī)則集,從而有效地提取和管理非結(jié)構(gòu)化數(shù)據(jù)。此外,文中還采取了虛擬化集群存儲、資源池存儲和容錯機制來方便非結(jié)構(gòu)化數(shù)據(jù)的抽取。
文獻[10]提出了數(shù)據(jù)提取的三種方法。方法一:通過應(yīng)用機器學(xué)習(xí)歸納算法的包裝器歸納方式來生成抽取規(guī)則,抽取規(guī)則的制定是基于對語義項上下文描述,通過語義邊界來定位語義項;方法二:基于Ontology方式的信息根據(jù)數(shù)據(jù)本身的描述來實現(xiàn)抽取;方法三:通過Web頁面的定位信息并基于HTML結(jié)構(gòu)實現(xiàn)信息抽取,再將Web文檔解析成語法樹,然后進行信息抽取的同時,還需采用后模式的方式為其添加語義,該方法通過使用大量的樣本進行訓(xùn)練來提高抽取數(shù)據(jù)的精確性,以避免抽取到與用戶無關(guān)的信息。
2.2 ?過濾清洗
數(shù)據(jù)的過濾清洗是指對數(shù)據(jù)進行雜質(zhì)去除和校驗的過程,主要在于去掉重復(fù)信息、糾正錯誤,以及排除非用戶需求的數(shù)據(jù)等,對于多數(shù)據(jù)源的數(shù)據(jù),還需要對其進行關(guān)聯(lián)性驗證。
文獻[11]中提到的數(shù)據(jù)清洗在目前可以通過匹配算法、機器學(xué)習(xí)算法和相應(yīng)的數(shù)據(jù)關(guān)聯(lián)表進行,文中采用改進后的Skyline算法對數(shù)據(jù)進行過濾排查,通過找出具有代表意義的點,對這些點進行統(tǒng)計分類處理,然后生成多種統(tǒng)計圖。由于電網(wǎng)中復(fù)雜的環(huán)境因素,以及設(shè)備傳感器的故障、信號的干擾等因素會形成數(shù)據(jù)的噪聲點并導(dǎo)致數(shù)據(jù)的缺失,這會影響到接下來對數(shù)據(jù)分析的結(jié)果,文中提到在進行數(shù)據(jù)清洗過程中,應(yīng)采取相應(yīng)方法對噪聲點進行數(shù)據(jù)的修復(fù),對于缺失的數(shù)據(jù)通過相應(yīng)調(diào)控進行填補,以減輕清洗過程中數(shù)據(jù)價值的流失。
文獻[12]中提到對于清洗過程中缺失內(nèi)容數(shù)據(jù)的填充可以通過四種方式實現(xiàn)。方式一:人工參與,主要根據(jù)專家經(jīng)驗和專業(yè)知識來補充;方式二:對相應(yīng)字段進行數(shù)據(jù)計算;方式三:通過字段的組合規(guī)律計算分析所缺失的數(shù)據(jù);方式四:對于失真嚴重的數(shù)據(jù)可以通過數(shù)據(jù)的重新采集,或者從其他渠道獲取對應(yīng)數(shù)據(jù)集。
2.3 ?拆分轉(zhuǎn)換
由于所抽取的非結(jié)構(gòu)化數(shù)據(jù)格式屬性復(fù)雜多樣,難以進行后期的存儲、分析和檢索,需要將非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)立標準化、轉(zhuǎn)換為可識別的數(shù)據(jù),需要根據(jù)目標數(shù)據(jù)模型或者統(tǒng)一數(shù)據(jù)模型對數(shù)據(jù)進行數(shù)據(jù)格式轉(zhuǎn)換、關(guān)鍵數(shù)據(jù)重新構(gòu)建等。
2.3.1 ?非結(jié)構(gòu)化數(shù)據(jù)拆分
為了提高存儲資源的利用率,優(yōu)化計算機資源分配,可以把非結(jié)構(gòu)化數(shù)據(jù)分離為元數(shù)據(jù)和二進制數(shù)據(jù)。二進制數(shù)據(jù)可以直接以數(shù)據(jù)流的形式存儲在關(guān)系表中,元數(shù)據(jù)以XML格式存入實際數(shù)據(jù)所在的節(jié)點中[13]。
2.3.2 ?非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理
文獻[14]提到在非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化處理過程中,可以使用XML作為轉(zhuǎn)換媒介,利用XML支持嵌入和鏈接非結(jié)構(gòu)化數(shù)據(jù)的特征,使用XlLink鏈接非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)通過XML的過渡最終轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),由于非結(jié)構(gòu)化數(shù)據(jù)的文件格式的不同,有文本、圖片、視頻、音頻等,所以必須根據(jù)文件格式的不同,采取不同的半結(jié)構(gòu)化轉(zhuǎn)換方法。
文獻[15]中提出基于規(guī)則庫來實現(xiàn)不同格式的非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,先對原始數(shù)據(jù)格式描述,或者定義生成描述然后存入規(guī)則庫,最后提取相應(yīng)規(guī)則描述。
文獻[16]中提到在非結(jié)構(gòu)性數(shù)據(jù)的轉(zhuǎn)換過程中,還可以依靠相關(guān)機器學(xué)習(xí)算法對非結(jié)構(gòu)化數(shù)據(jù)進行實體識別和關(guān)系抽取,從而獲得構(gòu)建數(shù)據(jù)庫所需要的特定的數(shù)據(jù)對象,如通過K-means聚類算法實現(xiàn)實體的關(guān)系抽取,以及通過CRF++工具包實現(xiàn)文本數(shù)據(jù)的實體識別。
這種逐級轉(zhuǎn)換是一種典型的思路,可實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的映射,再加上CLM作為電力系統(tǒng)公共信息模型,通過統(tǒng)一的表達方式將CLM與XML鏈接,可以很好地解決電網(wǎng)中大部分非結(jié)構(gòu)化問題。但這種逐步轉(zhuǎn)化的方式,存在轉(zhuǎn)換后缺乏通用性、文件元數(shù)據(jù)難以管理的問題,不具備大量數(shù)據(jù)轉(zhuǎn)換的條件,以及對于視頻,音頻等需要打開查看再提取有價值信息的數(shù)據(jù)只能依靠人工處理等缺點。這就需要創(chuàng)建文件模板表、文件聯(lián)系表來建立轉(zhuǎn)化前后的聯(lián)系,通過引入大數(shù)據(jù)文件解析優(yōu)化方法,來提高系統(tǒng)轉(zhuǎn)化容量。
2.4 ?解譯利用
2.4.1 ?語義處理
文獻[17]中引入人工智能和模式識別領(lǐng)域中的向量表示法來描述非結(jié)構(gòu)化文本數(shù)據(jù);采用算法提取關(guān)鍵詞,用文檔含義和屬性組成的語義向量代替文檔,并且使用語義相似度檢索算法,從而實現(xiàn)非結(jié)構(gòu)化文本數(shù)據(jù)也可以用傳統(tǒng)的SQL語句來進行檢索。
文獻[18]中提到可以借助統(tǒng)計學(xué)習(xí)或深度學(xué)習(xí)算法提取語言特征,通過句法或者語法分析器,實現(xiàn)所查文本的語義的分析,此外文中還提到使用知識圖譜和語義搜索技術(shù)對文本進行語義解析,通過文檔關(guān)鍵詞提取、自動生成摘要等技術(shù)可以進一步提高檢索效率。
文獻[19]中提到可以通過分詞的方法,將字符串變成詞的集合,一般的文本文件通常是連續(xù)的字符串流,分詞要根據(jù)語言的類型,其中中英文的處理方法并不相同。一般的全文索引工具采用正向最大匹配算法,此外,對于編碼過的文檔類型,則需要另將其解碼成字符串流。
2.4.2 ?文本建模
在對非結(jié)構(gòu)化文本進行預(yù)處理后,為了方便對文本進行系統(tǒng)的分類和存儲,通常需要對文本進行建模。很多企業(yè)普遍運用混合模型如Hybrid模型來對文檔進行建模。因為相對于單一的模型,此類混合模型對于非結(jié)構(gòu)化文本建模效果較好,通過文本建模,可以把每個文檔映射到多維空間向量中,從而可以進一步進行文檔相似度的計算,方便文本的分類和儲存[20]。
3 ?未來電力系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)處理的發(fā)展方向
隨著非結(jié)構(gòu)化數(shù)據(jù)規(guī)模的不斷擴大以及行業(yè)發(fā)展的需要,再加上相關(guān)技術(shù)的創(chuàng)新,非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)也需要不斷改善、創(chuàng)新以適應(yīng)不同行業(yè)的需求。例如,隨著電力數(shù)據(jù)的爆炸式增長,電力企業(yè)的非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一儲存調(diào)用系統(tǒng)已經(jīng)展現(xiàn)出不足,迫于數(shù)據(jù)庫存儲壓力,新型的非結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng)在不斷研究開發(fā)之中,與之相應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)化管理和處理技術(shù)成為未來研究的重點之一。總之,雖然國內(nèi)外對非結(jié)構(gòu)數(shù)據(jù)的處理有一定經(jīng)驗,但是總體來說還處于初級階段,相關(guān)技術(shù)還不夠成熟,為了滿足未來大數(shù)據(jù)時代信息價值的充分挖掘,未來非結(jié)構(gòu)化數(shù)據(jù)處理應(yīng)該向以下幾個方面發(fā)展:
(1)滿足應(yīng)用范圍不斷拓展。隨著企業(yè)信息化程度的不斷加深,以各種文檔、圖像、音頻視頻、報表等為代表的非結(jié)構(gòu)化數(shù)據(jù)挖掘處理在業(yè)務(wù)中的需求不斷增大,應(yīng)用范圍不斷擴大,數(shù)據(jù)處理作為構(gòu)建信息化平臺的核心組成要素之一,必須提高非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)對不同業(yè)務(wù)的需求,從而保證業(yè)務(wù)的全面開展。
(2)滿足數(shù)據(jù)的快速增長。互聯(lián)網(wǎng)技術(shù)的發(fā)展使得網(wǎng)絡(luò)信息數(shù)據(jù)迅速增長,非結(jié)構(gòu)化數(shù)據(jù)庫也隨之迅速發(fā)展起來,這也對信息管理與共享提出了更高的要求。但目前非結(jié)構(gòu)化數(shù)據(jù)庫的處理主要是通過構(gòu)建數(shù)據(jù)庫集中處理,為了適應(yīng)非結(jié)構(gòu)化數(shù)據(jù)“爆炸式”的增長,進一步提高非結(jié)構(gòu)化數(shù)據(jù)的處理性能,滿足分布在網(wǎng)絡(luò)中的各類數(shù)據(jù)同步處理。建立分布式處理體系便是未來非結(jié)構(gòu)化數(shù)據(jù)處理的重要方向。未來針對非結(jié)構(gòu)化數(shù)據(jù)需采用更加先進的體系架構(gòu)、處理技術(shù)以滿足分布式存儲和處理大批量數(shù)據(jù)的需要[21]。
(3)特定方面的技術(shù)改進。比如,在數(shù)據(jù)存儲檢索過程中。雖然可以通過XML統(tǒng)一格式存儲非結(jié)構(gòu)化數(shù)據(jù),但是非結(jié)構(gòu)化數(shù)據(jù)以此方式存儲后在系統(tǒng)的檢索上仍舊比較困難,必須針對非結(jié)構(gòu)化數(shù)據(jù)庫本身的結(jié)構(gòu)特點,在操作記錄、限制機制以及數(shù)據(jù)元組方面結(jié)合XML的特性加以改進,優(yōu)化非結(jié)構(gòu)化數(shù)據(jù)的處理方式,進而提高非結(jié)構(gòu)化數(shù)據(jù)庫的檢索性能。
(4)智能化處理。隨著人工智能的普及,機器學(xué)習(xí)是非結(jié)構(gòu)化數(shù)據(jù)處理的一個重要方面,特別是可以從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律和挖掘知識,為基于非結(jié)構(gòu)化數(shù)據(jù)處理的綜合決策提供基礎(chǔ)。在數(shù)據(jù)表示層面上,非結(jié)構(gòu)化數(shù)據(jù)的可視化和特征提取以及數(shù)據(jù)降維,仍然是研究的重點[22]。
4 ?結(jié) ?論
雖然現(xiàn)在電力企業(yè)擁有較為成熟的數(shù)據(jù)庫管理處理系統(tǒng),但這僅適用于結(jié)構(gòu)化的數(shù)據(jù)。在大數(shù)據(jù)分析挖掘中,非結(jié)構(gòu)化數(shù)據(jù)的有效處理可以充分挖掘大數(shù)據(jù)價值。但是在國內(nèi)外,非結(jié)構(gòu)化數(shù)據(jù)的處理仍是大數(shù)據(jù)處理技術(shù)的關(guān)鍵和難點。非結(jié)構(gòu)化數(shù)據(jù)處理的核心問題包括數(shù)據(jù)的采集與表示、數(shù)學(xué)建模、信息挖掘、知識推理與綜合決策等。未來隨著產(chǎn)業(yè)的升級和大數(shù)據(jù)的擴張,非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)迫切需要得到創(chuàng)新與優(yōu)化,以滿足智能電網(wǎng)和泛在電力物聯(lián)網(wǎng)中數(shù)據(jù)挖掘利用的需要。非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)會朝著智能化數(shù)據(jù)建模與機器學(xué)習(xí),特別是非線性高維數(shù)據(jù)機器學(xué)習(xí)方面融合發(fā)展。此外推進大容量高速率的分布式數(shù)據(jù)處理與存儲平臺的建設(shè),對于提高電力系統(tǒng)海量非結(jié)構(gòu)化數(shù)據(jù)的處理能力和處理效率也有著極為重要的現(xiàn)實意義。
參考文獻:
[1] HUANG Y,ZHOU X. Knowledge Model for Electric Power Big Data Based on Ontology and Semantic Web [J].CSEE Journal of Power and Energy Systems,2015,1(1):19-27.
[2] 施超.智能電網(wǎng)大數(shù)據(jù)相關(guān)應(yīng)用問題研究 [D].廣州:華南理工大學(xué),2015.
[3] 裴珍.國家電網(wǎng)公司非結(jié)構(gòu)化數(shù)據(jù)管理平臺的設(shè)計與實現(xiàn) [D].天津:天津大學(xué),2016.
[4] 王瑋,劉蔭,于展鵬,等.電力大數(shù)據(jù)環(huán)境下大數(shù)據(jù)中心架構(gòu)體系設(shè)計 [J].電力信息與通信技術(shù),2016,14(1):1-6.
[5] 李澤江.電力系統(tǒng)多源異構(gòu)數(shù)據(jù)優(yōu)化管理技術(shù)的研究及應(yīng)用 [D].蘭州:蘭州理工大學(xué),2016.
[6] 陳碩,閆春生,王歐,等.國網(wǎng)遼寧全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心分析域關(guān)鍵技術(shù)組件研究 [A].中國電力科學(xué)研究院2017智能電網(wǎng)發(fā)展研討會論文集 [C]//中國電力科學(xué)研究院:北京市海淀區(qū)太極計算機培訓(xùn)中心,2017:4.
[7] 鄺蘇鵬.國網(wǎng)業(yè)務(wù)與財務(wù)協(xié)同平臺數(shù)據(jù)交換系統(tǒng)設(shè)計與實現(xiàn) [D].哈爾濱:哈爾濱工業(yè)大學(xué),2017.
[8] 張瑀.基于非結(jié)構(gòu)化招聘信息的采集與清洗系統(tǒng) [D].長沙:湖南師范大學(xué),2017.
[9] 劉冬蘭,劉新,馬雷,等.電力系統(tǒng)中數(shù)據(jù)集成技術(shù)關(guān)鍵問題研究 [J].山東電力技術(shù),2016,43(11):23-27.
[10] 馬珊.面向Web文本數(shù)據(jù)倉庫的預(yù)處理關(guān)鍵技術(shù)研究 [D].西安:西安電子科技大學(xué),2011.
[11] 王瑞杰.面向電力調(diào)度控制系統(tǒng)的多源異構(gòu)數(shù)據(jù)處理方法研究 [D].北京:華北電力大學(xué)(北京),2017.
[12] 吳偉波.軌道交通非結(jié)構(gòu)化數(shù)據(jù)處理與維修決策研究 [D].廣州:廣東工業(yè)大學(xué),2018.
[13] 李澤江.電力系統(tǒng)多源異構(gòu)數(shù)據(jù)優(yōu)化管理技術(shù)的研究及應(yīng)用 [D].蘭州:蘭州理工大學(xué),2016.
[14] 萬里鵬.非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究與實現(xiàn) [D].成都:西南交通大學(xué),2013.
[15] 張枝令.結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的分類方法 [J].寧德師專學(xué)報(自然科學(xué)版),2007(4):417-420.
[16] 馬曉榮.科技云中非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換方法 [D].西安:西安電子科技大學(xué),2017.
[17] 邱劍.電力中文文本數(shù)據(jù)挖掘技術(shù)及其在可靠性中的應(yīng)用研究 [D].杭州:浙江大學(xué),2016.
[18] 蘇興華.非結(jié)構(gòu)化生產(chǎn)信息的向量表示提取方法 [J].中國管理信息化,2018,21(23):159-161.
[19] 溫紹楠.非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)的應(yīng)用和研究 [D].北京:北京郵電大學(xué),2011.
[20] 李青,陳陽,謝浩然,等.一種基于文本相似度矩陣運算的非結(jié)構(gòu)化海量投訴數(shù)據(jù)分類算法 [J].計算機工程與科學(xué),2012,34(1):103-107.
[21] 周靜寧.基于XML的非結(jié)構(gòu)化信息存儲系統(tǒng)事務(wù)處理模型研究 [D].武漢:武漢科技大學(xué),2004.
[22] 徐宗本,張講社.基于認知的非結(jié)構(gòu)化信息處理:現(xiàn)狀與趨勢 [J].中國基礎(chǔ)科學(xué),2007(6):4-8.
作者簡介:高明(1978-),男,漢族,陜西寧強人,高級工程師,碩士研究生,研究方向:電力信息化;陸宏治(1984-),男,漢族,廣東廣州人,高級工程師,工程碩士,研究方向:電力行業(yè)信息化、軟件工程、基于云大物移智技術(shù)的共享服務(wù)應(yīng)用;梁雪青(1985-),女,漢族,廣東廣州人,高級工程師,碩士研究生,研究方向:信息技術(shù)。