• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于GCN 的配電網(wǎng)知識(shí)圖譜構(gòu)建及應(yīng)用

      2022-04-20 07:24:08宋瑋瓊羨慧竹姚盛楠
      電子設(shè)計(jì)工程 2022年7期
      關(guān)鍵詞:頂點(diǎn)圖譜實(shí)體

      宋瑋瓊,韓 柳,羨慧竹,姚盛楠,郭 帥

      (1.國(guó)網(wǎng)北京市電力公司電力科學(xué)研究院,北京 100161;2.華中科技大學(xué),湖北武漢 430070)

      近年來(lái),我國(guó)電網(wǎng)規(guī)模的不斷提升以及線(xiàn)路復(fù)雜度的迅速增加,給電網(wǎng)帶來(lái)了巨大的挑戰(zhàn),強(qiáng)迫電網(wǎng)升級(jí),提高電網(wǎng)的信息化、智能化成為了重要任務(wù)[1-3]。業(yè)擴(kuò)計(jì)量規(guī)則庫(kù)是包括各類(lèi)電力規(guī)范文件的數(shù)據(jù)庫(kù),是計(jì)量配置方案確定的基礎(chǔ)[4]。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)或者人工查找文檔的方式,雖有優(yōu)勢(shì),但仍有較多局限。同時(shí),方案出錯(cuò)時(shí)會(huì)造成計(jì)量誤差、裝置故障、電量追回等影響和損失[5-6]。

      知識(shí)圖譜技術(shù)是認(rèn)知智能領(lǐng)域中的主要技術(shù),其強(qiáng)大的語(yǔ)義處理和互聯(lián)組織能力,已被廣泛應(yīng)用于智能搜索、智能問(wèn)答、個(gè)性化推薦等領(lǐng)域[7]。但對(duì)非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建知識(shí)圖譜時(shí)仍面臨著較大挑戰(zhàn),例如文檔嵌套實(shí)體、實(shí)體名稱(chēng)過(guò)長(zhǎng)、多元關(guān)系、表格關(guān)系處理等問(wèn)題。

      文中主要從兩個(gè)部分重點(diǎn)講解知識(shí)圖譜的構(gòu)建過(guò)程:實(shí)體抽取和關(guān)系抽取。文中采用人工構(gòu)建嵌套規(guī)則進(jìn)行實(shí)體抽取,使用Multi-Self Attention 與圖卷積網(wǎng)絡(luò)結(jié)合的方法進(jìn)行關(guān)系抽取。

      1 知識(shí)圖譜及其關(guān)鍵技術(shù)

      知識(shí)圖譜按使用范圍分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,通用知識(shí)圖譜強(qiáng)調(diào)廣度,數(shù)據(jù)多來(lái)自于互聯(lián)網(wǎng),常見(jiàn)的通用知識(shí)圖譜有CYC、WordNet、FreeBase等[8]。而領(lǐng)域知識(shí)圖譜應(yīng)用于垂直領(lǐng)域,以領(lǐng)域或企業(yè)內(nèi)部的數(shù)據(jù)為主要來(lái)源,知識(shí)結(jié)構(gòu)復(fù)雜,通過(guò)對(duì)企業(yè)內(nèi)部的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行聯(lián)合抽取并依靠人工進(jìn)行審核校驗(yàn)來(lái)保證質(zhì)量。知識(shí)圖譜構(gòu)建主要包括命名實(shí)體識(shí)別和關(guān)系抽取任務(wù)。

      命名實(shí)體識(shí)別的主要任務(wù)是識(shí)別出文本中出現(xiàn)的專(zhuān)有名稱(chēng)和有意義的數(shù)量短語(yǔ)并加以歸類(lèi)。實(shí)體識(shí)別主要有以下幾種方法:1)基于規(guī)則。如NTU 系統(tǒng)、FACILE 系統(tǒng)、OKI 系統(tǒng);2)基于統(tǒng)計(jì)。如n 元模型、隱馬爾科夫模型(HMM)、條件馬爾科夫模型等;3)混合方法。借助規(guī)則知識(shí)及早剪枝,再用統(tǒng)計(jì)模型是比較好的方法[9-12]。

      關(guān)系抽取(Relation Extraction)是信息抽取的關(guān)鍵內(nèi)容,旨在發(fā)現(xiàn)現(xiàn)實(shí)世界實(shí)體(Entity)間的語(yǔ)義關(guān)系。該項(xiàng)技術(shù)被廣泛應(yīng)用在自然語(yǔ)言處理任務(wù)中,包括知識(shí)圖譜(Knowledge Graph,KG)的構(gòu)建及補(bǔ)全、問(wèn)答系統(tǒng)等任務(wù)[13-14]。傳統(tǒng)的關(guān)系抽取研究通常采用監(jiān)督學(xué)習(xí),可取得一定的分類(lèi)效果,但是需要代價(jià)高昂的人工標(biāo)注數(shù)據(jù)。為了解決該問(wèn)題,研究人員基于假設(shè)提出遠(yuǎn)程監(jiān)督(Distant Supervision)-自動(dòng)生成標(biāo)注數(shù)據(jù)方法,遠(yuǎn)程監(jiān)督解決了標(biāo)注數(shù)據(jù)不足的問(wèn)題,但其假設(shè)并不總是正確,導(dǎo)致生成的標(biāo)注數(shù)據(jù)中存在大量的錯(cuò)誤標(biāo)注數(shù)據(jù),對(duì)關(guān)系抽取模型造成不利影響[15]。后續(xù)又有專(zhuān)家提出了使用圖卷積神經(jīng)網(wǎng)絡(luò)的方法解決關(guān)系抽取問(wèn)題并取得了不錯(cuò)的效果[16]。

      文中的知識(shí)圖譜構(gòu)造被分為兩大步驟,分別是實(shí)體識(shí)別和關(guān)系抽取,并重點(diǎn)介紹關(guān)系抽取的方法。為獲得更加準(zhǔn)確的實(shí)體,文中采用由專(zhuān)家制定實(shí)體規(guī)則模板匹配的方法,共計(jì)7 類(lèi)實(shí)體。同時(shí)文中采用由attention 引導(dǎo)的圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,把關(guān)系的類(lèi)別定義成6 類(lèi),包括安裝位置、安裝方式、采用、限定、接線(xiàn)方式、其他。

      2 配電網(wǎng)計(jì)量知識(shí)圖譜構(gòu)建

      2.1 計(jì)量知識(shí)圖譜構(gòu)建及應(yīng)用框架

      文中提出的基于GCN 的配電網(wǎng)計(jì)量知識(shí)圖譜構(gòu)建的算法模塊如圖1 所示。

      圖1 算法模塊

      首先接收技術(shù)規(guī)則原始文檔,對(duì)其進(jìn)行格式處理,包括格式對(duì)齊、數(shù)據(jù)清洗等。第二步采用人工制定模板匹配的方法完成實(shí)體識(shí)別;第三步采用基于GCN 和注意力機(jī)制結(jié)合的方法完成關(guān)系抽取任務(wù);最終對(duì)抽取出的<實(shí)體-關(guān)系-實(shí)體>三元組構(gòu)建配電網(wǎng)計(jì)量知識(shí)圖譜。文中將重點(diǎn)介紹關(guān)系抽取的具體方法與實(shí)驗(yàn)。

      2.2 計(jì)量本體抽取

      文中考慮到使用以往的方法可能導(dǎo)致較多無(wú)關(guān)實(shí)體的出現(xiàn),因此文中采用人工制定規(guī)則進(jìn)行匹配的方法進(jìn)行實(shí)體抽取。首先由專(zhuān)家指定出電力文檔中的實(shí)體規(guī)則,然后按照字符串匹配的方式來(lái)匹配計(jì)量文檔的各類(lèi)實(shí)體,共計(jì)7 類(lèi)實(shí)體。

      2.3 計(jì)量關(guān)系抽取

      文中主要通過(guò)以下步驟講解關(guān)系抽取的具體步驟。

      第一步:數(shù)據(jù)預(yù)處理與模型輸入,將數(shù)據(jù)的信息依存樹(shù)提取出來(lái),構(gòu)建鄰接矩陣作為句子的結(jié)構(gòu)特征。同時(shí)利用GloVe 模型獲得句子的詞向量表達(dá)w1,并且實(shí)體之間的相對(duì)位置信息也具有很重要的作用,因此在詞向量中加入位置信息p1,表示兩個(gè)實(shí)體的相對(duì)距離,將詞向量和位置信息結(jié)合起來(lái),作為句子的特征向量的嵌入表達(dá):

      第二步:LSTM 是一種長(zhǎng)短期記憶網(wǎng)絡(luò),能夠捕捉句子中長(zhǎng)距離的依賴(lài)關(guān)系,而有時(shí)僅通過(guò)單向的LSTM 模型不能獲取足夠的依賴(lài)信息,模型需要獲得前文和后文的信息,來(lái)進(jìn)行更優(yōu)的預(yù)測(cè)。因此為了獲得句子的上下文信息,文中選擇雙向LSTM 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到帶有上下文信息的隱藏層表達(dá)X。

      第三步:圖卷積網(wǎng)絡(luò)(GCN)是一種在圖結(jié)構(gòu)上進(jìn)行計(jì)算的多層神經(jīng)網(wǎng)絡(luò),這里的圖可以是知識(shí)圖譜之類(lèi)的有向圖,也可以是一些無(wú)向圖結(jié)構(gòu)。GCN 可以對(duì)輸入圖中的節(jié)點(diǎn)或邊進(jìn)行編碼,并且同時(shí)包含其關(guān)聯(lián)節(jié)點(diǎn)的信息。在這里,將鄰居矩陣A和初始的句子的嵌入表達(dá)X 作為圖卷積網(wǎng)絡(luò)的輸入。通過(guò)圖卷積網(wǎng)絡(luò),中心節(jié)點(diǎn)可以融合到鄰居節(jié)點(diǎn)的特征信息,相當(dāng)于將句子的結(jié)構(gòu)信息與特征信息融合。具體公式如下:

      其中,Aij為鄰居矩陣,wk為參數(shù)矩陣,為上層GCN 的結(jié)果,初始時(shí)為,bk為偏置。

      第四步:在GCN 的訓(xùn)練過(guò)程中,不同節(jié)點(diǎn)的邊應(yīng)具有不同的重要程度,例如越近的節(jié)點(diǎn)之間的邊相較于距離更遠(yuǎn)的邊應(yīng)該賦有更高的權(quán)重。為了解決不同節(jié)點(diǎn)之間權(quán)重初始化相同的問(wèn)題,同時(shí)為了更好地得到節(jié)點(diǎn)之間的關(guān)聯(lián)特征信息,文中使用多頭注意力機(jī)制來(lái)學(xué)習(xí)獲取節(jié)點(diǎn)之間的重要程度并將其作為權(quán)重矩陣,送入第二層圖卷積中進(jìn)行訓(xùn)練。公式如下:

      第五步:將句子的隱藏層表達(dá)送入池化層,同時(shí)由于句子中的實(shí)體也有非常重要的作用,因此將用同樣的池化方法得到實(shí)體的隱向量。f:Rd×n→Rd×1是一個(gè)最大池化函數(shù),可將n個(gè)輸出向量映射到一個(gè)句子向量。

      同樣,模型可以獲得實(shí)體表示。對(duì)于第i個(gè)實(shí)體,其計(jì)算可表示為:

      將其進(jìn)行拼接,送入前饋神經(jīng)網(wǎng)絡(luò),得到最終的隱藏層結(jié)果,即:

      第六步:關(guān)系分類(lèi),將獲得的隱藏層表達(dá)(句子,實(shí)體1,實(shí)體2)送入softmax 分類(lèi)器得到最終的分類(lèi)結(jié)果:

      并使用交叉熵作為損失函數(shù):

      2.4 計(jì)量規(guī)則生成

      圖數(shù)據(jù)庫(kù)使用的數(shù)據(jù)模型包括簡(jiǎn)單圖、屬性圖、超圖及嵌套圖,文中依據(jù)屬性圖為基礎(chǔ)進(jìn)行數(shù)據(jù)存儲(chǔ)。圖由頂點(diǎn)和邊組成,頂點(diǎn)與頂點(diǎn)之間由邊連接。屬性圖的頂點(diǎn)有標(biāo)簽、頂點(diǎn)的屬性及屬性值;屬性圖的邊有類(lèi)型、方向、屬性及屬性值。每個(gè)頂點(diǎn)都包含標(biāo)簽和屬性,其中標(biāo)簽代表頂點(diǎn)的分類(lèi),屬性用來(lái)描述頂點(diǎn)的特征,用一組鍵值對(duì)來(lái)存儲(chǔ)。例如一個(gè)名稱(chēng)為發(fā)電企業(yè)的用戶(hù),在圖數(shù)據(jù)庫(kù)中用一個(gè)頂點(diǎn)表示,頂點(diǎn)的標(biāo)簽是“用戶(hù)”,屬性(name:發(fā)電企業(yè))則代表用戶(hù)的特征。邊包含類(lèi)型和方向,其中類(lèi)型代表關(guān)系的名字,方向則表示頂點(diǎn)之間邊的方向。例如名稱(chēng)為用戶(hù)的節(jié)點(diǎn)包含發(fā)電企業(yè)節(jié)點(diǎn)時(shí),用戶(hù)與發(fā)電企業(yè)之間存在一條邊,邊的方向是從用戶(hù)到發(fā)電企業(yè)。邊也可以包含屬性,采用鍵值對(duì)存儲(chǔ)。例如給邊增加權(quán)重、特性等信息時(shí),即可以給邊增加屬性。如圖2 是一個(gè)簡(jiǎn)單的圖數(shù)據(jù)庫(kù)例子。若用戶(hù)希望獲得“發(fā)電企業(yè)的貿(mào)易結(jié)算電能計(jì)量點(diǎn)的安裝位置”,針對(duì)這類(lèi)查詢(xún),結(jié)合圖2 中所示的數(shù)據(jù),可將查詢(xún)表示為路徑:(發(fā)電企業(yè))→[限定]→(發(fā)電企業(yè)的貿(mào)易結(jié)算電能計(jì)量點(diǎn))→[位置]→(位置信息xxx),其中()表示頂點(diǎn),第一個(gè)頂點(diǎn)信息由查詢(xún)條件給定;[]表示關(guān)系;→表示方向。該查詢(xún)中涉及未知個(gè)數(shù)的頂點(diǎn)以及兩層關(guān)系,最后對(duì)最終的結(jié)果進(jìn)行排序。

      圖2 知識(shí)圖譜規(guī)則查詢(xún)簡(jiǎn)單示例

      3 實(shí)驗(yàn)分析

      3.1 評(píng)價(jià)指標(biāo)

      文中的關(guān)系抽取實(shí)驗(yàn)采用精確率、召回率以及F1 值作為關(guān)系抽取的實(shí)驗(yàn)指標(biāo),其中,精確率是針對(duì)預(yù)測(cè)結(jié)果而言的,表示預(yù)測(cè)為正的樣本中有多少是真正的正樣本,公式為:

      召回率表示樣本中的正例有多少被預(yù)測(cè)正確,公式為:

      為了能夠評(píng)價(jià)不同算法的優(yōu)劣,在精確率和召回率的基礎(chǔ)上使用F1 值的概念,對(duì)精確率和召回率進(jìn)行整體評(píng)價(jià)。F1 的定義如下:

      3.2 實(shí)驗(yàn)數(shù)據(jù)集

      文中的關(guān)系抽取數(shù)據(jù)集主要來(lái)自電力計(jì)量規(guī)則文檔,文中首先進(jìn)行了格式處理、數(shù)據(jù)清洗等工作。其中數(shù)據(jù)樣例為“適用于發(fā)電企業(yè)的貿(mào)易結(jié)算電能計(jì)量點(diǎn)的安裝位置為并網(wǎng)線(xiàn)路側(cè)”。其中“發(fā)電企業(yè)的貿(mào)易結(jié)算電能計(jì)量點(diǎn)”為實(shí)體1,“并網(wǎng)線(xiàn)路側(cè)”為實(shí)體2。文中的數(shù)據(jù)總量為7 800 條,其中7 000 條為訓(xùn)練集,800 條為測(cè)試集。關(guān)系類(lèi)別共有6 種,分別為安裝位置、安裝方式、采用、限定、接線(xiàn)方式、其他。其他代表實(shí)體之間除上述5 類(lèi)之外的關(guān)系。

      3.3 結(jié)果與分析

      3.3.1 實(shí)驗(yàn)設(shè)置

      文中為驗(yàn)證構(gòu)建的基于注意力機(jī)制的GCN 模型對(duì)于關(guān)系抽取的有效性,以精確率、召回率、F1 值3 個(gè)指標(biāo)來(lái)觀(guān)測(cè)實(shí)驗(yàn)效果。同時(shí)文中在不改變其他超參數(shù)的設(shè)置下,對(duì)是否使用注意力機(jī)制和是否加入上下文信息進(jìn)行了測(cè)試和實(shí)驗(yàn),并對(duì)比二元實(shí)體關(guān)系與三元實(shí)體關(guān)系的抽取結(jié)果。

      文中采用的硬件條件是單塊Tesla P4 的GPU,CentOS 7.8.2003 的操作系統(tǒng)。其中,所有模型均使用了隨機(jī)梯度下降的方法進(jìn)行訓(xùn)練。

      3.3.2 電力數(shù)據(jù)集的注意力機(jī)制實(shí)驗(yàn)

      從表1 可以看出,在增加了注意力機(jī)制后,精確率、召回率和F1 值均優(yōu)于無(wú)注意力機(jī)制的模型效果,同時(shí)三元實(shí)體的關(guān)系抽取效果比二元實(shí)體的關(guān)系抽取效果好,因此可以看出注意力機(jī)制對(duì)圖卷積模型特征提取的有效性。

      表1 電力數(shù)據(jù)集的注意力機(jī)制實(shí)驗(yàn)精確率、召回率和F1值

      3.3.3 電力數(shù)據(jù)集的上下文信息實(shí)驗(yàn)

      在模型中通過(guò)加入LSTM 模塊可以得到文本的上下文信息,如表2 所示,當(dāng)模型中缺失了上下文信息,模型效果會(huì)有明顯的下降。因此可以看出文本的上下文信息對(duì)關(guān)系抽取模型的有不小的影響。

      表2 電力數(shù)據(jù)集的上下文信息實(shí)驗(yàn)精確率、召回率和F1值

      3.3.4 知識(shí)圖譜建立與規(guī)則測(cè)試效果

      當(dāng)完成了關(guān)系抽取任務(wù)后,就獲得了<實(shí)體-關(guān)系-實(shí)體>三元組,在經(jīng)過(guò)專(zhuān)家核驗(yàn)后,并以此構(gòu)建電力業(yè)擴(kuò)計(jì)量知識(shí)圖譜。通過(guò)規(guī)則測(cè)試,精確率可以達(dá)到79.4%,查詢(xún)效果如圖3 所示。

      圖3 查詢(xún)效果展示圖

      4 結(jié)束語(yǔ)

      目前知識(shí)圖譜已廣泛應(yīng)用在各種通用領(lǐng)域,然而各行業(yè)數(shù)據(jù)結(jié)構(gòu)復(fù)雜、不規(guī)范,導(dǎo)致在知識(shí)圖譜的構(gòu)建過(guò)程中遇到了不少困難與挑戰(zhàn)。文中對(duì)于電力文檔構(gòu)建知識(shí)圖譜提出了可行的辦法,通過(guò)圖神經(jīng)網(wǎng)絡(luò)模型抽取文檔中的關(guān)系,結(jié)合抽取出的實(shí)體,構(gòu)建實(shí)體關(guān)系三元組,并用此構(gòu)建電力業(yè)擴(kuò)計(jì)量知識(shí)圖譜,同時(shí)提出了基于知識(shí)圖譜遍歷的配電網(wǎng)計(jì)量裝置選型規(guī)則生成方法,其生成的規(guī)則更加精確,為電力裝置的選型奠定基礎(chǔ)。

      猜你喜歡
      頂點(diǎn)圖譜實(shí)體
      過(guò)非等腰銳角三角形頂點(diǎn)和垂心的圓的性質(zhì)及應(yīng)用(下)
      繪一張成長(zhǎng)圖譜
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      關(guān)于頂點(diǎn)染色的一個(gè)猜想
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      雜草圖譜
      孝昌县| 巴中市| 象州县| 磴口县| 崇阳县| 巴中市| 雷山县| 嘉禾县| 屯门区| 蒲城县| 镇沅| 包头市| 永康市| 尚志市| 漳州市| 内黄县| 云浮市| 惠州市| 湘潭县| 信宜市| 九江县| 凤阳县| 呼和浩特市| 桦甸市| 邢台县| 江达县| 汕尾市| 南漳县| 庆安县| 乌拉特中旗| 邯郸县| 绥江县| 微山县| 临安市| 隆德县| 耒阳市| 青神县| 即墨市| 青铜峡市| 汕头市| 孟村|