• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      圖卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用研究

      2021-11-10 11:53:24熊晗
      電子制作 2021年21期
      關(guān)鍵詞:語(yǔ)料卷積神經(jīng)網(wǎng)絡(luò)

      熊晗

      (重慶工商職業(yè)學(xué)院軟件教研室,重慶,400052)

      1 研究背景

      目前深度學(xué)習(xí)框架針對(duì)訓(xùn)練樣本有較高的要求,常見(jiàn)的自然語(yǔ)言處理可以使用普通文本語(yǔ)料,比如bert可以使用預(yù)訓(xùn)練的詞向量做fine-tune,但在一些特定領(lǐng)域,比如法律、公安、金融領(lǐng)域等等,有較多的專(zhuān)業(yè)名詞,且標(biāo)注語(yǔ)料通常不多,使用普通語(yǔ)料訓(xùn)練的詞向量進(jìn)行下游任務(wù)效果不佳,針對(duì)這些場(chǎng)景的自然語(yǔ)言處理,存在如下的一些問(wèn)題:

      (1)專(zhuān)業(yè)領(lǐng)域文本的內(nèi)容少部分詞語(yǔ)比較專(zhuān)業(yè)化,但又非常關(guān)鍵。使用預(yù)訓(xùn)練的詞向量來(lái)做fine-tune,很可能沒(méi)有很好的挖掘出專(zhuān)業(yè)詞匯的信息特征,導(dǎo)致效果不好。

      (2)針對(duì)部分短文本使用CNN、RNN這類(lèi)依靠位置順序關(guān)系的模型,可能對(duì)非連續(xù)性以及短距離的語(yǔ)義信息建模能力不足。

      (3)文本數(shù)量巨大,針對(duì)模型訓(xùn)練需要大量的標(biāo)注樣本也是困難點(diǎn)之一。

      近年基于圖卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用目前相關(guān)的研究?jī)?nèi)容主要為以下兩種:①針對(duì)圖卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的綜述。介紹圖神經(jīng)網(wǎng)絡(luò)的核心思想,以及如何運(yùn)用圖結(jié)構(gòu)表示語(yǔ)言模型,并如何將相關(guān)的自然語(yǔ)言處理任務(wù)場(chǎng)景結(jié)合起來(lái)。②基于圖卷積神經(jīng)網(wǎng)絡(luò)的框架研究與改進(jìn),這部分文章,結(jié)合現(xiàn)實(shí)的自然語(yǔ)言處理實(shí)際問(wèn)題,重點(diǎn)研究圖卷積網(wǎng)絡(luò)的構(gòu)架改進(jìn)以及自然語(yǔ)言的圖表示模型。

      通過(guò)研究調(diào)查,圖卷積神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理結(jié)合已經(jīng)有理論基礎(chǔ)認(rèn)證,并有部分實(shí)際工作。本文重點(diǎn)將結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),并針對(duì)具有圖結(jié)構(gòu)關(guān)系的文本場(chǎng)景(比如社交評(píng)論,微博關(guān)注等等),提取文本之間的關(guān)系信息,提升自然語(yǔ)言處理任務(wù)效果。

      2 研究?jī)?nèi)容

      ■2.1 文本的圖模型結(jié)構(gòu)表示

      作為圖神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),如何將圖結(jié)構(gòu)的數(shù)據(jù)進(jìn)行表示,是能否將該結(jié)構(gòu)用于圖神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)的關(guān)鍵問(wèn)題。同樣,我們針對(duì)自然語(yǔ)言處理任務(wù)中的文本,就需要研究圖嵌入方法,即旨在將圖的節(jié)點(diǎn)表示成一個(gè)低維向量空間,同時(shí)保留網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)信息,以便在后續(xù)的圖分析任務(wù)中可以直接使用現(xiàn)有的機(jī)器學(xué)習(xí)算法。

      本項(xiàng)目將以下兩個(gè)思路進(jìn)行文本圖結(jié)構(gòu)表示:

      第一類(lèi),將每個(gè)文本作為頂點(diǎn),將頂點(diǎn)之間的實(shí)際拓?fù)潢P(guān)系作為邊條件與權(quán)值,例如文本作者與粉絲之間的關(guān)注關(guān)系,文本相互鏈接的關(guān)系等等。

      第二類(lèi),是基于文本的實(shí)體與共指關(guān)系連接構(gòu)建。將文本中的實(shí)體作為節(jié)點(diǎn),并把實(shí)體之間的共指,同現(xiàn),鄰近實(shí)體連接作為邊。從而使用圖結(jié)構(gòu)進(jìn)行表示。

      ■2.2 圖卷積神經(jīng)網(wǎng)絡(luò)模型的研究

      圖卷積神經(jīng)網(wǎng)絡(luò)直接將多層神經(jīng)網(wǎng)絡(luò)應(yīng)用在圖結(jié)構(gòu)數(shù)據(jù)之上,并且根據(jù)鄰接點(diǎn)與鄰邊信息生成進(jìn)行圖嵌入表示。假設(shè)一個(gè)圖結(jié)構(gòu)為G=,其中V是圖G的所有頂點(diǎn),E是圖G中所有邊。設(shè)X為所有頂點(diǎn)V的特征值,則我們用X∈Rnxm其中n代表V的數(shù)量,m代表V的特征值維度。按照?qǐng)D神經(jīng)網(wǎng)絡(luò)的定義,對(duì)于一層的GCN計(jì)算我們可以將圖卷積神經(jīng)網(wǎng)絡(luò)定義為:其中N表示根據(jù)圖結(jié)構(gòu)生成的鄰接矩陣。為對(duì)稱(chēng)標(biāo)準(zhǔn)化,目的是避免鄰接矩陣對(duì)角線(xiàn)為零的情況,W0 則為權(quán)重矩陣,ρ表示激活函數(shù)例如RELU,L(1)表示經(jīng)過(guò)一次迭代計(jì)算后,各個(gè)頂點(diǎn)的下一層隱狀態(tài)。卷積過(guò)程構(gòu)架如圖1所示。

      圖1 圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)架

      輸入為圖結(jié)構(gòu)的數(shù)據(jù),每次選取一個(gè)點(diǎn)作為中心點(diǎn),按照公式1進(jìn)行一次計(jì)算,當(dāng)遍歷完所有點(diǎn)后,一層計(jì)算完成,經(jīng)過(guò)多層堆疊,直到所有的點(diǎn)計(jì)算出來(lái)的圖嵌入向量收斂則訓(xùn)練完成。構(gòu)建好圖模型后,后續(xù)根據(jù)下游任務(wù)添加相應(yīng)神經(jīng)網(wǎng)絡(luò)層即可:

      其中?(.)表示通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的狀態(tài)更新函數(shù),X表示所有頂點(diǎn)的特征集,A表示頂點(diǎn)對(duì)應(yīng)的鄰接矩陣。

      3 實(shí)驗(yàn)設(shè)計(jì)

      本次實(shí)驗(yàn)選取自然語(yǔ)言處理任務(wù)中的分類(lèi)任務(wù)來(lái)進(jìn)行對(duì)比,分類(lèi)任務(wù)是自然語(yǔ)言處理中的基本任務(wù)之一,實(shí)現(xiàn)簡(jiǎn)單,驗(yàn)證相對(duì)容易且清晰。

      考慮到圖卷積神經(jīng)網(wǎng)絡(luò)的處理特點(diǎn),實(shí)驗(yàn)選取的語(yǔ)料需要專(zhuān)業(yè)領(lǐng)域較強(qiáng),標(biāo)注量不大,并且具有一定圖結(jié)構(gòu)關(guān)系的文本。本次實(shí)驗(yàn)爬取知乎上相關(guān)文章5400篇,內(nèi)容包括計(jì)算機(jī)技術(shù)類(lèi)、金融投資類(lèi)、旅游類(lèi)等共8類(lèi)別,采用人工取其中400篇文章進(jìn)行類(lèi)別標(biāo)記,平均每種類(lèi)別標(biāo)記50篇。同時(shí)爬取文章之間的鏈接跳轉(zhuǎn)關(guān)系,文章作者之間的關(guān)注關(guān)系,以及粉絲關(guān)系,建立文章之間的拓?fù)鋱D關(guān)系如圖2所示。

      圖2 文章之間的關(guān)系拓?fù)?/p>

      將關(guān)系圖轉(zhuǎn)換成鄰接矩陣N,則可以帶入到公式1進(jìn)行迭代計(jì)算。最后加上softmax層采用公式2,即可在迭代收斂時(shí),判斷出文章類(lèi)型??傮w流程圖如圖3所示。

      觀(guān)賞竹栽培品種整理。主要開(kāi)展牡竹屬、慈竹屬等觀(guān)賞竹栽培品種的整理與新品種定名工作,現(xiàn)階段已完成牡竹屬1種新品種的定名,取得國(guó)際登錄號(hào);以及川牡竹1號(hào)、硬頭黃7號(hào)新品種登錄的申報(bào)工作。

      圖3 實(shí)驗(yàn)任務(wù)處理流程圖

      損失函數(shù),我們使用交叉熵來(lái)進(jìn)行計(jì)算,如公式3所示:

      其中DY表示有標(biāo)簽的文章集合,F(xiàn)表示文章所有的特征值集合,Y是所有文章的標(biāo)注矩陣。結(jié)合公式2的結(jié)果,即可計(jì)算損失函數(shù)。

      結(jié)構(gòu)采用兩層GCN結(jié)構(gòu),直接將爬取到的文本關(guān)系網(wǎng)絡(luò)作為輸入,進(jìn)入兩層GCN隱藏層,最后加上softmax進(jìn)行輸出,該結(jié)構(gòu)能將文本的鏈接關(guān)系放入神經(jīng)網(wǎng)絡(luò)中,對(duì)這部分信息進(jìn)行有效挖掘,也是后續(xù)觀(guān)察分類(lèi)效果的關(guān)鍵點(diǎn)。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

      圖4 圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)架

      4 實(shí)驗(yàn)分析

      為了測(cè)試圖卷積神經(jīng)網(wǎng)絡(luò)針對(duì)選取文本的分類(lèi)效果,本文選擇了幾種常見(jiàn)的自然語(yǔ)言處理的機(jī)器學(xué)習(xí)構(gòu)架來(lái)進(jìn)行比較,選取的幾種常見(jiàn)模型介紹如下:

      TF-IDF+LR:采用詞袋模型的經(jīng)典分類(lèi)算法,其主要的思想是將每篇文章的關(guān)鍵詞提取,通過(guò)詞頻與逆詞頻的處理,找到主要關(guān)鍵詞,在進(jìn)行邏輯回歸算法分類(lèi)。

      LSTM:LSTM是一種典型的RNN構(gòu)架算法,采用長(zhǎng)短期記憶模型,對(duì)每個(gè)文本的字進(jìn)行學(xué)習(xí)處理,來(lái)理解文本內(nèi)容。

      FastText:fasttext是facebook出品的一種快速的文本分類(lèi)算法,其中新思想與Word2vector思路一致,都是通過(guò)深度學(xué)習(xí)中間變量來(lái)表示文本向量。

      Bert:Bert作為自然語(yǔ)言處理近年來(lái)的佼佼者,在各項(xiàng)任務(wù)都取得了不錯(cuò)成績(jī),但前期的大量訓(xùn)練只有大型公司才能完成,使用fine-tune進(jìn)行遷移學(xué)習(xí),但針對(duì)特定領(lǐng)域,效果有待提升。

      加上本文使用的GCN針對(duì)文本的分類(lèi),5中方法的實(shí)驗(yàn)效果如表1所示。

      表1 真實(shí)數(shù)據(jù)上5中分類(lèi)算法的指標(biāo)比較結(jié)果

      通過(guò)結(jié)果可以看出在本次實(shí)驗(yàn)選擇的語(yǔ)料文本特點(diǎn)下,使用GCN圖卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)果相對(duì)于其余4中經(jīng)典的文本分類(lèi)常用算法框架來(lái)說(shuō),效果有一定的提升。

      5 結(jié)束語(yǔ)

      本文針對(duì)目前近年來(lái)流行的圖卷積神經(jīng)網(wǎng)絡(luò)框架為研究對(duì)象,結(jié)合了圖卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn),選取自然語(yǔ)言處理中的分類(lèi)任務(wù)為目標(biāo),設(shè)定了在特定場(chǎng)景下的一些具有圖網(wǎng)絡(luò)關(guān)系的語(yǔ)料進(jìn)行研究。使用實(shí)驗(yàn)證明,在專(zhuān)業(yè)詞匯較多,文本簡(jiǎn)短、文本之間有豐富連接關(guān)系,且標(biāo)注數(shù)據(jù)量較少的語(yǔ)料場(chǎng)景下,圖卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效果更好。

      猜你喜歡
      語(yǔ)料卷積神經(jīng)網(wǎng)絡(luò)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線(xiàn)通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      《苗防備覽》中的湘西語(yǔ)料
      车险| 英山县| 曲周县| 兴义市| 封开县| 衡阳县| 特克斯县| 赣州市| 临武县| 榆中县| 涡阳县| 尖扎县| 清镇市| 新民市| 岳阳县| 蒲江县| 玉林市| 岳阳县| 深水埗区| 寿宁县| 新龙县| 茶陵县| 民丰县| 金华市| 秦安县| 南乐县| 子洲县| 高清| 磐石市| 临颍县| 马龙县| 太康县| 桦甸市| 鄂州市| 周至县| 浏阳市| 丰顺县| 三河市| 健康| 民勤县| 石狮市|