• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)的旅游信息關(guān)系抽取研究

      2019-08-23 05:38:50鮑玉來(lái)耿雪來(lái)飛龍
      現(xiàn)代情報(bào) 2019年8期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

      鮑玉來(lái) 耿雪來(lái) 飛龍

      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);關(guān)系抽取;旅游信息;詞向量

      隨著“互聯(lián)網(wǎng)+旅游業(yè)”的不斷發(fā)展演進(jìn),旅游信息的傳播方式生發(fā)生了很大變化,涌現(xiàn)出大量的關(guān)于旅游網(wǎng)站和手機(jī)應(yīng)用程序,隨之產(chǎn)生了大量的、冗余的旅游信息資源,“信息過(guò)載”問(wèn)題也隨之產(chǎn)生。知識(shí)圖譜(Knowledge Graph)的提出主要被用來(lái)優(yōu)化和完善當(dāng)前的搜索引擎。知識(shí)圖譜能夠更好地查詢(xún)較為繁雜的相關(guān)信息,分析查詢(xún)語(yǔ)義.來(lái)理解用戶(hù)的查詢(xún)需求.從而改進(jìn)搜索質(zhì)量。在構(gòu)建知識(shí)圖譜、知識(shí)庫(kù)過(guò)程中,語(yǔ)義抽取和處理是必要的前提.語(yǔ)義抽取的質(zhì)量決定著知識(shí)圖譜的構(gòu)建質(zhì)量。語(yǔ)義抽取包括實(shí)體、關(guān)系和屬性等知識(shí)要素抽取。其中,關(guān)系抽取是語(yǔ)義抽取研究中的重要內(nèi)容,是構(gòu)建知識(shí)圖譜的重要步驟,實(shí)體關(guān)系抽取的準(zhǔn)確率將極大影響所構(gòu)建的知識(shí)圖譜的質(zhì)量,因此研究關(guān)系抽取問(wèn)題對(duì)構(gòu)建知識(shí)圖譜有著積極意義。

      1研究現(xiàn)狀

      在早期的關(guān)系抽取中,人們主要是利用人工構(gòu)造語(yǔ)義規(guī)則和模板的方法來(lái)判斷實(shí)體之間的關(guān)系后來(lái).人工預(yù)定義的語(yǔ)法與規(guī)則被實(shí)體間的關(guān)系模型取代,如面向開(kāi)放域的信息抽取框架;馬爾可夫邏輯網(wǎng)的抽取、本體推理的抽取方法_。上述傳統(tǒng)的關(guān)系抽取模型需要人工進(jìn)行特征設(shè)計(jì),其性能取決于人工特征設(shè)計(jì)的質(zhì)量。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)技術(shù)被越來(lái)越多地應(yīng)用到關(guān)系抽取任務(wù)中.其中卷積神經(jīng)網(wǎng)絡(luò)因其優(yōu)秀的特征提取能力在實(shí)體關(guān)系抽取任務(wù)中表現(xiàn)出優(yōu)異性能。萬(wàn)靜等提出的基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的關(guān)系抽取模型,該模型包括雙向GRU的向量表示、PC.NN的特征學(xué)習(xí)和注意力權(quán)重學(xué)習(xí).通過(guò)在NewYork Times數(shù)據(jù)集上的實(shí)驗(yàn)表明,基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法可以避免一些NLP工具的錯(cuò)誤,更加準(zhǔn)確地學(xué)習(xí)到句子的語(yǔ)義信息_。張曉斌等應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的實(shí)體關(guān)系抽取模型,在SemEval-2010 Task 8數(shù)據(jù)集上取得了不錯(cuò)的效果。在面向中文專(zhuān)業(yè)領(lǐng)域的關(guān)系抽取目前研究并不多見(jiàn)。杜嘉等面向煤礦領(lǐng)域知識(shí)圖譜構(gòu)建,應(yīng)用循環(huán)神經(jīng)網(wǎng)路進(jìn)行了煤礦專(zhuān)業(yè)領(lǐng)域本文文本的關(guān)系抽取研究,實(shí)驗(yàn)結(jié)果表明詞向量可以更好地表現(xiàn)出文本數(shù)據(jù)中詞匯間的內(nèi)在聯(lián)系。本文面向中文旅游領(lǐng)域信息資源,探索采用詞向量的方式表示文本數(shù)據(jù).繼而通過(guò)卷積神經(jīng)網(wǎng)絡(luò)獲取特征并進(jìn)行分類(lèi)的關(guān)系抽取方法。

      2卷積神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型

      2.1卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中經(jīng)常使用的網(wǎng)絡(luò)模型,其在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等領(lǐng)域有重要應(yīng)用。CNN網(wǎng)絡(luò)的結(jié)構(gòu)模型主要有5部分組成,分別是:輸入層、卷積層、池化層、全連接層以及輸出層,如圖1所示。首先將原始數(shù)據(jù)通過(guò)輸入層載入模型,其次通過(guò)卷積層進(jìn)行卷積運(yùn)算.通過(guò)卷積層后可以得到特征圖。池化層對(duì)輸出參數(shù)進(jìn)行優(yōu)化,得到對(duì)應(yīng)的特征映射圖。緊接著再利用下一層卷積層對(duì)這些映射圖進(jìn)行卷積操作得到特征圖,再對(duì)特征對(duì)進(jìn)行池化操作,得到新的特征映射圖;通過(guò)降采樣,將其送人全連接層。依次逐層訓(xùn)練這樣的訓(xùn)練過(guò)程就可以得到原始數(shù)據(jù)的特征向量。將這些特征向量通過(guò)全連接層進(jìn)入分類(lèi)器進(jìn)行最后的分類(lèi)結(jié)果輸出。

      2.2Word2Vec

      Word2vec是一個(gè)處理文本的雙層神經(jīng)網(wǎng)絡(luò)。它的輸入是一個(gè)文本語(yǔ)料庫(kù),它的輸出是該語(yǔ)料庫(kù)中單詞的特征向量。Word2vec首先根據(jù)訓(xùn)練文本數(shù)據(jù)構(gòu)建詞匯表,然后學(xué)習(xí)單詞的矢量表示。生成的單詞矢量文件可以用作許多自然語(yǔ)言處理和機(jī)器學(xué)習(xí)應(yīng)用程序中的特征。雖然Word2vec不是深度神經(jīng)網(wǎng)絡(luò).但其將文本轉(zhuǎn)換為深度學(xué)習(xí)可以理解的數(shù)字形式。Word2vec創(chuàng)建的向量是單詞特征的分布式數(shù)字表示,諸如單個(gè)單詞的上下文特征。因此,Word2vec通過(guò)CBOW和Skip-Gram兩種方式,可以根據(jù)上下文對(duì)單詞的含義進(jìn)行高度準(zhǔn)確地發(fā)現(xiàn)。CBOW模型的訓(xùn)練輸入是某一個(gè)特征詞的上下文相關(guān)的詞對(duì)應(yīng)的詞向量,而輸出就是這特定的一個(gè)詞的詞向量。Skip-Gram模型與CBOW相反,即輸入是特定的一個(gè)詞的詞向量,而輸出是特定詞對(duì)應(yīng)的上下文詞向量。這些猜測(cè)可以用來(lái)建立一個(gè)單詞與其他單詞的關(guān)聯(lián),或者按主題進(jìn)行文檔聚類(lèi)。由于本文所使用的語(yǔ)料規(guī)模不是特別大,所以選擇Skip-gram模型進(jìn)行詞向量的轉(zhuǎn)化。

      Skip-gram模型有3層結(jié)構(gòu),分別是輸入層、投影層和輸出層。所有詞的詞向量都存在于隱藏層的參數(shù)矩陣之中。模型的輸入是目標(biāo)詞,輸出是目標(biāo)詞的上下文。例如:當(dāng)設(shè)置窗口為2的時(shí)候,對(duì)于輸入的詞W,其輸出的是W的2個(gè)上下文詞匯模型圖如圖2所示。

      2.3模型設(shè)計(jì)

      使用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取和學(xué)習(xí)句子特征,其中在窗口處理的部分.使用了詞特征和位置特征作為基礎(chǔ)特征并把它們進(jìn)行線性組合。為了下一步的卷積運(yùn)算,我們將這些線性特征轉(zhuǎn)化成對(duì)應(yīng)的特征向量。卷積運(yùn)算完成后,再通過(guò)非線性的轉(zhuǎn)化的方式得到句子層級(jí)的特征。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

      為了更好地表達(dá)特征,我們以詞嵌入作為基礎(chǔ)特征。而對(duì)詞性特征進(jìn)行選擇時(shí),也關(guān)注了實(shí)體詞本身以及其前后兩個(gè)詞的詞性,據(jù)此可以充分表達(dá)出詞性特征。在詞匯特征這部分主要考慮4個(gè)部分:實(shí)體1;實(shí)體2;實(shí)體1前后兩個(gè)詞的詞性;實(shí)體2前后兩個(gè)詞的詞性。通過(guò)Word2Vec獲取詞特征(WF),但僅靠WF是得不到完整特征信息的,加入位置特征(PF),來(lái)指定句子中的輸入標(biāo)記對(duì)應(yīng)的目標(biāo)名詞。

      位置特征是將每個(gè)詞分別與兩個(gè)實(shí)體之間的相對(duì)距離進(jìn)行組合。例如,如圖5所示,前面句子中的“是”到實(shí)體“哈素海”和“32平方公里”的相對(duì)距離分別是3和-1。

      這里,把相對(duì)距離轉(zhuǎn)換成一個(gè)隨機(jī)初始化的維度向量d,然后求得相對(duì)距離的向量d和d,其

      盡管詞向量具有強(qiáng)烈的特征表達(dá)能力,其利用窗口中得到的上下文特征向量來(lái)推理出句子中對(duì)應(yīng)的上下文特征信息,但是它有一定的局限性,即只能在句子中每個(gè)詞的周?chē)a(chǎn)生的是局部特征信息。CNN網(wǎng)絡(luò)可以融合這些特征,因此,本文采用線性變換來(lái)處理窗口,具體方式如式(1)所示:

      利卷積層處理特征信息的過(guò)程,是將選中的詞向量利用卷積矩陣轉(zhuǎn)換為對(duì)應(yīng)的上下文特征的向量的過(guò)程,式(2),卷積層對(duì)窗口中的每一個(gè)詞組進(jìn)行處理之后,輸出的是每個(gè)詞對(duì)應(yīng)的上下文特征向量,而且其對(duì)應(yīng)的僅僅是局部特征。

      3.2人工標(biāo)注

      在關(guān)系抽取的過(guò)程中,本文共定義位置、星級(jí)、適宜季節(jié)、修建時(shí)間、展覽、庫(kù)存容量、面積、代表項(xiàng)目、海拔、長(zhǎng)度、深度以及其他12個(gè)屬性關(guān)系。人工標(biāo)注訓(xùn)練級(jí)格式采用SemEval 2010

      3實(shí)驗(yàn)設(shè)計(jì)

      3.1數(shù)據(jù)預(yù)處理

      在百度、攜程、去哪兒等一些網(wǎng)站上通過(guò)爬蟲(chóng)獲取基礎(chǔ)語(yǔ)料集,共爬取1500多篇有關(guān)旅游領(lǐng)域(內(nèi)蒙古境內(nèi))的非結(jié)構(gòu)化文本,首先進(jìn)行數(shù)據(jù)清洗,去除標(biāo)點(diǎn)符號(hào);然后利用漢語(yǔ)分詞工具進(jìn)行分詞,停用詞典、自定義詞典。首先進(jìn)行分詞處理,以空格隔開(kāi),使文本轉(zhuǎn)換成指定的格式,如圖6所示。

      3.3詞向量

      使用Gensim實(shí)現(xiàn)Word2Vec Skip-gram模型,在本實(shí)驗(yàn)中,詞向量的維度大小定為200維;滑動(dòng)

      3.4CNN

      應(yīng)用Python深度學(xué)習(xí)工具包Keras實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò),其基本參數(shù)為,隱藏層設(shè)置為2個(gè),而且它們的節(jié)點(diǎn)個(gè)數(shù)分別是100和200,還將卷積窗口大小設(shè)置為3。標(biāo)注1000篇作為訓(xùn)練樣本,500篇作為的測(cè)試樣本,訓(xùn)練樣本中有句子4682個(gè),關(guān)系屬性15976個(gè),測(cè)試樣本中關(guān)系屬性共有7861個(gè)。

      4實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)抽取到7558個(gè),其中正確的屬性關(guān)系有5974個(gè)。在關(guān)系抽取是同樣使用這3個(gè)評(píng)估標(biāo)準(zhǔn),只是計(jì)算公式有所變化.公式如下:

      在實(shí)驗(yàn)中,選取了詞匯級(jí)、句子級(jí)、詞匯+句子級(jí)3種不同的特征進(jìn)行試驗(yàn),其中詞匯特征和句子特征結(jié)合作為分類(lèi)特征的試驗(yàn)結(jié)果最好,如表1、圖8所示。

      本文探索了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)和詞向量模型進(jìn)行旅游信息實(shí)體關(guān)系抽取方法.該方法通過(guò)Word2Vee來(lái)學(xué)習(xí)詞語(yǔ)的上下文信息.使用卷積神經(jīng)網(wǎng)絡(luò)獲取更多的特征信息并進(jìn)行分類(lèi)。實(shí)驗(yàn)證明了本文方法能有效地在非結(jié)構(gòu)化的旅游信息文本中實(shí)現(xiàn)關(guān)系抽取。

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡(luò)
      基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
      卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
      卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型研究
      基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛檢索方法研究
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
      軟件(2016年5期)2016-08-30 06:27:49
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
      石景山区| 北票市| 崇义县| 资兴市| 苍山县| 柳州市| 呼图壁县| 西贡区| 漳浦县| 和田市| 凤台县| 都安| 永安市| 浑源县| 永顺县| 普兰县| 大名县| 墨脱县| 富民县| 达拉特旗| 玉田县| 临澧县| 邛崃市| 临安市| 姜堰市| 宁武县| 泾川县| 明光市| 台前县| 芜湖县| 民和| 武陟县| 潮安县| 新闻| 织金县| 灵宝市| 佛山市| 合阳县| 泸西县| 淮安市| 宿松县|