• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學習的網(wǎng)購評論命名實體識別方法*

    2021-01-05 09:20:48仇增輝赫明杰林正奎
    計算機工程與科學 2020年12期
    關鍵詞:網(wǎng)購命名注意力

    仇增輝,赫明杰,林正奎

    (大連海事大學信息科學技術學院,遼寧 大連 116026)

    1 引言

    命名實體識別NER(Named Entity Recognition)是開展網(wǎng)絡評論分析、內容檢索、事件檢測、機器翻譯、問答系統(tǒng)等研究的一項基礎性工作,其目的是識別出評論文本中的人名、地名等專有詞匯和有意義的時間、日期等數(shù)量短語并加以歸類[1]。網(wǎng)購評論作為一類代表性的網(wǎng)絡評論,由于參與人數(shù)多、評論數(shù)量大、評論過程持久、內容表達方式口語化、情感表達方式多樣化等鮮明特點,導致其命名實體識別任務的挑戰(zhàn)性巨大,因而得到了學術界的廣泛關注。

    命名實體識別研究起步于20世紀90年代初期。1991年Rau[2]在第7屆IEEE人工智能應用會議上發(fā)表了“抽取和識別公司名稱”的有關研究文章,首次描述了采用啟發(fā)式算法和手工編寫規(guī)則抽取和識別公司名稱的方法。1996年,命名實體評測作為信息抽取的一個子任務被引入MUC-6[3],在其后的MUC-7的MET-2[4]以及IEER-99、CoNLL-2002、CoNLL-2003、IREX、LREC等一系列國際會議中,命名實體識別都被作為其中的一項指定任務。在中文命名實體識別方面,孫茂松等[5]在國內較早開始采用統(tǒng)計的方法進行了中文人名識別;張小衡等[6]采用人工規(guī)則對中文機構名稱進行了識別與分析。Intel中國研究中心的Zhang等[7]提出了利用基于記憶的學習MBL(Memory Based Learning)算法獲取規(guī)則,用以抽取中文命名實體以及它們之間的關系,之后眾多學者將該方法應用到中文命名實體識別研究之中并取得了比較豐富的研究成果。相對于英文命名實體識別,由于中文自身所具有的語言表述方式的復雜性、多樣性和發(fā)展迅速性,導致其命名實體識別與英文相比,挑戰(zhàn)更大,目前尚未解決的難題更多。

    目前傳統(tǒng)的命名實體識別方法主要包括:基于規(guī)則和詞典的方法、基于統(tǒng)計機器學習的方法和二者混合的方法等。其中,基于規(guī)則和詞典的方法借助知識庫和詞典,利用語言學專家手工構造的規(guī)則模板進行命名實體的識別,是命名實體識別中最早使用的方法。例如,Hu等[8]通過建立規(guī)則模板將網(wǎng)購評論中的名詞和名詞短語作為屬性詞,將距離屬性詞最近的形容詞作為觀點詞;Lakkaraju等[9]通過建立規(guī)則模板把動詞或形容詞作為觀點詞,利用滑動窗口把高頻名詞或名詞短語作為屬性詞。該類方法存在實施周期長、移植性差等問題?;诮y(tǒng)計機器學習的方法通過人工選取文本特征,借助融合語言模型和機器學習算法進行命名實體識別,代表性的方法主要包括隱馬爾可夫模型[10]、最大熵[11]、支持向量機[12]、條件隨機場CRF(Conditional Random Field)[13]等。Liu等[14]通過最大熵模型構造了屬性詞與標簽之間的映射關系,利用隱馬爾可夫模型進行屬性詞的命名實體識別。Kim等[15]運用最大熵模型學習語法特征進而識別出觀點發(fā)表者。該類方法由于需要從文本中選擇對特定任務最有影響的各種特征,并將這些特征加入到特征向量之中,因此對特征選取的要求較高,同時也對參與模型訓練的語料庫依賴性較大。這些混合方法主要包括規(guī)則、詞典和機器學習方法和不同機器學習方法之間的混合方法。該類方法雖然在應用實踐中被普遍采用,但在融合技術的選擇和實現(xiàn)等方面仍然面臨著許多問題。

    近年來,隨著基于神經(jīng)網(wǎng)絡的各類深度學習方法的快速發(fā)展,命名實體識別研究逐漸從機器學習轉向深度學習。該類方法首先使用大規(guī)模的未標注語料進行詞向量訓練,然后通過將預訓練的詞向量輸入到深度學習網(wǎng)絡模型,用以實現(xiàn)端到端的命名實體識別。如Huang等[16]利用雙向長短時記憶BiLSTM(Bidrectional Long Short-Time Memory)網(wǎng)絡和條件隨機場進行命名實體識別;劉新星等[17]利用循環(huán)圖和開關遞歸神經(jīng)網(wǎng)絡模型對屬性詞進行識別;沈亞田等[18]利用長短時記憶模型對評價詞和評價對象進行命名實體識別;Shahina等[19]利用不同的遞歸神經(jīng)網(wǎng)絡單元(例如遞歸神經(jīng)網(wǎng)絡、長期短期記憶、門控遞歸單元、堆疊式)進行命名實體識別;Ali等[20]利用自注意力機制與LSTM(Long Short-Term Memory)相結合的方法對阿拉伯語進行了命名實體識別;Cao等[21]利用對抗遷移學習和自注意力機制對微博文本進行命名實體識別;Zhu等[22]利用具有局部注意力機制的卷積神經(jīng)網(wǎng)絡和具有全局自注意力機制的門控遞歸網(wǎng)絡進行命名實體識別。相比傳統(tǒng)機器學習方法,基于深度學習的方法通過自主學習而非人工方式從原始數(shù)據(jù)中獲得更深層次和更抽象的文本特征,較好地解決了傳統(tǒng)方法特征選取難度大和對數(shù)據(jù)的人為干擾等問題,因而成為研究熱點。但在應用實踐中,針對不同的問題域特征,基于深度學習的方法在提高命名實體識別效率和準確性方面,仍有許多難點問題需要進一步探索。其中,注意力模型結合深度學習方法用于命名實體識別是一個重要研究方向。

    本文以現(xiàn)實情境下中文網(wǎng)購評論文本的命名實體識別作為研究對象,為使命名實體識別更聚焦于人們所關注的評論內容的目標主體,提出了一種多頭注意力機制MA(Multi-head Attention)和BiLSTM-CRF(Bidirectional Long Short-Term Memory-Conditional Random Field)模型相結合的網(wǎng)購評論命名實體識別方法MA-BiLSTM-CRF。通過實驗驗證,兩者的有機結合可進一步提高網(wǎng)購評論中命名實體的整體識別效率和識別準確性。

    2 BiLSTM-CRF模型簡介

    BiLSTM-CRF模型源自長短時記憶LSTM模型和條件隨機場CRF算法的結合。LSTM 最初由Hochreiter和Schmidhuber提出[23],作為一種特殊循環(huán)神經(jīng)網(wǎng)絡RNN(Recurrent Neural Network)結構,能夠學習到長期依賴關系,以解決梯度消失和梯度爆炸問題。該模型利用BiLSTM層的輸出作為原始CRF模型的參數(shù),最終獲得標簽序列的概率。

    LSTM的單元結構如圖1所示。在t時刻,每個LSTM 單元的輸入有3個,分別是當前時刻網(wǎng)絡的輸入值xt、上一時刻 LSTM 單元的輸出值ht-1和上一時刻的單元狀態(tài)ct-1;輸出有2個,分別是當前時刻 LSTM 的輸出值ht和單元狀態(tài)ct。每個LSTM 單元通過遺忘門、輸入門和輸出門控制是否將當前輸入信息忽略或者傳遞給下一個單元。門(Gate)本質上是一層全連接層,輸入是一個向量,輸出是一個0~1的數(shù),表示允許信息通過的多少,0表示不允許完全通過,1表示允許完全通過。LSTM的優(yōu)點是使當前單元可以得到本單元之前所有單元的信息,但其缺點是無法獲得本單元之后的單元信息。為解決這一問題,學者們通過對其改進提出了雙向LSTM即BiLSTM模型,如圖2所示。BiLSTM的基本思想是分別用前向和后向的LSTM 來抓取過去和將來所含的隱藏信息,這2部分的信息組成最終的模型輸出。之后許多研究者針對BiLSTM 進行了一系列的優(yōu)化改進工作,其中BiLSTM-CRF模型[24]的表現(xiàn)尤為突出,現(xiàn)已被廣泛應用于自然語言處理領域內命名實體識別、詞性標注、分詞等多個方面。

    Figure 1 Schematic diagram of LSTM unit圖1 LSTM單元示意圖

    Figure 2 Schematic diagram of BiLSTM unit圖2 BiLSTM單元示意圖

    BiLSTM模型結合CRF算法主要用于解決命名實體識別的有效性問題。理論上BiLSTM雖然可以獲得輸入語句的命名實體標簽,但是由于無法建立彼此之間的依賴關系,因此并不能保證所獲得的命名實體標簽的有效性,而通過將CRF從訓練數(shù)據(jù)中自動學習得到的標簽序列之間的約束條件添加到最終的命名實體標簽,則可以保證預測標簽的有效性。如圖3所示,BiLSTM-CRF模型由向量層、BiLSTM網(wǎng)絡層和CRF層3部分組成。對于一個輸入句子,首先經(jīng)過向量層將每個詞匯或字符映射為一個詞向量或者字符向量;然后傳入BiLSTM層,獲得句子的前向向量和后向向量;接著將前向向量和后向向量進行拼接作為當前詞匯或字符的隱藏狀態(tài)向量;最后將包含上下文信息的語義向量輸入到 CRF中進行解碼,通過 CRF計算出序列文本每個詞語或字符的標簽,將具有最高得分的標簽序列作為模型預測的最好結果。

    Figure 3 Structure of BiLSTM-CRF model圖3 BiLSTM-CRF模型結構圖

    3 基于MA-BiLSTM-CRF的網(wǎng)購評論命名實體識別方法

    3.1 問題的提出

    基于評論文本的網(wǎng)購評論分析,利用命名實體識別、關系抽取、情感計算等方法,獲得消費者關于商品的情感偏好特征,是在線評論分析中最具代表性的研究內容之一,其分析結果的有用性和可信度對網(wǎng)購活動具有重要影響。BiLSTM-CRF模型應用于網(wǎng)購評論分析,通過自動學習上下文語義信息,一定程度上克服了對人工選取特征和專家知識的依賴[25],同時利用CRF計算輸出標簽序列的全局概率,進一步提高了命名實體識別的準確率。但在現(xiàn)實情境下,不同類別消費者對商品或其屬性作出的評價所產生的實際影響往往存在很大差異,由于BiLSTM-CRF模型并未考慮到不同詞的特征向量對命名實體識別的貢獻程度,因此無法保證識別結果的有用性和可信度。

    近年來,注意力機制被廣泛應用于自然語言處理領域中,其在文本處理中的特點是為重要的文字特征賦予較高的權重,而多頭注意力機制可依據(jù)特征向量的重要程度,從多角度綜合計算特征向量的權重,可有效解決特征向量的賦權問題,提高命名實體識別效率。綜上所述,本文借鑒多頭注意力機制,基于詞匯貢獻度和雙向長短時記憶條件隨機場提出一種基于MA-BiLSTM-CRF模型的網(wǎng)購評論命名實體識別方法,以實現(xiàn)從眾多命名實體標簽中選擇出對網(wǎng)購評論分析任務目標更關鍵的命名實體標簽。

    Figure 4 MA-BiLSTM-CRF model structure and named entity recognition process圖4 MA-BiLSTM-CRF模型結構與命名實體識別過程

    3.2 MA-BiLSTM-CRF模型構建

    MA-BiLSTM-CRF模型結構如圖4所示,包括輸入層、向量層、BiLSTM層、多頭注意力機制層和CRF層。

    (1)輸入層。

    輸入層對原始網(wǎng)購評論文本進行數(shù)據(jù)清洗降噪、分詞、詞性標注和命名實體標注等預處理,得到符合模型要求的數(shù)據(jù)集。首先,對網(wǎng)購評論文本的結構特征進行大數(shù)據(jù)統(tǒng)計分析,基于分析結果去除評論文本中過短、過長的評論和與商品內容無關的評論;然后,對其進行分詞和詞性標注處理;最后,對其進行命名實體人工標注。考慮到網(wǎng)購評論的口語化特征,本文通過提取特定商品評論常用詞構建自定義詞典庫,以提高分詞及詞性標注的準確率。

    (2)向量層。

    (3)BiLSTM層。

    BiLSTM層通過前向LSTM層和后向LSTM層連接同一輸出層,充分利用上下文信息以獲得網(wǎng)購評論中每個詞所對應的不同命名實體標簽的概率。

    步驟1計算前向LSTM。

    (1)

    步驟2計算后向LSTM 。

    (2)

    步驟3將前向和后向的ht拼接作為多頭注意力。

    (3)

    其中,xt是t時刻向量層的輸出向量,即BiLSTM層t時刻的輸入向量;ct-1是t-1時刻記憶細胞的狀態(tài);ht-1是t-1時刻LSTM層輸出向量;ct是t時刻的記憶細胞狀態(tài);ht是t時刻BiLSTM層的輸出向量,該層的輸出向量序列構成的矩陣記為H=(h1,…,hi,…,ht)。

    (4)多頭注意力機制層。

    最近幾年注意力機制在圖像處理、語音識別、機器翻譯等深度學習的各個領域被廣泛使用。鑒于現(xiàn)實情境下,網(wǎng)購評論中的每個特征向量對命名實體識別的實際貢獻率不同,本文在傳統(tǒng)BiLSTM-CRF模型中通過引入多次自注意力(Self-Attention)計算機制,即多頭注意力機制層,為輸入序列的不同詞語賦予不同的權重,以保證在計算能力有限的情況下,使模型快速收斂于需要重點關注的命名實體標簽。

    如圖5所示,多頭注意力機制以BiLSTM層的輸出矩陣H作為輸入,主要由查詢矩陣Q、鍵矩陣K、值矩陣V和縮放點積注意力(Scaled Dot-Product Attention)組成[26],其計算過程如下所示:

    步驟1對Q、K、V分別進行線性映射。

    (4)

    (5)

    (6)

    Figure 5 Structure of multi-head attention mechanism圖5 多頭注意力機制結構

    步驟2計算縮放點積注意力。

    首先,對Q′和K′中的每個向量通過點積的方式進行相似性計算。

    最后,根據(jù)得到的權重系數(shù)對V′進行加權求和。

    (7)

    步驟3計算多頭注意力。

    將步驟1和步驟2循環(huán)計算h次得到的縮放點積注意力結果進行拼接,再進行一次線性映射得到h頭注意力的計算結果值M:

    M=Concat(M1,…,Mi,…,Mh)

    (8)

    (5)CRF層。

    CRF層通過引入狀態(tài)轉移矩陣獲得實體標簽之間的依賴關系,以提高命名實體識別效果,計算過程如下所示:

    步驟1給定網(wǎng)購評論語句(s1,…,si,…,sn),其中si表示網(wǎng)購評論語句的第i個詞語,使用CRF計算其所有的實體標簽序列(y1,…,yi,…,yn)的概率為:

    (9)

    其中,Tyi-1,yi表示從實體標簽yi-1成功轉移到實體標簽yi的分數(shù);Mi,yi是多頭注意力機制層輸出的矩陣元素,表示網(wǎng)購評論語句中第i個詞語為實體標簽yi的概率;Z(X)為規(guī)范化因子。

    (10)

    步驟2使用Viterbi算法[27]判斷最有可能出現(xiàn)的標簽序列,并將其作為最終的命名實體識別的標注結果。

    4 實驗結果及分析

    4.1 實驗數(shù)據(jù)及評價指標

    本節(jié)對所提出的方法進行了實驗驗證。實驗基礎語料來自于某電商平臺2017年4月28日至2018年6月28日某品牌型號手機的11 536條網(wǎng)購評論相關信息,包括商品ID、商品名稱、店鋪名稱、商品價格、商品月銷量、總評論數(shù)、評論內容、評論時間、商品評分、店鋪服務評分、物流評分、追評數(shù)、評論中圖片數(shù)量等信息。首先,本文對上述網(wǎng)購評論進行預處理,主要包括去噪、分詞處理和詞性標注3個部分,然后通過人工標注的方法對預處理后的詞進行標簽化處理,即將指代商品一般特性的詞作為屬性詞,標注為A;將指代商品屬性所持意見的詞作為觀點詞,標注為V;將程度副詞標注為C;將其他詞和標點符號統(tǒng)一標注為O。經(jīng)上述處理后形成的實驗數(shù)據(jù)實例如表1所示,其中,n表示名詞;d表示副詞;a表示形容詞等。隨機選取其中的80%組成訓練集,剩余20%組成測試集,各類別的標簽標注數(shù)量如表2所示。

    Table 1 Example of experimental data表1 實驗數(shù)據(jù)實例

    Table 2 Label quantity of experimental data表2 實驗數(shù)據(jù)標簽標注數(shù)量

    本文采用準確率(P)、召回率(R)和F1值3種在命名實體識別領域通用的評價指標來對所提出方法的性能進行評估。3種評價指標具體定義為:

    (11)

    (12)

    (13)

    4.2 超參數(shù)設置

    針對實驗語料特征選擇一組合適的超參數(shù)對于模型性能尤為重要。通過多次對比實驗不斷調整優(yōu)化參數(shù),模型表現(xiàn)最好的超參數(shù)設置方案如表3所示。

    Table 3 Super parameter setting表3 超參數(shù)設置

    4.3 實驗結果

    為驗證本文方法的有效性,將其與CRF、LSTM、BiLSTM、BiLSTM+CRF進行了5組對比實驗,具體實驗結果如表4所示。

    Table 4 Comparison of experimental results between the method in this paper and the mainstream methods表4 本文方法與主流方法的實驗結果對比 %

    從實驗結果可以看出,首先LSTM同CRF相比,其準確率、召回率和F1值分別提高了4.73%,7.24%和5.57%??梢?,在命名實體識別中LSTM比CRF更有優(yōu)勢,具有更好的遠程依賴關系,更能充分地提取和利用評論文本中的特征。其次,BiLSTM同LSTM相比,其準確率、召回率和F1值都有所提高,可見,BiLSTM通過正向LSTM和反向LSTM疊加,既保存了評論文本中過去的特征信息,又保存了文本中未來的特征信息,從而更充分地利用了上下文特征信息,其效果要優(yōu)于單向LSTM。通過BiLSTM和BiLSTM-CRF對比分析發(fā)現(xiàn),加入了CRF的BiLSTM比單一BiLSTM具有更好的效果,說明CRF模塊能夠通過聯(lián)合概率的計算,更加充分地利用標簽的相鄰信息和標簽之間的依賴關系,為BiLSTM預測的標簽添加限制,減少BiLSTM識別的錯誤結果。

    相比于上述方法,本文提出的方法由于在BiLSTM-CRF基礎上進一步引入了多頭注意力機制,不僅可以獲取文本的局部特征,而且實現(xiàn)了從多角度、多層面計算不同詞的特征向量的權重,提高重要特征的權重,從而抑制無用信息。盡管本文提出的方法增加了部分計算量和模型的復雜度,但是有效地解決了不同詞的特征向量對命名實體識別的貢獻程度不同以及特征抽取不全面的問題,并在實驗數(shù)據(jù)集上取得了更好的性能表現(xiàn)。

    5 結束語

    本文針對中文網(wǎng)購評論命名實體識別過程中重要詞匯可能被忽略而導致的后續(xù)分析任務效用下降問題,在深度學習模型BiLSTM-CRF的基礎上,通過引入多頭注意力機制,提出了一種多頭注意力機制和BiLSTM-CRF模型相結合的中文網(wǎng)購評論命名實體識別方法MA-BiLSTM-CRF,以提高網(wǎng)購評論中關鍵命名實體識別的效率和準確率。該方法在真實實驗語料上取得了較好的實驗效果。從如何更好地服務于網(wǎng)購評論分析的最終目的出發(fā),進一步提高關鍵性命名實體識別的準確率和識別效率將是下一步的重點研究工作。

    猜你喜歡
    網(wǎng)購命名注意力
    教老媽網(wǎng)購
    讓注意力“飛”回來
    命名——助力有機化學的學習
    網(wǎng)購寒假作業(yè)
    網(wǎng)購寒假作業(yè)
    網(wǎng)購那些事兒
    商周刊(2018年23期)2018-11-26 01:22:22
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    散文詩(2017年17期)2018-01-31 02:34:08
    “揚眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    A Beautiful Way Of Looking At Things
    蓬莱市| 阿克苏市| 蓝山县| 松阳县| 奎屯市| 崇阳县| 镇安县| 皋兰县| 太和县| 涟源市| 千阳县| 淮滨县| 邛崃市| 平山县| 石林| 芜湖市| 敦煌市| 双城市| 阿拉善左旗| 和龙市| 长春市| 达拉特旗| 财经| 南川市| 元朗区| 多伦县| 汉阴县| 辉南县| 天津市| 雷山县| 马龙县| 民乐县| 西城区| 澄迈县| 荣昌县| 祁东县| 临夏县| 常宁市| 翁牛特旗| 巴青县| 封开县|