• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT的高校圖書館微信信息服務(wù)的命名實(shí)體識(shí)別方法

      2023-03-29 13:10:14李東升鮑玉來劉建華等
      現(xiàn)代情報(bào) 2023年4期
      關(guān)鍵詞:高校圖書館

      李東升 鮑玉來 劉建華等

      關(guān)鍵詞: 命名實(shí)體識(shí)別; 高校圖書館; 微信服務(wù); BERT; 雙向長(zhǎng)短記憶網(wǎng)絡(luò); 條件隨機(jī)場(chǎng)

      DOI:10.3969 / j.issn.1008-0821.2023.04.007

      〔中圖分類號(hào)〕TP391.1 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 04-0064-13

      隨著互聯(lián)網(wǎng)技術(shù)的不斷普及和發(fā)展, 網(wǎng)絡(luò)信息服務(wù)已成為高校圖書館重要的服務(wù)新模式[1] 。高校圖書館重視智慧服務(wù)的研究工作逐漸增強(qiáng), 它是一種知識(shí)服務(wù)的新模式, 通過利用先進(jìn)的信息技術(shù)和圖書館的資源, 以主動(dòng)的搜尋、嵌入式的服務(wù)、有效的信息分析和創(chuàng)新為基礎(chǔ)實(shí)現(xiàn)圖書館的智能化服務(wù), 促使高校圖書館開展更加豐富的實(shí)踐[2-4] 。命名實(shí)體識(shí)別(Name Entity Recognition, NER)作為文本信息識(shí)別的技術(shù)方法, 是正確理解文本的基礎(chǔ),也是智慧化服務(wù)的知識(shí)引擎[5] 。NER 技術(shù)是將實(shí)體類型預(yù)先定義, 能夠?qū)崿F(xiàn)在大量的半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)中識(shí)別出不同的實(shí)體, 因而廣泛應(yīng)用于知識(shí)圖譜、智能問答、機(jī)器翻譯、對(duì)話和信息檢索等復(fù)雜的自然語(yǔ)言處理任務(wù)[6-8] 。網(wǎng)絡(luò)信息資源為高校圖書館信息服務(wù)拓展提供了大量的圖情類文本信息, 借助NER 技術(shù), 圖書館工作人員能夠從大量的相關(guān)文本信息中快速識(shí)別出領(lǐng)域內(nèi)有價(jià)值的知識(shí),在圖書館服務(wù)模式的推廣與應(yīng)用中具有較大的參考價(jià)值。圖書館的服務(wù)能否及時(shí)和高效地利用網(wǎng)絡(luò)信息資源, 并借鑒新的服務(wù)發(fā)展模式, 有效滿足用戶新的信息需求, 將成為其保持對(duì)用戶吸引力和有效性的關(guān)鍵[9] 。高校圖書館微信移動(dòng)信息服務(wù)是各大高校圖書館拓展服務(wù)的重要平臺(tái), 為圖書館服務(wù)的開展提供了有效的方式, 是便捷的信息獲取和資源共享的可靠平臺(tái)。高校圖書館可以利用命名實(shí)體識(shí)別技術(shù), 有針對(duì)性地從其豐富的知識(shí)、多樣的信息資源中挖掘知識(shí), 形成知識(shí)服務(wù)產(chǎn)品, 為其服務(wù)拓展、優(yōu)化和創(chuàng)新提供參考依據(jù)。

      基于深度學(xué)習(xí)的命名實(shí)體識(shí)別技術(shù), 在文本信息上特征提取的深度和模型的精確度的優(yōu)異表現(xiàn),已成為有序、有效地利用信息資源的重要方法[10] 。2013 年, Mikolov T 等[11] 提出模型Word2vec, 該模型采用skip-Gram 或CBOW 模型預(yù)測(cè)詞匯并通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練相應(yīng)的嵌入向量, 在命名實(shí)體識(shí)別方面取得良好的效果。在詞訓(xùn)練方面, 如Glove、Fast?text 等模型在命名實(shí)體識(shí)別中有較多的嘗試應(yīng)用,均有較大的研究進(jìn)展[12] 。然而, Word2vec 等預(yù)訓(xùn)練模型仍然存在無(wú)法表征一詞多義的問題, 因?yàn)樗鼈冎饕P(guān)注的是詞或者字符之間的特征, 而忽略了詞的上下文語(yǔ)境, 導(dǎo)致其實(shí)體識(shí)別能力有限。在中文命名實(shí)體識(shí)別自然語(yǔ)言處理領(lǐng)域, 相比英文存在較多困難, 英文的詞語(yǔ)構(gòu)造形式比中文在實(shí)體命名識(shí)別方面體現(xiàn)出更多的語(yǔ)義信息[13] 。Su T R 等[14]基于漢字字形學(xué)習(xí)特征, 在詞向量方面的研究對(duì)中文文本在訓(xùn)練出現(xiàn)的語(yǔ)義特征所存在的困難和問題有較好的效果; Yu J 等[15] 研究提出一種組合學(xué)習(xí)語(yǔ)義特征的狀態(tài)和更加細(xì)粒度的Subcharacter 的方法, 并學(xué)習(xí)了中文在語(yǔ)言相似性和語(yǔ)言特征融合任務(wù)上詞向量任務(wù)。在實(shí)體命名識(shí)別領(lǐng)域中, BERT在詞向量訓(xùn)練方面有效解決一詞多義的問題, 是一種基于序列到序列模式(Seq2Seq)結(jié)構(gòu)上的創(chuàng)新。

      2018年, Google團(tuán)隊(duì)提出基于注意力機(jī)制的Trans?formers[16] 模型的BERT(Bidirectional Encoder Repre?sentations from Transformers), 不同于傳統(tǒng)的RNN和CNN(卷積神經(jīng)網(wǎng)絡(luò)), 該模型使用了Transform?ers 作為算法的主要框架, 增強(qiáng)預(yù)訓(xùn)練詞向量模型的泛化能力, 使得模型能夠更徹底地捕捉語(yǔ)句中的雙向關(guān)系, 更好地表征不同語(yǔ)境中的句法和語(yǔ)義信息。通過BERT訓(xùn)練詞向量, 對(duì)前后文本的預(yù)測(cè)考慮了前后雙向的輸入信息, 體現(xiàn)出語(yǔ)境不同所含有相同詞的語(yǔ)法或字詞。因此, 在實(shí)體識(shí)別領(lǐng)域, 許多學(xué)者基于BERT 訓(xùn)練模型學(xué)習(xí)詞向量的分布, 以提高實(shí)體識(shí)別的精度。黃梅根等[17] 基于BERT優(yōu)化模型, 采用關(guān)系分類與元素抽取兩個(gè)任務(wù)模型進(jìn)行命名實(shí)體識(shí)別, 取得了較好的效果。岳琪等[18]基于BERT改進(jìn)與雙向RNN模型分析林業(yè)實(shí)體識(shí)別和實(shí)體關(guān)系的抽取, 并驗(yàn)證了該領(lǐng)域內(nèi)構(gòu)建知識(shí)圖譜的可行性。在警情領(lǐng)域關(guān)鍵實(shí)體文本中, 王月等[19] 使用了BERT 預(yù)訓(xùn)練詞向量, 模型在命名實(shí)體識(shí)別研究方法上設(shè)計(jì)了不同方案以提高準(zhǔn)確率。

      以上不同研究領(lǐng)域的命名實(shí)體識(shí)別方法為本文在高校圖書館微信信息服務(wù)進(jìn)行命名實(shí)體識(shí)別提供了參考。目前, 在高校圖情領(lǐng)域命名實(shí)體識(shí)別的研究中, 由于缺乏對(duì)領(lǐng)域?qū)嶓w語(yǔ)料庫(kù)的研究, 提升實(shí)體識(shí)別效果存在較大的難度, 如文本中隱含的信息實(shí)體類別無(wú)法充分識(shí)別、數(shù)據(jù)量小、人工標(biāo)注成本高等。為了解決高校圖情領(lǐng)域的命名實(shí)體識(shí)別問題, 針對(duì)高校圖情領(lǐng)域語(yǔ)料資源缺乏、人工標(biāo)注難以滿足等對(duì)提升領(lǐng)域?qū)嶓w識(shí)別效果的情況下, 通過知識(shí)規(guī)則具體定義實(shí)體的邊界, 本文構(gòu)建了高校圖書館微信服務(wù)推文文本的數(shù)據(jù)集ULICNER。由于BERT 具有較強(qiáng)的語(yǔ)義表達(dá)能力, 利用BERT學(xué)習(xí)大規(guī)模文本后生成具有語(yǔ)義特征的字符向量, 接著通過BiLSTM 層對(duì)BERT的輸入文本序列學(xué)習(xí)獲取上下文的文本特征, 最后通過連接CRF 層得到最佳的序列輸出。因此, 本文采用基于BERT-BiLSTMCRF模型構(gòu)建高校圖書館微信信息服務(wù)文本中命名實(shí)體的方法, 完成高校圖書館微信服務(wù)領(lǐng)域的命名實(shí)體識(shí)別任務(wù)。

      1文本數(shù)據(jù)集的采集與分析

      1.1數(shù)據(jù)的來源

      高校圖書館服務(wù)信息的文本不同于其他領(lǐng)域文本, 具有服務(wù)多樣性、規(guī)律性、客觀性, 這對(duì)其文本的語(yǔ)義識(shí)別技術(shù)使用產(chǎn)生了較大影響。為保證數(shù)據(jù)的可靠性和準(zhǔn)確性, 本文參考了基于教育部的《普通高等學(xué)校圖書館規(guī)程》[20] 和圖書情報(bào)檢索領(lǐng)域內(nèi)的《中國(guó)圖書館分類法》[21] 的語(yǔ)義分類方法和詞語(yǔ)用法。數(shù)據(jù)文本的采集通過清博指數(shù)平臺(tái)上的高校圖書館微信服務(wù)公眾號(hào)榜單[22] , 該榜單涵蓋了全國(guó)開通微信服務(wù)的946 所高校, 從中爬取了涵蓋高校圖書館對(duì)服務(wù)范圍、用戶需求、業(yè)務(wù)能力和文化推廣等方面的36 000多條文本, 約60萬(wàn)字符。

      1.2文本的實(shí)體特征分析

      由于不同領(lǐng)域文本的實(shí)體有不同的特點(diǎn), 高校圖書館服務(wù)領(lǐng)域語(yǔ)料與醫(yī)療、司法和輿情等其他領(lǐng)域存在不同的特征, 它們之間相互的詞匯重疊的相似度較低[23] 。因此, 詞分布不同的領(lǐng)域文本實(shí)體識(shí)別效果會(huì)在模型中體現(xiàn)出不同的特征, 進(jìn)而需要設(shè)計(jì)不同的實(shí)體識(shí)別方法和分類。如實(shí)體類的“文化” 指圖書館文化交流活動(dòng), 是各種活動(dòng)通知、沙龍互動(dòng)交流、新聞、黨建、學(xué)術(shù)交流、競(jìng)賽、文化活動(dòng)、文化環(huán)境和文化展覽等, 其他各類實(shí)體的含義及示例如表1所示。

      1.3數(shù)據(jù)文本的標(biāo)注

      本文基于BIO 法對(duì)高校圖書館微信服務(wù)推文文本的數(shù)據(jù)集ULICNER 進(jìn)行標(biāo)記。由于獲取的特定數(shù)據(jù)文本進(jìn)行標(biāo)注任務(wù)常采用純?nèi)斯?biāo)注的方法, 在質(zhì)量控制方面存在效率低和錯(cuò)誤率高的問題[24] 。本文的標(biāo)注人員由圖情方向的老師、專家和機(jī)器學(xué)習(xí)方向老師3 名成員組成, 領(lǐng)域內(nèi)標(biāo)記開始前需要經(jīng)過前期軟件操作培訓(xùn)和標(biāo)注規(guī)則的熟悉。數(shù)據(jù)文本的標(biāo)注工作持續(xù)了50 天, 平均每天完成700 多條文本句子。為確保標(biāo)注質(zhì)量和降低標(biāo)注成本, 保證實(shí)體標(biāo)注結(jié)果的一致性, 本文采用基于詞典規(guī)則與人工修正相結(jié)合的半自動(dòng)標(biāo)注方式,構(gòu)建高校圖書館微信推文文本數(shù)據(jù)集。首先, 在標(biāo)注語(yǔ)料庫(kù)前, 根據(jù)詞典與規(guī)則匹配方法, 預(yù)先采集了領(lǐng)域內(nèi)的實(shí)體名稱和實(shí)體標(biāo)簽, 此部分實(shí)體有600多個(gè)類目; 其次, 根據(jù)構(gòu)建的匹配規(guī)則與所標(biāo)注的數(shù)據(jù)本文進(jìn)行自動(dòng)實(shí)體標(biāo)記; 最后, 還需對(duì)自動(dòng)匹配結(jié)果中可能出現(xiàn)的錯(cuò)誤標(biāo)注、漏標(biāo)注等問題以人工校驗(yàn)的方式進(jìn)一步作調(diào)整和改進(jìn), 且隨著文本被標(biāo)注校驗(yàn)正確后, 還會(huì)與預(yù)先定義的實(shí)體合并形成動(dòng)態(tài)更新的領(lǐng)域知識(shí)庫(kù), 進(jìn)而在隨后的文本過程中自動(dòng)匹配效率得到快速提升。具體實(shí)體標(biāo)注過程如圖1 所示。

      數(shù)據(jù)集基于BIO 規(guī)則對(duì)語(yǔ)言序列進(jìn)行標(biāo)注,其中, B-begin 代表實(shí)體的開頭; I-inside 代表實(shí)體的中間或結(jié)尾; O-outside 代表不屬于實(shí)體, 如以句子“圖書館寒假閉館通知” 為例, 其序列標(biāo)注如圖2所示。

      利用以上方法將高校圖情語(yǔ)料中的文本實(shí)體描述進(jìn)行識(shí)別, 最終構(gòu)建了ULICNER 語(yǔ)料集, 數(shù)據(jù)的標(biāo)簽包含7 個(gè)粗粒度分類和16 個(gè)細(xì)粒度分類,如表2 所示。

      另外, 本實(shí)驗(yàn)使用數(shù)據(jù)集按照8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。領(lǐng)域命名實(shí)體的數(shù)據(jù)集中每一行由兩列組成, 數(shù)據(jù)的兩列之間采用空格隔開, 其中第一列為文本內(nèi)容, 第二列是BIO格式的標(biāo)簽序列, 句子邊界用空行標(biāo)識(shí)。數(shù)據(jù)集組成情況如表3 所示。

      2BERT-BiLSTM-CRF語(yǔ)言模型

      本文研究采用的BERT-BiLSTM-CRF 模型探索高校圖書館微信文本信息實(shí)體識(shí)別, 如圖3 所示。首先, 使用BERT 預(yù)訓(xùn)練模型, 獲取每一個(gè)標(biāo)識(shí)的向量表示特征, 即字向量表示層; 然后, 輸入BiL?STM 模型學(xué)習(xí)文本之間的關(guān)系, 即基于BiLSTM(考慮雙向的LSTM)建模以提取語(yǔ)義和結(jié)構(gòu)特征;最后, 基于CRF 的解碼層輸出預(yù)測(cè)的標(biāo)簽序列,獲取每個(gè)標(biāo)識(shí)的分類結(jié)果。

      為了便于理解本文BERT-BiLSTM-CRF 模型構(gòu)建, 表4 具體解釋了模型流程, 包括輸入文本批量數(shù), 維度轉(zhuǎn)換以及輸出的過程。

      2.1 BERT 預(yù)訓(xùn)練模型

      由于BERT 在自然語(yǔ)言處理方面具有很強(qiáng)的語(yǔ)義表征優(yōu)勢(shì), 在文本輸入訓(xùn)練層的Embedding 層采用BERT 進(jìn)行預(yù)訓(xùn)練, 產(chǎn)生詞向量, 獲取語(yǔ)境化的詞向量來提高實(shí)體識(shí)別的性能。BERT 采用了Transformer 的雙向編碼器表示, 在自然語(yǔ)言處理研究中取得很高的成就[25] 。BERT 通過所有Trans?former 層左右上下文共同調(diào)節(jié), 來預(yù)訓(xùn)練深度雙向表示, 不依賴于時(shí)間序列, 并在較長(zhǎng)上下文本處理中具有較大優(yōu)勢(shì), 可以更好地提升語(yǔ)義表征水平。BERT 訓(xùn)練通常分為兩步, 首先對(duì)模型進(jìn)行預(yù)訓(xùn)練(Pretraining BERT), 其次在預(yù)訓(xùn)練的基礎(chǔ)上, 根據(jù)下游任務(wù)進(jìn)行模型微調(diào)(Fine-tuning BERT)。

      傳統(tǒng)語(yǔ)言模型訓(xùn)練采用單向方式或者拼接的方式, 但這種模型從left-to-right, 或left-to-right+right-to-left 結(jié)合的方式提取特征的能力有限, 而Pre-training BERT 采用一個(gè)深度雙向表達(dá)模型(Deep Bidirectional Representation), 即采用MaskedLM(帶Mask 的語(yǔ)言模型訓(xùn)練任務(wù))和Next SentencePrediction(下一句話預(yù)測(cè)任務(wù), NSP)兩種方法分別完成在BERT 訓(xùn)練的構(gòu)建, 具有較大的創(chuàng)新, 并且效果比較好。

      本文在預(yù)訓(xùn)練模型考慮多個(gè)句子區(qū)分級(jí)別的任務(wù), 因此, 使用Masked LM 和NSP 進(jìn)行模型預(yù)訓(xùn)練。Masked LM 的任務(wù)機(jī)制在訓(xùn)練時(shí), 給定一個(gè)句子, 會(huì)隨機(jī)Mask(掩碼)15%的詞, 然后采用BERT來預(yù)測(cè)這些Mask 的詞。在這些被選中的Token 中,數(shù)據(jù)生成器并不是把它們?nèi)孔兂桑郏停粒樱耍荨Mǔ4嬖冢?種情況: 其一, 在80%的概率下, 用[MASK]標(biāo)記替換該Token(圖書館暑假閉館>圖書館暑假[MASK] [MASK]); 其二, 在10%的概率下, 用一個(gè)隨機(jī)的單詞替換Token(如: 圖書館暑假閉館>圖書館暑假通知); 其三, 在10%的概率下, 保持該Token 不變(如: 圖書館暑假閉館>圖書館暑假閉館)。Masked LM 模型在訓(xùn)練的過程中, 并不知道將要預(yù)測(cè)哪些單詞。正是在這樣一種高度不確定的情況下, 模型能快速學(xué)習(xí)該Token 的分布式上下文的語(yǔ)義, 最大化地學(xué)習(xí)原始語(yǔ)言語(yǔ)義表征。同時(shí)因?yàn)樵嘉谋局兄挥校保担サ模裕铮耄澹?參與MASK 操作, 并不影響學(xué)習(xí)原語(yǔ)言的表達(dá)能力和語(yǔ)言規(guī)則。

      BERT 引入NSP(下一句話預(yù)測(cè)任務(wù))任務(wù), 采用的方式是輸入句子對(duì)(A, B), 模型來預(yù)測(cè)句子B是不是句子A 的真實(shí)的下一句話。為了更好地實(shí)現(xiàn)文本的實(shí)體命名識(shí)別, 需要模型能夠很好地理解兩個(gè)句子之間的關(guān)系, 故采用NSP 模型在對(duì)應(yīng)的任務(wù)有良好的效果。NSP模型通過預(yù)訓(xùn)練方法來捕捉兩個(gè)句子的聯(lián)系, 如有A和B兩個(gè)句子, B 有50%的可能性是A 的下一句, 訓(xùn)練模型是為了預(yù)測(cè)B是不是A的下一句, 使模型增強(qiáng)對(duì)上下文聯(lián)系的能力。

      另外, 在命名實(shí)體識(shí)別任務(wù)中, 模型微調(diào)通過Transformer中的Self-attention 機(jī)制提供的BERT 對(duì)其下游任務(wù)進(jìn)行建模, 無(wú)論他們包含單個(gè)文本或多個(gè)文本, 只需要替換掉輸入和輸出。對(duì)于每個(gè)任務(wù), 需將特定于任務(wù)的輸入和輸出插入到BERT中, 并對(duì)所有參數(shù)進(jìn)行端到端微調(diào)。本文模型考慮多個(gè)句子區(qū)分級(jí)別的任務(wù), 并分別給每個(gè)句子的字符進(jìn)行標(biāo)注標(biāo)簽。句子起始的Token 均為特殊分類標(biāo)記(Classification Token, [CLS]), 結(jié)束的Token均為特殊令牌(Special Token, [SEP])。句子的輸入過程包含將句子輸入到BERT 模型的原有靜態(tài)詞向量編碼(Token Embeddings, 表示字向量, 第一個(gè)單詞是[CLS]標(biāo)志)和位置編碼(Position Embed?dings, 表示位置向量, 是通過學(xué)習(xí)得出), 另外還加入了語(yǔ)句分割編碼(Segment Embeddings, 句向量, 用來區(qū)別兩種句子), 整個(gè)模塊的輸出結(jié)果是3 種Embedding 編碼之和, 如圖4所示。

      2.2 BiLSTM 模型

      BiLSTM 模型是由兩個(gè)獨(dú)立的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM, Directional Long Short-term Memory) 模型組合而成, 一個(gè)正向去處理序列, 一個(gè)反向去處理序列, 處理完后, 兩個(gè)LSTM 的輸出拼接起來形成的詞向量作為該詞的最終特征表達(dá)。另外, BiL?STM 中的兩個(gè)LSTM 神經(jīng)網(wǎng)絡(luò)參數(shù)是相互獨(dú)立的,它們只共享由BERT 預(yù)訓(xùn)練層輸入的Word-embed?ding 詞向量信息。1997 年, 針對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, Recurrent Neural Networks)的梯度消失和梯度爆炸問題, Hochreiter S 等[26] 提出了該改進(jìn)模型, 模型對(duì)文本特征提取效率和性能要優(yōu)于單個(gè)LSTM 結(jié)構(gòu)模型, 取得良好的效果, 其LSTM 原理結(jié)構(gòu)如圖5 和圖6所示。

      在自然語(yǔ)言處理的實(shí)際應(yīng)用中,發(fā)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)存在如梯度消失、梯度爆炸以及長(zhǎng)距離依賴信息能力差等問題, 因此引入了長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)。該模型是RNN 的一種改進(jìn), 內(nèi)部結(jié)構(gòu)擁有更長(zhǎng)的記憶, 梯度消失問題得到優(yōu)化。LSTM 在主體結(jié)構(gòu)上與RNN 類似, 其主要的改進(jìn)是在隱藏層h 中增加了3 個(gè)門控(Gates)結(jié)構(gòu), 分別是遺忘門(Forget Gate)、輸入門(Input Gate)、輸出門(OutputGate), 同時(shí)新增了一個(gè)隱藏狀態(tài)(Cell State)。LSTM 隱藏層結(jié)構(gòu)原理如圖5 所示, f(t)表示t 時(shí)刻遺忘門, 可以選擇性地遺忘一些信息, 其值范圍是0~1; i(t)表示t 時(shí)刻輸入門, 可以添加新的信息,如假設(shè)輸入10 個(gè)元素信息和原來的4 個(gè)全連接層(假設(shè)是隱藏單元個(gè)數(shù)一致的128 個(gè)神經(jīng)元, 輸出都是128 個(gè)元素的向量)進(jìn)行拼接, 給C 中傳入更新的信息(138 個(gè)元素的一維向量); 輸出門o(t)依賴前一個(gè)狀態(tài)向量h(t-1)和更新的輸入信息x(t), 是長(zhǎng)短期“記憶” 的更新變化; a(t)表示t 時(shí)刻對(duì)h(t-1)和x(t)的初步特征的提取, 會(huì)作為下一時(shí)刻(t+1)的輸入之一。具體的計(jì)算過程如下:

      3.3實(shí)驗(yàn)結(jié)果

      本文采用的BERT-BiLSTM-CRF 有效地提升了高校圖書館微信推文文本數(shù)據(jù)集實(shí)體命名識(shí)別的效果。為驗(yàn)證分析, 研究還設(shè)計(jì)了4 種不同模型性能比較, 分別是: ①CRF 模型, 該模型定義一個(gè)特征函數(shù)的集合, 用這個(gè)帶約束作用的特征函數(shù)集合來為一個(gè)標(biāo)注序列打分, 并據(jù)此選出最佳的標(biāo)注序列; ②BiLSTM 模型, 該模型為LSTM 的雙向考慮模型, 依靠神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力, 可以將樣本的高維空間復(fù)雜非線性變換, 該模型將樣本標(biāo)注進(jìn)行學(xué)習(xí)并預(yù)測(cè); ③BiLSTM-CRF 模型, 經(jīng)典的實(shí)體命名提取模型, 該模型通過加入CRF 層優(yōu)化了LSTM 層在序列標(biāo)注學(xué)習(xí)任務(wù)過程, 學(xué)習(xí)隱含狀態(tài)序列的特征; ④BERT-CRF 模型, 該模型與BiLSTM-CRF 模型較為相似, 其本質(zhì)上還是一個(gè)CRF 模型, 只是采用BERT 模型來訓(xùn)練CRF 模型中的發(fā)射矩陣。實(shí)驗(yàn)結(jié)果如表5 所示。

      由表5 可知, BiLSTM-CRF 模型結(jié)合了BiL?STM 模型和CRF 模型的優(yōu)點(diǎn), 準(zhǔn)確率為94.17%,高于后兩種模型91.26% 和93.18% 的準(zhǔn)確率;BERT-CRF 模型通過BERT 預(yù)訓(xùn)練模型, 在學(xué)習(xí)到狀態(tài)序列(輸出的標(biāo)注)之間的關(guān)系效果好于BiL?STM 模型, 其準(zhǔn)確率提高到了97.85%; BERT -BiLSTM-CRF 模型能夠并行獲取并優(yōu)化全局信息,其準(zhǔn)確率、召回率和F1 值都是最高的, 分別為98.59%、98.91%和98.75%。另外, 相比BERTCRF模型沒有對(duì)BERT 預(yù)訓(xùn)練輸出結(jié)果進(jìn)行上下文關(guān)系的匹配, 本文模型在準(zhǔn)確率、召回率和F1 值上分別提升了0.74%、0.99%和0.76%。因此, 采用BERT-BiLSTM-CRF 模型的實(shí)驗(yàn)結(jié)果可以看出,通過BERT模型對(duì)輸入的詞向量進(jìn)行訓(xùn)練后的結(jié)果導(dǎo)入到BiLSTM-CRF 模型, 得出的結(jié)果更準(zhǔn)確。

      為有效分析本文模型在測(cè)試集上的實(shí)體識(shí)別效果, 通過實(shí)例分析命名實(shí)體標(biāo)記結(jié)果的具體表現(xiàn)進(jìn)行呈現(xiàn)。為突顯高校圖書館微信信息服務(wù)的特色和影響力, 隨機(jī)選出兩篇高校圖書館在榜單中影響力排名靠前的微信推文, 具體結(jié)果如表6 所示。

      由表6 可見, 本文通過命名實(shí)體識(shí)別技術(shù)應(yīng)用, 分別實(shí)例分析了兩類不同辦學(xué)層次高校圖書館微信推文的實(shí)體識(shí)別效果, 并以此較為全面地提取了高校圖書館服務(wù)平臺(tái)上的領(lǐng)域內(nèi)容介紹中的各類專業(yè)名詞術(shù)語(yǔ), 極大地豐富了圖書館知識(shí)服務(wù)。其中, 北京大學(xué)圖書館發(fā)布的“靈氣所鐘—山東臨朐紅絲硯歷史文化展” 微信推文取得良好的社會(huì)影響, 閱讀量和點(diǎn)贊量非常高, 有效地實(shí)現(xiàn)文化傳播在高校圖書館的推廣和應(yīng)用, 其微信推文的實(shí)體識(shí)別效果如圖7 所示。同時(shí), 該文的知識(shí)發(fā)現(xiàn)可以推薦作為高校圖書館微信信息服務(wù)與地方特色歷史文化相結(jié)合, 為讀者提供了便捷的信息分享?xiàng)l件,提升讀者的關(guān)注, 實(shí)現(xiàn)資源共享和服務(wù)推廣等。另外, 信陽(yáng)師范學(xué)院圖書館發(fā)布的“關(guān)于師院的獨(dú)家地理知識(shí), 你知道多少?” 微信推文的影響力較佳, 在閱讀量不高的情況下取得較高的點(diǎn)贊量, 深受讀者的歡迎, 該文介紹了校內(nèi)特色人文地理環(huán)境, 借鑒圖書館微信平臺(tái)宣傳吸引當(dāng)?shù)刈x者的注意, 能夠引起讀者的共鳴, 塑造良好的校園環(huán)境,也是高校圖書館信息服務(wù)過程和信息服務(wù)創(chuàng)新模式的有效策略, 該文的實(shí)體識(shí)別效果如圖8所示。因此, 通過分析高校圖書館微信平臺(tái)具有影響力的推文, 采集具有特色和影響力的推文實(shí)體, 可以實(shí)現(xiàn)高校圖書館服務(wù)內(nèi)容的結(jié)構(gòu)化呈現(xiàn), 為圖書館特色服務(wù)和發(fā)展模式的拓展提供了可借鑒的資源獲取和利用平臺(tái)。采用命名實(shí)體識(shí)別技術(shù), 通過進(jìn)一步挖掘信息資源的各類實(shí)體關(guān)系, 如構(gòu)建高校圖書館知識(shí)圖譜, 實(shí)現(xiàn)信息資源的實(shí)體之間更深層次和更大范圍的關(guān)聯(lián), 優(yōu)化領(lǐng)域內(nèi)的內(nèi)容推薦、檢索等服務(wù)質(zhì)量, 提升圖書館知識(shí)服務(wù)的發(fā)現(xiàn)能力。

      3.4各類實(shí)體識(shí)別結(jié)果

      為明確本文的不同模型對(duì)不同類別實(shí)體的識(shí)別效果, 本文通過準(zhǔn)確率、召回率和F1 值3 個(gè)指標(biāo)對(duì)不同類別實(shí)體識(shí)別進(jìn)行了對(duì)比分析, 結(jié)果如表7所示。本文模型在用戶、時(shí)間、機(jī)構(gòu)和地址等實(shí)體識(shí)別的準(zhǔn)確率、召回率和F1 值都較高, 而只是對(duì)實(shí)體數(shù)較少的服務(wù)簡(jiǎn)稱(SER_JC)的實(shí)體識(shí)別評(píng)價(jià)指標(biāo)的數(shù)值偏低, 可能與該實(shí)體數(shù)量偏少有關(guān), 存在降低實(shí)體分類能力, 該實(shí)體識(shí)別的準(zhǔn)確率、召回率和F1 值分別為80.00%、100.00%和88.89%。可見, 本文采用的BERT-BiLSTM-CRF 模型對(duì)高校圖書館微信服務(wù)的推文文本信息中各類不同實(shí)體的識(shí)別效率效果良好。

      4結(jié)語(yǔ)

      針對(duì)高校圖書館服務(wù)領(lǐng)域內(nèi)實(shí)體名稱多樣、特征信息提取不明確的問題, 將高校圖情領(lǐng)域的數(shù)據(jù)集預(yù)先定義為7 個(gè)粗粒度分類和16 個(gè)細(xì)粒度分類,并進(jìn)行了實(shí)體識(shí)別標(biāo)注, 數(shù)據(jù)集涵蓋領(lǐng)域內(nèi)的服務(wù)內(nèi)容, 用戶需求、業(yè)務(wù)能力和文化推廣等方面。

      高校圖書館如何有效地整合服務(wù)推廣平臺(tái)信息, 使服務(wù)模式的重要信息聯(lián)系起來, 是高校圖書館移動(dòng)信息服務(wù)提高的關(guān)鍵。因此, 本文以BERTBiLSTM-CRF 模型作為高校圖書館微信推文文本實(shí)體識(shí)別方法。首先, 采用BERT 預(yù)訓(xùn)練模型, 獲取每一個(gè)標(biāo)識(shí)的向量表示特征; 然后, 基于BiLSTM層以提取更加準(zhǔn)確的語(yǔ)義和結(jié)構(gòu)特征; 最后, 使用CRF 層輸出預(yù)測(cè)的標(biāo)簽序列, 獲取高校圖情微信服務(wù)領(lǐng)域的實(shí)體識(shí)別中存在的特征關(guān)系進(jìn)行約束,進(jìn)一步提高了實(shí)體識(shí)別的提取效率。另外, 本文模型提升了高校圖書館信息服務(wù)領(lǐng)域命名實(shí)體識(shí)別效果, 并實(shí)例分析了高校圖書館微信推文在知識(shí)服務(wù)過程中的發(fā)現(xiàn)能力。本文下一步的研究?jī)?nèi)容主要有兩個(gè)方面: 一是如何解決數(shù)據(jù)集實(shí)體中數(shù)量不平衡問題; 二是提高模型的實(shí)體識(shí)別效率, 同時(shí)提高標(biāo)注的準(zhǔn)確率, 如訓(xùn)練耗時(shí)長(zhǎng)、參數(shù)冗余和資源成本高等方面進(jìn)行模型改進(jìn), 為自然語(yǔ)言處理技術(shù)在高校圖書館服務(wù)領(lǐng)域中的應(yīng)用提供方案。

      猜你喜歡
      高校圖書館
      讀者協(xié)會(huì)參與高校圖書館閱讀推廣工作的功能探析
      中文電子書館配市場(chǎng)發(fā)展探析
      出版廣角(2016年15期)2016-10-18 00:19:57
      高校圖書館閱讀推廣案例分析
      科技視界(2016年21期)2016-10-17 19:32:37
      微信公眾平臺(tái)在高校圖書館信息服務(wù)中的應(yīng)用研究
      科技視界(2016年21期)2016-10-17 19:25:20
      淺談高校圖書館辦公室的重要性
      商(2016年27期)2016-10-17 06:39:10
      高校圖書館閱讀推廣活動(dòng)研究
      商(2016年27期)2016-10-17 06:38:27
      試論高校圖書館在網(wǎng)絡(luò)環(huán)境沖擊下的人文建設(shè)
      商(2016年27期)2016-10-17 06:30:59
      淺談高校圖書館隨書光盤的編目與管理作用
      當(dāng)代高校圖書館“大閱讀”服務(wù)模式探討
      高校圖書館閱讀推廣實(shí)踐探討
      科技視界(2016年20期)2016-09-29 13:17:57
      泉州市| 远安县| 阿城市| 遵义县| 合江县| 张掖市| 弥勒县| 莱芜市| 分宜县| 安多县| 抚松县| 双牌县| 饶平县| 长岛县| 饶阳县| 腾冲县| 阜阳市| 宜良县| 泰宁县| 资兴市| 土默特左旗| 柳州市| 姚安县| 涞源县| 临江市| 泗洪县| 廉江市| 达尔| 尤溪县| 郴州市| 依安县| 信阳市| 瑞丽市| 栖霞市| 城口县| 盐亭县| 花莲县| 清苑县| 鄂伦春自治旗| 城步| 色达县|