摘要:隨著2022年冬奧會的到來,冬奧會新聞數(shù)據(jù)急劇增加。從冬奧會新聞數(shù)據(jù)中提取實體并進行可視化,對研究冬奧會進度具有重要作用。針對冬奧會新聞數(shù)據(jù)實體識別問題,提出基于BERT-BiLSTM-CRF命名實體識別模型。根據(jù)實體識別結(jié)果,從時間和空間兩方面分析冬奧會新聞文本數(shù)據(jù),可視化地展示此次冬奧會的相關(guān)信息。在時間維度,通過在新聞中提取的時間日期制作日歷圖,以時間作為支撐了解不同時間節(jié)點的事件頻率。在空間維度,通過對新聞文本中地點的提取進行地理統(tǒng)計分析,直觀地了解新聞事件的空間分布。
關(guān)鍵詞:冬奧會新聞;網(wǎng)絡(luò)爬蟲;命名實體識別;可視化;地理統(tǒng)計分析
中圖分類號:TP391? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)07-0085-04
1 概述
北京冬奧會作為中國第一次舉辦的冬奧會,一直深受社會廣泛關(guān)注。冬奧會新聞持續(xù)時間長,可獲取的新聞文本多。新聞的寫作特點是描述事件,其中會包含大量時間、地點等描述時間特征以及空間特征的要素[1],因此識別新聞數(shù)據(jù)中的關(guān)鍵因素對研究2022年冬奧會發(fā)展過程具有重要意義。
命名實體識別通常認為是從一段非結(jié)構(gòu)化文本中識別出實體信息。識別實體的過程中,首先人為劃分邊界確定實體的范圍,再將實體分配到空間類型或時間類型中[2]。近年來,深度學習在命名實體識別領(lǐng)域的應(yīng)用越來越廣泛,使用預(yù)訓練詞向量技術(shù)替代人工提取特征,可以提高工作效率。王傳濤等人[3]通過BERT對簡歷信息進行字符集編碼,得到基于上下文信息的字向量,通過雙向長短時記憶網(wǎng)絡(luò)對生成的字向量進行特征提取,將所有可能的標簽序列打分輸出給條件隨機場,最后通過CRF進行解碼生成實體標簽。文獻[4]根據(jù)生物領(lǐng)域文本的實體數(shù)量種類多、邊界劃分難、實體表述方法多和存在縮寫、特殊字符等文本特性,提出了基于CNN-BiLSTM-CRF命名實體識別模型,準確率得到了提升。Word2Vec、GloVe模型受限于特征表示方法,不能解決一詞多義問題,文獻[5]提出基于Transformer的雙向編碼器表示方法,該方法通過使用深度雙向表示預(yù)訓練模型,進而獲取深層次的文本語義信息,在命名實體識別領(lǐng)域中取得了良好的效果。文獻[6]針對傳統(tǒng)預(yù)訓練模型特征提取能力不足且不充分的問題,提出基于BERT的中文命名實體識別方法,通過BERT提取文本特征,結(jié)合BiLSTM提取文本全局和局部特征,該方法提高了命名實體識別的整體效果。文獻[7]根據(jù)軍事文本領(lǐng)域文本中實體集中,邊界明顯等特征,提出了一種多級神經(jīng)網(wǎng)絡(luò)協(xié)作的軍事領(lǐng)域?qū)嶓w識別模型,該模型使用BERT模型對字級別進行特征表示,使用BiLSTM層獲取文本的上下文特征,最后CRF層根據(jù)相鄰標簽關(guān)系得到最優(yōu)標記序列,該模型相較于其他模型,性能得到了明顯提升。
以冬奧會數(shù)據(jù)作為采集與分析的實驗背景,將新聞文本中的時間要素與空間要素進行命名實體識別,根據(jù)標注結(jié)果形成可視化分析,分析新聞事件的發(fā)展脈絡(luò)。丁杰等人[8]通過關(guān)鍵詞搜索網(wǎng)絡(luò)新聞將新聞事件聚類,整理出事件的發(fā)生過程的“時間線”,并且能對事件后續(xù)的發(fā)展進行跟蹤,讓管理者通過閱讀“時間”更快且完整地掌握事件全貌。劉海硯等人[9]利用自然語言處理技術(shù)對新聞文本數(shù)據(jù)進行分詞和主題建模,提取事件時空和語義信息,采用日歷圖和流地圖的可視化方法,形成多維事件可視化系統(tǒng),幫助人們快速獲取海量新聞文本中感興趣的信息。
本文根據(jù)以上研究,提出BERT-BiLSTM-CRF命名實體識別模型,將命名實體識別模型與可視化進行結(jié)合,通過命名實體識別模型提取冬奧會新聞中的時間實體和空間實體,并將識別結(jié)果進行可視化。以此研究冬奧會進展情況。
2 研究方法與手段
2.1 方法流程
本文圍繞“2022年冬奧會”話題對今日頭條和冬奧會官網(wǎng)新聞進行抓取并保存,使用人民日報語料庫訓練BERT-BiLSTM-CRF的模型,使用該模型對2022年冬奧會的新聞數(shù)據(jù)進行命名實體識別,對識別的信息進行規(guī)范化處理。最后借助ECharts可視化工具將最終結(jié)果以圖表的形式進行展示。通過時間和空間的分布數(shù)據(jù)與新聞報道相結(jié)合,了解冬奧會在不同時間和空間的進展情況。本文方法流程如圖1所示。
2.2 數(shù)據(jù)采集
2.2.1 數(shù)據(jù)獲取
數(shù)據(jù)來源主要是冬奧會官網(wǎng)和今日頭條。冬奧會官網(wǎng)作為官方平臺,在第一時間發(fā)布冬奧會的相關(guān)消息,而今日頭條已經(jīng)成為人們生活中重要的信息來源,也是一個使得人與信息得以連接的平臺,該平臺讓有用的信息得到高效精準的分發(fā),促使信息創(chuàng)造價值,并且數(shù)據(jù)開放程度較高,信息發(fā)布較為豐富,其中包含著大量的冬奧會新聞信息。使用Python搭建冬奧會新聞爬蟲框架進行數(shù)據(jù)抓取。由于今日頭條通過AJAX加載數(shù)據(jù),因此需要瀏覽器審查元素解析真實地址,然后將數(shù)據(jù)存儲到MongoDB數(shù)據(jù)庫。
2.2.2 數(shù)據(jù)存儲
Redis支持多種數(shù)據(jù)結(jié)構(gòu),但是Redis在string類型上會消耗較多內(nèi)存。研究采用MongoDB進行數(shù)據(jù)存儲,MongoDB不僅是一種分布式數(shù)據(jù)庫,也是一種持久化的數(shù)據(jù)庫。
2.3 基本框架
采用BERT-BiLSTM-CRF命名實體識別模型對冬奧會新聞中的時間、空間等進行命名實體識別。BERT層負責進行字級別的特征表示,BilSTM層負責獲取文本的全局和局部特征,CRF層根據(jù)文本特征獲取全局最優(yōu)標注結(jié)果,框架結(jié)構(gòu)如圖2所示。
2.3.1 BERT層
BERT預(yù)訓練語言模型與Word2vec[10]模型相比,在處理歧義詞上的識別效果有了很大提升。例如為了紀念孫中山先生,將香山縣改為中山市,會產(chǎn)生人名與地名的歧義?!鞍自啤币辉~,可以作為廣州的白云區(qū)表示地名,也可以被理解為天上的“白云”,由于word2vec靜態(tài)進行詞向量表示,在該模型中這類詞被作為同一個向量進行表示。BERT是一種新的詞向量表示方法,使用預(yù)訓練語言加入Transformers[11]雙向訓練注意力機制,應(yīng)用到語言模型當中,能夠根據(jù)上下文文本特征動態(tài)進行詞向量表示,進而解決了一詞多義的問題。
2.3.2 BiLSTM層
BiLSTM是由向前的LSTM和向后的LSTM組合而成。LSTM一種長短期記憶門控RNN,是當下最流行的RNN形式之一。為了解決RNN梯度爆炸的問題,LSTM多了輸入門、輸出門和遺忘門三個控制器。遺忘門作用在線性自環(huán)的位置,而普通的RNN是沒有線性自環(huán)的。
LSTM[12]以當前的輸入和前一狀態(tài)的傳遞為輸入,遺忘門[ft]確定上一階段單元狀態(tài)是否被保留,[ft]值越大,則上一單元狀態(tài)被保留得越多,當[ft]值為1時,則上一階段單元狀態(tài)被全部保留下來,當[ft]值為0 時,則上一階段單元狀態(tài)被全部舍棄;輸入門[it]確定當前信息是否被更新到單元狀態(tài)中;輸出門[ot]確定用于控制細胞狀態(tài)值的輸出,三個門的結(jié)構(gòu)如下:
其中:[ft]、[it]、[ot]分別為遺忘門、輸入門、輸出門;W代表權(quán)重矩陣,[b]代表偏置變量,[ct]代表當前細胞狀態(tài)。
單向LSTM對比雙向LSTM存在很大的局限性。單向LSTM無法聯(lián)系上下文語義,如“中國”一詞,輸入“國”字時,可能“中”和“國”會被拆分開。雙向LSTM通過正向和反向兩個方式對文本序列進行語義捕捉,能夠更好地獲取上下文關(guān)系信息。
2.3.3 CRF層
CRF[13]是一種基于統(tǒng)計的數(shù)據(jù)分割和序列標注過程。CRF層能夠考慮相鄰標簽序列的關(guān)系,進而獲取全局信息,以此得到全局最優(yōu)的標記序列。設(shè)[Xn](n=1、2…)和[Ym](m=1、2…)是聯(lián)合隨機變量,若隨機變量Y構(gòu)成馬爾可夫網(wǎng)絡(luò)表示為[G=(V,E)],則[P=(Y|X)]為條件概率分布,稱為CRF(條件隨機場),即:
式中:[ω~v]表示無向圖[G=(V,E)]中所有與節(jié)點[v]存在邊連接的所有節(jié)點,[ω≠v]表示除節(jié)點[v]以外的其他節(jié)點。CRF由轉(zhuǎn)移函數(shù)和狀態(tài)函數(shù)構(gòu)成。在標注序列中,轉(zhuǎn)移函數(shù)需要當前位置[i]和前一個位置[i-1]的標記,表示將標記[yi-1]轉(zhuǎn)移到標記[yi]的概率。CRF的參數(shù)化形式為:
式中:[T(yi-1,yi,i)]和[S(yi,x,i)]為轉(zhuǎn)移函數(shù),[λi]和[uj]為對應(yīng)權(quán)值,[Z(x)]為規(guī)范化因子。CRF在實體識別中的應(yīng)用是為求出[argymaxp(x|y)]。
2.3.4 訓練數(shù)據(jù)標注
新聞文本中會出現(xiàn)時空信息表達不規(guī)范的情況,如將“8月10日”表示為“8.10”,也可能會出現(xiàn)“地名脫落現(xiàn)象”,這些情況不利于時空信息的識別,需要對識別的信息進行規(guī)范化處理。
采用BIO的標注方法對訓練數(shù)據(jù)進行標注,對新聞數(shù)據(jù)中的時間和空間進行標注。在空間的首字后面標注B-LOC,地名的非首字后面標注I-LOC,對時間等同樣進行標注,其他字后面標注O。
3 研究結(jié)果
3.1 模型訓練
本文使用Tensorflow搭建命名實體識別模型。實驗參數(shù)設(shè)置如下:輸入維度為128,訓練集的批次為64,訓練學習率為[2×10-5],為了出現(xiàn)梯度爆炸,使用dropout來防止過擬合,值設(shè)置為0.5。
本文使用人民日報語料庫進行訓練BERT-BiLSTM-CRF命名實體識別模型。人民日報語料庫已經(jīng)放好詞,標注了人名、地名等信息,使用了BIO標記方式標注語料。經(jīng)過人民日報語料庫的訓練,該模型的分類準確率達到了95.2%,其中TIME,LOC標注的準確率分別達到了95.5%、95.2%。
3.2 時序關(guān)系可視化
本文將實體識別模型標注的時間進行提取,并將提取的時間實體規(guī)范化處理。使用ECharts可視化工具繪制日歷圖。日歷圖中點顏色的深淺表示頻率的大小,顏色越深意味著這個日期在新聞文本中出現(xiàn)的頻率越高。頻率越高表明該日期在冬奧會進展中越重要。
如圖4所示,2019年5月10日和2021年2月4日,這兩個時間節(jié)點被提到的頻率很高。2019年5月10日是北京冬奧會倒計時1000天,2021年2月4日是北京冬奧會倒計時一周年。2022年2月4日和3月4日這兩天出現(xiàn)的頻率也很高,這兩天分別是冬奧會和冬季殘奧會的開幕時間。這些日期在冬奧會進展中具有比較重要的紀念價值,表明社會對冬奧會的關(guān)鍵節(jié)點最關(guān)注。
通過日歷圖,可以非常直觀地看到,在冬奧會的籌辦過程中具有重要意義的時間節(jié)點。
3.3 空間關(guān)系可視化
3.3.1 國內(nèi)地理統(tǒng)計分析
通過繪制流地圖描述事件的空間位置和空間關(guān)系,以點來表示新聞文本中提及的地區(qū)位置,以線來表示兩地區(qū)之間有著聯(lián)系。
如圖5所示,國內(nèi)的省份地區(qū)與冬奧會三大賽區(qū)的關(guān)系較為緊密。例如河北省科技冬奧專項“冬奧會張家口賽區(qū)賽事專項氣象預(yù)報關(guān)鍵技術(shù)”,通過實體識別標注出的地名“河北省”“張家口”,然后將兩個地區(qū)通過線進行連接。由于國內(nèi)資源分配不均勻,因此在建設(shè)冬奧會場館時,需要多個地區(qū)的支持。為了更好地宣傳冬奧會,需要面向全社會舉辦相應(yīng)的活動。
3.3.2 國外地理統(tǒng)計分析
通過實體識別模型將新聞文本中提到的國家進行標注,將標注的地點與中國進行連接。
如圖6所示,國際上其他國家與冬奧會聯(lián)系密切。由此可知,國際上的其他國家對北京冬奧會也較為關(guān)注,其中歐洲國家較多。例如在冬奧會倒計時一周年時,新聞中報道了希臘、日本、法國、意大利、美國、澳大利亞、尼日利亞等國家通過視頻接受參加北京冬奧會的邀請。
4 結(jié)論
本研究使用網(wǎng)絡(luò)爬蟲對冬奧官網(wǎng)以及今日頭條的冬奧會相關(guān)新聞進行抓取,將數(shù)據(jù)存儲到分布式數(shù)據(jù)庫MongoDB中,使用BERT-BiLSTM-CRF將新聞文本中的時間、空間實體進行標注,繪制出圖標與社會狀況相印證。運用日歷圖和流地圖對新聞文本的時間要素和空間要素進行可視化展示,從宏觀上掌握了2022年北京冬奧會的時序發(fā)展演變情況。直觀地展示冬奧會的發(fā)展情況、國內(nèi)外的地理統(tǒng)計分析等信息,能夠幫助相關(guān)工作人員更好地閱讀以及理解2022年冬奧會新聞文本,并對冬奧會發(fā)展過程或其他新聞事件發(fā)展過程的研究與分析起到輔助作用。
參考文獻:
[1] 王偉,趙東巖.中文新聞事件本體建模與自動擴充[J].計算機工程與科學,2012,34(4):171-176.
[2] 陳曙東,歐陽小葉.命名實體識別技術(shù)綜述[J].無線電通信技術(shù),2020,46(3):251-260.
[3] 王傳濤,丁林楷,楊學鑫,等.基于BERT的中文電子簡歷命名實體識別[J].中國科技論文,2021,16(7):770-775,782.
[4] 李麗雙,郭元凱.基于CNN-BLSTM-CRF模型的生物醫(yī)學命名實體識別[J].中文信息學報,2018,32(1):116-122.
[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.
[6] 王子牛,姜猛,高建瓴,等.基于BERT的中文命名實體識別方法[J].計算機科學,2019,46(S2):138-142.
[7] 尹學振,趙慧,趙俊保,等.多神經(jīng)網(wǎng)絡(luò)協(xié)作的軍事領(lǐng)域命名實體識別[J].清華大學學報(自然科學版),2020,60(8):648-655.
[8] 丁杰,徐俊剛.IPSMS:一個網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件,2010,27(4):188-190.
[9] 劉海硯,李佳,劉建湘,等.基于新聞文本的事件可視方法研究[J].信息工程大學學報,2020,21(5):601-606.
[10] Mikolov T,0010 K C,Corrado G,et al.Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv,2013.
[11] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[12] 傅麗芳,趙菲菲.基于注意力機制LSTM模型的農(nóng)業(yè)輿情預(yù)測與分析[J].數(shù)學的實踐與認識,2021,51(17):64-76.
【通聯(lián)編輯:唐一東】
收稿日期:2021-12-15
作者簡介:王子豪(1994—),男,河北邯鄲人,碩士生,研究方向為自然語言處理。