劉艷民 張旺強(qiáng) 祝忠明 陳宏東
摘 ? 要:文章構(gòu)建了基于深度學(xué)習(xí)的主題資源監(jiān)測采集模型,并利用深度學(xué)習(xí)詞向量工具word2vec對收集的語料進(jìn)行深度訓(xùn)練,對采集資源與主題模型進(jìn)行相似度匹配,通過設(shè)定合適閾值來實現(xiàn)自動化監(jiān)測主題資源。實踐證明:基于深度學(xué)習(xí)的定主題監(jiān)測方法在海洋戰(zhàn)略研究所信息監(jiān)測系統(tǒng)的應(yīng)用過程中,在主題資源自動監(jiān)測的準(zhǔn)確性上效果優(yōu)于傳統(tǒng)基于向量空間模型的監(jiān)測算法,能為專題知識庫和領(lǐng)域情報信息監(jiān)測系統(tǒng)的構(gòu)建打下堅實的基礎(chǔ)。
關(guān)鍵詞:深度學(xué)習(xí);主題資源監(jiān)測;word2vec;相似度計算
中圖分類號:G202 ? 文獻(xiàn)標(biāo)識碼:A ? DOI:10.11968/tsyqb.1003-6938.2019035
Research on the Realization of Theme Resource Monitoring and Collection Function Based on Deep Learning
Abstract Theme open knowledge resource acquisition is usually realized by intelligence personnel through fixed-source and fixed-point data acquisition. But in the age of big data, the number of open access information resources has increased dramatically. In order to improve the accuracy and recall rate of automatic monitoring and collection of theme-related resources,to reduce intelligence personnel workload, the latest achievements of deep learning technology is introduced in the field of artificial intelligence. A theme resource monitoring and collection model based on deep learning is proposed. The word vector tool word2vec was used to train the collected corpus in depth. Similarity matching is conducted between theme crawler collection resources and theme model. The practice proves that the thematic monitoring method based on deep learning proposed in this paper is applied to the information monitoring system of the institute of ocean strategy. The accuracy of subject resource automatic monitoring is better than that of traditional detection algorithms.
Key words deep learning; thematic resource monitoring; word2vec; similarity calculation
1 ? 引言
大數(shù)據(jù)時代背景下,各個領(lǐng)域內(nèi)的可開放獲取信息資源量以指數(shù)形式增長,科研人員在構(gòu)建專題知識庫、領(lǐng)域情報信息監(jiān)測、輿情監(jiān)測系統(tǒng)時,需要從海量可開放獲取的網(wǎng)絡(luò)資源中得到專題所涉的最新發(fā)展動態(tài),如有關(guān)智庫的權(quán)威機(jī)構(gòu)、政府部門,國內(nèi)外大學(xué)院系頒發(fā)的最新政策、科研數(shù)據(jù)、研究報告、決策資訊等多種類型的資源。這些數(shù)據(jù)時效性強(qiáng),可信度高,已成為學(xué)者和研究人員重視和關(guān)注的資源。因此,情報人員及時發(fā)現(xiàn)和跟蹤、分析利用這些開放信息資源,讓科研人員掌握最新的科技情報信息,對于科學(xué)研究的開展具有重要意義。
本文在現(xiàn)有網(wǎng)絡(luò)開放信息監(jiān)測方法研究的基礎(chǔ)上,設(shè)計開發(fā)了基于深度學(xué)習(xí)的網(wǎng)絡(luò)主題開放資源自動監(jiān)測和采集功能,隨后將本文方法應(yīng)用在海洋戰(zhàn)略研究所信息監(jiān)測平臺中,實現(xiàn)了對監(jiān)測主題相關(guān)情報信息的智能識別、監(jiān)測和采集發(fā)布。結(jié)果證明,相比傳統(tǒng)自動監(jiān)測方法,本文提出的方法優(yōu)勢是無需手動配置領(lǐng)域監(jiān)測本體和特征實體指標(biāo)權(quán)重值,主題模型構(gòu)建和相似度匹配由機(jī)器深度學(xué)習(xí)來實現(xiàn),提高了主題資源監(jiān)測采集的準(zhǔn)確率和召回率。
2 ? 研究進(jìn)展
2.1 ? ?主題資源的監(jiān)測采集研究進(jìn)展
國外最早由美國國家情報總局和美國國防部首先提出開源情報(Open-source intelligence,OSINT)[1]的理念,主要通過利用公開可以獲取的信息資源來實現(xiàn)情報分析,而不是隱蔽和秘密的信息資源。2005年,美國中央情報局(Central Intelligence Agency,CIA)成立了美國國家情報公開資源中心(Open Source Center,OSC)[2],該中心主要收集、開發(fā)和利用網(wǎng)絡(luò)開源情報信息資源。在監(jiān)測技術(shù)和方法方面,Krishna BV等[3]提出基于主題模型的輿情監(jiān)測和情感分析方法,該方法能夠自動從文本中挖掘態(tài)度、觀點和隱藏的情感;Liu MR等[4]從在線新聞中基于實體和新聞文檔的加權(quán)無向圖提取關(guān)鍵實體和重要事件,從而對新聞文本進(jìn)行聚類,產(chǎn)生每日重大事件。計算機(jī)科學(xué)領(lǐng)域的文本挖掘、主題追蹤等技術(shù)的發(fā)展為網(wǎng)絡(luò)信息自動監(jiān)測提供了重要的參考價值。
國內(nèi)目前關(guān)于互聯(lián)網(wǎng)主題資源跟蹤和采集主要通過主題爬蟲和文本挖掘、自然語言處理技術(shù)來實現(xiàn),中國醫(yī)學(xué)科學(xué)院錢慶[5]開發(fā)了醫(yī)藥衛(wèi)生體制改革輿情監(jiān)測系統(tǒng),該系統(tǒng)的主題追蹤主要借助主題詞表來描述網(wǎng)絡(luò)動態(tài)信息中的各種知識單元,通過對相關(guān)知識單元進(jìn)行自動抽取和發(fā)布,采用向量空間模型的TF-IDF算法強(qiáng)調(diào)不同位置特征詞的權(quán)重,主題模型構(gòu)建過程從共現(xiàn)的角度改進(jìn)了KNN方法,形成了醫(yī)療衛(wèi)生體制改革的主題模型,實現(xiàn)了主題信息自動獲取、自動分類的效果;中科院蘭州文獻(xiàn)情報中心的劉巍[6]通過將自然語言處理技術(shù)應(yīng)用到自動監(jiān)測功能過程中,可實現(xiàn)對監(jiān)測資源的重要概念和實體的自動抽取,且與用戶配置的語料庫進(jìn)行相似度匹配,實現(xiàn)自動化檢測的目標(biāo)。張智雄[7-8]組織的團(tuán)隊一直致力于研究科技戰(zhàn)略情報監(jiān)測技術(shù)和系統(tǒng)工具開發(fā),目前已搭建了自動監(jiān)測平臺,且提出了基于對象計算的戰(zhàn)略情報監(jiān)測分析方法,從五個維度來進(jìn)行情報價值的計算,這個過程需要對監(jiān)測本體和指標(biāo)權(quán)重體系進(jìn)行配置[9]。上述方法在一定程度上實現(xiàn)了定題監(jiān)測和采集功能,但在關(guān)鍵概念和實體抽取過程中,只支持部分機(jī)器學(xué)習(xí)功能,在相似度匹配部分,需要對領(lǐng)域本體語料和指標(biāo)權(quán)值進(jìn)行人工配置,降低了自動監(jiān)測效率,沒用到目前人工智能領(lǐng)域最新成果深度學(xué)習(xí)技術(shù)來提高監(jiān)測采集的智能化,從而提高檢測效率和降低人工成本。
2.2 ? ?深度學(xué)習(xí)理論及應(yīng)用研究進(jìn)展
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的新領(lǐng)域,是一種無監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法,實際上是一種多隱層的神經(jīng)網(wǎng)絡(luò)算法,其核心思想是模擬人腦進(jìn)行分析學(xué)習(xí)、決策機(jī)制來解決問題。2006年,加拿大多倫多大學(xué)教授Geoffery Hinton[10]在《Science》上發(fā)表論文,首次提出深度學(xué)習(xí)的觀點,其本質(zhì)思想是通過構(gòu)建多隱層的模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而提升最終預(yù)測的準(zhǔn)確性。深度學(xué)習(xí)從大類上可以歸入神經(jīng)網(wǎng)絡(luò),核心是通過分層網(wǎng)絡(luò)獲取分層次的特征信息,解決需人工設(shè)計特征的重要難題,它包含有多個重要算法,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、深信度網(wǎng)絡(luò)(Deep Belief Networks,DBN),多層反饋循環(huán)神經(jīng)網(wǎng)絡(luò)Recurrent neural Network,RNN)等。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法不同,深度學(xué)習(xí)可以自動進(jìn)行特征提取,而無需人工干預(yù),且可以提取為標(biāo)記、非結(jié)構(gòu)化數(shù)據(jù)中的潛在特征,如音視頻、圖像、文本等多媒體數(shù)據(jù)[11]。在具體的特征學(xué)習(xí)和訓(xùn)練上,深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)模型存在差異,深度學(xué)習(xí)采用自上而下的無監(jiān)督學(xué)習(xí),逐層構(gòu)建單層神經(jīng)元,采用wake-sleep算法進(jìn)行逐層調(diào)整優(yōu)化,收斂至局部誤差最小,自頂層往下誤差矯正信號越來越小[12]。
隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的自特征抽取的詞向量表示方法受到廣大研究者的關(guān)注。Mikolov等[15]通過借鑒Bengio等[13]提出的NNLM(Neural Network Language Model)模型以及Hinton[14]的Log Linear模型,提出了word2vec語言模型,Google公司在2013年開放了word2vec這一款用于訓(xùn)練詞向量的開源軟件工具,標(biāo)志著深度學(xué)習(xí)從理論走向了實踐。word2vec模型可以根據(jù)給定的語料庫,通過優(yōu)化后的訓(xùn)練模型快速有效的將一個詞語表達(dá)成實數(shù)值的向量形式[16]。word2vec包含了兩種訓(xùn)練模型,分別是CBOW(Continuous Bag-Of-Words)模型和Skip-Gram模型(見圖1)。
從模型圖可以看出,CBOW和Skip-gram模型均包含輸入層、投影層和輸出層。其中,CBOW模型通過上下文來預(yù)測當(dāng)前詞的詞向量,即將當(dāng)前詞上下文對應(yīng)的連續(xù)詞語表示成詞袋的形式,將訓(xùn)練的目標(biāo)向量選為上下文詞向量的求和。而Skip-gram模型生成詞向量的方式恰好與CBOW模型相反,它僅通過當(dāng)前詞來預(yù)測其上下文。word2vec模型在給定的語料庫上訓(xùn)練CBOW和Skip-gram兩種模型,然后輸出得到所有出現(xiàn)在語料庫上的單詞的詞向量表示。基于得到的單詞的詞向量,可以計算詞與詞之間的關(guān)系,如詞語相似性,語義關(guān)聯(lián)性等。目前word2vec模型已應(yīng)用于情報學(xué)領(lǐng)域,如輿情演化分析[17]、恐怖組織挖掘[11]、期刊選題相似性計算[12]等。針對word2vec在文本挖掘領(lǐng)域的良好應(yīng)用效果,本文提出基于深度學(xué)習(xí)的主題資源監(jiān)測采集模型。
3 ? 基于深度學(xué)習(xí)的主題資源監(jiān)測采集模型構(gòu)建
本文構(gòu)建的基于深度學(xué)習(xí)的主題資源監(jiān)測采集模型主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理(分詞、去停用詞、詞性標(biāo)注)、特征提取、深度學(xué)習(xí)(相似度匹配)、采集發(fā)布等步驟(見圖2)。傳統(tǒng)監(jiān)測采集模型相似度匹配使用抽取出的關(guān)鍵概念和實體對象與用戶參數(shù)配置設(shè)定的關(guān)鍵詞進(jìn)行匹配,需要非常專業(yè)的詞表及實體規(guī)范庫來對主題進(jìn)行統(tǒng)一表述,降低監(jiān)測采集的智能化,人工成本較高。向量空間模型要求關(guān)鍵詞必須精確匹配,對語義相近的關(guān)鍵詞,效果較差。本研究基于word2vec的文本相關(guān)度比較模型對語料進(jìn)行訓(xùn)練,關(guān)鍵詞之間進(jìn)行相關(guān)度比較,即使兩個關(guān)鍵詞集合完全沒有交集,也可以給出合理的比較結(jié)果。主題資源監(jiān)測采集模型遵循數(shù)據(jù)生命周期管理理論,通過構(gòu)建合理的數(shù)據(jù)管理組織架構(gòu)體系,確保采集數(shù)據(jù)準(zhǔn)確性及質(zhì)量,提高數(shù)據(jù)有效性、一致性和規(guī)范性,實現(xiàn)數(shù)據(jù)從產(chǎn)生到銷毀的全過程規(guī)范化管理,充分發(fā)揮采集數(shù)據(jù)價值,提升采集過程的自動化程度,促進(jìn)各應(yīng)用系統(tǒng)信息高度共享,為科研決策提供科學(xué)依據(jù)。
3.1 ? ?數(shù)據(jù)采集
數(shù)據(jù)采集的基礎(chǔ)信息來源是專業(yè)人員根據(jù)經(jīng)驗制定的情報機(jī)構(gòu),包括智庫、權(quán)威機(jī)構(gòu)組織、國外大學(xué)院系、政府部門等網(wǎng)站內(nèi)容。本研究截取了海洋戰(zhàn)略研究所指定采集的起始網(wǎng)站列表(見表1)。由表可知,主題爬蟲采用的網(wǎng)頁搜索策略為基于內(nèi)容評價的搜索策略,利用文本相關(guān)度比較算法進(jìn)行比較,分析網(wǎng)頁內(nèi)容和主題的相關(guān)度來進(jìn)行爬取。爬取到與主題相關(guān)網(wǎng)頁提取情報來源的名稱、網(wǎng)址、正文等基礎(chǔ)信息,作為主題監(jiān)測的語料集。
3.2 ? ?數(shù)據(jù)預(yù)處理
采集信息后對語料進(jìn)行預(yù)處理過程主要包括網(wǎng)頁凈化、去停用詞、中文分詞、詞性標(biāo)注等操作。本研究選擇自然語言處理工具對采集文本進(jìn)行預(yù)處理。由于中英文文本差異,預(yù)處理步驟有所不同,英文文本挖掘預(yù)處理不需做分詞,中文文本需進(jìn)行中文分詞。通過定義的中文和英文停用詞表進(jìn)行匹配來對正文信息進(jìn)行過濾停用詞的預(yù)處理。從正文中抽取反映文本主題的實詞,需對文本進(jìn)行詞性標(biāo)注。英文文本預(yù)處理需做拼寫檢查更正及大寫轉(zhuǎn)換小寫操作,其預(yù)處理獨有的步驟是詞干提取和詞形還原。
3.3 ? ?特征提取
經(jīng)過預(yù)處理后的實體概念集合,需要將信息中的重要特征提取出來,文檔的內(nèi)容特征利用基本語言單位如字、詞或短語來表示,這些基本語言單位被稱為文檔的特征項,特征項的權(quán)值反映的是一個特征項在文檔集合中的貢獻(xiàn)程度。本文利用經(jīng)典的TF-IDF方法來提取特征項,并在計算特征項的權(quán)重時將特征項的位置信息考慮進(jìn)來,不同位置的特征項對主題的貢獻(xiàn)有差異,對出現(xiàn)在文本標(biāo)題、首句、段首、段尾和正文五個不同位置的特征項賦予不同的權(quán)重。綜合利用詞頻以及位置權(quán)重計算出每個概念在文本中的重要度。根據(jù)閾值去除滿足條件的概念既為文本的特征項,也既關(guān)鍵概念集合,同時根據(jù)關(guān)鍵特征項集合中的重要度進(jìn)行排序,可實現(xiàn)抽取指定數(shù)量的關(guān)鍵概念。抽取出的特征項集合將會用于與主題模型進(jìn)行相似度匹配,從而判斷是否是用戶關(guān)注的主題,如果相似,則將抽取的信息加入語料庫,且將采集的數(shù)據(jù)進(jìn)行發(fā)布顯示。
3.4 ? ?主題建模
主題模型(Topic model)是針對文本隱含主題的建模方法,其中主題是指一個概念或一個方面,在文檔集中表現(xiàn)為一系列相關(guān)的詞語。如果用數(shù)學(xué)語言來描述的話,主題就是詞匯表上詞語的條件概率分布,與主題關(guān)系越密切的詞語,它的條件概率越大,反之則越小,文檔集中的每篇文檔可以包含多個主題,文檔中每一個詞都由其中的一個主題生成。LDA主題模型是由Blei等[18]提出的一個“文本-主題-詞”的三層貝葉斯概率模型,該模型也是一種非監(jiān)督的機(jī)器學(xué)習(xí)算法,可以用來識別大規(guī)模文檔集或語料庫中潛在的主題,它采用了詞袋模型方法[19]。主題資源監(jiān)測的核心內(nèi)容是采集情報信息與主題進(jìn)行相似度計算(計算流程見圖3)。根據(jù)海洋戰(zhàn)略研究內(nèi)容,主題設(shè)置為五個方面,分別為海洋戰(zhàn)略與規(guī)劃、海洋經(jīng)濟(jì)與科技、海洋環(huán)境與資源、海洋政策與管理、海洋法律與權(quán)益。每個主題分別選擇一定數(shù)量的語料進(jìn)行訓(xùn)練,形成主題模型。在采集新聞過程中,將每篇新聞文本與生成的主題模型進(jìn)行相似度判斷,從而確定每篇新聞文檔的主題類別。通過主題建模和深度學(xué)習(xí),計算采集文本與主題語義相似度,在一定閾值范圍內(nèi)進(jìn)行主題資源采集及分類。
采集文本與主題相似度計算[20]流程包括:
Step1:每個主題收集一定數(shù)量語料首先進(jìn)行預(yù)處理,包括去停用詞、分詞、詞性標(biāo)注等操作。利用TF-IDF方法提取文本特征項。
Step2:經(jīng)過Step1預(yù)處理后的主題文檔集合建立文檔-詞項矩陣,基于LDA主題模型,訓(xùn)練主題語料,確定每個主題中前N個主題詞及概率分布。
Step3:采集新聞進(jìn)行預(yù)處理、文本特征項提取。
Step4:主題語料與采集新聞利用word2vec進(jìn)行訓(xùn)練和深度學(xué)習(xí)。
Step5:將主題映射到word2vec空間中,選取主題ti的前h個詞作為主題詞,對主題詞做歸一化處理,即計算每個詞w占主題的權(quán)重ωi ,在公式(1)中: θi為詞w在主題ti中的表示。在主題ti映射到word2vec空間上的向量v(ti)計算公式(2)中,即詞w在word2vec空間的坐標(biāo)*w占主題ti的權(quán)重。
ωi= ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
v(ti)=[∑][h][n=1]ωinv(win) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
Step6:將Step3得到的新聞文本映射到word2vec空間。計算方式為每個詞在word2vec空間下的坐標(biāo)相加,再除以總詞數(shù)。文檔向量v(di)計算公式(3)中,c代表的是文檔的總詞數(shù)。
v(di)= ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)
Step7:采集新聞文檔與主題的相似度計算采用歐式距離來度量:
dis tan ce(v(di),v(ti))=|v(di)-v(ti)| ? ? ? ? ? ? (4)
Step8:通過計算測試文本與主題文本向量的歐式距離,設(shè)置合適閾值來確定文本是否為主題相關(guān)資源。
3.5 ? ?采集發(fā)布
采集文本與主題進(jìn)行相似度計算后,跟主題相關(guān)資源的網(wǎng)址信息進(jìn)行本地數(shù)據(jù)庫存儲,正文提取算法有最大文本塊和文本密度算法,可以抽取網(wǎng)頁中的文本標(biāo)題、作者、發(fā)布時間、封面圖片、及文章正文等內(nèi)容,發(fā)布內(nèi)容按照圖片、論文、資訊內(nèi)容分欄目展示,發(fā)布后的網(wǎng)絡(luò)資源用戶可進(jìn)行評價。
4 ? 實驗測試結(jié)果
本文在基于深度學(xué)習(xí)的基礎(chǔ)上,搭建了基于深度學(xué)習(xí)的海洋發(fā)展戰(zhàn)略研究所信息監(jiān)測系統(tǒng)(見圖4)。并對其監(jiān)測系統(tǒng)的框架進(jìn)行設(shè)計(見圖5),在這一框架中采集專題管理功能為每個第三方系統(tǒng)創(chuàng)建對應(yīng)的專題,支持設(shè)置第三方系統(tǒng)網(wǎng)站名稱、可訪問IP、專題管理員等。采集任務(wù)管理功能支持從外部系統(tǒng)監(jiān)測源以API的方式讀取采集源列表,且支持同第三方系統(tǒng)自動同步資源列表。分布式采集子系統(tǒng)功能已實現(xiàn)集成Crawler4J爬蟲系統(tǒng),可實現(xiàn)分布式多任務(wù)自動調(diào)度。主題建模與相關(guān)度計算模塊主要使用LDA構(gòu)建主題模型,主題模型構(gòu)建過程中對主題語料庫擴(kuò)展期刊論文、會議論文關(guān)鍵詞、摘要等內(nèi)容,來提高主題模型精確度。通過word2vec對樣本網(wǎng)頁數(shù)據(jù)建模生成詞向量模型,結(jié)合LDA構(gòu)建的主題模型進(jìn)行相似度計算。Web管理系統(tǒng)功能主要實現(xiàn)對采集到的資訊、圖片、論文進(jìn)行管理、發(fā)布。
本試驗LDA主題模型使用的Gibbs抽樣,設(shè)置迭代次數(shù)為1000次,超參數(shù)取固定的經(jīng)驗值。用word2vec訓(xùn)練文檔集時,各參數(shù)設(shè)置情況為size=100, window=5,min-count=1,cbow=1。其中size代表詞向量的維數(shù),window代表上下文窗口大小,min-count代表詞語出現(xiàn)的最小閾值,cbow代表是否使用模型CBOW,0為使用,1為不使用。本實驗使用Skip-gram模型。LDA和word2vec都是用Gensim實現(xiàn)的,Gensim是用于構(gòu)建主題模型的免費(fèi)Python包。對五個主題收集英文語料進(jìn)行LDA主題建模,得到五個主題的top10特征詞及占主題權(quán)重(見表2)。
可以看出,對主題爬蟲收集的英文主題語料經(jīng)過LDA主題模型訓(xùn)練后,得到的top10主題特征詞能夠較好描述主題特征,海洋戰(zhàn)略與規(guī)劃得到的特征詞組合后可形成“marine planning(海洋規(guī)劃)”“marine spatial planning”“sea power(海權(quán))”或者“marine power”等關(guān)鍵詞。海洋法律與權(quán)益得到的特征詞可組合為“marine biodiversity(海洋生物多樣性)”“marine diversity(海洋多樣性)”“marine security(海洋安全)”,而其他特征詞“dispute(沖突)”“right(權(quán)利)”等與海洋立法及涉海案件息息相關(guān)。海洋經(jīng)濟(jì)與科技主題得到的特征詞主要有“marine industry(海洋工業(yè))”“marine economy(海洋經(jīng)濟(jì))”,代表了主題的主要研究方向,尤其是印度、日本、菲律賓及印度尼西亞的海洋科學(xué)技術(shù)。海洋政策與管理主題在英文語料提取的特征詞主要為“ocean policy”“marine policy(海洋政策)”及跟海洋管理有關(guān)的“ocean management”“marine management”以及 “coastal zone(沿海地帶)”的管理政策。海洋環(huán)境與資源提取的特征詞跟“marine protected area(海洋保護(hù)區(qū))”匹配、其他關(guān)鍵詞“ecosystem(生態(tài)系統(tǒng))”“conservation(保護(hù))”“environmental(環(huán)境)”“climate(氣候)”都跟環(huán)境相關(guān)。這充分表明LDA主題模型在主題建模方面的優(yōu)勢,主題爬蟲語料經(jīng)LDA訓(xùn)練可很好描述主題信息,為后面相似度匹配及文本分類做鋪墊。
為驗證基于深度學(xué)習(xí)的主題相關(guān)資源采集策略在信息監(jiān)測系統(tǒng)中的應(yīng)用效果。本文選擇2017年12月至2018年10月監(jiān)測系統(tǒng)通過主題爬蟲從各開放知識資源獲取網(wǎng)站采集的約3萬條數(shù)據(jù),篩選出4865條與海洋研究相關(guān)的新聞,對4865條數(shù)據(jù)進(jìn)行人工標(biāo)識之后,將訓(xùn)練集和測試集比例按照8:2進(jìn)行劃分,80%用于訓(xùn)練集,20%用于測試集。為準(zhǔn)確評價主題相似度匹配的效果,本文選取的評價指標(biāo)為準(zhǔn)確率P、召回率R及F1-measure,F(xiàn)1-measure值為準(zhǔn)確率和召回率的調(diào)和平均值。將機(jī)器檢測結(jié)果與人工標(biāo)記結(jié)果進(jìn)行比對。傳統(tǒng)計算文本相似度方法為基于向量空間模型的TF-IDF算法,該方法以詞在文檔中出現(xiàn)頻率以及在文檔集中出現(xiàn)該詞的概率來表征詞的權(quán)重。本文通過基于向量空間模型的TF-IDF算法與LDA和word2vec結(jié)合的算法進(jìn)行了對比試驗,對比實驗用同樣的文檔集作為語料庫,首先對語料庫進(jìn)行預(yù)處理,再利用TF-IDF算法把主題文檔和測試文檔表示成關(guān)于詞項的向量,然后計算測試文檔與主題文檔的余弦相似度,根據(jù)相似度結(jié)果值設(shè)定合適閾值來作為監(jiān)測結(jié)果,TF-IDF算法測試結(jié)果給出F1- measure值(監(jiān)測結(jié)果見表3)。
由檢測結(jié)果可看出,當(dāng)測試總樣本數(shù)為973,引入深度學(xué)習(xí)技術(shù)后運(yùn)用LDA進(jìn)行主題建模,利用word2vec進(jìn)行文本主題相似度計算,實驗結(jié)果表明,五個主題監(jiān)測文本的準(zhǔn)確率都達(dá)到85%以上,文本平均識別率達(dá)到91.07%。而基于向量空間模型的TF-IDF算法監(jiān)測結(jié)果的F1值明顯低于本文提出的算法,這說明TF-IDF算法的缺點是僅通過TF(詞頻)和IDF(逆文檔頻率)來計算,不能有效判斷文檔中詞項本身的語義信息,具有一定局限性。
5 ? 結(jié)語
本文提出的基于深度學(xué)習(xí)的主題資源監(jiān)測采集策略,通過應(yīng)用在海洋戰(zhàn)略研究所信息監(jiān)測系統(tǒng)中,可以實現(xiàn)對大量多源異構(gòu)情報信息進(jìn)行自動化監(jiān)測和采集,且通過LDA主題模型對主題進(jìn)行建模,能夠很好描述主題信息,結(jié)合深度學(xué)習(xí)的相似度匹配算法能夠進(jìn)行智能主題分類,有效降低情報人員的工作量,提高了主題資源監(jiān)測的準(zhǔn)確率與召回率,其監(jiān)測效果優(yōu)于傳統(tǒng)基于向量空間模型的監(jiān)測算法。
本研究也存在問題和不足,如訓(xùn)練樣本需要花費(fèi)大量時間,通過樣本數(shù)據(jù)建立的主題模型詞向量有限。為了讓主題模型的準(zhǔn)確度不斷提高,需要從來源數(shù)據(jù)中不斷提取新的詞向量對主題模型進(jìn)行優(yōu)化、完善,實現(xiàn)主題模型語義關(guān)系的自動擴(kuò)充,從而進(jìn)一步提高主題信息監(jiān)測系統(tǒng)自動獲取、自動分類效率,以便為科研人員提供更優(yōu)服務(wù)。
參考文獻(xiàn):
[1] ?Open-source intelligence[EB/OL].[2019-03-12].https://en.wikipedia.org/wiki/Open-source_intelligence.
[2] ?Open Source Center[EB/OL].[2019-03-12].https://en.wikipedia.org/wiki/Open_Source_Center.
[3] ?Krishna BV,Pandey AK,Kumar APS.Topic Model Based Opinion Mining and Sentiment Analysis[C].8th International Conference on Computer Communication and Informatics,Coimbatore,2018.
[4] ?Liu M,Liu Y,Xiang L,et al.Extracting key entities and significant events from online daily news[C].Intelligent Data Engineering and Automated Learning-IDEAL 2008,2008(5326):201-209.
[5] ?錢慶,安新穎,代濤.主題追蹤在醫(yī)藥衛(wèi)生體制改革輿情監(jiān)測系統(tǒng)中的應(yīng)用[J].圖書情報工作,2011,55(16):46-49.
[6] ?劉巍,王思麗,祝忠明,等.基于自然語言處理技術(shù)的定題監(jiān)測功能實現(xiàn)研究[J].圖書與情報,2018(3):135-140.
[7] ?張智雄,張曉林,劉建華,等.網(wǎng)絡(luò)科技信息結(jié)構(gòu)化監(jiān)測的思路和技術(shù)方法實現(xiàn)[J].中國圖書館學(xué)報,2014,40(4):4-15.
[8] ?張智雄,劉建華,謝靖,等.科技戰(zhàn)略情報監(jiān)測服務(wù)云平臺的設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2014(6):51-61.
[9] ?鄒益民,張智雄,劉建華.基于對象行為的情報關(guān)注模型研究[J].中國圖書館學(xué)報,2013,39(5):50-59.
[10] ?Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[11] ?郭璇,吳文輝,肖治庭,等.基于深度學(xué)習(xí)和公開來源信息的反恐情報挖掘[J].情報理論與實踐,2017,40(9):135-139.
[12] ?逯萬輝.基于深度學(xué)習(xí)的學(xué)術(shù)期刊選題同質(zhì)化測度方法研究[J].情報資料工作,2017(5):105-112.
[13] ?BENGIO Y,SCHWENK H,SEHECAO J S,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.
[14] ?Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
[15] ?Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013(26):3111-3119.
[16] ?Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].Computer Science,2013(2):1-12.
[17] ?安璐,吳林.融合主題與情感特征的突發(fā)事件微博輿情演化分析[J].圖書情報工作,2017,61(15):120-129.
[18] ?Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation[J].Machine Learning Research Archive,2003(3):993-1022.
[19] ?Ling W,Luís T,Marujo L,et al.Finding function in form:Compositional character models for open vocabulary word representation[C].Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon,Portugal,2015,1520-1530.
[20] ?Wang ZB,Ma L,Zhang YQ.A Hybrid Document Feature Extraction Method Using Latent Dirichlet Allocation and Word2vec[C].First International Conference on Data Science in Cyberspace(DSC),Changsha,China,2016:98-103.