楊新華 付萍萍
摘 要:本文對大數(shù)據(jù)時代基于統(tǒng)計特征的情報關鍵詞提取方法展開了相關的探究工作,首先就大數(shù)據(jù)的概念與特征進行了簡要介紹,進而具體分析了目前情報關鍵詞提取領域的發(fā)展現(xiàn)狀與存在的主要問題,并最終提出了基于語義方法、基于統(tǒng)計方法、基于機器學習方法、基于復雜網(wǎng)絡方法等關鍵詞提取方法,旨在為有關研究人員提供一些新的研究思路與方法。
關鍵詞:大數(shù)據(jù);統(tǒng)計特征;情報關鍵詞;提取方法
引言
隨著當前相關科學技術的快速化發(fā)展,以互聯(lián)網(wǎng)技術為代表的信息技術已經(jīng)廣泛滲透到了人們?nèi)粘I畹姆椒矫婷?,大?shù)據(jù)時代已經(jīng)悄然來臨。由此也使得網(wǎng)絡情報研究工作面臨著前所未有的挑戰(zhàn)與機遇,針對目前的現(xiàn)狀情況,相關科研人員怎樣能夠在極度復雜的網(wǎng)絡信息當中高效獲取具有研究價值的重要議題將異常關鍵,對此,本文將就大數(shù)據(jù)時代基于統(tǒng)計特征的情報關鍵詞提取方法展開相關的研究工作。
1概述
大數(shù)據(jù)也被稱之為巨量數(shù)據(jù)集合,是指無法在一定的時間范圍當中采用一般性的軟件工具所獲取、管理及處置的數(shù)據(jù)集合,必須要借助于新型處理模式方可達到更加強大的決策能力、洞察發(fā)現(xiàn)能力以及對流程優(yōu)化改造能力的海量、高增長率以及多樣化的信息資產(chǎn)。大數(shù)據(jù)的主要特征可概括為6V特征:
⑴Volume:數(shù)據(jù)容量大,大數(shù)據(jù)所具備的大容量是其與傳統(tǒng)數(shù)據(jù)最為明顯的一項特征差異。傳統(tǒng)的一般關系型數(shù)據(jù)庫處理其數(shù)據(jù)量級往往在TB級左右,而反觀大數(shù)據(jù)所數(shù)據(jù)的數(shù)據(jù)量級經(jīng)常可達到PB級別以上。
⑵Variety:數(shù)據(jù)類型多,大數(shù)據(jù)所進行處理的計算機數(shù)據(jù)類型已經(jīng)不僅再局限于一般性的文本形式亦或是結構化的數(shù)據(jù)庫表格,其同時還含括了音頻、視頻、文字、BLOG、微博等多種復雜的數(shù)據(jù)結構。
⑶Velocity:數(shù)據(jù)流動快,與傳統(tǒng)的數(shù)據(jù)相比高速化同樣也是大數(shù)據(jù)的一項重要特征,在面對接近于無窮盡的海量數(shù)據(jù)時,針對所獲取到的數(shù)據(jù)信息分析處理效率越快越好,數(shù)據(jù)的處理效率將直接決定著組織命運。
⑷Value:數(shù)據(jù)潛在價值大,利用強大的智能學習機制與高級分析可更加高效的完成對數(shù)據(jù)價值的“精煉萃取”,將大數(shù)據(jù)的潛在價值盡可能多的挖掘出來,科學應用大數(shù)據(jù),以低成本來創(chuàng)造出高價值。
⑸Veracity:數(shù)據(jù)真實性高,由于大數(shù)據(jù)所包含的數(shù)據(jù)容量十分龐大,其可通過多個不同的維度來實現(xiàn)對數(shù)據(jù)的分析與處理,因此最終所提煉出的目標數(shù)據(jù)具有較高的真實性。
2現(xiàn)狀及問題
一般情況下,關鍵詞是在所表述文章當中對其核心內(nèi)容具有實質(zhì)性價值的一類詞匯,是為了實現(xiàn)對文章更加便捷的標引與檢索而從文章的題目、摘要,以及正文當中所精選出的詞匯或詞組。在本次研究中將關鍵詞的概念界定為可反映出互聯(lián)網(wǎng)網(wǎng)頁核心內(nèi)容的有關詞匯。對于關鍵詞的提取則主要是利用對核心詞匯的統(tǒng)計以及其語義內(nèi)涵的分析,進而由各個獨立的網(wǎng)頁亦或是網(wǎng)頁集當中挑選出合理的,可以將文章主旨思想精確表述的特征集選取過程。關鍵詞是表述網(wǎng)頁主旨內(nèi)涵最為基礎的一個單位,因此就通常在信息檢索、自主問答、內(nèi)容追蹤等相關信息處理領域內(nèi)均需進行關鍵詞的提取,并且對于關鍵詞的提取也將會對情報監(jiān)測與跟蹤產(chǎn)生出極其關鍵的線索價值,并使得情報工作的方向逐步變得確定。
受到大數(shù)據(jù)本身特點的影響,采取傳統(tǒng)情報關鍵詞提取方法難免會出現(xiàn)一些問題情況,其中主要就包括了:(1)進行關鍵詞的提取往往都會帶有一定的目的性,因此數(shù)據(jù)本身的代表性便至關重要,若所提取的關鍵詞代表性不強,則很有可能導致最終的結論不夠客觀;(2)在關鍵詞提取時還必須充分考量到大數(shù)據(jù)相關性有可能會產(chǎn)生的誤差,切忌僅關注于表面,如某地區(qū)的網(wǎng)頁數(shù)據(jù)量十分龐大,這是否就代表了該地區(qū)的網(wǎng)絡形象較好?很顯然并不一定,也很有可能會存在著大量的負面信息,因此在進行關鍵詞的提取時還應當就信息相關性予以充分考量;(3)在提取關鍵詞時還必須將信息當中所含括的個人隱私予以充分考量,在大數(shù)據(jù)當中所涵括的內(nèi)容十分復雜而且來源途徑眾多,其中必然會涉及到大量的個人隱私,因此在實施大數(shù)據(jù)關鍵詞提取時應盡可能回避這一問題。
3大數(shù)據(jù)時代情報關鍵詞提取方法及構造
3.1關鍵詞提取方法
3.1.1基于語義方法
基于詞典的輔助,利用句法和詞法來實施自動分詞與詞性標注,可促使計算機能夠更加全面的掌握各類信息片段、詞匯間的語義相關性,并進一步可借助于復雜計算來提取相應關鍵詞。
3.1.2基于統(tǒng)計方法
利用詞語統(tǒng)計信息來進行關鍵詞的提取,其中應用最普遍的方法是詞頻—逆向文本頻率指標以及N-gram方法,這一種類型的方法僅需對有關詞匯的應用頻率及過濾技巧加以統(tǒng)計即可,但其缺點也較為明顯,即精度性相對較差。有研究人員就提出了一種經(jīng)改進處理的TFIDF網(wǎng)頁關鍵詞提取方法,其可實現(xiàn)與網(wǎng)頁內(nèi)容結構與詞匯特征的綜合權衡,可建立起一個候選特征詞匯綜合評價公式來進行對關鍵詞的提取。
3.1.3基于機器學習方法
借助于針對大規(guī)模訓練語句資料庫的訓練,便可得到相關的系統(tǒng)參數(shù)與模型,而后再借助于模型來運用到測試語言資料庫當中并對關鍵詞的提取結果予以驗證。在訓練集當中,可將關鍵詞的提取視作為是具備監(jiān)督作用的一種分類問題。一般可經(jīng)常應用到的就包括了支持向量機、最大熵、決策樹等模型。
3.1.4基于復雜網(wǎng)絡方法
依據(jù)預備選取特征詞間的相關性,依據(jù)現(xiàn)有規(guī)則建立起一個復雜網(wǎng)絡亦或是加權復雜網(wǎng)絡模型,采用計算節(jié)點權重系統(tǒng)與介數(shù)來代表節(jié)點的綜合性價值,選取其中價值較大的即可確定為關鍵詞。這一方法通常所需要的計算量十分龐大,在應對大規(guī)模的文檔信息或是網(wǎng)頁內(nèi)容時,此方法的缺陷便會暴露無遺。
3.2關鍵詞提取方法構造
3.2.1中文詞語特征和自動分詞
中文語句的構成包括了單字與詞語,其語句的主干通常是由動詞、名詞、代詞、量詞、形容詞等具有實際意義的詞匯所組合而成,其中介詞、連詞與助詞等虛詞由于不具備實際意義,因此通常無法在語句中擔當主要構成部分。因此在開展中文關鍵詞的提取工作時應盡可能的把虛詞與單字排除在外。
在英文語言體系下其各個詞匯間有著天然的分隔符,單字便可充當一項關鍵詞。而反觀中文詞匯的構成基本不會少于兩個單字,而且語句是連續(xù)書寫,由此也就需要在進行文本自動分析前,首先把一整句語句分割為若干個小的詞匯單元,也就是中文分詞。這同時也是在進行自然語言處理時較為困難的一項內(nèi)容,當前相對較為成熟的分詞系統(tǒng)就包括了CRF中文分詞系統(tǒng)、ICTCLAS系統(tǒng)等。
3.2.2詞語過濾
在將虛詞完全過濾后,文本集內(nèi)仍然會存在有不少的噪聲詞。這一種類型的詞匯大都適合文本主題沒有密切相關性的詞匯,例如“人民”、“國家”、“西部網(wǎng)”等。通常情況下這一種類型的詞匯在文本當中會有較高的出現(xiàn)頻率,并且在文本集內(nèi)出現(xiàn)較高頻率的詞匯亦為噪聲詞。對此可采用詞頻與文本頻率乘積的離散系數(shù)方式來進行噪聲詞過濾。
3.2.3詞共現(xiàn)概率分布及偏度
伴隨著信息技術的快速化發(fā)展,詞共現(xiàn)分析的重要性也愈發(fā)突出,其含義為在某學科領域當中某兩個關鍵詞在同篇文獻當中所出現(xiàn)的頻率越高,即代表此兩個關鍵詞存在有特殊的內(nèi)在相關性。因而,便可利用建構關鍵詞共現(xiàn)矩陣的以及應用多元統(tǒng)計方法來實施期刊評價與學科結構分析。
在單一文本當中往往包括了多個語句,各語句間往往是利用句號、問號、感嘆號等加以區(qū)分。若兩詞匯在單個語句內(nèi)同時出現(xiàn),即認定其共現(xiàn)一次。應用于對候選關鍵詞進行表示的集合,可表示出候選關鍵詞的數(shù)量,相應的候選關鍵詞共現(xiàn)矩陣便可利用任意兩項候選關鍵詞于單個文本亦或是集合內(nèi)出現(xiàn)的頻次來充當元素構成。
4結語
總而言之,隨著大數(shù)據(jù)時代的來臨,一方面大數(shù)據(jù)的出現(xiàn)與應用可促使情報研究工作延伸至更為廣闊的范圍領域,應用新的技術與方法,實現(xiàn)了對情報研究工作價值的重新定義;另一方面,大數(shù)據(jù)也促使社會各個行業(yè)都更加關注于情報研究工作。對此,本文就通過對大數(shù)據(jù)時代情報關鍵詞提取的現(xiàn)狀與問題分析,提出了一些大數(shù)據(jù)時代情報關鍵詞提取的方法與構造,希望能夠為相關的研究人員提供一些參考。
參考文獻:
[1]劉志輝,鄭彥寧.基于作者關鍵詞耦合分析的研究專業(yè)識別方法研究[J].情報學報,2013,32(8).
[2]劉自強,王效岳,白如江等.語義分類的學科主題演化分析方法研究——以我國圖書情報領域大數(shù)據(jù)研究為例[J].圖書情報工作,2016,(15).
[3]李樹青,孫穎.基于加權關鍵詞共現(xiàn)時間元的個性化學術研究時序路徑發(fā)現(xiàn)及其可視化呈現(xiàn)方法[J].情報學報,2014,33(1).
[4]翁勝斌.CNKI數(shù)據(jù)源的關鍵詞共現(xiàn)分析與多維尺度分析的現(xiàn)實方法[J].現(xiàn)代情報,2013,33(4).
[5]陳衛(wèi)靜,鄭穎.基于作者關鍵詞耦合的潛在合作關系挖掘[J].情報雜志,2013,32(5).
[6]楊建林.關鍵詞選擇策略及其對共詞分析的影響[J].情報學報,2014,(10).