• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      社交媒體中學(xué)術(shù)信息在關(guān)鍵詞抽取中的應(yīng)用研究

      2019-01-30 08:07:20趙瑞
      卷宗 2019年1期
      關(guān)鍵詞:文檔背景社交

      趙瑞

      摘 要:社交媒體作為人們?nèi)粘P畔l(fā)布的重要方式,其中包含了大量有價(jià)值的學(xué)術(shù)信息。利用社交媒體中對(duì)科技文獻(xiàn)的描述或評(píng)論信息,挖掘其在輔助關(guān)鍵詞的自動(dòng)提取方面的潛力。文章提出了通過(guò)社交媒體上發(fā)布的科技文獻(xiàn)相關(guān)描述構(gòu)造背景信息,并在模型中添加背景信息以提升關(guān)鍵詞自動(dòng)抽取的效果。在不同模型上的對(duì)比實(shí)驗(yàn),驗(yàn)證了方法的有效性。

      關(guān)鍵詞:社交媒體;文獻(xiàn)信息;關(guān)鍵詞抽??;信息抽取

      社交媒體的流行,讓越來(lái)越多的研究人員樂(lè)于在社交媒體上分享關(guān)于學(xué)術(shù)研究的信息。社交媒體上包含了很多科研人員在分享或評(píng)論科技文獻(xiàn)時(shí)對(duì)文獻(xiàn)內(nèi)容的轉(zhuǎn)述或概括信息,這些信息一方面幫助讀者快速了解文獻(xiàn)主題,另一方面可以作為有價(jià)值的背景信息,輔助文獻(xiàn)主題的概括提煉。本文利用Twitter上用戶在分享或評(píng)論科技文獻(xiàn)的描述信息作為背景信息,然后根據(jù)主題相關(guān)性篩選背景信息,最后將過(guò)濾后的背景信息加入到關(guān)鍵詞自動(dòng)抽取模型中,實(shí)現(xiàn)科技文獻(xiàn)的自動(dòng)抽取。通過(guò)對(duì)比實(shí)驗(yàn),加入社交媒體背景信息的模型在抽取效果上有明顯提高。

      1 相關(guān)工作

      利用文檔內(nèi)部信息進(jìn)行關(guān)鍵詞抽取是現(xiàn)有關(guān)鍵詞自動(dòng)抽取的主流方法。例如,Salton等提出的基于統(tǒng)計(jì)的TF-IDF抽取方法就是借助文檔的詞頻特征來(lái)抽取關(guān)鍵詞,具有簡(jiǎn)單易行的優(yōu)點(diǎn)。針對(duì)中文文檔,徐文海等也提出了一種基于TF-IDF的關(guān)鍵詞抽取方法,該方法首先對(duì)中文文檔進(jìn)行分詞處理,然后利用詞的TF值和IDF值進(jìn)行加權(quán)排序?qū)崿F(xiàn)關(guān)鍵詞抽取[1]。除了考慮詞頻特征外,詞語(yǔ)出現(xiàn)的位置信息也可以作為關(guān)鍵詞抽取的特征。Mihalcea等提出了基于圖模型的關(guān)鍵詞抽取方法。羅準(zhǔn)辰等提出了一種基于分離模型的中文關(guān)鍵詞提取方法,該方法分別針對(duì)詞和短語(yǔ)設(shè)計(jì)特征以提高關(guān)鍵詞自動(dòng)抽取效果[2]。Witten等利用機(jī)器學(xué)習(xí)的方法來(lái)抽取關(guān)鍵詞,他們選取文檔中詞語(yǔ)的位置特征、詞頻特征等來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型。在抽取關(guān)鍵詞時(shí),除了考慮待抽取文檔本身的信息,同時(shí)也考慮與待抽取文檔相關(guān)的其他知識(shí)。Grineva等提出利用維基百科的文章題目和鏈接結(jié)構(gòu)來(lái)構(gòu)造圖模型抽取關(guān)鍵詞的方法。Luo等借助評(píng)論信息來(lái)提高新聞的關(guān)鍵詞抽取效果,該方法首先對(duì)評(píng)論信息進(jìn)行了篩選,然后利用有效的評(píng)論信息來(lái)抽取關(guān)鍵詞。

      社交媒體推文作為一種信息資源,越來(lái)越受到研究者重視。Ebner等通過(guò)研究Twitter信息隨時(shí)間的分布情況,提出Twitter信息網(wǎng)絡(luò)可以發(fā)現(xiàn)科研團(tuán)隊(duì)中的領(lǐng)頭人。Stankovic等對(duì)Twitter信息進(jìn)行話題分析,提出一種會(huì)議數(shù)據(jù)抽取模型,能夠自動(dòng)抽取Twitter中的話題并分類。Gilbert等你用社會(huì)結(jié)構(gòu)與社會(huì)關(guān)系學(xué)的方法,研究了Twitter傳播網(wǎng)絡(luò),從而識(shí)別“學(xué)識(shí)淵博者”。本文將社交媒體信息應(yīng)用于科技文獻(xiàn)的關(guān)鍵詞自動(dòng)抽取,提出了一種基于社交媒體構(gòu)造科技文獻(xiàn)背景信息,用來(lái)提升科技文獻(xiàn)關(guān)鍵詞抽取效果的方法。通過(guò)構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,并在不同抽取模型上進(jìn)行實(shí)驗(yàn),驗(yàn)證方法在關(guān)鍵詞自動(dòng)抽取方面的有效性。

      2 方法

      2.1 背景信息獲取

      本文選取計(jì)算機(jī)與信息科學(xué)領(lǐng)域5項(xiàng)國(guó)際會(huì)議上發(fā)表的部分論文為研究對(duì)象(信息與知識(shí)管理會(huì)議CIKM、自然語(yǔ)言處理頂級(jí)會(huì)議EMNLP、數(shù)據(jù)挖掘頂級(jí)會(huì)議KDD、國(guó)際機(jī)器學(xué)習(xí)大全I(xiàn)CML與信息檢索會(huì)議SIGIR),對(duì)社交媒體上包含相關(guān)論文評(píng)論或轉(zhuǎn)述的信息進(jìn)行收集。

      考慮到Twitter在學(xué)術(shù)數(shù)據(jù)密集性和數(shù)據(jù)開放獲取上的優(yōu)勢(shì),本文選取Twitter作為社交媒體學(xué)術(shù)背景信息數(shù)據(jù)來(lái)源。利用Twitter的主題標(biāo)簽功能對(duì)會(huì)議相關(guān)信息進(jìn)行搜索,然后通過(guò)Twitter提供的數(shù)據(jù)API收集推文信息。最后,通過(guò)人工閱讀,將推文信息與其描述的文獻(xiàn)進(jìn)行關(guān)聯(lián)。

      2.2 關(guān)鍵詞自動(dòng)抽取流程

      本文采用的關(guān)鍵詞自動(dòng)抽取流程。首先,運(yùn)用2.1中的方法獲取文獻(xiàn)的社交媒體背景信息,然后對(duì)背景信息進(jìn)行篩選,之后將篩選后的背景信息與待抽取文檔進(jìn)行合并,最后對(duì)合并文檔進(jìn)行預(yù)處理,并采用常用的關(guān)鍵詞抽取器進(jìn)行處理得到關(guān)鍵詞。

      考慮到待抽取文獻(xiàn)相關(guān)的推文中可能存在一些與文獻(xiàn)主題不相關(guān)的主題,因此在正式合并推文背景信息前添加了一個(gè)篩選過(guò)程,去掉與論文主題不相關(guān)的推文。另外,抽取的關(guān)鍵詞中可能只在背景信息中出現(xiàn),而沒(méi)在待抽取文獻(xiàn)中出現(xiàn),這類關(guān)鍵詞顯然是不合理的。因此,最后的過(guò)濾過(guò)程就是要將這類關(guān)鍵詞排除。

      關(guān)鍵詞通常是名詞性短語(yǔ),故預(yù)處理時(shí)需要對(duì)待抽取文獻(xiàn)進(jìn)行詞性標(biāo)注。本文采用了斯坦福大學(xué)開發(fā)的Loglinear Part-Of-Speech Tagger工具來(lái)完成詞性標(biāo)注。關(guān)鍵詞抽取器則采用的是較為成熟的工具,主要用到三種:基于統(tǒng)計(jì)的TF-IDF算法、基于圖模型的SingleRank算法和基于機(jī)器學(xué)習(xí)的KEA算法。

      3 實(shí)驗(yàn)分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      按照2.1的方案,本文從Twitter上獲取了與72篇論文相關(guān)的853條推文信息作為實(shí)驗(yàn)數(shù)據(jù)。考慮到待抽取文獻(xiàn)中關(guān)鍵詞的數(shù)量不一,有的文獻(xiàn)沒(méi)有給出關(guān)鍵詞,有的文獻(xiàn)給出的關(guān)鍵詞數(shù)量過(guò)少,本文對(duì)72篇文獻(xiàn)的關(guān)鍵詞進(jìn)行了人工標(biāo)注,讓每篇文獻(xiàn)的關(guān)鍵詞數(shù)量為5~7個(gè)。

      3.2 評(píng)價(jià)指標(biāo)

      為評(píng)價(jià)本文所提方法的抽取效果,選擇準(zhǔn)確率(P)、召回率(R)和F1值作為評(píng)價(jià)指標(biāo),其計(jì)算公式如下:

      P=自動(dòng)抽取的正確關(guān)鍵詞數(shù)/自動(dòng)抽取的全部關(guān)鍵詞數(shù)

      R=自動(dòng)抽取的正確關(guān)鍵詞數(shù)/人工標(biāo)注的全部關(guān)鍵詞數(shù)

      F1=2PR/(P+R)

      3.3 實(shí)驗(yàn)內(nèi)容

      首先利用現(xiàn)有的抽取器對(duì)待抽取文檔抽取關(guān)鍵詞,并計(jì)算其P、R和F1值;然后按照2.1和2.2所述方法,對(duì)加入了背景信息的合并文檔采用同樣的抽取器進(jìn)行處理,并計(jì)算P、R和F1值。為了驗(yàn)證方法的有效性,本文選擇了三種不同類型關(guān)鍵詞抽取器進(jìn)行實(shí)驗(yàn),分別是基于統(tǒng)計(jì)的TF-IDF方法、基于圖模型的SingleRank方法和基于機(jī)器學(xué)習(xí)的KEA方法。三種方法都是常用的自動(dòng)抽取關(guān)鍵詞方法,在不同領(lǐng)域均有良好的應(yīng)用。其中TF-IDF和SingleRank屬于無(wú)監(jiān)督方法,KEA屬于有監(jiān)督學(xué)習(xí)方法。

      實(shí)驗(yàn)結(jié)果如表1所示,其中“*”標(biāo)記的表示添加社交媒體背景信息的抽取結(jié)果,N表示抽取的關(guān)鍵詞個(gè)數(shù)。

      從上表可以看出如下趨勢(shì):抽取的準(zhǔn)確率(P)隨著抽取關(guān)鍵詞個(gè)數(shù)的增大而降低,召回率(R)隨著抽取關(guān)鍵詞個(gè)數(shù)N的增大而增大,F(xiàn)1值隨著N的增大而先增后減??萍嘉墨I(xiàn)給出的關(guān)鍵詞一般不會(huì)超過(guò)10個(gè),所以本文選取N=10的對(duì)比實(shí)驗(yàn)結(jié)果進(jìn)行分析。TF-IDF的F1值分別為17.5%和20.4%,添加背景信息的抽取效果提升了17%。就F1值而言,SingleRank和KEA添加背景信息后在原基礎(chǔ)上效果分別提升了10%和5%。

      實(shí)驗(yàn)結(jié)果表明,本文提出的添加社交媒體背景信息輔助關(guān)鍵詞自動(dòng)抽取方法,對(duì)于無(wú)監(jiān)督方法TF-IDF和SingleRank效果提升明顯,而對(duì)于有監(jiān)督學(xué)習(xí)方法KEA的提升效果相對(duì)較小。經(jīng)過(guò)分析,我們認(rèn)為背景信息在一定程度上會(huì)將關(guān)鍵詞的特征突出得更為顯著。TF-IDF方法主要是根據(jù)詞頻特征值進(jìn)行排序抽取的,添加背景信息后會(huì)進(jìn)一步提高關(guān)鍵詞的詞頻特征值,因而會(huì)提升抽取效果。SingleRank方法將詞作為圖的節(jié)點(diǎn),通過(guò)詞共現(xiàn)建立圖模型以描述文檔,然后通過(guò)詞的頻次和節(jié)點(diǎn)之間的聯(lián)系計(jì)算圖節(jié)點(diǎn)的權(quán)值,最后選取權(quán)值高的名詞性圖節(jié)點(diǎn)作為關(guān)鍵詞。背景信息的加入增加了關(guān)鍵詞的頻次和其節(jié)點(diǎn)間的聯(lián)系,故提升了關(guān)鍵詞的權(quán)值,因此提升了抽取效果。而對(duì)于KEA是以詞第一次出現(xiàn)的位置和頻次作為特征進(jìn)行訓(xùn)練的,而背景信息的添加對(duì)關(guān)鍵詞第一次出現(xiàn)的位置影響不大,所以抽取的改進(jìn)效果有限。另外,KEA模型的訓(xùn)練數(shù)據(jù)是沒(méi)有添加背景信息的,也有可能是提升效果不明顯的原因。

      綜上所述,實(shí)驗(yàn)結(jié)果表明對(duì)于TF-IDF和SingleRank這類無(wú)監(jiān)督的方法,添加社交媒體背景信息可以有效提升關(guān)鍵詞提升效果。而對(duì)于有監(jiān)督的機(jī)器學(xué)習(xí)方法,背景信息的添加對(duì)關(guān)鍵詞自動(dòng)抽取的改進(jìn)效果不明顯。

      4 結(jié)束語(yǔ)

      針對(duì)科技文獻(xiàn)關(guān)鍵詞自動(dòng)抽取這一問(wèn)題,本文提出了添加社交媒體背景信息以提升抽取效果的策略。實(shí)驗(yàn)結(jié)果表明,社交媒體背景信息可以有效提升無(wú)監(jiān)督類抽取方法的效果,從而證明本文所提策略的有效性。社交媒體信息對(duì)于理解相關(guān)文獻(xiàn)的主題具有一定幫助,如何在有監(jiān)督的機(jī)器學(xué)習(xí)方法中更好地運(yùn)用社交媒體信息,是一個(gè)值得進(jìn)一步研究的問(wèn)題。

      參考文獻(xiàn)

      [1]徐文海,溫有奎.一種基于TFIDF方法的中文關(guān)鍵詞抽取算法[J].情報(bào)理論與實(shí)踐,2008,31(2):298-302.

      [2]羅準(zhǔn)辰,王挺.基于分離模型的中文關(guān)鍵詞提取算法研究[J].中文信息學(xué)報(bào),2009,23(1):63-70.

      猜你喜歡
      文檔背景社交
      社交之城
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      “新四化”背景下汽車NVH的發(fā)展趨勢(shì)
      有人一聲不吭向你扔了個(gè)文檔
      《論持久戰(zhàn)》的寫作背景
      社交距離
      你回避社交,真不是因?yàn)閮?nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      晚清外語(yǔ)翻譯人才培養(yǎng)的背景
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      射阳县| 尚志市| 阿城市| 扎赉特旗| 平湖市| 行唐县| 通州市| 甘洛县| 沧州市| 灵璧县| 冀州市| 伊通| 伊金霍洛旗| 襄垣县| 孝昌县| 沧州市| 梅州市| 广平县| 鹿邑县| 汪清县| 依兰县| 泸溪县| 郯城县| 华蓥市| 哈尔滨市| 肥东县| 黑山县| 搜索| 富锦市| 威宁| 丰城市| 常熟市| 镇雄县| 琼中| 邵武市| 扎鲁特旗| 化德县| 花莲县| 东城区| 郎溪县| 阳新县|