• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Word2Vec及TextRank算法的長文檔摘要自動生成研究

      2023-06-25 05:29:28朱玉婷劉樂辛?xí)詷?/span>陳瓏慧康亮河
      現(xiàn)代信息科技 2023年4期
      關(guān)鍵詞:提取

      朱玉婷 劉樂 辛?xí)詷? 陳瓏慧 康亮河

      基于Word2Vec及TextRank算法的長文檔摘要

      自動生成研究

      朱玉婷,劉樂,辛?xí)詷?,陳瓏慧,康亮?/p>

      (甘肅農(nóng)業(yè)大學(xué),甘肅 蘭州? 730070)

      摘? 要:近年來,如何從大量信息中提取關(guān)鍵信息已成為一個急需解決的問題。針對中文專利長文檔,提出一種結(jié)合Word2Vec和TextRank的專利生成算法。首先利用Python Jieba技術(shù)對中文專利文檔進(jìn)行分詞,利用停用詞典去除無意義的詞;其次利用Word2Vec算法進(jìn)行特征提取,并利用WordCloud對提取的關(guān)鍵詞進(jìn)行可視化展示;最后利用TextRank算法計(jì)算語句間的相似度,生成摘要候選句,根據(jù)候選句的權(quán)重生成該專利文檔的摘要信息。實(shí)驗(yàn)表明,采用Word2Vec和TextRank生成的專利摘要質(zhì)量高,概括性也強(qiáng)。

      關(guān)鍵詞:Jieba分詞;關(guān)鍵詞提取;Word2Vec算法;TextRank算法

      中圖分類號:TP391.1? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)04-0036-04

      Research on Abstract Automatic Generation of Long Document Based on the Word2Vec + TextRank Algorithm

      ZHU Yuting, LIU Le, XIN Xiaole, CHEN Longhui, KANG Lianghe

      (Gansu Agricultural University, Lanzhou? 730070, China)

      Abstract: In recent years, how to extract critical information from large amounts of information has become a problem which needs to be solved urgently. For Chinese patent long documents, a patent generation algorithm combining Word2Vec and TextRank is proposed. Firstly, Python Jieba technology is used to segment words in Chinese patent documents, and meaningless words are removed by using the stop dictionary. Secondly, the Word2Vec algorithm is used for feature extraction, and the extracted keywords are visually displayed by WordCloud. Finally, the TextRank algorithm is used to calculate the similarity between sentences, generate abstract candidate sentences, and generate abstract information of the patent documents according to the weight of candidate sentences. Experiments show that patent abstracts generated by Word2Vec and TextRank are of high quality and have strong generalization.

      Keywords: Jieba word segmentation; keyword extraction; Word2Vec algorithm; TextRank algorithm

      0? 引? 言

      21世紀(jì),由于時(shí)代的進(jìn)步與信息科技的飛速發(fā)展,大數(shù)據(jù)時(shí)代也隨之來臨,傳統(tǒng)的手工編織文摘已經(jīng)落后,人們獲取信息的便捷度不斷提高,信息量不斷增加,使文本信息出現(xiàn)爆炸式增長。如何從大量信息中提取出重要信息還有待解決。在大量數(shù)據(jù)中提取出具有價(jià)值的信息已經(jīng)成為一個重要的研究方向。自動文摘是全面反映文本信息主要內(nèi)容的短文本,也具有簡潔連貫的特點(diǎn)。自動摘要技術(shù)是計(jì)算機(jī)通過寫一些算法和輸入的文章自動生成摘要的技術(shù)[1],到目前為止,國外做的一些自動文本摘要技術(shù)已經(jīng)取得了成果,英文文本的摘要技術(shù)也已經(jīng)被提出。而中文文本提取摘要的技術(shù)上依舊不夠成熟,在提取結(jié)果上依然有很大的進(jìn)步空間,而國內(nèi)的研究目前仍處于初級階段,因此,根據(jù)中文的特點(diǎn),制作設(shè)計(jì)出一個中文文本的自動摘要系統(tǒng)顯得尤為重要[2]。

      自動文本摘要興起于20世紀(jì)50年代,在1958年IBM公司的Luhn[3]第一次進(jìn)行了自動文本摘要的研究,宣布了這項(xiàng)技術(shù)的產(chǎn)生。劉志明[4]等利用LDA主題模型結(jié)合TextRank自動摘要方法,解決了不同文檔結(jié)構(gòu)及內(nèi)容特征等問題對摘要結(jié)果的影響,實(shí)驗(yàn)表明,該方法能更為高效的獲取新聞文本摘要結(jié)果。Salton[5]提出了著名的TF-IDF方法,詞語的重要程度也被這個方法精確科學(xué)的評估到了,所以才能更加精確地抽取主要句子生成摘要。HU[6]等人在K-means算法的基礎(chǔ)上進(jìn)行了摘要提取。相較國外,國內(nèi)從事自動文本摘要的研究相對較晚,王永成[7]等人在20世紀(jì)80年代開發(fā)了用于中文文獻(xiàn)的自動文本摘要系統(tǒng)。國外學(xué)者Kchaou[8]等根據(jù)文本的相似度計(jì)算,克服了現(xiàn)有的CIA方法一方面集中在一個時(shí)間段產(chǎn)生的模型,另一方面忽視了整個開發(fā)階段產(chǎn)生的各種各類的模型之間的語義相互依賴關(guān)系的問題。Li[9]等人提取關(guān)鍵詞用到了TextRank算法,最后通過神經(jīng)網(wǎng)絡(luò)得到了關(guān)鍵詞,并將其與點(diǎn)生成網(wǎng)絡(luò)進(jìn)行結(jié)合,來指導(dǎo)摘要生成任務(wù)的進(jìn)。程園[10]等人一起制作了一個特征加權(quán)函數(shù),在文本的訓(xùn)練中用到了數(shù)學(xué)回歸模型,使一些冗余句子的信息被去除,進(jìn)而生成關(guān)鍵詞得到文本摘要。徐飛[11]等人利用文本結(jié)構(gòu)分析等技術(shù)方法實(shí)現(xiàn)了中文自動摘要系統(tǒng)。

      文章主要研究的是如何從一篇篇幅較長的專利性文本中提取出其中的關(guān)鍵詞,使其輸出文本摘要。在用一些主要的編碼生成摘要時(shí),會有目標(biāo)算法與評價(jià)指標(biāo)不一致以及結(jié)果與預(yù)測結(jié)果相差較大的問題出現(xiàn)[5],對于存在的問題,本文根據(jù)其特點(diǎn),在進(jìn)行文本預(yù)處理、分詞以及去除停用詞一系列操作之后重點(diǎn)使用Word2Vec和TextRank等算法計(jì)算出詞頻,進(jìn)行關(guān)鍵字抽取,詞云展示,生成摘要等幾個妙計(jì),獲取主題的文本摘要。實(shí)驗(yàn)證明,本文提出的方法能夠獲得較好的性能提升。

      1? 主要算法介紹

      1.1? 分詞和去停用詞

      中文分詞作為自然語言處理的第一步,利用計(jì)算機(jī)將待處理的文字串進(jìn)行分詞、過濾處理,輸出中文單詞、數(shù)字及特殊字符等一系列分割好的字符串。本文采用Python 3.0自帶的中文Jieba分詞,基于前綴詞典進(jìn)行詞圖掃描,通過精準(zhǔn)模式(jieba.lcut(txt,cut_all=False))將句子最精確地切開,適合本文的專利長文檔。

      1.2? 去停用詞

      停用詞最早發(fā)現(xiàn)于信息檢索,Luhn在檢索研究中發(fā)現(xiàn)有一些詞出現(xiàn)的概率非常高,但檢索效果確很差[12]。停用詞是除了文本中可以表達(dá)具體含義的實(shí)詞以外,用于填充結(jié)構(gòu)的虛詞以及一些其他沒有實(shí)際意義的詞。這些詞很明顯就不是最后要找的關(guān)鍵詞,而且還會對下一步的特征提取產(chǎn)生不好的影響[13],所以要根據(jù)停用詞典去除高頻且毫無意義的詞語。

      1.3? Word2Vec算法

      Word2Vec是一種產(chǎn)生詞向量的語言模式。將所有的詞向量化,以便更好地衡量詞與詞之間的關(guān)系,而Word2Vec作為一種編碼方式,將每個詞編碼成向量用來體現(xiàn)這些詞的關(guān)系。

      Word2Vec主要具有兩種模型,一種是CBOW模型(通過上下文窗口詞向量預(yù)測中心詞向量)與Skip-Gram模型(根據(jù)中心詞預(yù)測窗口詞向量),其主要算法流程如圖1所示。

      主要步驟:

      (1)讀取源文件(此時(shí)的源文件是已經(jīng)經(jīng)過分詞和去停用詞的文件);

      (2)使用Python的第三方庫,最后可以得到有關(guān)專利文本的n個候選關(guān)鍵詞,即D={t1, t2…, t3};

      (3)遍歷這些候選關(guān)鍵詞,從生成的詞向量文件中抽取候選關(guān)鍵詞的詞向量表示,即WV={V1, V2,…, Vm};

      (4)計(jì)算詞向量距離并排序,公式:

      (1)

      (5)把候選關(guān)鍵詞排名在前TopN的詞匯作為文本的關(guān)鍵詞。

      1.4? TextRank算法

      TextRank算法是在PageRank算法的基礎(chǔ)上提出來的,且是一種抽取式無監(jiān)督的摘要方法,把對文本的分析轉(zhuǎn)化成一個網(wǎng)絡(luò)圖模式,這樣就可以通過分析網(wǎng)絡(luò)圖中每個節(jié)點(diǎn)的權(quán)重,確定節(jié)點(diǎn)的重要性。把文本中每一個句子都看作一個節(jié)點(diǎn),如果兩個句子之間存在相似性,則這兩個句子之間有一條無向有權(quán)邊[14]。

      句子相似度計(jì)算:

      (2)

      通過句子的余弦相似度方法計(jì)算可得到句子間的相似度矩陣Sn×n:

      (3)

      其計(jì)算公式為:

      (4)

      TextRank算法相當(dāng)于一種排序算法,可以將專利文本分割成若干個單元,通過句子節(jié)點(diǎn)構(gòu)建連接圖[15],利用相似度,通過循環(huán)迭代計(jì)算句子的TextRank值。TextRank算法流程如圖2所示。

      為分割后的每個句子找到向量表示,計(jì)算出句子之間的相似度之后存放在矩陣中,然后根據(jù)相似矩陣以及網(wǎng)絡(luò)圖計(jì)算并進(jìn)行排序,最終,排名最高的n個句子作為最后的摘要結(jié)果。

      2? 實(shí)驗(yàn)結(jié)果及討論

      文章的設(shè)計(jì)目的是從一篇中文專利文檔中抽取關(guān)鍵詞,以農(nóng)業(yè)大棚用薄膜為研究對象,對文檔內(nèi)容進(jìn)行大致的分析。其中涉及四個步驟,首先對長文檔進(jìn)行分詞、去停用詞,其次利用Word2Vec算法提取反映文章主要內(nèi)容的關(guān)鍵詞,最后通過TextRank算法自動生成摘要,其具體的流程如圖3所示。

      2.1? 分詞和去停用詞

      使用Jieba庫,進(jìn)行分詞拆分,先去掉非漢字字符,讀入停用詞表的文件,對每個詞進(jìn)行檢索,去除對文本語義分詞無意義的標(biāo)點(diǎn)符號,對文本數(shù)據(jù)進(jìn)行預(yù)處理,部分結(jié)果如表1所示。

      2.2? Word2Vec關(guān)鍵字的提取

      通過Word2Vec進(jìn)行提取關(guān)鍵詞,使讀者一眼看出文章中的高頻詞,快速捕獲文本信息,節(jié)約大量時(shí)間,文章共生成了254個關(guān)鍵詞,通過Python中詞云庫WordCloud根據(jù)254個關(guān)鍵詞的重要程度進(jìn)行可視化展示,其最終生成的詞云如圖4所示。

      從圖4的展示結(jié)構(gòu)中可以發(fā)現(xiàn),本文共提取的254個關(guān)鍵詞中,按照重要程度依次是監(jiān)測、裝置、相機(jī)、旋轉(zhuǎn)、調(diào)節(jié)、機(jī)構(gòu)、處理器、光源等關(guān)鍵詞,由此可以推斷這篇長文檔是一篇關(guān)于農(nóng)業(yè)大棚薄膜材質(zhì)的監(jiān)測裝置。

      2.3? TextRank生成摘要

      通過Word2Vec算法對在原文中提取的關(guān)鍵字進(jìn)行Embedding處理,TextRank算法根據(jù)Embedding值,用WordAVG表示句向量,然后根據(jù)余弦相似度計(jì)算形成一個113×113維度的相似度矩陣,根據(jù)TextRank算法提取113個摘要句,文章選取排名最前的10個摘要句構(gòu)成該專利的摘要,其結(jié)果如表2所示。

      從以上結(jié)果可以發(fā)現(xiàn),通過TextRank算法自動生成的摘要,與該專利的原文摘要相比,篇幅較少,描述的文字也不盡相同,但較全面地概括了本文研究的目的、內(nèi)容及意義,為其他專利長文檔的自動生成提供了一定的借鑒及指導(dǎo)意義。

      3? 結(jié)? 論

      主要以農(nóng)業(yè)大棚用薄膜為研究對象,以Word2Vec和TextRank算法生成摘要為例,主要從分詞,去停用詞,關(guān)鍵詞提取,生成摘要四個方面對長文本進(jìn)行研究,實(shí)現(xiàn)自動文本摘要提取。首先對文本數(shù)據(jù)進(jìn)行預(yù)處理,在用Jieba庫對專利文本進(jìn)行分詞,然后檢索停用詞表去除無用的停用詞,然后通過Word2Vec進(jìn)行提取關(guān)鍵詞,快速捕獲文本信息,用wordcloud對提取的關(guān)鍵詞進(jìn)行展示,最后通過TextRank算法生成摘要。實(shí)驗(yàn)結(jié)果顯示,相對于傳統(tǒng)方法而言,本文提出的基于Word2Vec和TextRank算法的自動文本摘要不易偏離主題,且適應(yīng)范圍廣,速度快,準(zhǔn)確度高,符合實(shí)驗(yàn)預(yù)期。

      參考文獻(xiàn):

      [1] 趙明輝,張玲玲,顧基發(fā).基于網(wǎng)絡(luò)評論文本挖掘的技術(shù)預(yù)見方法研究 [J].科技管理研究,2022,42(16):176-181.

      [2] 熊謙,唐文哲.基于文本挖掘的水利工程建設(shè)管理信息化專利分析 [J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2023,63(2):223-232.

      [3] LUHN H P. The Automatic Creation of Literature Abstracts [J].IBM Journal of Research and Development,1958,2(2):159-165.

      [4] 劉志明,于波,歐陽純萍,等.基于主題的SE-TextRank情感摘要方法 [J].情報(bào)工程,2017,3(3):97-104.

      [5] SALTON G,YU C T. On the Construction of Effective Vocabularies for Information Retrieval [J].ACM SIGPLAN Notices,1975,10(1):48-60.

      [6] HU P,HE T T,JI D H,et al. A Study of Chinese Text Summarization Using AdaptiveClustering of Paragraphs [C]//the Fourth International Conference on Computer and Information Technology.Wuhan:IEEE,2004:1159-1164.

      [7] 王永成,王曉峰.國家信息基礎(chǔ)結(jié)構(gòu)與全息檢索 [J].電子出版,1997(4):57-59.

      [8] KCHAOU D,BOUASSIDA N,BEN-ABDALLAH H. UML Models Change Impact Analysis Using a Text Similarity Technique [J].IET Software,2017,11(1):27-37.

      [9] LI W,XIAO X Y,LYU Y J,et al. Improving Neural Abstractive Document Summarization with Structural Regularization [C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels:Association for Computational Linguistics,2018:4078-4087.

      [10] 程園,吾守爾·斯拉木,買買提依明·哈斯木.基于綜合的句子特征的文本自動摘要 [J].計(jì)算機(jī)科學(xué),2015,42(4):226-229.

      [11] 徐飛,彭佳佳,劉軍,楊博.基于多特征融合的TextRank新聞自動摘要模型 [J/OL].計(jì)算機(jī)系統(tǒng)應(yīng)用:1-8[2023-01-29].https://www.cnki.net/KCMS/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=XTYY20221114019&v=MTkxNjlBemxxMkEwZkxUN1I3cWRaT1p1RkNEa1c3dk5KRm89UFRuU2Q3RzRITlBOcm81QlpPb0dZd2s3dkJBUzZqaDRU.

      [12] 利潤霖,龍昌敏,李雯蕓,等.基于TextRank算法的項(xiàng)目標(biāo)簽智能化生成技術(shù)研究 [J].信息技術(shù),2022(8):77-82.

      [13] 李秀秀,陳海山.基于機(jī)器學(xué)習(xí)的新聞文本分類研究 [J].電腦編程技巧與維護(hù),2021(12):132-135.

      [14] 丁敬達(dá),陳一帆,劉超,等.基于共詞和Word2Vec加權(quán)向量的文獻(xiàn)-主題語義匹配分析方法 [J].圖書情報(bào)工作,2022,66(12):108-116.

      [15] 羅婉麗,張磊.結(jié)合拓?fù)鋭菖cTextRank算法的關(guān)鍵詞提取方法 [J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(1):334-338.

      作者簡介:朱玉婷(2001—),女,漢族,甘肅平?jīng)鋈?,本科在讀,研究方向:數(shù)據(jù)挖掘;劉樂(2004—),女,漢族,甘肅慶陽人,本科在讀,研究方向:圖像處理;辛?xí)詷罚?000—),女,漢族,甘肅臨夏人,本科在讀,研究方向:機(jī)器視覺;陳瓏慧(2000—),女,漢族,甘肅慶陽人,本科在讀,研究方向:數(shù)據(jù)應(yīng)用;康亮河(1987—),女,漢族,甘肅會寧人,助教,碩士,研究方向:人工智能算法研究。

      收稿日期:2022-10-13

      基金項(xiàng)目:甘肅省農(nóng)業(yè)大學(xué)盛彤笙科技創(chuàng)新基金(GSAU-STS-2021-15);國家自然基金(32060437);甘肅農(nóng)業(yè)大學(xué)省級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(202216018)

      猜你喜歡
      提取
      射擊痕跡的尋找和提取
      法制博覽(2016年12期)2016-12-28 18:50:33
      植物基因組DNA提取
      濱州市沾化冬棗核中活性多糖的提取
      綠色科技(2016年20期)2016-12-27 18:10:47
      茶色素生物活性及制備技術(shù)研究進(jìn)展
      木犀草素提取工藝的研究概況
      現(xiàn)場勘查中物證的提取及應(yīng)用
      淺談涂料墻面上汗液手印的顯現(xiàn)和提取
      土壤樣品中農(nóng)藥殘留前處理方法的研究進(jìn)展
      中學(xué)生開展DNA“細(xì)”提取的實(shí)踐初探
      淺析城市老街巷景觀本土設(shè)計(jì)元素的提取與置換
      武汉市| 芮城县| 梁平县| 乌海市| 岗巴县| 黎城县| 渝北区| 章丘市| 嫩江县| 若羌县| 安阳县| 马边| 类乌齐县| 泊头市| 龙江县| 九寨沟县| 句容市| 锡林浩特市| 乐平市| 兰溪市| 沂源县| 浑源县| 华蓥市| 临江市| 板桥市| 齐河县| 青冈县| 岗巴县| 运城市| 班玛县| 双峰县| 灵山县| 裕民县| 曲阳县| 阳西县| 淮阳县| 诸城市| 囊谦县| 鹿泉市| 东丽区| 紫金县|