• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合BERT 與LDA 的在線課程評(píng)論關(guān)鍵詞提取方法

    2022-03-25 03:11尼格拉木買斯木江艾孜爾古麗玉素甫
    現(xiàn)代電子技術(shù) 2022年6期
    關(guān)鍵詞:向量文本算法

    尼格拉木·買斯木江,艾孜爾古麗·玉素甫,2

    (1.新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2.新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究少數(shù)民族語(yǔ)言中心,北京 100814)

    0 引 言

    隨著信息技術(shù)的迅猛發(fā)展,“互聯(lián)網(wǎng)+教育”得到了市場(chǎng)的青睞和追捧,但當(dāng)前的慕課平臺(tái)還有一些不足,如存在教學(xué)視頻延遲、教學(xué)資源不完整等問(wèn)題。由于數(shù)據(jù)量太大,使得手工統(tǒng)計(jì)和分析難以實(shí)施,所以迫切需要一種方法能夠從大量的信息源中快速有效地提取出真正需要的信息,并充分展示分析結(jié)果。因此,需要對(duì)在線課程評(píng)論關(guān)鍵詞進(jìn)行提取。

    關(guān)鍵字提取使人們能夠以簡(jiǎn)潔的方式表示文本文檔。文檔的關(guān)鍵詞在文本自動(dòng)索引等任務(wù)及相關(guān)應(yīng)用場(chǎng)景中有相應(yīng)表現(xiàn)。目前,關(guān)鍵字提取主要基于最頻繁度量的關(guān)鍵字提取、詞頻反轉(zhuǎn)文本頻率的關(guān)鍵字提取等方法。隨著關(guān)鍵詞提取技術(shù)的提高,一些學(xué)者優(yōu)化算法,利用節(jié)點(diǎn)信息進(jìn)行關(guān)鍵詞處理,如通過(guò)TextRank 調(diào)整邊的轉(zhuǎn)移權(quán)值以取得較好的效果。Abilhoa W D 通過(guò)隱含的Diricre 分布主題模型構(gòu)建主題特征LDA 的獎(jiǎng)勵(lì)函數(shù)計(jì)算詞,構(gòu)建關(guān)鍵詞抽取模型。Nagarajan R 等通過(guò)將句法特征結(jié)合到詞的表示中來(lái)獲得比N-Gram 更高的準(zhǔn)確性。Abdelhaq H 等通過(guò)LDA 和TextRank 算法聯(lián)合提取關(guān)鍵詞。顧益軍等為了提高學(xué)習(xí)算法的有效性及秉持對(duì)基于統(tǒng)計(jì)關(guān)鍵詞提取方法的評(píng)價(jià),對(duì)基本的學(xué)習(xí)算法和常用的Set 算法進(jìn)行了比較。郭慶用文本分類問(wèn)題思路解決了文本主題詞挖掘問(wèn)題,提取關(guān)鍵詞用了支持向量機(jī)(SVM)。Khalil M 認(rèn)為在提取關(guān)鍵詞時(shí)要考慮句子的影響程度?;谝陨戏椒?,可以進(jìn)一步提高關(guān)鍵詞處理的效率。

    隨著人工智能技術(shù)的發(fā)展,關(guān)鍵詞提取得到越來(lái)越多的重視,洪成杰通過(guò)BERT 和TextRank 處理關(guān)鍵詞。王亞坤利用融合算法提取關(guān)鍵詞。韋強(qiáng)申通過(guò)PageRank 和神經(jīng)短語(yǔ)嵌入算法對(duì)關(guān)鍵詞進(jìn)行提取和排序。薛清福等構(gòu)建詞向量并與主題挖掘技術(shù)TextRank 相結(jié)合,增添了文本語(yǔ)義與TextRank 的相關(guān)性。肖倩等提出一種新的詞向量聚類和TextRank 方法,利用BERT 詞之間的相似度關(guān)系,提高了關(guān)鍵詞處理效率。李德新等優(yōu)化了關(guān)鍵詞提取,但仍存在準(zhǔn)確性不高的問(wèn)題。

    基于上述研究,本文提出了一種融合BERT(Bidirectional Encoder Representations from Transformer)和模型LDA 隱含狄利克雷分布(Latent Dirichlet Allocation)的在線課程評(píng)論關(guān)鍵詞提取方法。該方法可以根據(jù)語(yǔ)義信息的影響,濃縮在線課程的特點(diǎn)評(píng)論信息和關(guān)鍵詞的覆蓋率和差異。利用訓(xùn)練后的BERT 模型獲得候選詞的詞向量;再利用LDA 主題模型得到候選關(guān)鍵詞差異的影響程度以及在主題與文本候選關(guān)鍵詞間的語(yǔ)義相關(guān)性;最后在主題與語(yǔ)義關(guān)聯(lián)性及TextRank算法基礎(chǔ)上對(duì)實(shí)驗(yàn)所選出來(lái)的關(guān)鍵詞進(jìn)行排序。通過(guò)本文提出的方法可以完善慕課平臺(tái)的建設(shè)與改進(jìn),同時(shí)也有助于提供更好的用戶體驗(yàn)。

    1 一種融合BERT 與LDA-TextRank 的在線課程評(píng)論關(guān)鍵詞提取方法

    近幾年在線課程的發(fā)展,使用戶和平臺(tái)管理者能夠從繁雜的用戶評(píng)論中獲取更多有價(jià)值的信息。在選擇和改進(jìn)過(guò)程中得以實(shí)現(xiàn)是目前在線課程評(píng)論的研究熱點(diǎn)。本文提出一種基于BERT LDA-TextRank 的關(guān)鍵詞提取方法。第一步獲取候選關(guān)鍵詞,在候選關(guān)鍵詞之前對(duì)爬取的課程評(píng)語(yǔ)進(jìn)行預(yù)處理,再通過(guò)BERT 模型訓(xùn)練得到慕課網(wǎng)在線評(píng)語(yǔ)的詞向量;然后利用LDA 主題模型得到候選關(guān)鍵詞的主題分布;最后結(jié)合TextRank 算法計(jì)算出各主題的關(guān)系詞,并生成候選關(guān)鍵詞進(jìn)行主題挖掘。

    1.1 詞向量構(gòu)建模塊

    一些學(xué)者采用分布式方法對(duì)詞進(jìn)行處理,該方法有相關(guān)性更強(qiáng)的優(yōu)點(diǎn),能更好地反映詞與詞之間的緊密關(guān)系。Mikolov 等人提出了一種詞表示模型,通過(guò)分布式方法突出詞語(yǔ)的相關(guān)性。本文則通過(guò)谷歌開(kāi)源工具包BERT 模型訓(xùn)練慕課平臺(tái)語(yǔ)料庫(kù)上的詞表示模型。為了得到待測(cè)文本候選關(guān)鍵詞,本文首先對(duì)在線課程評(píng)論進(jìn)行預(yù)處理并選取評(píng)論主題的特點(diǎn);再基于針對(duì)網(wǎng)絡(luò)課程的候選關(guān)鍵詞,在現(xiàn)有的數(shù)據(jù)集上進(jìn)行文本表示,在得到BERT 模型訓(xùn)練好的詞向量之后,進(jìn)一步得到文本評(píng)論向量。

    圖1 BERT 模型圖

    1.2 主題差異性挖掘模塊

    關(guān)鍵詞不僅需包含網(wǎng)絡(luò)課程評(píng)論的主要框架,而且要有主題差異和文本覆蓋。如果考慮不周,則提取的關(guān)鍵詞有效率會(huì)下降,因此,關(guān)鍵詞不僅重要,而且具有差異度和覆蓋度。

    為了表征關(guān)鍵詞之間的差異和覆蓋范圍,本文重點(diǎn)關(guān)注了候選關(guān)鍵詞重要屬性,利用LDA 主題模型分析候選關(guān)鍵詞主題差異的關(guān)系。

    LDA 主題模型認(rèn)為一個(gè)文檔由幾個(gè)主題組成,同時(shí)每個(gè)主題由幾個(gè)單詞組成,分別代表個(gè)文檔的個(gè)特征詞及其主題。主題模型是一種識(shí)別和聚類文檔中潛在主題的算法,可用于識(shí)別文本中隱含的主題信息?,F(xiàn)流行的主題概率模型是隱含狄利克雷分布,即LDA,簡(jiǎn)稱基于向量模型。這個(gè)模型是一個(gè)基于生產(chǎn)的概率模型,其中包含文件、話題和文字。該模型運(yùn)用先驗(yàn)分布解決了主題挖掘任務(wù)中向量過(guò)度擬合問(wèn)題。LDA 概率模型基于貝葉斯算法,具體計(jì)算過(guò)程如圖2所示。

    圖2 LDA 概率模型

    圖2 中LDA 的各實(shí)驗(yàn)變量參考釋義如表1 所示。

    表1 主題模型中各參數(shù)含義

    從主題模型生成單詞的LDA 過(guò)程如下:

    1)根據(jù)先驗(yàn)實(shí)驗(yàn)概率從多個(gè)備選文檔中選擇一個(gè)文檔;

    2)從Dirichlet 分布中抽樣,并且生成主題分布;

    3)主題多項(xiàng)式分布樣本的底部單詞,生成主題的文檔z

    4)與主題對(duì)應(yīng)的單詞分布由Dirichlet 分布生成;

    5)生成詞w從詞的多項(xiàng)式分布采樣中得到;

    6)參數(shù)計(jì)算可以采用Gibbs 算法,即:

    1.3 基于TextRank 的主題摘要生成模塊

    關(guān)鍵詞能體現(xiàn)文本的基本信息,隨著人工智能的發(fā)展,各種技術(shù)和理論被應(yīng)用到關(guān)鍵詞處理中。BERT 在這些技術(shù)中脫穎而出。

    基于TextRank 的主題摘要生成是指主要評(píng)論中的某個(gè)評(píng)論語(yǔ)句和其他相似度較高的評(píng)論,如有兩個(gè)句子s,s,t表示評(píng)語(yǔ)候選關(guān)鍵詞,相似度公式如下:

    式中,若兩個(gè)給定句子相似度高于給定的值,在該模型中被認(rèn)定為這兩個(gè)句子具有語(yǔ)義相關(guān)性并且會(huì)將s,s連接起來(lái),作為候選評(píng)論語(yǔ)句的重要語(yǔ)句根據(jù)相關(guān)權(quán)重計(jì)算抽取出重要度高的個(gè)句子,得到主題摘要。

    1.4 BERT-LDA 模型整體框架

    本文以BERT 的模型為基礎(chǔ),構(gòu)建LDA-Text Rank課程評(píng)價(jià)的主題提取模型。與傳統(tǒng)主題模型的輸入語(yǔ)料庫(kù)相比,該模型使用BERT 語(yǔ)言模型減少了輸入語(yǔ)料庫(kù),大大提高了模型提取的效率,使主題提取的分布更好。BERT-LDA-TextRank 模型操作過(guò)程為:對(duì)爬取的課程評(píng)語(yǔ)進(jìn)行預(yù)處理,預(yù)處理語(yǔ)料庫(kù)用輸入到BERT 模型獲得減少維度的詞向量表示;再通過(guò)LDA 模型對(duì)數(shù)據(jù)進(jìn)行主題挖掘,挖掘熱門話題和相應(yīng)的主題關(guān)鍵字;最后運(yùn)用TextRank 算法提取各關(guān)鍵評(píng)論語(yǔ)句的主題摘要。本文方法在更深的層面上提取隱含的主題中包含情感信息的課程評(píng)價(jià)。

    2 實(shí) 驗(yàn)

    2.1 數(shù)據(jù)預(yù)處理和參數(shù)設(shè)置

    本文以最大的IT 網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)慕課(MOOC)網(wǎng)作為數(shù)據(jù)來(lái)源,通過(guò)開(kāi)源爬取框架Scrapy 爬取了前100 門熱門課程評(píng)論信息共51 977 條數(shù)據(jù)記錄。同時(shí)采用結(jié)巴分詞系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行了去重、過(guò)濾、去停用詞等文本預(yù)處理。圖3 為在線評(píng)論主題挖掘算法流程。實(shí)驗(yàn)中數(shù)據(jù)集按3∶1 的比例分割,并使用BERT+LDA+TextRank 模型,參數(shù)設(shè)置如表2、表3 所示。

    圖3 在線評(píng)論主題挖掘算法流程

    表2 Bert 模型參數(shù)設(shè)置

    表3 LDA 模型參數(shù)設(shè)置

    2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)與實(shí)驗(yàn)環(huán)境

    為了驗(yàn)證本文模型的性能,在本實(shí)驗(yàn)效果評(píng)價(jià)上使用了困惑度(Perplexity)對(duì)比實(shí)驗(yàn)。困惑度是用來(lái)度量概率分布的重合程度和預(yù)測(cè)樣本的指標(biāo),也可以用來(lái)表示兩個(gè)概率分布或概率模型,在主題模型中低困惑度的概率分布預(yù)測(cè)樣本能力更高。困惑度計(jì)算公式如下所示:

    式中()指的是每個(gè)單詞的出現(xiàn)頻率。根據(jù)式(3)可求得相應(yīng)文檔中不同主題出現(xiàn)的概率。

    實(shí)驗(yàn)環(huán)境為X86 平臺(tái),Intel CPU,內(nèi)存16 GB,硬盤100 GB,GPU-v100,操作系統(tǒng)為Windows 10,Pycharm 2017。使用基于TensorFlow 的深度學(xué)習(xí)庫(kù)Keras 進(jìn)行測(cè)試。

    2.3 實(shí)驗(yàn)結(jié)果與分析

    為了對(duì)提出模型性能進(jìn)行測(cè)試,開(kāi)展了兩組對(duì)比實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)在對(duì)主題提取效果進(jìn)行驗(yàn)證的基礎(chǔ)上測(cè)試了各模型性能,同時(shí)驗(yàn)證不同主題數(shù)下模型的性能,并為實(shí)驗(yàn)選擇最有效的主題數(shù)。第二個(gè)實(shí)驗(yàn)是驗(yàn)證不同數(shù)量的Gibbs 迭代次數(shù)對(duì)模型的影響。第三個(gè)實(shí)驗(yàn)基于TextRank 的主題詞分布研究。

    2.3.1 基于慕課在線課程評(píng)語(yǔ)主題提取效果對(duì)比

    本文選擇了慕課網(wǎng)中最熱門的50 門課程。根據(jù)大量文獻(xiàn)將參數(shù)設(shè)置為0.2,將設(shè)置為0.1,兩個(gè)參數(shù)都為超參數(shù)。下一步將初始Gibbs 樣本的迭代次數(shù)初始值設(shè)置為300。因?yàn)锽ERT-LDA-TextRank 模板的第一層為文本表示模型,第二層為主題挖掘?qū)?,所以模板的參?shù)也是超級(jí)參數(shù),以人為設(shè)置為主。通過(guò)調(diào)整主體數(shù)量來(lái)調(diào)整主題提取影響度,因此值分別為2,4,6,8,10,12,14 在各主題數(shù)基礎(chǔ)下確定實(shí)驗(yàn)最佳性能,對(duì)比實(shí)驗(yàn)如下:

    1)LDA:此模型是Ml構(gòu)建的原始LDA 主題模型,直接使用LDA 主題模型進(jìn)行主題提取實(shí)驗(yàn)。

    2)CBOW-LDA:該模型類似于BERT-LDA 模型,通過(guò)CBOW 算法對(duì)文本進(jìn)行降維,最后將降維后的實(shí)驗(yàn)語(yǔ)料集輸入LDA 主題模型進(jìn)行主題抽取實(shí)驗(yàn)。

    3)LDA-TextRank:模型第一次使用LDA-TextRank算法將降維語(yǔ)料庫(kù)輸入LDA 主題模型主題提取實(shí)驗(yàn),最后用TextRank 算法挖掘各主題。

    4)BERT-LDA-TextRank:為本文提出的模型。實(shí)驗(yàn)?zāi)P褪鞘褂肂ERT 訓(xùn)練在線課程評(píng)語(yǔ)的候選評(píng)語(yǔ)并生成評(píng)論向量,然后將語(yǔ)料集輸入LDA 主題模型,最后與實(shí)驗(yàn)3)類似,用TextRank 算法計(jì)算主題分布。

    這四個(gè)模型的混淆度隨著主題的增加而明顯。通常,降維模型的LDA 模型混亂程度都不優(yōu)于本文提出的BERT-LDA-TextRank 方法,其中單純的LDA 模型主題提取能力最差;本文模型混亂程度最低,對(duì)比CBOW-LDA,添加文本表示模型對(duì)文本向量化,訓(xùn)練語(yǔ)料有了很明顯的提高。

    對(duì)比CBOW-LDA,添加BERT 主題模型的混亂效果優(yōu)于添加CBOW-LDA,因?yàn)锽ERT 模型考慮上下文語(yǔ)義信息和詞序關(guān)系,以及在訓(xùn)練和文本中的單詞出現(xiàn)的次數(shù),因此CBOW 提取的特征不如BERT。本文還進(jìn)行了LDA-TextRank 和BERT-LDA-TextRank 對(duì)比實(shí)驗(yàn)。在本文的數(shù)據(jù)集上BERT-LDA-TextRank 模型略優(yōu)于LDA-TextRank 模型。通過(guò)實(shí)驗(yàn)不難發(fā)現(xiàn),當(dāng)主題數(shù)=6 時(shí),被試的困惑程度最低,所以主題模型中的主題數(shù)為6。

    圖4 模型結(jié)果對(duì)比圖

    2.3.2 Gibbs 迭代次數(shù)對(duì)模型影響研究

    為了確定吉布斯抽樣的最優(yōu)迭代數(shù),本文在保持其他參數(shù)不變的情況下,進(jìn)行BERT-LDA-TextRank 迭代數(shù)混淆度實(shí)驗(yàn),分別將吉布斯抽樣迭代數(shù)設(shè)置為50,100,150,200,250,300,以觀察其混淆度隨迭代數(shù)的變化。設(shè)定迭代次數(shù)時(shí),吉布斯認(rèn)為迭代次數(shù)越高實(shí)驗(yàn)效果越好,但增加迭代次數(shù)也會(huì)影響計(jì)算機(jī)硬件配置,所以配置迭代次數(shù)時(shí),應(yīng)根據(jù)實(shí)際實(shí)驗(yàn)條件來(lái)設(shè)置參數(shù)。

    通過(guò)圖5 可知,Gibbs 迭代次數(shù)從0~250 的困惑度值差距較大,主題提取精度在迭代次數(shù)為250 時(shí)為最佳并保持不變。因此,在本模型中Gibbs 參數(shù)設(shè)置為250。

    圖5 迭代次數(shù)對(duì)實(shí)驗(yàn)結(jié)果影響圖

    2.3.3 基于TextRank 主題詞分布研究

    為了能更清楚地研究各主題評(píng)論內(nèi)容,本研究利用第1.3 節(jié)所講解的TextRank 算法生成主題摘要和關(guān)鍵詞語(yǔ),限于文章篇幅,表4 給出部分產(chǎn)品的主題摘要和關(guān)鍵詞語(yǔ)。

    從表4 中可以看出:第1 個(gè)主題與程序語(yǔ)言學(xué)習(xí)相關(guān),用戶在評(píng)論中都體現(xiàn)了一些主題信息,“C++”這個(gè)詞語(yǔ)出現(xiàn)的概率較高;第2 個(gè)主題是基于機(jī)器學(xué)習(xí)的,因?yàn)椤癝VM”這個(gè)詞出現(xiàn)的頻率相對(duì)較高;第5 個(gè)主題是關(guān)于各種框架學(xué)習(xí)等。除此之外,從主題詞分布中能夠掌握用戶的關(guān)注點(diǎn),比如Java 課程中,機(jī)器學(xué)習(xí)主題主要關(guān)注一些模型,而用戶關(guān)注框架和語(yǔ)法問(wèn)題。同時(shí),實(shí)驗(yàn)結(jié)果表明,用戶對(duì)相關(guān)課程和平臺(tái)管理者的建議以及主觀情感態(tài)度也會(huì)表現(xiàn)在評(píng)語(yǔ)中,比如慕課用戶對(duì)語(yǔ)言類科恒“Java”的授課老師、內(nèi)容以及授課方式給出了比較客觀的評(píng)價(jià),對(duì)JS 課程的授課內(nèi)容很滿意,對(duì)第4 個(gè)主題的課程評(píng)價(jià)比較卡頓,對(duì)管理者提出了相應(yīng)的改進(jìn)方案。

    表4 主題詞分布表

    通過(guò)主題挖掘,能夠從更深的層面上提取隱含的主題中包含情感信息、對(duì)學(xué)習(xí)者及有利于平臺(tái)管理者的課程評(píng)價(jià),有助于完善慕課平臺(tái)的建設(shè)與改進(jìn),同時(shí)也有助于提供更好的用戶體驗(yàn)。

    3 結(jié) 語(yǔ)

    本文提出一種結(jié)合BERT 和LDA-TextRank 差異的簡(jiǎn)單有效的關(guān)鍵詞提取方法,該方法考慮了候選關(guān)鍵詞的語(yǔ)義重要性、覆蓋范圍和差異。該方法通過(guò)LDA 主題模型、BERT 詞表示模型提升候選關(guān)鍵詞的差異敏感度,結(jié)合TextRank 算法生成了主題摘要和關(guān)鍵詞語(yǔ)。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的關(guān)鍵詞提取方法相比,文中方法的困惑度有明顯降低。下一步就是根據(jù)不同語(yǔ)料庫(kù)信息高度集中的特點(diǎn),整合外部知識(shí)信息,提高關(guān)鍵詞提取的質(zhì)量,擴(kuò)充語(yǔ)料完善實(shí)驗(yàn)。

    猜你喜歡
    向量文本算法
    向量的分解
    聚焦“向量與三角”創(chuàng)新題
    基于MapReduce的改進(jìn)Eclat算法
    在808DA上文本顯示的改善
    Travellng thg World Full—time for Rree
    進(jìn)位加法的兩種算法
    基于doc2vec和TF-IDF的相似文本識(shí)別
    一種改進(jìn)的整周模糊度去相關(guān)算法
    向量垂直在解析幾何中的應(yīng)用
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    台北县| 阳原县| 信阳市| 玛纳斯县| 固镇县| 剑阁县| 昂仁县| 芦溪县| 安陆市| 冀州市| 宁化县| 凉城县| 缙云县| 于都县| 屏南县| 桓台县| 灵山县| 江川县| 华亭县| 宜州市| 潼关县| 贵州省| 翁源县| 六枝特区| 天等县| 鄂托克旗| 千阳县| 彭山县| 高唐县| 樟树市| 大化| 九龙坡区| 金山区| 勃利县| 周至县| 电白县| 星子县| 广宁县| 繁昌县| 连城县| 同德县|