• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題模型(LDA)的查新輔助分析系統(tǒng)設(shè)計研究

      2018-03-14 19:21:55馬林山郭磊
      現(xiàn)代情報 2018年2期
      關(guān)鍵詞:R語言查新

      馬林山 郭磊

      〔摘要〕文章概述了主題概率模型(LDA)的計算原理和方法,以及開源R語言中l(wèi)da程序包采用快速壓縮吉普抽樣算法分析語料庫的處理流程。設(shè)計了基于LDA模型的查新輔助分析系統(tǒng)設(shè)計功能框架,對其功能、編程實現(xiàn)思路和工作流程做了描述。最后結(jié)合課題查新實例,詳述了采用LDA模型通過相關(guān)文獻(xiàn)關(guān)鍵詞進行潛在主題挖掘,對比分析課題研究內(nèi)容,對課題給出客觀評價的過程。結(jié)果表明,基于主題模型的查新輔助分析系統(tǒng)可以快速有效挖掘相關(guān)文獻(xiàn)主題,降低查新員對相關(guān)文獻(xiàn)的分析難度,提高課題評價的客觀性,整體輔助分析效果良好。

      〔關(guān)鍵詞〕主題模型;R語言;查新;課題評價

      DOI:10.3969/j.issn.1008-0821.2018.02.018

      〔中圖分類號〕TP31152;G2507〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2018)02-0111-05

      Research on Design of Novelty Retrieval Aided Analysis

      System Based on LDA Model

      Ma Linshan1Guo Lei2

      (1.Library,Hefei University,Hefei 230022,China;

      2.Library,University of Science and Technology of China,Hefei 230026,China)

      〔Abstract〕This paper summarized the calculation principle and method of Latent Dirichlet Allocation(LDA),and the treatment flowsheet using the fast collapsed Gibbs samplings algorithm to analyze the corpus in open source R language.The paper designed the function framework of the novelty retrieval aided analysis system based on LDA model,and described its functions,programming mentality and workflow.Finally,with a novelty retrieval case,this paper explained the basic process of using LDA model,mining potential theme using the keywords of relevant literature,comparing comparative analysis the subject of research content,giving an objective to the research topic.The results showed that the novelty retrieval aided analysis system based on LDA could quickly and effectively mining related literature,reduced the difficulty of analyzing relevant literature topics to Novelty Consultant,improved the objectivity of evaluation subject.The overall analysis effect was good.

      〔Key words〕latent dirichlet allocation;R language;novelty retrieval;subject evaluation

      科技查新是指查新機構(gòu)對委托人課題的科學(xué)技術(shù)內(nèi)容,通過檢索文獻(xiàn),對比觀點分析,做出新穎性客觀公正評價的過程。其在科學(xué)研究、開發(fā)產(chǎn)品、科技管理活動中扮演十分重要的角色。查新的結(jié)果一般是一份規(guī)范的報告,但是其過程是十分復(fù)雜的腦力智慧勞動。查新員不僅要弄清楚委托人的研究內(nèi)容,還要利用相關(guān)檢索技巧,搜集到相關(guān)的文獻(xiàn),并從中分析出與委托人研究點的異同。一個高質(zhì)量的查新,周期一般3~5個工作日,智力勞動強度非常大,需要查新員全身心的投入。為了有效幫助查新員,減輕其工作負(fù)擔(dān),在信息技術(shù)的支持下,出現(xiàn)了一些查新委托系統(tǒng),從訂單委托,報告格式生成等形式上實現(xiàn)自動化。對于查新分析評價內(nèi)容方面,探討較少,基本思路還是交給查新員手動完成。

      隨著信息技術(shù)的發(fā)展,特別是大數(shù)據(jù)挖掘技術(shù)的發(fā)展,從大量數(shù)據(jù)中智能分析出評價預(yù)測觀點的方法越來越多,并且日益成熟。其中基于文本挖掘的聚類方法、潛在主題的挖掘LDA模型方法,應(yīng)用日益廣泛。文章計劃立足于文本聚類挖掘方法,探討構(gòu)建科技查新輔助分析系統(tǒng),幫助查新員從檢索到的文獻(xiàn)中提取潛在主題,有效減輕查新員的對比分析負(fù)擔(dān),極大提高查新的效率和智能性。

      1LDA模型

      LDA(Latent Dirichlet Allocation)模型是一種典型的用于主題提取的概率潛語義模型,由Blei等在2003年提出,是一種具有文本主題表示能力的非指導(dǎo)學(xué)習(xí)模型,已經(jīng)成功應(yīng)用到文本分類、信息檢索等諸多文本相關(guān)領(lǐng)域[1]。其內(nèi)在結(jié)構(gòu)非常清晰。如圖1所示,LDA模型假設(shè)一篇文檔(Document)由多個隱含主題隨機組成,文檔的主題(Topic)是由一系列相關(guān)聯(lián)的詞匯構(gòu)成。文檔語料集(Corpus)是由若干文檔構(gòu)成?;谶@一假設(shè),可將隱含主題看做詞匯的概率分布(Topic~Word),單個文檔可表示為這些隱含主題的概率分布(Doc~Topic),該模型有利于大規(guī)模數(shù)據(jù)處理中的空間降維,將文檔投影到Topic空間。另外,該模型中詞匯之間假設(shè)無關(guān)聯(lián)性,不考慮語法和詞序,即所謂的“Bag of Words”假設(shè)[2]。

      LDA模型假設(shè)一篇文檔中的主題序列z={z1,z2,z3,…}是可交換順序,并且其中每一個主題zi服從參數(shù)為θ的多項分布,zi~Multinomial(θ),N個詞語對應(yīng)的主題有(依據(jù)de Finetti定理):p(z1,z2,…,zN)=∫∏Ni=1p(zi|θ) p(θ)dθ;文檔中的詞語由給定主題的條件分布生成,即wi~p(wi|zi)。從而文檔中詞語和主題的概率模型可表示為:p(w,z)=∫p(θ)(∏Ni=1p(zi|θ)p(wi|zi))dθ。p(zi|θ)表示每個文檔中各個主題出現(xiàn)的概率,可理解為一篇文檔中每個主題所占的比例;p(wi|zi)表示在每個主題中每個詞語出現(xiàn)的概率,p(w,z)表示的是每個文檔中各個詞語出現(xiàn)的概率。這個概率可通過如下步驟得到:第一步,先對文檔進行分詞,得到一個詞語列表,從而將文檔表示為一個詞語的集合;第二步,計算每個詞語在列表中出現(xiàn)的頻率,以這個頻率作為這個詞語在文檔中出現(xiàn)的概率。因此,對于任意一篇長度為N的文檔,p(w,z)是已知的,而p(zi|θ)和p(wi|zi)未知。需要利用大量的文本數(shù)據(jù)p(w,z),訓(xùn)練得出p(zi|θ)和p(wi|zi),進而獲得文檔的主題信息[2]。

      LDA模型生成一篇文檔的步驟如下:

      1)選擇N~poission(γ),N為文檔長度(文檔中詞語的數(shù)量);

      2)選擇θ~Dirichlet(α),θ為k維列變量,代表文檔中k個主題發(fā)生的概率,其中k被假設(shè)為固定且已知的量;

      3)對于N個詞語中的每一個:

      ①選擇主題zi~Multinomial(θ),主題zi服從參數(shù)為θ的多項式分布。

      ②在選定的主題zi下選擇詞語wi~p(wi|zi,β),其中p(wi|zi,β)為給定的zi條件下的多項分布,參數(shù)β是一個k×N矩陣,βij=p(wj=1|zi=1),表示主題i下生成單詞j的概率。每個文檔所對應(yīng)的概率密度函數(shù)為:

      P(w|α,β)=∫P(θ|α)(∏Ni=1∑ziP(zi|θ)P(wi|zi,β))dθ

      LDA模型的層次結(jié)構(gòu)如圖2所示,該圖模型由外到內(nèi)依次表示LDA模型的文檔語料集層、文檔層和詞層[3]。

      2LDA模型的實現(xiàn)

      采用LDA模型挖掘文本中的主題,實際上就是估計參數(shù)α和β。α反映主題的概率性質(zhì),β反映詞語在給定主題下的概率性質(zhì)。Blei提出LDA模型時,在EM算法中結(jié)合了變分推斷來估計參數(shù)α和β。2004年,Griffiths和Steyvers在Blei提出的原始LDA模型上增加了參數(shù)β的先驗Dirichlet分布,即β~Dir(η);進而他們提出了用于這個LDA模型的估計壓縮吉普抽樣(Collapsed Gibbs Sampling)算法。EM算法下的變分推斷計算速度相對更快,而Collapsed Gibbs Sampling的估計準(zhǔn)確率更高。在壓縮吉普抽樣算法的基礎(chǔ)上,又提出了快速壓縮吉普抽樣(Fast Collapsed Gibbs Sampling)算法,在保證了估計準(zhǔn)確率的條件下,大大提高了估計的計算效率。目前在各種軟件編程中應(yīng)用較多的是Gibbs Sampling算法[4]。

      開源解釋型語言R中的lda程序包封裝實現(xiàn)了LDA模型求解。該包使用的是快速壓縮吉普抽樣算法。分析處理流程如圖3所示。

      首先要整理文檔,形成數(shù)據(jù)源,一般是txt或者Excel格式的文本文檔。其次,對文檔中的文本進行分詞,形成詞條。因英文語句中單詞與單詞之間有空格分割,切分比

      較方便,且準(zhǔn)確率高;R語言中中文分詞較好的是Rwordseg包,它使用rJava調(diào)用Java中文分詞工具Ansj來實現(xiàn)分詞。分詞時能標(biāo)記出名詞、動詞、形容詞等詞的屬性,且能按照詞性再進一步提取。第三,利用R語言中的tm包,生成語料庫(Corpus)和文檔(Document)的內(nèi)存表示,表現(xiàn)為詞匯向量、數(shù)據(jù)框等。第四,生成詞條和文檔對應(yīng)的關(guān)系矩陣,便于詞匯與對應(yīng)文檔的核對分析。最后利用相關(guān)函數(shù)和lda包中的函數(shù),進行高頻詞統(tǒng)計、生成詞條出現(xiàn)頻次散點圖、詞云、分析相關(guān)性詞條以及羅列挖掘出的主題等等。

      求解LDA模型,采用Fast Collapsed Gibbs Sampling算法。要給定主題個數(shù)k的取值以及參數(shù)α和β的初始值。因參數(shù)α和β的估計值需經(jīng)反復(fù)迭代得出,初始值的設(shè)定對模型最終結(jié)果影響不大,一般可隨機設(shè)定,可設(shè)置處置為01。主題個數(shù)k對LDA模型的結(jié)果影響較大,若k過大,會使相同主題的類別被拆分;若k過小,則主題易混雜,影響對主題的判斷、理解[5]。

      3基于主題模型的查新輔助分析系統(tǒng)設(shè)計

      基于主題概率模型(LDA)方法,可以用來識別大規(guī)模文檔集(Document Collection)或語料庫(Corpus)中潛藏的主題信息,其采用的詞袋處理機制,不考慮詞與詞之間的順序,簡化了問題的復(fù)雜性,便于實現(xiàn),實驗也證明它具有較好的主題識別能力[6]。目前LDA模型在輿情分析、個性化推薦、社交網(wǎng)絡(luò)、廣告預(yù)測、專利分析等領(lǐng)域應(yīng)用十分廣泛。

      課題查新過程中,依據(jù)委托人提供的關(guān)鍵詞,一般能找出較多的相關(guān)文獻(xiàn),這些參考文獻(xiàn)一一審閱工作量非常大,查新人員可以借助LDA模型,設(shè)計一個輔助分析系統(tǒng),依據(jù)參考文獻(xiàn)作者提供的關(guān)鍵詞,構(gòu)建詞向量空間,進行挖掘分析,匯聚提取出潛在主題,然后再與委托人課題研究內(nèi)容和方向進行對比,找出合適、精確的相關(guān)文獻(xiàn),進而對課題給出客觀的評價。下面給出基于LDA模型的查新輔助分析系統(tǒng)設(shè)計功能框架,如圖4所示[7]。

      因R軟件是一款功能強大的統(tǒng)計軟件,而且是開源項

      目,其軟件包覆蓋了統(tǒng)計計算的所有領(lǐng)域,從傳統(tǒng)的回歸分析到前沿的金融時間序列分析都有。所以整個系統(tǒng)基于net開發(fā),C#做應(yīng)用程序,R軟件做后臺的統(tǒng)計分析,安裝R(D)COM組件,注冊到Windows的組件服務(wù)中,供程序調(diào)用[8]。

      該模型由查新委托申請、檢索相關(guān)文獻(xiàn)、參考文獻(xiàn)信息導(dǎo)出、參考文獻(xiàn)主題挖掘和格式化查新報告生成打印五大基本功能組成。工作流程是:首先委托人注冊賬戶進行查新委托申請,按照格式填寫指定的課題研究內(nèi)容、查新點、關(guān)鍵詞、以及課題申請書附件等相關(guān)資料。其次,查新員相應(yīng)接受申請,依據(jù)委托內(nèi)容切換到中國知網(wǎng)、萬方數(shù)據(jù)、智立方、超星發(fā)現(xiàn)以及外文數(shù)據(jù)庫進行檢索,查找相關(guān)文獻(xiàn)。第三,對于檢索獲得的參考文獻(xiàn),在檢索平臺上選擇題名、關(guān)鍵字、摘要、作者、全文地址等項,導(dǎo)出為文本格式文件(一般選擇Excel格式)。第四,啟動核心的參考文獻(xiàn)主題挖掘功能模塊,導(dǎo)入格式參考文獻(xiàn)信息,提取關(guān)鍵詞,生成向量空間,選擇主題挖掘模型,如LDA、共詞等模型,進行挖掘。找出核心關(guān)鍵詞,生成聚類潛在主題。查新員利用生成的主題信息,做深入分析,對比課題委托人的研究內(nèi)容,找出合適的參考文獻(xiàn),并給課題做出合理評價。該功能模塊按照文章第2部分——LDA模型的實現(xiàn)流程實現(xiàn)。第五,完善查新報告格式內(nèi)容,如羅列選出的參考文獻(xiàn),生成最終報告并進行打印。

      4實例測試分析

      基于以上的主題模型理論及實現(xiàn)思路流程的研究,將其嘗試運用到課題查新中的輔助分析方面,探索設(shè)計了基于主題模型的查新輔助分析系統(tǒng),并對該系統(tǒng)的功能框架和工作流行進行了講解。下面結(jié)合具體的課題查新實例,詳述采用主題模型對檢索初步獲得的相關(guān)文獻(xiàn)進行主題挖掘的過程,重點測試一下主題模型在課題查新中應(yīng)用的輔助分析效果。

      41課題委托概述

      課題名稱是“單幅二維圖像的深度信息提取方法的研究”,研究方向主要是單幅圖像中物體邊緣散焦程度的度量方法和提出新的構(gòu)建稠密深度圖算法兩個方面的研究。委托人標(biāo)注的查新點是:第一,通過利用已知的高斯核函數(shù)與圖像進行卷積,然后用梯度比值求彌散半徑的修正,獲得更精確的稀疏深度圖。第二,利用擴散張量和二階總廣義變分將稠密深度圖的構(gòu)建轉(zhuǎn)化為凸最優(yōu)化問題,從而達(dá)到提高稠密深度圖的精度的目的。提供的關(guān)鍵詞主要有單幅圖像,邊緣散焦,稀疏深度圖,高斯核函數(shù),稠密深度圖,擴散張量,圖像深度。查新范圍限定在國內(nèi),用于教育廳省級課題的立項申請。

      42參考文獻(xiàn)獲取說明

      為了重點突出說明采用LDA模型進行潛在主題挖掘的過程,且能有效降低復(fù)雜度,僅以中國知網(wǎng)(www.cnki.net)檢索平臺獲取的參考文獻(xiàn)為例進行說明。根據(jù)課題研究內(nèi)容和方向,先盡可能擴大檢索范圍,選擇二位圖像和深度兩個關(guān)鍵詞,構(gòu)建檢索式“檢索式A:關(guān)鍵詞=二維圖像 and 關(guān)鍵詞=深度(模糊匹配)”;檢索范圍:中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫,中國博士學(xué)位論文全文數(shù)據(jù)庫,中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫,中國重要會議論文全文數(shù)據(jù)庫,國際會議論文全文數(shù)據(jù)庫,中國重要報紙全文數(shù)據(jù)庫;檢索年限:——2016年11月29日(委托日)。

      檢索得到128條記錄,勾選全部文獻(xiàn),除去3條報紙記錄(不含關(guān)鍵詞),剩余125條有效記錄。點擊導(dǎo)出/參考文獻(xiàn),選擇“CNKI E-Study”格式導(dǎo)出到Excel保存(文件名為:hlx_cnki.xlsx)。

      43提取關(guān)鍵詞構(gòu)建語料庫

      文本分析采用R語言中的核心工具包tm,語料庫(Corpus)是tm包處理所有文本的集合。下載的125條相關(guān)文獻(xiàn)信息組成一個語料庫,每一條文獻(xiàn)的關(guān)鍵詞(題名、作者、摘要不考慮)視為一個文檔(Document)。

      加載Excel處理包(library(″xlsx″)),調(diào)用read.xlsx(),將hlx_cnki.xlsx文檔讀入內(nèi)存,生成數(shù)據(jù)框?qū)ο驞ata。轉(zhuǎn)換Data關(guān)鍵字列的數(shù)據(jù)類型為字符向量(data[[“keyword”]]〈-as.character(Data2[[“keyword”]]))。再依據(jù)逗號分隔符將每一行中的關(guān)鍵詞分裂成字符串向量(便于匯總統(tǒng)計),命令為data[[“keyword”]]〈-strsplit(data[[“keyword”]],split=″,″)。加載tm包和繪圖展示包ggplot2,命令為,library(tm),library(ggplot2)。使用VectorSource()函數(shù)把data[[“keyword”]]向量轉(zhuǎn)化為可以被Corpus函數(shù)直接讀取的數(shù)據(jù),然后使用Corpus函數(shù)完成語料庫的轉(zhuǎn)化,放于corpus對象中。命令為corpus=Corpus(VectorSource(data[[“keyword”]]))。進而生成可以統(tǒng)計的詞條——文檔關(guān)系矩陣,命令為sample.dtm〈-DocumentTermMatrix(corpus,control=list(wordLengths=c(2,Inf)))(參數(shù)2限定關(guān)鍵詞最少2個字符)[9]。

      44找高頻詞,生成詞條和出現(xiàn)頻次散點圖

      統(tǒng)計包含關(guān)鍵詞的文檔數(shù),需要把關(guān)系矩陣sample.dtm轉(zhuǎn)化為普通矩陣putong.matrix,命令為putong.matrix〈-as.matrix(sample.dtm)。用Apply函數(shù)統(tǒng)計各個關(guān)鍵詞在所有文檔中出現(xiàn)的次數(shù),命令doc.freq〈-apply(putong.matrix,2,sum)。依據(jù)關(guān)鍵詞在文檔中的出現(xiàn)次數(shù)排序,找到頻次出現(xiàn)最多的20個詞條:names(doc.freq)〈-colnames(putong.matrix);rev(sort(doc.freq))[1∶20],結(jié)果如表1所示。

      從高頻關(guān)鍵詞表和散點圖可以推測利用二維圖像進行提取深度信息的研究較多,應(yīng)用領(lǐng)域研究多集中在機器視覺、人臉識別、體感游戲等方面。

      45挖掘潛在主題,分析挑選相關(guān)文獻(xiàn)

      加載topicmodels和lda包,命令library(topicmodels),library(lda)。依照課題作者提供的研究方面數(shù)和新穎點數(shù)來適當(dāng)設(shè)置k的數(shù)量。本課題研究方向主要是2個方面,設(shè)置k=3,lda主題模型的實現(xiàn)方法選擇壓縮吉普抽樣算法Gibbs,其他參數(shù)選取默認(rèn)值。命令為Gibbs=LDA(sample.dtm,k=3,method=″Gibbs″,control=list(seed=2015,burnin=1000,thin=100,iter=1000))。提取與3個主題分別最相關(guān)的10個關(guān)鍵詞,Terms〈-terms(Gibbs,10),結(jié)果如表2所示。

      從3個主題的關(guān)鍵詞分析,Topic1主要概括機器視覺方面的深度信息;Topic2概括二位圖像深度信息提取,涉及到坐標(biāo)變換、背向散射積分方法,體現(xiàn)出深度信息提取采用的方法問題;Topic3概述有關(guān)二位圖像特征提取深度信息、進行三維重建在超聲診斷儀、體感游戲等領(lǐng)域的應(yīng)用情況。

      分析挖掘出的3個潛在主題,對比課題基于單幅二維圖像的深度信息提取方法研究,主要涉及利用高斯核函數(shù)與圖像進行卷積,用梯度比值求彌散半徑的修正方法,以及利用擴散張量和二階總廣義變分方法。主題分析出來的主題未曾涉及到這些研究點,客觀判斷課題比較新穎。

      再審閱主題關(guān)鍵詞對應(yīng)的文獻(xiàn),最后給出的結(jié)論是:

      目前有關(guān)該課題的研究領(lǐng)域,單幅圖像中物體邊緣散焦程度的度量研究采用的方法主要是迭代方法對深度圖像進行修正,利用對象引導(dǎo)的深度優(yōu)化提取,以及基于柯西分布的點擴散函數(shù)模型計算物體圖像邊緣散焦模糊量的方法。有關(guān)稀疏深度圖方面的報道較少,且未找到采用高斯核函數(shù)方法提取深度信息的報道。有關(guān)構(gòu)建稠密深度圖方面的報道較少,未見采用擴散張量的方法。對于本課題提出的利用擴散張量將圖像提供的邊緣信息引入二階總廣義變分正則項,獲得高質(zhì)量的稠密深度圖的算法研究,未見相關(guān)文獻(xiàn)報道,比較新穎。

      46測試總結(jié)

      該設(shè)計系統(tǒng)通過課題查新實例測試表明,通過相關(guān)文獻(xiàn)的關(guān)鍵詞進行主題挖掘,主旨較強,避免歧意,過程相對簡單,速度快??梢栽谡麄€查新過程中有效降低查新員對大量相關(guān)文獻(xiàn)主題的分析難度,從中篩選出一定量的文獻(xiàn)進行深入分析即可,有效減少了閱讀相關(guān)文獻(xiàn)的數(shù)量,提高了工作效率。對于查到的大量相關(guān)文獻(xiàn)進行潛在主題挖掘,對比驗證課題研究內(nèi)容方向是否新穎,可以提供有效的參考依據(jù),對課題作出評價相對更加客觀。但是,對于挖掘出來的主題一般難以通過關(guān)鍵詞快速給出結(jié)論,需要在參閱含有這些關(guān)鍵詞文獻(xiàn)的基礎(chǔ)上才能給出準(zhǔn)確的概括解釋。另外,相關(guān)文獻(xiàn)的獲取也要注意采用一定的策略,在適當(dāng)學(xué)科范圍的基礎(chǔ)上,盡量放大研究范圍,檢索到盡可能多的有效文獻(xiàn),挖掘效果會更好。

      5結(jié)束語

      主題概率模型(LDA)方法在大量文檔中挖掘潛藏主題,識別能力多年來實驗和實踐證明都是非常有效的。課題查新長期以來,有關(guān)內(nèi)容分析方面,特別是評價的客觀性方面,一直是個難題。研究者一直想探索、實踐智能查新系統(tǒng),結(jié)果除了查新報告形式可以自動滿意生成外,分析結(jié)論難以實現(xiàn)智能自動化?;诖罅课谋就诰蚍治龇椒?,如主題概率模型(LDA),來實現(xiàn)查新課題過程的輔助分析,對于提高查新員的相關(guān)文獻(xiàn)內(nèi)容主題分析效率,以及課題評價的客觀性方面,實踐證明有較好的效果。目前主要是通過相關(guān)文獻(xiàn)的關(guān)鍵詞來分析挖掘主題,從題名、摘要內(nèi)容,甚至全文中切分提取關(guān)鍵詞匯進行多途徑對比挖掘分析,還需進一步探索。

      參考文獻(xiàn)

      [1]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journalof Machine Learning Research,2003,(3):993-1022.

      [2]Griffiths TL,Steyvers M.Finding Scientific Topics[C].Process of the National Academy of Sciences,2004,101:5228-5235.

      [3]Blei,David M,etc.Latent Dirichlet Allocation[L].Journal of Machine Learning Research,2003,(3):993-1022.

      [4]王星,等.大數(shù)據(jù)分析:方法與應(yīng)用[M],北京:清華大學(xué)出版社,2013:287-289.

      [5]王力,李培峰,朱巧明.一種基于LDA模型的主題句抽取方法[J].計算機工程與應(yīng)用,2013,49(2):160-164.

      [6]葉春蕾,冷伏海.基于概率模型的主題識別方法實證研究[J].情報科學(xué),2013,31(1):135-139.

      [7]張宏鳴,.NET框架程序設(shè)計[M].北京:清華大學(xué)出版社,2016:1-330.

      [8]Jeff B.Cromwell,The R Statistical Language and C#NET:Foundations[EB/OL].https://www.codeproject.com/Articles/25819/The-R-Statistical-Language-and-C-NET-Foundations,2016-02-16.

      [9]李明,R語言與網(wǎng)站分析[M].北京:機械工業(yè)出版社,2014:381-386.

      (責(zé)任編輯:孫國雷)

      猜你喜歡
      R語言查新
      《建筑結(jié)構(gòu)》開啟科技查新新技能
      《建筑結(jié)構(gòu)》開啟科技查新新技能
      《建筑結(jié)構(gòu)》開啟科技查新新技能
      《建筑結(jié)構(gòu)》開啟科技查新新技能
      基于微信登陸的科技查新系統(tǒng)模塊及流程設(shè)計和實現(xiàn)
      天津科技(2019年6期)2019-07-15 09:34:58
      基于GPS軌跡數(shù)據(jù)進行分析改善城市交通擁擠
      基于R語言的Moodle平臺數(shù)據(jù)挖掘技術(shù)的研究
      基于R語言的湖南產(chǎn)業(yè)結(jié)構(gòu)對其經(jīng)濟增長貢獻(xiàn)分析
      商(2016年24期)2016-07-20 08:03:39
      注重統(tǒng)計思維培養(yǎng)與應(yīng)用為主導(dǎo)的生物統(tǒng)計學(xué)課程建設(shè)
      考試周刊(2016年15期)2016-03-25 04:09:43
      人民幣匯率的均值回復(fù)檢驗及Hurst指數(shù)計算
      田阳县| 潍坊市| 武宣县| 门头沟区| 鄂托克前旗| 西畴县| 百色市| 扶风县| 岳普湖县| 河池市| 来安县| 陆河县| 新宁县| 冕宁县| 永善县| 通山县| 保靖县| 淮滨县| 临沭县| 东山县| 齐齐哈尔市| 舒兰市| 清原| 沙洋县| 正镶白旗| 新源县| 咸丰县| 苍南县| 莫力| 乌兰浩特市| 墨玉县| 蓬莱市| 伊通| 新巴尔虎右旗| 乌什县| 集安市| 拉萨市| 太和县| 安顺市| 石河子市| 连南|