• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    圖情領(lǐng)域LDA 主題模型應(yīng)用研究進(jìn)展述評(píng)

    2022-03-13 08:49:16張東鑫張敏
    圖書(shū)情報(bào)知識(shí) 2022年6期
    關(guān)鍵詞:語(yǔ)義建模文本

    張東鑫 張敏

    (1.西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶,400715;2.華中師范大學(xué)信息管理學(xué)院,武漢,430079)

    1 引言

    潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一種對(duì)文本主題進(jìn)行建模挖掘的三層貝葉斯產(chǎn)生式概率模型[1],該模型通過(guò)無(wú)監(jiān)督學(xué)習(xí),生成“文檔-主題”和“主題-詞”概率分布,被用于識(shí)別大規(guī)模文檔集中潛藏的主題信息。LDA具有良好的數(shù)據(jù)降維能力和模型擴(kuò)展性,被廣泛應(yīng)用于各種文本分析任務(wù)。

    目前,計(jì)算機(jī)學(xué)科的相關(guān)研究主要圍繞LDA擴(kuò)展模型的分類(lèi)、算法改進(jìn)[2,3],尤其是深度學(xué)習(xí)主題模型[4]展開(kāi)了較多探討,相關(guān)研究強(qiáng)調(diào)主題模型對(duì)于文本挖掘及自然語(yǔ)言處理的重要作用,聚焦于LDA主題模型原理、參數(shù)估計(jì)及訓(xùn)練方法的總結(jié)歸納,注重不同主題建模技術(shù)之間性能的對(duì)比[5],少數(shù)研究歸納了主題模型在語(yǔ)言、政治、生物醫(yī)學(xué)、地理等學(xué)科領(lǐng)域應(yīng)用,指出LDA主題模型在多媒體信息加工處理等文本挖掘任務(wù)中存在的挑戰(zhàn)及問(wèn)題[2]。圖情領(lǐng)域的學(xué)者則較多針對(duì)特定的文本挖掘任務(wù)[6]展開(kāi)分析研究,已有部分綜述針對(duì)某一應(yīng)用場(chǎng)景[7]或某一類(lèi)擴(kuò)展模型[8]進(jìn)行了歸納總結(jié)??傮w而言,現(xiàn)有研究針對(duì)LDA模型完整應(yīng)用過(guò)程的梳理還較為缺乏。本研究聚焦圖情領(lǐng)域LDA模型整體應(yīng)用研究現(xiàn)狀,細(xì)致剖析其應(yīng)用過(guò)程關(guān)鍵環(huán)節(jié)和應(yīng)用領(lǐng)域,以期為相關(guān)領(lǐng)域的理論研究和實(shí)踐應(yīng)用提供參考。本研究梳理了LDA模型應(yīng)用的現(xiàn)存問(wèn)題和創(chuàng)新發(fā)展,有助于更好應(yīng)對(duì)多維度場(chǎng)景的復(fù)雜文本處理任務(wù),增強(qiáng)LDA模型的泛化能力以及建模結(jié)果的準(zhǔn)確性和可解釋性,實(shí)現(xiàn)更精準(zhǔn)的主題挖掘和識(shí)別。

    2 文獻(xiàn)調(diào)研概述

    本研究以Web of Science核心集、LISA、Google Scholar為英文數(shù)據(jù)源進(jìn)行文獻(xiàn)檢索,以中國(guó)知網(wǎng)、維普、萬(wàn)方數(shù)據(jù)庫(kù)為中文數(shù)據(jù)源進(jìn)行文獻(xiàn)檢索。英文文獻(xiàn)以 主題=“Latent Dirichlet Allocation”O(jiān)R “Topic Model*”為檢索式進(jìn)行檢索,中文文獻(xiàn)以主題=“LDA” OR“潛在狄利克雷分布”O(jiān)R“概率主題模型”為檢索式進(jìn)行檢索。中英文數(shù)據(jù)源均限定為圖書(shū)情報(bào)領(lǐng)域期刊(中文進(jìn)一步限定為CSSCI來(lái)源期刊),檢索時(shí)段設(shè)置為近十年(2012年1月1日到 2022年1月31日)。基于文獻(xiàn)標(biāo)題、關(guān)鍵詞與摘要,輔以內(nèi)容審讀,選取符合研究主題的文獻(xiàn),最終篩選得到369篇英文文獻(xiàn)和426篇中文文獻(xiàn)。文獻(xiàn)分布如圖1所示,近十年國(guó)內(nèi)外研究發(fā)文量均處于持續(xù)增長(zhǎng)的態(tài)勢(shì),且國(guó)內(nèi)研究的發(fā)文量遠(yuǎn)高于國(guó)外??梢钥闯觯琇DA相關(guān)研究引起國(guó)內(nèi)外圖情領(lǐng)域?qū)W者的高度關(guān)注,研究成果較為豐碩。

    圖1 國(guó)內(nèi)外發(fā)文量年代分布Fig.1 The Chronological Distribution of Published Papers at Home and Abroad

    進(jìn)一步,本研究深度研讀代表性文獻(xiàn),基于應(yīng)用過(guò)程的關(guān)鍵環(huán)節(jié)梳理構(gòu)建了LDA模型應(yīng)用研究分析框架(見(jiàn)圖2)。LDA模型應(yīng)用過(guò)程主要包括:在文本預(yù)處理環(huán)節(jié),對(duì)主題建模所涉及的數(shù)據(jù)源進(jìn)行預(yù)處理操作,獲得模型所需的格式化數(shù)據(jù);在模型構(gòu)建環(huán)節(jié),先依據(jù)研究情境選定合適的主題模型,然后結(jié)合相關(guān)模型評(píng)價(jià)方法確定最優(yōu)主題數(shù);在模型求解環(huán)節(jié),采用合適的主題建模工具完成模型求解;最后,依據(jù)實(shí)際研究情境,結(jié)合相關(guān)方法與工具解決具體應(yīng)用領(lǐng)域問(wèn)題[7]。當(dāng)前,LDA模型的應(yīng)用涵蓋主題探索、知識(shí)組織、學(xué)術(shù)評(píng)價(jià)、情感分析、推薦研究等諸多領(lǐng)域。本文將基于上述流程對(duì)現(xiàn)有應(yīng)用研究現(xiàn)狀進(jìn)行歸納總結(jié)。

    圖2 圖情領(lǐng)域LDA 主題模型應(yīng)用研究分析框架Fig.2 The Analytical Framework for the Application Studies of LDA Topic Models in LIS field

    3 LDA 主題建模的應(yīng)用過(guò)程

    3.1 文本預(yù)處理

    文本預(yù)處理的過(guò)程針對(duì)不同的數(shù)據(jù)源,通過(guò)分詞、去停用詞以及特征選擇等預(yù)處理技術(shù)獲取模型所需的格式化數(shù)據(jù)。該環(huán)節(jié)可實(shí)現(xiàn)文檔內(nèi)容初步降維,降低模型推理時(shí)間,是LDA主題建模的基礎(chǔ)。其中,所獲取表達(dá)文本主題語(yǔ)義的特征詞對(duì)主題建模結(jié)果的可解釋性具有重要影響。

    在主題建模的數(shù)據(jù)源方面,基于微博、Twitter等社交媒體平臺(tái)短文本數(shù)據(jù)的主題挖掘成為近年來(lái)圖情領(lǐng)域極具價(jià)值的研究方向。然而由于文本長(zhǎng)度有限,稀疏性高,更新速度快以及規(guī)模巨大,LDA模型在處理短文本時(shí)效果較差[9]。同時(shí)此類(lèi)數(shù)據(jù)一般帶有許多俚語(yǔ)、縮略詞以及表情符號(hào)等,其文本語(yǔ)義相對(duì)模糊、邏輯關(guān)系較差,經(jīng)過(guò)預(yù)處理后的文本能夠有效表達(dá)主題信息的詞項(xiàng)較少,這就使得抽取有意義主題的過(guò)程更加復(fù)雜[10]。針對(duì)稀疏、動(dòng)態(tài)短文本,如何保障主題建模結(jié)果的質(zhì)量是當(dāng)前需解決的重點(diǎn)問(wèn)題。學(xué)者們一是通過(guò)信息整合構(gòu)建偽文檔來(lái)增加文本長(zhǎng)度;二是使用改進(jìn)后的擴(kuò)展模型,包括調(diào)整模型假設(shè)和改進(jìn)主題生成過(guò)程等措施[11]。前者如狄利克雷多項(xiàng)式混合模型(Dirichlet Multinomial Mixture,DMM),針對(duì)短文本詞項(xiàng)少于長(zhǎng)文本文檔的特點(diǎn),嚴(yán)格限制模型假設(shè)中的主題數(shù)量;后者如詞對(duì)主題模型(Biterm Topic Model,BTM),從詞間關(guān)系中挖掘局部語(yǔ)言信息,在詞對(duì)上進(jìn)行主題建模,以提高短文本主題挖掘的全面性和準(zhǔn)確性。

    確定主題建模的數(shù)據(jù)源后,通過(guò)具體的文本預(yù)處理技術(shù)獲取模型所需的格式化數(shù)據(jù)。得益于成熟的分詞工具[7,12]與停用詞表,中文文本數(shù)據(jù)在分詞與去停用詞階段已經(jīng)形成一體化的應(yīng)用流程。而英文文本數(shù)據(jù)通常以空格為分隔符進(jìn)行一元分詞,導(dǎo)致單個(gè)單詞所代表的語(yǔ)義較少,建模結(jié)果的可解釋性較差。有研究提出按照詞組分詞[13],或者引入短語(yǔ)生成算法[11]挖掘數(shù)據(jù)中的短語(yǔ)來(lái)提高特征詞的主題表示能力。

    特征選擇是在分詞與去停用詞的基礎(chǔ)上對(duì)建模語(yǔ)料的進(jìn)一步降維,常用的方法有評(píng)價(jià)函數(shù)[14](如詞頻、信息增益等)、領(lǐng)域本體[15]、詞性過(guò)濾[16]以及正則表達(dá)式[17]等。不同的特征選擇方法在特征詞降維上具有不同的性能,對(duì)建模結(jié)果的可解釋性也具有不同程度的影響。以特征選擇方法中的領(lǐng)域本體和詞性過(guò)濾為例,基于領(lǐng)域本體進(jìn)行詞匯過(guò)濾可以有效提高特征詞的領(lǐng)域貼切性,提高建模結(jié)果在專(zhuān)業(yè)領(lǐng)域背景下的可解釋性。如林杰[15]等利用擴(kuò)充后的汽車(chē)專(zhuān)業(yè)本體詞匯對(duì)語(yǔ)料進(jìn)行詞匯過(guò)濾,有效提高了主題詞的領(lǐng)域純度與主題的可解釋性,但缺點(diǎn)是依賴(lài)于研究人員的領(lǐng)域知識(shí),花費(fèi)的人工成本較高。而詞性過(guò)濾[16]可以獲取對(duì)主題貢獻(xiàn)度較大的名詞和動(dòng)詞,相對(duì)于基于本體的方法可以更便捷、高效地實(shí)現(xiàn)文本降維,但詞的領(lǐng)域貼切性相對(duì)較差,專(zhuān)業(yè)領(lǐng)域背景下建模結(jié)果的可解釋性弱。

    整體來(lái)看,分詞、去停用詞以及特征選擇等預(yù)處理環(huán)節(jié)已形成較為成熟的處理流程,當(dāng)前的應(yīng)用研究多固化于已有的文本預(yù)處理技術(shù)工具與語(yǔ)義資源,側(cè)重于單一方法或少數(shù)幾種方法的簡(jiǎn)單結(jié)合。值得注意的是,分詞算法[18]的選擇,領(lǐng)域術(shù)語(yǔ)[19]與領(lǐng)域停用詞表[20]的構(gòu)建,以及不同的特征選擇方法對(duì)特征詞表達(dá)主題語(yǔ)義時(shí)的有效性都具有不同程度的影響。因此,需針對(duì)不同的應(yīng)用場(chǎng)景深入探索,以提高文本預(yù)處理的質(zhì)量。

    3.2 主題模型構(gòu)建

    經(jīng)過(guò)文本預(yù)處理操作獲得主題模型所需的格式化數(shù)據(jù)后,進(jìn)入模型構(gòu)建與求解環(huán)節(jié)。首先需要依據(jù)數(shù)據(jù)特征與研究情境,選擇或構(gòu)建合適的主題模型,然后通過(guò)模型評(píng)價(jià)方法確定最優(yōu)主題數(shù),最后選擇或構(gòu)建相應(yīng)的主題建模工具進(jìn)行自動(dòng)參數(shù)估計(jì),從而完成模型求解。

    3.2.1 主題模型選擇

    主題模型構(gòu)建的第一步是選定合適的主題模型。LDA模型是基于詞袋模型提出的三層貝葉斯概率主題模型,模型訓(xùn)練時(shí)無(wú)需人工標(biāo)注數(shù)據(jù),挖掘長(zhǎng)文本如科技文獻(xiàn)[21]等語(yǔ)料的隱含語(yǔ)義時(shí)效果良好,且應(yīng)用工具和流程比較成熟,是目前最常用的主題模型。隨著所處理的語(yǔ)料對(duì)象、面臨的文本分析任務(wù)更趨復(fù)雜多樣,LDA模型應(yīng)用具有一定局限性,比如無(wú)法有效處理動(dòng)態(tài)短文本,應(yīng)用于大規(guī)模數(shù)據(jù)集時(shí)訓(xùn)練時(shí)間過(guò)長(zhǎng)[22],而且無(wú)法識(shí)別主題之間的關(guān)系[23]。模型泛化能力以及建模結(jié)果的準(zhǔn)確性和可解釋性受到挑戰(zhàn)[4]。針對(duì)LDA模型的應(yīng)用局限性,學(xué)者們根據(jù)文本特征與任務(wù)情境提出各類(lèi)擴(kuò)展模型[3]以提升主題建模效果。綜合LDA模型的擴(kuò)展類(lèi)型(如非參性、動(dòng)態(tài)性、相關(guān)性等)及其在各數(shù)據(jù)庫(kù)中的總被引頻次,表1歸納了圖情領(lǐng)域應(yīng)用各類(lèi)LDA模型的代表性研究。

    表1 圖情領(lǐng)域應(yīng)用各類(lèi)LDA 模型的代表性文獻(xiàn)Table 1 Representative Literature About the Application of Various LDA Models in LIS Field

    如表1所示,各類(lèi)LDA模型的性能各具特色,基于模型的改進(jìn)特點(diǎn)與已有的LDA擴(kuò)展模型分類(lèi)相關(guān)研究[3,7],以上擴(kuò)展模型大致上分為六類(lèi):①貝葉斯非參模型HDP;②基于時(shí)間因素的擴(kuò)展模型DTM;③基于模型參數(shù)的擴(kuò)展模型CTM;④有監(jiān)督模型Labeled-LDA;⑤基于文檔元數(shù)據(jù)的擴(kuò)展模型STM;⑥面向特定任務(wù)的擴(kuò)展模型ATM、JST、BTM、TWE、NTM、LDA2vec和JointAT。不同類(lèi)型的擴(kuò)展模型應(yīng)用場(chǎng)景豐富,可以滿足科研人員不同的建模需求。當(dāng)數(shù)據(jù)處理對(duì)象為靜態(tài)長(zhǎng)文本,可直接選擇傳統(tǒng)LDA模型;如果數(shù)據(jù)處理對(duì)象具有明顯的動(dòng)態(tài)性、主觀性或稀疏性等特征,可選擇動(dòng)態(tài)主題模型、面向特定任務(wù)的情感主題模型或短文本主題模型等來(lái)提高建模精度。在圍繞LDA擴(kuò)展模型的應(yīng)用研究中,早期基于非參性、相關(guān)性等的擴(kuò)展模型仍然以其良好性能而被廣泛應(yīng)用。

    隨著新興應(yīng)用場(chǎng)景的不斷涌現(xiàn),主題挖掘任務(wù)的多元化使得近來(lái)面向特定任務(wù)的擴(kuò)展模型成為顯著趨勢(shì),如基于詞向量、多語(yǔ)言作者信息以及混合語(yǔ)境[37]等擴(kuò)展模型。然而擴(kuò)展模型依然存在一些不足之處,其包含的隱變量和附加信息較多,算法復(fù)雜度相對(duì)較高,同時(shí)受訓(xùn)練語(yǔ)料與任務(wù)情境的影響,模型的領(lǐng)域通用性和建模結(jié)果的穩(wěn)定性有待提高。

    值得注意的是,基于深度學(xué)習(xí)思想與方法的主題模型已成為L(zhǎng)DA擴(kuò)展模型研究的重要分支。相較于其他擴(kuò)展模型,深度學(xué)習(xí)主題模型結(jié)合詞向量技術(shù)、神經(jīng)網(wǎng)絡(luò)等方法充分挖掘詞匯的上下文語(yǔ)境以及詞間關(guān)系,具備較強(qiáng)的主題語(yǔ)義理解能力,建模結(jié)果的可解釋更高[38]。目前,深度學(xué)習(xí)主題模型主要包括三類(lèi):詞向量輔助的概率主題模型、基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的主題模型和聯(lián)合訓(xùn)練主題模型[4]。詞向量主題模型通過(guò)訓(xùn)練低維稠密的詞向量來(lái)刻畫(huà)詞匯間的語(yǔ)義相似度,應(yīng)用于短文本和領(lǐng)域文本時(shí)可有效提高主題詞的語(yǔ)義一致性,如基于高斯分布的Gaussian LDA模型[39]?;谏窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)的主題模型多以詞袋作為模型輸入,進(jìn)而通過(guò)增加相應(yīng)的網(wǎng)絡(luò)層來(lái)捕捉詞匯間的語(yǔ)義關(guān)系,同時(shí)結(jié)合稀疏約束解決“主題-詞”分布的稀疏性,提高主題模型的生成質(zhì)量。聯(lián)合訓(xùn)練主題模型則融合了概率主題模型與神經(jīng)語(yǔ)言模型的優(yōu)勢(shì),可以在原有“文檔-主題-詞”全局語(yǔ)義關(guān)系發(fā)現(xiàn)基礎(chǔ)上,通過(guò)語(yǔ)言模型發(fā)現(xiàn)句子級(jí)詞序之間的依賴(lài)關(guān)系,克服“詞袋”假設(shè)的局限性。以上深度學(xué)習(xí)擴(kuò)展模型在短文本、領(lǐng)域文本等數(shù)據(jù)上的主題聚類(lèi)效果相比傳統(tǒng)模型性能更優(yōu),功能更豐富,但是在應(yīng)用過(guò)程中通常需要大規(guī)模語(yǔ)料的支撐,訓(xùn)練過(guò)程也更為復(fù)雜,常面臨參數(shù)調(diào)優(yōu)等問(wèn)題。除了詞向量擴(kuò)展模型較為常見(jiàn)外,其他兩類(lèi)深度學(xué)習(xí)擴(kuò)展模型應(yīng)用還有待進(jìn)一步探索。

    3.2.2 最優(yōu)主題數(shù)選擇

    依據(jù)研究情境選定最合適的主題模型后就要進(jìn)行參數(shù)估計(jì)與設(shè)置。參數(shù)估計(jì)用于推理“文檔-主題”和“主題-詞”兩組分布,目前已形成多種近似推理算法[7]。參數(shù)設(shè)置與模型性能密切相關(guān),可以賦予模型特定屬性[40],主要涉及Dirichlet先驗(yàn)α、β參數(shù),以及主題數(shù)。α和β常按照經(jīng)驗(yàn)值進(jìn)行設(shè)置。

    主題數(shù)則依據(jù)主題模型質(zhì)量評(píng)價(jià)方法做出選擇,而最優(yōu)主題數(shù)的確定是一個(gè)長(zhǎng)久以來(lái)的難題。主題數(shù)過(guò)多容易導(dǎo)致主題概括范圍小,語(yǔ)義內(nèi)容差異小,主題劃分困難;主題數(shù)過(guò)少則容易導(dǎo)致概括的語(yǔ)義內(nèi)容過(guò)于寬泛,忽視小主題。主題數(shù)選擇直接影響LDA主題建模結(jié)果的準(zhǔn)確性和可解釋性。目前相關(guān)研究在確定主題數(shù)時(shí)通常基于先驗(yàn)知識(shí)對(duì)文檔包含的主題數(shù)進(jìn)行初步估計(jì),再結(jié)合困惑度、一致性以及主題間相似度等質(zhì)量評(píng)價(jià)方法作出選擇。本文對(duì)幾種典型的主題數(shù)確定方法的核心思想、優(yōu)缺點(diǎn)進(jìn)行歸納比較,如表2所示。

    表2歸納總結(jié)顯示,目前確定LDA模型主題數(shù)的方法較為豐富,評(píng)價(jià)角度各有側(cè)重,差別較大,還沒(méi)有形成一致的主題建模結(jié)果評(píng)價(jià)準(zhǔn)則,客觀評(píng)估建模結(jié)果有效性的問(wèn)題仍未解決。從實(shí)際應(yīng)用情況來(lái)看還是以困惑度居多,而有研究認(rèn)為一致性是衡量主題質(zhì)量最有效的方法[47],該指標(biāo)的使用在近兩年的相關(guān)研究中有所提升。由于在上述模型評(píng)價(jià)方法的指導(dǎo)下依然可能產(chǎn)生混合主題、不合邏輯的主題和難以區(qū)分的主題等問(wèn)題,為進(jìn)一步保障建模結(jié)果的有效性,相關(guān)研究開(kāi)始對(duì)傳統(tǒng)評(píng)價(jià)方法進(jìn)行改進(jìn)[43],嘗試提出新指標(biāo)[41],注重以可解釋性為標(biāo)準(zhǔn)進(jìn)行模型評(píng)價(jià)[48],引入專(zhuān)家意見(jiàn)類(lèi)指標(biāo),如同質(zhì)性、完整性以及V-Measure[49],以保障主題生成的質(zhì)量與可靠性。也有學(xué)者提出對(duì)相關(guān)方法進(jìn)行聯(lián)合應(yīng)用,并在模型運(yùn)行的過(guò)程中建立評(píng)價(jià)機(jī)制以動(dòng)態(tài)調(diào)整最優(yōu)主題數(shù)[10],提高主題數(shù)選擇的靈活性。此外,LDA模型基于隨機(jī)抽樣進(jìn)行參數(shù)求解以及其對(duì)建模語(yǔ)料極為敏感的特征,導(dǎo)致建模結(jié)果穩(wěn)定性較差。部分研究嘗試引入新的穩(wěn)定性分析算法[50]以及健壯性、描述能力等模型質(zhì)量評(píng)價(jià)指標(biāo)[51]來(lái)選擇最優(yōu)主題數(shù),以保障主題模型的預(yù)測(cè)能力,進(jìn)而提高建模結(jié)果的可靠性。

    表2 常用主題數(shù)確定方法及其比較Table 2 The List and Comparison of Common Methods for Determining the Number of Topic

    3.3 模型求解

    完成最優(yōu)主題數(shù)選擇后,就要選擇或構(gòu)建相應(yīng)的主題建模工具完成模型求解。目前已研發(fā)出各類(lèi)開(kāi)源LDA建模工具來(lái)完成參數(shù)自動(dòng)求解,在圖情領(lǐng)域常用的有七種。從開(kāi)發(fā)語(yǔ)言來(lái)看,分別是基于Java語(yǔ)言的Stanford TMT(Stanford Topic Modeling Toolbox)[52]、JGibbLDA[53]以 及Mallet[24],基于R語(yǔ)言的Lda庫(kù)[54]與Topicmodels[55]庫(kù),這五種工具的模型基礎(chǔ)均是LDA模型;另外兩種是基于Python語(yǔ)言以O(shè)LDA(Online LDA)模型為基礎(chǔ)的Gensim庫(kù)[56]與Scikit-learn[57]庫(kù)。利用上述工具完成模型求解得到“文檔-主題”分布與“主題-詞”分布兩組參數(shù)后,再通過(guò)主題詞篩選進(jìn)行主題命名,完成每個(gè)文檔中的隱含主題發(fā)現(xiàn)。

    4 LDA 主題模型的應(yīng)用領(lǐng)域

    LDA模型可以有效挖掘文本中隱含的語(yǔ)義信息,已經(jīng)被廣泛應(yīng)用于主題探索、知識(shí)組織、學(xué)術(shù)評(píng)價(jià)、情感分析以及推薦研究等眾多領(lǐng)域。

    4.1 主題探索

    主題探索研究主要包含主題發(fā)現(xiàn)與演化分析[6]。LDA模型擁有良好的降維能力,可以從大規(guī)模文本中通過(guò)無(wú)監(jiān)督的方式提取隱含語(yǔ)義,保證主題提取的相對(duì)客觀性與效率,是主題探索的熱門(mén)工具。本文基于相關(guān)文獻(xiàn)的內(nèi)容分析發(fā)現(xiàn),當(dāng)前圖情領(lǐng)域主題探索主要面向科技文獻(xiàn)數(shù)據(jù),以在線消費(fèi)平臺(tái)評(píng)論數(shù)據(jù)及網(wǎng)絡(luò)輿情數(shù)據(jù)為代表的用戶生成內(nèi)容,以及新聞報(bào)道、政策文本等網(wǎng)絡(luò)信息資源挖掘分析。

    4.1.1 科技文獻(xiàn)的主題探索

    科技文獻(xiàn)是科學(xué)技術(shù)信息發(fā)布與傳播的重要載體,主要包括科技期刊、會(huì)議論文、專(zhuān)利和科技報(bào)告等[7]。早期科技文獻(xiàn)的主題發(fā)現(xiàn)依賴(lài)于以篇章為單位的詞頻統(tǒng)計(jì)、共詞分析、引文分析等傳統(tǒng)計(jì)量學(xué)方法,關(guān)注詞或者文獻(xiàn)等外部數(shù)量特征。而LDA模型可以對(duì)文本內(nèi)容進(jìn)行主題建模,逐漸成為科技文獻(xiàn)主題探索的主流工具之一,比如針對(duì)SIGIR(Special Interest Group on Information Retrieval)會(huì)議論文[58]以及中國(guó)ICT產(chǎn)業(yè)[21]專(zhuān)利文獻(xiàn)相關(guān)研究熱點(diǎn)的主題分析。總體而言,科技文獻(xiàn)主題發(fā)現(xiàn)研究存在過(guò)度依賴(lài)單一LDA模型的問(wèn)題,只有部分學(xué)者嘗試應(yīng)用新方法進(jìn)一步優(yōu)化對(duì)文本語(yǔ)義的理解。比如裘惠麟等[59]將期刊論文與專(zhuān)利文獻(xiàn)同時(shí)作為數(shù)據(jù)源,運(yùn)用LDA2vec模型識(shí)別機(jī)器學(xué)習(xí)熱點(diǎn)研究主題,該模型在LDA模型全局性建模的基礎(chǔ)上,通過(guò)Word2vec詞向量對(duì)語(yǔ)料局部的上下文信息進(jìn)行建模,從而挖掘更豐富的隱含語(yǔ)義。然而Word2vec等經(jīng)典詞向量模型通常只對(duì)每個(gè)詞匯訓(xùn)練一種向量表示[4],難以發(fā)現(xiàn)不同語(yǔ)境下詞的不同含義。有研究引入TWE[33]模型,可同時(shí)訓(xùn)練出詞匯和主題的向量表示,從而學(xué)習(xí)不同主題下詞向量的不同表示,有效提高了醫(yī)學(xué)科技報(bào)告主題挖掘的精度。

    主題演化分析以主題發(fā)現(xiàn)為前提,是對(duì)主題動(dòng)態(tài)發(fā)展規(guī)律的把握。在主題演化分析中,如何提高主題演化路徑分析的精度一直是研究熱點(diǎn),如引文層次狄利克雷過(guò)程[60](Citation Involved Hierarchical Dirichlet Process,CIHDP),在人工智能領(lǐng)域期刊論文的主題提取中使用引文信息來(lái)增強(qiáng)文檔文本表示,可自動(dòng)確定每個(gè)時(shí)期的主題數(shù)量,同時(shí)識(shí)別更加詳盡完整的路徑分裂和融合信息;針對(duì)石墨烯專(zhuān)利文獻(xiàn),有研究在LDA模型的基礎(chǔ)上,通過(guò)引入新穎性、關(guān)注度和主題結(jié)構(gòu)指標(biāo)衡量主題發(fā)展程度,并識(shí)別不同狀態(tài)的主題類(lèi)型[42]。此外,也有研究利用主題演化過(guò)程中的時(shí)間序列特征來(lái)提高主題演化分析的精度。比如以圖情學(xué)科期刊論文為數(shù)據(jù)源,在LDA模型抽取學(xué)科主題的基礎(chǔ)上,通過(guò)時(shí)間切片獲得學(xué)科主題的熱度序列,然后利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[13]對(duì)學(xué)科主題熱度演化的時(shí)間序列特征進(jìn)行建模,可有效提高學(xué)科主題熱度未來(lái)趨勢(shì)預(yù)測(cè)的準(zhǔn)確性。

    4.1.2 用戶生成內(nèi)容的主題探索

    在用戶生成內(nèi)容的主題發(fā)現(xiàn)相關(guān)研究中,一是將在線消費(fèi)平臺(tái)用戶評(píng)論作為數(shù)據(jù)源,目標(biāo)是挖掘用戶對(duì)產(chǎn)品或服務(wù)的觀點(diǎn)。比如 Opinion LDA[61],通過(guò)改進(jìn)文檔結(jié)構(gòu),將基于用戶評(píng)論內(nèi)容的詞序列轉(zhuǎn)換為基于用戶觀點(diǎn)的產(chǎn)品特征詞序列,可有效識(shí)別用戶對(duì)具體產(chǎn)品特征的偏好。二是將網(wǎng)絡(luò)輿情數(shù)據(jù)作為數(shù)據(jù)源,目標(biāo)是輿情管控。比如在LDA模型挖掘微博文本主題特征的基礎(chǔ)上,結(jié)合隨機(jī)森林算法進(jìn)行謠言分類(lèi)[62],謠言識(shí)別的準(zhǔn)確性顯著提升。但是以上兩類(lèi)數(shù)據(jù)通常以短文本居多,反映文本主題內(nèi)容的特征詞較少,導(dǎo)致利用LDA進(jìn)行主題發(fā)現(xiàn)時(shí)較難挖掘完整的語(yǔ)義信息。針對(duì)上述問(wèn)題,常用的方法主要通過(guò)信息整合來(lái)增加文本長(zhǎng)度或使用更適用于短文本的主題模型。也有研究嘗試將LDA模型與其他方法相結(jié)合,比如在得到學(xué)術(shù)APP評(píng)論的建模結(jié)果以后,通過(guò)Glove詞向量計(jì)算詞語(yǔ)相似度來(lái)擴(kuò)充主題下的特征詞[63],進(jìn)而提高主題間的區(qū)分度,挖掘更加系統(tǒng)深層的主題信息。

    用戶生成內(nèi)容的主題演化分析關(guān)注話題內(nèi)容的變化趨勢(shì),對(duì)企業(yè)、政府等機(jī)構(gòu)具有重要的現(xiàn)實(shí)意義。面向在線消費(fèi)平臺(tái)用戶評(píng)論數(shù)據(jù),主題演化分析可以挖掘用戶在不同時(shí)間節(jié)點(diǎn)對(duì)產(chǎn)品與服務(wù)的關(guān)注重點(diǎn)[64],輔助企業(yè)提升產(chǎn)品與服務(wù)品質(zhì)。面向網(wǎng)絡(luò)輿情數(shù)據(jù)的主題演化分析[65]可輔助有關(guān)部門(mén)進(jìn)行輿情應(yīng)急管控。然而社交媒體平臺(tái)是一個(gè)極具動(dòng)態(tài)性、復(fù)雜性的輿論場(chǎng),輿情管控效果的好壞在于對(duì)輿情演化過(guò)程中的關(guān)鍵節(jié)點(diǎn)、熱點(diǎn)主題[66]的發(fā)現(xiàn)。學(xué)者們以超網(wǎng)絡(luò)理論為基礎(chǔ),通過(guò)LDA模型識(shí)別微博主題子網(wǎng),然后結(jié)合相應(yīng)的社交、內(nèi)容以及情感子網(wǎng)構(gòu)建微博輿情超網(wǎng)絡(luò),采用超邊排序算法HyperEdgeRank識(shí)別出關(guān)鍵人物,全面挖掘微博輿情傳播中的關(guān)鍵節(jié)點(diǎn)[67],有效服務(wù)于社交媒體輿情監(jiān)管。

    4.1.3 其他網(wǎng)絡(luò)信息資源的主題探索

    新聞報(bào)道、政策文本等網(wǎng)絡(luò)信息資源的主題發(fā)現(xiàn)可以為企業(yè)和政府決策提供有利的情報(bào)支持,也可輔助相關(guān)研究人員追蹤研究熱點(diǎn)。在新聞報(bào)道[68]的主題發(fā)現(xiàn)研究中,由于新聞文本主題識(shí)別一般存在文本數(shù)據(jù)不均衡的問(wèn)題,有研究[69]結(jié)合特征檢測(cè)方法(獨(dú)立性檢測(cè)、方差檢測(cè)和信息熵檢測(cè))優(yōu)化特征詞的主題表示能力,文本主題識(shí)別的準(zhǔn)確性得以顯著提高。政策文本是指因政策活動(dòng)而產(chǎn)生的記錄文獻(xiàn),包括官方文獻(xiàn)、公文檔案以及政策輿情文本等[70]。不同語(yǔ)境下政策詞語(yǔ)的內(nèi)涵差別較大,而LDA 模型利用文本、主題、詞之間的關(guān)系可以解決文本聚類(lèi)中語(yǔ)義挖掘的問(wèn)題,已經(jīng)被廣泛應(yīng)用于氣候[71]、政府開(kāi)放數(shù)據(jù)[72]等政策文本的主題發(fā)現(xiàn)。也有學(xué)者[73]利用LDA2vec模型進(jìn)一步提高政策文本語(yǔ)義內(nèi)涵挖掘的完整性。此外,標(biāo)簽是一類(lèi)對(duì)網(wǎng)絡(luò)信息資源進(jìn)行分類(lèi)或描述的詞語(yǔ),標(biāo)簽生成則是指從文檔中提取出能體現(xiàn)文檔主題的詞語(yǔ)或短語(yǔ)[74]。LDA模型可以保證標(biāo)簽生成時(shí)的客觀性與效率,已被廣泛應(yīng)用于微博[74]、在線醫(yī)生[75]等的標(biāo)簽生成研究中。部分研究通過(guò)構(gòu)建擴(kuò)展模型將其用于特定領(lǐng)域數(shù)據(jù)的標(biāo)簽生成,如用于電子健康記錄數(shù)據(jù)表型標(biāo)簽生成的sureLDA[76](Surrogate-guided ensemble Latent Dirichlet Allocation),使得LDA模型的應(yīng)用范圍得到進(jìn)一步擴(kuò)展。

    在新聞報(bào)道的主題演化分析中,當(dāng)前研究多以LDA模型為基礎(chǔ),引入其他模型[77]與方法來(lái)提高演化分析的準(zhǔn)確性。比如引入流形學(xué)習(xí)[78]可從全局時(shí)間角度重構(gòu)新聞主題間的關(guān)系,避免利用相鄰時(shí)間窗口導(dǎo)致的演化路徑斷裂問(wèn)題;也可利用基于密度的DBSCAN聚類(lèi)算法[79]去除噪聲文本,從而保障 LDA 模型主題抽取的純度,提升主題演化分析的準(zhǔn)確性。

    在政策文本的主題演化分析中,LDA模型結(jié)合主題相似度、主題強(qiáng)度等算法已經(jīng)被應(yīng)用于人工智能[80]、區(qū)域技術(shù)創(chuàng)新[81]等政策文本的量化分析,可有效支持相關(guān)政策的制定和完善。部分研究使用擴(kuò)展模型如主題時(shí)間模型[82](Topic over Time,ToT),將時(shí)間因素引入,獲取不同時(shí)間切片下的主題分布強(qiáng)度,可避免繁瑣的主題對(duì)齊環(huán)節(jié)。

    4.2 知識(shí)組織

    LDA模型可以通過(guò)無(wú)監(jiān)督的方式以主題和主題詞為單元描述信息資源的內(nèi)容,促進(jìn)了分析單元從文檔向主題詞細(xì)化發(fā)展,被廣泛應(yīng)用于知識(shí)組織研究中。知識(shí)組織關(guān)注文本中的語(yǔ)義信息,強(qiáng)調(diào)知識(shí)之間的關(guān)聯(lián)關(guān)系。而LDA模型可以通過(guò)挖掘隱含的主題特征構(gòu)建文檔與特征詞之間的關(guān)聯(lián)關(guān)系,方便知識(shí)推理,被圖情領(lǐng)域?qū)W者應(yīng)用于知識(shí)圖譜與主題圖譜構(gòu)建研究。

    4.2.1 知識(shí)圖譜構(gòu)建

    目前的知識(shí)圖譜構(gòu)建一般采用命名實(shí)體識(shí)別與模版匹配等方式來(lái)實(shí)現(xiàn),在專(zhuān)業(yè)領(lǐng)域語(yǔ)料的知識(shí)圖譜構(gòu)建中可以獲得較為完備的實(shí)體及其關(guān)系抽取。當(dāng)語(yǔ)料內(nèi)容涉及不同主題時(shí),僅通過(guò)命名實(shí)體識(shí)別等方法抽取局部信息作為實(shí)體對(duì)象,會(huì)造成語(yǔ)義缺失等問(wèn)題[83]。而利用LDA模型將基于全局信息抽取的文本主題作為實(shí)體,可實(shí)現(xiàn)知識(shí)圖譜的精細(xì)化展示,將主題復(fù)雜、關(guān)聯(lián)性差的文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化組織,提高實(shí)體間的關(guān)聯(lián)關(guān)系,能有效提升知識(shí)推理的效果。比如華斌等[83]構(gòu)建的電子政務(wù)領(lǐng)域知識(shí)圖譜,利用LDA模型獲取主題實(shí)體,完成電子政務(wù)領(lǐng)域?qū)嶓w擴(kuò)充,從而解決實(shí)體抽取算法存在語(yǔ)義缺失的問(wèn)題,以便更好地進(jìn)行知識(shí)推理,輔助政務(wù)決策。除了將主題作為實(shí)體構(gòu)建知識(shí)圖譜外,也可聯(lián)合主題詞來(lái)實(shí)現(xiàn)。比如岳麗欣等[84]首先通過(guò)LDA模型對(duì)醫(yī)療健康信息領(lǐng)域文獻(xiàn)進(jìn)行主題識(shí)別,然后通過(guò)社會(huì)網(wǎng)絡(luò)分析挖掘核心主題詞,最后基于核心主題詞的共現(xiàn)關(guān)系構(gòu)建醫(yī)療健康信息領(lǐng)域知識(shí)圖譜,輔助領(lǐng)域知識(shí)關(guān)聯(lián)分析。

    4.2.2 主題圖譜構(gòu)建

    主題圖譜是一種存儲(chǔ)主題及其之間邏輯關(guān)系與層次結(jié)構(gòu)的知識(shí)庫(kù)[85],相比于知識(shí)圖譜,其更加適用于無(wú)序、非結(jié)構(gòu)化、主題發(fā)散特征明顯的網(wǎng)絡(luò)信息資源組織。在處理非結(jié)構(gòu)化文本信息時(shí),傳統(tǒng)主題聚類(lèi)方法如共詞分析方法易受詞頻、文本領(lǐng)域的復(fù)雜性的影響,難以解釋文檔間以及詞匯間的語(yǔ)義關(guān)系,而K-means聚類(lèi)分析結(jié)果描述比較復(fù)雜,并且兩者都難以解決詞項(xiàng)不匹配(即近義、同義詞)的問(wèn)題,導(dǎo)致主題識(shí)別效果較差。LDA模型在非結(jié)構(gòu)化文本信息的主題建模上表現(xiàn)良好,通過(guò)主題的思想描述文檔的隱含特征以及詞匯之間的語(yǔ)義關(guān)系,一定程度上可以解決詞項(xiàng)不匹配的問(wèn)題,相比于傳統(tǒng)主題聚類(lèi)方法可以更好地挖掘文本中的語(yǔ)義信息,被廣泛應(yīng)用于主題圖譜構(gòu)建中,比如臨床醫(yī)學(xué)課程知識(shí)主題圖譜[86]。此外,主題圖譜適用于輿情分析[87]。比如在基于微博信息的網(wǎng)絡(luò)輿情管控中,通過(guò)LDA模型對(duì)用戶評(píng)論轉(zhuǎn)發(fā)文本進(jìn)行主題聚類(lèi)后,既可將用戶所屬的共同主題作為節(jié)點(diǎn),主題分布的相似度為邊構(gòu)建用戶主題圖譜[88],也可將用戶作為節(jié)點(diǎn),轉(zhuǎn)發(fā)評(píng)論關(guān)系為邊構(gòu)造用戶主題圖譜[89],從而挖掘輿情演化中的關(guān)鍵主題與關(guān)鍵用戶,輔助監(jiān)管部門(mén)實(shí)現(xiàn)精準(zhǔn)輿情應(yīng)對(duì)。

    盡管LDA模型能較好地解決非結(jié)構(gòu)化文本信息的主題圖譜構(gòu)建問(wèn)題,但是也需要注意增強(qiáng)主題詞的專(zhuān)業(yè)領(lǐng)域相關(guān)性以及主題圖譜的時(shí)效性,以提高主題圖譜的應(yīng)用價(jià)值。

    4.3 學(xué)術(shù)評(píng)價(jià)

    學(xué)術(shù)評(píng)價(jià)主要包括文獻(xiàn)影響力評(píng)價(jià)與作者影響力評(píng)價(jià)等。現(xiàn)有的定量學(xué)術(shù)評(píng)價(jià)方法主要通過(guò)綜合傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)指標(biāo)如被引頻次、網(wǎng)絡(luò)特征指標(biāo)如PageRank、H指數(shù)以及Altmetrics評(píng)價(jià)指標(biāo)等進(jìn)行評(píng)價(jià)。然而文獻(xiàn)內(nèi)容與作者涉及的研究領(lǐng)域一般具有主題差異[54],從而導(dǎo)致上述指標(biāo)難以有效地反映文獻(xiàn)與作者在某一研究主題中的實(shí)際影響力。因此,相關(guān)研究開(kāi)始以主題為單位對(duì)文獻(xiàn)與作者進(jìn)行細(xì)粒度的學(xué)術(shù)評(píng)價(jià)。對(duì)文獻(xiàn)或作者的研究主題進(jìn)行分類(lèi)是按主題進(jìn)行學(xué)術(shù)評(píng)價(jià)的首要環(huán)節(jié)。而LDA模型可通過(guò)概率推斷求解“文檔-主題”分布參數(shù),從而將文獻(xiàn)客觀地分為若干主題類(lèi)別,然后根據(jù)文獻(xiàn)與作者之間的映射關(guān)系,實(shí)現(xiàn)作者研究主題的分類(lèi),再結(jié)合其他計(jì)量指標(biāo)進(jìn)行影響力計(jì)算[90]。有研究直接使用相應(yīng)的影響力評(píng)價(jià)模型如集合主題 PageRank 模型[91](Collective Topic PageRank Model,CTPM),在識(shí)別文獻(xiàn)主題及主題間相關(guān)性的基礎(chǔ)上,引入文獻(xiàn)被引次數(shù)、期刊影響因子等元數(shù)據(jù),有效反映了文獻(xiàn)在特定主題內(nèi)的影響力。作者影響力評(píng)價(jià)中,有研究采用ATM模型[92]來(lái)實(shí)現(xiàn)更加精準(zhǔn)的作者研究主題分類(lèi)。在當(dāng)前科學(xué)研究領(lǐng)域不斷細(xì)分背景下,LDA模型可以獲取文獻(xiàn)與作者的研究主題,較好地解決傳統(tǒng)學(xué)術(shù)評(píng)價(jià)中忽視內(nèi)容信息的問(wèn)題,進(jìn)一步推動(dòng)精細(xì)化學(xué)術(shù)評(píng)價(jià)發(fā)展。

    4.4 情感分析

    LDA模型主要用于挖掘語(yǔ)料中的主題信息,難以識(shí)別相關(guān)主題背后用戶的情感態(tài)度。深入挖掘主題的情感傾向需要結(jié)合相應(yīng)的情感分析方法,或者構(gòu)建情感主題模型來(lái)實(shí)現(xiàn),相關(guān)研究成果對(duì)企業(yè)與政府的決策制定具有重要的現(xiàn)實(shí)意義。例如采用LDA獲取Reddit平臺(tái)中公眾關(guān)注的三星手機(jī)產(chǎn)品主題[45],隨后結(jié)合情感分析工具AlchemyAPI挖掘公眾對(duì)各主題的情感態(tài)度,分析不同關(guān)注度下主題的情感傾向,從而幫助相關(guān)企業(yè)找準(zhǔn)用戶需求與市場(chǎng)痛點(diǎn),輔助商業(yè)決策。也有研究直接采用情感與行為聯(lián)合主題模型[16](Sentiment and Behaviour Topic Model,SBTM),該模型可同時(shí)結(jié)合用戶的情感與互動(dòng)行為模式進(jìn)行復(fù)雜主題發(fā)現(xiàn),主題建模結(jié)果表現(xiàn)出更強(qiáng)的區(qū)分性。針對(duì)政府決策制定的相關(guān)研究主要體現(xiàn)在網(wǎng)絡(luò)輿情管控與政務(wù)服務(wù)平臺(tái)建設(shè)[93]中。比如在線話題情感識(shí)別模型[94](Online Topic and Sentiment Recognition Model,OTSRM),利用情感強(qiáng)度的傳遞性構(gòu)造基于時(shí)間維的話題-情感分布,使用相對(duì)熵方法計(jì)算話題焦點(diǎn)在相鄰時(shí)間片段上的最大情感值,可動(dòng)態(tài)識(shí)別文本中的主題情感趨勢(shì),提高輿情預(yù)警的精度。用戶情感在不同的情境下呈現(xiàn)不同的意義和取向,具有多維性、強(qiáng)弱性以及隱秘性等特征,如何構(gòu)建更加優(yōu)化的情感主題模型,提升主題情感識(shí)別的精度仍需進(jìn)一步探索。

    4.5 推薦研究

    推薦系統(tǒng)可以有效緩解信息超載問(wèn)題,其關(guān)鍵技術(shù)主要包括用戶建模、推薦對(duì)象建模和推薦算法三個(gè)方面。面向文本信息建模時(shí),采用TF-IDF、貝葉斯分類(lèi)器以及k最近鄰方法等難以識(shí)別文本更深層次的語(yǔ)義特征,而基于協(xié)同過(guò)濾與網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法常因?yàn)閿?shù)據(jù)稀疏問(wèn)題導(dǎo)致推薦效果不理想。LDA模型在數(shù)據(jù)降維與潛在語(yǔ)義特征挖掘上性能良好,可以有效識(shí)別用戶興趣與推薦對(duì)象中的關(guān)鍵信息,被廣泛應(yīng)用于用戶與推薦對(duì)象建模,比如社交網(wǎng)絡(luò)好友推薦[95]、個(gè)性化新聞推薦[35]等研究。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的稀疏性與海量動(dòng)態(tài)性特征進(jìn)一步突出,基于LDA模型的主題挖掘與信息推薦的性能受到較大挑戰(zhàn)。崔金棟等[22]使用Hadoop平臺(tái)對(duì)微博數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理后,再利用LDA模型進(jìn)行用戶微博主題信息提取,有效提升了大數(shù)據(jù)信息推薦的效果。

    LDA模型較好地解決了傳統(tǒng)用戶與推薦對(duì)象建模過(guò)程中缺乏語(yǔ)義性的問(wèn)題,并以其良好的降維能力提高推薦的精度。但是大數(shù)據(jù)環(huán)境下信息冗余與過(guò)載等問(wèn)題使得LDA模型的推薦性能受到影響,如何融合不同方法,進(jìn)一步提高推薦效果還亟待探索。

    5 結(jié)論與展望

    LDA模型因其良好的擴(kuò)展性與數(shù)據(jù)降維能力可以滿足研究人員不同的主題建模需求,已成為近年來(lái)應(yīng)用最廣泛的文本主題挖掘技術(shù)。傳統(tǒng)主題挖掘分析通過(guò)詞頻統(tǒng)計(jì)、共詞分析、社區(qū)探測(cè)以及引文分析等方法來(lái)實(shí)現(xiàn),關(guān)注詞或者文獻(xiàn)的外部數(shù)量特征。而LDA主題模型通過(guò)“文檔-主題-詞”三層結(jié)構(gòu)來(lái)描述文檔的主題以及詞匯之間的語(yǔ)義關(guān)系,相比于傳統(tǒng)主題挖掘方法可以更好地挖掘文本中隱含的語(yǔ)義信息,在細(xì)粒度知識(shí)提取與挖掘分析中扮演著關(guān)鍵性角色。但其本身也具有一定的局限性,比如建模結(jié)果的可解釋性較差,難以確定最優(yōu)主題數(shù)等,對(duì)其模型的擴(kuò)展與優(yōu)化應(yīng)用仍是未來(lái)重要的研究方向。

    本文梳理近10年圖情領(lǐng)域相關(guān)研究文獻(xiàn),通過(guò)內(nèi)容分析,構(gòu)建了LDA模型應(yīng)用研究分析框架,基于LDA模型應(yīng)用過(guò)程視角,從文本預(yù)處理、模型構(gòu)建(主題模型選擇與最優(yōu)主題數(shù)選擇)以及模型求解三個(gè)方面系統(tǒng)歸納了LDA模型應(yīng)用的核心環(huán)節(jié)和技術(shù)難點(diǎn),全面總結(jié)了LDA模型在主題探索、知識(shí)組織、學(xué)術(shù)評(píng)價(jià)、情感分析以及推薦研究等應(yīng)用領(lǐng)域的研究現(xiàn)狀。研究發(fā)現(xiàn)圖情領(lǐng)域LDA模型已經(jīng)形成較為成熟的分析流程,研究熱度仍在持續(xù)增長(zhǎng)。國(guó)內(nèi)外研究方向整體較為相似,然而在具體的應(yīng)用環(huán)節(jié)還存在一定的差異。例如在最優(yōu)主題數(shù)選擇方面,國(guó)外學(xué)者嘗試克服傳統(tǒng)概率類(lèi)評(píng)價(jià)指標(biāo)(如困惑度)的不確定性,側(cè)重于引入新的模型評(píng)價(jià)指標(biāo),注重主題建模結(jié)果的可靠性、穩(wěn)定性以及可解釋性;國(guó)內(nèi)學(xué)者則多依賴(lài)于困惑度、經(jīng)驗(yàn)法等指標(biāo),較少?lài)L試新評(píng)價(jià)指標(biāo)。在應(yīng)用領(lǐng)域中,國(guó)外多將LDA模型用于基礎(chǔ)的信息組織研究,國(guó)內(nèi)學(xué)者在知識(shí)圖譜與主題圖譜構(gòu)建研究中有較多嘗試。從整體上來(lái)看,如下問(wèn)題值得進(jìn)一步探討:

    (1)應(yīng)對(duì)海量規(guī)模數(shù)據(jù)、多模態(tài)數(shù)據(jù)等復(fù)雜處理任務(wù)挑戰(zhàn),進(jìn)一步挖掘LDA主題模型的應(yīng)用價(jià)值。當(dāng)前LDA模型應(yīng)用主要是面向文本數(shù)據(jù)建模,缺乏在音頻、圖像以及視頻等資源類(lèi)型上的應(yīng)用探索。隨著圖情領(lǐng)域主題建模對(duì)象大數(shù)據(jù)特征愈加明顯,LDA主題建模面臨數(shù)據(jù)規(guī)模龐大和數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜的挑戰(zhàn);同時(shí)相較于單模態(tài)文本數(shù)據(jù),音頻、圖像、視頻等多模態(tài)數(shù)據(jù)的內(nèi)容豐富,主題表示能力強(qiáng),基于多模態(tài)數(shù)據(jù)的主題挖掘成為引人關(guān)注的重要發(fā)展方向[38]。未來(lái)研究可嘗試引入計(jì)算機(jī)領(lǐng)域的分布式和并行計(jì)算來(lái)減少LDA模型處理海量規(guī)模文檔的時(shí)間,提高其處理多源異構(gòu)數(shù)據(jù)的能力,同時(shí)進(jìn)一步探索結(jié)合詞向量、語(yǔ)言模型以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)主題模型,進(jìn)行多模態(tài)數(shù)據(jù)的主題提取研究,提高模型的主題挖掘深度與發(fā)現(xiàn)能力,提升圖情領(lǐng)域精準(zhǔn)信息服務(wù)能力。

    (2)重視文本預(yù)處理階段特征詞抽取,提升特征詞的主題表征能力,保障主題建模結(jié)果的語(yǔ)義質(zhì)量。主題建模結(jié)果的語(yǔ)義質(zhì)量直接關(guān)系到主題分析的可靠性,進(jìn)而影響其在情感分析、推薦研究等具體應(yīng)用領(lǐng)域中的實(shí)際應(yīng)用效果。高語(yǔ)義質(zhì)量的主題建模結(jié)果具備同一主題內(nèi)主題詞間關(guān)聯(lián)性高,而主題間語(yǔ)義區(qū)分性高的特征,可以清晰表征語(yǔ)料所屬領(lǐng)域的內(nèi)容主題。文本預(yù)處理是主題建模的基礎(chǔ)步驟,對(duì)于建模結(jié)果的可讀性與可解釋性具有直接影響。而現(xiàn)有研究在文本預(yù)處理階段對(duì)特征詞抽取的質(zhì)量重視不夠,多固化于已有的技術(shù)工具與語(yǔ)義資源,特征詞抽取的領(lǐng)域純度存在較大提升空間。借助相應(yīng)的自然語(yǔ)言處理技術(shù),面向不同主題挖掘任務(wù)構(gòu)建領(lǐng)域詞典、語(yǔ)義資源以及高質(zhì)量大規(guī)模的標(biāo)注數(shù)據(jù)集是未來(lái)重要的研究方向。

    (3)構(gòu)建系統(tǒng)的LDA模型質(zhì)量評(píng)價(jià)體系,優(yōu)化主題數(shù)選取方法。當(dāng)前針對(duì)主題模型質(zhì)量評(píng)價(jià)多利用困惑度與經(jīng)驗(yàn)法,然而不同評(píng)價(jià)指標(biāo)下模型性能表現(xiàn)差異較大,片面依賴(lài)一種方法難以客觀有效地評(píng)價(jià)主題模型質(zhì)量。對(duì)傳統(tǒng)評(píng)價(jià)方法改進(jìn)、引入新方法以及多指標(biāo)聯(lián)合應(yīng)用進(jìn)行模型質(zhì)量評(píng)價(jià)成為顯著發(fā)展趨勢(shì)。未來(lái)可嘗試構(gòu)建更系統(tǒng)的主題模型質(zhì)量評(píng)價(jià)體系,優(yōu)化主題數(shù)選取方法,提升主題建模結(jié)果的質(zhì)量。

    (4)豐富LDA模型的應(yīng)用方式,深化模型應(yīng)用研究。現(xiàn)有研究存在過(guò)度依賴(lài)傳統(tǒng)LDA模型的問(wèn)題,對(duì)新興擴(kuò)展模型的應(yīng)用探索較為欠缺。由于各類(lèi)擴(kuò)展模型參數(shù)較多,結(jié)構(gòu)復(fù)雜,對(duì)圖書(shū)情報(bào)研究人員計(jì)算機(jī)技術(shù)應(yīng)用能力提出更高要求。面向各類(lèi)擴(kuò)展模型,未來(lái)需進(jìn)一步優(yōu)化模型的時(shí)間或空間復(fù)雜度,可嘗試研發(fā)簡(jiǎn)易操作的開(kāi)源工具包,構(gòu)建一體化的模型應(yīng)用工具體系,以提高模型應(yīng)用效率和普適性。

    此外,從模型應(yīng)用現(xiàn)狀來(lái)看,LDA模型的建模結(jié)果常作為相關(guān)研究任務(wù)的中間環(huán)節(jié),需要根據(jù)應(yīng)用情境結(jié)合使用不同的方法工具解決具體的研究問(wèn)題。在處理大規(guī)模數(shù)據(jù)時(shí),可更多嘗試基于分布式、深度學(xué)習(xí)的LDA擴(kuò)展模型;在處理中小規(guī)模數(shù)據(jù)時(shí),可將LDA模型與傳統(tǒng)的共詞分析、聚類(lèi)分析、社區(qū)探測(cè)等主題分析方法協(xié)同應(yīng)用,保障主題挖掘的準(zhǔn)確性,達(dá)到優(yōu)勢(shì)互補(bǔ)的效果。比如共詞分析在中小規(guī)模數(shù)據(jù)集(文檔數(shù)<1000)上的主題聚類(lèi)結(jié)果的可讀性更高[96],而LDA主題模型相比共詞分析在選擇代表性主題詞方面雖缺乏靈活性,但能以最原始的狀態(tài)反映潛藏的主題結(jié)構(gòu),有助于減少偏見(jiàn)。綜上所述,進(jìn)一步探索擴(kuò)展模型在圖情領(lǐng)域應(yīng)用的有效性,將LDA模型與傳統(tǒng)主題挖掘分析方法的協(xié)同應(yīng)用,或?qū)DA模型作為基礎(chǔ)環(huán)節(jié),結(jié)合機(jī)器學(xué)習(xí)、知識(shí)圖譜、大數(shù)據(jù)以及相關(guān)領(lǐng)域特殊算法的綜合應(yīng)用,是當(dāng)前LDA模型應(yīng)用研究的重要趨勢(shì)。

    作者貢獻(xiàn)說(shuō)明

    張東鑫:數(shù)據(jù)收集,論文撰寫(xiě);

    張敏:設(shè)計(jì)論文總體思路,修改論文。

    支撐數(shù)據(jù)

    支撐數(shù)據(jù)由作者自存儲(chǔ),E-mail:zdx1996@email.swu.edu.cn。

    1.張東鑫.Literature review data.xlsx.文獻(xiàn)綜述數(shù)據(jù).

    猜你喜歡
    語(yǔ)義建模文本
    聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
    語(yǔ)言與語(yǔ)義
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
    電子制作(2018年17期)2018-09-28 01:56:44
    不對(duì)稱(chēng)半橋變換器的建模與仿真
    “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    認(rèn)知范疇模糊與語(yǔ)義模糊
    如何快速走進(jìn)文本
    亚洲综合精品二区| 看免费成人av毛片| 国产爱豆传媒在线观看| 免费电影在线观看免费观看| 毛片一级片免费看久久久久| 欧美极品一区二区三区四区| 成人亚洲精品一区在线观看 | 成人黄色视频免费在线看| 久久久精品94久久精品| 亚洲精品日本国产第一区| 乱码一卡2卡4卡精品| 十八禁网站网址无遮挡 | 99视频精品全部免费 在线| 看非洲黑人一级黄片| 综合色丁香网| 香蕉精品网在线| 中文资源天堂在线| 亚洲精品日韩在线中文字幕| 青春草亚洲视频在线观看| 精品人妻熟女av久视频| 欧美高清成人免费视频www| 中文天堂在线官网| 欧美另类一区| 一级黄片播放器| 成人欧美大片| 午夜福利高清视频| 国产亚洲最大av| 精品人妻熟女av久视频| 日韩欧美一区视频在线观看 | 亚洲成色77777| 欧美bdsm另类| 国模一区二区三区四区视频| 国产色爽女视频免费观看| 成人亚洲欧美一区二区av| 男女下面进入的视频免费午夜| 久久久久久久精品精品| 欧美高清性xxxxhd video| 黄色配什么色好看| 亚洲伊人久久精品综合| 欧美日韩国产mv在线观看视频 | 国产乱人偷精品视频| 国产成人一区二区在线| av.在线天堂| 日日撸夜夜添| 简卡轻食公司| 亚洲成人一二三区av| 性色avwww在线观看| 小蜜桃在线观看免费完整版高清| 青春草国产在线视频| 狂野欧美白嫩少妇大欣赏| 国产亚洲一区二区精品| 国产乱人偷精品视频| 国产在线男女| 网址你懂的国产日韩在线| 亚洲av欧美aⅴ国产| 国产一区二区在线观看日韩| 一本色道久久久久久精品综合| 舔av片在线| 国产免费一区二区三区四区乱码| 乱系列少妇在线播放| 干丝袜人妻中文字幕| 精品人妻一区二区三区麻豆| 麻豆成人av视频| 亚洲国产高清在线一区二区三| 又大又黄又爽视频免费| 久久精品综合一区二区三区| 免费黄色在线免费观看| 欧美人与善性xxx| 黄片无遮挡物在线观看| av卡一久久| 亚洲不卡免费看| 成人亚洲精品一区在线观看 | 99热国产这里只有精品6| 丝袜美腿在线中文| 新久久久久国产一级毛片| 精品国产一区二区三区久久久樱花 | 国产成人freesex在线| 精华霜和精华液先用哪个| 久久精品久久精品一区二区三区| 国产日韩欧美亚洲二区| 边亲边吃奶的免费视频| 午夜免费鲁丝| 精品人妻一区二区三区麻豆| av网站免费在线观看视频| 久久久久久国产a免费观看| 国产黄色视频一区二区在线观看| 国产探花极品一区二区| 日韩人妻高清精品专区| 久久99蜜桃精品久久| 久久99蜜桃精品久久| 草草在线视频免费看| 狂野欧美激情性xxxx在线观看| 日本一二三区视频观看| 久久精品国产亚洲网站| 国产久久久一区二区三区| a级一级毛片免费在线观看| 人人妻人人澡人人爽人人夜夜| 亚洲av中文av极速乱| 一级毛片 在线播放| 欧美性感艳星| 中文乱码字字幕精品一区二区三区| 国产v大片淫在线免费观看| 亚洲精品久久久久久婷婷小说| 国产精品国产三级国产av玫瑰| 天美传媒精品一区二区| 久久久久国产精品人妻一区二区| 国产一级毛片在线| 国产精品人妻久久久久久| 午夜日本视频在线| 色播亚洲综合网| 乱码一卡2卡4卡精品| 人妻夜夜爽99麻豆av| 欧美国产精品一级二级三级 | 亚洲精品国产av成人精品| 免费少妇av软件| 91久久精品电影网| 69人妻影院| 久久精品国产a三级三级三级| 亚洲国产高清在线一区二区三| 日韩av免费高清视频| 97精品久久久久久久久久精品| 国产又色又爽无遮挡免| 亚洲美女视频黄频| 亚洲欧美一区二区三区国产| 大香蕉久久网| 麻豆国产97在线/欧美| 午夜激情福利司机影院| 亚洲色图av天堂| av免费在线看不卡| 国产精品国产三级国产专区5o| 伊人久久精品亚洲午夜| 大码成人一级视频| 又爽又黄无遮挡网站| 久久久久久久久久久免费av| 色哟哟·www| 韩国高清视频一区二区三区| 成人欧美大片| 精品酒店卫生间| 麻豆久久精品国产亚洲av| 男女边吃奶边做爰视频| 欧美成人午夜免费资源| 国产永久视频网站| 国产精品久久久久久av不卡| 在线观看一区二区三区激情| 91aial.com中文字幕在线观看| 久久6这里有精品| videos熟女内射| 亚洲精品aⅴ在线观看| 美女xxoo啪啪120秒动态图| 中文字幕制服av| 精品国产露脸久久av麻豆| 大片电影免费在线观看免费| 国产精品久久久久久久久免| 国产女主播在线喷水免费视频网站| 狂野欧美激情性xxxx在线观看| 中文字幕制服av| 免费观看在线日韩| 校园人妻丝袜中文字幕| 成人综合一区亚洲| 少妇丰满av| 国产亚洲av嫩草精品影院| 99久久精品一区二区三区| 欧美日韩视频精品一区| 日本欧美国产在线视频| 看免费成人av毛片| 国产欧美另类精品又又久久亚洲欧美| 国产精品久久久久久久久免| 国内少妇人妻偷人精品xxx网站| 午夜免费鲁丝| 国产一区有黄有色的免费视频| 91午夜精品亚洲一区二区三区| 国产黄片视频在线免费观看| 国产淫语在线视频| 亚洲av成人精品一二三区| 一本一本综合久久| 黄色配什么色好看| 91久久精品国产一区二区三区| 久久久久久久国产电影| 婷婷色麻豆天堂久久| 色播亚洲综合网| 久久精品熟女亚洲av麻豆精品| 久久99蜜桃精品久久| 丰满少妇做爰视频| 欧美高清成人免费视频www| 成人国产麻豆网| 色婷婷久久久亚洲欧美| 网址你懂的国产日韩在线| 亚洲内射少妇av| 91精品国产九色| 欧美xxⅹ黑人| 一二三四中文在线观看免费高清| 亚洲精品一二三| 亚洲国产av新网站| 欧美丝袜亚洲另类| 大话2 男鬼变身卡| 大片免费播放器 马上看| 午夜免费观看性视频| 美女主播在线视频| 免费黄色在线免费观看| 制服丝袜香蕉在线| 六月丁香七月| 亚洲,欧美,日韩| 最近最新中文字幕免费大全7| 午夜爱爱视频在线播放| 国产av码专区亚洲av| 日韩强制内射视频| tube8黄色片| 黄片无遮挡物在线观看| 国产精品一区www在线观看| 国产欧美亚洲国产| 亚洲最大成人av| 伊人久久国产一区二区| 97人妻精品一区二区三区麻豆| 一本一本综合久久| 亚洲成人av在线免费| 亚洲精品国产色婷婷电影| 日日啪夜夜爽| 神马国产精品三级电影在线观看| 亚洲av免费高清在线观看| 国产精品99久久久久久久久| av又黄又爽大尺度在线免费看| 婷婷色综合www| 国产伦精品一区二区三区四那| 26uuu在线亚洲综合色| 乱系列少妇在线播放| 一个人看的www免费观看视频| 国国产精品蜜臀av免费| 丝袜喷水一区| 亚洲av成人精品一二三区| 狂野欧美激情性bbbbbb| 免费观看在线日韩| 精品久久久久久久末码| 一个人看视频在线观看www免费| 黑人高潮一二区| 成人二区视频| 男女边摸边吃奶| videossex国产| 少妇的逼水好多| 精品一区二区免费观看| 干丝袜人妻中文字幕| 国产精品一区二区性色av| 女人十人毛片免费观看3o分钟| 成人一区二区视频在线观看| 一区二区av电影网| 蜜桃亚洲精品一区二区三区| freevideosex欧美| 老司机影院成人| 大香蕉久久网| 日韩成人av中文字幕在线观看| 联通29元200g的流量卡| 色吧在线观看| 亚洲美女搞黄在线观看| 成人黄色视频免费在线看| 国产人妻一区二区三区在| 白带黄色成豆腐渣| 偷拍熟女少妇极品色| 在线观看一区二区三区| 少妇熟女欧美另类| 欧美人与善性xxx| 欧美亚洲 丝袜 人妻 在线| 色视频在线一区二区三区| 日韩视频在线欧美| 成人国产av品久久久| 免费观看a级毛片全部| 男人爽女人下面视频在线观看| 99久久九九国产精品国产免费| 激情五月婷婷亚洲| 夜夜爽夜夜爽视频| 中国三级夫妇交换| 国产爽快片一区二区三区| 午夜福利在线在线| 最近2019中文字幕mv第一页| 国产女主播在线喷水免费视频网站| 性插视频无遮挡在线免费观看| 久久久欧美国产精品| 爱豆传媒免费全集在线观看| 97在线人人人人妻| 少妇人妻 视频| 干丝袜人妻中文字幕| 22中文网久久字幕| 好男人在线观看高清免费视频| 黄色日韩在线| av卡一久久| 国产探花极品一区二区| 一级毛片久久久久久久久女| 中国美白少妇内射xxxbb| 自拍欧美九色日韩亚洲蝌蚪91 | 成人鲁丝片一二三区免费| 欧美精品一区二区大全| 大香蕉97超碰在线| 免费av不卡在线播放| 综合色丁香网| 欧美+日韩+精品| 久久久久久久午夜电影| 成人一区二区视频在线观看| 国产国拍精品亚洲av在线观看| 极品少妇高潮喷水抽搐| 国产成人91sexporn| 亚洲av不卡在线观看| 亚洲av国产av综合av卡| 51国产日韩欧美| 亚洲欧美一区二区三区黑人 | 综合色丁香网| 欧美人与善性xxx| 综合色av麻豆| 欧美高清成人免费视频www| 久久人人爽人人爽人人片va| 一级爰片在线观看| 日韩三级伦理在线观看| 真实男女啪啪啪动态图| 最近最新中文字幕免费大全7| 国产91av在线免费观看| 少妇丰满av| 国产精品伦人一区二区| 国产一区二区三区av在线| 最近的中文字幕免费完整| 精品熟女少妇av免费看| 99久久精品国产国产毛片| 成人亚洲欧美一区二区av| 丝袜美腿在线中文| 看十八女毛片水多多多| 国产精品久久久久久av不卡| 黄色日韩在线| 一区二区三区免费毛片| 国产高清不卡午夜福利| 最后的刺客免费高清国语| 女人久久www免费人成看片| 日本av手机在线免费观看| 久久久精品免费免费高清| 亚洲熟女精品中文字幕| 午夜福利视频1000在线观看| 成人欧美大片| 久久国产乱子免费精品| 18禁在线无遮挡免费观看视频| av专区在线播放| 欧美bdsm另类| 好男人在线观看高清免费视频| 亚洲性久久影院| 我的女老师完整版在线观看| 51国产日韩欧美| 人人妻人人澡人人爽人人夜夜| 2018国产大陆天天弄谢| 麻豆精品久久久久久蜜桃| 国产白丝娇喘喷水9色精品| 一级a做视频免费观看| 亚洲av不卡在线观看| 我的老师免费观看完整版| 久久精品久久精品一区二区三区| 国产色婷婷99| 国产 一区精品| 国产精品嫩草影院av在线观看| 人妻一区二区av| av一本久久久久| 80岁老熟妇乱子伦牲交| 综合色av麻豆| 人人妻人人爽人人添夜夜欢视频 | 91aial.com中文字幕在线观看| a级毛色黄片| 国产精品国产三级专区第一集| 狂野欧美白嫩少妇大欣赏| 男女啪啪激烈高潮av片| 99热全是精品| 亚洲成人精品中文字幕电影| 国产精品蜜桃在线观看| 日韩伦理黄色片| 久久久久久久国产电影| 亚洲国产精品专区欧美| 国产综合懂色| 美女国产视频在线观看| 国产成人精品一,二区| 亚洲av免费在线观看| 最近最新中文字幕大全电影3| 色吧在线观看| 联通29元200g的流量卡| 国产视频首页在线观看| 91精品一卡2卡3卡4卡| 亚洲最大成人av| 亚洲精品一二三| 成人漫画全彩无遮挡| 人人妻人人爽人人添夜夜欢视频 | 看非洲黑人一级黄片| 午夜精品国产一区二区电影 | 超碰97精品在线观看| 欧美日韩视频精品一区| 欧美高清性xxxxhd video| 日韩制服骚丝袜av| 又爽又黄a免费视频| 日韩大片免费观看网站| 亚洲人成网站高清观看| 国产亚洲午夜精品一区二区久久 | 国产成人免费无遮挡视频| www.av在线官网国产| 免费观看无遮挡的男女| 九九在线视频观看精品| 国产淫片久久久久久久久| 久久热精品热| 青春草国产在线视频| 91aial.com中文字幕在线观看| 一级av片app| 欧美bdsm另类| 国产亚洲av片在线观看秒播厂| 免费电影在线观看免费观看| 国产成人a区在线观看| 中文精品一卡2卡3卡4更新| 免费少妇av软件| 麻豆国产97在线/欧美| 国产又色又爽无遮挡免| 免费观看性生交大片5| 成年版毛片免费区| 成人无遮挡网站| 日本免费在线观看一区| 国产人妻一区二区三区在| 亚洲精品日韩在线中文字幕| 蜜桃亚洲精品一区二区三区| www.色视频.com| 在线观看人妻少妇| 国国产精品蜜臀av免费| 欧美激情国产日韩精品一区| 美女内射精品一级片tv| 国产成人精品久久久久久| 国产精品久久久久久精品电影小说 | 国产极品天堂在线| 超碰97精品在线观看| 久久久久精品久久久久真实原创| 伊人久久精品亚洲午夜| 欧美成人a在线观看| 国产熟女欧美一区二区| 亚洲国产精品成人久久小说| 久久99精品国语久久久| 久久久久久久国产电影| 亚洲av免费在线观看| 秋霞伦理黄片| 国产综合精华液| 欧美激情国产日韩精品一区| 精品久久久久久久末码| 1000部很黄的大片| 国产69精品久久久久777片| 少妇人妻一区二区三区视频| 亚洲精品乱码久久久v下载方式| av免费在线看不卡| 国产在线男女| 国产av国产精品国产| av天堂中文字幕网| 人妻少妇偷人精品九色| 精品人妻视频免费看| 狠狠精品人妻久久久久久综合| 日韩制服骚丝袜av| 久久精品熟女亚洲av麻豆精品| 久久久精品欧美日韩精品| 精品少妇黑人巨大在线播放| 好男人视频免费观看在线| 国产成人精品久久久久久| 亚洲欧美日韩另类电影网站 | 日韩大片免费观看网站| 波多野结衣巨乳人妻| 观看美女的网站| 成人亚洲精品一区在线观看 | 超碰97精品在线观看| 亚洲美女视频黄频| 男人添女人高潮全过程视频| 亚洲av一区综合| av福利片在线观看| 国产精品一区www在线观看| 街头女战士在线观看网站| 欧美成人午夜免费资源| 亚洲国产精品999| 一级片'在线观看视频| 亚洲精品一二三| 女人十人毛片免费观看3o分钟| av福利片在线观看| 熟女人妻精品中文字幕| 五月伊人婷婷丁香| tube8黄色片| 亚洲精品国产色婷婷电影| 国产欧美亚洲国产| 日本欧美国产在线视频| 国产精品福利在线免费观看| 高清在线视频一区二区三区| 国国产精品蜜臀av免费| 黄色一级大片看看| 在线 av 中文字幕| 91aial.com中文字幕在线观看| 直男gayav资源| 国产男女内射视频| 久久久久国产网址| 男人和女人高潮做爰伦理| 亚洲精品自拍成人| 亚洲美女搞黄在线观看| 精品久久久久久久久av| 国产成人freesex在线| 亚洲欧美清纯卡通| 久久99精品国语久久久| 97在线人人人人妻| 国产视频首页在线观看| 人人妻人人澡人人爽人人夜夜| 国产淫片久久久久久久久| 亚洲欧美日韩无卡精品| tube8黄色片| 在线观看国产h片| 少妇高潮的动态图| av卡一久久| 老司机影院毛片| 亚洲最大成人av| 日日摸夜夜添夜夜爱| 特级一级黄色大片| 青青草视频在线视频观看| 国产成人一区二区在线| 日韩大片免费观看网站| 狂野欧美激情性bbbbbb| 肉色欧美久久久久久久蜜桃 | 色视频www国产| 国产极品天堂在线| 性色av一级| 日韩欧美精品v在线| 如何舔出高潮| 久久精品久久久久久噜噜老黄| 国产爽快片一区二区三区| 精品国产三级普通话版| 亚洲图色成人| 国产成人免费观看mmmm| 老女人水多毛片| 中国三级夫妇交换| 国产成人a区在线观看| 亚洲av福利一区| 欧美潮喷喷水| 亚洲精品国产成人久久av| 国产又色又爽无遮挡免| 美女xxoo啪啪120秒动态图| 欧美+日韩+精品| 免费观看无遮挡的男女| 亚洲色图av天堂| 一区二区三区乱码不卡18| 天堂中文最新版在线下载 | 少妇的逼水好多| 激情 狠狠 欧美| 亚洲在久久综合| 国模一区二区三区四区视频| 午夜福利网站1000一区二区三区| 国产成人aa在线观看| 亚洲精品,欧美精品| 如何舔出高潮| 少妇人妻久久综合中文| 日本一本二区三区精品| 日韩av免费高清视频| 亚洲欧美成人精品一区二区| 国产黄片视频在线免费观看| 久久久久久久久久人人人人人人| 春色校园在线视频观看| 国产免费一级a男人的天堂| 狂野欧美激情性bbbbbb| 国产一区二区三区av在线| 晚上一个人看的免费电影| 久久99热这里只有精品18| 国产日韩欧美亚洲二区| 中国三级夫妇交换| 亚洲人成网站高清观看| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 亚洲久久久久久中文字幕| 一本色道久久久久久精品综合| 国产伦在线观看视频一区| 亚洲av免费高清在线观看| av免费观看日本| 免费人成在线观看视频色| 一二三四中文在线观看免费高清| 亚洲精品亚洲一区二区| videos熟女内射| 日韩成人av中文字幕在线观看| 永久免费av网站大全| 成年av动漫网址| 男女边吃奶边做爰视频| 亚洲性久久影院| 亚洲,一卡二卡三卡| 夫妻性生交免费视频一级片| 一区二区三区免费毛片| 精品熟女少妇av免费看| 热re99久久精品国产66热6| av又黄又爽大尺度在线免费看| 亚洲国产日韩一区二区| 国产人妻一区二区三区在| 国产精品av视频在线免费观看| kizo精华| 性插视频无遮挡在线免费观看| 国产亚洲5aaaaa淫片| 亚洲人成网站高清观看| 一区二区三区四区激情视频| 日韩人妻高清精品专区| 中文字幕人妻熟人妻熟丝袜美| 超碰av人人做人人爽久久| 午夜福利在线观看免费完整高清在| 在线亚洲精品国产二区图片欧美 | 欧美高清成人免费视频www| 日本一二三区视频观看| 97人妻精品一区二区三区麻豆| 99久久精品一区二区三区| 一级毛片我不卡| 久久国产乱子免费精品| 久久久精品免费免费高清| 一级毛片我不卡| av国产免费在线观看| 午夜免费观看性视频| 一本久久精品| 精品久久久久久久久亚洲| 波多野结衣巨乳人妻| 免费观看的影片在线观看| 久久精品国产自在天天线| 日韩在线高清观看一区二区三区| 2021少妇久久久久久久久久久| 国内揄拍国产精品人妻在线| 免费看不卡的av| 热99国产精品久久久久久7| 成人国产麻豆网| 日韩成人伦理影院| 久久久久网色| 少妇人妻久久综合中文| 国产成人freesex在线|