• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    社交媒體話題檢測(cè)與追蹤技術(shù)研究綜述

    2019-08-05 06:49:42張仰森段宇翔黃改娟蔣玉茹
    中文信息學(xué)報(bào) 2019年7期
    關(guān)鍵詞:文檔聚類文本

    張仰森,段宇翔,黃改娟,蔣玉茹

    (1. 北京信息科技大學(xué) 智能信息處理研究所,北京 100192;2. 國(guó)家經(jīng)濟(jì)安全預(yù)警工程北京實(shí)驗(yàn)室,北京 100044)

    0 引言

    隨著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)信息呈現(xiàn)出爆炸性增長(zhǎng),越來(lái)越多的人將互聯(lián)網(wǎng)視為獲取信息的最佳平臺(tái)。如今,我們所處的不再是信息貧乏的時(shí)代,而是一個(gè)充斥著海量信息的新時(shí)代,所面臨的問(wèn)題也從如何獲取信息變成了如何在短時(shí)間內(nèi)獲取有價(jià)值的信息。關(guān)鍵詞檢索是目前從海量信息中獲取有用信息的主要途徑,但通過(guò)關(guān)鍵詞檢索得到的信息,其冗余度往往較高,同時(shí)有用信息也常常丟失。因此,人們迫切希望有一種方法可以自動(dòng)處理大量信息并挖掘相關(guān)的話題,對(duì)話題相關(guān)信息進(jìn)行有效的組織,以便于人們查詢。話題檢測(cè)與追蹤(topic detection and tracking,TDT)技術(shù)就是在這種需求下應(yīng)運(yùn)而生的,它可以幫助普通網(wǎng)民從海量信息中篩選感興趣的話題信息,也可以幫助相關(guān)部門(mén)對(duì)輿情進(jìn)行監(jiān)控。通過(guò)話題檢測(cè)技術(shù)發(fā)現(xiàn)熱點(diǎn)話題,使用話題追蹤技術(shù)對(duì)檢測(cè)到的熱門(mén)話題進(jìn)行后續(xù)追蹤,這樣就可以有效地組織起一個(gè)與某話題有關(guān)的信息集合,進(jìn)而可以探索事件中各種信息之間的關(guān)系。

    本文第1節(jié)介紹了話題檢測(cè)與追蹤的發(fā)展歷程;第2節(jié)介紹話題檢測(cè)技術(shù)相關(guān)成果與方法;第3節(jié)介紹話題追蹤技術(shù),從非自適應(yīng)話題追蹤和自適應(yīng)話題追蹤兩個(gè)方面進(jìn)行介紹;第4節(jié)列舉了話題檢測(cè)與追蹤技術(shù)中存在的難題,并對(duì)該領(lǐng)域的發(fā)展前景進(jìn)行展望。

    1 話題檢測(cè)追蹤研究概況

    1.1 話題檢測(cè)與追蹤的研究歷程

    1996年,美國(guó)國(guó)防高級(jí)研究計(jì)劃署迫切地需要一種可以實(shí)現(xiàn)新聞數(shù)據(jù)流主題判斷的全自動(dòng)化技術(shù),于是就產(chǎn)生了話題檢測(cè)與追蹤技術(shù)的概念。話題檢測(cè)與追蹤技術(shù)的發(fā)展可大致分為三個(gè)階段,如表1所示。

    表1 話題檢測(cè)與追蹤技術(shù)發(fā)展歷程

    1.2 話題檢測(cè)與追蹤的研究要素

    話題檢測(cè)與跟蹤技術(shù)中的“話題”與一般的信息技術(shù)中涉及的“話題”不同,它表示一個(gè)相對(duì)具體的“事件”,而不是某一個(gè)“領(lǐng)域”。例如,韓美軍演、福島核電站泄露等。下面將介紹話題檢測(cè)與追蹤研究中的四個(gè)研究要素,以便更好地理解本文的研究?jī)?nèi)容。

    (1) 話題: 通常是指一個(gè)由若干個(gè)相關(guān)子事件或活動(dòng)組合而成的事件集合。一個(gè)話題往往經(jīng)歷事件的產(chǎn)生、發(fā)展、演化、消亡四個(gè)階段。例如,尋找森林大火的幸存者、進(jìn)行災(zāi)后重建等,都可以視為與某次自然災(zāi)害相關(guān)的話題。

    (2) 事件: 通常是指發(fā)生在特定時(shí)間、特定地點(diǎn),具備時(shí)間、地點(diǎn)、對(duì)象三要素的事情[1]。例如,2001年7月13日,在俄羅斯首都莫斯科,國(guó)際奧委會(huì)主席薩馬蘭奇宣布北京成為2008年奧運(yùn)會(huì)主辦城市。

    (3) 主題: 主題的定義相對(duì)寬泛,可以簡(jiǎn)單理解為多個(gè)相關(guān)話題的抽象描述,但并不涉及任何實(shí)際事件。例如,“自然災(zāi)害”就是一個(gè)主題,“奧運(yùn)會(huì)”也是一個(gè)主題。

    (4) 報(bào)道: 報(bào)道是指與話題事件相關(guān),包含多個(gè)描述語(yǔ)句的新聞片段。例如,據(jù)中央氣象臺(tái)消息,10日白天起,持續(xù)多日的南部強(qiáng)降雨天氣范圍繼續(xù)擴(kuò)大,強(qiáng)度顯著增強(qiáng),中央氣象臺(tái)1月10日18時(shí)發(fā)布暴雨紅色預(yù)警。

    在檢測(cè)追蹤技術(shù)的文獻(xiàn)調(diào)研中,本文主要針對(duì)話題和事件這兩個(gè)要素展開(kāi)。從話題的相關(guān)定義可以看出,如果一個(gè)目標(biāo)事件與某個(gè)話題內(nèi)的事件有聯(lián)系,那么可以認(rèn)為該事件在該話題的范圍內(nèi),事件也可以看作話題的一種低粒度的展現(xiàn)。

    目前,主要有兩種類型的話題,一種是以新聞報(bào)道為主體的傳統(tǒng)媒體話題,另一種是以微博、Twitter為代表的社交媒體話題。其中,社交媒體話題建立在Web 2.0之上,它與傳統(tǒng)媒體話題的區(qū)別主要體現(xiàn)在以下三點(diǎn): ①以新聞報(bào)道為主體的傳統(tǒng)媒體在傳播信息時(shí)由編輯對(duì)信息進(jìn)行細(xì)致的人工處理,話題中心清楚、明確,而社交媒體中的大部分內(nèi)容是由每一個(gè)用戶自由創(chuàng)造和編輯的,話題中心遠(yuǎn)沒(méi)有傳統(tǒng)媒體那么清晰; ②社交媒體比傳統(tǒng)媒體包含更多的信息,以微博為例,其不僅有轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊等信息,還有標(biāo)簽、影響力、地理定位等諸多非文本信息; ③社交媒體較傳統(tǒng)媒體而言,口語(yǔ)化傾向更加明顯,規(guī)范性較差。上面所列舉的三個(gè)顯著區(qū)別導(dǎo)致了社交媒體話題的檢測(cè)與追蹤難度比傳統(tǒng)媒體更高。

    1.3 話題檢測(cè)與追蹤任務(wù)

    美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所為T(mén)DT研究設(shè)定了五項(xiàng)基本任務(wù),包括: 報(bào)道切分任務(wù)、話題跟蹤任務(wù)、話題檢測(cè)任務(wù)、首次報(bào)道檢測(cè)任務(wù)、關(guān)聯(lián)檢測(cè)任務(wù)。

    1.3.1 報(bào)道切分任務(wù)

    報(bào)道切分任務(wù)(story segmentation task,SST)要求將原始報(bào)道分割成具有完整結(jié)構(gòu)和統(tǒng)一主題的報(bào)道。如果有一條包括不同類型信息的報(bào)道,報(bào)道切分系統(tǒng)需要對(duì)報(bào)道進(jìn)行識(shí)別并按照要求切分。SST最初針對(duì)的是新聞廣播報(bào)道,其切分方式包括以下兩種: 一、直接切分音頻信號(hào);二、將音頻信號(hào)轉(zhuǎn)為文本信息后進(jìn)行切分。報(bào)道切分過(guò)程如圖1所示。

    圖1 報(bào)道切分過(guò)程

    1.3.2 話題跟蹤任務(wù)

    話題跟蹤任務(wù)(topic tracking task,TT)是對(duì)已知的話題報(bào)道進(jìn)行后續(xù)跟蹤。由于已知的話題沒(méi)有明確、詳細(xì)的描述,描述信息主要是給定的若干篇相關(guān)報(bào)道。美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院為每一個(gè)待測(cè)話題提供1~4篇相關(guān)的報(bào)道,同時(shí)提供了相應(yīng)的訓(xùn)練語(yǔ)料來(lái)訓(xùn)練跟蹤系統(tǒng)和更新話題模型。話題跟蹤任務(wù)通過(guò)計(jì)算后續(xù)數(shù)據(jù)流中每一篇報(bào)道與話題模型的匹配程度來(lái)判斷新數(shù)據(jù)是否屬于該話題,從而實(shí)現(xiàn)跟蹤功能。

    1.3.3 話題檢測(cè)任務(wù)

    話題檢測(cè)任務(wù)(topic detection task,TD)主要是檢測(cè)系統(tǒng)中未知的話題。TD任務(wù)在構(gòu)建話題系統(tǒng)時(shí)的先驗(yàn)信息非常少,因此,TD系統(tǒng)必須在不清楚話題信息的情況下完成檢測(cè)模型的構(gòu)建。同時(shí),構(gòu)建的檢測(cè)模型不能僅針對(duì)一個(gè)特殊的話題,而是應(yīng)可以檢測(cè)所有的話題。通過(guò)檢測(cè)模型對(duì)后續(xù)數(shù)據(jù)流的檢測(cè)和識(shí)別,找出數(shù)據(jù)庫(kù)中沒(méi)有出現(xiàn)的話題并生成“新話題”[2]。話題檢測(cè)過(guò)程如圖2所示。

    圖2 話題檢測(cè)過(guò)程

    1.3.4 首次報(bào)道檢測(cè)任務(wù)

    首次報(bào)道檢測(cè)任務(wù)(first-story detection task,F(xiàn)SD)是要在時(shí)序報(bào)道流中檢測(cè)出各種話題的第一篇報(bào)道。總的來(lái)講,F(xiàn)SD與TD有相似之處,但是FSD的結(jié)果是某話題的第一篇報(bào)道,而TD的結(jié)果是關(guān)于某一話題的一系列報(bào)道,可以說(shuō),F(xiàn)SD是話題檢測(cè)系統(tǒng)的基礎(chǔ)和前提。

    1.3.5 關(guān)聯(lián)檢測(cè)任務(wù)

    關(guān)聯(lián)檢測(cè)任務(wù)(link detection task,LDT)是判斷兩篇報(bào)道是否屬于同一個(gè)話題。與TD相同,LDT也沒(méi)有先驗(yàn)信息輔助判斷。所以,LDT系統(tǒng)必須能夠自己分析報(bào)道所描述的話題,并通過(guò)對(duì)比話題模型來(lái)判定兩篇報(bào)道的話題相關(guān)性。

    2 話題檢測(cè)技術(shù)

    2.1 基于主題模型的話題檢測(cè)

    話題檢測(cè)首先是在離線的靜態(tài)文本中提出的,而靜態(tài)文本的話題檢測(cè)一般都是基于LDA(latent Dirichlet allocation)主題模型或者改進(jìn)的LDA主題模型。LDA主題模型將一篇文檔理解成由若干隱含主題組合而成,而隱含主題通過(guò)文檔中一些特定詞語(yǔ)來(lái)體現(xiàn)[3]。一般情況下,隱含主題被視為詞的一種概率分布,單個(gè)文檔可以由多個(gè)隱含主題按照一定比例來(lái)構(gòu)成。本節(jié)將介紹三個(gè)典型的改進(jìn)LDA主題模型,分別是有監(jiān)督潛在狄利克雷模型(supervised LDA,sLDA)、標(biāo)簽潛在狄利克雷模型(labeled LDA,L-LDA)、在線潛在狄利克雷模型(online LDA,OLDA)。有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)最主要的區(qū)別在于,有監(jiān)督學(xué)習(xí)不僅將訓(xùn)練數(shù)據(jù)傳給計(jì)算機(jī),還將帶標(biāo)簽的數(shù)據(jù)傳給計(jì)算機(jī)。在話題檢測(cè)與追蹤領(lǐng)域,有監(jiān)督LDA模型的效果要明顯優(yōu)于無(wú)監(jiān)督LDA模型,故僅介紹有監(jiān)督LDA模型。sLDA[4]是一個(gè)可以添加額外屬性的話題檢測(cè)模型,與普通的LDA模型的區(qū)別是,sLDA含有一個(gè)甚至多個(gè)文本標(biāo)簽,可以通過(guò)文本標(biāo)簽對(duì)建模過(guò)程進(jìn)行監(jiān)督。Zhang等[5]使用經(jīng)整理過(guò)濾后的北弗吉尼亞州和紐約市2016年300萬(wàn)條的Twitter正文和評(píng)論數(shù)據(jù),進(jìn)行交通事故的話題發(fā)現(xiàn)。在進(jìn)行sLDA主題建模時(shí),添加了上述兩個(gè)地區(qū)的高速公路事故記錄和15 000個(gè)環(huán)路探測(cè)器的交通數(shù)據(jù)。實(shí)驗(yàn)結(jié)果證明,66%以上的事故可以通過(guò)事故日志找到,80%以上的事故能夠從探測(cè)器中的交通數(shù)據(jù)找到,其檢測(cè)準(zhǔn)確率比LDA和SVM更高。既然sLDA需要通過(guò)標(biāo)簽的建立來(lái)實(shí)現(xiàn)話題檢測(cè),那么如何尋找最合適的標(biāo)簽便成為了最大的問(wèn)題。于是,Ramage等[6]在2009年提出了L-LDA模型,這是一個(gè)基于多標(biāo)簽文本的主題模型,通過(guò)將標(biāo)簽直接映射到主題的方法以實(shí)現(xiàn)文檔的多標(biāo)簽決策。但是,L-LDA模型沒(méi)有考慮到人為設(shè)置的文檔類別標(biāo)簽和通過(guò)主題模型提取出來(lái)的標(biāo)簽之間的差異性,從而導(dǎo)致模型與文檔數(shù)據(jù)無(wú)法充分?jǐn)M合,泛化能力較差。例如,LDA模型在進(jìn)行話題提取時(shí),經(jīng)常會(huì)生成我們無(wú)法理解的內(nèi)容,如果簡(jiǎn)單地把生成的內(nèi)容與文檔進(jìn)行匹配關(guān)聯(lián),就會(huì)導(dǎo)致檢測(cè)準(zhǔn)確率的下降。周先琳[7]對(duì)新浪微博短文本進(jìn)行預(yù)處理后,使用改進(jìn)后的VSM特征選擇方法對(duì)文本特征進(jìn)行選擇,并構(gòu)建動(dòng)態(tài)L-LDA模型。基于4萬(wàn)多條預(yù)處理后的新浪微博文本進(jìn)行實(shí)驗(yàn),可以發(fā)現(xiàn),動(dòng)態(tài)L-LDA模型與LDA模型相比,前者在微博動(dòng)態(tài)文本主題挖掘方面有明顯的優(yōu)勢(shì)。同樣的,為了解決L-LDA模型無(wú)法充分?jǐn)M合和泛化性能較差的問(wèn)題,江雨燕等[8]提出了一種可用于文檔多標(biāo)簽判定的改進(jìn)L-LDA模型,該模型定義了類別標(biāo)記在獨(dú)享主題、共享主題之間的映射關(guān)系,這樣的映射關(guān)系可以更加真實(shí)地反映文檔的生成過(guò)程?;谛吕宋⒉?shù)據(jù)的實(shí)驗(yàn)表明,該模型可以有效地解決類別標(biāo)記在共享主題和獨(dú)享主題中分析困難的問(wèn)題。

    前面介紹的幾種模型都是在靜態(tài)數(shù)據(jù)下進(jìn)行實(shí)驗(yàn)的,但在真實(shí)情況下,數(shù)據(jù)通常不是靜態(tài)的,而是以在線文本數(shù)據(jù)流的形式存在,所以,將時(shí)間屬性引入LDA模型后就構(gòu)建了OLDA模型。該模型為了保證主題的延續(xù)性,將范圍廣泛的主題進(jìn)行一定的縮小,對(duì)即將消失的話題在時(shí)間粒度上做出延續(xù),減輕了主題演化過(guò)程中的偏差問(wèn)題。余本功等[9]提出了一種改進(jìn)的雙通道OLDA模型,該模型一方面改進(jìn)了文檔中主題分布與詞分布之間的遺傳度,另一方面改進(jìn)了詞概率的計(jì)算方法,有效解決了因?yàn)樾?、舊主題混合和冗余詞較多而導(dǎo)致的新興主題檢測(cè)困難的問(wèn)題。

    2.2 基于改進(jìn)聚類算法的話題檢測(cè)

    當(dāng)前,適用于文本領(lǐng)域的聚類算法主要有四種,分別是: 基于劃分的聚類算法、基于增量式的聚類算法、基于層次的聚類算法和基于圖模型的聚類算法。因?yàn)榛趧澐值木垲愃惴ㄔ谠掝}檢測(cè)與追蹤任務(wù)中的效率較低,所以本文僅對(duì)后面三種聚類算法進(jìn)行介紹。

    2.2.1 基于增量式的聚類

    增量式聚類算法是一種高效的處理文本數(shù)據(jù)流的算法,其中Single-Pass算法較為簡(jiǎn)單且應(yīng)用最廣。Single-Pass算法是處理流式數(shù)據(jù)的經(jīng)典算法,對(duì)于輸入的流式數(shù)據(jù),按照輸入順序依次將每一條數(shù)據(jù)與已有類別進(jìn)行匹配,若匹配成功則將該條數(shù)據(jù)歸入該類別,若匹配失敗則創(chuàng)建一個(gè)新類別來(lái)存放該數(shù)據(jù),這樣就實(shí)現(xiàn)了流式數(shù)據(jù)的聚類。結(jié)合微博文本和微博評(píng)論信息都是逐步增量產(chǎn)生的特點(diǎn),下面將對(duì)Single-Pass算法在話題檢測(cè)中的應(yīng)用進(jìn)行介紹。

    由于Single-Pass聚類算法是隨機(jī)選取聚類中心的,所以其聚類效率較低,針對(duì)這一缺點(diǎn),李倩[10]提出了一種改進(jìn)的Single-Pass聚類算法。在聚類中心的選擇上,設(shè)置鄰域半徑和最小密度閾值,并根據(jù)文檔處于鄰域半徑內(nèi)的文檔數(shù)目與最小密度閾值的大小關(guān)系來(lái)確定初始聚類中心。在相似度的比較上,不是簡(jiǎn)單地將新文檔與類中所有的文檔進(jìn)行比較,而是與主題相似程度最高的文檔進(jìn)行比較,如果其相似度小于設(shè)定的相似度閾值,則不需要再與其他文檔進(jìn)行比較,極大地提升了檢測(cè)效率。葉施仁等[11]提出了一種結(jié)合孤立點(diǎn)預(yù)處理和Single-Pass聚類的中文微博熱點(diǎn)話題檢測(cè)模型。該模型主要有三部分工作: ①優(yōu)化微博文本的特征選擇策略; ②提出了微博文本閾值的概念,將主題分散的文本視為噪聲并進(jìn)行過(guò)濾; ③引入主題詞的概念,而主題詞是根據(jù)中心向量的特征權(quán)重確定的。因?yàn)樵撃P图訌?qiáng)了對(duì)孤立點(diǎn)的處理,同時(shí)優(yōu)化了中心向量的特征選擇和相關(guān)權(quán)重的設(shè)置,所以過(guò)濾掉了大量的噪聲數(shù)據(jù),使主題聚類更加準(zhǔn)確。不同于葉施仁采用的設(shè)置文本閾值來(lái)進(jìn)行噪聲過(guò)濾的方法,周雪梅等[12]在進(jìn)行微博話題檢測(cè)時(shí)引入了文本重構(gòu)的思想,在文本中定義了主題塊和細(xì)節(jié)塊兩個(gè)模塊,主題塊包括文本的標(biāo)題和首段信息,細(xì)節(jié)塊包括文本的其余部分和文后的評(píng)論信息。因?yàn)闃?biāo)題和首段信息往往是文本的總結(jié)歸納,最具有區(qū)分性,所以用主題塊劃分出不同的主話題,而主話題下的小話題則是利用細(xì)節(jié)塊劃分。實(shí)驗(yàn)語(yǔ)料來(lái)自2015年5月的新浪微博的社會(huì)新聞模塊,通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析得知,當(dāng)主話題閾值為0.28,子話題閾值在0.28到0.58之間時(shí),子話題區(qū)分效果基本可以與人工效果媲美。

    2.2.2 基于層次的聚類

    k-means算法是一種簡(jiǎn)單好用的劃分聚類算法,但是算法中k值的選擇和初始聚類中心點(diǎn)的選擇是k-means算法的重點(diǎn)和難點(diǎn)。不同于k-means聚類算法,層次聚類是對(duì)樣本逐層聚類,直到滿足聚類要求,避免了參數(shù)設(shè)置和聚類中心點(diǎn)選取的難題。

    Peixian Chen等[13]在進(jìn)行Twitter研究的過(guò)程中提出了一種稱為HLTA的分層主題檢測(cè)方法,這個(gè)方法使用分層潛在樹(shù)模型來(lái)模擬單詞共現(xiàn)。HLTA中的每個(gè)潛在變量都表示文檔的分區(qū),分區(qū)中的文檔集群即視為主題,而這個(gè)主題一定是在屬于該主題的文檔中以高概率出現(xiàn),而在不屬于該主題的文檔中以低概率出現(xiàn)。HLTA不同于基于LDA的分層主題檢測(cè)方法,雖然兩種方法都定義了文檔的概率分布,但它們使用不同類型的觀察變量和潛在變量。實(shí)驗(yàn)結(jié)果表明,HLTA在模型擬合和主題層次結(jié)構(gòu)質(zhì)量方面優(yōu)于基于LDA的方法。鑒于中文微博具有規(guī)模大、話題多、話題無(wú)關(guān)性強(qiáng)等特點(diǎn),Xiao Geng等[14]提出了一種三層混合聚類算法進(jìn)行話題檢測(cè)。第一層使用K-means算法,對(duì)微博文本進(jìn)行話題聚類。第二層應(yīng)用凝聚式層次聚類算法,將相同主題的文本結(jié)合成小型簇。前兩層已經(jīng)消除了大部分的干擾噪聲,第三層再次使用k-means算法,對(duì)原先分配給錯(cuò)誤簇的文本進(jìn)行重新聚類,實(shí)現(xiàn)對(duì)聚類結(jié)果的修正。

    2.2.3 基于圖模型的聚類

    基于圖模型的聚類與其說(shuō)是聚類算法,還不如說(shuō)是一種圖的向量表示?;谙蛄窟M(jìn)行表示之后,一般可以采用其他的聚類方法得到最后的聚類結(jié)果。所以基于圖模型的聚類既依賴于向量表示,也與之后采用的聚類算法有關(guān)。

    Dong等[15]針對(duì)Twitter上的突發(fā)話題,提出了一種面向突發(fā)話題的圖模型,該模型可以表示大量Twitter用戶對(duì)突發(fā)話題進(jìn)行傳播的拓?fù)浣Y(jié)構(gòu)。通過(guò)該模型可以從宏觀上分析突發(fā)事件的傳播模式,從微觀上挖掘突發(fā)事件的傳播特點(diǎn)。實(shí)驗(yàn)結(jié)果表明,通過(guò)該方法可以有效地從突發(fā)事件中發(fā)現(xiàn)新興話題。不同于微博主體的長(zhǎng)文本,在線社交媒體用戶每天在評(píng)論區(qū)會(huì)產(chǎn)生大量的短文本評(píng)論信息,傳統(tǒng)的話題檢測(cè)對(duì)有限的包含大量信息的文檔有良好的效果,但是對(duì)海量的包含信息量低的小文本見(jiàn)效甚微。因此,Kambiz Ghoorchian等[16]提出了利用降維和聚類技術(shù)的話題檢測(cè)方法,首先將輸入的文檔集壓縮成一個(gè)密集的圖,并在圖中創(chuàng)建多個(gè)稠密的拓?fù)鋮^(qū)域,然后將圖分成若干個(gè)密集的子圖,每一個(gè)子圖代表一個(gè)主題。該方法與標(biāo)準(zhǔn)的LDA和BiTerm方法相比,不僅保持了更好的精度,而且執(zhí)行速度快一個(gè)數(shù)量級(jí)。

    傳統(tǒng)的主題檢測(cè)方法通過(guò)挖掘語(yǔ)義關(guān)系聚合成主題,但是這樣的方法忽略了文檔間的共現(xiàn)關(guān)系。為了解決這個(gè)問(wèn)題,Zhang等[17]提出了一種混合關(guān)系分析方法來(lái)整合語(yǔ)義關(guān)系和共現(xiàn)關(guān)系。具體而言,該方法將多個(gè)關(guān)系融合成語(yǔ)義圖,并使用圖分析方法從語(yǔ)義圖中檢測(cè)主題。通過(guò)梳理圖中的關(guān)系,不僅可以更有效地檢測(cè)話題,還可以利用潛在的共現(xiàn)關(guān)系挖掘潛在的重要信息。

    由于社交媒體產(chǎn)生的內(nèi)容大大超出了人工處理這些數(shù)據(jù)的能力,而已經(jīng)提出的各種自動(dòng)主題檢測(cè)方法,大部分都基于文檔聚類和突發(fā)檢測(cè),它們無(wú)法實(shí)現(xiàn)對(duì)噪聲文件的過(guò)濾,而對(duì)于噪聲文件的過(guò)濾又是話題檢測(cè)中的重點(diǎn)和難點(diǎn)。因此,Pablo Torres-Tramón等[18]提出了一種基于拓?fù)鋽?shù)據(jù)分析的主題檢測(cè)方法,它將歐幾里德特征空間轉(zhuǎn)換成一個(gè)拓?fù)淇臻g,在這個(gè)拓?fù)淇臻g中,被視為噪聲的不相關(guān)文檔的形狀很容易與局部相關(guān)的文檔區(qū)分開(kāi)來(lái)。根據(jù)點(diǎn)(即文檔)的連通性將該拓?fù)淇臻g組織在網(wǎng)絡(luò)中,并且根據(jù)連接組件的大小進(jìn)行二次過(guò)濾,以達(dá)到去除噪聲文件、實(shí)現(xiàn)話題檢測(cè)的目的。

    2.3 基于多特征融合的話題檢測(cè)

    基于多特征融合的話題檢測(cè)可以充分地利用多特征數(shù)據(jù),實(shí)現(xiàn)對(duì)話題的精確檢測(cè)。根據(jù)話題檢測(cè)的方法途徑,把多特征分為兩大類: 一類是基于文本的多特征,另一類是基于非文本的多特征。

    2.3.1 基于文本多特征融合的檢測(cè)方法

    基于社交媒體文本特征的方法是指利用微博、Twitter等新興社交媒體上的文本消息,根據(jù)事件隨時(shí)間的變化不斷對(duì)新出現(xiàn)的話題做出檢測(cè)。

    由于中文微博多數(shù)為短文本,甚至是超短文本,文本的稀疏性往往導(dǎo)致文本相似度的度量不準(zhǔn)確。黃賢英等[19]提出一種基于多維度的微博短文本相似度算法,該算法根據(jù)詞形相同和詞義相近來(lái)尋找微博短文本中的公共塊,構(gòu)建基于公共塊序列的語(yǔ)義相似度。利用微博短文本發(fā)布時(shí)間、轉(zhuǎn)發(fā)與評(píng)論等信息來(lái)修正該語(yǔ)義相似度,形成新的微博短文本相似度算法。最后,將新的微博短文本相似度算法結(jié)合Single-Pass聚類算法,最終實(shí)現(xiàn)對(duì)微博話題的檢測(cè)。

    金鎮(zhèn)晟[20]利用特征詞的時(shí)間屬性和增長(zhǎng)程度這對(duì)屬性,在傳統(tǒng)的TF-IDF基礎(chǔ)上提出一種改進(jìn)的特征提取算法,稱之為T(mén)F-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解決突發(fā)性熱點(diǎn)話題在聚類時(shí)特征不明顯的問(wèn)題。該算法結(jié)合動(dòng)能原理,將特征項(xiàng)的突發(fā)值用動(dòng)能的概念進(jìn)行描述,并加入權(quán)值計(jì)算中,提高了突發(fā)性特征項(xiàng)的權(quán)重,最后通過(guò)文本聚類實(shí)現(xiàn)了微博的話題檢測(cè)。該方法描述了文本和特征項(xiàng)所具有的動(dòng)態(tài)屬性,實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地提高話題檢測(cè)的效果。劉志雄[21]針對(duì)微博話題的熱度、突發(fā)性以及時(shí)序特征,提出了一種時(shí)間窗口下的融合詞重要度的微博話題檢測(cè)方法。該方法首先根據(jù)時(shí)間屬性對(duì)微博文本進(jìn)行分塊處理,然后根據(jù)詞在時(shí)間塊里的熱度進(jìn)行排序,并選取熱度最大的n個(gè)詞作為主題詞候選詞。其次,以主題詞候選詞為基礎(chǔ)構(gòu)建詞共現(xiàn)網(wǎng)絡(luò),并利用社區(qū)劃分算法對(duì)該詞共現(xiàn)網(wǎng)絡(luò)進(jìn)行主題劃分,最后對(duì)每個(gè)劃分社區(qū)內(nèi)的候選詞進(jìn)行重要度排序。利用新浪微博半個(gè)月內(nèi)的三個(gè)主題板塊數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,通過(guò)該檢測(cè)算法進(jìn)行社區(qū)話題發(fā)現(xiàn)有較高的召回率,但是在準(zhǔn)確率和漏檢率上并沒(méi)有突出的成績(jī)。

    2.3.2 基于非文本多特征融合的檢測(cè)方法

    基于社交媒體文本特征的檢測(cè)方法主要圍繞關(guān)鍵詞特征進(jìn)行,但是隨著非文本媒體的盛行,僅依靠關(guān)鍵詞特征已經(jīng)無(wú)法滿足當(dāng)前網(wǎng)絡(luò)環(huán)境下的話題檢測(cè),結(jié)合社交網(wǎng)絡(luò)中豐富的用戶數(shù)據(jù)(例如,用戶行為、好友關(guān)系、地理位置、視頻等)來(lái)進(jìn)行話題檢測(cè)就顯得尤為重要[22]。

    有些微博話題可能在全網(wǎng)范圍內(nèi)并不突出,但是在某一局部地區(qū)卻是一個(gè)熱點(diǎn)話題。針對(duì)這一情況,李正[23]提出利用地理位置信息進(jìn)行中文微博突發(fā)話題檢測(cè),一方面,根據(jù)微博空間環(huán)境現(xiàn)狀,增加適應(yīng)環(huán)境的文本過(guò)濾規(guī)則,盡可能地過(guò)濾冗余數(shù)據(jù);另一方面,將微博文本中出現(xiàn)的地點(diǎn)名詞與微博所攜帶的空間地理位置信息進(jìn)行匹配,并提出“親歷度”的概念,用此概念提高相應(yīng)微博分詞的基礎(chǔ)權(quán)重,以提高對(duì)應(yīng)用戶在該事件上的話語(yǔ)權(quán),從而達(dá)到更加精準(zhǔn)地獲取突發(fā)詞集的目的。

    傳統(tǒng)的話題檢測(cè)方法主要集中在單一媒體上,Zhang等[24]提出將互聯(lián)網(wǎng)視頻和新聞報(bào)道中豐富的多媒體信息進(jìn)行融合,實(shí)現(xiàn)跨媒體話題關(guān)鍵詞的提取。首先,利用視頻相關(guān)的文本信息和新聞標(biāo)題,找出粗加權(quán)密集關(guān)鍵詞組;然后,利用文本鏈接和可視化鏈接細(xì)化關(guān)鍵詞組并更新權(quán)重;最后,將文檔與細(xì)化的關(guān)鍵詞組重新關(guān)聯(lián)以形成與事件相關(guān)的文檔集。在包含網(wǎng)絡(luò)視頻和新聞圖片報(bào)道的跨媒體數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了良好的檢測(cè)效果。在以微博、Twitter為首的社交媒體中,也存在著大量的視頻和圖片信息,多媒體信息融合同樣可以在社交媒體領(lǐng)域得到應(yīng)用。

    隨著社交媒體功能的多樣化,越來(lái)越多的用戶行為信息和時(shí)間屬性被挖掘出來(lái)并用于話題檢測(cè)。萬(wàn)越等[25]結(jié)合微博數(shù)據(jù)的時(shí)序特征以及社交網(wǎng)絡(luò)用戶的行為特征,提出一種動(dòng)量信號(hào)增強(qiáng)模型來(lái)進(jìn)行微博突發(fā)話題檢測(cè)。該文首次提出用影響力因子來(lái)修正動(dòng)量模型的誤差。影響力因子是指當(dāng)前時(shí)間點(diǎn)前指定周期內(nèi)的數(shù)據(jù)對(duì)當(dāng)前數(shù)據(jù)的變化的影響,其將作為修正詞頻序列的依據(jù)。通過(guò)對(duì)比用于檢測(cè)是否存在突發(fā)信號(hào)的MACD值指標(biāo)和提前設(shè)置好的突發(fā)性閾值,判斷目標(biāo)特征詞是否是突發(fā)特征詞。最后,通過(guò)k-means聚類算法將特征詞歸類合并,得到突發(fā)話題。賀敏等[26]針對(duì)微博數(shù)據(jù)稀疏、微博內(nèi)容間的關(guān)系難以準(zhǔn)確度量、微博內(nèi)容多而雜的特點(diǎn)[27],提出了基于特征驅(qū)動(dòng)的中文微博話題檢測(cè)方法。該檢測(cè)方法通過(guò)選取有意義的詞或者詞組來(lái)獲取微博特征,將微博的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)以及點(diǎn)贊量等文檔影響力和關(guān)注數(shù)、粉絲數(shù)等微博博主影響力組成特征影響力屬性組并進(jìn)行建模。最后,根據(jù)特征屬性劃分話題關(guān)鍵特征和噪聲特征,并將話題關(guān)鍵特征之間的互信息作為最鄰近聚類法的距離度量,通過(guò)關(guān)鍵特征的最鄰近聚類得到話題結(jié)果。根據(jù)新浪微博1 000個(gè)加V的活躍博主的78萬(wàn)余條微博消息進(jìn)行實(shí)驗(yàn),相比于傳統(tǒng)的k-means方法,該方法的檢測(cè)準(zhǔn)確率、召回率以及F1值都有將近20%的提升,故該方法有一定的應(yīng)用價(jià)值[28]。Fang等[28]從話題在時(shí)間和空間上局部分布的性質(zhì)入手,提出了一個(gè)基于多視圖聚類的新框架MVTD。該框架通過(guò)整合Twitter中的語(yǔ)義關(guān)系、社會(huì)標(biāo)簽關(guān)系和時(shí)間關(guān)系,提出了一種基于后綴樹(shù)的新文檔相似性度量方法和基于后綴樹(shù)的新關(guān)鍵詞提取方法。通過(guò)在真實(shí)Twitter數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)基于多視圖聚類的新框架MVTD的聚類性能遠(yuǎn)遠(yuǎn)優(yōu)于單一視圖,并且對(duì)于Twitter的話題檢測(cè)有良好的效果。

    3 話題追蹤技術(shù)

    話題追蹤的主要任務(wù)是,在已知目標(biāo)話題的基礎(chǔ)上對(duì)后續(xù)報(bào)道進(jìn)行持續(xù)追蹤。由于社交媒體的迅速普及,話題追蹤技術(shù)應(yīng)用到了微博、貼吧、論壇、博客等社交媒體平臺(tái)上。話題追蹤可以簡(jiǎn)單地分為兩個(gè)步驟: 第一步,訓(xùn)練并得到話題模型;第二步,根據(jù)得到的話題模型進(jìn)行判斷。該過(guò)程如圖3所示。

    圖3 話題追蹤基本流程

    本節(jié)將話題追蹤方法分為非自適應(yīng)話題追蹤和自適應(yīng)話題追蹤兩種,自適應(yīng)話題追蹤的優(yōu)越性在于無(wú)指導(dǎo)條件下的自適應(yīng)能力,而這種自適應(yīng)能力可以有效地解決“話題漂移”現(xiàn)象。

    3.1 非自適應(yīng)話題追蹤

    非自適應(yīng)話題追蹤有基于知識(shí)和基于統(tǒng)計(jì)兩種研究思路。基于知識(shí)的話題追蹤主要是分析報(bào)道內(nèi)容之間的相關(guān)關(guān)系,并利用與報(bào)道內(nèi)容相關(guān)的領(lǐng)域知識(shí)對(duì)報(bào)道進(jìn)行歸類追蹤?;诮y(tǒng)計(jì)的話題追蹤主要是利用統(tǒng)計(jì)學(xué)方法分析報(bào)道與話題模型之間的關(guān)聯(lián)程度。

    鑒于話題追蹤方法大多面向新聞、博客和微博等社交媒體,席耀一等[29]針對(duì)網(wǎng)絡(luò)論壇的結(jié)構(gòu)和內(nèi)容特點(diǎn),提出基于語(yǔ)義相似度的論壇話題追蹤方法。該方法提取百度貼吧、網(wǎng)易論壇、天涯社區(qū)等諸多平臺(tái)的帖子的關(guān)鍵詞,分別構(gòu)建出話題關(guān)鍵詞詞表和帖子關(guān)鍵詞詞表,并建立話題與帖子的文本表示模型。利用《知網(wǎng)》的語(yǔ)義框架計(jì)算帖子關(guān)鍵詞與話題關(guān)鍵詞的相似度,當(dāng)相似度高于設(shè)定的閾值時(shí)就可以判定該帖子為話題追蹤的目標(biāo)帖。實(shí)驗(yàn)證明,該方法的準(zhǔn)確率和F1值均高于傳統(tǒng)的基于向量空間模型的話題追蹤方法,可以廣泛應(yīng)用于論壇領(lǐng)域的話題追蹤。不同于前面提到的語(yǔ)義相似度分析,Chen等[30]提出一種基于語(yǔ)義相關(guān)度的微博文本主題跟蹤方法來(lái)解決微博文本的稀疏性問(wèn)題。該方法根據(jù)微博的結(jié)構(gòu)化信息,以及《知網(wǎng)》的語(yǔ)義關(guān)系網(wǎng)絡(luò),構(gòu)建了針對(duì)微博的語(yǔ)義關(guān)聯(lián)模型。根據(jù)該模型提取文本信息,并以關(guān)鍵詞列表的形式表現(xiàn)出來(lái),結(jié)合文本相似度的相關(guān)理論,綜合衡量文本與主題之間的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,該方法比向量空間法和單純基于文本相似度的方法能更好地降低錯(cuò)誤率,大大提升了話題追蹤的效果。唐曉波等[31]基于維基語(yǔ)義擴(kuò)展網(wǎng)絡(luò)構(gòu)建出一種微博話題追蹤模型,該模型旨在解決微博文本中的語(yǔ)義稀疏性問(wèn)題和話題漂移性問(wèn)題。首先,使用維基百科數(shù)據(jù)進(jìn)行知識(shí)庫(kù)的構(gòu)建;其次,利用該知識(shí)庫(kù)對(duì)目標(biāo)微博文本的特征向量進(jìn)行擴(kuò)展,經(jīng)過(guò)擴(kuò)展后的微博文本對(duì)事件的描述能力有了很大的提升;最后,通過(guò)支持向量機(jī)(support vector machine,SVM)進(jìn)行語(yǔ)義層面的話題追蹤。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的SVM方法和自適應(yīng)SVM方法相比,基于維基百科進(jìn)行語(yǔ)義擴(kuò)展后的SVM分類模型有效降低了分類器對(duì)初始話題數(shù)量的敏感性,同時(shí)減輕了話題漂移現(xiàn)象對(duì)微博話題追蹤產(chǎn)生的影響。

    基于統(tǒng)計(jì)策略的話題追蹤方法主要是根據(jù)話題模型與后續(xù)報(bào)道相關(guān)性進(jìn)行判斷,而基于分類策略的話題追蹤又是基于統(tǒng)計(jì)策略中最常用到的方法。卡內(nèi)基梅隆大學(xué)在話題追蹤任務(wù)中利用統(tǒng)計(jì)策略率先提出了兩種方法,分別是k—最近鄰(k-nearest neighbor,KNN)和決策樹(shù)(decision tree,D-Tree)。

    馬薩諸塞大學(xué)的Papka[32]采用KNN分類算法,將與當(dāng)前報(bào)道最相似的k個(gè)報(bào)道作為最鄰近報(bào)道,則待測(cè)報(bào)道所屬的話題就由這k個(gè)報(bào)道中出現(xiàn)頻率最高的話題來(lái)決定??突仿〈髮W(xué)的Carbonell等[33]采用D-Tree算法進(jìn)行話題追蹤,該算法通過(guò)訓(xùn)練語(yǔ)料來(lái)構(gòu)建決策樹(shù),決策樹(shù)中的每個(gè)中間節(jié)點(diǎn)代表一種決策屬性,節(jié)點(diǎn)向下的分支則代表一種決策,最終在葉節(jié)點(diǎn)得出所屬的話題。大量實(shí)驗(yàn)和論文表明,基于KNN算法的話題追蹤效果要優(yōu)于D-Tree算法,其原因在于KNN可以通過(guò)減少k值來(lái)保證追蹤的正確率,而D-Tree必須依賴多層樹(shù)結(jié)構(gòu)得出正確的追蹤策略,這樣很容易造成漏檢和誤檢。

    由于微博信息有變化速度過(guò)快、噪聲高、文本較短等缺點(diǎn),所以針對(duì)微博的新興話題追蹤的效率一直不高[34],Huang等[35]提出了一種新興的微博話題追蹤方法,它將新詞檢測(cè)與相關(guān)話題挖掘相結(jié)合。具體來(lái)說(shuō)就是通過(guò)一個(gè)基于局部線性的加權(quán)回歸算法來(lái)計(jì)算單詞的新穎性,同時(shí)抑制已有話題的單詞新穎性,最后利用單詞新穎性和衰落性來(lái)追蹤新興的話題。在超過(guò)100萬(wàn)條的微博評(píng)論數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法在檢測(cè)新興話題和追蹤現(xiàn)有話題上有著良好的性能。

    3.2 自適應(yīng)話題追蹤

    非自適應(yīng)話題追蹤是根據(jù)少量的話題報(bào)道來(lái)構(gòu)建話題模型,進(jìn)而實(shí)現(xiàn)話題追蹤?,F(xiàn)實(shí)生活與之非常類似,用戶對(duì)突發(fā)性話題的了解通常也非常少,而這也是經(jīng)過(guò)訓(xùn)練得到的話題模型不夠準(zhǔn)確的緣故。因此,研究一種擁有自我學(xué)習(xí)能力的自適應(yīng)話題追蹤系統(tǒng)(adaptive topic tracking,ATT)就顯得尤為重要。自適應(yīng)話題追蹤的核心思想是對(duì)話題模型進(jìn)行自學(xué)習(xí),不僅為話題嵌入新的特征,同時(shí)可以動(dòng)態(tài)調(diào)整特征權(quán)重。其優(yōu)點(diǎn)是可以減小因?yàn)橄闰?yàn)知識(shí)不足而導(dǎo)致的話題模型不完備的問(wèn)題,同時(shí)還可以通過(guò)自學(xué)習(xí)機(jī)制實(shí)現(xiàn)對(duì)話題的持續(xù)跟蹤。

    Khandelwal等[36]是最早進(jìn)行ATT研究的成員之一,他們根據(jù)話題報(bào)道構(gòu)造話題模型,將話題報(bào)道與構(gòu)造出來(lái)的話題模型之間的相關(guān)度的平均值作為閾值,當(dāng)有后續(xù)相關(guān)報(bào)道輸入時(shí),將其放入訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練并重新構(gòu)建話題模型和閾值。該自適應(yīng)話題追蹤方法有一個(gè)很大的缺陷: 對(duì)于系統(tǒng)反饋不進(jìn)行任何驗(yàn)證,即反饋信息中包含的相關(guān)和不相關(guān)報(bào)道都會(huì)放入訓(xùn)練語(yǔ)料重新訓(xùn)練,這會(huì)導(dǎo)致模型更新出現(xiàn)偏差,產(chǎn)生話題漂移現(xiàn)象。針對(duì)上述方法可能會(huì)造成話題漂移的問(wèn)題,美國(guó)BBN公司的Lo等[37]在其研發(fā)的LIMSI話題追蹤系統(tǒng)中,采用設(shè)置二次閾值的方式來(lái)解決反饋信息沒(méi)有驗(yàn)證的問(wèn)題。只有在滿足反饋閾值的前提下才會(huì)把信息提交給系統(tǒng)進(jìn)行模型更新,反饋閾值的設(shè)定有效降低了話題漂移現(xiàn)象的產(chǎn)生[38]。LIMSI系統(tǒng)有靜態(tài)和動(dòng)態(tài)兩種權(quán)重更新策略,經(jīng)實(shí)驗(yàn)證明,面對(duì)社交媒體的話題追蹤時(shí)選用動(dòng)態(tài)權(quán)重更新策略效果更佳。

    有些研究者在微博話題追蹤中引入語(yǔ)義信息[39],劉彥偉[40]將話題中心向量引入話題模型的同時(shí),使用語(yǔ)義相似度對(duì)判斷結(jié)果進(jìn)行修正,將微博文檔劃分到對(duì)應(yīng)話題后進(jìn)行話題中心向量的自適應(yīng)調(diào)整。不同于利用語(yǔ)義信息的自適應(yīng)話題追蹤,柏文言等[41]提出了一種融合用戶關(guān)系的自適應(yīng)微博話題追蹤方法。首先將追蹤時(shí)間窗內(nèi)的推文映射到特征空間,形成候選推文集合,然后根據(jù)推文的分布特點(diǎn)和話題追蹤的目的對(duì)推文特征空間做出變換,最后利用改進(jìn)的k-means聚類算法對(duì)候選推文集合進(jìn)行二元聚類,劃分出相關(guān)推文集合。使用Twitter平臺(tái)的實(shí)時(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,該方法能夠及時(shí)追蹤話題的熱度變化和話題焦點(diǎn)的演變,同時(shí)也可以提高微博話題追蹤的穩(wěn)定性。

    因?yàn)樵掝}的演化過(guò)程與時(shí)間緊密相關(guān),F(xiàn)uling Hu等[42]提出了一個(gè)事件—時(shí)間關(guān)系模型來(lái)研究話題跟蹤任務(wù),該方法主要通過(guò)識(shí)別和挖掘后續(xù)報(bào)道中的事件─時(shí)間流,將事件的時(shí)間屬性引入向量空間模型,并將該模型應(yīng)用于話題跟蹤的相關(guān)決策,最后根據(jù)時(shí)間屬性重新調(diào)整特征向量的權(quán)重分配,實(shí)現(xiàn)自適應(yīng)話題追蹤。實(shí)驗(yàn)結(jié)果顯示,在DET曲線性能評(píng)估系統(tǒng)平臺(tái)上, 該模型能夠比非自適應(yīng)話題追蹤模型更加準(zhǔn)確地跟蹤話題事件的演化過(guò)程。

    4 社交媒體話題檢測(cè)追蹤研究展望

    中文語(yǔ)義信息復(fù)雜多變,想要通過(guò)機(jī)器對(duì)文本信息進(jìn)行深層挖掘就顯得格外困難。另外,針對(duì)目前熱門(mén)的社交媒體,又出現(xiàn)了海量短文本,甚至超短文本的挑戰(zhàn)。因此,有許多方面的問(wèn)題需要解決。

    (1) 海量信息問(wèn)題。由于社交媒體數(shù)據(jù)量龐大,且更新速度快,如新浪微博在2017年有3.76億月活躍用戶,1.65億日活躍用戶,每天發(fā)送微博數(shù)目超過(guò)1億條,所以建立針對(duì)社交媒體的流數(shù)據(jù)處理系統(tǒng)是一個(gè)亟需解決的問(wèn)題。為了解決上述問(wèn)題,可以在原有算法的基礎(chǔ)上,結(jié)合Hadoop、Spark等大數(shù)據(jù)分析工具對(duì)微博數(shù)據(jù)進(jìn)行處理和分析。在話題檢測(cè)追蹤的任務(wù)中,需要研究出有效的針對(duì)大規(guī)模文本數(shù)據(jù)的快速聚類算法,以應(yīng)對(duì)這一挑戰(zhàn)。

    (2) 噪聲干擾問(wèn)題。社交媒體中充斥著大量的廣告信息,這些廣告不僅包括公司的推廣信息,還有很多個(gè)人用戶的商品買(mǎi)賣(mài)信息,這些廣告噪聲對(duì)話題檢測(cè)與追蹤基本沒(méi)有實(shí)際的意義,甚至?xí)箼z測(cè)結(jié)果出現(xiàn)一定程度的偏差。針對(duì)垃圾郵件問(wèn)題,研究者提出了許多垃圾郵件檢測(cè)算法。在未來(lái)的研究中,可以將這些算法改進(jìn),并應(yīng)用到微博數(shù)據(jù)中。同時(shí),鑒于微博的廣告中有很大一部分是商品信息,可以將各大電商網(wǎng)站的商品信息作為微博廣告庫(kù)的擴(kuò)展信息源,這樣可以省去大量的人工廣告信息標(biāo)注任務(wù)。

    (3) 多源信息傳播問(wèn)題。在當(dāng)前的社交網(wǎng)絡(luò)中,大部分話題檢測(cè)追蹤的研究都是針對(duì)單一數(shù)據(jù)源的,如國(guó)外的Twitter或者中國(guó)的新浪微博。雖然它們的數(shù)據(jù)量巨大且更新迅速,但是如果忽略了社交媒體平臺(tái)間轉(zhuǎn)發(fā)、分享等功能,就會(huì)遺失許多其他來(lái)源的話題信息,導(dǎo)致無(wú)法全面地獲取新興話題以及話題的演變過(guò)程。因此,可以考慮在檢測(cè)過(guò)程中加入關(guān)聯(lián)網(wǎng)站信息,全面反映網(wǎng)絡(luò)中目標(biāo)話題的分布態(tài)勢(shì)。

    (4) 非文本信息問(wèn)題。針對(duì)熱門(mén)話題的檢測(cè),應(yīng)該同時(shí)考慮文本信息和非文本信息對(duì)檢測(cè)過(guò)程的貢獻(xiàn)。近期的研究中,有人將社交媒體的時(shí)序特征和用戶細(xì)節(jié)特征等非文本信息用于話題檢測(cè)模型的構(gòu)建,取得了一定的效果,但是,目前的研究只簡(jiǎn)單利用了用戶的權(quán)威度和評(píng)論轉(zhuǎn)發(fā)數(shù)等用戶行為特征[43]。在以后的研究中,可以將用戶的影響力信息、用戶參與社交媒體互動(dòng)的行為信息等特征納入話題檢測(cè)與追蹤的研究中。

    (5) 結(jié)果評(píng)估問(wèn)題。話題檢測(cè)與追蹤結(jié)果的評(píng)價(jià)方法除了傳統(tǒng)的準(zhǔn)確率、召回率、F1值外,第三方使用效果、人工評(píng)估也是經(jīng)常用于評(píng)價(jià)的指標(biāo)。第三方使用效果指的是將話題檢測(cè)追蹤模型應(yīng)用于文本分類、信息檢索等方面,利用文本分類的效果、信息檢索的準(zhǔn)確性對(duì)話題檢測(cè)追蹤的效果進(jìn)行間接評(píng)估。在實(shí)際工作中,人工評(píng)價(jià)其實(shí)是最可靠、適用范圍最廣的評(píng)估方式,這也是話題檢測(cè)追蹤領(lǐng)域一個(gè)亟需解決的問(wèn)題,即找到一種自動(dòng)的適用全領(lǐng)域的評(píng)估方法。

    (6) 深度學(xué)習(xí)缺乏應(yīng)用的問(wèn)題。深度學(xué)習(xí)在話題檢測(cè)與追蹤領(lǐng)域缺乏有效的應(yīng)用,我們認(rèn)為有兩方面的原因: 一方面,深度學(xué)習(xí)從2006年取得突破性進(jìn)展后,最先應(yīng)用于圖像和語(yǔ)音領(lǐng)域,而在自然語(yǔ)言處理領(lǐng)域的應(yīng)用則是近些年才開(kāi)始的,這導(dǎo)致話題檢測(cè)與追蹤領(lǐng)域目前還沒(méi)有較為成熟的模型。另一方面,話題檢測(cè)與追蹤數(shù)據(jù)的時(shí)效性很強(qiáng),而深度學(xué)習(xí)方法非常依賴對(duì)數(shù)據(jù)的訓(xùn)練和學(xué)習(xí),所以頻繁的數(shù)據(jù)變化也是導(dǎo)致深度學(xué)習(xí)方法沒(méi)有廣泛應(yīng)用到話題檢測(cè)與追蹤任務(wù)的原因之一。

    猜你喜歡
    文檔聚類文本
    有人一聲不吭向你扔了個(gè)文檔
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    基于DBSACN聚類算法的XML文檔聚類
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    基于改進(jìn)的遺傳算法的模糊聚類算法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    如何快速走進(jìn)文本
    亚洲欧美中文字幕日韩二区| 美女国产视频在线观看| 少妇人妻 视频| 男女边吃奶边做爰视频| 下体分泌物呈黄色| 成人午夜精彩视频在线观看| 亚洲国产高清在线一区二区三| 3wmmmm亚洲av在线观看| 91久久精品国产一区二区成人| 国产69精品久久久久777片| a级一级毛片免费在线观看| 国产免费福利视频在线观看| 丰满人妻一区二区三区视频av| 卡戴珊不雅视频在线播放| 干丝袜人妻中文字幕| 国产精品人妻久久久久久| 纵有疾风起免费观看全集完整版| 大片电影免费在线观看免费| 高清欧美精品videossex| 99热这里只有精品一区| 亚洲成色77777| 日日啪夜夜撸| 免费大片18禁| 成人鲁丝片一二三区免费| kizo精华| 国产真实伦视频高清在线观看| 麻豆国产97在线/欧美| 久久久色成人| 男女无遮挡免费网站观看| 欧美三级亚洲精品| 日本猛色少妇xxxxx猛交久久| 男插女下体视频免费在线播放| 女的被弄到高潮叫床怎么办| 国产精品人妻久久久久久| 日韩视频在线欧美| 久久影院123| 偷拍熟女少妇极品色| 777米奇影视久久| 亚洲国产欧美人成| 日本爱情动作片www.在线观看| av在线播放精品| 美女内射精品一级片tv| 亚洲综合精品二区| 最后的刺客免费高清国语| 免费黄色在线免费观看| 久久久久久久大尺度免费视频| 亚洲国产精品国产精品| 亚洲在线观看片| 免费少妇av软件| 欧美激情久久久久久爽电影| 免费观看av网站的网址| 国产精品一及| 在现免费观看毛片| 久久久欧美国产精品| 久久热精品热| 在线观看美女被高潮喷水网站| 国产69精品久久久久777片| 91狼人影院| 汤姆久久久久久久影院中文字幕| av国产精品久久久久影院| 欧美丝袜亚洲另类| 国产精品不卡视频一区二区| 欧美日韩精品成人综合77777| 免费观看性生交大片5| 久热久热在线精品观看| 国产毛片a区久久久久| 少妇被粗大猛烈的视频| 亚洲综合精品二区| 赤兔流量卡办理| 男人舔奶头视频| 国产高清国产精品国产三级 | 五月天丁香电影| 亚洲人成网站高清观看| 人妻夜夜爽99麻豆av| 国产av不卡久久| 在线免费十八禁| 久久久精品免费免费高清| 国产乱人视频| 天美传媒精品一区二区| 新久久久久国产一级毛片| 国产av码专区亚洲av| 一本色道久久久久久精品综合| 毛片女人毛片| 亚洲欧美成人精品一区二区| 中文欧美无线码| 黄色怎么调成土黄色| 香蕉精品网在线| 大香蕉久久网| 777米奇影视久久| 国产精品一区www在线观看| 亚洲av中文字字幕乱码综合| 街头女战士在线观看网站| 免费观看性生交大片5| 成年av动漫网址| 国产黄片美女视频| 高清av免费在线| 最近2019中文字幕mv第一页| 欧美+日韩+精品| 亚洲精品成人久久久久久| 亚洲国产精品成人综合色| 国产乱人偷精品视频| 久久亚洲国产成人精品v| 国产黄频视频在线观看| 少妇猛男粗大的猛烈进出视频 | 又粗又硬又长又爽又黄的视频| 亚洲国产精品成人久久小说| 看黄色毛片网站| 国产精品偷伦视频观看了| 校园人妻丝袜中文字幕| 在线观看人妻少妇| 日韩人妻高清精品专区| 亚洲av一区综合| 亚洲av不卡在线观看| 亚洲成色77777| 97超视频在线观看视频| 97精品久久久久久久久久精品| 亚洲无线观看免费| 亚洲av.av天堂| 热99国产精品久久久久久7| 成年女人在线观看亚洲视频 | 久久久久久久国产电影| 成人毛片60女人毛片免费| 精品一区在线观看国产| 亚洲人成网站在线播| 熟女电影av网| 激情 狠狠 欧美| 香蕉精品网在线| 国产男女超爽视频在线观看| 国产精品爽爽va在线观看网站| 啦啦啦啦在线视频资源| 日本免费在线观看一区| 青青草视频在线视频观看| 在线亚洲精品国产二区图片欧美 | 51国产日韩欧美| 亚洲性久久影院| eeuss影院久久| 性色avwww在线观看| 男女无遮挡免费网站观看| 蜜臀久久99精品久久宅男| 校园人妻丝袜中文字幕| 大又大粗又爽又黄少妇毛片口| 亚洲av中文av极速乱| 午夜免费鲁丝| 午夜精品一区二区三区免费看| 2022亚洲国产成人精品| 一本久久精品| 国产探花极品一区二区| 七月丁香在线播放| 色视频www国产| 网址你懂的国产日韩在线| 日韩三级伦理在线观看| 婷婷色av中文字幕| 三级国产精品欧美在线观看| 国产亚洲最大av| 男人狂女人下面高潮的视频| 亚洲第一区二区三区不卡| 国产视频首页在线观看| 极品少妇高潮喷水抽搐| 日日啪夜夜撸| 亚洲国产最新在线播放| 99久久精品一区二区三区| 国产 一区精品| 丰满少妇做爰视频| 欧美+日韩+精品| 亚洲综合色惰| 国产精品国产三级国产专区5o| 国产欧美亚洲国产| 免费播放大片免费观看视频在线观看| 久久久久久久精品精品| 天天躁日日操中文字幕| 久久精品夜色国产| 亚洲人成网站在线播| 欧美变态另类bdsm刘玥| 亚洲欧美精品自产自拍| 自拍偷自拍亚洲精品老妇| 久久久久久久久大av| 噜噜噜噜噜久久久久久91| 亚洲成人久久爱视频| 亚洲成人一二三区av| 国产 一区 欧美 日韩| 欧美区成人在线视频| 26uuu在线亚洲综合色| 有码 亚洲区| 在现免费观看毛片| 欧美高清成人免费视频www| 中文欧美无线码| 久久久久九九精品影院| 国产成人午夜福利电影在线观看| 九九久久精品国产亚洲av麻豆| 国产精品久久久久久精品电影小说 | 色视频www国产| 色网站视频免费| 久久精品综合一区二区三区| 国产亚洲av片在线观看秒播厂| 男女边摸边吃奶| 免费观看性生交大片5| 亚洲人成网站高清观看| 黄片无遮挡物在线观看| 免费观看的影片在线观看| 欧美日本视频| 中国三级夫妇交换| 在线亚洲精品国产二区图片欧美 | 亚洲精品中文字幕在线视频 | 国产日韩欧美在线精品| 日韩精品有码人妻一区| 三级国产精品片| av天堂中文字幕网| 午夜免费鲁丝| 久热这里只有精品99| 少妇被粗大猛烈的视频| 狂野欧美激情性bbbbbb| 亚洲成色77777| 男女国产视频网站| 亚洲av成人精品一区久久| 亚洲欧美精品专区久久| 麻豆成人午夜福利视频| 大陆偷拍与自拍| 我要看日韩黄色一级片| 日韩视频在线欧美| 少妇人妻 视频| 51国产日韩欧美| 小蜜桃在线观看免费完整版高清| 日本与韩国留学比较| 能在线免费看毛片的网站| 精品99又大又爽又粗少妇毛片| 老司机影院毛片| 听说在线观看完整版免费高清| 国产大屁股一区二区在线视频| 免费看a级黄色片| 禁无遮挡网站| 一个人看视频在线观看www免费| 国产男人的电影天堂91| 97在线人人人人妻| 亚洲天堂av无毛| 老司机影院成人| 欧美激情久久久久久爽电影| a级毛片免费高清观看在线播放| 久久精品国产a三级三级三级| 国产黄色免费在线视频| 亚洲国产色片| 欧美三级亚洲精品| 欧美成人一区二区免费高清观看| 日韩,欧美,国产一区二区三区| 久久久国产一区二区| 亚洲精品日韩在线中文字幕| 五月天丁香电影| 五月开心婷婷网| 亚洲精品国产色婷婷电影| 老女人水多毛片| 亚洲熟女精品中文字幕| 建设人人有责人人尽责人人享有的 | 亚洲在久久综合| 国产国拍精品亚洲av在线观看| 狠狠精品人妻久久久久久综合| 在线观看av片永久免费下载| 国模一区二区三区四区视频| 九草在线视频观看| 日韩成人av中文字幕在线观看| 中文字幕久久专区| 丰满人妻一区二区三区视频av| 一级av片app| 精品人妻偷拍中文字幕| 久久久久网色| 欧美三级亚洲精品| 性色avwww在线观看| 一个人看视频在线观看www免费| 2018国产大陆天天弄谢| 中文在线观看免费www的网站| 免费观看a级毛片全部| 熟女人妻精品中文字幕| av在线蜜桃| 午夜福利视频精品| 中国美白少妇内射xxxbb| 国产成人精品婷婷| 亚洲av成人精品一区久久| 少妇丰满av| 麻豆乱淫一区二区| 国产高潮美女av| 能在线免费看毛片的网站| 国产探花极品一区二区| 青青草视频在线视频观看| av专区在线播放| 色吧在线观看| 精品人妻一区二区三区麻豆| 亚洲欧洲国产日韩| 精品99又大又爽又粗少妇毛片| 亚洲av国产av综合av卡| 国产美女午夜福利| 22中文网久久字幕| 乱系列少妇在线播放| 九九在线视频观看精品| 国产免费一区二区三区四区乱码| 国产探花极品一区二区| 午夜亚洲福利在线播放| 欧美激情国产日韩精品一区| 欧美国产精品一级二级三级 | 中文字幕制服av| 欧美亚洲 丝袜 人妻 在线| 中文乱码字字幕精品一区二区三区| 国产男女超爽视频在线观看| 亚洲婷婷狠狠爱综合网| 白带黄色成豆腐渣| 色视频在线一区二区三区| 男女无遮挡免费网站观看| 色吧在线观看| 最近最新中文字幕大全电影3| 欧美日韩在线观看h| 狂野欧美激情性bbbbbb| 男女啪啪激烈高潮av片| 久久久久国产精品人妻一区二区| 日韩一本色道免费dvd| 色婷婷久久久亚洲欧美| av在线蜜桃| 日韩免费高清中文字幕av| 岛国毛片在线播放| 久久99热这里只频精品6学生| 国产午夜精品一二区理论片| 欧美另类一区| 秋霞伦理黄片| 少妇被粗大猛烈的视频| videossex国产| 午夜精品一区二区三区免费看| 2022亚洲国产成人精品| 亚洲婷婷狠狠爱综合网| a级一级毛片免费在线观看| 日产精品乱码卡一卡2卡三| 成人特级av手机在线观看| 欧美3d第一页| 最近中文字幕2019免费版| 九色成人免费人妻av| 亚洲国产精品成人久久小说| 欧美变态另类bdsm刘玥| 久久精品国产自在天天线| 热99国产精品久久久久久7| 久久久欧美国产精品| 亚洲精品,欧美精品| 欧美成人a在线观看| 久久精品国产亚洲av天美| 亚洲色图av天堂| 高清av免费在线| 亚洲四区av| 搞女人的毛片| 99久久中文字幕三级久久日本| 久久精品夜色国产| 亚洲最大成人中文| av在线播放精品| 伊人久久精品亚洲午夜| 少妇裸体淫交视频免费看高清| 亚洲精华国产精华液的使用体验| 舔av片在线| 人人妻人人看人人澡| 欧美国产精品一级二级三级 | 又爽又黄a免费视频| 日韩制服骚丝袜av| 极品少妇高潮喷水抽搐| 菩萨蛮人人尽说江南好唐韦庄| 蜜桃久久精品国产亚洲av| 少妇被粗大猛烈的视频| 久久久久久久国产电影| 久久99热这里只有精品18| 国产久久久一区二区三区| 搡女人真爽免费视频火全软件| 国产欧美日韩一区二区三区在线 | 黄色欧美视频在线观看| 日本猛色少妇xxxxx猛交久久| 日韩电影二区| 欧美精品国产亚洲| 亚洲精品一区蜜桃| 22中文网久久字幕| 91精品伊人久久大香线蕉| 小蜜桃在线观看免费完整版高清| 激情 狠狠 欧美| 欧美日本视频| 欧美三级亚洲精品| 精品久久久久久久末码| 九九在线视频观看精品| 久久久色成人| 国产乱人视频| 美女高潮的动态| 亚洲自拍偷在线| 成年免费大片在线观看| 成人黄色视频免费在线看| 久久精品久久久久久久性| 亚洲精品自拍成人| 国产亚洲av嫩草精品影院| 久久久久国产网址| 一个人观看的视频www高清免费观看| 18+在线观看网站| 成人国产av品久久久| 日日撸夜夜添| 欧美一级a爱片免费观看看| 又粗又硬又长又爽又黄的视频| 联通29元200g的流量卡| 国产精品爽爽va在线观看网站| 在线播放无遮挡| 99九九线精品视频在线观看视频| 亚洲最大成人中文| 欧美xxxx黑人xx丫x性爽| 国产老妇女一区| 亚洲精品国产av成人精品| 日本免费在线观看一区| 午夜爱爱视频在线播放| 国产黄频视频在线观看| 国产91av在线免费观看| 日韩大片免费观看网站| 男女无遮挡免费网站观看| 国产一区二区亚洲精品在线观看| 色5月婷婷丁香| 校园人妻丝袜中文字幕| 欧美xxxx黑人xx丫x性爽| 波野结衣二区三区在线| 禁无遮挡网站| 91午夜精品亚洲一区二区三区| 秋霞在线观看毛片| 哪个播放器可以免费观看大片| 亚洲精品国产av蜜桃| 久久99热这里只有精品18| 免费黄频网站在线观看国产| 九色成人免费人妻av| 18+在线观看网站| 综合色丁香网| 波野结衣二区三区在线| 国产精品嫩草影院av在线观看| 欧美精品一区二区大全| 久久99热6这里只有精品| 五月伊人婷婷丁香| videos熟女内射| 自拍欧美九色日韩亚洲蝌蚪91 | 亚洲人成网站高清观看| 丰满乱子伦码专区| 国产探花极品一区二区| 欧美日韩国产mv在线观看视频 | 国产男人的电影天堂91| 看黄色毛片网站| 观看美女的网站| 少妇高潮的动态图| 亚洲最大成人手机在线| 男人舔奶头视频| 一级av片app| 九九久久精品国产亚洲av麻豆| 亚洲国产精品国产精品| 一边亲一边摸免费视频| 国产成人一区二区在线| 精品久久久久久久末码| 国产高潮美女av| 国产精品国产三级国产专区5o| 亚洲精品成人久久久久久| 国产乱人偷精品视频| 中文精品一卡2卡3卡4更新| 看黄色毛片网站| 精品少妇久久久久久888优播| 久久久久久久久久久免费av| 97热精品久久久久久| 亚洲欧美一区二区三区黑人 | 久久久久网色| 亚洲精品,欧美精品| 中文字幕免费在线视频6| 中国三级夫妇交换| 精华霜和精华液先用哪个| 18禁动态无遮挡网站| 美女国产视频在线观看| 久热这里只有精品99| 综合色丁香网| 精品国产露脸久久av麻豆| 人妻少妇偷人精品九色| 精品人妻视频免费看| 日本三级黄在线观看| 五月玫瑰六月丁香| 日日摸夜夜添夜夜添av毛片| 亚洲高清免费不卡视频| 国产免费一级a男人的天堂| 麻豆乱淫一区二区| 亚洲美女视频黄频| 精品视频人人做人人爽| 天美传媒精品一区二区| 国产精品久久久久久久电影| 久久精品夜色国产| 视频区图区小说| 亚洲在线观看片| 舔av片在线| 一个人看的www免费观看视频| 男人和女人高潮做爰伦理| 亚洲精品久久久久久婷婷小说| 中文字幕免费在线视频6| 国产一区亚洲一区在线观看| 熟女av电影| 91精品伊人久久大香线蕉| 在线看a的网站| 少妇熟女欧美另类| 日韩制服骚丝袜av| 成人午夜精彩视频在线观看| 丝袜美腿在线中文| 成人毛片60女人毛片免费| 啦啦啦啦在线视频资源| 成人国产av品久久久| 看非洲黑人一级黄片| 国产v大片淫在线免费观看| 亚洲欧美日韩无卡精品| 美女高潮的动态| 欧美亚洲 丝袜 人妻 在线| 人妻系列 视频| 国产精品国产三级专区第一集| 亚洲在线观看片| 各种免费的搞黄视频| 老女人水多毛片| 黑人高潮一二区| 亚洲av成人精品一区久久| 五月玫瑰六月丁香| 精品一区二区三卡| 一级a做视频免费观看| 99久久精品一区二区三区| 久久精品综合一区二区三区| 五月开心婷婷网| 国产淫片久久久久久久久| 久久国产乱子免费精品| tube8黄色片| 青春草亚洲视频在线观看| 老司机影院毛片| 最近的中文字幕免费完整| 26uuu在线亚洲综合色| 精品一区二区三卡| 久久6这里有精品| 国产免费福利视频在线观看| 亚洲精品456在线播放app| 日韩三级伦理在线观看| 精品少妇黑人巨大在线播放| 热99国产精品久久久久久7| 国产一区二区三区av在线| 免费黄频网站在线观看国产| 久久综合国产亚洲精品| 高清午夜精品一区二区三区| 日韩一区二区三区影片| 色吧在线观看| 久久久久久久久久成人| 免费观看的影片在线观看| 亚洲欧美精品专区久久| 一级爰片在线观看| 校园人妻丝袜中文字幕| 两个人的视频大全免费| 成年免费大片在线观看| 亚洲精品色激情综合| 一个人看视频在线观看www免费| 亚洲四区av| 久久国产乱子免费精品| 青春草视频在线免费观看| av国产精品久久久久影院| 永久免费av网站大全| 女的被弄到高潮叫床怎么办| 有码 亚洲区| 白带黄色成豆腐渣| 少妇 在线观看| 亚洲国产精品专区欧美| 欧美日本视频| 久久国内精品自在自线图片| 哪个播放器可以免费观看大片| 成人综合一区亚洲| 亚洲aⅴ乱码一区二区在线播放| 午夜福利高清视频| 丝瓜视频免费看黄片| 日韩强制内射视频| 国产精品久久久久久久电影| 免费看日本二区| 大片电影免费在线观看免费| 成年版毛片免费区| 亚洲精品成人av观看孕妇| 七月丁香在线播放| 精品少妇黑人巨大在线播放| 国产淫片久久久久久久久| 视频区图区小说| 国产精品人妻久久久久久| 一区二区三区乱码不卡18| 日韩欧美精品v在线| 国产免费又黄又爽又色| 国精品久久久久久国模美| 男的添女的下面高潮视频| 亚洲美女搞黄在线观看| 男女国产视频网站| 全区人妻精品视频| 免费看日本二区| 有码 亚洲区| 三级男女做爰猛烈吃奶摸视频| 三级国产精品片| 丰满人妻一区二区三区视频av| 一个人看视频在线观看www免费| 亚洲av免费高清在线观看| 在线观看一区二区三区| kizo精华| 一本一本综合久久| 少妇人妻 视频| 中国美白少妇内射xxxbb| 在现免费观看毛片| 亚洲欧美成人综合另类久久久| 18+在线观看网站| 高清欧美精品videossex| 精品久久久久久久久亚洲| 成人午夜精彩视频在线观看| 国语对白做爰xxxⅹ性视频网站| 国产 一区精品| 久久久精品免费免费高清| 亚洲综合精品二区| eeuss影院久久| 免费av观看视频| 一本一本综合久久| 一区二区av电影网| 高清视频免费观看一区二区| 国产淫片久久久久久久久| 日韩不卡一区二区三区视频在线| 欧美日本视频| 久久久久九九精品影院| 看非洲黑人一级黄片| 亚洲欧美成人精品一区二区| 午夜福利视频1000在线观看| 成人黄色视频免费在线看| 午夜视频国产福利| 日韩欧美精品免费久久|