• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析

    2015-03-17 02:53:32程學(xué)旗蘭艷艷
    大數(shù)據(jù) 2015年3期
    關(guān)鍵詞:短文文檔排序

    程學(xué)旗,蘭艷艷

    中國科學(xué)院計(jì)算技術(shù)研究所 北京 100019

    網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析

    程學(xué)旗,蘭艷艷

    中國科學(xué)院計(jì)算技術(shù)研究所 北京 100019

    文本內(nèi)容分析是實(shí)現(xiàn)大數(shù)據(jù)的理解與價(jià)值發(fā)現(xiàn)的有效手段。嘗試從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁排序?qū)W習(xí)3個(gè)子方向,探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果,最后指出未來大數(shù)據(jù)文本內(nèi)容分析的一些研究方向和問題。

    文本內(nèi)容分析;短文本主題建模;單詞表達(dá);排序?qū)W習(xí)

    1 引言

    伴隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及以及用戶規(guī)模的爆發(fā)式增長,互聯(lián)網(wǎng)已經(jīng)步入了“大數(shù)據(jù)”時(shí)代。網(wǎng)絡(luò)大數(shù)據(jù)的“大”,不僅僅體現(xiàn)在其體量巨大(大數(shù)據(jù)的起始計(jì)量單位至少是Petabyte11 Petabyte=1× 1015byte、Exabyte21 Exabyte=1× 1018byte或Zettabyte31 Zettabyte=1× 1021byte),而且還體現(xiàn)在其增長異常迅猛(通常是指數(shù)級的速率),數(shù)據(jù)類型多樣(包括了文本、圖像、聲音、視頻等),數(shù)據(jù)質(zhì)量良莠不齊并且關(guān)聯(lián)關(guān)系復(fù)雜。同時(shí),網(wǎng)絡(luò)大數(shù)據(jù)另外一個(gè)突出的特點(diǎn)就是其價(jià)值密度低,大數(shù)據(jù)中包含了大量重復(fù)、噪聲和垃圾數(shù)據(jù),存在大量共現(xiàn)但又毫無意義的關(guān)聯(lián)模式,如果缺乏有效的信息處理手段提取網(wǎng)絡(luò)大數(shù)據(jù)中潛在的價(jià)值,網(wǎng)絡(luò)大數(shù)據(jù)不僅不能成為一個(gè)價(jià)值“寶藏”,反倒會成為一個(gè)數(shù)據(jù)的“墳?zāi)埂薄?/p>

    文本內(nèi)容分析是網(wǎng)絡(luò)信息處理的關(guān)鍵技術(shù)。網(wǎng)絡(luò)大數(shù)據(jù)對于文本內(nèi)容分析而言是一把雙刃劍:一方面,網(wǎng)絡(luò)大數(shù)據(jù)提供了需要文本分析豐富的數(shù)據(jù)源,大規(guī)模的樣本資源可以更好地支持文本分析關(guān)鍵技術(shù)的發(fā)展;另一方面,網(wǎng)絡(luò)大數(shù)據(jù)復(fù)雜的內(nèi)在特征對傳統(tǒng)文本分析技術(shù)提出了嚴(yán)峻的挑戰(zhàn)。例如,網(wǎng)絡(luò)大數(shù)據(jù)越來多地存在于電商、問答等私有化網(wǎng)絡(luò)或者深網(wǎng)中,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的獲取和存儲更加困難;數(shù)據(jù)龐大的規(guī)模、復(fù)雜的關(guān)聯(lián)關(guān)系,使得傳統(tǒng)的文本分析和挖掘技術(shù)在計(jì)算的時(shí)空復(fù)雜度上激增;另外,迅猛的數(shù)據(jù)增長速率、巨大的數(shù)據(jù)體量也使得傳統(tǒng)的全量計(jì)算模式(依賴于全體樣本的計(jì)算模式)不再適用。本文從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁排序?qū)W習(xí)3個(gè)子方向探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果。

    2 文本內(nèi)容分析關(guān)鍵技術(shù)

    2.1 短文本主題建模

    隨著Web2.0、社交媒體和移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展,每個(gè)網(wǎng)民都成為了互聯(lián)網(wǎng)上信息的創(chuàng)造者與傳播者,促使網(wǎng)上文本信息爆炸式增長。與此同時(shí),互聯(lián)網(wǎng)上的文本內(nèi)容形式也在不斷變化。從博客到輕博客和微博、從郵件到論壇和即時(shí)通信、從新聞到評論等,一個(gè)顯著的特點(diǎn)就是這些文本信息的長度越來越短。這是因?yàn)槎涛谋拘畔⒕帉懞唵坞S意,發(fā)布更為便捷。同時(shí),短文本信息比長文本更簡約、緊湊,能節(jié)省其他用戶閱讀消息的時(shí)間和精力。短文本信息比傳統(tǒng)文本信息來源要廣得多,更新頻率也快得多,大大加速了互聯(lián)網(wǎng)上信息產(chǎn)生與傳播的速度。

    海量的短文本數(shù)據(jù)中蘊(yùn)藏著大量有價(jià)值的信息,但也給現(xiàn)有文本語義分析技術(shù)帶來了新的挑戰(zhàn)。與長文本相比,短文本信息內(nèi)部上下文信息缺乏。此外,普通用戶常常用語不規(guī)范,新詞、多義詞等比較普遍。因此,對一條短文本信息的理解要比長文本要困難得多。在以往的長文本語義分析領(lǐng)域,一種普遍的方法就是利用概率話題模型(如LDA[1]和PLSA[2])對文檔內(nèi)部的話題結(jié)構(gòu)進(jìn)行建模,然后利用統(tǒng)計(jì)推斷手段學(xué)習(xí)出文檔集合中潛在的話題以及話題結(jié)構(gòu)。這些模型的一個(gè)基本假設(shè)是文檔是話題的一個(gè)混合分布,其中每個(gè)詞來源于一個(gè)話題。當(dāng)文檔長度較長時(shí),可以較準(zhǔn)確地根據(jù)文檔中的詞推斷出文檔的話題屬性。然而,當(dāng)文檔很短(只有幾個(gè)或十幾個(gè)詞,甚至少于話題的個(gè)數(shù))時(shí),由于數(shù)據(jù)不足,難以準(zhǔn)確推斷出文檔中話題混合分布的參數(shù)以及每個(gè)詞的話題屬性,從而影響話題學(xué)習(xí)的效果。

    為克服短文本信息的數(shù)據(jù)稀疏性,一種簡單做法是利用外部數(shù)據(jù)(如Wikipedia、搜索結(jié)果)擴(kuò)充文檔的表示,再利用現(xiàn)有的長文本語義建模工具處理。但這種方式的效果嚴(yán)重依賴于原短文本文檔與擴(kuò)充的外部數(shù)據(jù)的相關(guān)程度。對于一些實(shí)時(shí)性強(qiáng)的數(shù)據(jù)(如微博),要找到合適的外部數(shù)據(jù)源是很困難的。為此,很多人嘗試?yán)脙?nèi)部數(shù)據(jù)擴(kuò)充文檔的表示,如偽相關(guān)反饋、加入短語特征[3]、相關(guān)消息聚合[4]等。無論是利用外部數(shù)據(jù)擴(kuò)充,還是利用內(nèi)部數(shù)據(jù)擴(kuò)充,都面臨著擴(kuò)充數(shù)據(jù)選擇不當(dāng)帶來額外噪音的風(fēng)險(xiǎn)。另外,這兩種方法并沒有從模型上帶來任何改變,只是治標(biāo)不治本。另外,一些研究者[5,6]則提出一條短文本消息只包含一個(gè)話題,將短文本消息用單詞混合模型(mixture of unigrams)建模。該方式雖然可緩解參數(shù)估計(jì)時(shí)的數(shù)據(jù)稀疏性問題,但對短文本消息的建模過于簡化?,F(xiàn)實(shí)情況下,一條短文本消息仍然可能包含多個(gè)話題,尤其是在話題粒度較細(xì)的時(shí)候。此時(shí),單詞混合模型無法區(qū)分。

    由于短文本消息和長文本文檔顯著不同,傳統(tǒng)面向長文本的話題建模方法并不能簡單地套用到短文本文檔上。為了更好地對短文本進(jìn)行語義建模,提出了一種新的話題建模方法——雙詞話題模型(biterm topic model,BTM)[7]。BTM和傳統(tǒng)基于文檔產(chǎn)生式建模的話題模型的最大區(qū)別是,它通過建模文檔集合中雙詞的產(chǎn)生來學(xué)習(xí)話題。這里,雙詞指的是在同一個(gè)上下文中共現(xiàn)的詞對。由于一條短文本消息很短,可以簡單地認(rèn)為每條消息是一條上下文4對于較長的文本,可認(rèn)為在一個(gè)固定長度的窗口內(nèi)的文本片段為一個(gè)上下文。。比如在“短文本語義建?!敝校梢猿槿〕?個(gè)雙詞:(“短文本”,“語義”)、(“短文本”,“建?!保ⅲā罢Z義”,“建模”)。其直接體現(xiàn)了詞的共現(xiàn)關(guān)系,因此采用雙詞作為建模單元。直觀地講,兩個(gè)詞共現(xiàn)次數(shù)越多,其語義越相關(guān),也就越可能屬于同一話題。根據(jù)這一認(rèn)識,假設(shè)每個(gè)雙詞由同一個(gè)話題產(chǎn)生,而話題從一個(gè)定義在整個(gè)語料集合上的話題混合分布產(chǎn)生。與LDA相比,BTM通過直接建模雙詞(即詞共現(xiàn)模式)來學(xué)習(xí)話題,從而避免短文本文檔過短導(dǎo)致的文檔建模困難問題。二者的圖模型表示如圖1所示。實(shí)驗(yàn)結(jié)果表明,BTM在短文本上的效果相比LDA等傳統(tǒng)方法有明顯提升,而且在長文本上的效果也不輸于LDA。

    圖1 LDA和BTM的圖模型表示

    除了長度短之外,互聯(lián)網(wǎng)上的短文本大數(shù)據(jù)還具有規(guī)模大、更新快的特點(diǎn)。為此,提出了BTM的兩種在線學(xué)習(xí)算法:在線BTM(oBTM)和增量BTM(iBTM)[8]。這兩種算法的主要思想是用最近時(shí)間段內(nèi)接收到的數(shù)據(jù)來持續(xù)更新模型,而不必反復(fù)計(jì)算較久遠(yuǎn)的歷史數(shù)據(jù)。這兩種算法不僅可以用來處理大規(guī)模流式短文本數(shù)據(jù),其學(xué)到的模型還可以即時(shí)反映話題的動(dòng)態(tài)變化,比較適合用于大規(guī)模流式短文本語義建模。在微博等互聯(lián)網(wǎng)應(yīng)用中,短文本信息還具備很強(qiáng)的時(shí)效性,因此其潛在的話題結(jié)構(gòu)也會劇烈變化。尤其受一些突發(fā)和熱點(diǎn)事件、活動(dòng)的影響,每天都可能涌現(xiàn)出大量的突發(fā)話題。為了對微博中突發(fā)話題建模,在BTM的基礎(chǔ)上提出了一種突發(fā)雙詞話題模型(BBTM或Bursty BTM)[9]。BBTM的做法是利用雙詞的突發(fā)性來指導(dǎo)突發(fā)話題的建模。原因是雙詞的突發(fā)性可以根據(jù)其時(shí)序頻率估算出來,突發(fā)性越強(qiáng)、共現(xiàn)次數(shù)越多的雙詞,越可能來源于某個(gè)突發(fā)話題?;谶@一思想,BBTM首先將文檔集合中的話題分為突發(fā)和非突發(fā)兩類,然后將雙詞的突發(fā)性作為一個(gè)雙詞話題類別判定的先驗(yàn)。在實(shí)驗(yàn)驗(yàn)證過程中,發(fā)現(xiàn)BBTM識別出來的突發(fā)話題的準(zhǔn)確性和可讀性都顯著優(yōu)于現(xiàn)有的啟發(fā)式方法。

    盡管在短文本語義建模方向取得了一些進(jìn)展,但和人對短文本信息的認(rèn)知能力相比,目前的研究仍然非常初步。在該方向上,筆者認(rèn)為目前值得深入探索的一些研究點(diǎn)如下。

    (1)多源異質(zhì)數(shù)據(jù)下的短文本語義建模

    在大數(shù)據(jù)時(shí)代的背景下,如何廣泛利用其他數(shù)據(jù)源中的知識(如Wikipedia、開放網(wǎng)頁、知識庫等),進(jìn)一步提高計(jì)算機(jī)短文本的理解與處理能力,是進(jìn)一步提升短文本語義建模的必經(jīng)之路。

    (2)復(fù)雜結(jié)構(gòu)語義建模

    目前研究的話題模型結(jié)構(gòu)都比較簡單,只有一層潛在語義結(jié)構(gòu),話題的數(shù)目也很有限。這種簡單結(jié)構(gòu)的話題模型只能大概反映文本中的語義,難以準(zhǔn)確、全面地描述文本內(nèi)容。真實(shí)文本數(shù)據(jù)中的語義結(jié)構(gòu)很復(fù)雜,可以考慮采用層次、圖狀等結(jié)構(gòu)提升模型的表達(dá)能力。

    (3)融合上下文特征的話題建模

    目前的語義建模方法大多仍然局限在利用詞共現(xiàn)信息上。在真實(shí)的應(yīng)用環(huán)境中,短文本消息還包含大量的上下文信息(如詞性、詞序等內(nèi)源特征)以及作者、地點(diǎn)、人物關(guān)系、時(shí)間等外源特征。豐富的上下文特征對解決短文本內(nèi)容稀疏性會有很大幫助。

    (4)與應(yīng)用結(jié)合

    對短文本語義建模能力的提升最終還需要落地于具體應(yīng)用中。要最大限度地提升應(yīng)用效果,需要研究與具體應(yīng)用相關(guān)的語義建模方法。

    2.2 單詞表示學(xué)習(xí)

    單詞表示一直是人工智能、自然語言處理、信息檢索等領(lǐng)域的一個(gè)基本核心問題。

    自然語言處理等相關(guān)領(lǐng)域最常用的單詞表示方法是one-hot表達(dá),將單詞表示為一個(gè)高維向量,這個(gè)向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個(gè)維度的值為1,這個(gè)維度就代表了當(dāng)前的詞。這種one-hot表達(dá)如果采用稀疏方式存儲,非常簡潔、高效,配合上最大熵、SVM、CRF等算法,已經(jīng)很好地完成了NLP(natural language processing,自然語言處理)領(lǐng)域的各種主流任務(wù)。

    但是,這種表達(dá)有著根本性的缺陷,其假設(shè)所有詞都是獨(dú)立無關(guān)的,拋棄了單詞之間的相關(guān)性。這意味著,即使是兩個(gè)同義詞,在此表達(dá)下,它們的相似度也是0,這顯然是不合理的。同時(shí),也因?yàn)槊總€(gè)單詞都是一個(gè)孤立的離散單元,在許多實(shí)際問題中會遇到維度災(zāi)難問題。例如語言模型中,對于一個(gè)詞匯集合為100 000的模型,即使只使用二元組,其可能的組合情況便可以達(dá)到100億種。這樣就面臨嚴(yán)重的稀疏問題,傳統(tǒng)的語言模型必須使用各種復(fù)雜的平滑技術(shù)來估計(jì)那些沒有在語料中出現(xiàn)的組合的概率。

    為解決語言模型中的維度災(zāi)難和稀疏問題,Bengio等人提出了神經(jīng)網(wǎng)絡(luò)語言模型[10]。此模型將每個(gè)單詞表示為一個(gè)連續(xù)的低維稠密實(shí)數(shù)向量,這樣得到的語言模型自帶平滑,無須傳統(tǒng)n-gram模型中那些復(fù)雜的平滑算法。這樣的連續(xù)低維稠密實(shí)數(shù)向量叫做分布式表達(dá)(distributed representation),最早由Hinton提出[7],有別于傳統(tǒng)語義網(wǎng)絡(luò)中用一個(gè)獨(dú)立節(jié)點(diǎn)表示一個(gè)概念的局部表達(dá)(local representation)的方式。而其真正意義上流行開來,始于Bengio在語言模型上取得的成功。現(xiàn)在,單詞的分布式表達(dá)已經(jīng)廣泛應(yīng)用于自然語言處理的各個(gè)方面,如機(jī)器翻譯、情感分析和詞性標(biāo)注等。

    使用語言模型來學(xué)習(xí)單詞表達(dá)涉及在給定前文下預(yù)測下一個(gè)單詞出現(xiàn)的概率,因此需要在整個(gè)詞匯集合中進(jìn)行歸一化操作,這是非常耗時(shí)的一個(gè)操作。而當(dāng)年Bengio的神經(jīng)網(wǎng)絡(luò)語言模型在今天看來并不很大的語料上訓(xùn)練了4個(gè)月之久,即使后來的C&W的工作,也花了兩個(gè)月時(shí)間才得到一份單詞的表達(dá)。這在更大的數(shù)據(jù)上幾乎是不可忍受的。早期的單詞分布式表達(dá)工作主要集中在如何加速訓(xùn)練上面。

    代表性工作有Bengio等人2005年提出的層次神經(jīng)網(wǎng)絡(luò)模型,輸出端不再是一個(gè)平坦的softmax層,而是一個(gè)樹狀輸出,利用WordNet將一個(gè)多項(xiàng)分布分解為一串伯努利分布來優(yōu)化[11]。AndriyMnih和 Geoffrey Hinton提出Log-Bilinear模型,去掉了網(wǎng)絡(luò)中隱層的非線性,在此基礎(chǔ)上又提出hierarchical log-bilinear模型,同樣也是將模型的輸出改為層級輸出,從而加速模型的訓(xùn)練,并且效果也有一定的提升[12,13]。此后,Mnih將噪聲對比估計(jì)(noise contrastive estimation,NCE)用于近似優(yōu)化神經(jīng)網(wǎng)絡(luò)語言模型中的sofmax目標(biāo)函數(shù)[14]。而在這方面走得最遠(yuǎn)的當(dāng)屬目前最受關(guān)注的Mikolov等人的工作——Word2Vec。Mikolov在循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型的工作中發(fā)現(xiàn),將單詞的表達(dá)學(xué)習(xí)與語言模型的學(xué)習(xí)分離開來,可以獲得很好的結(jié)果。于是提出了continuous bag-ofwords(CBOW)和skip-gram(SG)兩種單詞表達(dá)學(xué)習(xí)模型[15]。這兩種模型的目標(biāo)不再是學(xué)習(xí)語言模型,而是直接利用自然語言處理中的分布式假設(shè)(distributional hypothesis)來學(xué)習(xí)單詞表達(dá)。這個(gè)假設(shè)認(rèn)為一個(gè)單詞的語義由其周圍的上下文決定,因此出現(xiàn)在相似上下文中的詞,其含義也相似。CBOW模型利用上下文單詞的表達(dá),直接預(yù)測當(dāng)前詞的表達(dá);而SG模型則是使用當(dāng)前詞預(yù)測上下文中的每一個(gè)詞。這兩種模型都可以使用哈夫曼樹或者negative sampling加速優(yōu)化。

    單詞表達(dá)學(xué)習(xí)算法大體都是基于一個(gè)同樣的假設(shè)——分布式假設(shè)。其假設(shè)一個(gè)單詞的語義由其周圍的上下文決定。由于單詞之間存在橫向(syntagmatic)和縱向(paradigmatic)兩種關(guān)系,如圖2所示。其中,橫向關(guān)系主要關(guān)注的是詞與詞之間在上下文中的共現(xiàn)關(guān)系,是一種組合性關(guān)系;而縱向關(guān)系則關(guān)注的是詞與詞之間具有相似上下文的關(guān)系,是一種替代性關(guān)系。根據(jù)所使用的分布信息的不同,單詞表達(dá)學(xué)習(xí)方法就可以分為兩大類:基于橫向關(guān)系和基于縱向關(guān)系。現(xiàn)有模型都只單獨(dú)考慮了一種關(guān)系。如隱式語義索引(latent semantic indexing,LSI),假設(shè)在文檔中共現(xiàn)的單詞具有相似的語義,其利用了橫向關(guān)系;而Word2Vec這類方法認(rèn)為,如果兩個(gè)單詞其周圍上下文相似,則其語義相似,其利用了縱向關(guān)系。

    如圖2所示,如果僅僅使用橫向關(guān)系,不能得到wolf和tiger相似,這并不合理;另一方面,如果只是用縱向關(guān)系,則wolf和fierce也不相似??梢?,單獨(dú)使用任一關(guān)系,都不能很好地捕捉單詞間的關(guān)聯(lián)。在ACL2015的工作[16]提出了兩種新的單詞表達(dá)學(xué)習(xí)模型(如圖3所示),有別于現(xiàn)有模型只建模單詞間的橫向關(guān)系或縱向關(guān)系,以并列(PDC模型)或?qū)哟危℉DC模型)的方式同時(shí)建模這兩種關(guān)系,以得到更好的單詞表達(dá)。PDC模型和HDC模型對應(yīng)地?cái)U(kuò)展了Word2Vec中CBOW和HDC模型,在其基礎(chǔ)上,利用文檔表達(dá)來預(yù)測文檔中出現(xiàn)的單詞,以捕捉單詞間的橫向關(guān)系。

    在單詞的類似與相似度任務(wù)上,這兩個(gè)模型均取得了state-of-the-art結(jié)果。

    分布式表達(dá)的假設(shè)自身也有不足之處,比如不能很好地處理反義詞情形。因?yàn)榛榉戳x詞的兩個(gè)詞,經(jīng)常出現(xiàn)在同樣的上下文中,所以往往反義詞之間的相似度反而高于其他近義詞。針對此問題,主流思路都是利用外部的知識庫來輔助單詞的表達(dá)學(xué)習(xí)。這類工作的思路大體類似,都是利用外部知識庫如Wikipedia、WordNet約束單詞表達(dá)的學(xué)習(xí)過程,比如讓更新同義詞表達(dá)、限制反義詞表達(dá)等。此外,分布式表達(dá)的假設(shè)也不能很好地處理那些出現(xiàn)次數(shù)很少的單詞。因?yàn)檫@些單詞的上下文信息太少,不足以學(xué)到一個(gè)很好的表達(dá)。比較直接的辦法就是直接利用語素信息來改善單詞的表達(dá),如果兩個(gè)單詞具有相同的詞根,則其語義相似。

    圖2 縱向與橫向關(guān)系示例

    另外,目前單詞的表達(dá)學(xué)習(xí)主要還是無監(jiān)督的學(xué)習(xí)。因此,評價(jià)更多地集中在對單詞本身的語義表達(dá)性能,如各種word similarity和word analogy任務(wù)。然而,這些任務(wù)并不能反映單詞表達(dá)在真實(shí)的自然語言處理或者信息檢索任務(wù)中的性能,所以更應(yīng)該使用真實(shí)的任務(wù)作為實(shí)驗(yàn)。但這樣帶來的一個(gè)問題就是前端表達(dá)學(xué)習(xí)作為無監(jiān)督學(xué)習(xí),與后端的具體任務(wù)是脫節(jié)的。這也導(dǎo)致許多研究反映,雖然不同的單詞學(xué)習(xí)模型在單詞表達(dá)任務(wù)上可能性能差異很大,但是在具體實(shí)際任務(wù)中并沒有顯著差異。但如果直接根據(jù)任務(wù)設(shè)計(jì)有監(jiān)督的單詞學(xué)習(xí)模型,又會面臨可用的標(biāo)注數(shù)據(jù)太少的問題。一種可行的方案可能是先利用大規(guī)模數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),得到初始的單詞表達(dá),然后根據(jù)具體的監(jiān)督任務(wù)調(diào)整單詞表達(dá),以期望實(shí)現(xiàn)更好的應(yīng)用性能。

    圖3 PDC模型和HDC模型

    2.3 網(wǎng)頁排序?qū)W習(xí)

    網(wǎng)絡(luò)搜索引擎已經(jīng)成為人們?nèi)粘I钪械闹匾ぞ?,在搜索引擎的各個(gè)組成部分中,排序模型直接決定了人們看到的搜索結(jié)果,因此這種模型對于搜索引擎的性能起著至關(guān)重要的作用。

    在信息檢索發(fā)展的歷史上,人們提出了很多排序模型,如進(jìn)行相關(guān)性排序的BM25模型[17]和語言模型[18]以及進(jìn)行搜索結(jié)果多樣化的MMR[19]模型等。這些模型對推動(dòng)搜索技術(shù)發(fā)展起到了一定作用,但是也存在一些問題:有的模型建立在人們對搜索問題的主觀理解之上,需要根據(jù)經(jīng)驗(yàn)人為設(shè)定模型參數(shù);還有一些模型雖然可以從大量網(wǎng)頁中學(xué)習(xí),不斷調(diào)整參數(shù),但無法利用用戶的反饋信息對模型參數(shù)進(jìn)行優(yōu)化。由于用戶提交不同的查詢詞或者不同用戶提交相同的查詢詞都有可能代表不同的信息需求,因此僅從研究者的主觀理解或者僅從網(wǎng)頁數(shù)據(jù)中學(xué)習(xí)排序模型,都無法很好地解決復(fù)雜的網(wǎng)絡(luò)搜索問題。在這樣的背景下,近年來研究人員開始嘗試使用有監(jiān)督的機(jī)器學(xué)習(xí)方法,即從用戶標(biāo)注或者反饋中學(xué)習(xí)最優(yōu)的相關(guān)性排序模型,稱為排序?qū)W習(xí)(learning to rank)[20]。

    為了學(xué)習(xí)最優(yōu)的相關(guān)性排序模型,需要一個(gè)訓(xùn)練數(shù)據(jù)集。該集合包含隨機(jī)抽取的查詢詞、與查詢詞有關(guān)的網(wǎng)頁以及這些網(wǎng)頁的標(biāo)注。這些標(biāo)注可能是由用戶顯式提供的絕對信息,如一個(gè)網(wǎng)頁和查詢詞是非常相關(guān)、相關(guān)還是不相關(guān)等;也可能是從搜索引擎的用戶行為中挖掘出來的相對信息,如某個(gè)網(wǎng)頁是否比另外一個(gè)網(wǎng)頁更加相關(guān)。為了從這些標(biāo)注數(shù)據(jù)中學(xué)到最優(yōu)的排序模型,通常需要定義3個(gè)部分:一是表征網(wǎng)頁信息的特征向量(如詞頻、頁面分級(PageRank)等)和網(wǎng)頁間關(guān)系的特征向量(如網(wǎng)頁相似度等);二是模型的基本形式(如線性、非線性等);三是用來控制學(xué)習(xí)過程的損失函數(shù)(它衡量了當(dāng)前模型的排序結(jié)果和標(biāo)注信息之間的差別)。極小化損失函數(shù)可以得到與標(biāo)注數(shù)據(jù)最吻合的模型參數(shù)。經(jīng)過優(yōu)化的模型將用于回答新的查詢詞。給定新的查詢詞,首先通過倒排表找到包含該查詢詞的網(wǎng)頁,然后為每個(gè)網(wǎng)頁提取特征向量,并將排序模型應(yīng)用到這些特征向量上,從而給每個(gè)網(wǎng)頁輸出一個(gè)分?jǐn)?shù),最后將網(wǎng)頁按照分?jǐn)?shù)的降序進(jìn)行排列并返回給用戶。

    目前針對相關(guān)性的排序?qū)W習(xí)算法效果已經(jīng)做得很好,部分算法甚至還應(yīng)用到了搜索引擎的部分模塊中。然而一個(gè)好的排序不僅依賴于相關(guān)性,多樣化也是一個(gè)重要考慮。其目標(biāo)在于在排序結(jié)果的頂部盡量多地展現(xiàn)不同子話題的網(wǎng)頁,因此在排序的同時(shí)需要考慮網(wǎng)頁間的相似度。然而,這種解決方案的難點(diǎn)在于傳統(tǒng)的排序算法都以查詢和單個(gè)文檔作為輸入,計(jì)算查詢—文檔相關(guān)性很難將文檔間的關(guān)系融入排序模型內(nèi)。

    為了解決上述問題,有的研究者們直接利用結(jié)構(gòu)化支持向量機(jī)直接優(yōu)化多樣化排序評價(jià)準(zhǔn)則[21],樂(Yue)等[22]也利用結(jié)構(gòu)化支持向量機(jī)尋找最佳文檔子集。然而,由于上述算法沒有對排序模型進(jìn)行本質(zhì)上的改變,模型仍然難以勝任多樣化排序任務(wù)。

    朱(Zhu)等人[23]提出了關(guān)系排序?qū)W習(xí)模型R-LTR, 其基本思想是:利用傳統(tǒng)的搜索結(jié)果多樣化模型MMR的思想,使用序列文檔選擇的方式構(gòu)造文檔排序,即從序列的頂部開始,依次選擇排在每一個(gè)位置上的文檔。在每一次進(jìn)行文檔選擇時(shí),考慮查詢—文檔的相關(guān)性和當(dāng)前文檔與已選擇文檔間的相似性,如圖4所示。

    因此,R-LTR模型的參數(shù)分成兩個(gè)部分:第一部分為相關(guān)性參數(shù),其對應(yīng)的特征描述了與查詢—文檔之間匹配的情況和文檔的重要性等;第二部分為文檔關(guān)系參數(shù),其對應(yīng)的特征描述了文檔—文檔之間的關(guān)系,包括文檔在話題、詞等級別的相似性等。在訓(xùn)練過程中,R-LTR通過最大化似然的方式進(jìn)行參數(shù)估計(jì)。在TREC標(biāo)注數(shù)據(jù)集合上的測試表明,在搜索結(jié)果多樣化的任務(wù)上,R-LTR能夠超過傳統(tǒng)的排序?qū)W習(xí)模型,取得了顯著的效果提升。

    夏(Xia)等人[24]針對R-LTR算法只利用了“正例”排序(如α-NDCG=1的最佳排序)進(jìn)行訓(xùn)練的問題,提出了PAMM算法,其主要思想是:同時(shí)利用“正例”排序和“負(fù)例”排序進(jìn)行訓(xùn)練;在排序過程中直接優(yōu)化多樣化排序評價(jià)準(zhǔn)則。實(shí)驗(yàn)結(jié)果表明,上述改進(jìn)方法進(jìn)一步改善了搜索結(jié)果多樣化的排序效果,且使得算法具有優(yōu)化制定的評價(jià)準(zhǔn)則的能力。

    盡管上述各項(xiàng)工作取得了一定的成功,但是由于搜索結(jié)果多樣化任務(wù)本身的復(fù)雜性,且評價(jià)準(zhǔn)則本身不連續(xù)、不可導(dǎo),使得直接對其進(jìn)行優(yōu)化仍然存在很多困難。相關(guān)的學(xué)習(xí)算法可能無法收斂或者很容易陷入局部極值點(diǎn)。總體上講,這個(gè)方向還面臨很多挑戰(zhàn),需要不斷探索。另外,是否能夠利用深度學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)多樣性排序的特征和樣本之間的依賴關(guān)系也是一個(gè)非常有前景的方向。

    圖4 順序文檔選擇過程

    3 結(jié)束語

    綜上所述,內(nèi)容分析成為理解網(wǎng)絡(luò)大數(shù)據(jù)的重要手段。其中,短文本主題建模、單詞表達(dá)學(xué)習(xí)和多樣性排序?qū)W習(xí)是網(wǎng)絡(luò)大數(shù)據(jù)內(nèi)容分析的熱點(diǎn)問題。隨著網(wǎng)絡(luò)大數(shù)據(jù)的發(fā)展,這些方向還存在很多值得探討的科學(xué)問題,例如多源異構(gòu)數(shù)據(jù)的主題建模、如何有效利用監(jiān)督信息得到特定主題的單詞表達(dá)以及如何使用深度學(xué)習(xí)的方法來自動(dòng)學(xué)習(xí)多樣性的特征等。這些問題的解決有助于更好地理解和挖掘網(wǎng)絡(luò)大數(shù)據(jù),從而達(dá)到內(nèi)容分析的目的,為精準(zhǔn)檢索、推薦等應(yīng)用提供支持。

    [1] Hofmann T. Probabilistic latent semantic analysis. Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence, Stockholm, Sweden, 1999

    [2] Blei D M, Ng A Y, Jordan M I. Latentdirichlet allocation. The Journal of Machine Learning Research, 2003, 3: 993~1022

    [3] Metzler D, Dumais S, Meek C. Similarity measures for short segments of text. Proceedings of the 29th European Conference on IR Research, Rome, Italy, 2007: 16~27

    [4] Hong L, Davison B. Empirical study of topic modeling in Twitter. Proceedings of the 1st Workshop on Social Media Analytics, Washington DC, USA, 2010: 80~88

    [5] Zhao W, Jiang J, Weng J,et al. Comparing Twitter and traditional media using topic models, Proceedings of the 33rd European Conference on IR Research, Dublin, Ireland, 2011: 338~349

    [6] Lakkaraju H, Bhattacharya I, Bhattacharyya C. Dynamic multirelational Chinese restaurant process for analyzing influences on users in social media. Proceedings of the 12th IEEE International Conference on Data Mining, Brussels, Belgium, 2012

    [7] Yan X H, Guo J F, Lan Y Y,et al. A biterm topic model for short texts. Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil, 2013: 1445~1456

    [8] Cheng X Q, Yan X H, Lan Y Y,et al. BTM: topic modeling over short texts. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(12): 2928~2941

    [9] Yan X H, Guo J F, Lan Y Y,et al. A probabilistic model for bursty topic discovery in microblogs. Proceedings of the 29th AAAI Conference on Artificial Intelligence, Austin Texas, USA, 2015

    [10] Bengio Y, Ducharme R, Vincent P,et al. A neural probabilistic language model. Journal of Machine Learning Research, 2003, 3: 1137~1155

    [11] Morin F, Bengio Y. Hierarchical probabilistic neural network language model. Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, Barbados, 2005

    [12] Mnih A, Hinton G. Three new graphical models for statistical language modelling. Proceedings of the 24th International Conference on Machine Learning, New York, USA, 2007: 641~648

    [13] Mnih A, Hinton G E. A scalable hierarchical distributed language model. Proceedings of the 23rd Annual Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2009

    [14] Mnih A, Kavukcuoglu K. Learning word embeddings efficiently with noisecontrastive estimation. Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada, USA, 2013

    [15] Mikolov T, Chen K, Corrado G,et al. Efficient estimation of word representations in vector space. Proceedings of Workshop of ICLR, Arizona, USA, 2013

    [16] Sun F, Guo J F, Lan Y Y,et al. Learning word representation by jointly modeling syntagmatic and paradigmatic relations. Proceedings of the 53rd Annual Metting of the Association for Computational Linguistics, Beijing, China, 2015

    [17] Robertson S E. Overview of the okapi projects. Journal of Documentation, 1997, 53(1): 3~7

    [18] Zhai C, Lafferty J. A study of smoothing methods for language models applied to Ad Hoc information retrieval. Proceedings of the 24th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, New Orleans, USA, 2001: 334~342

    [19] Carbonell J, Goldstein J. The use of mmr, diversity-based reranking for reordering documents and producing summaries. Proceedings of the 21st Annual International ACM SIGIR Conference on Research & Development on InformationRetrieval, Melbourne, Australia, 1998: 335~336

    [20] Liu T Y. Learning to Rank for Information Retrieval. New York: Springer-Verlag New York Inc, 2011

    [21] Liang S S, Ren Z C, Maarten D R. Personalized search result diversification via structured learning. In Proceedings of the 20th ACM SIGKDD, New York, USA, 2014: 751~760

    [22] Yue Y, Joachims T. Predicting diverse subsets using structural svms. Proceedings of the 25th ICML, Helsinki, Finland, 2008:1224~1231

    [23] Zhu Y, Lan Y, Guo J,et al. Learning for search result diversification. Proceedings of the 37th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, Gold Coast, QLD, Australia, 2014: 293~302

    [24] Xia L, Xu J, Lan Y Y,et al. Learning maximal marginal relevance model via directly optimizing diversity evaluation measures. Proceedings of the 38th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Santiago, Chile, 2015

    程學(xué)旗,男,中國科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師,中國科學(xué)院“網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)”重點(diǎn)實(shí)驗(yàn)室主任,目前主要從事網(wǎng)絡(luò)數(shù)據(jù)科學(xué)和社會計(jì)算等研究領(lǐng)域的工作,主持和參與多項(xiàng)國家“973”計(jì)劃、“863”計(jì)劃、國家自然科學(xué)基金項(xiàng)目和國家自然科學(xué)基金委杰出青年基金項(xiàng)目,并多次榮獲國家科技進(jìn)步獎(jiǎng)一等獎(jiǎng)。近年來,在IEEE TKDE、ACM SIGIR、WWW等本領(lǐng)域頂級期刊與國際會議發(fā)表論文40余篇,并榮獲CIKM最佳論文獎(jiǎng)和SIGIR最佳學(xué)生論文獎(jiǎng)。

    蘭艷艷,女,中國科學(xué)院計(jì)算技術(shù)研究所副研究員、碩士生導(dǎo)師,目前主要從事機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域的研究工作,在ACM SIGIR、NIPS、ICML等本領(lǐng)域頂級會議發(fā)表論文20余篇,并榮獲SIGIR最佳學(xué)生論文獎(jiǎng)。

    Cheng X Q, Lan Y Y. Text content analysis for web big data. Big Data Research, 2015029

    Text Content Analysis for Web Big Data

    Cheng Xueqi, Lan Yanyan
    Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100019, China

    Text content analysis is an effective way to understand and acquire the “value” of big fata. The challenges and research results were investigated in the three hot topics: topic modeling for short texts, word embedding and learning to rank for web pages. In the end, some remaining problems in this area were proposed.

    text content analysis, topic modeling for short texts, word embedding, learning to rank

    10.11959/j.issn.2096-0271.2015029

    2015-08-16

    國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)基金資助項(xiàng)目(No.2014CB340402),國家自然科學(xué)基金資助項(xiàng)目(No.61170008,No.61272055)

    Foundation Items:The National Basic Research Program of China(973 Program)( No.2014CB340402), The National Natural Science Foundation of China (No.61170008,No.61272055)

    程學(xué)旗,蘭艷艷. 網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析. 大數(shù)據(jù), 2015029

    猜你喜歡
    短文文檔排序
    排序不等式
    有人一聲不吭向你扔了個(gè)文檔
    恐怖排序
    節(jié)日排序
    KEYS
    Keys
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    短文改錯(cuò)
    日本免费在线观看一区| 欧美激情 高清一区二区三区| 毛片一级片免费看久久久久| 亚洲av日韩在线播放| 色婷婷久久久亚洲欧美| 亚洲,欧美,日韩| 国产精品人妻久久久影院| 国产免费一级a男人的天堂| kizo精华| 国产成人午夜福利电影在线观看| 美女福利国产在线| 国产精品三级大全| 美女主播在线视频| 交换朋友夫妻互换小说| 中国美白少妇内射xxxbb| 91成人精品电影| 欧美日韩av久久| 能在线免费看毛片的网站| 天美传媒精品一区二区| 在线观看美女被高潮喷水网站| 18禁裸乳无遮挡动漫免费视频| 成人黄色视频免费在线看| 久久热精品热| 22中文网久久字幕| 国产日韩欧美亚洲二区| 麻豆乱淫一区二区| 亚洲欧美日韩另类电影网站| 午夜福利影视在线免费观看| 一级二级三级毛片免费看| 成人国语在线视频| 久久99精品国语久久久| 午夜福利,免费看| 女的被弄到高潮叫床怎么办| 高清欧美精品videossex| 777米奇影视久久| 国产一区二区三区av在线| 男女免费视频国产| 寂寞人妻少妇视频99o| 亚洲在久久综合| 亚洲av成人精品一区久久| 蜜桃在线观看..| 国产高清不卡午夜福利| 久久久久久久久久人人人人人人| 久久久久久久久大av| 99九九线精品视频在线观看视频| a级毛片黄视频| 亚洲av不卡在线观看| 精品视频人人做人人爽| 久久久精品免费免费高清| 亚洲国产精品999| 一级,二级,三级黄色视频| 日韩不卡一区二区三区视频在线| 成人影院久久| 久久国内精品自在自线图片| 精品一区二区三卡| 九九在线视频观看精品| 69精品国产乱码久久久| 午夜福利视频精品| 欧美成人精品欧美一级黄| 男女无遮挡免费网站观看| 国产毛片在线视频| 午夜av观看不卡| 只有这里有精品99| 国产男女内射视频| 精品久久国产蜜桃| 秋霞在线观看毛片| 91精品一卡2卡3卡4卡| 肉色欧美久久久久久久蜜桃| 日韩伦理黄色片| 国产免费视频播放在线视频| 久久久久久久国产电影| 亚洲欧美成人精品一区二区| freevideosex欧美| 夫妻午夜视频| av女优亚洲男人天堂| 亚洲av在线观看美女高潮| 熟女av电影| 97超碰精品成人国产| 亚洲无线观看免费| 啦啦啦啦在线视频资源| 国产亚洲欧美精品永久| 日日撸夜夜添| 国产精品国产三级国产av玫瑰| 亚洲一级一片aⅴ在线观看| 视频区图区小说| 只有这里有精品99| 草草在线视频免费看| 日韩不卡一区二区三区视频在线| 国产午夜精品久久久久久一区二区三区| 亚洲精品视频女| 18在线观看网站| 国产黄色免费在线视频| 日韩中字成人| 女人精品久久久久毛片| av一本久久久久| 国产综合精华液| 男女国产视频网站| 中文字幕最新亚洲高清| 成人18禁高潮啪啪吃奶动态图 | 伊人久久精品亚洲午夜| 18+在线观看网站| 中文字幕久久专区| 精品一品国产午夜福利视频| 成人午夜精彩视频在线观看| 男人添女人高潮全过程视频| 成年女人在线观看亚洲视频| 久久久国产精品麻豆| 欧美人与性动交α欧美精品济南到 | 最后的刺客免费高清国语| 欧美亚洲日本最大视频资源| 亚洲欧美成人精品一区二区| 在线看a的网站| 26uuu在线亚洲综合色| 日日摸夜夜添夜夜爱| 日韩免费高清中文字幕av| 少妇猛男粗大的猛烈进出视频| 久久97久久精品| 国产成人av激情在线播放 | 亚洲熟女精品中文字幕| 国产午夜精品久久久久久一区二区三区| 国产熟女午夜一区二区三区 | 久久久久国产精品人妻一区二区| 亚洲人与动物交配视频| 欧美日韩亚洲高清精品| 新久久久久国产一级毛片| 国产色婷婷99| 色5月婷婷丁香| 国产熟女欧美一区二区| 亚洲精品色激情综合| 国产免费一区二区三区四区乱码| 高清毛片免费看| 全区人妻精品视频| 在线观看三级黄色| 欧美国产精品一级二级三级| 少妇 在线观看| 精品人妻熟女毛片av久久网站| 久久99精品国语久久久| 国产黄片视频在线免费观看| 99热全是精品| 国产精品.久久久| 亚洲天堂av无毛| 成人漫画全彩无遮挡| 亚洲人与动物交配视频| 日日摸夜夜添夜夜添av毛片| 男人操女人黄网站| 9色porny在线观看| 熟妇人妻不卡中文字幕| 国产高清不卡午夜福利| 精品午夜福利在线看| 最后的刺客免费高清国语| 三上悠亚av全集在线观看| 大陆偷拍与自拍| 七月丁香在线播放| 在线 av 中文字幕| 在线观看免费视频网站a站| 成人毛片a级毛片在线播放| 免费播放大片免费观看视频在线观看| 校园人妻丝袜中文字幕| 国产在视频线精品| 另类精品久久| 欧美变态另类bdsm刘玥| 夫妻性生交免费视频一级片| 亚洲第一av免费看| 菩萨蛮人人尽说江南好唐韦庄| av在线观看视频网站免费| 成人国产麻豆网| 色吧在线观看| 国产精品免费大片| 精品久久久久久久久av| 91在线精品国自产拍蜜月| 国产日韩欧美视频二区| 一级爰片在线观看| videosex国产| 国产极品天堂在线| 成人18禁高潮啪啪吃奶动态图 | 国产亚洲精品久久久com| 亚洲国产精品国产精品| 久久精品久久精品一区二区三区| av卡一久久| 在线观看www视频免费| 又黄又爽又刺激的免费视频.| 成年人免费黄色播放视频| 你懂的网址亚洲精品在线观看| av.在线天堂| 伊人亚洲综合成人网| 七月丁香在线播放| 久久久久久久精品精品| 亚洲精品国产av成人精品| av女优亚洲男人天堂| 亚洲人与动物交配视频| 久久久久久久大尺度免费视频| 性色av一级| 精品亚洲成国产av| 欧美激情国产日韩精品一区| 人体艺术视频欧美日本| 国产极品天堂在线| 亚洲伊人久久精品综合| 又粗又硬又长又爽又黄的视频| 久久97久久精品| 水蜜桃什么品种好| 免费黄网站久久成人精品| 成人综合一区亚洲| av有码第一页| 三级国产精品欧美在线观看| 日本午夜av视频| 多毛熟女@视频| 国产亚洲精品久久久com| 嘟嘟电影网在线观看| 美女中出高潮动态图| 97超碰精品成人国产| 91精品三级在线观看| 狠狠婷婷综合久久久久久88av| freevideosex欧美| 亚洲精品乱久久久久久| 日韩强制内射视频| av卡一久久| 亚洲精品成人av观看孕妇| av黄色大香蕉| 久久毛片免费看一区二区三区| 五月开心婷婷网| 91久久精品电影网| av免费观看日本| 大片电影免费在线观看免费| 国产av国产精品国产| 老司机影院成人| 99热这里只有是精品在线观看| 99re6热这里在线精品视频| 欧美日韩精品成人综合77777| 五月天丁香电影| 免费大片黄手机在线观看| 九色成人免费人妻av| 亚洲精品国产av蜜桃| 国产av精品麻豆| 国产精品秋霞免费鲁丝片| av卡一久久| 久久午夜综合久久蜜桃| 精品久久久久久电影网| 日韩成人av中文字幕在线观看| 日韩 亚洲 欧美在线| 欧美精品高潮呻吟av久久| 国产探花极品一区二区| 亚洲色图 男人天堂 中文字幕 | 欧美日韩国产mv在线观看视频| 三级国产精品片| 青春草视频在线免费观看| 亚洲精品aⅴ在线观看| 成人影院久久| a级毛色黄片| 两个人免费观看高清视频| 久久久a久久爽久久v久久| 国产片内射在线| 国产精品久久久久久av不卡| 少妇熟女欧美另类| 少妇精品久久久久久久| 777米奇影视久久| 视频中文字幕在线观看| 亚洲国产欧美日韩在线播放| 欧美激情 高清一区二区三区| 汤姆久久久久久久影院中文字幕| 国产伦精品一区二区三区视频9| 亚洲精品国产色婷婷电影| 欧美3d第一页| 夜夜爽夜夜爽视频| 国产精品久久久久久久电影| 汤姆久久久久久久影院中文字幕| 亚洲欧洲日产国产| 精品国产国语对白av| 国产精品99久久99久久久不卡 | 另类精品久久| 亚洲国产毛片av蜜桃av| 精品亚洲成a人片在线观看| 人人妻人人爽人人添夜夜欢视频| 国产成人精品无人区| 草草在线视频免费看| 天美传媒精品一区二区| 亚洲欧美一区二区三区国产| 丝袜喷水一区| 国产av码专区亚洲av| 视频区图区小说| 国产高清有码在线观看视频| 最近的中文字幕免费完整| 香蕉精品网在线| 老司机影院成人| 水蜜桃什么品种好| kizo精华| 亚洲一区二区三区欧美精品| 搡女人真爽免费视频火全软件| 在线观看美女被高潮喷水网站| 亚洲欧美一区二区三区国产| 国产精品麻豆人妻色哟哟久久| 久久国产精品大桥未久av| 日韩精品有码人妻一区| 在线观看免费高清a一片| 亚洲不卡免费看| 久久久久久久久久成人| 五月伊人婷婷丁香| av天堂久久9| 少妇猛男粗大的猛烈进出视频| 亚洲五月色婷婷综合| 中文字幕久久专区| 国产成人精品无人区| www.色视频.com| av国产精品久久久久影院| 婷婷色av中文字幕| 精品一区二区三卡| av有码第一页| 国产一区二区在线观看日韩| 毛片一级片免费看久久久久| 美女福利国产在线| 国产精品一区www在线观看| 免费少妇av软件| 在线播放无遮挡| 日本与韩国留学比较| 精品久久国产蜜桃| 亚洲精品日本国产第一区| 成年女人在线观看亚洲视频| 亚洲精品久久久久久婷婷小说| 有码 亚洲区| 18禁观看日本| 熟女电影av网| 狂野欧美激情性xxxx在线观看| 久久久久久久国产电影| 久久99一区二区三区| 亚洲色图综合在线观看| 女的被弄到高潮叫床怎么办| 国产免费一级a男人的天堂| 国产精品女同一区二区软件| 日日啪夜夜爽| 亚洲av国产av综合av卡| 黑人欧美特级aaaaaa片| 久久精品国产亚洲网站| 高清毛片免费看| 波野结衣二区三区在线| 成人国产麻豆网| 亚洲欧洲精品一区二区精品久久久 | 人妻夜夜爽99麻豆av| 亚洲伊人久久精品综合| 黄色毛片三级朝国网站| 熟妇人妻不卡中文字幕| 国产成人精品无人区| 久久97久久精品| 免费人成在线观看视频色| 亚洲天堂av无毛| 婷婷色综合www| 免费av不卡在线播放| 丰满乱子伦码专区| 少妇精品久久久久久久| 日本与韩国留学比较| 在线免费观看不下载黄p国产| 插逼视频在线观看| 视频中文字幕在线观看| 两个人免费观看高清视频| 少妇被粗大猛烈的视频| 丝袜在线中文字幕| 久久免费观看电影| 午夜福利影视在线免费观看| 在线播放无遮挡| 亚洲伊人久久精品综合| 国产亚洲一区二区精品| 国产精品99久久久久久久久| 91久久精品国产一区二区三区| 欧美97在线视频| 少妇人妻 视频| 日韩一区二区三区影片| 欧美xxⅹ黑人| 久久99热这里只频精品6学生| 在线精品无人区一区二区三| 欧美国产精品一级二级三级| 精品亚洲成a人片在线观看| 日本午夜av视频| 香蕉精品网在线| 久久热精品热| 最近手机中文字幕大全| 欧美激情国产日韩精品一区| 国产片内射在线| 国产日韩欧美在线精品| 一区二区av电影网| 另类精品久久| 69精品国产乱码久久久| 麻豆精品久久久久久蜜桃| 欧美xxⅹ黑人| 91精品伊人久久大香线蕉| a级片在线免费高清观看视频| 国产一区亚洲一区在线观看| 亚洲精品,欧美精品| 韩国高清视频一区二区三区| av网站免费在线观看视频| 丝袜脚勾引网站| 国产成人精品在线电影| 校园人妻丝袜中文字幕| 久久av网站| 国产亚洲午夜精品一区二区久久| 国产欧美日韩一区二区三区在线 | 亚洲国产精品成人久久小说| 国产av精品麻豆| 最近中文字幕高清免费大全6| h视频一区二区三区| 五月玫瑰六月丁香| 极品少妇高潮喷水抽搐| 成人国产麻豆网| 蜜桃久久精品国产亚洲av| 街头女战士在线观看网站| 在线 av 中文字幕| 欧美日韩一区二区视频在线观看视频在线| 毛片一级片免费看久久久久| 亚洲精华国产精华液的使用体验| 亚洲av电影在线观看一区二区三区| 免费黄网站久久成人精品| 美女脱内裤让男人舔精品视频| 欧美性感艳星| 久久毛片免费看一区二区三区| 亚洲av福利一区| 国产深夜福利视频在线观看| 国产成人精品久久久久久| 亚洲av成人精品一二三区| 久久99热6这里只有精品| 黄色一级大片看看| 国产国拍精品亚洲av在线观看| 十八禁高潮呻吟视频| 国产一区二区在线观看日韩| 51国产日韩欧美| 国产免费福利视频在线观看| 大香蕉97超碰在线| .国产精品久久| 日韩欧美精品免费久久| 国产免费现黄频在线看| 国产黄片视频在线免费观看| 国产精品99久久久久久久久| 黑人猛操日本美女一级片| 午夜精品国产一区二区电影| 久久精品人人爽人人爽视色| 亚洲欧美精品自产自拍| 亚洲精品自拍成人| 亚洲av电影在线观看一区二区三区| 超碰97精品在线观看| 性高湖久久久久久久久免费观看| 女人精品久久久久毛片| 婷婷色综合www| 免费黄网站久久成人精品| 亚洲国产精品999| 日韩av在线免费看完整版不卡| 中国国产av一级| 妹子高潮喷水视频| av有码第一页| 97超视频在线观看视频| 午夜福利影视在线免费观看| 欧美一级a爱片免费观看看| 视频在线观看一区二区三区| 国产精品女同一区二区软件| 成年av动漫网址| 欧美xxⅹ黑人| 国产精品一区二区在线不卡| 晚上一个人看的免费电影| 肉色欧美久久久久久久蜜桃| 视频区图区小说| 99久久精品国产国产毛片| 免费看不卡的av| 欧美bdsm另类| 建设人人有责人人尽责人人享有的| 在线观看免费日韩欧美大片 | 日本欧美视频一区| 我的女老师完整版在线观看| 中文字幕人妻熟人妻熟丝袜美| 日韩中字成人| 午夜福利视频在线观看免费| 久久久久久伊人网av| 国产深夜福利视频在线观看| 人人妻人人澡人人看| 在线观看www视频免费| 26uuu在线亚洲综合色| 中文字幕亚洲精品专区| 熟女电影av网| 夜夜骑夜夜射夜夜干| 久久精品国产亚洲av天美| 五月伊人婷婷丁香| 性色av一级| 亚洲美女黄色视频免费看| 中文字幕最新亚洲高清| 久久毛片免费看一区二区三区| 青青草视频在线视频观看| 伦精品一区二区三区| 黑人欧美特级aaaaaa片| 日日摸夜夜添夜夜添av毛片| 黑人猛操日本美女一级片| 伦精品一区二区三区| 综合色丁香网| 亚洲精品美女久久av网站| 久久久久久久精品精品| 国产成人一区二区在线| 高清不卡的av网站| 国产成人精品福利久久| 中文字幕av电影在线播放| 欧美激情极品国产一区二区三区 | 日本av手机在线免费观看| 色5月婷婷丁香| 国产精品女同一区二区软件| 国产伦理片在线播放av一区| 99久久综合免费| 亚洲成人av在线免费| 大片免费播放器 马上看| 国产成人精品在线电影| 久久99热这里只频精品6学生| 免费大片黄手机在线观看| 亚洲精品av麻豆狂野| 国产成人精品福利久久| 中文字幕精品免费在线观看视频 | 亚洲人成77777在线视频| 国产高清有码在线观看视频| 亚洲成人av在线免费| 一级毛片我不卡| 日本免费在线观看一区| 日本猛色少妇xxxxx猛交久久| 高清视频免费观看一区二区| 久久97久久精品| 亚洲中文av在线| 91精品国产国语对白视频| 久久精品人人爽人人爽视色| 亚洲av免费高清在线观看| 两个人的视频大全免费| 嫩草影院入口| 97超碰精品成人国产| 王馨瑶露胸无遮挡在线观看| 人体艺术视频欧美日本| 亚洲四区av| 久久国产精品大桥未久av| 九色亚洲精品在线播放| 少妇人妻 视频| 日韩欧美一区视频在线观看| 久久精品国产亚洲网站| 亚洲美女黄色视频免费看| 有码 亚洲区| 国产精品一区www在线观看| 国产欧美亚洲国产| 在线观看国产h片| 日韩电影二区| 十分钟在线观看高清视频www| 99久久综合免费| 中文字幕人妻熟人妻熟丝袜美| 国产av码专区亚洲av| 国产精品人妻久久久影院| 99久久综合免费| 91成人精品电影| 两个人的视频大全免费| 成人影院久久| 婷婷成人精品国产| 国产成人一区二区在线| 精品久久久久久久久亚洲| 日本av手机在线免费观看| 欧美丝袜亚洲另类| 国产一区二区三区综合在线观看 | 人妻系列 视频| 国产探花极品一区二区| 中国三级夫妇交换| 在线免费观看不下载黄p国产| 亚洲中文av在线| 又粗又硬又长又爽又黄的视频| 丰满饥渴人妻一区二区三| 成人亚洲欧美一区二区av| 制服人妻中文乱码| 中文字幕人妻熟人妻熟丝袜美| 精品人妻偷拍中文字幕| 一二三四中文在线观看免费高清| 亚洲第一av免费看| 亚洲欧洲国产日韩| 国产69精品久久久久777片| 寂寞人妻少妇视频99o| 免费观看性生交大片5| 久久久久久久亚洲中文字幕| 超色免费av| 欧美 亚洲 国产 日韩一| 国产精品不卡视频一区二区| 精品久久久久久电影网| 丰满饥渴人妻一区二区三| 人成视频在线观看免费观看| 91精品国产国语对白视频| 久久毛片免费看一区二区三区| 亚洲av.av天堂| 国产69精品久久久久777片| .国产精品久久| 成人18禁高潮啪啪吃奶动态图 | 黄色欧美视频在线观看| 制服诱惑二区| 下体分泌物呈黄色| 国产精品一区二区三区四区免费观看| 久久 成人 亚洲| 国产在线视频一区二区| 丰满迷人的少妇在线观看| kizo精华| 久久久久久久精品精品| 在线精品无人区一区二区三| 午夜免费鲁丝| 欧美+日韩+精品| 欧美日韩视频高清一区二区三区二| 中国美白少妇内射xxxbb| 男女国产视频网站| 欧美变态另类bdsm刘玥| 欧美另类一区| 日韩电影二区| 色哟哟·www| 日韩精品免费视频一区二区三区 | 日本91视频免费播放| 七月丁香在线播放| 亚洲图色成人| 国产伦精品一区二区三区视频9| 亚洲人成网站在线播| 免费播放大片免费观看视频在线观看| 晚上一个人看的免费电影| 亚洲天堂av无毛| 免费看av在线观看网站| 婷婷色麻豆天堂久久| 国产精品一区www在线观看| 男的添女的下面高潮视频| 高清欧美精品videossex| 美女脱内裤让男人舔精品视频| 国产免费一区二区三区四区乱码|