• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析

    2015-03-17 02:53:32程學(xué)旗蘭艷艷
    大數(shù)據(jù) 2015年3期
    關(guān)鍵詞:短文文檔排序

    程學(xué)旗,蘭艷艷

    中國科學(xué)院計(jì)算技術(shù)研究所 北京 100019

    網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析

    程學(xué)旗,蘭艷艷

    中國科學(xué)院計(jì)算技術(shù)研究所 北京 100019

    文本內(nèi)容分析是實(shí)現(xiàn)大數(shù)據(jù)的理解與價(jià)值發(fā)現(xiàn)的有效手段。嘗試從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁排序?qū)W習(xí)3個(gè)子方向,探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果,最后指出未來大數(shù)據(jù)文本內(nèi)容分析的一些研究方向和問題。

    文本內(nèi)容分析;短文本主題建模;單詞表達(dá);排序?qū)W習(xí)

    1 引言

    伴隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及以及用戶規(guī)模的爆發(fā)式增長,互聯(lián)網(wǎng)已經(jīng)步入了“大數(shù)據(jù)”時(shí)代。網(wǎng)絡(luò)大數(shù)據(jù)的“大”,不僅僅體現(xiàn)在其體量巨大(大數(shù)據(jù)的起始計(jì)量單位至少是Petabyte11 Petabyte=1× 1015byte、Exabyte21 Exabyte=1× 1018byte或Zettabyte31 Zettabyte=1× 1021byte),而且還體現(xiàn)在其增長異常迅猛(通常是指數(shù)級的速率),數(shù)據(jù)類型多樣(包括了文本、圖像、聲音、視頻等),數(shù)據(jù)質(zhì)量良莠不齊并且關(guān)聯(lián)關(guān)系復(fù)雜。同時(shí),網(wǎng)絡(luò)大數(shù)據(jù)另外一個(gè)突出的特點(diǎn)就是其價(jià)值密度低,大數(shù)據(jù)中包含了大量重復(fù)、噪聲和垃圾數(shù)據(jù),存在大量共現(xiàn)但又毫無意義的關(guān)聯(lián)模式,如果缺乏有效的信息處理手段提取網(wǎng)絡(luò)大數(shù)據(jù)中潛在的價(jià)值,網(wǎng)絡(luò)大數(shù)據(jù)不僅不能成為一個(gè)價(jià)值“寶藏”,反倒會成為一個(gè)數(shù)據(jù)的“墳?zāi)埂薄?/p>

    文本內(nèi)容分析是網(wǎng)絡(luò)信息處理的關(guān)鍵技術(shù)。網(wǎng)絡(luò)大數(shù)據(jù)對于文本內(nèi)容分析而言是一把雙刃劍:一方面,網(wǎng)絡(luò)大數(shù)據(jù)提供了需要文本分析豐富的數(shù)據(jù)源,大規(guī)模的樣本資源可以更好地支持文本分析關(guān)鍵技術(shù)的發(fā)展;另一方面,網(wǎng)絡(luò)大數(shù)據(jù)復(fù)雜的內(nèi)在特征對傳統(tǒng)文本分析技術(shù)提出了嚴(yán)峻的挑戰(zhàn)。例如,網(wǎng)絡(luò)大數(shù)據(jù)越來多地存在于電商、問答等私有化網(wǎng)絡(luò)或者深網(wǎng)中,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的獲取和存儲更加困難;數(shù)據(jù)龐大的規(guī)模、復(fù)雜的關(guān)聯(lián)關(guān)系,使得傳統(tǒng)的文本分析和挖掘技術(shù)在計(jì)算的時(shí)空復(fù)雜度上激增;另外,迅猛的數(shù)據(jù)增長速率、巨大的數(shù)據(jù)體量也使得傳統(tǒng)的全量計(jì)算模式(依賴于全體樣本的計(jì)算模式)不再適用。本文從短文本主題建模、單詞表達(dá)學(xué)習(xí)和網(wǎng)頁排序?qū)W習(xí)3個(gè)子方向探討網(wǎng)絡(luò)大數(shù)據(jù)文本內(nèi)容分析的挑戰(zhàn)和研究成果。

    2 文本內(nèi)容分析關(guān)鍵技術(shù)

    2.1 短文本主題建模

    隨著Web2.0、社交媒體和移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展,每個(gè)網(wǎng)民都成為了互聯(lián)網(wǎng)上信息的創(chuàng)造者與傳播者,促使網(wǎng)上文本信息爆炸式增長。與此同時(shí),互聯(lián)網(wǎng)上的文本內(nèi)容形式也在不斷變化。從博客到輕博客和微博、從郵件到論壇和即時(shí)通信、從新聞到評論等,一個(gè)顯著的特點(diǎn)就是這些文本信息的長度越來越短。這是因?yàn)槎涛谋拘畔⒕帉懞唵坞S意,發(fā)布更為便捷。同時(shí),短文本信息比長文本更簡約、緊湊,能節(jié)省其他用戶閱讀消息的時(shí)間和精力。短文本信息比傳統(tǒng)文本信息來源要廣得多,更新頻率也快得多,大大加速了互聯(lián)網(wǎng)上信息產(chǎn)生與傳播的速度。

    海量的短文本數(shù)據(jù)中蘊(yùn)藏著大量有價(jià)值的信息,但也給現(xiàn)有文本語義分析技術(shù)帶來了新的挑戰(zhàn)。與長文本相比,短文本信息內(nèi)部上下文信息缺乏。此外,普通用戶常常用語不規(guī)范,新詞、多義詞等比較普遍。因此,對一條短文本信息的理解要比長文本要困難得多。在以往的長文本語義分析領(lǐng)域,一種普遍的方法就是利用概率話題模型(如LDA[1]和PLSA[2])對文檔內(nèi)部的話題結(jié)構(gòu)進(jìn)行建模,然后利用統(tǒng)計(jì)推斷手段學(xué)習(xí)出文檔集合中潛在的話題以及話題結(jié)構(gòu)。這些模型的一個(gè)基本假設(shè)是文檔是話題的一個(gè)混合分布,其中每個(gè)詞來源于一個(gè)話題。當(dāng)文檔長度較長時(shí),可以較準(zhǔn)確地根據(jù)文檔中的詞推斷出文檔的話題屬性。然而,當(dāng)文檔很短(只有幾個(gè)或十幾個(gè)詞,甚至少于話題的個(gè)數(shù))時(shí),由于數(shù)據(jù)不足,難以準(zhǔn)確推斷出文檔中話題混合分布的參數(shù)以及每個(gè)詞的話題屬性,從而影響話題學(xué)習(xí)的效果。

    為克服短文本信息的數(shù)據(jù)稀疏性,一種簡單做法是利用外部數(shù)據(jù)(如Wikipedia、搜索結(jié)果)擴(kuò)充文檔的表示,再利用現(xiàn)有的長文本語義建模工具處理。但這種方式的效果嚴(yán)重依賴于原短文本文檔與擴(kuò)充的外部數(shù)據(jù)的相關(guān)程度。對于一些實(shí)時(shí)性強(qiáng)的數(shù)據(jù)(如微博),要找到合適的外部數(shù)據(jù)源是很困難的。為此,很多人嘗試?yán)脙?nèi)部數(shù)據(jù)擴(kuò)充文檔的表示,如偽相關(guān)反饋、加入短語特征[3]、相關(guān)消息聚合[4]等。無論是利用外部數(shù)據(jù)擴(kuò)充,還是利用內(nèi)部數(shù)據(jù)擴(kuò)充,都面臨著擴(kuò)充數(shù)據(jù)選擇不當(dāng)帶來額外噪音的風(fēng)險(xiǎn)。另外,這兩種方法并沒有從模型上帶來任何改變,只是治標(biāo)不治本。另外,一些研究者[5,6]則提出一條短文本消息只包含一個(gè)話題,將短文本消息用單詞混合模型(mixture of unigrams)建模。該方式雖然可緩解參數(shù)估計(jì)時(shí)的數(shù)據(jù)稀疏性問題,但對短文本消息的建模過于簡化?,F(xiàn)實(shí)情況下,一條短文本消息仍然可能包含多個(gè)話題,尤其是在話題粒度較細(xì)的時(shí)候。此時(shí),單詞混合模型無法區(qū)分。

    由于短文本消息和長文本文檔顯著不同,傳統(tǒng)面向長文本的話題建模方法并不能簡單地套用到短文本文檔上。為了更好地對短文本進(jìn)行語義建模,提出了一種新的話題建模方法——雙詞話題模型(biterm topic model,BTM)[7]。BTM和傳統(tǒng)基于文檔產(chǎn)生式建模的話題模型的最大區(qū)別是,它通過建模文檔集合中雙詞的產(chǎn)生來學(xué)習(xí)話題。這里,雙詞指的是在同一個(gè)上下文中共現(xiàn)的詞對。由于一條短文本消息很短,可以簡單地認(rèn)為每條消息是一條上下文4對于較長的文本,可認(rèn)為在一個(gè)固定長度的窗口內(nèi)的文本片段為一個(gè)上下文。。比如在“短文本語義建?!敝校梢猿槿〕?個(gè)雙詞:(“短文本”,“語義”)、(“短文本”,“建?!保ⅲā罢Z義”,“建模”)。其直接體現(xiàn)了詞的共現(xiàn)關(guān)系,因此采用雙詞作為建模單元。直觀地講,兩個(gè)詞共現(xiàn)次數(shù)越多,其語義越相關(guān),也就越可能屬于同一話題。根據(jù)這一認(rèn)識,假設(shè)每個(gè)雙詞由同一個(gè)話題產(chǎn)生,而話題從一個(gè)定義在整個(gè)語料集合上的話題混合分布產(chǎn)生。與LDA相比,BTM通過直接建模雙詞(即詞共現(xiàn)模式)來學(xué)習(xí)話題,從而避免短文本文檔過短導(dǎo)致的文檔建模困難問題。二者的圖模型表示如圖1所示。實(shí)驗(yàn)結(jié)果表明,BTM在短文本上的效果相比LDA等傳統(tǒng)方法有明顯提升,而且在長文本上的效果也不輸于LDA。

    圖1 LDA和BTM的圖模型表示

    除了長度短之外,互聯(lián)網(wǎng)上的短文本大數(shù)據(jù)還具有規(guī)模大、更新快的特點(diǎn)。為此,提出了BTM的兩種在線學(xué)習(xí)算法:在線BTM(oBTM)和增量BTM(iBTM)[8]。這兩種算法的主要思想是用最近時(shí)間段內(nèi)接收到的數(shù)據(jù)來持續(xù)更新模型,而不必反復(fù)計(jì)算較久遠(yuǎn)的歷史數(shù)據(jù)。這兩種算法不僅可以用來處理大規(guī)模流式短文本數(shù)據(jù),其學(xué)到的模型還可以即時(shí)反映話題的動(dòng)態(tài)變化,比較適合用于大規(guī)模流式短文本語義建模。在微博等互聯(lián)網(wǎng)應(yīng)用中,短文本信息還具備很強(qiáng)的時(shí)效性,因此其潛在的話題結(jié)構(gòu)也會劇烈變化。尤其受一些突發(fā)和熱點(diǎn)事件、活動(dòng)的影響,每天都可能涌現(xiàn)出大量的突發(fā)話題。為了對微博中突發(fā)話題建模,在BTM的基礎(chǔ)上提出了一種突發(fā)雙詞話題模型(BBTM或Bursty BTM)[9]。BBTM的做法是利用雙詞的突發(fā)性來指導(dǎo)突發(fā)話題的建模。原因是雙詞的突發(fā)性可以根據(jù)其時(shí)序頻率估算出來,突發(fā)性越強(qiáng)、共現(xiàn)次數(shù)越多的雙詞,越可能來源于某個(gè)突發(fā)話題?;谶@一思想,BBTM首先將文檔集合中的話題分為突發(fā)和非突發(fā)兩類,然后將雙詞的突發(fā)性作為一個(gè)雙詞話題類別判定的先驗(yàn)。在實(shí)驗(yàn)驗(yàn)證過程中,發(fā)現(xiàn)BBTM識別出來的突發(fā)話題的準(zhǔn)確性和可讀性都顯著優(yōu)于現(xiàn)有的啟發(fā)式方法。

    盡管在短文本語義建模方向取得了一些進(jìn)展,但和人對短文本信息的認(rèn)知能力相比,目前的研究仍然非常初步。在該方向上,筆者認(rèn)為目前值得深入探索的一些研究點(diǎn)如下。

    (1)多源異質(zhì)數(shù)據(jù)下的短文本語義建模

    在大數(shù)據(jù)時(shí)代的背景下,如何廣泛利用其他數(shù)據(jù)源中的知識(如Wikipedia、開放網(wǎng)頁、知識庫等),進(jìn)一步提高計(jì)算機(jī)短文本的理解與處理能力,是進(jìn)一步提升短文本語義建模的必經(jīng)之路。

    (2)復(fù)雜結(jié)構(gòu)語義建模

    目前研究的話題模型結(jié)構(gòu)都比較簡單,只有一層潛在語義結(jié)構(gòu),話題的數(shù)目也很有限。這種簡單結(jié)構(gòu)的話題模型只能大概反映文本中的語義,難以準(zhǔn)確、全面地描述文本內(nèi)容。真實(shí)文本數(shù)據(jù)中的語義結(jié)構(gòu)很復(fù)雜,可以考慮采用層次、圖狀等結(jié)構(gòu)提升模型的表達(dá)能力。

    (3)融合上下文特征的話題建模

    目前的語義建模方法大多仍然局限在利用詞共現(xiàn)信息上。在真實(shí)的應(yīng)用環(huán)境中,短文本消息還包含大量的上下文信息(如詞性、詞序等內(nèi)源特征)以及作者、地點(diǎn)、人物關(guān)系、時(shí)間等外源特征。豐富的上下文特征對解決短文本內(nèi)容稀疏性會有很大幫助。

    (4)與應(yīng)用結(jié)合

    對短文本語義建模能力的提升最終還需要落地于具體應(yīng)用中。要最大限度地提升應(yīng)用效果,需要研究與具體應(yīng)用相關(guān)的語義建模方法。

    2.2 單詞表示學(xué)習(xí)

    單詞表示一直是人工智能、自然語言處理、信息檢索等領(lǐng)域的一個(gè)基本核心問題。

    自然語言處理等相關(guān)領(lǐng)域最常用的單詞表示方法是one-hot表達(dá),將單詞表示為一個(gè)高維向量,這個(gè)向量的維度是詞表大小,其中絕大多數(shù)元素為0,只有一個(gè)維度的值為1,這個(gè)維度就代表了當(dāng)前的詞。這種one-hot表達(dá)如果采用稀疏方式存儲,非常簡潔、高效,配合上最大熵、SVM、CRF等算法,已經(jīng)很好地完成了NLP(natural language processing,自然語言處理)領(lǐng)域的各種主流任務(wù)。

    但是,這種表達(dá)有著根本性的缺陷,其假設(shè)所有詞都是獨(dú)立無關(guān)的,拋棄了單詞之間的相關(guān)性。這意味著,即使是兩個(gè)同義詞,在此表達(dá)下,它們的相似度也是0,這顯然是不合理的。同時(shí),也因?yàn)槊總€(gè)單詞都是一個(gè)孤立的離散單元,在許多實(shí)際問題中會遇到維度災(zāi)難問題。例如語言模型中,對于一個(gè)詞匯集合為100 000的模型,即使只使用二元組,其可能的組合情況便可以達(dá)到100億種。這樣就面臨嚴(yán)重的稀疏問題,傳統(tǒng)的語言模型必須使用各種復(fù)雜的平滑技術(shù)來估計(jì)那些沒有在語料中出現(xiàn)的組合的概率。

    為解決語言模型中的維度災(zāi)難和稀疏問題,Bengio等人提出了神經(jīng)網(wǎng)絡(luò)語言模型[10]。此模型將每個(gè)單詞表示為一個(gè)連續(xù)的低維稠密實(shí)數(shù)向量,這樣得到的語言模型自帶平滑,無須傳統(tǒng)n-gram模型中那些復(fù)雜的平滑算法。這樣的連續(xù)低維稠密實(shí)數(shù)向量叫做分布式表達(dá)(distributed representation),最早由Hinton提出[7],有別于傳統(tǒng)語義網(wǎng)絡(luò)中用一個(gè)獨(dú)立節(jié)點(diǎn)表示一個(gè)概念的局部表達(dá)(local representation)的方式。而其真正意義上流行開來,始于Bengio在語言模型上取得的成功。現(xiàn)在,單詞的分布式表達(dá)已經(jīng)廣泛應(yīng)用于自然語言處理的各個(gè)方面,如機(jī)器翻譯、情感分析和詞性標(biāo)注等。

    使用語言模型來學(xué)習(xí)單詞表達(dá)涉及在給定前文下預(yù)測下一個(gè)單詞出現(xiàn)的概率,因此需要在整個(gè)詞匯集合中進(jìn)行歸一化操作,這是非常耗時(shí)的一個(gè)操作。而當(dāng)年Bengio的神經(jīng)網(wǎng)絡(luò)語言模型在今天看來并不很大的語料上訓(xùn)練了4個(gè)月之久,即使后來的C&W的工作,也花了兩個(gè)月時(shí)間才得到一份單詞的表達(dá)。這在更大的數(shù)據(jù)上幾乎是不可忍受的。早期的單詞分布式表達(dá)工作主要集中在如何加速訓(xùn)練上面。

    代表性工作有Bengio等人2005年提出的層次神經(jīng)網(wǎng)絡(luò)模型,輸出端不再是一個(gè)平坦的softmax層,而是一個(gè)樹狀輸出,利用WordNet將一個(gè)多項(xiàng)分布分解為一串伯努利分布來優(yōu)化[11]。AndriyMnih和 Geoffrey Hinton提出Log-Bilinear模型,去掉了網(wǎng)絡(luò)中隱層的非線性,在此基礎(chǔ)上又提出hierarchical log-bilinear模型,同樣也是將模型的輸出改為層級輸出,從而加速模型的訓(xùn)練,并且效果也有一定的提升[12,13]。此后,Mnih將噪聲對比估計(jì)(noise contrastive estimation,NCE)用于近似優(yōu)化神經(jīng)網(wǎng)絡(luò)語言模型中的sofmax目標(biāo)函數(shù)[14]。而在這方面走得最遠(yuǎn)的當(dāng)屬目前最受關(guān)注的Mikolov等人的工作——Word2Vec。Mikolov在循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型的工作中發(fā)現(xiàn),將單詞的表達(dá)學(xué)習(xí)與語言模型的學(xué)習(xí)分離開來,可以獲得很好的結(jié)果。于是提出了continuous bag-ofwords(CBOW)和skip-gram(SG)兩種單詞表達(dá)學(xué)習(xí)模型[15]。這兩種模型的目標(biāo)不再是學(xué)習(xí)語言模型,而是直接利用自然語言處理中的分布式假設(shè)(distributional hypothesis)來學(xué)習(xí)單詞表達(dá)。這個(gè)假設(shè)認(rèn)為一個(gè)單詞的語義由其周圍的上下文決定,因此出現(xiàn)在相似上下文中的詞,其含義也相似。CBOW模型利用上下文單詞的表達(dá),直接預(yù)測當(dāng)前詞的表達(dá);而SG模型則是使用當(dāng)前詞預(yù)測上下文中的每一個(gè)詞。這兩種模型都可以使用哈夫曼樹或者negative sampling加速優(yōu)化。

    單詞表達(dá)學(xué)習(xí)算法大體都是基于一個(gè)同樣的假設(shè)——分布式假設(shè)。其假設(shè)一個(gè)單詞的語義由其周圍的上下文決定。由于單詞之間存在橫向(syntagmatic)和縱向(paradigmatic)兩種關(guān)系,如圖2所示。其中,橫向關(guān)系主要關(guān)注的是詞與詞之間在上下文中的共現(xiàn)關(guān)系,是一種組合性關(guān)系;而縱向關(guān)系則關(guān)注的是詞與詞之間具有相似上下文的關(guān)系,是一種替代性關(guān)系。根據(jù)所使用的分布信息的不同,單詞表達(dá)學(xué)習(xí)方法就可以分為兩大類:基于橫向關(guān)系和基于縱向關(guān)系。現(xiàn)有模型都只單獨(dú)考慮了一種關(guān)系。如隱式語義索引(latent semantic indexing,LSI),假設(shè)在文檔中共現(xiàn)的單詞具有相似的語義,其利用了橫向關(guān)系;而Word2Vec這類方法認(rèn)為,如果兩個(gè)單詞其周圍上下文相似,則其語義相似,其利用了縱向關(guān)系。

    如圖2所示,如果僅僅使用橫向關(guān)系,不能得到wolf和tiger相似,這并不合理;另一方面,如果只是用縱向關(guān)系,則wolf和fierce也不相似??梢?,單獨(dú)使用任一關(guān)系,都不能很好地捕捉單詞間的關(guān)聯(lián)。在ACL2015的工作[16]提出了兩種新的單詞表達(dá)學(xué)習(xí)模型(如圖3所示),有別于現(xiàn)有模型只建模單詞間的橫向關(guān)系或縱向關(guān)系,以并列(PDC模型)或?qū)哟危℉DC模型)的方式同時(shí)建模這兩種關(guān)系,以得到更好的單詞表達(dá)。PDC模型和HDC模型對應(yīng)地?cái)U(kuò)展了Word2Vec中CBOW和HDC模型,在其基礎(chǔ)上,利用文檔表達(dá)來預(yù)測文檔中出現(xiàn)的單詞,以捕捉單詞間的橫向關(guān)系。

    在單詞的類似與相似度任務(wù)上,這兩個(gè)模型均取得了state-of-the-art結(jié)果。

    分布式表達(dá)的假設(shè)自身也有不足之處,比如不能很好地處理反義詞情形。因?yàn)榛榉戳x詞的兩個(gè)詞,經(jīng)常出現(xiàn)在同樣的上下文中,所以往往反義詞之間的相似度反而高于其他近義詞。針對此問題,主流思路都是利用外部的知識庫來輔助單詞的表達(dá)學(xué)習(xí)。這類工作的思路大體類似,都是利用外部知識庫如Wikipedia、WordNet約束單詞表達(dá)的學(xué)習(xí)過程,比如讓更新同義詞表達(dá)、限制反義詞表達(dá)等。此外,分布式表達(dá)的假設(shè)也不能很好地處理那些出現(xiàn)次數(shù)很少的單詞。因?yàn)檫@些單詞的上下文信息太少,不足以學(xué)到一個(gè)很好的表達(dá)。比較直接的辦法就是直接利用語素信息來改善單詞的表達(dá),如果兩個(gè)單詞具有相同的詞根,則其語義相似。

    圖2 縱向與橫向關(guān)系示例

    另外,目前單詞的表達(dá)學(xué)習(xí)主要還是無監(jiān)督的學(xué)習(xí)。因此,評價(jià)更多地集中在對單詞本身的語義表達(dá)性能,如各種word similarity和word analogy任務(wù)。然而,這些任務(wù)并不能反映單詞表達(dá)在真實(shí)的自然語言處理或者信息檢索任務(wù)中的性能,所以更應(yīng)該使用真實(shí)的任務(wù)作為實(shí)驗(yàn)。但這樣帶來的一個(gè)問題就是前端表達(dá)學(xué)習(xí)作為無監(jiān)督學(xué)習(xí),與后端的具體任務(wù)是脫節(jié)的。這也導(dǎo)致許多研究反映,雖然不同的單詞學(xué)習(xí)模型在單詞表達(dá)任務(wù)上可能性能差異很大,但是在具體實(shí)際任務(wù)中并沒有顯著差異。但如果直接根據(jù)任務(wù)設(shè)計(jì)有監(jiān)督的單詞學(xué)習(xí)模型,又會面臨可用的標(biāo)注數(shù)據(jù)太少的問題。一種可行的方案可能是先利用大規(guī)模數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),得到初始的單詞表達(dá),然后根據(jù)具體的監(jiān)督任務(wù)調(diào)整單詞表達(dá),以期望實(shí)現(xiàn)更好的應(yīng)用性能。

    圖3 PDC模型和HDC模型

    2.3 網(wǎng)頁排序?qū)W習(xí)

    網(wǎng)絡(luò)搜索引擎已經(jīng)成為人們?nèi)粘I钪械闹匾ぞ?,在搜索引擎的各個(gè)組成部分中,排序模型直接決定了人們看到的搜索結(jié)果,因此這種模型對于搜索引擎的性能起著至關(guān)重要的作用。

    在信息檢索發(fā)展的歷史上,人們提出了很多排序模型,如進(jìn)行相關(guān)性排序的BM25模型[17]和語言模型[18]以及進(jìn)行搜索結(jié)果多樣化的MMR[19]模型等。這些模型對推動(dòng)搜索技術(shù)發(fā)展起到了一定作用,但是也存在一些問題:有的模型建立在人們對搜索問題的主觀理解之上,需要根據(jù)經(jīng)驗(yàn)人為設(shè)定模型參數(shù);還有一些模型雖然可以從大量網(wǎng)頁中學(xué)習(xí),不斷調(diào)整參數(shù),但無法利用用戶的反饋信息對模型參數(shù)進(jìn)行優(yōu)化。由于用戶提交不同的查詢詞或者不同用戶提交相同的查詢詞都有可能代表不同的信息需求,因此僅從研究者的主觀理解或者僅從網(wǎng)頁數(shù)據(jù)中學(xué)習(xí)排序模型,都無法很好地解決復(fù)雜的網(wǎng)絡(luò)搜索問題。在這樣的背景下,近年來研究人員開始嘗試使用有監(jiān)督的機(jī)器學(xué)習(xí)方法,即從用戶標(biāo)注或者反饋中學(xué)習(xí)最優(yōu)的相關(guān)性排序模型,稱為排序?qū)W習(xí)(learning to rank)[20]。

    為了學(xué)習(xí)最優(yōu)的相關(guān)性排序模型,需要一個(gè)訓(xùn)練數(shù)據(jù)集。該集合包含隨機(jī)抽取的查詢詞、與查詢詞有關(guān)的網(wǎng)頁以及這些網(wǎng)頁的標(biāo)注。這些標(biāo)注可能是由用戶顯式提供的絕對信息,如一個(gè)網(wǎng)頁和查詢詞是非常相關(guān)、相關(guān)還是不相關(guān)等;也可能是從搜索引擎的用戶行為中挖掘出來的相對信息,如某個(gè)網(wǎng)頁是否比另外一個(gè)網(wǎng)頁更加相關(guān)。為了從這些標(biāo)注數(shù)據(jù)中學(xué)到最優(yōu)的排序模型,通常需要定義3個(gè)部分:一是表征網(wǎng)頁信息的特征向量(如詞頻、頁面分級(PageRank)等)和網(wǎng)頁間關(guān)系的特征向量(如網(wǎng)頁相似度等);二是模型的基本形式(如線性、非線性等);三是用來控制學(xué)習(xí)過程的損失函數(shù)(它衡量了當(dāng)前模型的排序結(jié)果和標(biāo)注信息之間的差別)。極小化損失函數(shù)可以得到與標(biāo)注數(shù)據(jù)最吻合的模型參數(shù)。經(jīng)過優(yōu)化的模型將用于回答新的查詢詞。給定新的查詢詞,首先通過倒排表找到包含該查詢詞的網(wǎng)頁,然后為每個(gè)網(wǎng)頁提取特征向量,并將排序模型應(yīng)用到這些特征向量上,從而給每個(gè)網(wǎng)頁輸出一個(gè)分?jǐn)?shù),最后將網(wǎng)頁按照分?jǐn)?shù)的降序進(jìn)行排列并返回給用戶。

    目前針對相關(guān)性的排序?qū)W習(xí)算法效果已經(jīng)做得很好,部分算法甚至還應(yīng)用到了搜索引擎的部分模塊中。然而一個(gè)好的排序不僅依賴于相關(guān)性,多樣化也是一個(gè)重要考慮。其目標(biāo)在于在排序結(jié)果的頂部盡量多地展現(xiàn)不同子話題的網(wǎng)頁,因此在排序的同時(shí)需要考慮網(wǎng)頁間的相似度。然而,這種解決方案的難點(diǎn)在于傳統(tǒng)的排序算法都以查詢和單個(gè)文檔作為輸入,計(jì)算查詢—文檔相關(guān)性很難將文檔間的關(guān)系融入排序模型內(nèi)。

    為了解決上述問題,有的研究者們直接利用結(jié)構(gòu)化支持向量機(jī)直接優(yōu)化多樣化排序評價(jià)準(zhǔn)則[21],樂(Yue)等[22]也利用結(jié)構(gòu)化支持向量機(jī)尋找最佳文檔子集。然而,由于上述算法沒有對排序模型進(jìn)行本質(zhì)上的改變,模型仍然難以勝任多樣化排序任務(wù)。

    朱(Zhu)等人[23]提出了關(guān)系排序?qū)W習(xí)模型R-LTR, 其基本思想是:利用傳統(tǒng)的搜索結(jié)果多樣化模型MMR的思想,使用序列文檔選擇的方式構(gòu)造文檔排序,即從序列的頂部開始,依次選擇排在每一個(gè)位置上的文檔。在每一次進(jìn)行文檔選擇時(shí),考慮查詢—文檔的相關(guān)性和當(dāng)前文檔與已選擇文檔間的相似性,如圖4所示。

    因此,R-LTR模型的參數(shù)分成兩個(gè)部分:第一部分為相關(guān)性參數(shù),其對應(yīng)的特征描述了與查詢—文檔之間匹配的情況和文檔的重要性等;第二部分為文檔關(guān)系參數(shù),其對應(yīng)的特征描述了文檔—文檔之間的關(guān)系,包括文檔在話題、詞等級別的相似性等。在訓(xùn)練過程中,R-LTR通過最大化似然的方式進(jìn)行參數(shù)估計(jì)。在TREC標(biāo)注數(shù)據(jù)集合上的測試表明,在搜索結(jié)果多樣化的任務(wù)上,R-LTR能夠超過傳統(tǒng)的排序?qū)W習(xí)模型,取得了顯著的效果提升。

    夏(Xia)等人[24]針對R-LTR算法只利用了“正例”排序(如α-NDCG=1的最佳排序)進(jìn)行訓(xùn)練的問題,提出了PAMM算法,其主要思想是:同時(shí)利用“正例”排序和“負(fù)例”排序進(jìn)行訓(xùn)練;在排序過程中直接優(yōu)化多樣化排序評價(jià)準(zhǔn)則。實(shí)驗(yàn)結(jié)果表明,上述改進(jìn)方法進(jìn)一步改善了搜索結(jié)果多樣化的排序效果,且使得算法具有優(yōu)化制定的評價(jià)準(zhǔn)則的能力。

    盡管上述各項(xiàng)工作取得了一定的成功,但是由于搜索結(jié)果多樣化任務(wù)本身的復(fù)雜性,且評價(jià)準(zhǔn)則本身不連續(xù)、不可導(dǎo),使得直接對其進(jìn)行優(yōu)化仍然存在很多困難。相關(guān)的學(xué)習(xí)算法可能無法收斂或者很容易陷入局部極值點(diǎn)。總體上講,這個(gè)方向還面臨很多挑戰(zhàn),需要不斷探索。另外,是否能夠利用深度學(xué)習(xí)的方法自動(dòng)學(xué)習(xí)多樣性排序的特征和樣本之間的依賴關(guān)系也是一個(gè)非常有前景的方向。

    圖4 順序文檔選擇過程

    3 結(jié)束語

    綜上所述,內(nèi)容分析成為理解網(wǎng)絡(luò)大數(shù)據(jù)的重要手段。其中,短文本主題建模、單詞表達(dá)學(xué)習(xí)和多樣性排序?qū)W習(xí)是網(wǎng)絡(luò)大數(shù)據(jù)內(nèi)容分析的熱點(diǎn)問題。隨著網(wǎng)絡(luò)大數(shù)據(jù)的發(fā)展,這些方向還存在很多值得探討的科學(xué)問題,例如多源異構(gòu)數(shù)據(jù)的主題建模、如何有效利用監(jiān)督信息得到特定主題的單詞表達(dá)以及如何使用深度學(xué)習(xí)的方法來自動(dòng)學(xué)習(xí)多樣性的特征等。這些問題的解決有助于更好地理解和挖掘網(wǎng)絡(luò)大數(shù)據(jù),從而達(dá)到內(nèi)容分析的目的,為精準(zhǔn)檢索、推薦等應(yīng)用提供支持。

    [1] Hofmann T. Probabilistic latent semantic analysis. Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence, Stockholm, Sweden, 1999

    [2] Blei D M, Ng A Y, Jordan M I. Latentdirichlet allocation. The Journal of Machine Learning Research, 2003, 3: 993~1022

    [3] Metzler D, Dumais S, Meek C. Similarity measures for short segments of text. Proceedings of the 29th European Conference on IR Research, Rome, Italy, 2007: 16~27

    [4] Hong L, Davison B. Empirical study of topic modeling in Twitter. Proceedings of the 1st Workshop on Social Media Analytics, Washington DC, USA, 2010: 80~88

    [5] Zhao W, Jiang J, Weng J,et al. Comparing Twitter and traditional media using topic models, Proceedings of the 33rd European Conference on IR Research, Dublin, Ireland, 2011: 338~349

    [6] Lakkaraju H, Bhattacharya I, Bhattacharyya C. Dynamic multirelational Chinese restaurant process for analyzing influences on users in social media. Proceedings of the 12th IEEE International Conference on Data Mining, Brussels, Belgium, 2012

    [7] Yan X H, Guo J F, Lan Y Y,et al. A biterm topic model for short texts. Proceedings of the 22nd International Conference on World Wide Web, Rio de Janeiro, Brazil, 2013: 1445~1456

    [8] Cheng X Q, Yan X H, Lan Y Y,et al. BTM: topic modeling over short texts. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(12): 2928~2941

    [9] Yan X H, Guo J F, Lan Y Y,et al. A probabilistic model for bursty topic discovery in microblogs. Proceedings of the 29th AAAI Conference on Artificial Intelligence, Austin Texas, USA, 2015

    [10] Bengio Y, Ducharme R, Vincent P,et al. A neural probabilistic language model. Journal of Machine Learning Research, 2003, 3: 1137~1155

    [11] Morin F, Bengio Y. Hierarchical probabilistic neural network language model. Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, Barbados, 2005

    [12] Mnih A, Hinton G. Three new graphical models for statistical language modelling. Proceedings of the 24th International Conference on Machine Learning, New York, USA, 2007: 641~648

    [13] Mnih A, Hinton G E. A scalable hierarchical distributed language model. Proceedings of the 23rd Annual Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2009

    [14] Mnih A, Kavukcuoglu K. Learning word embeddings efficiently with noisecontrastive estimation. Proceedings of the 27th Annual Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada, USA, 2013

    [15] Mikolov T, Chen K, Corrado G,et al. Efficient estimation of word representations in vector space. Proceedings of Workshop of ICLR, Arizona, USA, 2013

    [16] Sun F, Guo J F, Lan Y Y,et al. Learning word representation by jointly modeling syntagmatic and paradigmatic relations. Proceedings of the 53rd Annual Metting of the Association for Computational Linguistics, Beijing, China, 2015

    [17] Robertson S E. Overview of the okapi projects. Journal of Documentation, 1997, 53(1): 3~7

    [18] Zhai C, Lafferty J. A study of smoothing methods for language models applied to Ad Hoc information retrieval. Proceedings of the 24th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, New Orleans, USA, 2001: 334~342

    [19] Carbonell J, Goldstein J. The use of mmr, diversity-based reranking for reordering documents and producing summaries. Proceedings of the 21st Annual International ACM SIGIR Conference on Research & Development on InformationRetrieval, Melbourne, Australia, 1998: 335~336

    [20] Liu T Y. Learning to Rank for Information Retrieval. New York: Springer-Verlag New York Inc, 2011

    [21] Liang S S, Ren Z C, Maarten D R. Personalized search result diversification via structured learning. In Proceedings of the 20th ACM SIGKDD, New York, USA, 2014: 751~760

    [22] Yue Y, Joachims T. Predicting diverse subsets using structural svms. Proceedings of the 25th ICML, Helsinki, Finland, 2008:1224~1231

    [23] Zhu Y, Lan Y, Guo J,et al. Learning for search result diversification. Proceedings of the 37th Annual International ACM SIGIR Conference on Research & Development on Information Retrieval, Gold Coast, QLD, Australia, 2014: 293~302

    [24] Xia L, Xu J, Lan Y Y,et al. Learning maximal marginal relevance model via directly optimizing diversity evaluation measures. Proceedings of the 38th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Santiago, Chile, 2015

    程學(xué)旗,男,中國科學(xué)院計(jì)算技術(shù)研究所研究員、博士生導(dǎo)師,中國科學(xué)院“網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)”重點(diǎn)實(shí)驗(yàn)室主任,目前主要從事網(wǎng)絡(luò)數(shù)據(jù)科學(xué)和社會計(jì)算等研究領(lǐng)域的工作,主持和參與多項(xiàng)國家“973”計(jì)劃、“863”計(jì)劃、國家自然科學(xué)基金項(xiàng)目和國家自然科學(xué)基金委杰出青年基金項(xiàng)目,并多次榮獲國家科技進(jìn)步獎(jiǎng)一等獎(jiǎng)。近年來,在IEEE TKDE、ACM SIGIR、WWW等本領(lǐng)域頂級期刊與國際會議發(fā)表論文40余篇,并榮獲CIKM最佳論文獎(jiǎng)和SIGIR最佳學(xué)生論文獎(jiǎng)。

    蘭艷艷,女,中國科學(xué)院計(jì)算技術(shù)研究所副研究員、碩士生導(dǎo)師,目前主要從事機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域的研究工作,在ACM SIGIR、NIPS、ICML等本領(lǐng)域頂級會議發(fā)表論文20余篇,并榮獲SIGIR最佳學(xué)生論文獎(jiǎng)。

    Cheng X Q, Lan Y Y. Text content analysis for web big data. Big Data Research, 2015029

    Text Content Analysis for Web Big Data

    Cheng Xueqi, Lan Yanyan
    Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100019, China

    Text content analysis is an effective way to understand and acquire the “value” of big fata. The challenges and research results were investigated in the three hot topics: topic modeling for short texts, word embedding and learning to rank for web pages. In the end, some remaining problems in this area were proposed.

    text content analysis, topic modeling for short texts, word embedding, learning to rank

    10.11959/j.issn.2096-0271.2015029

    2015-08-16

    國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)基金資助項(xiàng)目(No.2014CB340402),國家自然科學(xué)基金資助項(xiàng)目(No.61170008,No.61272055)

    Foundation Items:The National Basic Research Program of China(973 Program)( No.2014CB340402), The National Natural Science Foundation of China (No.61170008,No.61272055)

    程學(xué)旗,蘭艷艷. 網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析. 大數(shù)據(jù), 2015029

    猜你喜歡
    短文文檔排序
    排序不等式
    有人一聲不吭向你扔了個(gè)文檔
    恐怖排序
    節(jié)日排序
    KEYS
    Keys
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    短文改錯(cuò)
    嘉义县| 潜江市| 沐川县| 宿松县| 珠海市| 阿城市| 元江| 梅河口市| 沙雅县| 安图县| 溆浦县| 岫岩| 靖边县| 高阳县| 阳山县| 炎陵县| 石棉县| 天镇县| 宜昌市| 商河县| 海南省| 鸡西市| 伊宁市| 漳州市| 加查县| 高安市| 确山县| 子洲县| 阿合奇县| 安图县| 遵义县| 疏附县| 社会| 千阳县| 江达县| 巴塘县| 黄龙县| 扎鲁特旗| 五常市| 康保县| 开封市|