• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)分析引擎

    2015-03-17 02:53:30竇志成文繼榮
    大數(shù)據(jù) 2015年3期
    關(guān)鍵詞:引言

    竇志成,文繼榮

    中國人民大學(xué)信息學(xué)院大數(shù)據(jù)管理與分析方法研究北京市重點(diǎn)實(shí)驗(yàn)室 北京 100872

    大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)分析引擎

    竇志成,文繼榮

    中國人民大學(xué)信息學(xué)院大數(shù)據(jù)管理與分析方法研究北京市重點(diǎn)實(shí)驗(yàn)室 北京 100872

    隨著互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)文檔的數(shù)量、內(nèi)容的豐富度和復(fù)雜度都大大增加,互聯(lián)網(wǎng)正朝大數(shù)據(jù)時(shí)代邁進(jìn),而用戶的信息需求也趨于復(fù)雜化。除了基本的信息檢索需求外,對(duì)大量相關(guān)文檔的深入理解與聚合分析的需求也越來越強(qiáng)烈,而傳統(tǒng)的互聯(lián)網(wǎng)搜索引擎已經(jīng)無法滿足人們對(duì)該類信息的需求。針對(duì)這一問題,提出“互聯(lián)網(wǎng)分析引擎”的構(gòu)想,闡述了其與搜索引擎和OLAP分析系統(tǒng)的區(qū)別,介紹了一種互聯(lián)網(wǎng)分析引擎的架構(gòu),并詳細(xì)討論了實(shí)現(xiàn)該引擎的核心問題。

    互聯(lián)網(wǎng)大數(shù)據(jù);分析引擎;數(shù)據(jù)感知與采集

    1 引言

    隨著移動(dòng)互聯(lián)網(wǎng)、智能手機(jī)、社交媒體、自媒體技術(shù)的飛速發(fā)展以及“互聯(lián)網(wǎng)+”戰(zhàn)略的推廣,互聯(lián)網(wǎng)對(duì)個(gè)人生活方式的影響進(jìn)一步深化?;ヂ?lián)網(wǎng)從原來僅提供資料發(fā)布、信息共享、鏈接互聯(lián)等簡單功能,開始轉(zhuǎn)變?yōu)槿藗兩钪斜夭豢缮俚男畔@取和溝通娛樂的工具,并且發(fā)展為與醫(yī)療、教育、交通等公用服務(wù)深度融合的民生服務(wù)。海量的普通用戶也逐漸從信息的瀏覽者變成了信息的制造者。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2015年6月,中國網(wǎng)站總數(shù)為357萬個(gè),網(wǎng)民規(guī)模達(dá)6.68億戶,手機(jī)網(wǎng)民規(guī)模達(dá)5.94億戶[1]?;ヂ?lián)網(wǎng)上的信息呈現(xiàn)幾何級(jí)的增長,體量大、變化快、復(fù)雜多樣,呈現(xiàn)出典型的大數(shù)據(jù)特征。

    互聯(lián)網(wǎng)大數(shù)據(jù)的飛速增長給人們生活帶來便利的同時(shí),也導(dǎo)致“信息過載”問題日趨嚴(yán)重。例如,2014年3月8日“馬航失聯(lián)”事件發(fā)生后,截至2014年5月21日,僅在百度中被索引的相關(guān)網(wǎng)頁數(shù)量就有500多萬篇,新浪微博上關(guān)于“MH370”的微博有1 580萬條,并產(chǎn)生了大量的轉(zhuǎn)發(fā)和評(píng)論。如此大量的數(shù)據(jù)和信息往往超過了個(gè)人所能接受的范圍。首先,用戶從如此海量的互聯(lián)網(wǎng)數(shù)據(jù)中查找和瀏覽有用信息變得越來越困難;其次,用戶在查找有用信息的同時(shí)會(huì)遇到大量的冗余信息;此外,用戶在海量的文本內(nèi)容中進(jìn)行匯總和理解非常困難。信息檢索技術(shù)和互聯(lián)網(wǎng)搜索引擎[2]在一定程度上能夠解決上述問題。搜索引擎可以幫用戶從海量互聯(lián)網(wǎng)文檔中檢索到和用戶需求關(guān)鍵詞相關(guān)的文檔,并按照相關(guān)性高低進(jìn)行排序。截至2015年6月,中國搜索引擎用戶規(guī)模達(dá) 5.36 億戶,使用率為 80.3%,搜索引擎是中國網(wǎng)民除了即時(shí)通信外使用率最高的互聯(lián)網(wǎng)應(yīng)用,并成為人們從互聯(lián)網(wǎng)獲取信息的一個(gè)必不可少的工具。但是,隨著互聯(lián)網(wǎng)數(shù)據(jù)的不斷增加以及數(shù)據(jù)類型的日趨復(fù)雜,搜索引擎已經(jīng)不能很好地滿足用戶對(duì)于信息的深入分析與理解的需求。搜索引擎本質(zhì)上只能夠提供基本的檢索功能,而用戶往往具有高階知識(shí)獲取的需求。例如,當(dāng)用戶在搜索引擎中搜索“馬航失聯(lián)”的時(shí)候,很有可能不是在尋找某一條特定新聞或網(wǎng)頁,而是希望獲取對(duì)整個(gè)事件或最近進(jìn)展的一個(gè)高度濃縮的知識(shí)或結(jié)論,如了解“馬航失聯(lián)”事件中各個(gè)搜救階段的主要進(jìn)行地點(diǎn)和負(fù)責(zé)機(jī)構(gòu)以及它們之間的關(guān)聯(lián)關(guān)系。用戶在搜索“天津?yàn)I海爆炸”時(shí),是需要了解整個(gè)事件的起因、損失情況、救援過程、相關(guān)企業(yè)信息、民眾觀點(diǎn)等各方面信息。目前,搜索引擎不能滿足用戶這種對(duì)大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)的深層次聚合分析的需求。用戶只能先通過搜索引擎或其他應(yīng)用獲取相關(guān)網(wǎng)頁列表,然后逐一閱讀每個(gè)網(wǎng)頁來對(duì)相關(guān)內(nèi)容進(jìn)行理解和匯總,才能總結(jié)出這些檢索結(jié)果中蘊(yùn)含的高階知識(shí)。這一過程非常耗時(shí)耗力,而在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,用戶也不可能逐一閱讀所有相關(guān)文檔。例如在“馬航失聯(lián)”事件上,百度搜索引擎返回的相關(guān)文檔有500多萬篇,超出了普通用戶可以閱讀的范圍。用戶迫切需要一種新的能夠幫助用戶完成復(fù)雜分析任務(wù)的系統(tǒng)。和互聯(lián)網(wǎng)搜索引擎提供的“搜索”功能不同,該系統(tǒng)能夠?qū)A炕ヂ?lián)網(wǎng)大數(shù)據(jù)進(jìn)行深入分析,因此稱之為“互聯(lián)網(wǎng)分析引擎”?;ヂ?lián)網(wǎng)分析引擎就像一個(gè)“超人”,代替普通用戶完成對(duì)大規(guī)模文檔的閱讀和理解,并對(duì)其中所包含的關(guān)鍵信息與知識(shí)進(jìn)行抽取、挖掘和匯總,并最終通過交互式的分析過程讓用戶對(duì)挖掘到的高階知識(shí)進(jìn)行瀏覽和分析,進(jìn)而為用戶決策提供支持。本文將介紹互聯(lián)網(wǎng)分析引擎設(shè)計(jì)構(gòu)架與數(shù)據(jù)處理流程,并對(duì)其中關(guān)鍵研究問題進(jìn)行詳細(xì)闡述。

    2 互聯(lián)網(wǎng)分析引擎

    分析引擎旨在提供給用戶一個(gè)基于海量互聯(lián)網(wǎng)大數(shù)據(jù)的多維分析服務(wù),而不僅僅是搜索。搜索引擎重點(diǎn)解決“用戶需求的信息在哪里”。給定用戶查詢后,搜索引擎返回網(wǎng)頁或網(wǎng)站列表。例如,若用戶查詢“霧霾”,搜索引擎可返回一系列關(guān)于霧霾的網(wǎng)頁和新聞。很多情況下,返回的結(jié)果并不能直接滿足用戶的信息需求。用戶仍然需要自己瀏覽、總結(jié)和歸納文檔中相關(guān)信息。而分析引擎試圖在滿足用戶信息需求的方向上邁進(jìn)一步,除了找到相關(guān)結(jié)果外,還要重點(diǎn)回答“這些相關(guān)信息從統(tǒng)計(jì)上有什么特征”。一個(gè)簡單的分析引擎中查詢“霧霾”的部分輸出結(jié)果示例如圖1所示。該分析引擎可返回霧霾成因、霧霾治理、霧霾成分等維度的內(nèi)容以及它們的重要性,還可返回關(guān)于霧霾的機(jī)構(gòu)、地點(diǎn)、人物、話題、事件等維度以及它們?cè)诨ヂ?lián)網(wǎng)上的熱度隨時(shí)間變化的趨勢(shì)。分析引擎還允許用戶在分析結(jié)果上進(jìn)行交互。例如,用戶在分析結(jié)果上選擇人物“柴靜”,則可進(jìn)一步分析出在霧霾這一問題上,與柴靜相關(guān)的互聯(lián)網(wǎng)信息中其他各維度內(nèi)容的分布情況:相關(guān)的最熱話題是“穹頂之下”,相關(guān)話題的討論時(shí)間范圍是2015年2-3月,這個(gè)子話題的相關(guān)人物還包括陳吉寧等。

    2.1 與搜索引擎的對(duì)比

    互聯(lián)網(wǎng)分析引擎和現(xiàn)在廣泛使用的互聯(lián)網(wǎng)搜索引擎的功能對(duì)比如圖2所示。在搜索引擎的處理邏輯中,文檔是基本的檢索單位。搜索引擎的核心任務(wù)是匹配用戶查詢?cè)~q和互聯(lián)網(wǎng)上存在的文檔d,計(jì)算它們的相關(guān)性,進(jìn)而篩選出滿足用戶意圖的文檔子集,并按照相關(guān)性高低進(jìn)行排序輸出。近年來,雖然各大商業(yè)搜索引擎也在不斷改變和豐富SERP(search result page,搜索結(jié)果頁面)的內(nèi)容,例如集成知識(shí)圖譜搜索的內(nèi)容,但搜索結(jié)果的主體仍然是網(wǎng)頁列表。與搜索引擎類似,互聯(lián)網(wǎng)分析引擎也以查詢?cè)~為用戶需求的基本表達(dá)方式,這一方式延續(xù)了這一簡單的輸入方式給用戶帶來的便利性。但分析引擎打破了搜索引擎的模式。

    第一,系統(tǒng)返回的不再是簡單的文檔列表,而是高階知識(shí)k。這些知識(shí)往往不以具體的形式存在于某個(gè)特定互聯(lián)網(wǎng)文檔中,必須對(duì)大量文檔內(nèi)容進(jìn)行理解分析和統(tǒng)計(jì)后才能得到。

    第二,分析引擎額外強(qiáng)調(diào)了時(shí)間維度。一方面,分析引擎期望對(duì)歷史所有文檔進(jìn)行統(tǒng)計(jì)分析,結(jié)果中可明確地對(duì)時(shí)間維度進(jìn)行建模和分析,而現(xiàn)在的搜索引擎一般僅對(duì)最新版本的網(wǎng)頁進(jìn)行抓取和處理,這往往忽略了時(shí)間維度上所隱含的有用信息;另一方面,在分析引擎中,所處理文檔的生成時(shí)間和查詢時(shí)間的間隔要盡量小,即強(qiáng)調(diào)分析結(jié)果的實(shí)時(shí)性,而普通的搜索引擎對(duì)時(shí)效性的要求并不高。

    第三,傳統(tǒng)搜索引擎能夠主要通過簡單結(jié)果列表的方式展示檢索結(jié)果,而互聯(lián)網(wǎng)分析引擎的結(jié)果展現(xiàn)和用戶交互方式更接近數(shù)據(jù)倉庫系統(tǒng)中的OLAP(online analytical processing,在線聯(lián)機(jī)分析處理)系統(tǒng)[3,4]。主要通過折線圖、直方圖、面積圖、堆積圖、餅圖、多坐標(biāo)軸圖等統(tǒng)計(jì)圖表的形式對(duì)基于文本立方體的分析結(jié)果進(jìn)行展示,并允許用戶基于這些圖表進(jìn)行鉆?。╠rill-up和drill-down)、切片(slice)、切塊(dice)以及旋轉(zhuǎn)(pivot)等操作,以完成對(duì)相關(guān)內(nèi)容的全方位分析。搜索引擎和分析引擎的其他對(duì)比見表1。

    圖1 分析引擎中查詢“霧霾”的交互式結(jié)果示例

    圖2 搜索引擎和分析引擎功能

    高效率的檢索系統(tǒng)和高質(zhì)量的檢索結(jié)果是獲得準(zhǔn)確分析結(jié)果的前提?;ヂ?lián)網(wǎng)搜索引擎的底層技術(shù)對(duì)實(shí)現(xiàn)高性能、高質(zhì)量的分析引擎提供了基礎(chǔ)?;ヂ?lián)網(wǎng)搜索引擎主要采用倒排表的方式對(duì)文檔進(jìn)行全文索引,并通過對(duì)查詢?cè)~對(duì)應(yīng)的倒排索引列表進(jìn)行高效的集合操作來匹配文檔和查詢關(guān)鍵詞。搜索引擎在這種高效文檔匹配的相關(guān)技術(shù)上已經(jīng)非常成熟。給定查詢?cè)~,搜索引擎通??梢栽诤撩爰?jí)別的時(shí)間內(nèi)從數(shù)十億的互聯(lián)網(wǎng)文檔中匹配到相關(guān)文檔,選擇出相關(guān)性最高的前N個(gè)結(jié)果返回給用戶。在這個(gè)過程中應(yīng)用了一系列技術(shù)來提高系統(tǒng)性能。例如,通過對(duì)文檔進(jìn)行預(yù)處理以便進(jìn)行高效的Top k文檔初選[5],從而大大減少后續(xù)操作涉及的文檔數(shù)量。文檔相關(guān)性打分等操作僅僅需要在小規(guī)模的滿足初選條件的文檔集上進(jìn)行,這將大幅度提高檢索性能。并且僅僅需要對(duì)要顯示給用戶的某一頁文檔(通常是10個(gè))生成摘要,而不是對(duì)所有匹配文檔都生成摘要,也大大節(jié)省了磁盤讀取和CPU計(jì)算代價(jià)。而在互聯(lián)網(wǎng)分析引擎中,搜索引擎中的某些優(yōu)化策略將不再生效。例如,分析引擎通常需要對(duì)匹配到的所有文檔進(jìn)行匯總和計(jì)算。如果僅僅在返回的前幾個(gè)結(jié)果上應(yīng)用分析操作,則很可能因?yàn)閿?shù)據(jù)量不足導(dǎo)致分析結(jié)果不準(zhǔn)確。這意味著分析引擎的I/O和CPU開銷將遠(yuǎn)遠(yuǎn)高于搜索引擎。

    表1 搜索引擎和分析引擎對(duì)比

    2.2 與OLAP技術(shù)的區(qū)別和聯(lián)系

    OLAP系統(tǒng)[3,4]是一種基于結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)倉庫的分析系統(tǒng),專門用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持。最為常見的方法就是基于多維數(shù)據(jù)構(gòu)建數(shù)據(jù)立方體(cube)模型。通過大量的預(yù)聚集計(jì)算,生成支持多維分析的數(shù)據(jù)立方體,并在此基礎(chǔ)上支持下鉆、上卷、切片、切塊、旋轉(zhuǎn)等OLAP操作[6~8]。

    OLAP主要構(gòu)建在結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上,而互聯(lián)網(wǎng)分析引擎處理的對(duì)象則主要是非結(jié)構(gòu)化的互聯(lián)網(wǎng)文檔,如網(wǎng)頁、微博、帖子等。與傳統(tǒng)的OLAP多維分析技術(shù)相比,互聯(lián)網(wǎng)分析引擎的挑戰(zhàn)更大,主要原因如下。

    (1)數(shù)據(jù)無結(jié)構(gòu)。大部分互聯(lián)網(wǎng)文檔是無結(jié)構(gòu)的文本數(shù)據(jù),無法像結(jié)構(gòu)化數(shù)據(jù)一樣預(yù)定義數(shù)據(jù)模式(schema),因此處理起來更為復(fù)雜。例如在電信業(yè)大數(shù)據(jù)中,基本的通話記錄可由主叫號(hào)碼、被叫號(hào)碼、通話時(shí)長、主叫地點(diǎn)、被叫地點(diǎn)等可枚舉的強(qiáng)類型字段構(gòu)成,并且這些字段的值一般可由數(shù)據(jù)源直接獲取。文本數(shù)據(jù)一般由自然語言生成,每個(gè)無模式的文檔記錄由不定個(gè)數(shù)的單字構(gòu)成,不具有可確定的字段。

    (2)依賴于復(fù)雜的自然語言理解技術(shù)。如前所述,文本數(shù)據(jù)一般由自然語言生成。如果希望在單字的基礎(chǔ)上進(jìn)一步理解文本包含的語義和知識(shí),例如理解文本包含的實(shí)體(人、地點(diǎn)、機(jī)構(gòu)、時(shí)間等),則要依賴于復(fù)雜的文本挖掘和自然語言理解技術(shù)。通過自然語言理解技術(shù)獲取結(jié)構(gòu)化內(nèi)容的準(zhǔn)確性往往依賴于所采用的分析技術(shù),因此分析引擎中數(shù)據(jù)中的不確定性因素更多,可疑性(veracity)更高。

    (3)開放主題。文本數(shù)據(jù)的主題和值域是開放的。在傳統(tǒng)的分析服務(wù)中,每個(gè)應(yīng)用的主題是唯一或者有限的。在整個(gè)數(shù)據(jù)集一般可建立有限個(gè)數(shù)的數(shù)據(jù)立方體,通過固定的維度(如區(qū)域和時(shí)間等)對(duì)其進(jìn)行統(tǒng)計(jì)和分析。而互聯(lián)網(wǎng)數(shù)據(jù)的主題是開放的。例如,每天的互聯(lián)網(wǎng)文檔可能是在分別描述成千上萬個(gè)無任何關(guān)系的主題,每個(gè)主題所涉及的維度和文檔可能完全不同,其復(fù)雜度遠(yuǎn)遠(yuǎn)高于OLAP系統(tǒng)。

    近年來也有部分學(xué)者開始研究如何將OLAP技術(shù)應(yīng)用在分析大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)上。但目前的研究主要針對(duì)語義網(wǎng)和RDF數(shù)據(jù)[9,10]。如何將OLAP技術(shù)應(yīng)用在大規(guī)?;ヂ?lián)網(wǎng)文檔上來實(shí)現(xiàn)互聯(lián)網(wǎng)分析引擎,仍然是一個(gè)未被深入研究和討論的問題。

    2.3 小結(jié)

    事實(shí)上,在數(shù)據(jù)庫和數(shù)據(jù)挖掘領(lǐng)域,OLAP是為了解決OLTP(online transaction processing,在線事務(wù)處理)系統(tǒng)分析處理能力低下的問題而被提出的。在互聯(lián)網(wǎng)上,搜索引擎相當(dāng)于一個(gè)OLTP系統(tǒng)。用戶的每一個(gè)查詢,搜索引擎都能快速地返回檢索結(jié)果集。但和OLTP的問題類似,搜索引擎無法有效支持分析處理的需求,而互聯(lián)網(wǎng)分析引擎也正是為了解決這一問題而生。因此,可以把互聯(lián)網(wǎng)分析引擎看作互聯(lián)網(wǎng)搜索引擎和OLAP技術(shù)的合體,或者說互聯(lián)網(wǎng)分析引擎是面向海量互聯(lián)網(wǎng)非結(jié)構(gòu)化大數(shù)據(jù)的OLAP系統(tǒng)。

    3 互聯(lián)網(wǎng)分析引擎的設(shè)計(jì)

    如前所述,互聯(lián)網(wǎng)分析引擎和搜索引擎及OLAP系統(tǒng)都是緊密相關(guān)的,在設(shè)計(jì)分析引擎時(shí),可充分吸收和利用現(xiàn)有系統(tǒng)和算法中的優(yōu)點(diǎn),并將二者進(jìn)行有機(jī)結(jié)合。簡單的想法是先通過搜索引擎技術(shù)檢索到相關(guān)文檔,然后利用OLAP分析技術(shù)對(duì)檢索結(jié)果進(jìn)行分析。

    一個(gè)簡單的互聯(lián)網(wǎng)分析系統(tǒng)架構(gòu)如圖3所示。整個(gè)系統(tǒng)分為離線處理和在線處理兩個(gè)部分。離線部分主要完成數(shù)據(jù)獲取并將文本處理成結(jié)構(gòu)化數(shù)據(jù),對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行索引。在線處理部分主要完成相關(guān)文檔檢索并基于檢索到的結(jié)果,對(duì)其中包含的結(jié)構(gòu)化知識(shí)信息進(jìn)行高效率的匯總分析操作。

    3.1 離線處理

    離線部分主要包括互聯(lián)網(wǎng)數(shù)據(jù)采集、文檔理解及結(jié)構(gòu)化數(shù)據(jù)抽取、數(shù)據(jù)索引等幾個(gè)部分。

    (1)數(shù)據(jù)采集部分與搜索引擎中的數(shù)據(jù)采集系統(tǒng)類似,使用網(wǎng)絡(luò)爬蟲對(duì)互聯(lián)網(wǎng)內(nèi)容進(jìn)行抓取。但互聯(lián)網(wǎng)分析引擎在數(shù)據(jù)抓取時(shí)還需要考慮抓取周期和抓取策略對(duì)最終分析結(jié)果的影響,避免因?yàn)閿?shù)據(jù)抓取不及時(shí)或者數(shù)據(jù)來源分布不均衡而影響分析結(jié)果的一致性和可比性。

    圖3 分析引擎架構(gòu)

    (2)文檔理解部分主要是利用自然語言處理及信息檢索技術(shù),對(duì)互聯(lián)網(wǎng)文檔內(nèi)容進(jìn)行深入分析,從無結(jié)構(gòu)的文本數(shù)據(jù)中抽取結(jié)構(gòu)化信息,并將這些結(jié)構(gòu)化數(shù)據(jù)作為該文檔的屬性或字段進(jìn)行存儲(chǔ)。將無結(jié)構(gòu)的互聯(lián)網(wǎng)文檔轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)后,才能應(yīng)用OLAP等多維分析技術(shù)對(duì)文檔進(jìn)行分析??蛇M(jìn)行的文本理解工作包括:文檔正文及相關(guān)屬性(標(biāo)題、時(shí)間、作者、主要圖片等)抽取、文檔內(nèi)容段落及句子切分、文本分詞、命名實(shí)體(時(shí)間、地點(diǎn)、人物、機(jī)構(gòu)等)識(shí)別、動(dòng)詞、專有名詞抽取、情感分析及情感詞抽取、關(guān)鍵詞抽取、引言、語錄抽取、知識(shí)庫實(shí)體匹配及消歧等。

    (3)數(shù)據(jù)索引部分對(duì)互聯(lián)網(wǎng)文檔內(nèi)容建立高效索引,以支撐高效的在線檢索和分析操作。與搜索引擎類似,在文檔內(nèi)容上建立倒排索引,用以支持基于關(guān)鍵詞的文檔檢索。而對(duì)于從文檔中抽取出來的結(jié)構(gòu)化屬性,則可能既需要建立倒排索引,也需要建立正向索引。倒排索引用于在切片和切塊過程中快速匹配篩選維度,而正向索引用于快速獲取自定文檔的屬性。

    3.2 在線處理

    在線處理部分負(fù)責(zé)接收用戶查詢,檢索相關(guān)文檔,并應(yīng)用OLAP技術(shù),快速檢索、構(gòu)建或更新文本立方體。在整個(gè)在線處理流程中,基于信息檢索和搜索引擎的積累,檢索相關(guān)文檔所用的時(shí)間較短。在進(jìn)行多維分析時(shí),需要讀取到所有相關(guān)文檔的結(jié)構(gòu)化屬性內(nèi)容,并需要對(duì)這些內(nèi)容按照維度進(jìn)行匯總和計(jì)算操作。與檢索相關(guān)文檔相比,在檢索結(jié)果上進(jìn)行多維分析的時(shí)間代價(jià)要高得多。

    4 技術(shù)要點(diǎn)與難點(diǎn)

    4.1 數(shù)據(jù)質(zhì)量控制及可信度評(píng)估

    提供可靠、可信、有理有據(jù)的分析結(jié)果是互聯(lián)網(wǎng)分析引擎能夠?qū)嵱貌⑶彝茝V的前提條件?;ヂ?lián)網(wǎng)分析引擎對(duì)質(zhì)量控制和可信度評(píng)估的相關(guān)技術(shù)要求要遠(yuǎn)遠(yuǎn)高于搜索引擎。搜索引擎采用了垃圾網(wǎng)頁識(shí)別技術(shù),盡量減少低質(zhì)量網(wǎng)頁出現(xiàn)的幾率,提高用戶滿意度。但事實(shí)上,搜索引擎為用戶返回的是在互聯(lián)網(wǎng)上真實(shí)存在的文檔(即使是低質(zhì)量的網(wǎng)頁),因此從某種意義上講,搜索引擎中不存在數(shù)據(jù)可靠性問題,因?yàn)橛脩粜枰约洪喿x網(wǎng)頁內(nèi)容、判別真?zhèn)尾⑿纬山Y(jié)論。而在分析引擎中,系統(tǒng)為用戶返回的不僅僅是真實(shí)存在的網(wǎng)頁,而且包括通過加工處理和聚合匯總后的數(shù)據(jù),如果這些數(shù)據(jù)是錯(cuò)誤或者有偏差的,則很可能直接導(dǎo)致用戶形成錯(cuò)誤的結(jié)論。因此,在分析引擎中,從數(shù)據(jù)采集、處理和分析的各個(gè)步驟,都需要進(jìn)行適當(dāng)?shù)馁|(zhì)量控制。例如,在進(jìn)行數(shù)據(jù)采集時(shí),適當(dāng)控制數(shù)據(jù)采集的廣度,避免片面采集某一網(wǎng)站的數(shù)據(jù)而造成偏差。同時(shí),在各個(gè)關(guān)鍵環(huán)節(jié)需要評(píng)估各處理對(duì)最終結(jié)果可信度的影響。如何在規(guī)模巨大、更新飛快、復(fù)雜多樣的互聯(lián)網(wǎng)大數(shù)據(jù)上,針對(duì)分析引擎的需求進(jìn)行質(zhì)量控制和可信度評(píng)估,是非常困難但也非常重要的研究課題。

    4.2 大規(guī)模文本立方體管理

    文本立方體是對(duì)某一查詢匹配的文檔中包含的結(jié)構(gòu)化屬性數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并建立的多維數(shù)據(jù)立方體。互聯(lián)網(wǎng)分析引擎中每個(gè)開放的主題或者每個(gè)查詢都可以建立一個(gè)對(duì)應(yīng)的文本立方體。不同的查詢都可以有不同維度和度量值的文本立方體,而且可以獨(dú)立管理。例如,查詢“馬航失聯(lián)”對(duì)應(yīng)了一個(gè)文本立方體,而“霧霾”則對(duì)應(yīng)了另外一個(gè)文本立方體,這兩個(gè)文本立方體中的數(shù)據(jù)、維度和值項(xiàng)都可以是不同的。單個(gè)文本立方體的規(guī)??赡苄∮趥鹘y(tǒng)的數(shù)據(jù)立方體,但會(huì)有大量小規(guī)模的文本立方體(many small cube)。這種大量小立方體的分析管理方式最大的優(yōu)點(diǎn)是靈活,每個(gè)查詢都可以進(jìn)行單獨(dú)的維度和度量值管理,而且對(duì)每個(gè)小立方體的創(chuàng)建和更新不影響其他立方體。同時(shí),這種設(shè)計(jì)也便于擴(kuò)展(scale out),當(dāng)用戶或查詢數(shù)量增加時(shí),可以簡單地增加服務(wù)器,并將立方體均勻分布在所有服務(wù)器上即可完成系統(tǒng)復(fù)雜均衡。LinkedIn公司的Wu等人[11]開發(fā)了針對(duì)互聯(lián)網(wǎng)級(jí)別OLAP分析的系統(tǒng)Avatara,解決了大量小立方體的問題,可以嘗試在互聯(lián)網(wǎng)分析引擎中應(yīng)用。

    除了創(chuàng)建和管理大量小規(guī)模文本立方體外,分析引擎中也可以試圖整合所有文本立方體而創(chuàng)建一個(gè)超大的通用文本立方體(one giant cube)。該超級(jí)立方體中包含所有互聯(lián)網(wǎng)文檔以及所有可能的維度及度量值。這種方式的好處是減少了大量文本立方體管理的代價(jià)。這種方式的問題是如果某個(gè)查詢或某類查詢下的分析維度發(fā)生變化時(shí),很可能需要重新對(duì)整個(gè)立方體進(jìn)行重建操作。當(dāng)查詢之間維度設(shè)置差異較大時(shí),在某些查詢下進(jìn)行相關(guān)維度的查詢和分析的代價(jià)可能要高于多個(gè)小文本立方體的設(shè)置。在系統(tǒng)擴(kuò)展方面,單個(gè)超級(jí)立方體的配置下對(duì)網(wǎng)絡(luò)之間的同步以及負(fù)載均衡的管理機(jī)制更為復(fù)雜。

    無論是哪種方式,如何高效地進(jìn)行文本立方體管理都是互聯(lián)網(wǎng)分析引擎要解決的核心問題,也是難點(diǎn)之一。文本立方體內(nèi)部存儲(chǔ)結(jié)構(gòu)如何設(shè)計(jì)、如何高效地創(chuàng)建文本立方體、如何動(dòng)態(tài)更新立方體、如何存儲(chǔ)和管理大量大規(guī)?;虼罅课谋玖⒎襟w,都是非常重要的研究問題。此外,互聯(lián)網(wǎng)分析引擎對(duì)數(shù)據(jù)的實(shí)時(shí)性要求較高,在文本立方體更新和查詢操作的同步上也需要仔細(xì)斟酌。

    4.3 分析維度挖掘與排序

    互聯(lián)網(wǎng)分析引擎的核心目標(biāo)是為用戶提供準(zhǔn)確且有效的多維分析結(jié)果。除了前文介紹的質(zhì)量控制和可行度評(píng)估外,如何挖掘出高價(jià)值的分析維度和度量項(xiàng)、如何對(duì)維度中的內(nèi)容進(jìn)行排序等也都是需要解決的問題。

    在維度發(fā)現(xiàn)與挖掘方面,一方面可預(yù)設(shè)一些通用性的維度,如時(shí)間、人物、機(jī)構(gòu)、地點(diǎn)等。同時(shí),還需要在這些基本維度的基礎(chǔ)上,挖掘出和用戶查詢主題相關(guān)的個(gè)性化維度。例如對(duì)于查詢“糖尿病”,挖掘出“類型”、“癥狀”、“藥物”、“醫(yī)院”、“醫(yī)生”等相關(guān)維度;對(duì)于查詢“過失失火”,可自動(dòng)挖掘出“刑罰”和“罪名”等維度。只有這樣,才能使分析引擎的輸出結(jié)果變得有用且有趣,才能真正滿足用戶真實(shí)的信息需求??蛇x的方法是分領(lǐng)域創(chuàng)建維度列表并在離線部分對(duì)文檔內(nèi)容和維度列表進(jìn)行匹配,在線通過分類的方法確定查詢所屬的領(lǐng)域來獲取相關(guān)維度。維度的生成可以通過統(tǒng)計(jì)分析查詢所匹配的文檔中包含的屬性及結(jié)構(gòu)化數(shù)據(jù)進(jìn)行自動(dòng)聚類和加權(quán),進(jìn)而自動(dòng)選出最相關(guān)的維度。

    在維度及度量項(xiàng)排序方面,在基于OLAP的分析模型下,用于建立文本立方體的每一條數(shù)據(jù)都需要提供一個(gè)度量值,該度量值決定了在最終文本立方體中每個(gè)統(tǒng)計(jì)項(xiàng)的權(quán)重。和傳統(tǒng)的數(shù)據(jù)立方體(例如基于業(yè)務(wù)數(shù)據(jù)生成的立方體)不同,在文本立方體中沒有直接的度量值可以使用。文本立方體中的度量值可以通過不同的方法生成,從數(shù)據(jù)獨(dú)立性的角度上可以分為下面3種不同類型的度量值。

    ● 全局一致的度量值。每個(gè)文檔(記錄)的度量值一致,最簡單的是每個(gè)文檔的度量值都為1。

    ● 與維度值無關(guān)的度量值。度量值和記錄有關(guān),但和記錄中包含的維度無關(guān)。例如,考慮到報(bào)道的可靠性,所有來自“新浪網(wǎng)”的報(bào)道的度量值高于來自“回龍觀社區(qū)網(wǎng)”的報(bào)道的度量值。此外,還可考慮應(yīng)用信息檢索模型來估計(jì)文檔和主題(查詢)的相關(guān)性[12~20],例如,若某個(gè)文檔和查詢的相關(guān)性較高,則其度量值較大。

    ● 和維度相關(guān)的度量值。進(jìn)一步考慮文檔(記錄)和維度的緊密程度,如對(duì)于相關(guān)人物A,考慮人物A在文檔D中出現(xiàn)的次數(shù)、出現(xiàn)的位置、所在句子的長短等特征,并同時(shí)考慮報(bào)道的來源,從而計(jì)算人物A在文檔D中的度量值。而對(duì)于另一相關(guān)人物B,即使同樣出現(xiàn)在文檔D中,因?yàn)槿宋顱的出現(xiàn)次數(shù)及位置和人物A不同,人物B的度量值也可能和人物A不同。

    和搜索引擎中的搜索結(jié)果排序模型一樣,在分析引擎中的維度以及度量項(xiàng)排序是非常重要但也是非常復(fù)雜的。分析維度挖掘與排序方法是互聯(lián)網(wǎng)分析引擎要重點(diǎn)研究的問題之一。

    4.4 數(shù)據(jù)采樣與摘要技術(shù)

    因?yàn)榉治鲆嬷刑幚淼幕ヂ?lián)網(wǎng)文檔數(shù)量非常龐大,而一個(gè)查詢特別是熱點(diǎn)查詢往往可以匹配上大量的相關(guān)文檔。在分析引擎中,匹配文檔代價(jià)較低,而對(duì)相關(guān)文檔上相應(yīng)結(jié)構(gòu)化數(shù)據(jù)的匯總分析和維度生成等操作則具有較高的I/O和計(jì)算代價(jià)。因此,當(dāng)數(shù)據(jù)量太大的時(shí)候,在不影響分析結(jié)果質(zhì)量的前提下,可以考慮對(duì)匹配到的結(jié)果集進(jìn)行采樣、摘要和壓縮操作。在數(shù)據(jù)采樣方面,在建立多維模型的時(shí)候不能對(duì)維度和子主題的優(yōu)先級(jí)進(jìn)行任何假設(shè),對(duì)于任何子主題的數(shù)據(jù)搜集,都需要保證搜集到足夠多的填充數(shù)據(jù)來體現(xiàn)它的真實(shí)語義,力圖花費(fèi)最小的代價(jià)重構(gòu)一個(gè)子主題內(nèi)部的信息點(diǎn)覆蓋??山Y(jié)合維度排序以及維度中包含的值的可信度來估計(jì)采用規(guī)模。同時(shí),對(duì)周期性和長期熱點(diǎn)話題采用可合并式數(shù)據(jù)摘要,并和文本立方體結(jié)合,力圖通過選擇性地保留一部分原始數(shù)據(jù)和總體上的摘要數(shù)據(jù),便能夠達(dá)到與使用全部數(shù)據(jù)類似分析效果的目的。同時(shí),結(jié)合前文介紹的可信度評(píng)估方法,準(zhǔn)確計(jì)算出各種采用和摘要方法對(duì)最終分析效果的影響,力圖在系統(tǒng)效率和效果之間達(dá)到一個(gè)合理的平衡點(diǎn)。

    5 結(jié)束語

    在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,用戶對(duì)獲取互聯(lián)網(wǎng)上蘊(yùn)含的高階知識(shí)的需求也越來越強(qiáng)烈。傳統(tǒng)的搜索引擎已經(jīng)不能很好地滿足用戶對(duì)互聯(lián)網(wǎng)文檔進(jìn)行深入分析與理解的需求,迫切需要發(fā)展到“互聯(lián)網(wǎng)分析引擎”,為用戶提供更為便利的信息獲取與分析工具?;ヂ?lián)網(wǎng)分析引擎比互聯(lián)網(wǎng)搜索引擎和OLAP系統(tǒng)更復(fù)雜,涉及一系列需要解決的研究難點(diǎn)問題,具有廣闊的研究和發(fā)展空間。

    [1] 中國互聯(lián)網(wǎng)絡(luò)信息中心. 第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告. http://www.cnnic. net.cn/hlwfzyj/ hlwxzbg/hlwtjbg/201507/ P020150723549500667087.pdf, 2006 China Internet Network Information Center. The 36th China Internet Development Report. http://www.cnnic. net.cn/hlwfzyj/ hlwxzbg/hlwtjbg/201507/ P020150723549500667087.pdf, 2006

    [2] Sergey B, Lawrence P. The anatomy of a large-scale hypertextual Web search engine. Computer Networks, 1998(30): 107~117

    [3] Codd E F, Codd S B, Salley C T. Providing OLAP (Online Analytical Processing) to User-Analysts: An IT Mandate. E F Codd &Associates, 1998

    [4] Thomsen E. OLAP Solutions: Building Multidimensional Information Systems (2nd Edition). Hoboken: John Wiley & Sons, 2002

    [5] Zhu M J, Shi S M, Li M J,et al. Effective top-k computation with term-proximity support. Information Processing and Management, 2009(45): 401~412

    [6] Gray J, Bosworth A, Layman A,et al. Data cube: a relational aggregation operator generalizing group-by, cross-tab, and sub-totals. Proceedings of IEEE Computer Society the 12th International Conference on Data Engineering, Washington DC, USA, 1996: 152~159

    [7] Han J, Wang J, Dong G,et al. Cube explorer: online exploration of data cubes. Proceedings of the 2002 ACM SIGMOD International Conference on Management of data, Madison, Wisconsin, USA, 2002: 626~626

    [8] Harinarayan V, Rajaraman A, Ullman J D. Implementing data cubes efficiently. Proceedings of ACM SIGMOD Conference, Montreal, Canada, 1996: 205~216

    [9] Etcheverry L, Vaisman A A. Enhancing OLAP analysis with web cubes. Proceedings of the 9th Extended Semantic Web Conference, Heraklion, Crete, Greece, 2012: 469~483

    [10] Colazzo D, Goasdou F, Manolescu I,et al. RDF analytics: lenses over semantic graphs. Proceedings of the 23rd International Conference on World Wide Web, New York, USA, 2014: 467~478

    [11] Wu L L, Sumbaly R, Riccomini C,et al. Avatara: OLAP for web-scale analytics products. Proceedings of the VLDB Endowment, Istanbul, Turkey, 2012: 1874~1877

    [12] Salton G, Wong A, Yang C S. A vector space model for automatic indexing. Communications of the ACM, 1974(18): 613~620

    [13] Croft B, Lafferty J. Language Modeling for Information Retrieval. Norwell: Kluwer Academic Publishers, 2003

    [14] Lafferty J, Zhai C X. Probabilistic relevance models based on document and query generation. Language Modeling for Information Retrieval, 2003

    [15] Zhai C X, Lafferty J. A study of smoothing methods for language models applied to ad hoc information retrieval. Proceedings of International ACM SIGIR Conference on Research and Development in Information Retrieva, New Orleans, Louisiana, USA, 2001: 334~342

    [16] Tao T, Wang X H, Mei Q Z,et al. Language model information retrieval with document expansion. Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics (HLTNAACL’06), Stroudsburg, PA, USA, 2006: 407~414

    [17] Srikanth M, Srihari R. Exploiting syntactic structure of queries in a language modeling approach to IR. Proceedings of the 12th International Conference on Information and Knowledge Management, New York, NY, USA, 2003: 476~483

    [18] Bai J, Nie J Y, Cao G. Using query contexts in information retrieval. Proceedings of the 30th AnnualInternational ACM SIGIR Conference, Amsterdam, Holland, 2007: 15~22

    [19] Turtle H, Croft W B. Evaluation of an inference network-based retrieval model. ACM Transactions on Information Systems, 1991(9): 187~222

    [20] Li Z W, Wang B, Li M J,et al. A probabilistic model for retrospective news event detection. Proceedings of the 28th Annual International ACM SIGIR Conference, Salvador, Brazil, 2005: 106~113

    竇志成,男,中國人民大學(xué)信息學(xué)院研究員、碩士生導(dǎo)師,中國計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)通訊委員,中文信息學(xué)會(huì)信息檢索專委會(huì)通訊委員,中國中文信息學(xué)會(huì)青年工作委員會(huì)委員,亞洲信息檢索協(xié)會(huì)Steering Committee成員,美國ACM學(xué)會(huì)、IEEE會(huì)員,中國計(jì)算機(jī)學(xué)會(huì)會(huì)員。主要研究方向?yàn)樾畔z索、互聯(lián)網(wǎng)搜索、數(shù)據(jù)挖掘、大數(shù)據(jù)等。近年來,在國際知名會(huì)議和學(xué)術(shù)期刊上(如SIGIR、WWW、CIKM、WSDM、EMNLP及IEEE TKDE等)發(fā)表論文20余篇。

    文繼榮,男,博士,中國人民大學(xué)信息學(xué)院教授、博士生導(dǎo)師,國家“千人計(jì)劃”特聘專家。1999年至2013年就職于微軟亞洲研究院,自2008年起擔(dān)任高級(jí)研究員和互聯(lián)網(wǎng)搜索與數(shù)據(jù)挖掘組主任。在微軟亞洲研究院工作的14年中,獲得50多項(xiàng)美國專利,其中一些成果已經(jīng)被用于重要的微軟產(chǎn)品中(如微軟搜索引擎Bing)。所領(lǐng)導(dǎo)的研究團(tuán)隊(duì)開發(fā)出了微軟學(xué)術(shù)搜索(http://academic.research.microsoft.com)、人立方(http://renlifang. msra.cn/)、產(chǎn)品搜索等有影響力的互聯(lián)網(wǎng)應(yīng)用。在國際著名會(huì)議和期刊上發(fā)表了100多篇論文,擔(dān)任過許多國際會(huì)議和研討會(huì)的程序委員和主席。目前是信息檢索領(lǐng)域主要期刊ACM Transactions on Information Systems(TOIS)的副主編。

    Dou Z C, Wen J R. Web analytical engine in the big data era. Big Data Research, 2015027

    Web Analytical Engine in the Big Data Era

    Dou Zhicheng, Wen Jirong
    School of Information & Beijing Key Laboratory of Big Data Management and Analysis Methods, Renmin University of China, Beijing 100872, China

    Web search engines can only return a list of Web documents (the so-called ten blue links), whereas users may need high-order knowledge that is contained within the Web documents. The demand of analytical services atop the Web is becoming stronger with the rapid development of the internet and the increase of big Web data. The concept of“Web Analytical Engine”, which aims to provide analytical service atop the huge amount of Web documents, was introduced. A simple infrastructure was described and the key research problems for building such an engine were discussed.

    big Web data, analytical engine, data sensing and gathering

    10.11959/j.issn.2096-0271.2015027

    2015-08-20

    國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)基金資助項(xiàng)目(No.2014CB340403),國家自然科學(xué)基金資助項(xiàng)目(No.61502501),中國人民大學(xué)科學(xué)研究基金(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助)(No. 15XNLF03),國家文化科技提升計(jì)劃

    Foundation Items:The National Basic Research Program of China(973 Program)(No.2014CB340403), The National Natural Science Foundation of China(No. 61502501), The Fundamental Research Funds for the Central Universities, the Research Funds of Renmin University of China (No. 15XNLF03), The National Culture Science and Technology Promotion Plan

    竇志成, 文繼榮. 大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)分析引擎. 大數(shù)據(jù), 2015027

    猜你喜歡
    引言
    藥用植物野外實(shí)踐體系構(gòu)建研究
    大學(xué)生創(chuàng)業(yè)力提升對(duì)策研究
    商(2016年26期)2016-08-10 13:47:59
    YK內(nèi)部控制體系研究
    商(2016年26期)2016-08-10 09:05:14
    淺談酒店成本管理控制
    商(2016年26期)2016-08-10 09:04:39
    以戰(zhàn)略為導(dǎo)向的全面預(yù)算執(zhí)行控制研究
    商(2016年26期)2016-08-10 09:03:26
    校企合作背景下高職院校學(xué)生管理制度的探索
    考試周刊(2016年50期)2016-07-12 23:23:23
    解讀《歐也妮·葛朗臺(tái)》中金錢禁錮下的人生
    考試周刊(2016年50期)2016-07-12 13:22:42
    小橋橋臺(tái)和隧道峒門基礎(chǔ)下沉原因分析及處理方案
    考試周刊(2016年50期)2016-07-12 09:40:07
    公路工程項(xiàng)目管理臺(tái)賬的編制原則與技巧
    商(2016年18期)2016-06-20 14:10:18
    基于思維導(dǎo)圖的線性代數(shù)復(fù)習(xí)策略
    考試周刊(2016年42期)2016-06-18 19:48:45
    蒙自县| 同江市| 合肥市| 大足县| 浦县| 平山县| 南溪县| 万宁市| 巴彦淖尔市| 大洼县| 珲春市| 凉城县| 克东县| 石台县| 新密市| 成都市| 项城市| 宁波市| 陇南市| 江口县| 绥德县| 上林县| 新建县| 开封县| 阳高县| 金平| 永胜县| 汾西县| 顺昌县| 宁城县| 彰武县| 紫云| 远安县| 临漳县| 宁安市| 瑞金市| 上饶县| 黑河市| 洛隆县| 汾阳市| 清苑县|