• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于模板和領域本體的DeepWeb信息抽取研究

      2014-11-30 07:49:00顧韻華
      計算機工程與設計 2014年1期
      關鍵詞:表格網(wǎng)頁本體

      顧韻華,高 原,高 寶,杜 杰

      (1.南京信息工程大學 江蘇省網(wǎng)絡監(jiān)控中心,江蘇 南京210044;2.南京信息工程大學 計算機與軟件學院,江蘇 南京210044)

      0 引 言

      Deep Web相對于表面網(wǎng) (surface web)而言,蘊含著更加豐富而專業(yè)的數(shù)據(jù)資源[1]。據(jù)統(tǒng)計,中國Deep Web大約有24000個站點,28000個后臺數(shù)據(jù)庫和74000個查詢接口[2],目前仍在快速增長。有效的利用Deep Web的豐富信息資源,能夠更好地滿足人們學習和查找知識的需求。

      Deep Web信息抽取的目的是從Deep Web結(jié)果頁面中抽取出有價值的信息[3]。雖然目前的抽取技術已經(jīng)發(fā)展到自動化程度,但抽取數(shù)據(jù)的準確率較低且抽取規(guī)則的適應性較差。手工編寫規(guī)則可以達到很高的準確率,但是規(guī)則繁瑣,代價也很大。本文引入DIV塊和表格雙重模板,同時,考慮信息內(nèi)部聯(lián)系,引入領域本體來指導模板的建立,可減少無關信息,簡化模板的抽取規(guī)則,提高抽取的準確率。此雙重模板是基于DIV塊和表格構建而成的,在具體的抽取過程中,這兩種模板是先后使用的關系,先使用DIV塊模板進行粗粒度的信息抽取,再使用表格模板進行細粒度的信息抽取。

      1 相關研究

      目前,對Deep Web信息抽取的研究成果大多數(shù)集中在DOM樹的挖掘上,包括基于DOM樹的Deep Web實體抽取、基于重復模式的Deep Web信息抽取、基于DOM與模板的結(jié)合和基于視覺特征的Deep Web信息抽取等方法。

      文獻 [4]提出了一種基于DOM樹的Deep Web實體抽取機制,采用基于DOM樹的自動實體抽取策略,利用DOM樹中的文本內(nèi)容和層次結(jié)構來確定數(shù)據(jù)區(qū)域和實體區(qū)域。該方法在多個實體顯示在Web頁面中的同一行時會造成各個實體的DOM樹結(jié)構互相參雜,實驗效果中針對電子商務領域的抽取性能相對較差。

      文獻 [5]提出了一種Deep Web數(shù)據(jù)源下重復記錄識別模型,在數(shù)據(jù)預處理模塊中將所抽取的數(shù)據(jù)生成實體記錄形式,在異構記錄處理模板中利用在同構記錄處理模塊所得到的權重,計算各實體記錄的相似度,得到重復記錄。

      文獻 [6-8]提出了基于模板的抽取方法。通過對產(chǎn)生于同一模板的網(wǎng)頁的對比分析總結(jié)出一個通用的抽取模板,從而免去對眾多網(wǎng)頁進行重復處理的繁瑣。文獻 [6]將網(wǎng)頁模板表示為一個正則表達式。首先利用網(wǎng)頁的樹狀結(jié)構特點計算子樹的相似度生成一種特殊的樹,接著利用此樹生成模板,再利用一系列合并規(guī)則對模板進行修剪。此類模板的生成過程比較復雜。文獻 [7,8]依賴于XPath表達式進行待抽取信息節(jié)點的定位。對于專利信息等有規(guī)律且更新不頻繁的網(wǎng)站,這類模板比較清晰,易于實現(xiàn)。而對于復雜的網(wǎng)頁來說,XPath表達式就會變長,越長就越不穩(wěn)定。

      文獻 [9]提出了基于視覺的方法,利用深層網(wǎng)頁的視覺功能,以實現(xiàn)Deep Web數(shù)據(jù)提取,包括數(shù)據(jù)記錄提取和數(shù)據(jù)項提取。視覺特征包括字體的顏色和大小、文本的長度等。但是網(wǎng)頁設計的多樣性給基于視覺特征的抽取方法增加了難度。

      通過上述研究發(fā)現(xiàn),現(xiàn)有的Deep Web信息抽取技術并不能完全準確而自動地抽取網(wǎng)頁信息。為了盡量減少人工干預和復雜性,本文從模板和語義的角度出發(fā),建立“DIV+Table”雙模板,對Deep Web頁面中有意義的信息進行準確定位和抽取。對基于領域的中文Deep Web網(wǎng)站的信息抽取有著實用的意義,另一方面,加入了語義信息之后,有利于Deep Web信息集成以及語義數(shù)據(jù)的處理。

      2 基于模板與領域本題的Deep Web信息抽取

      2.1 Deep Web信息抽取框架

      本文所設計的抽取框架,分為模板構建和目標頁面信息抽取兩個部分。模板構建是在領域本體的指導下構建Deep Web站點的模板,并將模板存至模板庫,為頁面信息抽取而服務。頁面信息抽取則是從模板庫中選擇匹配的模板,利用模板對應的抽取規(guī)則進行信息抽取。該框架如圖1所示。其中網(wǎng)頁預處理的目標是將HTML文檔處理成以DIV塊為基本單元,并含有中文分詞結(jié)果的數(shù)據(jù)集合。此數(shù)據(jù)集合經(jīng)過適當?shù)暮Y選,即可作為決策樹分類模型的訓練數(shù)據(jù)集。

      圖1 Deep Web信息抽取框架

      2.2 領域本體及其構建

      領域本體作為某個領域內(nèi)不同主體之間進行交流的語義基礎,在模板構建過程中能夠起到優(yōu)化的作用,減少模板中出現(xiàn)與領域不相關的內(nèi)容[10]。

      本體的構建需要完整的工程化、系統(tǒng)化的方法來支持。很少有通用的大規(guī)模本體,大多數(shù)的本體只是針對某個具體應用領域構建的。本文借鑒斯坦福大學醫(yī)學院開發(fā)的七步法[11]的思想,構建天氣和圖書領域的本體知識庫。

      針對天氣和圖書領域,對國內(nèi)多個Deep Web網(wǎng)站進行調(diào)查分析,從中提煉出一些核心概念、概念之間的關系及相關實例。定義領域本體為一個六元組。

      定義1 領域本體O={C,H,R,PD,PO,I}。其中O代表本體的名稱,C(concepts或者class)為概念的集合,H(hierarchy)為概念之間層次的集合,R(relationship)為概念之間關系的集合,PD(datatype property)為數(shù)據(jù)屬性的集合,PO(object property)為概念屬性的集合,I(instances)為實例的集合。圖2展示了天氣領域本體層次結(jié)構。

      圖2 天氣領域本體的層次

      2.3 基于領域本體指導的模板構建

      2.3.1 引入雙重模板

      Deep Web的信息抽取任務不僅是要識別出數(shù)據(jù)塊,更重要的是抽取出數(shù)據(jù)片段。這樣抽取出的數(shù)據(jù)才有意義。本文以這兩個任務為出發(fā)點,先通過DIV塊模板定位到數(shù)據(jù)塊,再通過表格模板定位到數(shù)據(jù)片段。圖3中分別標識了一個詳細信息頁面中的數(shù)據(jù)塊和數(shù)據(jù)片段。

      圖3 數(shù)據(jù)塊和數(shù)據(jù)片段的定義

      2.3.2 DIV塊模板的定義和構建

      網(wǎng)頁模板是指一種網(wǎng)頁框架,決定了網(wǎng)頁的基本結(jié)構和文檔設置。目前大多數(shù)的網(wǎng)頁布局通常采用 “DIV+CSS”方式?!埃糳iv>”標簽用于把文檔分割成獨立的、不同的DIV塊。對于一個網(wǎng)頁設計者來說,首先要考慮的是頁面內(nèi)容的語義和結(jié)構。因此,需要分析DIV塊以及每個DIV塊服務的目的。

      Deep Web查詢結(jié)果頁面具有基于DIV塊的模板化的特征。這些頁面可以分為不變和可變部分,不變的部分是網(wǎng)頁中內(nèi)容塊的組織順序、語義說明和靜態(tài)信息,可變的部分是經(jīng)過查詢所得到的動態(tài)結(jié)果,這也正是所要抽取的內(nèi)容,它們存在于一個或者多個DIV內(nèi)容塊中。因此,可以將DIV模板定義為所要抽取的DIV塊的集合。用DIV塊在HTML文檔中的序號進行形式化定義。

      定義2 DIV塊模板 M={Name,Type,{Di,Dj,...},Number,Time},其中Name是指Deep Web站點的名稱;Type是指這個站點的模板種類; {Di,Dj,...}是指所要抽取的DIV塊的集合,下標i代表這個DIV塊在HTML代碼中的序號;Number代表共有多少個DIV塊構成了一個完整的抽取內(nèi)容;Time代表了模板的建立時間,便于能定期更新模板。保證模板的有效性。

      例如 M= {weatherchina,one,{D20,D23},2,2012.11.1},代表2012年11月1日建立了用于抽取 “中國天氣網(wǎng)”中的一種查詢結(jié)果頁面模板,共有2個DIV內(nèi)容塊構成了抽取內(nèi)容,分別為第20和23個DIV內(nèi)容塊。

      本文將構建DIV塊模板的過程看作是識別所要抽取的DIV數(shù)據(jù)塊的過程。將網(wǎng)頁預處理的結(jié)果作為訓練數(shù)據(jù)集,結(jié)合預先構建好的領域本體知識,采用決策樹學習算法來學習分類模型,分類模型將DIV塊分為需要抽取的和不需要抽取的這兩類。通過此分類模型就可以對新的DIV塊集進行分類。

      決策樹算法采用自頂向下的方式將從一組訓練數(shù)據(jù)中學習到的函數(shù)表示為一顆分類決策樹。這種算法適用于分類數(shù)據(jù)和歸納決策規(guī)則,具有簡化處理流程,算法復雜度低的優(yōu)勢。常用的決策樹算法有ID3、C4.5等。ID3算法最初的定義是假設屬性值是離散值,但在實際環(huán)境中,有很多屬性是連續(xù)的,不能用一個確定的標準來對其進行劃分。C4.5使用一系列處理過程將連續(xù)的屬性劃分成離散的屬性,進而達到構建決策樹的目的。C4.5算法的優(yōu)點在于產(chǎn)生的分類規(guī)則易于理解,準確率較高。

      C4.5采用信息增益率作為度量選擇屬性的指標。信息增益 (gain ratio)的概念能表述選擇某一個屬性后再選擇其它屬性時信息量的變化。信息增益是基于熵來度量信息的增量。熵作為數(shù)據(jù)混雜度的衡量指標,其值越小代表數(shù)據(jù)越純。式 (1)描述的是數(shù)據(jù)集D信息熵的計算方法,式(2)描述的是信息論中的熵,式 (3)描述的是屬性Ai信息增益率,Entropy(D)表示區(qū)分前的熵,EntropyAi(D)表示根據(jù)屬性Ai劃分后的熵

      為了訓練分類模型,需要將經(jīng)過網(wǎng)頁預處理得到的數(shù)據(jù)進行適當篩選,作為訓練數(shù)據(jù)集。訓練集中屬性是根據(jù)領域本體知識進行選取的,需要選擇領域本體中定義的若干詞匯。

      以天氣領域的DIV塊分析為例,見表1。其中num_day表示 “白天”出現(xiàn)的次數(shù),has_else表示是否有類似于 “版權”、 “旅游”和 “防曬”等詞,morecity表示是否有多個地名,hasde表示是否含有詞 “的”,lessthan5表示分詞個數(shù)是否小于5,IsNeedDIV代表類別,指明是否是需要的DIV塊。

      表1 用于分類的數(shù)據(jù)

      經(jīng)過訓練,得到?jīng)Q策樹分類模型如圖4所示。

      圖4 決策樹分類模型

      可以看出分類模型的準確率是0.952。當準確率達到一定要求的時候,就能確保DIV塊的判斷不會出錯。這比完全憑借啟發(fā)式規(guī)則更加可靠。

      2.3.3 表格模板的定義和構建

      為了抽取出數(shù)據(jù)片段,還需要構建另一種模板,也就是表格模板。本文中對數(shù)據(jù)片段的抽取是利用XML技術的。使用的解析頁面模板為XML文件,而模板中的抽取規(guī)則是基于DOM和Xpath的表格節(jié)點定位??梢詫path理解為XML的SQL語句。它基于XML文檔的邏輯結(jié)構,用Path來確定XML文檔中某部分位置。

      XSLT是一種對XML文檔進行轉(zhuǎn)化的語言。XSLT指令通常與XPath表達式結(jié)合使用。XSLT包含一組稱為模

      板的規(guī)則,模板規(guī)則用xsl:template元素表示,每個<xsl:template>元素包含當一個特定節(jié)點匹配時所應用的規(guī)則。從網(wǎng)頁抽取的角度,將XSLT文檔看作抽取規(guī)則。

      結(jié)合上述XML的相關知識,可以將表格模板定義為如下形式:

      定義3 表格模板T={Name,Type,Path},其中“Name”、“Type”與DIV塊模板中的定義是一致的,這也便于最終將兩種模板結(jié)合在一起來抽取Deep Web網(wǎng)頁。Path是指數(shù)據(jù)片段在DOM樹中的路徑表達式。

      本文在生成表格模板的過程中,采用的流程如圖5所示。

      圖5 表格模板的生成流程

      以 “中國天氣網(wǎng)”為例,以下是根據(jù)數(shù)據(jù)片段的Xpath得到的部分 XSLT 文件,其中 “/div[1]/div[1]/table[2]/tr[1]/td[4]/text()”代表待抽取數(shù)據(jù)片段在 XML文檔中的路徑信息。

      <day>

      <condition><xsl:value-of select="/div[1]/div[1]/table[2]/tr[1]/td[4]/text()"/> </condition>

      < maximum temperature> <xsl:value-of select="..."/></maximum temperature>

      < minimum temperature> <xsl:value-of select="..."/></minimum temperature>

      <wind> <xsl:value-of select="..."/> </wind>

      <windpower><xsl:value-of select="..."/></windpower>

      </day>

      2.4 基于URL和網(wǎng)頁相似度的模板匹配

      模板匹配的目的,一方面是為了擴充模板庫,另一方面是為了選擇合適的模板對新的待抽取網(wǎng)頁執(zhí)行抽取任務。傳統(tǒng)的模板匹配方法僅僅是基于URL的,然而這種方法在具體的應用中存在誤差。為解決此問題,本文提出將URL與網(wǎng)頁相似度相結(jié)合的算法,可獲得更精確的模板匹配結(jié)果。網(wǎng)頁相似度是衡量不同網(wǎng)頁相似程度的指標,本文采用內(nèi)容與結(jié)構相結(jié)合的網(wǎng)頁相似度計算方法。算法如下:

      步驟1 將待匹配網(wǎng)頁PA解析成DOM樹;

      步驟2 利用URL相似度獲取模板網(wǎng)頁PT,同時將模板網(wǎng)頁解析成DOM樹;

      步驟3 計算兩個網(wǎng)頁的DIV塊總數(shù)。如果NT與NA相等且都為1,則返回相似度為1,并結(jié)束算法;如果NT與NA不相等,則選取某一個K值,繼續(xù)執(zhí)行下一步;

      步驟4 采用字符串編輯距離算法分別比較PA和PT中DIV塊序號為k(k∈K)的文本相似度;

      步驟5 將K個文本的相似度進行疊加,除以K,返回網(wǎng)頁相似度。如下所示

      在網(wǎng)頁相似度的計算方法中,用到了兩個閾值K和ε。K是要比較的最合適的DIV塊數(shù)目,ε代表選取的最合適的相似度。結(jié)合DIV塊模板,將K設為 (alast-afirst),表示從DIV模板數(shù)組的第一個一直匹配到數(shù)組的最后一個。

      為了選取合適的ε值,本文進行了以下實驗。從5個不同的Deep Web站點,分別各選取10個網(wǎng)頁,作為模板網(wǎng)頁,再各選取10個網(wǎng)頁作為待匹配網(wǎng)頁。分別計算相似度。每個網(wǎng)站計算的次數(shù)為100次,統(tǒng)計結(jié)果如圖6所示。可以看出相似和不相似的網(wǎng)頁區(qū)分度很大,因此設定ε=0.9。

      圖6 相似度計算結(jié)果

      實驗表明,若待匹配網(wǎng)頁與模板網(wǎng)頁結(jié)構相似度大于0.9,則模板匹配,存在抽取規(guī)則;否則以不匹配作相應處理。

      將本文提出的基于URL和網(wǎng)頁相似度計算的模板匹配方法,與傳統(tǒng)的僅基于URL的匹配方法進行對比,統(tǒng)計匹配的正確率。同樣選取5個Deep Web網(wǎng)站,對每個站點只歸納一種模板。再另外選取與這5個模板網(wǎng)頁的URL相似的若干個網(wǎng)頁,分別利用兩種模板匹配方法,進行實驗。對匹配成功的網(wǎng)頁利用相應的模板進行抽取,若能抽取出模板設定的結(jié)果,則表明匹配正確;否則,表明匹配的不正確。其統(tǒng)計結(jié)果見表2??梢钥闯?,結(jié)合了網(wǎng)頁相似度的模板匹配能明顯提高匹配的正確率。

      表2 兩種模板匹配方法的正確率對比

      3 Deep Web信息抽取實驗

      針對天氣領域選取了5個Deep Web站點作為數(shù)據(jù)的來源。站點的選擇依據(jù)是Google PageRank得出的網(wǎng)站排名。這個排名綜合考慮了網(wǎng)站的用戶體驗和用戶數(shù)量,屬于人們經(jīng)常關注的網(wǎng)站,信息量比較全,可以為實驗提供大量的測試網(wǎng)頁。

      評價信息抽取的指標是查準率 (precision),召回率(recall)以及F值 (F-measure)。查準率是抽取的信息中正確的點數(shù)所占的比率,召回率是測試被正確抽取的信息點的比例,F(xiàn)指標反映了信息抽取的綜合性能。計算公式分別表示如下

      實驗所選取的網(wǎng)頁數(shù)目,所包含的記錄項以及所統(tǒng)計的準確率,召回率和F值見表3。

      表3 天氣領域的實驗結(jié)果

      從表3中可以看出準確率和召回率較高,F(xiàn)指數(shù)高于95%。說明本文所提出抽取方法綜合性能較高。對于F值較低的網(wǎng)站來說,其原因主要是頁面內(nèi)容塊變動較頻繁,影響了DIV塊模板的使用。因為待抽取的極少部分信息所在的DIV塊被過濾掉。對于這種情況,可以進一步優(yōu)化分類模型,避免DIV塊模板的欠缺。

      4 結(jié)束語

      本文主要對Deep Web查詢結(jié)果頁面抽取進行了研究。以模板為主線,提出了雙重模板的定義與構建。同時,引入了領域本體來指導模板的建立,減少了無關信息,簡化了模板的抽取規(guī)則。并且在URL模板匹配的基礎上,結(jié)合網(wǎng)頁相似度計算,進行更精確的模板匹配,提高了抽取的準確率。實驗表明,該抽取方案取得了較好的效果。該方案適用于DIV+CSS結(jié)構的Deep Web頁面的信息抽取,接下來的工作是考慮與頁面內(nèi)容分析相結(jié)合的抽取方法,并解決領域本體屬性的進一步約簡問題。

      [1]He B,Patel M,Zhang Z,et al.Accessing the deep web:A survey [J].Communications of the ACM,2007,50 (5):95-101.

      [2]ZHAO Pengpeng,CUI Zhiming,GAO Ling,et al.Survey of Chinese Deep Wweb [J].Journal of Chinese Computer Systems,2007,28 (10):1799-1802 (in Chinese).[趙朋朋,崔志明,高嶺,等.關于中國Deep Web的規(guī)模、分布和結(jié)構[J].小型微型計算機系統(tǒng),2007,28 (10):1799-1802.]

      [3]LIU Wei,MENG Xiaofeng,MENG Weiyi.A survey of Deep Web data integration [J].Chinese Journal of Computer,2007,30 (9):1475-1489 (in Chinese).[劉偉,孟小峰,孟衛(wèi)一.Deep Web數(shù)據(jù)集成研究綜述 [J].計算機學報,2007,30 (9):1475-1489.]

      [4]KOU Yue,LI Dong,SHEN Derong.D-EEM:A DOM-tree based entity extraction mechanism for Deep Wweb [J].Journal of Computer Research and Development,2010,47 (5):858-865(in Chinese).[寇月,李冬,申德榮.D-EEM:一種基于DOM樹的Deep Web實體抽取機制 [J].計算機研究與發(fā)展,2010,47 (5):858-865.]

      [5]Liu Linan,Kou Yue,Sun Gaoshang,et al.Duplicate identifi-cation model for Deep Web [J].Journal of Southeast University (English Edition),2008,24 (3):315-317.

      [6]YANG Xiaoqin,JU Shiguang,CAO Qinghuang,et al.Template generation method for Deep Web automatic data extraction[J].Application Research of Computers,2010,27 (1):200-203(in Chinese).[楊曉琴,鞠時光,曹慶皇,等.面向Deep Web數(shù)據(jù)自動抽取的模板生成方法 [J].計算機應用研究,2010,27 (1):200-203.]

      [7]ZHANG Yanchao,LIU Yun,LI Yong,et al.Study of Web information extraction technology based on automatically generated template [J].Journal of Beijing Jiaotong University,2009,33 (5):40-45 (in Chinese).[張彥超,劉云,李勇,等.基于自動生成模板的 Web信息抽取技術 [J].北京交通大學學報,2009,33 (5):40-45.]

      [8]DONG Min,F(xiàn)ANG Shu.On Deep Web information extraction[J].Library and Information Service,2007,51 (10):25-28(in Chinese).[董旻,方曙.Deep Web信息抽取研究 [J].圖書情報工作,2007,51 (10):25-28.]

      [9]Liu Wei,Meng Xiaofeng,Meng Weiyi.ViDE:A vision-based approach for Deep Web data extraction [J].IEEE Transactions on Knowledge and Data Engineering,2010,22 (3):447-460.

      [10]BI Lei,SHEN Jie,XU Fayan,et al.Extracting Web business information using domain-specific ontology [J].Computer Engineering and Design,2008,29 (24):6393-6396 (in Chinese).[畢蕾,沈潔,徐法艷,等.領域本體指導的 Web商品信息抽取 [J].計算機工程與設計,2008,29 (24):6393-6396.]

      [11]ZHANG Wenxiu,ZHU Qinghua.Research on construction methods of domain ontology [J].Library and Information,2011 (1):16-19 (in Chinese).[張文秀,朱慶華.領域本體的構建方法研究 [J].圖書與情報,2011 (1):16-19.]

      猜你喜歡
      表格網(wǎng)頁本體
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      《現(xiàn)代臨床醫(yī)學》來稿表格要求
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      統(tǒng)計表格的要求
      統(tǒng)計表格的要求
      統(tǒng)計表格的要求
      基于CSS的網(wǎng)頁導航欄的設計
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      網(wǎng)頁制作在英語教學中的應用
      電子測試(2015年18期)2016-01-14 01:22:58
      新竹县| 克拉玛依市| 贵溪市| 石门县| 岐山县| 尼勒克县| 镇原县| 沙湾县| 简阳市| 梅河口市| 鞍山市| 富宁县| 曲阳县| 聊城市| 武宣县| 于田县| 陆川县| 页游| 兴和县| 武乡县| 申扎县| 平潭县| 南木林县| 汝南县| 淮阳县| 安西县| 潍坊市| 邳州市| 建平县| 清新县| 安泽县| 缙云县| 冀州市| 汤原县| 安丘市| 上犹县| 奇台县| 白银市| 长治市| 方山县| 深水埗区|