• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本體的網(wǎng)頁數(shù)據(jù)抽取技術(shù)的研究

      2014-07-28 18:39:33常麗君
      電腦知識與技術(shù) 2014年16期
      關(guān)鍵詞:鏈表三元組分詞

      常麗君

      摘要:隨著網(wǎng)絡(luò)上信息的飛速增長,網(wǎng)絡(luò)已發(fā)展成為一個巨大的數(shù)據(jù)庫,人們對快速準確地獲取網(wǎng)頁數(shù)據(jù)提出了更多的需求。目前,自然語言處理領(lǐng)域已經(jīng)將網(wǎng)頁信息抽取技術(shù)的研究作為一個重點。首先該文介紹了關(guān)于本體的一些基礎(chǔ)知識,在此基礎(chǔ)上提出并實現(xiàn)了一種基于領(lǐng)域本體的網(wǎng)頁數(shù)據(jù)抽取方法。在該文中,利用領(lǐng)域本體的關(guān)鍵詞、概念及關(guān)系來生成抽取規(guī)則,采用語法分析模塊對輸入的文檔進行預(yù)處理,最后根據(jù)語法分析的機構(gòu)和生成的抽取規(guī)則來對文檔實現(xiàn)數(shù)據(jù)抽取。實驗證明,該方法具有良好的性能。

      關(guān)鍵詞: 本體;網(wǎng)頁數(shù)據(jù)抽取;包裝器

      中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)16-3726-03

      Abstract: With the rapid growth of information on the network, the network has developed into a huge database, people are more desirable to get pages of data quickly. Currently, the field of natural language processing has focused the web information extraction. First this pager introduces the basic knowledge of ontology. Based on this, this pager presents a new approach to extracting information from normal document based on ontology. This paper first introduces some basic knowledege about the ontology, then proposed and implemented a web data extraction method. In this pager, it used domain ontology words, concepts and relationships to generate extraction rules, used the syntax analysis module for pre-processing the input document. At last, it achieve the data according to extraction rules and documents generated by parsing. The experiment has shown that the approch got a very good performance.

      Key words: ontology; web information extraction; wrapper

      1 相關(guān)背景

      隨著網(wǎng)絡(luò)的快速發(fā)展以及計算機在各個領(lǐng)域的廣泛應(yīng)用,網(wǎng)絡(luò)已發(fā)展成為一個巨大的數(shù)據(jù)庫。針對這些挑戰(zhàn),人們對在海量WEB信息中快速準確地找到所需的數(shù)據(jù)提出了更高的要求。為了解決這個問題,Web信息抽取開始逐步得到研究。目前Web信息抽取技術(shù)存在的主要問題有:(1)人工干預(yù)較多,大部分技術(shù)中都需要大量的樣本訓(xùn)練集,給用戶帶來比較大的負擔(dān)。(2)適應(yīng)性差,根據(jù)具體信息源生成的包裝器程序只能用于某種具體的網(wǎng)頁結(jié)構(gòu)。針對目前Web信息抽取技術(shù)存在的一些問題,通過研究已有的信息抽取技術(shù),該文提出了一種基于本體[1]的信息抽取方法,HTML源文件作為本系統(tǒng)的輸入?yún)?shù),輸出的結(jié)果是包含主、謂、賓三種成分的三元組,可以將結(jié)果存入數(shù)據(jù)庫。

      2 基于本體的數(shù)據(jù)抽取的過程

      本文在研究了已經(jīng)存在的網(wǎng)頁信息抽取相關(guān)技術(shù)之后,設(shè)計了一個新的基于領(lǐng)域本體的網(wǎng)頁數(shù)據(jù)抽取系統(tǒng)。抽取的主要過程分為以下幾個步驟:

      1) 信息抽取規(guī)則的生成。首先本體解析器對領(lǐng)域本體進行解析,再根據(jù)得到的結(jié)果自動生成數(shù)據(jù)抽取規(guī)則。

      2) 對HTML文檔進行預(yù)處理。對于實驗所用的文件,經(jīng)過預(yù)處理之后,語法分析過程再采用分詞處理模塊和句法分析模塊對文本處理。

      3) 數(shù)據(jù)抽取。根據(jù)前面的抽取規(guī)則,數(shù)據(jù)抽取過程采用它抽取規(guī)則對預(yù)處理后的文本實現(xiàn)數(shù)據(jù)抽取。

      2.1 信息抽取規(guī)則的生成

      首先介紹一下本體的基本知識。本體是關(guān)于某一領(lǐng)域的概念、關(guān)系等的描述?;陬I(lǐng)域本體的網(wǎng)頁數(shù)據(jù)抽取技術(shù)是針對某一具體領(lǐng)域的。該文使用的本體是OWL本體。本系統(tǒng)采用protege工具建立本體。本系統(tǒng)建立了一個手機領(lǐng)域的本體,如圖1所示。

      定義了手機的本體之后,接下來的工作是本體解析器的設(shè)計。經(jīng)過對多種本體的數(shù)據(jù)庫存儲模式的觀察與分析,該文提出一種新的存儲模式來存儲OWL本體。設(shè)計的表主要包括class表,property表和restriction表。通過對本體的解析,將得到抽取數(shù)據(jù)的抽取規(guī)則。對于本系統(tǒng)中的手機本體,得到的抽取規(guī)則[4]見圖2:

      2.2 對HTML文檔的預(yù)處理

      首先將HTML網(wǎng)頁轉(zhuǎn)化為對應(yīng)的非格式化的文本文件,然后采用已有的漢語詞法分析系統(tǒng)ICTCLAS對文本文件進行處理。得到了分詞結(jié)果之后,接下來的工作是采用句法分析模塊對分詞結(jié)果進行分析。本系統(tǒng)的句法分析模算法是對已有的自然語言句法分析器的改進。系統(tǒng)通過加入結(jié)構(gòu)上下文相關(guān)條件,提高了分析結(jié)果的準確率。

      通過對句子的句法分析之后,接下來的工作是抽出它的名詞短語以及動詞短語結(jié)構(gòu)。主要包含以下4個步驟:

      1) 通過句法分析之后,對于np()結(jié)構(gòu),抽取出句子里的n()(名詞)成分和v()(動詞)成分,“/nn”表示名詞,”/v”表示動詞。endprint

      2) 對于vp()結(jié)構(gòu),抽取出句子里的n()(名詞)成分和v()(動詞)成分,“/vn”表示名詞,”/v”表示動詞。

      3) 當np()里面還存在vp()或者np()時,繼續(xù)采用前面兩個步驟進行處理。

      4) 同樣當vp()里面還存在vp()或者np()時,也繼續(xù)采用前面兩個步驟進行處理。

      實驗結(jié)果表明,通過語法分析之后,輸入的句子被轉(zhuǎn)換成了包含對應(yīng)的主語、謂語以及賓語等成分的詞語串。

      3 信息抽取模塊的實現(xiàn)

      首先形成一個關(guān)于可以匹配的詞的關(guān)系鏈表,接下來的工作是匹配得到的關(guān)系鏈表,完成該功能的方法是Match(),包含下面四個步驟:

      1)對于三元組里的主語,我們在鏈表里查詢是否存在標識為“/nn”(代表句子里的主語)的成分。

      2) 當前面第一步成功了,對于三元組里的謂語,我們在鏈表里查詢是否存在標識為“/v”(代表句子里的謂語)的成分。

      3) 當前面第二步成功了,對于三元組里的賓語,我們在鏈表里查詢是否存在標識為“/vn”(代表句子里的賓語)的成分。

      4)當前面三步都成功之后,一個三元組就從句子中抽取出來了,實驗成功。

      4 實驗和結(jié)果

      本系統(tǒng)使用JAVA語言實現(xiàn),抽取到的結(jié)果如圖3所示,圖3為數(shù)據(jù)抽取得到的一個三元組表,第一列id是實驗所用的網(wǎng)頁URL的序號,第二列是三元組的序號,也就是本次實驗抽取到的結(jié)果,第三列http是實驗所用的網(wǎng)頁的url,最后一列sentence表示從該句子中抽取數(shù)據(jù)。

      下面具體分析本文所實現(xiàn)的基于領(lǐng)域本體的Web數(shù)據(jù)抽取系統(tǒng)的性能:

      一般采用正確率和召回率兩個指標來評價數(shù)據(jù)抽取系統(tǒng)的性能,通過對實驗所用的網(wǎng)頁的統(tǒng)計,網(wǎng)頁中宗的正確數(shù)據(jù)有93個,本系統(tǒng)一共抽取到80個數(shù)據(jù),其中有61個正確的,召回率=(61/93)*100%=66.3%,準確率=(80/93)*100%=86.1%??梢?,本系統(tǒng)取得了良好的性能。

      5 小結(jié)

      本文論述了基于本體的網(wǎng)頁數(shù)據(jù)抽取系統(tǒng)。在數(shù)據(jù)抽取過程中加入了語法處理,將HTML網(wǎng)頁轉(zhuǎn)換為對應(yīng)的非格式化的文本文件,然后對得到的文本文件進行分詞處理和句法分析。實驗證明,該方法具有良好的性能,但是目前由于對中文信息的語法處理的研究還不夠,分詞和處理和句法分析本身的正確率不是很高,因此,今后的方向?qū)⑹轻槍@些問題作進一步的研究。

      參考文獻:

      [1] 鄧志鴻,唐世渭.Ontology研究綜述[J].北京大學(xué)學(xué)報:自然科學(xué)版, 2002,38(5).

      [2] The Protege project,http://protege.stanford.edu,2008.

      [3] Sealable Web Data Extraction for Online Market Intelligence.B.Robert,G.Georg and H.Marcus. Proceedings of VLDB , 2010.

      [4] 趙波,陶躍華.ontology論及ontology論在計算機科學(xué)技術(shù)中的應(yīng)用[J].云南師范大學(xué)學(xué)報,2002(6).

      [5] 陳蘭.基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學(xué),2004.

      [6] 胡思康,曹元大.Web網(wǎng)頁知識獲取技術(shù)[J].北京理工大學(xué)學(xué)報,2006,25:12.endprint

      2) 對于vp()結(jié)構(gòu),抽取出句子里的n()(名詞)成分和v()(動詞)成分,“/vn”表示名詞,”/v”表示動詞。

      3) 當np()里面還存在vp()或者np()時,繼續(xù)采用前面兩個步驟進行處理。

      4) 同樣當vp()里面還存在vp()或者np()時,也繼續(xù)采用前面兩個步驟進行處理。

      實驗結(jié)果表明,通過語法分析之后,輸入的句子被轉(zhuǎn)換成了包含對應(yīng)的主語、謂語以及賓語等成分的詞語串。

      3 信息抽取模塊的實現(xiàn)

      首先形成一個關(guān)于可以匹配的詞的關(guān)系鏈表,接下來的工作是匹配得到的關(guān)系鏈表,完成該功能的方法是Match(),包含下面四個步驟:

      1)對于三元組里的主語,我們在鏈表里查詢是否存在標識為“/nn”(代表句子里的主語)的成分。

      2) 當前面第一步成功了,對于三元組里的謂語,我們在鏈表里查詢是否存在標識為“/v”(代表句子里的謂語)的成分。

      3) 當前面第二步成功了,對于三元組里的賓語,我們在鏈表里查詢是否存在標識為“/vn”(代表句子里的賓語)的成分。

      4)當前面三步都成功之后,一個三元組就從句子中抽取出來了,實驗成功。

      4 實驗和結(jié)果

      本系統(tǒng)使用JAVA語言實現(xiàn),抽取到的結(jié)果如圖3所示,圖3為數(shù)據(jù)抽取得到的一個三元組表,第一列id是實驗所用的網(wǎng)頁URL的序號,第二列是三元組的序號,也就是本次實驗抽取到的結(jié)果,第三列http是實驗所用的網(wǎng)頁的url,最后一列sentence表示從該句子中抽取數(shù)據(jù)。

      下面具體分析本文所實現(xiàn)的基于領(lǐng)域本體的Web數(shù)據(jù)抽取系統(tǒng)的性能:

      一般采用正確率和召回率兩個指標來評價數(shù)據(jù)抽取系統(tǒng)的性能,通過對實驗所用的網(wǎng)頁的統(tǒng)計,網(wǎng)頁中宗的正確數(shù)據(jù)有93個,本系統(tǒng)一共抽取到80個數(shù)據(jù),其中有61個正確的,召回率=(61/93)*100%=66.3%,準確率=(80/93)*100%=86.1%??梢?,本系統(tǒng)取得了良好的性能。

      5 小結(jié)

      本文論述了基于本體的網(wǎng)頁數(shù)據(jù)抽取系統(tǒng)。在數(shù)據(jù)抽取過程中加入了語法處理,將HTML網(wǎng)頁轉(zhuǎn)換為對應(yīng)的非格式化的文本文件,然后對得到的文本文件進行分詞處理和句法分析。實驗證明,該方法具有良好的性能,但是目前由于對中文信息的語法處理的研究還不夠,分詞和處理和句法分析本身的正確率不是很高,因此,今后的方向?qū)⑹轻槍@些問題作進一步的研究。

      參考文獻:

      [1] 鄧志鴻,唐世渭.Ontology研究綜述[J].北京大學(xué)學(xué)報:自然科學(xué)版, 2002,38(5).

      [2] The Protege project,http://protege.stanford.edu,2008.

      [3] Sealable Web Data Extraction for Online Market Intelligence.B.Robert,G.Georg and H.Marcus. Proceedings of VLDB , 2010.

      [4] 趙波,陶躍華.ontology論及ontology論在計算機科學(xué)技術(shù)中的應(yīng)用[J].云南師范大學(xué)學(xué)報,2002(6).

      [5] 陳蘭.基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學(xué),2004.

      [6] 胡思康,曹元大.Web網(wǎng)頁知識獲取技術(shù)[J].北京理工大學(xué)學(xué)報,2006,25:12.endprint

      2) 對于vp()結(jié)構(gòu),抽取出句子里的n()(名詞)成分和v()(動詞)成分,“/vn”表示名詞,”/v”表示動詞。

      3) 當np()里面還存在vp()或者np()時,繼續(xù)采用前面兩個步驟進行處理。

      4) 同樣當vp()里面還存在vp()或者np()時,也繼續(xù)采用前面兩個步驟進行處理。

      實驗結(jié)果表明,通過語法分析之后,輸入的句子被轉(zhuǎn)換成了包含對應(yīng)的主語、謂語以及賓語等成分的詞語串。

      3 信息抽取模塊的實現(xiàn)

      首先形成一個關(guān)于可以匹配的詞的關(guān)系鏈表,接下來的工作是匹配得到的關(guān)系鏈表,完成該功能的方法是Match(),包含下面四個步驟:

      1)對于三元組里的主語,我們在鏈表里查詢是否存在標識為“/nn”(代表句子里的主語)的成分。

      2) 當前面第一步成功了,對于三元組里的謂語,我們在鏈表里查詢是否存在標識為“/v”(代表句子里的謂語)的成分。

      3) 當前面第二步成功了,對于三元組里的賓語,我們在鏈表里查詢是否存在標識為“/vn”(代表句子里的賓語)的成分。

      4)當前面三步都成功之后,一個三元組就從句子中抽取出來了,實驗成功。

      4 實驗和結(jié)果

      本系統(tǒng)使用JAVA語言實現(xiàn),抽取到的結(jié)果如圖3所示,圖3為數(shù)據(jù)抽取得到的一個三元組表,第一列id是實驗所用的網(wǎng)頁URL的序號,第二列是三元組的序號,也就是本次實驗抽取到的結(jié)果,第三列http是實驗所用的網(wǎng)頁的url,最后一列sentence表示從該句子中抽取數(shù)據(jù)。

      下面具體分析本文所實現(xiàn)的基于領(lǐng)域本體的Web數(shù)據(jù)抽取系統(tǒng)的性能:

      一般采用正確率和召回率兩個指標來評價數(shù)據(jù)抽取系統(tǒng)的性能,通過對實驗所用的網(wǎng)頁的統(tǒng)計,網(wǎng)頁中宗的正確數(shù)據(jù)有93個,本系統(tǒng)一共抽取到80個數(shù)據(jù),其中有61個正確的,召回率=(61/93)*100%=66.3%,準確率=(80/93)*100%=86.1%??梢?,本系統(tǒng)取得了良好的性能。

      5 小結(jié)

      本文論述了基于本體的網(wǎng)頁數(shù)據(jù)抽取系統(tǒng)。在數(shù)據(jù)抽取過程中加入了語法處理,將HTML網(wǎng)頁轉(zhuǎn)換為對應(yīng)的非格式化的文本文件,然后對得到的文本文件進行分詞處理和句法分析。實驗證明,該方法具有良好的性能,但是目前由于對中文信息的語法處理的研究還不夠,分詞和處理和句法分析本身的正確率不是很高,因此,今后的方向?qū)⑹轻槍@些問題作進一步的研究。

      參考文獻:

      [1] 鄧志鴻,唐世渭.Ontology研究綜述[J].北京大學(xué)學(xué)報:自然科學(xué)版, 2002,38(5).

      [2] The Protege project,http://protege.stanford.edu,2008.

      [3] Sealable Web Data Extraction for Online Market Intelligence.B.Robert,G.Georg and H.Marcus. Proceedings of VLDB , 2010.

      [4] 趙波,陶躍華.ontology論及ontology論在計算機科學(xué)技術(shù)中的應(yīng)用[J].云南師范大學(xué)學(xué)報,2002(6).

      [5] 陳蘭.基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學(xué),2004.

      [6] 胡思康,曹元大.Web網(wǎng)頁知識獲取技術(shù)[J].北京理工大學(xué)學(xué)報,2006,25:12.endprint

      猜你喜歡
      鏈表三元組分詞
      基于語義增強雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      關(guān)于余撓三元組的periodic-模
      基于二進制鏈表的粗糙集屬性約簡
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      跟麥咭學(xué)編程
      基于鏈表多分支路徑樹的云存儲數(shù)據(jù)完整性驗證機制
      值得重視的分詞的特殊用法
      鏈表方式集中器抄表的設(shè)計
      電測與儀表(2014年1期)2014-04-04 12:00:22
      三元組輻射場的建模與仿真
      临漳县| 无锡市| 政和县| 离岛区| 南雄市| 资中县| 昌邑市| 阿城市| 海南省| 淮安市| 山阳县| 阜阳市| 石家庄市| 邵阳县| 满洲里市| 广灵县| 岑溪市| 来宾市| 红河县| 石景山区| 凤阳县| 蓝田县| 迁西县| 玉山县| 安丘市| 昌图县| 凤山市| 武穴市| 泰顺县| 巴彦淖尔市| 忻城县| 富顺县| 朝阳县| 温州市| 东阿县| 昌图县| 十堰市| 武强县| 百色市| 巴林右旗| 光山县|