• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于本體的教學(xué)信息抽取設(shè)計(jì)

      2009-07-15 09:54:02周霜菊
      現(xiàn)代情報(bào) 2009年3期
      關(guān)鍵詞:本體

      周霜菊

      〔摘 要〕盡管目前我們擁有Google、百渡等通用搜索引擎,但對(duì)于特定領(lǐng)域,人們需要的不僅僅是信息所在地址的指向,還需要獲取更小粒度的信息知識(shí)集成。本文嘗試結(jié)合Web網(wǎng)頁(yè)文檔的特點(diǎn)及領(lǐng)域本體知識(shí),以及信息提取、知識(shí)挖掘和XML等技術(shù),給出了一種基于領(lǐng)域本體的Web信息集成方法,旨在提高用戶利用Web信息的效率。

      〔關(guān)鍵詞〕本體;信息抽??;XML

      〔中圖分類號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2009)03-0194-03

      隨著Internet的飛速發(fā)展,網(wǎng)絡(luò)信息資源正在不斷豐富,互聯(lián)網(wǎng)日益成為一個(gè)巨大的信息資源庫(kù)。與此同時(shí),人們上網(wǎng)查找和利用信息卻變得越來(lái)越困難、效率低下甚至不可能實(shí)現(xiàn)。如何從Web上有效地提取實(shí)用信息是人們關(guān)注的重點(diǎn),并已成為互聯(lián)網(wǎng)信息服務(wù)中一個(gè)重要的研究課題。盡管目前我們擁有Google、百渡等搜索引擎,但是它們都是通用性的工具。面對(duì)浩瀚的信息海洋,它們提供給人們的答案太多以至于有時(shí)候人們沒有耐心翻到合乎需要的那一頁(yè)。而且對(duì)特定領(lǐng)域,人們需要的不僅僅是信息所在地址的指向,還需要獲取更小粒度的信息知識(shí)集成。這些數(shù)據(jù)可以直接向用戶顯示,也可作為原文信息檢索的索引,或存儲(chǔ)到數(shù)據(jù)庫(kù)、電子表格中,以便于以后的進(jìn)一步分析[1]。本文嘗試結(jié)合Web網(wǎng)頁(yè)文檔的特點(diǎn)及領(lǐng)域本體知識(shí),以及信息提取、知識(shí)挖掘和XML等技術(shù),給出了一種基于領(lǐng)域本體的Web信息抽取方法,旨在提高用戶利用Web信息的效率。

      1 需求及技術(shù)思路

      面對(duì)海量的Web數(shù)據(jù),傳統(tǒng)的搜索引擎系統(tǒng)提供的服務(wù)質(zhì)量不能滿足信息獲取的需求,為提高查詢結(jié)果的準(zhǔn)確性和增強(qiáng)查詢的表達(dá)能力,人們需要將數(shù)據(jù)從缺乏結(jié)構(gòu)約束的Web頁(yè)面提取出來(lái),轉(zhuǎn)化為具有結(jié)構(gòu)的數(shù)據(jù)。本文以上海外國(guó)教材中心的教育信息庫(kù)為背景,以外國(guó)著名大學(xué)教學(xué)信息自動(dòng)抽取建庫(kù)為抓手,利用教學(xué)信息這個(gè)特定領(lǐng)域的信息表征特點(diǎn)構(gòu)造相關(guān)的領(lǐng)域本體。通過基于本體的信息抽取方法利用領(lǐng)域本體作為提取的外部知識(shí)來(lái)產(chǎn)生應(yīng)用本體,由應(yīng)用本體來(lái)完成最終的提取方式。同時(shí)也對(duì)領(lǐng)域本體產(chǎn)生反饋,運(yùn)用這種類似于機(jī)器學(xué)習(xí)的方法不斷完善領(lǐng)域本體,逐步提高抽取過程的自動(dòng)化。

      1.1 抽取的算法思路

      Step1:選取HTML樣本。一般情況下,同一個(gè)學(xué)校的教學(xué)信息的表現(xiàn)風(fēng)格基本一致,所要處理的文檔都是成批的,并且這些文檔都按照某一種或者幾種結(jié)構(gòu)出現(xiàn)。因此只需要構(gòu)造出其中一些樣本的抽取規(guī)則,其余的就可以利用這些規(guī)則進(jìn)行抽取。每一個(gè)生成的規(guī)則針對(duì)Web數(shù)據(jù)源中的某類Web頁(yè)面。

      Step2:輸入本體定義?!氨倔w定義”就是定義信息的抽取目標(biāo),指明感興趣的信息。通過本體定義使在后續(xù)的抽取過程中,只需要處理已經(jīng)定義了的信息項(xiàng),對(duì)無(wú)關(guān)的信息項(xiàng)不做處理或標(biāo)記為“忽略”(Ignore)。

      Step3:把HTML樣本解析為Dom樹。

      Step4:規(guī)則生成器生成抽取規(guī)則。規(guī)則生成器根據(jù)本體定義和Dom樹進(jìn)行歸納學(xué)習(xí)生成抽取規(guī)則。

      Step5:生成的規(guī)則按一定形式存儲(chǔ)到規(guī)則庫(kù)供后續(xù)抽取利用。

      1.2 本體及基于本體的抽取方法

      本體[2](Ontology)在哲學(xué)上泛指對(duì)客觀世界的本體描述,在人工智能領(lǐng)域一般指智能系統(tǒng)中涉及的概念術(shù)語(yǔ)及其性質(zhì)等靜態(tài)知識(shí)的描述。在人工智能界,最早給Ontology定義的是Neches等人。他們將Ontology定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則定義”。1993年,Gruber給出了Ontology的一個(gè)最為流行的定義[4-5],即“Ontology是概念模型的明確規(guī)范說(shuō)明”。Ontology的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識(shí),提出供該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同的層次的形式化模式上給出這些詞匯(術(shù)語(yǔ))和詞匯間相互關(guān)系的明確定義。在知識(shí)過濾器系統(tǒng)中,本體(Ontology)匯集了領(lǐng)域相關(guān)的所有概念與術(shù)語(yǔ)及其之間的關(guān)系。知識(shí)過濾器系統(tǒng)的本體(Ontology)表示按對(duì)象分類構(gòu)成層次結(jié)構(gòu)。其中最底層是領(lǐng)域常用的英語(yǔ)詞匯;次底層是這些詞匯對(duì)應(yīng)的概念,該層每個(gè)概念對(duì)應(yīng)底層中一個(gè)同義詞集,再往上則是這些概念的抽象。

      基于本體的抽取方法簡(jiǎn)單地說(shuō)也就是先用本體(Ontology)建立數(shù)據(jù)模型,再把可能抽取的數(shù)據(jù)項(xiàng)映射到Ontology中的元素上,用戶選擇Ontology中的元素以決定抽取的對(duì)象。Ontology的引入既保證了結(jié)構(gòu)的一致性,又保證了數(shù)據(jù)的一致性,使不同來(lái)源的數(shù)據(jù)都能以統(tǒng)一的視圖呈現(xiàn),方便了信息的繼承和交換。

      2 具體實(shí)現(xiàn)方案

      2.1 本體定義

      本體是關(guān)于某個(gè)領(lǐng)域描述的形式化理論,因此需要一種形式化的邏輯語(yǔ)言進(jìn)行表達(dá)。隨著Web技術(shù)和知識(shí)工程研究的發(fā)展,很多語(yǔ)言標(biāo)準(zhǔn)可以做本體的描述語(yǔ)言?,F(xiàn)有的傳統(tǒng)的本體描述語(yǔ)言包括CycL、KIF、Ontolingua、框架邏輯、描述邏輯等,其中CycL和KIF是擴(kuò)展了的一階謂詞邏輯語(yǔ)言;Ontolingua和框架邏輯是基于框架的方法,兩種方法都是把基于框架的建模原語(yǔ)結(jié)合到一階邏輯框架中;描述邏輯根據(jù)概念和角色約束描述知識(shí),角色用來(lái)推理出分類結(jié)果。它們能夠提供清楚描述數(shù)據(jù)語(yǔ)義信息的概念化表示。本系統(tǒng)本體的定義格式如下:

      Concept

      [super:{superzname}*];

      {:{>,}*;}*

      End

      其中Concept定義了概念(即要抽取信息的信息項(xiàng))的名稱,[super:{superzname}*];說(shuō)明了概念的父概念,*表示可以多次重復(fù)(即可能存在一個(gè)父概念的集合)。{:{>,}*;}*是對(duì)概念屬性的說(shuō)明,一個(gè)概念可能會(huì)有多個(gè)屬性。End表示定義結(jié)束。

      例如圖1中對(duì)應(yīng)的本體可以定義如下:

      (1)Concetp slipt

      Super:Null;

      Edge:{(INTRODUCTORY COURSES),(INTERMEDIATE COURSES),(ADVANCED COURSES)}

      End split;

      該段定義了文檔的區(qū)域劃分。從INTRODUCTORY COURSES到INTERMEDIATE COURSES為一個(gè)區(qū)域。

      (2)Concept INTRODUCTORY COURSES

      Super:Null;

      Type:String;

      Value:{CPSC 112a or b,INTRODUCTION TO PROGRAMMING.

      112a:MWF 10.30-11.20 IV(33)Yang Richard Yang

      112b:MWF 11.30-12.20 IV(34)Drew McDermott

      Development on the computer of programming skills,problem-solving methods,and selected applications.No previous experience with computers necessary.}

      End INTRODUCTORY COURSES

      這是對(duì)圖中的數(shù)據(jù)項(xiàng)INTRODUCTORY COURSES的描述,即需要抽取的信息項(xiàng)的物理意義為INTRODUCTORY COURSES(入門課程);這個(gè)概念在文檔中是以String的形式出現(xiàn)的;這個(gè)概念在樣本中的實(shí)例為其值Value{……}。這個(gè)描述的意義在于與Value{……}具有相同路徑格式的信息就是所要抽取的Web文檔的INTRODUCTORY COURSES內(nèi)容。

      2.2 抽取規(guī)則生成

      在樣本頁(yè)的本體定義中描述了需要抽取的信息項(xiàng)的類型、實(shí)例值、前導(dǎo)符和其物理名稱,同時(shí)在生成的樣本頁(yè)的Dom樹中分離出每一個(gè)數(shù)據(jù)(以概念形式給出),并解析出每個(gè)數(shù)據(jù)的類型、路徑。根據(jù)前導(dǎo)符與被抽取信息在物理位置上的連貫性,首先對(duì)于本體定義中的前導(dǎo)符到Dom樹中尋找匹配的數(shù)據(jù)。找到匹配的數(shù)據(jù)后立即對(duì)本體定義中出現(xiàn)的實(shí)例值在Dom樹尋找匹配的數(shù)據(jù)概念,找到匹配的數(shù)據(jù)概念后,若他們的類型一致,則認(rèn)為匹配成功,Dom樹中給出的路徑即為目標(biāo)信息在源碼中出現(xiàn)的路徑。

      例如,在本體定義中,找到“INTRODUCTORY COURSES”概念,則INTRODUCTORY COURSES信息項(xiàng)的實(shí)例值“CPSC 112a or b……”必定在“INTRODUCTORY COURSES”概念后面出現(xiàn)。因而若在本體定義中“INTRODUCTORY COURSES”信息項(xiàng)與在Dom樹中的“CPSC 112a or b……”Type相同,則Dom樹中的“CPSC 112a or b……”的路徑值就是本體定義中的“INTRODUCTORY COURSES”信息項(xiàng)的出現(xiàn)路徑。

      提取規(guī)則生成界面見圖2:

      2.3 信息抽取步驟

      Step1:調(diào)用Web頁(yè)面采集Agent程序?qū)⑾嚓P(guān)頁(yè)面獲取至本地。

      Step2:調(diào)用頁(yè)面處理Agent程序,按照一定規(guī)則對(duì)數(shù)據(jù)進(jìn)行格式化,如按照一定規(guī)則將對(duì)數(shù)據(jù)結(jié)構(gòu)沒有影響的html標(biāo)簽去除,然后以樹形方式保存在文件中,并以Web瀏覽器瀏覽的方式呈現(xiàn)給用戶。

      Step3:調(diào)用頁(yè)面抽取Agent程序,對(duì)數(shù)據(jù)進(jìn)行提取并驗(yàn)證提取結(jié)果。當(dāng)提取出來(lái)的信息匹配度低時(shí),系統(tǒng)調(diào)用模板序列余下模板之一重新進(jìn)行數(shù)據(jù)提取并驗(yàn)證提取結(jié)果,最后提交給用戶匹配度最高的結(jié)果。

      Step4:此時(shí)如果用戶對(duì)結(jié)果不滿意可修改模板重新提取,即對(duì)照HTML頁(yè)面信息指定其中那些內(nèi)容將被抓取,并且可以指定各個(gè)特定標(biāo)簽所包含的數(shù)據(jù)將在元數(shù)據(jù)里的屬性進(jìn)行對(duì)模板的修改,調(diào)用模板生成Agent程序?qū)⑿履0寮尤肽0逍蛄袔?kù)供后續(xù)使用。

      其中:數(shù)據(jù)模板定義了信息提取中遵循的規(guī)則,刻畫了待提取信息的特征。模板的生成可以通過圖形化的界面由用戶自定義。例如可以選取已有的模板進(jìn)行修改或選取一個(gè)或幾個(gè)網(wǎng)頁(yè)進(jìn)行定義。匹配度指提取的信息與模板的匹配程度,可以通過對(duì)提取出的信息的格式、特征等進(jìn)行識(shí)別和判斷。

      2.4 數(shù)據(jù)處理

      最后系統(tǒng)將提取出來(lái)的信息映射成為用XML描述的元數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)可以定義如下:

      <Document>

      <Element>…<Img Url=…/></Element>

      <Element>

      <Message>

      <Hyperlink><Title>…</Title><Document>…</Document></Hyperlink>

      <Date>…</Date>

      </Message>

      <Message><Title>…</Title><Date>…</Date></Message>

      </Element>

      </Document>

      其中<Document solution=n></Document>內(nèi)包含了一次網(wǎng)頁(yè)抓取的結(jié)果。<Element></Element>定義了一組信息,<Hyperlink></Hyperlink>說(shuō)明了它包含的內(nèi)容有一個(gè)下層連接頁(yè)面(由嵌套的<Document></Document>標(biāo)簽包含),具體信息格式由configure中對(duì)應(yīng)的solution定義的模板決定。通過以上工作完成了經(jīng)過與處理后的信息抽取,并將抽取出來(lái)的信息按照事先定義好的格式存儲(chǔ)到數(shù)據(jù)庫(kù)中供后續(xù)使用。

      3 小 結(jié)

      本文提出由本體驅(qū)動(dòng),根據(jù)文檔結(jié)構(gòu)和特征匹配來(lái)進(jìn)行信息定位和信息抽取的方法,同時(shí)還引入了匹配度算法對(duì)提取的結(jié)果進(jìn)行匹配度計(jì)算,實(shí)現(xiàn)了一個(gè)用戶指導(dǎo)的交互式信息抽取原型系統(tǒng),能快速通過可視化的用戶的交互,方便用戶提取和定義其所需的信息。對(duì)于教學(xué)信息等有特定規(guī)范、特征的頁(yè)面信息,此方法不僅精確度高而且自動(dòng)化,可以大大提高信息庫(kù)和知識(shí)集成的建設(shè)速度。

      參考文獻(xiàn)

      [1]陳靜,朱巧明,貢正仙.基于Ontology的信息抽取研究綜述[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,(10):84-86,91.

      [2]鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2002,(5):730-738.

      [3]李勝利,李昌清,袁平鵬,等.基于Web的電子期刊元數(shù)據(jù)信息抽取方法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2007,(12):13-15.

      [4]T.R.Gruber.A translation approach to portable ontologies[J].Knowledge Acquisition,1993,5(2):199-220.

      [5]T.R.Gruber.Toward principles for the design of ontologies used for knowledge sharing.Presented at the Padua workshop on Formal Ontology,March 1993,later published in International Journal of Human-Computer Studies,1995,43(4-5):907-928.

      猜你喜歡
      本體
      Abstracts and Key Words
      對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      專題
      Care about the virtue moral education
      卷宗(2013年6期)2013-10-21 21:07:52
      漫仔漫妞
      体育| 新河县| 康保县| 永定县| 盘山县| 雅江县| 浦北县| 岚皋县| 新竹县| 博罗县| 河东区| 东辽县| 沂南县| 旬邑县| 双柏县| 镇雄县| 大渡口区| 中山市| 华亭县| 宜州市| 桃园县| 会同县| 丹巴县| 七台河市| 武乡县| 两当县| 赫章县| 泰安市| 高唐县| 孙吴县| 凤翔县| 宜丰县| 金山区| 留坝县| 大田县| 西盟| 龙州县| 禄丰县| 渭南市| 拜城县| 长兴县|