• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于GAE的專業(yè)服務(wù)網(wǎng)信息獲取技術(shù)研究*

      2011-06-27 03:00:34胡金柱
      電信科學(xué) 2011年12期
      關(guān)鍵詞:服務(wù)網(wǎng)隊(duì)列本體

      胡 泉,胡金柱,謝 芳

      (1.華中師范大學(xué) 武漢 430079;2.湖北工業(yè)大學(xué) 武漢 430068)

      1 引言

      專業(yè)服務(wù)網(wǎng)站是以行業(yè)或領(lǐng)域?yàn)榉?wù)對(duì)象的特殊網(wǎng)站,如面向機(jī)械、化工、電力、計(jì)算機(jī)等行業(yè)的服務(wù)網(wǎng)站,是針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求,提供內(nèi)容集中而深入的信息服務(wù)的網(wǎng)站。這類網(wǎng)站數(shù)量龐大,基本上都是免費(fèi)開(kāi)放,如各級(jí)政府的科技信息服務(wù)網(wǎng)或情報(bào)網(wǎng)、公司的服務(wù)網(wǎng)(如海爾公司的服務(wù)網(wǎng)站)等。

      專業(yè)服務(wù)網(wǎng)站針對(duì)專業(yè)領(lǐng)域中的特定用戶群,為其提供專業(yè)的、量身打造的服務(wù),它能夠限制用戶查找信息類別的范圍,使用戶快速找到需要的信息。所以,網(wǎng)上信息應(yīng)該簡(jiǎn)潔、明了,確保用戶能在盡可能短的時(shí)間內(nèi)找到最需要的信息內(nèi)容。因此專業(yè)服務(wù)網(wǎng)的信息管理工作者,其主要任務(wù)之一是從相關(guān)的網(wǎng)站上及時(shí)、準(zhǔn)確地獲取有用信息,并對(duì)這些信息內(nèi)容進(jìn)行專業(yè)處理、深度加工和及時(shí)更新發(fā)布。網(wǎng)上信息一般是以標(biāo)題、內(nèi)容的形式發(fā)布,而不是以網(wǎng)頁(yè)鏈接的形式表示。所以,直接搜索到的信息不僅僅是網(wǎng)頁(yè)鏈接,而是網(wǎng)頁(yè)內(nèi)容的主體和標(biāo)題等有用信息。因此,需要研究一種專用的信息自主更新系統(tǒng),才能讓信息管理工作者從枯燥、單調(diào)、雜亂無(wú)章的海量信息中及時(shí)、準(zhǔn)確地獲取有用信息。

      目前,Google推出的谷歌應(yīng)用軟件引擎(Google application engine,GAE)是一種免費(fèi)的云計(jì)算平臺(tái),它可以讓開(kāi)發(fā)人員編譯基于Python的應(yīng)用程序,并免費(fèi)使用其基礎(chǔ)設(shè)施進(jìn)行托管。因此,用戶在GAE下建設(shè)小型專業(yè)服務(wù)網(wǎng)站時(shí),不再需要租用主機(jī),尋找托管商;開(kāi)發(fā)人員在GAE的框架內(nèi)開(kāi)發(fā),不用再考慮CPU、內(nèi)存、分布等復(fù)雜和難以控制的問(wèn)題。

      2 GAE下面向本體的專業(yè)信息服務(wù)網(wǎng)信息自主更新問(wèn)題

      本體(ontology)是共享概念模型的明確的形式化規(guī)范說(shuō)明,包含概念的定義、概念間的復(fù)雜關(guān)系以及概念推理的規(guī)則。應(yīng)用本體可以捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯(術(shù)語(yǔ)),并從不同層次的形式化模式上給出這些詞匯間相互關(guān)系的明確定義。

      2.1 信息自主更新的基本過(guò)程

      GAE下面向本體的專業(yè)信息服務(wù)網(wǎng)信息自主更新的基本過(guò)程如下:

      ·利用網(wǎng)絡(luò)爬蟲(chóng)爬取網(wǎng)頁(yè)數(shù)據(jù);

      ·本體按照指定的規(guī)則模板進(jìn)行信息獲?。?/p>

      ·將抽取的信息按照規(guī)定的格式存儲(chǔ)到元數(shù)據(jù)庫(kù)中;

      ·索引程序?qū)Υ鎯?chǔ)的數(shù)據(jù)建立索引,并存入索引數(shù)據(jù)庫(kù);

      ·查詢分析器分析用戶的查詢請(qǐng)求,并將分析的結(jié)果傳遞給推理機(jī);

      ·根據(jù)推理機(jī)的處理結(jié)果構(gòu)建查詢對(duì)象,訪問(wèn)索引數(shù)據(jù)庫(kù),并將檢索到的結(jié)果返回給用戶;

      ·將得到的專業(yè)服務(wù)信息推送到專業(yè)信息服務(wù)網(wǎng)。其中,檢索是面向本體語(yǔ)義檢索的最重要的一部分,查詢處理可描述成以下的IR模型。

      本體模型、面向本體的標(biāo)識(shí)Web資源的模型、面向本體的查詢模型,將查詢的關(guān)鍵詞匹配成本體描述的匹配算法。在這些模型中,Web資源(R)與查詢(Q)是相關(guān)的,僅在面向本體(O)建立的R和Q中,R滿足Q。在云計(jì)算平臺(tái)GAE下,本文采用本體與本體間的映射方法將查詢關(guān)鍵詞匹配成本體描述,讓本體易于被機(jī)器所理解,并且使本體間在語(yǔ)義上達(dá)到概念的一致性。

      2.2 本體語(yǔ)義搜索引擎的基本模型

      實(shí)現(xiàn)面向本體語(yǔ)義搜索引擎的過(guò)程中,想讓搜索引擎理解用戶的搜索內(nèi)容和目標(biāo),就必須實(shí)現(xiàn)如下兩個(gè)基本功能:對(duì)爬蟲(chóng)程序爬取的信息進(jìn)行基于本體的信息抽?。焕猛评頇C(jī)進(jìn)行分析查詢。

      基于這兩點(diǎn)功能,本文設(shè)計(jì)了如圖1所示的基本框架模型。

      2.3 面向本體的信息獲取過(guò)程

      因?yàn)樵谠朴?jì)算平臺(tái)GAE下,不同的啟發(fā)式規(guī)則生成的部分解可能是不一致的,所以面向本體的信息抽取過(guò)程大致可以分為5個(gè)步驟:文本結(jié)構(gòu)解析和漢語(yǔ)分詞、文本分類、假設(shè)生成、數(shù)據(jù)規(guī)格化處理與完整性檢查、矛盾消解。其中,信息抽取由后3步完成。第3步產(chǎn)生各種可能的相互矛盾競(jìng)爭(zhēng)的部分解,并在第4步加以去粗取精的處理,再通過(guò)檢測(cè)評(píng)判從這些競(jìng)爭(zhēng)部分解中析出最終的一致解。

      圖1 基于GAE的本體語(yǔ)義搜索引擎基本框架模型

      該過(guò)程的關(guān)鍵是抽取規(guī)則模板和規(guī)則算法。本文中面向本體的信息抽取的規(guī)則模板采用概念斷言進(jìn)行描述,這樣可以在云計(jì)算平臺(tái)GAE下將本體的概念及其屬性之間的關(guān)系與約束表示為概念斷言。概念斷言的形式如圖2所示。

      圖2 概念斷言的形式

      圖3是一個(gè)應(yīng)用示例,即對(duì)旅游信息抽取的一些本體斷言。

      在云計(jì)算平臺(tái)GAE下基于本體的信息抽取的規(guī)則算法描述如圖4所示。

      2.4 利用推理機(jī)分析查詢目標(biāo)

      在云計(jì)算平臺(tái)GAE下,語(yǔ)義檢索的意義在于對(duì)概念及概念間的關(guān)系進(jìn)行語(yǔ)義層面的檢索,其關(guān)鍵在于對(duì)概念之間的推理。Jena提供了基于規(guī)則的推理機(jī),包括RDFSReasoner、OWL Reasoner等,都具有一般的推理功能,目前一般都使用Jena對(duì)所建立的專用本體進(jìn)行推理分析請(qǐng)求。利用Jena對(duì)前面所建立的旅游本體進(jìn)行推理的部分過(guò)程如圖5所示。

      圖3 對(duì)旅游信息抽取的一些本體斷言

      圖4 基于本體的信息抽取的規(guī)則算法描述

      這里的printStatements定義如下:

      public void printStatements(Model m,Resource s,Property p,Resource o)

      {

      for(StmtIterator i=m.listStatements(s,p,o);i.hasNext();){Statement stmt=i.nextStatement();

      System.out.println(“-”+PrintUtil.print(stmt));}

      }

      2.5 專業(yè)服務(wù)網(wǎng)信息爬取器的設(shè)計(jì)與實(shí)現(xiàn)

      GAE下的專業(yè)服務(wù)網(wǎng)信息爬取器是搜索、獲取信息的核心內(nèi)容之一。本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向主題的專業(yè)服務(wù)網(wǎng)信息爬取器,如圖6所示,主要由協(xié)議處理、頁(yè)面分析、頁(yè)面內(nèi)容檢查、URL優(yōu)先權(quán)判定和頁(yè)面存儲(chǔ)5部分組成。

      ·協(xié)議處理:處于系統(tǒng)的底層,主要通過(guò)各種協(xié)議完成數(shù)據(jù)的采集。

      圖5 旅游本體推理的部分過(guò)程

      圖6 GAE下專業(yè)信息服務(wù)網(wǎng)爬取器的基本結(jié)構(gòu)

      ·頁(yè)面分析:對(duì)于已采集到的頁(yè)面,首先判別頁(yè)面的類型,然后分析并提取未被訪問(wèn)的鏈接以及用于鏈接相關(guān)性預(yù)測(cè)的一些其他信息,如提取用于頁(yè)面相關(guān)性判定的頁(yè)面正文等。

      ·頁(yè)面內(nèi)容檢查:對(duì)下載的頁(yè)面內(nèi)容,通過(guò)解析、計(jì)算其與主題的相似度,對(duì)頁(yè)面進(jìn)行檢查,過(guò)濾相關(guān)度較低的頁(yè)面內(nèi)容,提高采集的準(zhǔn)確度。

      ·頁(yè)面存儲(chǔ):采集到的頁(yè)面經(jīng)過(guò)頁(yè)面內(nèi)容過(guò)濾后,被判定為符合主題要求的存入專業(yè)服務(wù)數(shù)據(jù)庫(kù),以供搜索引擎的索引需要。

      ·URL優(yōu)先權(quán)判定:采用基于鏈接上下文的自適應(yīng)爬取算法,計(jì)算待爬取的鏈接的優(yōu)先權(quán),并按該優(yōu)先權(quán)進(jìn)行排序,不斷調(diào)整待爬行的隊(duì)列,保證系統(tǒng)持續(xù)運(yùn)行。

      專業(yè)服務(wù)網(wǎng)信息爬取器在啟動(dòng)之前,需要設(shè)置必要的參數(shù),提交需要采集的主題關(guān)鍵詞以及一個(gè)比較好的初始爬取站點(diǎn)集合,經(jīng)過(guò)系統(tǒng)的初始化,系統(tǒng)將以這些配置信息作為運(yùn)行的初始值,進(jìn)行基于主題的有選擇性的網(wǎng)頁(yè)爬行,以獲取與主題相關(guān)的網(wǎng)頁(yè)。

      專業(yè)服務(wù)網(wǎng)信息爬取器需要維護(hù)3個(gè)隊(duì)列:待爬行URL隊(duì)列、已爬行隊(duì)列和停用隊(duì)列。其中,待爬行URL隊(duì)列是爬取器爬行的依據(jù),已爬行隊(duì)列存儲(chǔ)己經(jīng)下載過(guò)的,停用隊(duì)列存儲(chǔ)那些明顯不相關(guān)的或是因?yàn)閯e的原因被爬取器拒絕爬行的。待爬行URL隊(duì)列隨著爬取器的爬行不斷動(dòng)態(tài)變化,爬取器在爬行的過(guò)程中,不斷地有新鏈接出現(xiàn),根據(jù)啟發(fā)式搜索策略,這些新的鏈接會(huì)按照主題相關(guān)性以由大到小的順序排列,并被加入待爬行URL隊(duì)列中。所以無(wú)論何時(shí),主題相關(guān)性最高的URL一定在待爬行隊(duì)列的頭部,這樣就保證了爬取器每次從該隊(duì)列中取出用于訪問(wèn)的都是與主題最相關(guān)的。相應(yīng)的網(wǎng)頁(yè)被訪問(wèn)后便將其抽取出來(lái),計(jì)算它與主題的相關(guān)性,然后將它插入該隊(duì)列的相應(yīng)位置。這個(gè)過(guò)程周而復(fù)始,以保證爬取器能夠?qū)εc主題最相關(guān)的網(wǎng)頁(yè)不斷地爬行下去,直到該隊(duì)列為空。爬取器的運(yùn)行流程如圖7所示。

      3 實(shí)驗(yàn)及其結(jié)果分析

      通常從召回率、準(zhǔn)確率和檢索時(shí)間3個(gè)方面評(píng)價(jià)搜索引擎的性能。其中,檢索時(shí)間除了依賴于索引算法和檢索算法外,還在一定程度上依賴于硬件配置。因此,本文主要統(tǒng)計(jì)分析召回率和準(zhǔn)確率。表1給出了實(shí)驗(yàn)數(shù)據(jù)的處理結(jié)果,對(duì)于檢索請(qǐng)求所要表達(dá)的意思在所建本體范圍內(nèi)的情況,在準(zhǔn)確率和召回率上有很好的結(jié)果。

      表1 實(shí)驗(yàn)數(shù)據(jù)處理結(jié)果

      本實(shí)驗(yàn)環(huán)境為獨(dú)立開(kāi)發(fā)的省情網(wǎng)和農(nóng)民工信息服務(wù)網(wǎng),這是兩個(gè)典型的專業(yè)信息服務(wù)網(wǎng),是為專門(mén)領(lǐng)域的專門(mén)人群提供相應(yīng)的信息服務(wù)的網(wǎng)絡(luò),按照?qǐng)D1所示的基本框架模型設(shè)計(jì),并各自建有相應(yīng)的本體庫(kù)。

      4 結(jié)束語(yǔ)

      針對(duì)傳統(tǒng)信息更新系統(tǒng)中存在的不能理解查詢語(yǔ)義的問(wèn)題,本文研究了一種基于GAE面向本體語(yǔ)義的專業(yè)信息服務(wù)網(wǎng)信息更新系統(tǒng)的框架結(jié)構(gòu),充分利用本體語(yǔ)義的優(yōu)點(diǎn),可以從知識(shí)庫(kù)中快速查找與用戶需求密切相關(guān)的信息。在省情網(wǎng)和農(nóng)民工信息服務(wù)網(wǎng)上得到具體實(shí)現(xiàn),證明了其信息獲取技術(shù)的有效性和準(zhǔn)確性。同時(shí),在GAE下建設(shè)小型專業(yè)服務(wù)網(wǎng)站時(shí),不再需要非云計(jì)算環(huán)境下的主機(jī)租用和尋找托管商等繁瑣工作;開(kāi)發(fā)人員在GAE的框架內(nèi)開(kāi)發(fā),也不用再考慮非云計(jì)算環(huán)境下的CPU、內(nèi)存、分布等復(fù)雜和難以控制的問(wèn)題。但如果所要獲取的信息需求所表達(dá)的語(yǔ)義不在系統(tǒng)本體的范圍內(nèi),搜索到的結(jié)果不太理想,這是需要進(jìn)一步研究的問(wèn)題。

      1 陳全,鄧倩妮.云計(jì)算及其關(guān)鍵技術(shù).計(jì)算機(jī)應(yīng)用,2009,29(9)

      2 欒靜,李軍鋒.基于Lucene全文檢索引擎的應(yīng)用研究.計(jì)算機(jī)與數(shù)字工程,2010,38(12)

      3 He B,Chang K C C.Automatic complex schema matching across Web queryinterfaces:a correlation mining approach.ACM Transactions on Database Systems(TODS),2006,31(1):346~395

      4 Su W F,Wang J Y,Lochovsky F.Automatic hierarchical classification of structured deep Web databases.Web Information Systems-Wise,Proceedings Lecture Notes in Computer Science,2006(4 255):210~221

      5 Caverlee J,Liu L,Rocco D.Discovering interesting relationships among deep Web databases:a source-biased approach.World Wide Web-Internet and Web Information Systems,2006,9(4):585~622

      6 Shestakov D,Bhowmick S S,Lim E P.DEQUE:querying the deep Web.Data&Knowledge Engineering,2005,52(3):273~311

      7 Caverlee J,Liu L.QA-pagelet:data preparation techniques for large-scale data analysis of the deep Web.IEEE Transactions on Knowledge and Data Engineering,2005,17(9):1 247~1 262

      猜你喜歡
      服務(wù)網(wǎng)隊(duì)列本體
      Abstracts and Key Words
      中國(guó)聽(tīng)障兒童服務(wù)網(wǎng)開(kāi)通助聽(tīng)器免費(fèi)借用服務(wù)
      嘉陵區(qū):用心編織服務(wù)網(wǎng) 真情保障擔(dān)使命
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      隊(duì)列里的小秘密
      基于多隊(duì)列切換的SDN擁塞控制*
      軟件(2020年3期)2020-04-20 00:58:44
      社區(qū)治理如何密織服務(wù)網(wǎng)——成都安公社區(qū)劃了“五條線”
      在隊(duì)列里
      豐田加速駛?cè)胱詣?dòng)駕駛隊(duì)列
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      同江市| 云浮市| 莫力| 会理县| 宿州市| 柳河县| 蛟河市| 天水市| 罗城| 高雄市| 东丽区| 泸溪县| 武定县| 赫章县| 日喀则市| 米脂县| 华安县| 醴陵市| 河西区| 湘西| 巴中市| 松滋市| 温州市| 栾川县| 桐庐县| 北安市| 霍林郭勒市| 永丰县| 安义县| 澄迈县| 锦州市| 秀山| 都江堰市| 琼海市| 镇沅| 康定县| 安阳县| 伊宁市| 平舆县| 新源县| 辉县市|