• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      三農(nóng)網(wǎng)絡(luò)文本信息資源集成系統(tǒng)

      2015-04-29 07:26:52高萬(wàn)林張樹亮李佩佩臧金玉趙龍胡慧
      農(nóng)學(xué)學(xué)報(bào) 2015年11期
      關(guān)鍵詞:集成提取

      高萬(wàn)林 張樹亮 李佩佩 臧金玉 趙龍 胡慧

      摘要:三農(nóng)網(wǎng)絡(luò)資源的集成是一項(xiàng)浩大的工程,同時(shí)也是一項(xiàng)利國(guó)利民的事業(yè)。網(wǎng)絡(luò)資源的種類包括文本、圖片、音頻、視頻等形式。如何在眾多的網(wǎng)絡(luò)信息中將有用的三農(nóng)信息提取出來(lái),成為亟需解決的一個(gè)問(wèn)題。文章以對(duì)三農(nóng)文本網(wǎng)絡(luò)信息進(jìn)行集成為例進(jìn)行研究,提出三農(nóng)網(wǎng)絡(luò)文本信息集成系統(tǒng)設(shè)計(jì)方案,通過(guò)采集管理模塊、過(guò)濾管理模塊、規(guī)則管理模塊、采集信息管理模塊將信息資源集成,方便了三農(nóng)信息的整合,便于信息的閱讀和獲取。

      關(guān)鍵詞:三農(nóng)網(wǎng)絡(luò)信息;集成;提取

      中圖分類號(hào):S-9 文獻(xiàn)標(biāo)志碼:A 論文編號(hào):2013-0134

      0引言

      三農(nóng)網(wǎng)絡(luò)信息資源集成系統(tǒng),又稱三農(nóng)信息資源整合平臺(tái),主要包括文本、圖片Ⅲ、音頻和視頻4種形式信息資源的整合。三農(nóng)文本網(wǎng)絡(luò)信息資源集成系統(tǒng),主要是針對(duì)互聯(lián)網(wǎng)上三農(nóng)文本信息資源的整合,所謂的整合就是提出糟粕采集精華。針對(duì)互聯(lián)網(wǎng)絡(luò)海量的信息,如果只通過(guò)復(fù)制和粘貼采集重要的信息,則可以說(shuō)是沉重的工作。本系統(tǒng)基本功能就是要從海量的網(wǎng)絡(luò)信息中,采集重要的文本信息。

      1系統(tǒng)結(jié)構(gòu)及用例圖

      三農(nóng)網(wǎng)絡(luò)文本信息資源集成系統(tǒng)是基于JAVA語(yǔ)言開(kāi)發(fā),系統(tǒng)設(shè)計(jì)結(jié)構(gòu)圖如圖1所示,系統(tǒng)用例圖如圖2所不。

      2系統(tǒng)功能

      在三農(nóng)信息資源整合平臺(tái)一文中已經(jīng)講過(guò),三農(nóng)信息資源集成系統(tǒng)共有4個(gè)大的模塊:采集管理模塊、過(guò)濾管理模塊、規(guī)則管理模塊、采集信息管理模塊。這些功能模塊同樣在三農(nóng)文本網(wǎng)絡(luò)信息集成系統(tǒng)中適用,只是這時(shí)的信息一般指文本信息而已,文本信息是三農(nóng)信息資源4種信息形式的一種,同樣其他3種圖片、音頻、視頻信息的采集系統(tǒng)也都包含相應(yīng)信息形式的這4個(gè)大的模塊,4模塊的介紹也可參見(jiàn)三農(nóng)信息資源整合平臺(tái)一文中的概述。

      為了系統(tǒng)的安全性用戶必須成功登錄系統(tǒng),才可以操作采集的項(xiàng)目。需要采集的項(xiàng)目都和用戶關(guān)聯(lián)。一個(gè)用戶只允許操作自己的采集項(xiàng)目和采集信息。用戶登錄成功后,可以對(duì)個(gè)人的信息和密碼進(jìn)行修改。

      2.1采集管理模塊

      采集管理模塊管理的對(duì)象主要是,其一是管理需要采集網(wǎng)站的一些基本信息,包括:采集網(wǎng)站名稱,采集的網(wǎng)址,采集的模型,采集的信息的模型和備注。其二是:管理定時(shí)計(jì)劃。

      2.1.1采集管理采集管理主要是管理需要采集的網(wǎng)站。此模塊將所有需要采集的網(wǎng)站統(tǒng)一管理起來(lái),可以通過(guò)制定定時(shí)計(jì)劃,系統(tǒng)自動(dòng)采集網(wǎng)站內(nèi)的信息。因?yàn)橐恍┚W(wǎng)站會(huì)階段性的發(fā)布最新的信息。為減少用戶的采集操作,用戶可以對(duì)長(zhǎng)時(shí)間需要采集的項(xiàng)目統(tǒng)一管理起來(lái),并且制定定時(shí)和過(guò)濾的方式。讓系統(tǒng)階段性的訪問(wèn)需要采集的網(wǎng)站,采集最新的信息。

      圖3是采集管理的初圖,根據(jù)用戶來(lái)分開(kāi)大量的采集信息。任何一個(gè)普通用戶,只允許操作個(gè)人定義的信息,管理員的角色可以操作任何采集的信息和管理所有的采集項(xiàng)目。普通用戶在進(jìn)入系統(tǒng)后可以添加采集、編輯采集、刪除采集、采集信息、指定規(guī)則、添加定時(shí)的操作。

      (1)采集網(wǎng)站添加。用戶登錄成功后,可以根據(jù)自己瀏覽的信息添加采集項(xiàng)目。采集項(xiàng)目包括:項(xiàng)目名稱、采集網(wǎng)站名稱、采集的網(wǎng)站地址、采集的模型、信息模型和備注等信息。系統(tǒng)會(huì)根據(jù)所填寫的信息訪問(wèn)需要采集的網(wǎng)站。

      (2)采集網(wǎng)站編輯。用戶可以對(duì)個(gè)人添加的采集信息進(jìn)行重新編輯。添加的任何一個(gè)項(xiàng)目不符合要求就可以修改,任何一個(gè)條件都可以隨時(shí)修改。

      (3)采集網(wǎng)站物理刪除。用戶可以對(duì)個(gè)人添加的信息刪除,刪除模式是物理刪除。每一次添加的項(xiàng)目采集后則就不需要重復(fù)采集,如果邏輯刪除后期會(huì)占用大量的空間。所以采用物理刪除模式。

      (4)信息采集。如果沒(méi)有定時(shí),只采集單條記錄。定時(shí)后會(huì)采集整個(gè)網(wǎng)站的信息。方便用戶操作所以在采集管理模塊添加了采集的功能,采集后的信息會(huì)包含Html標(biāo)簽,用戶可以對(duì)采集后的信息進(jìn)行處理,包括:自動(dòng)過(guò)濾或者手動(dòng)過(guò)濾;生成html或者是刪除的操作。

      (5)指定規(guī)則。指定規(guī)則采集,簡(jiǎn)單的講就是:通知系統(tǒng)如何去采集網(wǎng)站信息。在采集項(xiàng)目的時(shí)候可以首先制定一個(gè)項(xiàng)目采集規(guī)則,通過(guò)規(guī)則管理頁(yè)面可以完成于項(xiàng)目的綁定和移除。項(xiàng)目指定好規(guī)則之后,系統(tǒng)會(huì)根據(jù)項(xiàng)目采集的信息自動(dòng)過(guò)濾掉HTML標(biāo)簽。系統(tǒng)采集流程如圖4所示。

      2.1.2定時(shí)管理定時(shí)管理是集成在采集管理模塊內(nèi)的。從操作流程來(lái)講應(yīng)該屬于采集管理模塊下的一個(gè)功能。但是因?yàn)槎〞r(shí)對(duì)整個(gè)系統(tǒng)是很重要的一個(gè)部分,所以單獨(dú)來(lái)分析這一模塊。定時(shí)的實(shí)現(xiàn)技術(shù)主要是通過(guò)AJAX異步通訊來(lái)完成定時(shí)模塊的主要功能“”。定時(shí)流程如圖5所示。

      圖5是定時(shí)采集流程圖,系統(tǒng)內(nèi)部通過(guò)AJAX異步通訊技術(shù),自動(dòng)查詢每個(gè)項(xiàng)目的屬性。如果項(xiàng)目已經(jīng)添加定時(shí)計(jì)劃,則自動(dòng)查詢定時(shí)表,得到詳細(xì)的定時(shí)計(jì)劃。通過(guò)所定的屬性,采集相關(guān)的網(wǎng)站。返回最新的信息。

      (1)制定定時(shí)計(jì)劃,為項(xiàng)目添加定時(shí)。定時(shí)計(jì)劃主要包括:開(kāi)始時(shí)間,結(jié)束時(shí)間,時(shí)間間隔。系統(tǒng)根據(jù)添加的時(shí)間,計(jì)算是否需要采集網(wǎng)站信息。

      (2)修改定時(shí)計(jì)劃。不合理的時(shí)間計(jì)劃可以修改定時(shí)計(jì)劃,所有修改的內(nèi)容包括:開(kāi)始時(shí)間,結(jié)束時(shí)間和時(shí)間間隔。

      (3)取消定時(shí)。如果項(xiàng)目添加的定時(shí)計(jì)劃已經(jīng)到了結(jié)束日期,系統(tǒng)自動(dòng)取消定時(shí)計(jì)劃。如果用戶不需要定時(shí)計(jì)劃也可以手動(dòng)取消定時(shí)。

      2.2過(guò)濾管理模塊

      過(guò)濾管理的模塊主要管理的對(duì)象是需要過(guò)濾的信息,一些信息在采集的過(guò)程中沒(méi)有指定規(guī)則過(guò)濾,采集后的信息都包含Html代碼,過(guò)濾Html代碼需要通過(guò)此模塊的功能來(lái)完成。過(guò)濾的模塊包括:自動(dòng)過(guò)濾、手動(dòng)過(guò)濾、生成Html和刪除需要過(guò)濾的信息。

      過(guò)濾管理是本系統(tǒng)中必不可少的一項(xiàng)功能。采集后的信息都要通過(guò)過(guò)濾這一程序,達(dá)到信息可以使用的價(jià)值。過(guò)濾主要是針對(duì)包含HTML標(biāo)簽的信息。用戶可以指定規(guī)則,也可以手動(dòng)來(lái)過(guò)濾這些信息。

      過(guò)濾模塊是管理員操作最多的模塊。如果要采集可以使用的信息,這一模塊就是系統(tǒng)的核心部分。用戶可以過(guò)濾文本信息、所有的鏈接、所有的圖片、所有的音頻和直接過(guò)濾。如圖6是信息過(guò)濾圖。

      如果需要采集的信息沒(méi)有指定定時(shí)計(jì)劃,則需要通過(guò)手動(dòng)過(guò)濾來(lái)完成信息的采集。同時(shí)也可以先添加規(guī)則把需要采集的項(xiàng)目指定規(guī)則批量的處理。

      2.2.1文本信息過(guò)濾文本信息過(guò)濾分為標(biāo)題、時(shí)間、作者、來(lái)源、內(nèi)容、文本內(nèi)容圖片幾個(gè)大部分。通過(guò)這6個(gè)部分采集文本信息。

      2.2.2生成規(guī)則不同的信息采集的方式不同,所采用的技術(shù)也是不同。文本信息主要分為了6個(gè)大的部分,上面已經(jīng)簡(jiǎn)單的介紹。在采集的過(guò)程中把過(guò)濾標(biāo)簽的方式生成規(guī)則,在生成規(guī)則的同時(shí)規(guī)則已經(jīng)和項(xiàng)目自動(dòng)綁定。在此采集同一網(wǎng)站類似的信息就可以采用此規(guī)則,因?yàn)橐?guī)則在相同的架構(gòu)和相同的標(biāo)簽內(nèi)可以多次重復(fù)使用。

      2.3規(guī)則管理模塊

      針對(duì)非模塊化的網(wǎng)站架構(gòu),系統(tǒng)不能獨(dú)立完成對(duì)網(wǎng)站的采集和過(guò)濾。此模塊主要是管理需要過(guò)濾的掉的Html標(biāo)簽。每一網(wǎng)站都可以有一個(gè)或者多個(gè)Html標(biāo)簽和采用多個(gè)過(guò)濾的技術(shù)完成。過(guò)濾的技術(shù)包括:文本截取,直接截取,正則截取。此模塊可以為項(xiàng)目制定規(guī)則,同時(shí)也可以分配已經(jīng)制定好的規(guī)則和移除已經(jīng)綁定的項(xiàng)目。

      每個(gè)頁(yè)面都有獨(dú)特的HTML標(biāo)簽,有些網(wǎng)站是通過(guò)表格而有些網(wǎng)站是通過(guò)CSS,所有的網(wǎng)站布局方式都不同。如果每個(gè)網(wǎng)站都寫一個(gè)方法來(lái)采集,可想而知需要寫多少類和多少方法來(lái)完成?;ヂ?lián)網(wǎng)絡(luò)的信息之多通過(guò)此方法是無(wú)法達(dá)到整合的。為了要整合互聯(lián)網(wǎng)絡(luò)的三農(nóng)信息,我們通過(guò)制定規(guī)則來(lái)完成,每個(gè)網(wǎng)站只要配置一些信息,就可以采集整個(gè)網(wǎng)站的信息。

      規(guī)則管理主要是制定一個(gè)網(wǎng)站固定的規(guī)則,這樣當(dāng)系統(tǒng)執(zhí)行自動(dòng)抓取的時(shí)候,就可以調(diào)用這些規(guī)則,完成自動(dòng)抓取、自動(dòng)過(guò)濾的功能。規(guī)則可以從幾個(gè)大部分考慮,其一:字符處截?。黄涠鹤址鎿Q;其三:文本規(guī)則。通過(guò)制定這些規(guī)則,每次采集這個(gè)網(wǎng)站的信息就會(huì)調(diào)用此規(guī)則。如果沒(méi)有指定規(guī)則,網(wǎng)站包含HTML存入數(shù)據(jù)庫(kù)中。包含HTML標(biāo)簽的信息就需要手動(dòng)指定規(guī)則或者手動(dòng)處理信息。

      2.3.1添加規(guī)則添加一個(gè)固定規(guī)則由系統(tǒng)內(nèi)容自動(dòng)處理采集信息大大的減少了用戶的操作。如果添加的信息能夠適應(yīng)更多的架構(gòu)則就會(huì)減少更多的用戶操作。在采集的同時(shí)如果能靈活的使用規(guī)則就可以更好的完成采集工作。

      2.3.2編輯規(guī)則網(wǎng)站的架構(gòu)有很大的不同,如果一個(gè)規(guī)則可以使用多個(gè)網(wǎng)站可能就要做多次的修改。用戶可以隨時(shí)對(duì)采集的規(guī)則編輯,編輯修改后的規(guī)則綁定好的項(xiàng)目的都會(huì)使用最新的規(guī)則采集網(wǎng)站信息。

      2.3.3刪除規(guī)則規(guī)則管理模塊包含了刪除規(guī)則的操作。用戶點(diǎn)擊了刪除的操作所有的綁定項(xiàng)目都會(huì)失效,采集的項(xiàng)目都需要手動(dòng)處理采集的頁(yè)面信息。

      2.3.4分配項(xiàng)目規(guī)則在添加好之后都需要和項(xiàng)目綁定才能被系統(tǒng)調(diào)用。一個(gè)規(guī)則可以綁定多個(gè)項(xiàng)目,但是一個(gè)項(xiàng)目只允許綁定一個(gè)技術(shù)的規(guī)則。規(guī)則分為幾個(gè)技術(shù)分類:標(biāo)題、作者、內(nèi)容、時(shí)間、來(lái)源、圖片。一個(gè)項(xiàng)目只可以綁定一個(gè)技術(shù)。如果要綁定必須先移除在重新綁定項(xiàng)目。

      2.3.5移除項(xiàng)目一個(gè)項(xiàng)目無(wú)法綁定相同技術(shù)的規(guī)則,如果要綁定就必須先移除項(xiàng)目。

      2.4采集信息管理模塊

      采集信息管理模塊主要管理采集后的信息。一些不合格的信息可以通過(guò)此模塊加以處理。所進(jìn)行的操作有:編輯信息、刪除信息、預(yù)覽信息。

      信息管理主要是管理采后的信息,此信息已經(jīng)不包含HTML標(biāo)簽。用戶也可以通過(guò)編輯采集后的信息,達(dá)到預(yù)期的效果。信息管理初圖如圖7所示,它是采集后的信息,用戶可以對(duì)其進(jìn)行刪除、編輯和預(yù)覽等的操作。

      2.4.1編輯采集信息編輯采集信息主要是針對(duì)采集后的信息進(jìn)行處理,如果采集的信息不符合要求或者不合法,可以對(duì)信息加以處理;處理的方式:修改文字、添加圖片等操作。

      2.4.2刪除采集信息刪除不符合要求的信息。在采集的同時(shí)無(wú)法避免會(huì)采集一些垃圾信息,不要的信息就可以點(diǎn)擊刪除的操作,刪除不符合要求的信息。

      2.4.3預(yù)覽采集信息本地預(yù)覽修改好的效果或者采集的效果。一些信息在發(fā)布的時(shí)候需要調(diào)試預(yù)覽效果,如果效果不好可以再次的編輯,如果符合要求就可以直接使用或者發(fā)布。

      2.5自動(dòng)采集

      自動(dòng)采集是采集文本信息的核心技術(shù)。大部分網(wǎng)站都是動(dòng)態(tài)建站,網(wǎng)站的信息都是及時(shí)更新,如果能采集網(wǎng)站最新的信息則是重要的一方面。所以能夠自動(dòng)采集網(wǎng)站信息,就隨時(shí)采集最新的信息。信息只要發(fā)布到網(wǎng)站上,系統(tǒng)就會(huì)去網(wǎng)站采集最新的信息。當(dāng)然和系統(tǒng)是如果制定定時(shí)計(jì)劃有很大的關(guān)系。

      系統(tǒng)自動(dòng)采集主要是通過(guò)AJAX異步通訊技術(shù)來(lái)完成。異步通訊技術(shù)通過(guò)配置XML來(lái)完成對(duì)項(xiàng)目自動(dòng)的查詢和自動(dòng)采集。AJAX可以階段性的來(lái)查詢,通過(guò)判斷采集時(shí)間和定時(shí)計(jì)劃計(jì)算需要采集的時(shí)間。系統(tǒng)內(nèi)部自動(dòng)采集流程如圖8所示。系統(tǒng)啟動(dòng)之后,AJAX自動(dòng)運(yùn)行,采集最新的信息。

      3數(shù)據(jù)庫(kù)設(shè)計(jì)

      本系統(tǒng)的數(shù)據(jù)庫(kù)設(shè)計(jì)是后臺(tái)管理很重要的一部分,其中各個(gè)表的功能都非常重要,各項(xiàng)功能信息均需通過(guò)事先設(shè)置好的表來(lái)存儲(chǔ)。如圖9所示為系統(tǒng)中用到的各個(gè)表及其關(guān)系。用戶表主要是存儲(chǔ)用戶信息,用戶的信息主要是管理員的一些基本信息,只需要一些聯(lián)系方式即可。模型表主要是因?yàn)椴杉男畔⒂胁煌哪P投?。信息表主要存?chǔ)采集好的信息。Html表是當(dāng)自動(dòng)采集的信息沒(méi)有指定規(guī)則的時(shí)候,主要存儲(chǔ)包含HTML標(biāo)簽的信息表。定時(shí)表主要是存儲(chǔ)項(xiàng)目定時(shí)屬性。規(guī)則管理表主要是存儲(chǔ)過(guò)濾規(guī)則。采集表主要存儲(chǔ)需要一次性和長(zhǎng)時(shí)間采集的網(wǎng)站和采集的方式。規(guī)則采集表是多表連接表,它是規(guī)則和采集表的連接查詢表。表1為用戶表。

      4結(jié)論

      此三農(nóng)文本網(wǎng)絡(luò)信息集成系統(tǒng)設(shè)計(jì)方案已經(jīng)作為三農(nóng)信息資源整合平臺(tái)必不可少的一部分嵌入其中,主要解決三農(nóng)資源整合中的文本信息的搜集整理問(wèn)題,文本信息是三農(nóng)資源中數(shù)量最多、范圍最廣的資源,也是最最重要的資源形式。

      三農(nóng)信息資源整合平臺(tái)已正常運(yùn)行了2年,其中的文本信息整合功能也隨之正常運(yùn)行了2年,文本信息還是三農(nóng)信息報(bào)最主要的組成形式,也是最便于嵌入到其他形式閱讀瀏覽器中的信息形式,三農(nóng)文本網(wǎng)絡(luò)信息集成系統(tǒng)已成為三農(nóng)信息資源整合中最關(guān)鍵的部分,也將會(huì)隨著技術(shù)的進(jìn)步而不斷發(fā)展更新。

      猜你喜歡
      集成提取
      淺談企業(yè)信息化系統(tǒng)集成
      數(shù)字化監(jiān)控系統(tǒng)的企業(yè)應(yīng)用
      IGBT模塊壓接技術(shù)研究
      現(xiàn)場(chǎng)勘查中物證的提取及應(yīng)用
      土壤樣品中農(nóng)藥殘留前處理方法的研究進(jìn)展
      軍隊(duì)財(cái)務(wù)信息系統(tǒng)集成基礎(chǔ)分析
      商情(2016年39期)2016-11-21 08:24:31
      中學(xué)生開(kāi)展DNA“細(xì)”提取的實(shí)踐初探
      淺析城市老街巷景觀本土設(shè)計(jì)元素的提取與置換
      蝦蛄殼中甲殼素的提取工藝探究
      科技視界(2016年22期)2016-10-18 17:02:00
      陽(yáng)臺(tái)集成式景觀設(shè)計(jì)方法初探
      灵璧县| 建昌县| 保德县| 巴林右旗| 潍坊市| 二连浩特市| 三明市| 呼玛县| 天门市| 晋州市| 深水埗区| 宁陕县| 临武县| 隆德县| 嵊州市| 镶黄旗| 多伦县| 新巴尔虎右旗| 永德县| 海口市| 呼伦贝尔市| 荆州市| 孝义市| 连南| 张家界市| 浏阳市| 庆元县| 合山市| 射阳县| 台东市| 福安市| 海城市| 桓仁| 叶城县| 皋兰县| 黔西县| 宁河县| 天水市| 望江县| 湛江市| 沐川县|