• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      web信息采集系統(tǒng)的需求分析

      2014-04-29 00:00:00杜素芳

      摘 要:本文對web信息采集系統(tǒng)進(jìn)行需求分析,描述了系統(tǒng)具有的功能,并分析了系統(tǒng)的功能需求和非功能需求。

      關(guān)鍵詞:需求;信息;采集

      中圖分類號:TP274.2

      采用人工方式使用瀏覽器復(fù)制粘貼實現(xiàn)web信息的采集,效率低、錯誤率高。如果采集的信息量大,人工方式根本無法完成。采用web信息采集系統(tǒng)實現(xiàn)web信息的采集與處理是較好的解決問題的辦法。

      1 需求概述

      開發(fā)web信息采集系統(tǒng)的目的是滿足用戶從多個指定網(wǎng)站自動定時地采集文章的信息,包括文章標(biāo)題、正文、作者、時間、來源等,并且能夠分類存儲信息,以滿足信息再利用的目標(biāo)。信息采集程序不能預(yù)測和獲取用戶的準(zhǔn)確需求,所以系統(tǒng)應(yīng)提供給用戶提交需求的平臺,通過此平臺用戶可以及時提交采集任務(wù),告訴采集系統(tǒng)采集什么樣的數(shù)據(jù)。

      Web信息采集系統(tǒng)分為采集配置和采集兩個子系統(tǒng)。如圖一所示。

      圖1 web信息采集系統(tǒng)組成

      采集配置子系統(tǒng)是為了滿足普通用戶提交采集需求的。用戶通過子系統(tǒng)配置目標(biāo)信息的采集任務(wù),包括文章的發(fā)布狀態(tài)、站點名稱地址、所屬欄目、采集時間、采集規(guī)則等多項要求,采集配置子系統(tǒng)還能夠及時開啟和停止采集任務(wù)的執(zhí)行。

      采集子系統(tǒng)完成具體的信息采集工作。它根據(jù)采集配置子系統(tǒng)對采集任務(wù)的設(shè)置,自動對網(wǎng)站信息進(jìn)行采集、抽取、去重,從網(wǎng)頁中抽取大量非結(jié)構(gòu)化的信息保存到結(jié)構(gòu)化的數(shù)據(jù)庫中。

      2 功能需求

      Web信息采集系統(tǒng)功能如圖二所示。

      圖2 web信息采集系統(tǒng)功能結(jié)構(gòu)圖

      采集配置子系統(tǒng)主要完成以下功能:

      (1)采集任務(wù)管理

      實現(xiàn)用戶對采集任務(wù)的增刪改查操作,每一條采集任務(wù)對應(yīng)一個現(xiàn)有欄目,以實現(xiàn)采集內(nèi)容的分類、處理、存儲。

      (2)自動生成抽取規(guī)則

      用戶選擇采集數(shù)據(jù)項,系統(tǒng)即可自動智能生成相應(yīng)的數(shù)據(jù)抽取規(guī)則。當(dāng)配置網(wǎng)頁發(fā)生變化時,抽取規(guī)則需重新生成。

      (3)定制去噪去重規(guī)則

      從網(wǎng)頁獲取到的大量信息中,可能存在用戶不需要的信息,也有重復(fù)性的內(nèi)容,這些信息和內(nèi)容會干擾抽取內(nèi)容的排版及使用,需要對這類信息進(jìn)行去噪去重處理。

      (4)采集任務(wù)開啟停止

      采集任務(wù)可以及時開啟和停止運行,采集任務(wù)配置完成后可以及時加入采集子系統(tǒng)進(jìn)行信息采集工作。

      采集子系統(tǒng)主要完成以下功能:

      (1)動態(tài)采集信息

      用戶對網(wǎng)頁信息的采集要求有很高的時效性,比如對新聞資訊的采集,如果不能及時反饋給用戶,即使是價值很高的信息,也失去了它的意義和價值。所以對信息能夠?qū)崿F(xiàn)動態(tài)采集就很重要,系統(tǒng)應(yīng)具備動態(tài)采集機(jī)制可以實現(xiàn)定時對網(wǎng)站內(nèi)容進(jìn)行自動檢測,及時獲取網(wǎng)站最新信息。

      (2)運行監(jiān)控

      因為信息采集過程是動態(tài)運行,所以系統(tǒng)應(yīng)及時監(jiān)控采集任務(wù)的運行情況。信息采集出現(xiàn)問題,系統(tǒng)應(yīng)及時發(fā)現(xiàn)并反饋給用戶,由用戶根據(jù)問題出現(xiàn)的類別做相應(yīng)處理。

      3 非功能需求

      除了實現(xiàn)web信息采集的功能需求,系統(tǒng)還應(yīng)該滿足用戶以下非功能需求:

      (1)準(zhǔn)確性

      如何從繁復(fù)復(fù)雜的浩瀚信息海洋里準(zhǔn)確獲取到用戶需要的信息,是系統(tǒng)設(shè)計時需要重點考慮的問題。只有能夠準(zhǔn)確獲取信息才能實現(xiàn)用戶對有效信息的再利用。

      (2)高效性

      信息采集系統(tǒng)能夠從眾多站點獲取信息,但用戶需要最短時間準(zhǔn)確獲取自己所需要的信息,所以及時高效的把有效信息呈送到用戶面前,是系統(tǒng)功能是否滿足用戶需求的一個必要的方面。

      (3)易用性

      系統(tǒng)使用的最終客戶是普通的用戶,因此系統(tǒng)使用界面應(yīng)簡單易用,采集任務(wù)的規(guī)則配置也應(yīng)該經(jīng)過簡單培訓(xùn)后就能靈活掌握。

      (4)穩(wěn)定性

      在進(jìn)行采集配置時,不合理的配置規(guī)則系統(tǒng)能夠及時給出提示信息。信息采集過程中,對于不符合規(guī)范的采集配置要求,系統(tǒng)應(yīng)能夠及時糾正。長期使用系統(tǒng)應(yīng)不斷修正以滿足長期穩(wěn)定地工作。

      Web信息采集系統(tǒng)能夠在用戶的簡單配置下實現(xiàn)信息源內(nèi)容的自動采集,為信息的再利用提供了技術(shù)保障。

      參考文獻(xiàn):

      [1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第31次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].http://www.cnnic.cn/gywm/shzr/shzrdt/20130l/t20130115—38518.htm,2013.

      [2]蔡智澄,王志華.搜索引擎的主要特點及其檢索策略[J].現(xiàn)代情報,2005.

      [3]李春旺.信息主題采集技術(shù)研究[J].圖書情報工作,2005.

      [4]陳少飛,郝亞南,李天柱.信息抽取技術(shù)研究進(jìn)展[J].河北大學(xué)學(xué)報(自然科學(xué)版),2003.

      [5]宮進(jìn),胡長軍,曾廣平.互聯(lián)網(wǎng)信息定向采集系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機(jī)應(yīng)用,2007.

      作者簡介:杜素芳(1975-),女,河南濮陽人,講師,碩士,研究方向:軟件工程。

      作者單位:濮陽職業(yè)技術(shù)學(xué)院,河南濮陽 457000

      阳泉市| 吴忠市| 井陉县| 云梦县| 重庆市| 清丰县| 波密县| 太仓市| 陕西省| 繁昌县| 兰州市| 清远市| 瑞昌市| 蒙阴县| 监利县| 新河县| 荥经县| 厦门市| 简阳市| 奇台县| 平阳县| 遂宁市| 岳阳县| 万盛区| 东乌珠穆沁旗| 洛扎县| 鄂伦春自治旗| 涪陵区| 安阳市| 抚顺县| 东乌| 舟曲县| 南江县| 南澳县| 临沧市| 巴塘县| 惠水县| 武平县| 金阳县| 丰城市| 渝北区|