金 燕 閆曉妍 林 琳
〔摘 要〕介紹了Web環(huán)境下競爭情報(bào)自動(dòng)采集的關(guān)鍵技術(shù),構(gòu)造了一種基于自動(dòng)采集的CI模型,該模型能夠?qū)eb信息源進(jìn)行自動(dòng)采集、文本分析、分類聚類,并根據(jù)特定主題對信息源實(shí)施監(jiān)控,生成競爭情報(bào)報(bào)告提交給企業(yè)決策層,從而提高企業(yè)決策的及時(shí)性、科學(xué)性。
〔關(guān)鍵詞〕Web;競爭情報(bào);自動(dòng)采集
〔中圖分類號(hào)〕G35 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)03-0023-03
1 Web環(huán)境下的競爭情報(bào)及競爭情報(bào)工作
簡單的說,競爭情報(bào)就是利用公開的信息源,獲取有關(guān)競爭、競爭對手和市場環(huán)境的信息的過程。這個(gè)過程包括如下幾個(gè)環(huán)節(jié):(1)識(shí)別需要獲取什么信息;(2)識(shí)別可以獲取所需信息的信息源;(3)收集所需信息;(4)分析、整合所收集的信息;(5)把分析的結(jié)果和得到的結(jié)論提供給相關(guān)人員,為其提供決策支持。隨著競爭的加劇,競爭情報(bào)工作越來越受重視。
早期,競爭情報(bào)從業(yè)者多是通過一些商情數(shù)據(jù)庫、公開的出版物、會(huì)議、展覽以及其他一些公共信息源人工采集競爭情報(bào)。近些年,隨著Internet的快速發(fā)展,Web給競爭情報(bào)從業(yè)者提供了更廣闊的信息獲取空間。這表現(xiàn)在,許多商情數(shù)據(jù)庫可以通過Internet使用;許多行業(yè)協(xié)會(huì)建立了自己的網(wǎng)站,在Web上發(fā)布大量的行業(yè)信息;絕大多數(shù)政府的法律、法規(guī)、相關(guān)政策等在Web上都可以檢索到;多數(shù)企業(yè)、組織都建立了自己的網(wǎng)站,發(fā)布大量的諸如公司歷史、產(chǎn)品一覽、金融數(shù)據(jù)、統(tǒng)計(jì)信息、銷售記錄、年度報(bào)告、人事變動(dòng)、招聘廣告之類的信息??梢哉f,Web不但為競爭情報(bào)從業(yè)者提供大量的免費(fèi)信息,而且絕大多數(shù)信息比較及時(shí),且能夠通過一些工具獲取,比起手工方式效率提高較明顯。然而,由于缺乏有效的自動(dòng)采集工具,Internet在給競爭情報(bào)從業(yè)者提供大量信息的同時(shí),也給他們帶來了巨大的時(shí)間消耗。有調(diào)查表明,收集信息所耗費(fèi)的時(shí)間往往會(huì)占據(jù)整個(gè)競爭情報(bào)工作流程的30%[1]。競爭情報(bào)從業(yè)者迫切需要有效的信息自動(dòng)采集工具來減少他們收集信息的時(shí)間,從而使他們把更多的精力放到信息的分析和整合上。
2 Web環(huán)境下的競爭情報(bào)自動(dòng)采集技術(shù)
2.1 搜索引擎技術(shù)
搜索引擎技術(shù)是競爭情報(bào)從業(yè)者在Web環(huán)境下使用最為廣泛的一種信息自動(dòng)采集技術(shù)。搜索引擎通常由如下模塊構(gòu)成:(1)信息采集模塊,主要負(fù)責(zé)從Web上獲取網(wǎng)頁內(nèi)容和鏈接信息。通常通過Robot軟件信息的自動(dòng)采集。Robot是一種能夠根據(jù)文檔內(nèi)的超鏈遞歸訪問新文檔的軟件程序。在自動(dòng)加載方式下,Robot從一個(gè)事先制定好的URL列表出發(fā),根據(jù)http協(xié)議自動(dòng)訪問WWW網(wǎng)頁,當(dāng)網(wǎng)頁被提取后,分析提取網(wǎng)頁中超文本的URL,將其加入U(xiǎn)RL列表,同時(shí)以此超鏈接作為新的起點(diǎn),進(jìn)一步訪問其他網(wǎng)頁,不斷循環(huán)下去;(2)索引模塊,主要負(fù)責(zé)對Robot收集的信息進(jìn)行索引,并按照一定的方式存貯在索引數(shù)據(jù)庫中;(3)檢索和排序模塊,主要是確定檢索機(jī)制以及檢索結(jié)果的呈獻(xiàn)順序。利用搜索引擎進(jìn)行競爭情報(bào)的自動(dòng)采集,通常需要確定待采集信息的主題,從而使Robot自動(dòng)跟蹤這些主題,實(shí)現(xiàn)采集的自動(dòng)化和長期化,通過監(jiān)控一個(gè)主題的變化情況分析競爭對手的行為。這些主題包括企業(yè)名稱、產(chǎn)品名稱、競爭者網(wǎng)站的URL等。
除了一般的搜索引擎之外,元搜索引擎技術(shù)也開始應(yīng)用于競爭情報(bào)的自動(dòng)采集。元搜索引擎可以調(diào)用多個(gè)搜索引擎,集成多個(gè)搜索引擎的結(jié)果,因而,所采集的信息更為全面。
但是,目前應(yīng)用的傳統(tǒng)搜索引擎技術(shù),往往只能采集部分信息,如GOOGLE、百度只是采集了網(wǎng)上信息的10%,而對隱藏在網(wǎng)絡(luò)深處的一些結(jié)構(gòu)化和非結(jié)構(gòu)信息難以處理[2],如企業(yè)內(nèi)部信息數(shù)據(jù)庫、企業(yè)的研發(fā)報(bào)告、文獻(xiàn)資料等。這些信息都無法被傳統(tǒng)的搜索引擎采集,即使采集到,也只能作為全文處理,不能區(qū)分信息的詳細(xì)屬性。但是,web數(shù)據(jù)庫、企業(yè)內(nèi)部非結(jié)構(gòu)化信息中蘊(yùn)涵了大量高質(zhì)量的權(quán)威信息,必須對其給予重視。對于這些信息的采集,需要應(yīng)用新的搜索引擎技術(shù)。有學(xué)者提出把P2P技術(shù)應(yīng)用到網(wǎng)頁檢索中,能夠大大改善信息采集的深度和寬度,拓展信息的采集面。
2.2 文本分析與聚類技術(shù)
通過Robot收集的信息數(shù)量很大,對這些信息的長期跟蹤必須建立在對這些信息的分析和分類、歸類的基礎(chǔ)上,這就需要用到文本分析和聚類技術(shù)。
文本分析是通過對文檔的結(jié)構(gòu)和內(nèi)容的分析來獲取文檔的關(guān)鍵信息,包括文檔標(biāo)志、文檔空間矢量、文檔中的詞頻分布、文檔中重要關(guān)鍵詞的關(guān)聯(lián)、詞的權(quán)重、文檔的語義等,消除文檔的模糊性。根據(jù)這些信息,判斷文檔的主題內(nèi)容和文檔集的語義,有利于文檔內(nèi)容的確定和文檔的歸類、聚類。詞的分析、文本特征抽取、自動(dòng)去重、自動(dòng)標(biāo)引、自動(dòng)索引、自動(dòng)摘要、自然語言處理等都是常用的文本分析技術(shù)。
聚類是采用一定的算法,自動(dòng)的將文檔集合分成若干群,要求同一群內(nèi)的文檔內(nèi)容的相似度要盡可能的大,而不同群內(nèi)的文檔內(nèi)容之間的相似度要盡可能的小,每一個(gè)群都有一個(gè)相應(yīng)的主題。聚類沒有事先定義好的主題,通常是根據(jù)一定的算法通過關(guān)聯(lián)分析進(jìn)行。目前文本聚類的方法大致可以分為層次凝聚法和平面劃分法2種[3]。
2009年3月第29卷第3期現(xiàn)?代?情?報(bào)Journal of Modern InformationMar.2009Vol.29 No.32009年3月第29卷第3期Web環(huán)境下競爭情報(bào)自動(dòng)采集初探Mar.2009Vol.29 No.32.3 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘是一種新的信息處理技術(shù),它從大量數(shù)據(jù)中提取輔助決策的關(guān)鍵性知識(shí),這些知識(shí)可以是隱含的、未知的、非平凡的及潛在有用的信息或模式,從而提高市場決策能力、偏差檢測、風(fēng)險(xiǎn)預(yù)警,在經(jīng)驗(yàn)?zāi)P突A(chǔ)上預(yù)測未來趨勢,跟蹤正在出現(xiàn)的連續(xù)性和非連續(xù)性變化,以及分析現(xiàn)有和潛在競爭對手的能力和動(dòng)向,幫助企業(yè)贏得競爭優(yōu)勢[4]。
企業(yè)競爭情報(bào)獲取的信息形式多樣,可以是來自競爭對手網(wǎng)站、行業(yè)網(wǎng)站、政府網(wǎng)站的Web文檔;還有以企業(yè)的MIS、ERP等信息系統(tǒng)為中心,企業(yè)日常業(yè)務(wù)積累的數(shù)據(jù)信息形成的關(guān)系型數(shù)據(jù)庫、文檔數(shù)據(jù)庫等。數(shù)據(jù)挖掘技術(shù)的應(yīng)用包括數(shù)據(jù)庫挖掘和文本挖掘。數(shù)據(jù)庫挖掘?qū)Υ笕萘繑?shù)據(jù)庫中的結(jié)構(gòu)化信息進(jìn)行關(guān)聯(lián)分析、時(shí)序演變分析、聚類、分類、預(yù)測等從而建立隱含的模型;文本挖掘的對象是非結(jié)構(gòu)化的數(shù)據(jù),它綜合了文本處理技術(shù)和知識(shí)發(fā)現(xiàn)技術(shù),主要通過對搜索到的文本頁面進(jìn)行文本特征提取、主題析取、文本分類、文本聚類、相關(guān)度分析等來獲取有用的、潛在的關(guān)系、規(guī)則、趨勢等知識(shí)。
少數(shù)國內(nèi)企業(yè)目前已開始或計(jì)劃采用數(shù)據(jù)庫挖掘技術(shù),從企業(yè)內(nèi)部結(jié)構(gòu)化數(shù)據(jù)源中通過聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘技術(shù)進(jìn)行深層情報(bào)的提取。文本挖掘方法可以幫助企業(yè)從海量的內(nèi)外部文本信息源中提取有用的情報(bào)。目前這種方式在所調(diào)查的國外企業(yè)中已被廣泛采用,而國內(nèi)企業(yè)基本上還未將其作為一種正式的競爭情報(bào)采集手段[5]。
2.4 信息過濾技術(shù)
信息過濾是根據(jù)用戶的興趣或偏好,自動(dòng)地采集與之相關(guān)的信息并把其推送給用戶的過程。常見的信息過濾技術(shù)主要有基于內(nèi)容的過濾和協(xié)作過濾,目前在競爭情報(bào)系統(tǒng)中常用的是前者。
基于內(nèi)容的過濾主要是在信息的內(nèi)容與用戶興趣之間建立聯(lián)系,根據(jù)資源與用戶興趣的相似性來過濾信息。通常是根據(jù)用戶模型(profile),從信息源中匹配與之相關(guān)的內(nèi)容,把其中符合特定標(biāo)準(zhǔn)的部分篩選出來呈送給用戶,主要采用基于關(guān)鍵詞的匹配,用關(guān)鍵詞匹配技術(shù)實(shí)現(xiàn)。這種技術(shù)應(yīng)用于信息采集存在一定的缺陷:比如,由于過濾的結(jié)果只取決于用戶信息需求模型與信息源的匹配程度,那么關(guān)鍵詞匹配過濾的結(jié)果與用戶呈送的關(guān)鍵詞密切相關(guān),如果用戶呈送的關(guān)鍵詞不能準(zhǔn)確表示其需求,則過濾的結(jié)果很難滿足用戶的需要;此外,關(guān)鍵詞匹配過濾不能區(qū)分信息資源質(zhì)量的好壞,且不能動(dòng)態(tài)地為用戶推薦其可能感興趣的信息。
信息過濾技術(shù)可以幫助企業(yè)實(shí)現(xiàn)特定主題信息的定制采集。這種技術(shù)與搜索引擎方式的區(qū)別是,它可以借助相關(guān)軟件系統(tǒng)進(jìn)行特定主題的自動(dòng)搜索。目前有少數(shù)企業(yè)單純使用這樣方式開展競爭情報(bào)采集工作。如中國國際科學(xué)技術(shù)合作協(xié)會(huì)就利用信息過濾和推送技術(shù),組織人員對互聯(lián)網(wǎng)上的信息進(jìn)行基于用戶興趣模型的定制采集,并將信息采集的結(jié)果推送給客戶[5]。
2.5 智能Agent技術(shù)
智能Agent具有感知能力、問題求解能力、與外界進(jìn)行通信能力,它使用戶通過代理通信協(xié)議進(jìn)行交換,以實(shí)現(xiàn)問題自動(dòng)解決。智能Agent能在沒有明確具體要求的情況下,以用戶需求為先導(dǎo)進(jìn)行信息搜集和信息加工,代替用戶進(jìn)行信息查詢、篩選、管理等工作,并能推測用戶意圖,自動(dòng)制定、調(diào)整和執(zhí)行工作計(jì)劃,是用戶獲取資源的“自動(dòng)助手”。
在信息采集中智能Agent主要完成資源導(dǎo)航、信息發(fā)現(xiàn)和信息過濾功能。資源導(dǎo)航是指智能Agent能夠根據(jù)用戶提供的初始URL或相關(guān)Web頁面作為訓(xùn)練樣本,自動(dòng)搜集、發(fā)掘用戶所需的信息,提供資源導(dǎo)航服務(wù)。智能Agent具有推理能力和從經(jīng)驗(yàn)中學(xué)習(xí)能力,在用戶查詢請求不明確時(shí),能夠根據(jù)知識(shí)庫中的事實(shí)和推理規(guī)則發(fā)現(xiàn)用戶的潛在信息需求。過濾功能指智能Agent根據(jù)預(yù)定的主題和需求偏好過濾信息,并以不同級別(全文、摘要、標(biāo)題)呈現(xiàn)給用戶。
智能Agent的智能性、代理性、協(xié)作性、主動(dòng)性使它成為滿足網(wǎng)絡(luò)信息檢索、個(gè)性化信息需求的重要技術(shù),越來越受到廣大用戶的青睞。Intelliseek公司的BrandPulse就利用了智能代理技術(shù),它能夠從各種各樣的信息源中收集與特定品牌或主題相關(guān)的信息[6]。CA公司推出的Neugent是一種基于神經(jīng)網(wǎng)絡(luò)的智能代理技術(shù),它能夠在不斷變化的商業(yè)環(huán)境中跟蹤客戶行為,從龐大的海量數(shù)據(jù)中以不同角度分析各種復(fù)雜的模式,并在統(tǒng)計(jì)的基礎(chǔ)上做出預(yù)測,為商業(yè)用戶提供極具價(jià)值的商業(yè)信息[7]。
3 一個(gè)基于自動(dòng)采集的CI模型
3.1 模型的基本思想
通過調(diào)查發(fā)現(xiàn),目前大多數(shù)企業(yè)都或多或少采用了一定的智能化手段輔助競爭情報(bào)采集,基本上都實(shí)現(xiàn)了信息的自動(dòng)采集,大部分還實(shí)現(xiàn)了自動(dòng)去重和自動(dòng)標(biāo)引,少數(shù)企業(yè)還實(shí)現(xiàn)了基于自動(dòng)摘要的競爭情報(bào)采集。而如何實(shí)現(xiàn)自動(dòng)分類則是目前企業(yè)最受關(guān)注的一類智能化競爭情報(bào)采集方式?;诖?,筆者提出了一個(gè)基于自動(dòng)采集的CI模型,如圖1所示,希望能夠建立一個(gè)自動(dòng)采集和跟蹤給定主題信息的CI系統(tǒng),解決Web環(huán)境下的動(dòng)態(tài)競爭情報(bào)的采集問題。
3.2 模型的基本架構(gòu)
模型主要由采集模塊、分析模塊、監(jiān)控模塊和呈送模塊構(gòu)成,各部分模塊功能如下:
3.2.1 采集模塊
根據(jù)企業(yè)確立的情報(bào)需求,通過Robot程序?qū)eb信息源進(jìn)行自動(dòng)采集,從給定的主題或URL出發(fā),通過超文本傳輸協(xié)議(http)獲取web文檔,并將超鏈接的相關(guān)文檔地
址列入U(xiǎn)RL列表中,進(jìn)行遍歷搜索,最后形成一個(gè)有關(guān)企業(yè)競爭情報(bào)的文本集合。采集模塊主要實(shí)現(xiàn)技術(shù)有搜索引擎技術(shù)和智能Agent技術(shù)。智能Agent技術(shù)對用戶信息需求、偏好進(jìn)行甄別、歸納,自動(dòng)代理用戶查找其感興趣的信息;結(jié)合搜索引擎技術(shù)“面向主題”的檢索模式,在密切關(guān)注用戶信息需求的基礎(chǔ)上,提高信息采集的覆蓋面,以彌補(bǔ)智能Agent信息搜索范圍有限的缺陷。
3.2.2 分析模塊
分析階段是競爭情報(bào)系統(tǒng)的核心,主要借助于系統(tǒng)提供的各種分析模型以及數(shù)據(jù)挖掘工具對采集模塊采集的信息進(jìn)行綜合分析、深層挖掘,從而得到企業(yè)所需的信息。分析模塊的關(guān)鍵技術(shù)有文本分析、文本聚類以及數(shù)據(jù)挖掘技術(shù)等,通過文本分析與聚類技術(shù)對web頁進(jìn)行自動(dòng)分類、自動(dòng)摘要、自動(dòng)聚類等智能化分析處理,充分挖掘信息中隱藏的價(jià)值;數(shù)據(jù)挖掘技術(shù)是企業(yè)實(shí)現(xiàn)數(shù)據(jù)深層次挖掘的核心技術(shù),可以在大量信息中發(fā)現(xiàn)未知的關(guān)系、模式,從而實(shí)現(xiàn)關(guān)聯(lián)分析、時(shí)序演變分析、偏差檢測等。Web環(huán)境下,對文本資源的挖掘顯得尤為重要,基于文本內(nèi)容的文本分類、自動(dòng)摘要、文本聚類等技術(shù)的成熟,為企業(yè)競爭情報(bào)系統(tǒng)提供了有力的支持。
3.2.3 監(jiān)控模塊
監(jiān)控模塊主要對特定主題和對象進(jìn)行多方位連續(xù)追蹤,對于異常情況能夠及時(shí)發(fā)現(xiàn)并提出預(yù)警,以使企業(yè)迅速采取相關(guān)措施。實(shí)施監(jiān)控的項(xiàng)目包括市場需求動(dòng)態(tài)監(jiān)測、突發(fā)事件監(jiān)控、競爭對手跟蹤、易失客戶分析、潛在客戶調(diào)查以及客服記錄統(tǒng)計(jì)等[8]。監(jiān)控模塊主要利用智能Agent技術(shù)和數(shù)據(jù)挖掘技術(shù),通過監(jiān)控一個(gè)主題的變化情況,利用基于偏差的異常數(shù)據(jù)監(jiān)測方法設(shè)置預(yù)警指標(biāo),分析各種變化量及變化幅度,對可能出現(xiàn)的機(jī)遇或風(fēng)險(xiǎn)提供早期預(yù)警,幫助企業(yè)及時(shí)掌握市場動(dòng)態(tài),發(fā)現(xiàn)問題并找到原因。對競爭對手進(jìn)行監(jiān)控和技術(shù)跟蹤,分析競爭對手行為,對行業(yè)趨勢和競爭環(huán)境進(jìn)行檢測分析,為企業(yè)決策者提供準(zhǔn)確、及時(shí)的競爭情報(bào),使企業(yè)在瞬息萬變的市場競爭中處于主動(dòng)地位。
3.2.4 呈送模塊
呈送模塊通過對分析挖掘的結(jié)果進(jìn)行評價(jià),生成競爭情報(bào)報(bào)告,提交給用戶,為企業(yè)決策提供依據(jù)。呈送模塊為整個(gè)競爭情報(bào)系統(tǒng)提供了一個(gè)信息交流和共享的平臺(tái),該模塊應(yīng)具有情報(bào)知識(shí)樹分類導(dǎo)航、多途徑檢索、報(bào)告自動(dòng)生成等功能。呈送模塊主要利用信息過濾、信息推送以及可視化技術(shù),消除無關(guān)的、多余的信息,過濾出支持企業(yè)決策的關(guān)鍵信息,將分析結(jié)果以適當(dāng)方式及時(shí)反饋給適當(dāng)?shù)牟块T和人員。
參考文獻(xiàn)
[1]Hsinchun Chen,Michael Chau,Daniel Zeng.CI Spider:a tool for competitive intelligence on the web[J].Decision Support System,2002,(34):1-17.
[2]喬佃剛.利用結(jié)構(gòu)化數(shù)據(jù)采集技術(shù),挖掘深層網(wǎng)絡(luò)信息[EB/OL].http:∥blog.csdn.net/qiaodg/archive/2006/05/18/744407.aspx,2008-03-01.
[3]陳萍麗.web挖掘在競爭情報(bào)系統(tǒng)中的應(yīng)用[J].中國信息導(dǎo)報(bào),2003,(3):58.
[4]Amir M.Hormozi,Stacy Giles.Data mining:A Competitive Weapon for Banking and Retail Industries[J].Information Systems Management,2004:62-71.
[5]吳偉.國外競爭情報(bào)軟件研究[J].情報(bào)理論與實(shí)踐,2004,(1):103-106.
[6]Neugent智能代理介紹[EB/OL].http:∥news.chinabyte.com/429/103429.shtml,2008-07-10.
[7]張念萍,盧偉.市場動(dòng)態(tài)競爭情報(bào)系統(tǒng)及其運(yùn)用[J].經(jīng)濟(jì)與社會(huì)發(fā)展,2004,(5):32-34.