韓石
摘要:隨著信息技術(shù)的不斷發(fā)展,Web上的信息內(nèi)容和數(shù)據(jù)呈現(xiàn)出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數(shù)據(jù)源,有效的在Web上實現(xiàn)數(shù)據(jù)的抽取技術(shù)為進(jìn)一步的分析和挖掘提供了數(shù)據(jù)支持,具有十分重要的應(yīng)用價值和現(xiàn)實意義。通過Web數(shù)據(jù)集成可以實現(xiàn)對Web數(shù)據(jù)的有效整合,為大數(shù)據(jù)分析提供信息源支持。本文對于Web數(shù)據(jù)抽取技術(shù)的現(xiàn)狀、問題及實現(xiàn)進(jìn)行分析,并提出對策建議。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)抽取;技術(shù)實現(xiàn)
一、Web數(shù)據(jù)抽取技術(shù)概述
隨著信息技術(shù)的不斷發(fā)展,Web上的信息內(nèi)容和數(shù)據(jù)呈現(xiàn)出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數(shù)據(jù)源,有效的在Web上實現(xiàn)數(shù)據(jù)的抽取技術(shù)為進(jìn)一步的分析和挖掘提供了數(shù)據(jù)支持,具有十分重要的應(yīng)用價值和現(xiàn)實意義。通過Web數(shù)據(jù)集成可以實現(xiàn)對Web數(shù)據(jù)的有效整合,為大數(shù)據(jù)分析提供信息源支持。Web信息抽取技術(shù)是隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展、網(wǎng)頁信息的擴(kuò)充而產(chǎn)生,從手工到半自動再到全自動的技術(shù)完善使Web數(shù)據(jù)抽取技術(shù)成為大數(shù)據(jù)分析的主要技術(shù)。在此基礎(chǔ)上形成的Web數(shù)據(jù)集成系統(tǒng),Web數(shù)據(jù)集成系統(tǒng)中的數(shù)據(jù),不僅可以為各類大數(shù)據(jù)分析提供信息支持,而且還可以為Web數(shù)據(jù)集成系統(tǒng)自身集成提供幫助。Web數(shù)據(jù)抽取技術(shù)的作用和意義主要體現(xiàn)在,一是Web數(shù)據(jù)抽取是實現(xiàn)Web數(shù)據(jù)集成的基礎(chǔ)和保證,Web數(shù)據(jù)抽取可以完成對Web頁面中農(nóng)廣泛存在的半結(jié)構(gòu)化數(shù)據(jù)的抽取公祖,為Web數(shù)據(jù)集成奠定數(shù)據(jù)基礎(chǔ)。二是Web數(shù)據(jù)抽取可以實現(xiàn)對Web數(shù)據(jù)的理解,Web網(wǎng)頁中的數(shù)據(jù)大部分是半結(jié)構(gòu)化數(shù)據(jù),通過Web數(shù)據(jù)抽取技術(shù)的實現(xiàn)可以對抽取到的Web數(shù)據(jù)元素進(jìn)行語言標(biāo)注,實現(xiàn)對Web數(shù)據(jù)的理解。三是Web數(shù)據(jù)抽取為Web數(shù)據(jù)集成中的其他環(huán)節(jié)提供數(shù)據(jù)服務(wù),Web數(shù)據(jù)抽取可以利用已抽取的Web數(shù)據(jù)對象間的聯(lián)系,發(fā)現(xiàn)Web實體間的潛在聯(lián)系,在Web數(shù)據(jù)集成系統(tǒng)中,利用Web實體間的聯(lián)系,可以形成一個基于這些聯(lián)系的實施知識庫,為進(jìn)一步實施Web數(shù)據(jù)集成的重復(fù)記錄談成冊、數(shù)據(jù)分析等服務(wù)提供數(shù)據(jù)支持。
二、Web數(shù)據(jù)抽取技術(shù)存在的問題
隨著信息技術(shù)的不斷發(fā)展,Web上的信息內(nèi)容和數(shù)據(jù)呈現(xiàn)出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數(shù)據(jù)源,有效的在Web上實現(xiàn)數(shù)據(jù)的抽取技術(shù)為進(jìn)一步的分析和挖掘提供了數(shù)據(jù)支持,具有十分重要的應(yīng)用價值和現(xiàn)實意義。通過Web數(shù)據(jù)集成可以實現(xiàn)對Web數(shù)據(jù)的有效整合,為大數(shù)據(jù)分析提供信息源支持。在Web數(shù)據(jù)抽取技術(shù)的使用過程中也存在一些問題,一是在Web數(shù)據(jù)集成過程中,需要獲取Web實體的模型信息,為進(jìn)一步識別、抽取和集成來自不同數(shù)據(jù)源的Web數(shù)據(jù)對象提供指導(dǎo),Web上大多數(shù)為半結(jié)構(gòu)化數(shù)據(jù)模型具有異構(gòu)和動態(tài)變化的特點,有效地構(gòu)建Web實體模型信息是當(dāng)前Web數(shù)據(jù)抽取技術(shù)中一個需要解決和完善的問題。二是在Web數(shù)據(jù)抽取過程中,需要準(zhǔn)確地從目標(biāo)網(wǎng)頁中抽取目標(biāo)數(shù)據(jù),并對抽取的數(shù)據(jù)元素進(jìn)行語義上的理解,為進(jìn)一步整合數(shù)據(jù)奠定基礎(chǔ)。準(zhǔn)確地抽取目標(biāo)數(shù)據(jù),進(jìn)行語義的標(biāo)注也是當(dāng)前Web數(shù)據(jù)抽取技術(shù)中需要精準(zhǔn)化的一個問題。三是在Web數(shù)據(jù)抽取過程中,需要建立新發(fā)現(xiàn)的Web實體與Web實體模型中已有Web實體間的聯(lián)系,豐富Web實體模型,為進(jìn)一步整合Web數(shù)據(jù)奠定基礎(chǔ),有效地建立新發(fā)現(xiàn)的Web實體與Web實體模型中存在的Web實體間的聯(lián)系,也是一個加以解決的Web數(shù)據(jù)抽取技術(shù)問題。
三、Web數(shù)據(jù)抽取技術(shù)的實現(xiàn)
隨著信息技術(shù)的不斷發(fā)展,Web上的信息內(nèi)容和數(shù)據(jù)呈現(xiàn)出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數(shù)據(jù)源,有效的在Web上實現(xiàn)數(shù)據(jù)的抽取技術(shù)為進(jìn)一步的分析和挖掘提供了數(shù)據(jù)支持,具有十分重要的應(yīng)用價值和現(xiàn)實意義。通過Web數(shù)據(jù)集成可以實現(xiàn)對Web數(shù)據(jù)的有效整合,為大數(shù)據(jù)分析提供信息源支持。目前,Web數(shù)據(jù)抽取技術(shù)中主要的實現(xiàn)路徑主要有,一是基于自然語言處理方式的數(shù)據(jù)抽取,基于自然語言處理方式的數(shù)據(jù)抽取是以自然語言處理技術(shù)為基礎(chǔ),通常適用含有大量文本或者語句完成、適合語法分析的Web頁面,在抽取的過程中,將網(wǎng)頁作為自由文本進(jìn)行處理,經(jīng)過語法分析、語義標(biāo)注、專有對象的識別和抽取規(guī)則生成的過程。二是基于HTML結(jié)構(gòu)的信息抽取,Web信息抽取的主要對象是Web頁面,這些頁面通常是由HTML標(biāo)記語言進(jìn)行編寫,具有非常清晰的結(jié)構(gòu)層次?;贖TML結(jié)構(gòu)的信息抽取就是利用了頁面的結(jié)構(gòu)來進(jìn)行信息的定位,Web頁面通過轉(zhuǎn)換器解析成反映HTML結(jié)構(gòu)的DOM樹,在通過特定的方法將用戶想抽取的數(shù)據(jù)定位到DOM樹的層次位置上,然后利用正則表達(dá)等匹配技術(shù)來得到具體位置上的數(shù)據(jù)信息。三是基于XML的信息抽取,基于XML的信息抽取是運用XML的相關(guān)技術(shù)以XML模式的數(shù)據(jù)為數(shù)據(jù)源盡心抽取處理。由于抽取的目標(biāo)是Web網(wǎng)頁,而Web頁上的數(shù)據(jù)一般是以HTML格式存在,所以通常先將頁面轉(zhuǎn)換為XML的格式再進(jìn)行抽取。
四、結(jié)束語
隨著信息技術(shù)的不斷發(fā)展,Web上的信息內(nèi)容和數(shù)據(jù)呈現(xiàn)出爆炸式的增長,從而是Web成為一個巨大、豐富、分布廣泛的數(shù)據(jù)源,有效的在Web上實現(xiàn)數(shù)據(jù)的抽取技術(shù)為進(jìn)一步的分析和挖掘提供了數(shù)據(jù)支持,具有十分重要的應(yīng)用價值和現(xiàn)實意義。通過Web數(shù)據(jù)集成可以實現(xiàn)對Web數(shù)據(jù)的有效整合,為大數(shù)據(jù)分析提供信息源支持。在Web數(shù)據(jù)抽取技術(shù)的應(yīng)用過程中,一是要結(jié)合大數(shù)據(jù)開發(fā)與分析的實際,不斷更新Web數(shù)據(jù)抽取技術(shù)的實現(xiàn)方法,使Web數(shù)據(jù)抽取技術(shù)能夠真正為大數(shù)據(jù)分析提供數(shù)據(jù)源和分析所需要的信息。二是在大數(shù)據(jù)開發(fā)與分析的過程中,靈活運用Web數(shù)據(jù)抽取技術(shù),將Web數(shù)據(jù)抽取的各項技術(shù)進(jìn)行綜合運用,實現(xiàn)數(shù)據(jù)抽取的最優(yōu)化及最效率,使提供的數(shù)據(jù)內(nèi)容豐富、結(jié)構(gòu)清晰、質(zhì)量保證、效率提高。