羅糧,朱儒明
(重慶城市管理職業(yè)學(xué)院,重慶 401331)
基于正則表達(dá)式的Web頁(yè)面信息抽取技術(shù)研究
羅糧,朱儒明
(重慶城市管理職業(yè)學(xué)院,重慶 401331)
通過(guò)分析網(wǎng)頁(yè)信息抽取技術(shù)和正則表達(dá)式相關(guān)理論,提出基于正則表達(dá)式的Web信息抽取方法,并設(shè)計(jì)相應(yīng)的網(wǎng)頁(yè)信息抽取算法。通過(guò)對(duì)此算法實(shí)現(xiàn)的信息抽取系統(tǒng)進(jìn)行測(cè)試實(shí)驗(yàn)表明,所提出的Web頁(yè)面信息抽取方法能達(dá)到較高的召回率和準(zhǔn)確率。
信息抽?。徽齽t表達(dá)式;網(wǎng)頁(yè)信息
隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),Internet上大量的Web信息已成為最大和最重要的數(shù)據(jù)來(lái)源,如何在這些海量信息中提取有價(jià)值、有針對(duì)性的數(shù)據(jù)信息,已越來(lái)越成為備受重視的研究課題。從Web中提取的信息,有很高的實(shí)用價(jià)值,不僅可為用戶直接提供其關(guān)注的有用信息,而且可為其他一些專家系統(tǒng)、大數(shù)據(jù)分析等提供有價(jià)值的數(shù)據(jù)源。
互聯(lián)網(wǎng)上的Web信息有其特殊的結(jié)構(gòu)和組織方式,大部分基于HTML語(yǔ)言,具有半結(jié)構(gòu)化的特點(diǎn),如何從這些半結(jié)構(gòu)化的資源中抽取出有用有價(jià)值的信息,并將其用結(jié)構(gòu)化和可視化的形式呈現(xiàn)出來(lái),是Web信息提取技術(shù)的核心。本文通過(guò)正則表達(dá)式(Regular Expression)準(zhǔn)確、強(qiáng)大的模式匹配和數(shù)據(jù)提取功能進(jìn)行信息抽取算法(或Web內(nèi)容信息抽取系統(tǒng))的設(shè)計(jì),具有較高的準(zhǔn)確率和抽全率,提高了信息提取及處理的自動(dòng)化效率,減少了人工手工操作工作量,對(duì)于其他專家系統(tǒng)如輿情分析系統(tǒng)、智能搜索引擎、大數(shù)據(jù)分析系統(tǒng)等也有很好的參考價(jià)值。
1.1 Web 頁(yè)面信息格式分析
互聯(lián)網(wǎng)中存在海量的Web信息資源,而這些資源大部分以Web網(wǎng)頁(yè)為信息的載體,主要采取不同版本的HTML語(yǔ)言或者其他類型的文本標(biāo)記語(yǔ)言編寫(xiě),在HT?ML文檔中,主要使用以“<”和“>”符號(hào)包含的特定字符串,稱為HTML標(biāo)記符,大部分標(biāo)記成對(duì)出現(xiàn),中間相夾正文內(nèi)容,或格式設(shè)置等命令。整個(gè)頁(yè)面文檔就由這些HTML標(biāo)記與各種離散文本,包括正文文本、鏈接、導(dǎo)航、廣告、版權(quán)信息等等字符串序列內(nèi)容共同組成??蛻舳藶g覽器會(huì)解析這些HTML編碼,從而呈現(xiàn)出用戶看到的各種文字、音視頻、圖片、動(dòng)畫(huà)等信息,而真正使這些信息能夠顯示的正是這些種類的超文本標(biāo)記語(yǔ)言。其中的HTML標(biāo)記控制著文字、音視頻、圖片等各種內(nèi)容的顯示,但本身不帶有語(yǔ)義,主要用于數(shù)據(jù)的表現(xiàn),其他離散的正文文本則是真正有價(jià)值的抽取信息,除此外還有導(dǎo)航、友情鏈接、廣告等一些噪音信息。
總之,Web信息,大部分為HTML文檔格式,屬于一種半結(jié)構(gòu)化的文檔,存在著一些可以直接處理的結(jié)構(gòu)化的信息,但是語(yǔ)法語(yǔ)義信息的作用有限,還有一定量的噪音信息,使得固定抽取規(guī)則的編寫(xiě)方式存在一定的難度。
1.2 正則表達(dá)式
正則表達(dá)式(Regular Expression)的功能和匹配規(guī)則都很強(qiáng)大,經(jīng)常用于字符串的模式匹配和查找搜索等操作,它是由兩類字符構(gòu)成的文本模式串,一類是普通的字符,如ASCII字符等,另一類則是特殊字符,被稱為正則表達(dá)式‘元字符’,如+、*、[、]等;這兩類字符可以共同構(gòu)成一種字符模式串,通過(guò)它可設(shè)置復(fù)雜的控制規(guī)則,從而匹配到一組或者一類特定的字符串,通過(guò)模式串與待查找原串的匹配,得到的結(jié)果就是要匹配或要搜索查找的那一組或一類字符串。因此,正則表達(dá)式常用來(lái)快速而高效地處理文本類信息。
2.1 Web 頁(yè)面預(yù)處理
Web頁(yè)面是一種半結(jié)構(gòu)化文檔,在信息提取前先要進(jìn)行預(yù)處理,即規(guī)范化處理,將其轉(zhuǎn)化為格式良好的XML格式文檔[3]。預(yù)處理主要包含以下內(nèi)容:
(1)統(tǒng)一網(wǎng)頁(yè)編碼,包含漢語(yǔ)的頁(yè)面編碼主要有:國(guó)標(biāo)碼(GBK)、UTF-8、大五碼(Big5)及Unicode編碼等。需要統(tǒng)一為UTF-8或GBK等標(biāo)準(zhǔn)編碼。
(2)每個(gè)網(wǎng)頁(yè)需有一個(gè)根元素,為。全部的html元素標(biāo)簽均統(tǒng)一轉(zhuǎn)換為小寫(xiě)或大寫(xiě),以便后期HT?ML的遍歷與信息提取。
(3)修正html元素標(biāo)簽,使每一個(gè)開(kāi)始標(biāo)記,并且保證html標(biāo)簽的正確嵌套。如
(4)其他需修正的html規(guī)范,如html標(biāo)記的屬性,統(tǒng)一為屬性="值"的形式,屬性名要與屬性值一一對(duì)應(yīng),屬性值須用英文雙引號(hào)包含。
2.2 網(wǎng)頁(yè)清洗
網(wǎng)頁(yè)清洗即網(wǎng)頁(yè)去噪,即過(guò)濾掉html標(biāo)簽中與信息抽取無(wú)關(guān)的噪音信息。主要包含以下幾個(gè)方面的清洗:
(1)多余的空白符、無(wú)實(shí)際內(nèi)容的嵌套標(biāo)記,如之類的空標(biāo)記。
(2)注釋、一些格式標(biāo)記、排版標(biāo)記等,與正文相關(guān)性不大的網(wǎng)頁(yè)節(jié)點(diǎn),如script、div、style、object、type等。
(3)廣告內(nèi)容和與正文相關(guān)性不大的友情鏈接等的網(wǎng)頁(yè)噪聲。根據(jù)統(tǒng)計(jì),這部分噪聲大都集中于部分table節(jié)點(diǎn)中。此步需根據(jù)統(tǒng)計(jì)原理,分析統(tǒng)計(jì)出有用字符數(shù)的比例,再根據(jù)正文相關(guān)度進(jìn)行篩選和清洗。
2.3 正則表達(dá)式抽取模式串設(shè)計(jì)
在利用正則表達(dá)式進(jìn)行Web信息抽取時(shí),首先需設(shè)計(jì)好要抽取信息對(duì)應(yīng)的正則表達(dá)式匹配模式串,然后把預(yù)處理的網(wǎng)頁(yè)信息處理成字符串形式,從而進(jìn)行匹配得到要提取的信息。實(shí)際應(yīng)用當(dāng)中,應(yīng)該根據(jù)不同的抽取需求編寫(xiě)具體對(duì)應(yīng)的正則表達(dá)式模式串進(jìn)行匹配,例如常見(jiàn)的電郵和超鏈接的匹配模式串如下表所示:
表1 正則表達(dá)式匹配模式串
2.4 正則表達(dá)式抽取算法設(shè)計(jì)
設(shè)定正則表達(dá)式匹配模式串集合為S={s1,s2,…,sn}F={fl,f2,…,fn},Web頁(yè)面節(jié)點(diǎn)集合 NodeSet= {node1,node2,…,nodeN}。
(1)輸入:網(wǎng)頁(yè)URL(例如待抽取的為新聞頁(yè)面——網(wǎng)易,URL=WWW.163.COM)。
(2)輸出:需提取的Web頁(yè)面信息,如正文中關(guān)鍵詞,新聞標(biāo)題、作者、鏈接等各種相關(guān)信息數(shù)據(jù)。
(3)建立輸出數(shù)據(jù)信息集合節(jié)點(diǎn)ResultSetInfo,初始化為空集,主要用于存放輸出的文本信息節(jié)點(diǎn)。在正則表達(dá)式集合S中利用要抽取信息對(duì)應(yīng)的模式串s1|s2…|sn,從集合NodeSet中找到對(duì)應(yīng)信息項(xiàng)相關(guān)度最高的標(biāo)簽節(jié)點(diǎn)nodek(1≤k≤N)。
(4)遞歸遍歷nodek中的節(jié)點(diǎn),通過(guò)正則表達(dá)式集S匹配到對(duì)應(yīng)文本信息節(jié)點(diǎn)TxtNodej(j≥1)存入集合ResultSetInfo,得到輸出集合ResultSetInfo={TxtNode1,TxtNode2,…,TxtNodej}。
通過(guò)上述Web頁(yè)面信息提取算法,就可以設(shè)計(jì)與實(shí)現(xiàn)出相應(yīng)的信息抽取系統(tǒng)。系統(tǒng)主要用Java語(yǔ)言實(shí)現(xiàn),后臺(tái)數(shù)據(jù)庫(kù)采用MySQL,同時(shí),再利用Java開(kāi)源庫(kù)HTMLParser(小巧快速的純java編寫(xiě)HTML解析庫(kù),主要用于改造或提取HTML),就可設(shè)計(jì)出接口統(tǒng)一、功能完備的通用Web信息抽取系統(tǒng)。
利用Web信息抽取系統(tǒng)以不同網(wǎng)站為實(shí)例進(jìn)行抽取測(cè)試,得到召回率和準(zhǔn)確率等指標(biāo)數(shù)據(jù)如下表所示:
表2 系統(tǒng)實(shí)驗(yàn)測(cè)試數(shù)據(jù)
通過(guò)上述測(cè)試數(shù)據(jù)可發(fā)現(xiàn),本信息抽取算法具有良好的抽取效果,利用此算法設(shè)計(jì)的系統(tǒng),對(duì)新聞、論壇和博客、校園網(wǎng)等各類網(wǎng)站的信息抽取都能達(dá)到較高的召回率和準(zhǔn)確率。
Web信息抽取技術(shù)對(duì)于從海量網(wǎng)絡(luò)資源中準(zhǔn)確、快速提取到我們需要的信息,以便進(jìn)行后期處理具有十分重要的意義。本文通過(guò)研究目前Web信息抽取方法的特點(diǎn),和正則表達(dá)式技術(shù),提出了一種基于正則表達(dá)式的網(wǎng)頁(yè)信息提取算法并設(shè)計(jì)了相應(yīng)的Web信息抽取系統(tǒng)。最后通過(guò)系統(tǒng)測(cè)試實(shí)驗(yàn)結(jié)果證明,本系統(tǒng)具有較高的準(zhǔn)確率與召回率,也可整合進(jìn)其他各種信息系統(tǒng),為其提供數(shù)據(jù)源,有較高的實(shí)用應(yīng)用價(jià)值。
圖1 召回率與準(zhǔn)確率統(tǒng)計(jì)圖
[1]Luke Welling等著,武欣譯.PHP和MySQL Web開(kāi)發(fā)[M].北京:機(jī)械工業(yè)出版社,2014.
[2]袁津生,蔡岳.搜索引擎原理與實(shí)踐[M].北京:北京郵電大學(xué)出版社,2008.
[3]Basu S,Bilenko M,Mooney R.A Probabilistic Framework for Semi-Supervised Clustering.In:Proceedings of 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004.
[4]Wang X,Wu H,Wei L,Zhou A.A Similarity-Based Analysis Model for Topic Distillation.International Journal of Computational Intelligence and Application,2002,2(3):267-275.
[5]韓忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2008,25(12):3560-3564
[6]李中言,李普躍.信息抽取技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用[J].現(xiàn)代情報(bào),2007,10(10):96-97.
[7]王磊,陳曙暉,蘇金樹(shù)等.深度報(bào)文檢測(cè)中基于GPU的正則表達(dá)式匹配引擎[J].計(jì)算機(jī)應(yīng)用研究,2010,27(11):4324-4327.
[8]陳瓊,蘇文健.基于網(wǎng)頁(yè)結(jié)構(gòu)樹(shù)的Web信息抽取方法[J].計(jì)算機(jī)工程,2005,15(20):54-55.
[9]韓存鴿.Web信息抽取方法研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009.
[10]黃穎,黃治平.HTML Parser提取網(wǎng)頁(yè)信息的設(shè)計(jì)與實(shí)現(xiàn)[J].江西理工大學(xué)學(xué)報(bào),2007,18(6):21-23.
[11]張麗娜,陳俊杰,趙麗欣.基于HTMLParser的BT種子網(wǎng)頁(yè)信息抽取[J].電腦開(kāi)發(fā)與應(yīng)用,2010.
[12]靳小川,劉萬(wàn)軍,趙雷.基于正則表達(dá)式的企業(yè)主頁(yè)信息抽取[J[.計(jì)算機(jī)系統(tǒng)應(yīng)用,2010.
Research on Web Information Extraction Technology Based on Regular Expression
LUO Liang,ZHU Ru-ming
(Chongqing City Management College,Chongqing 401331)
Through the analysis of Web information extraction technology and regular expression theory,proposes a Web information extraction meth?od based on regular expression and designs a corresponding Web page information extraction algorithm.The experiment results show that the information extraction system based on this algorithm can achieve high recall ratio and retrieval precision.
羅糧(1977-),男,重慶沙坪壩人,碩士,講師,研究方向?yàn)榉植际接?jì)算、軟件復(fù)用
2017-03-14
2017-05-03
重慶城市管理職業(yè)學(xué)院科研項(xiàng)目(No.2015kyxm017)、重慶市教委科學(xué)技術(shù)研究項(xiàng)目(No.KJ1503208)、重慶市教育科學(xué)“十三五”規(guī)劃2016年度課題(No.2016-GX-183)
1007-1423(2017)15-0017-04
10.3969/j.issn.1007-1423.2017.15.004
朱儒明(1965-),男,重慶巴南人,本科,副教授,研究方向?yàn)檐浖こ?、自組織網(wǎng)絡(luò)
Information Extraction;Regular Expression;Web Page Information