朱全銀,周 培,尹永華,陳 浮,劉金嶺
(淮陰工學(xué)院計(jì)算機(jī)工程學(xué)院,江蘇 淮安 223003)
近年來(lái),隨著Web技術(shù)迅猛發(fā)展,網(wǎng)絡(luò)上積累了大量的信息,由于網(wǎng)頁(yè)信息的半結(jié)構(gòu)化,無(wú)法像傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)那樣直接使用。如何更好地利用這些信息成為人們關(guān)注的熱點(diǎn)[1]。但是在紛繁復(fù)雜的Web信息庫(kù)中準(zhǔn)確地獲取信息的難度也進(jìn)一步加大。Web文檔可以表示成非結(jié)構(gòu)化文檔、半結(jié)構(gòu)化文檔和結(jié)構(gòu)化文檔,目前大部分頁(yè)面都以半結(jié)構(gòu)化文檔即HTML形式給出[2]。國(guó)內(nèi)外針對(duì)正確提取Web文檔有效信息做了大量的研究工作。Lin S.H.提出信息塊的概念 ,以頁(yè)面中Table標(biāo)簽作為處理元素,將頁(yè)面分割成塊[3]。對(duì)于使用同一個(gè)模板生成的網(wǎng)頁(yè)集,找出在該網(wǎng)頁(yè)集中多次出現(xiàn)的內(nèi)容,作為冗余內(nèi)容,而共同出現(xiàn)較少的內(nèi)容塊作為信息塊。但該方法必須局限于同一模板的網(wǎng)頁(yè)集,因此不夠通用。孫承杰等提出一種基于統(tǒng)計(jì)的方法來(lái)實(shí)現(xiàn)對(duì)新聞?lì)惥W(wǎng)頁(yè)主題信息的抽取,實(shí)現(xiàn)簡(jiǎn)單,對(duì)新聞?lì)惥W(wǎng)頁(yè)處理效果不錯(cuò),但該方法只適合于網(wǎng)頁(yè)的所有主題信息位于同一個(gè)Table標(biāo)記中的情況[4]。王琦等基于DOM(Document Object Model)規(guī)范,擴(kuò)展了STU(Semantic Textual Unit)模型,提出STU-DOM樹(shù)模型,在刪除無(wú)關(guān)節(jié)點(diǎn)的同時(shí)有效保留了與主題相關(guān)的文字和鏈接[5]。但該文并沒(méi)有區(qū)分Table標(biāo)簽的兩種不同作用,對(duì)于結(jié)構(gòu)復(fù)雜、噪音較多的網(wǎng)頁(yè)會(huì)留下較多的噪音信息[6]。
本文在以往基于Web信息提取的基礎(chǔ)上[7-13],在江蘇省各高校網(wǎng)站上選取科技專家介紹頁(yè)面,研究基于Web數(shù)據(jù)挖掘的多因素科技專家信息提取方法。
通過(guò)對(duì)江蘇省大多數(shù)高等院校網(wǎng)頁(yè)的觀察統(tǒng)計(jì),目前對(duì)于科技專家的簡(jiǎn)介分為以下兩種樣式:
(1)以圖表格式呈現(xiàn)。由 特征詞“姓名”、“性別”、“出生年月”、“職稱”、“聯(lián)系方式”等特征詞組成的圖表。如江蘇省南京理工大學(xué)A教授的簡(jiǎn)介頁(yè)面(http://cs.njust.edu.cn/szdw/ShowArticle.asp ArticleID=27),如圖1所示。
圖1 特征詞組成的圖表呈現(xiàn)形式
(2)以段落文本描述性文字呈現(xiàn)。段落文本包含“姓名”、“性別”、“出生年月”、“職稱”等特征詞。如江蘇省東南大學(xué)中國(guó)科學(xué)院院士B教授的介紹頁(yè)面(http://rsc.seu.edu.cn/s/98/t/81/a/7068/info.htm),如圖 2 所示。
圖2 特征詞組成的段落文本呈現(xiàn)形式
定義1:設(shè)M為網(wǎng)頁(yè)源文本,S為網(wǎng)頁(yè)提取正文。則:
定義2:設(shè)K為特征詞序列,則:
定義3:設(shè)特征詞kn在S中的位置為P,則:
定義4:設(shè)特征詞之間的距離(特征詞在正文文本中的位置的差值)為D,則有:
本文著重討論特征詞組成的段落文本形式的科技專家信息的提取方法。
通常在同一文本中的詞匯、字串之間一般都存在著很強(qiáng)的依賴關(guān)系,如上下位關(guān)系、同義關(guān)系等,因此,對(duì)詞匯、字串之間的這些關(guān)系進(jìn)行分析將有助于提高文本分析的準(zhǔn)確性。本文著重比較特征詞之間的位置關(guān)系。計(jì)算已匹配特征詞與潛在特征詞之間的絕對(duì)距離,最小絕對(duì)距離即為專家信息關(guān)鍵詞。
具體地說(shuō),本文提出的科技專家信息提取方法通過(guò)如下各步驟實(shí)現(xiàn)科技專家信息的提取:
第1步,通過(guò)給定的URL,獲取目標(biāo)網(wǎng)頁(yè)源代碼,即M,過(guò)濾網(wǎng)頁(yè)腳本、網(wǎng)頁(yè)樣式、HTML標(biāo)簽等,獲得正文文本S;
第2步,在已有特征詞語(yǔ)料庫(kù)的基礎(chǔ)上匹配專家性別、職稱、出生年月、籍貫等專家信息文本,得到特征詞序列 K1={k1,k2,…,kn};
第3步,通過(guò)公式(3)計(jì)算特征詞序列K1中各特征詞在正文文本S中的位置,得到特征詞位置序列 P1={p1,p2,…,pn};
第4步,調(diào)用中國(guó)科學(xué)院計(jì)算所的ICTCLAS分詞系統(tǒng),對(duì)正文文本S進(jìn)行分詞,得到潛在姓名特征詞序列 K2={k1,k2,…,kn};
第5步,通過(guò)公式(3)計(jì)算特征詞序列K2中各特征詞在正文文本 S中的位置,得到特征詞序列P2={p1,p2,…,pn};
第6步,通過(guò)公式(5)、(6)、(7)計(jì)算序列P1和P2的絕對(duì)距離,并得出 Max和 Min,取Min的特征詞作為專家信息關(guān)鍵詞,并在潛在特征詞序列中刪除該潛在特征詞;
第7步,通過(guò)公式(5)計(jì)算匹配得到的專家信息關(guān)鍵字段之間的絕對(duì)距離,若過(guò)大(通常與20~30相比較),則舍棄該專家信息關(guān)鍵詞;
第8步,輸出科技專家信息。
為了驗(yàn)證本文提出的專家信息提取方法的有效性,從江蘇省內(nèi)的南京大學(xué)、東南大學(xué)、南京理工大學(xué)、南京郵電大學(xué)、南京師范大學(xué)等高校網(wǎng)站選取100個(gè)科技專家介紹頁(yè)面作為實(shí)驗(yàn)對(duì)象。經(jīng)過(guò)本文提出的基于數(shù)據(jù)挖掘的多因素科技專家信息提取方法對(duì)這100個(gè)頁(yè)面進(jìn)行信息提取后,有如下幾種情況:
(1)網(wǎng)頁(yè)文檔中的專家信息提取無(wú)缺失無(wú)錯(cuò)誤,源網(wǎng)頁(yè)截圖如圖3所示。
圖3 C教授信息源網(wǎng)頁(yè)
由本文提出的科技專家信息提取方法實(shí)現(xiàn)的系統(tǒng)中提取的C教授的專家信息為:姓名:“某某”、性別:女、職稱:教授 、職位:博士生導(dǎo)師、出生年月:1940年2月出生、出生地:源網(wǎng)頁(yè)未提及。
(2)網(wǎng)頁(yè)文檔中的專家姓名信息提取錯(cuò)誤,錯(cuò)誤原因:經(jīng)過(guò)中科院分詞系統(tǒng)分詞后,選取潛在人名時(shí)錯(cuò)誤,源網(wǎng)頁(yè)截圖如圖4所示。
由本文提出的科技專家信息提取方法實(shí)現(xiàn)的系統(tǒng)中提取的D教授專家信息為:姓名:“某某”、性別:女、職稱:教授、職位:碩士生導(dǎo)師、出生年月:1963年5月出生、出生地:江蘇揚(yáng)州人,其中正確姓名為“某某某”,系統(tǒng)提取的姓名為“某某”。
圖4 D教授信息源網(wǎng)頁(yè)
(3)網(wǎng)頁(yè)文檔中專家出生年月信息提取出錯(cuò),錯(cuò)誤原因:特征詞匹配出錯(cuò),源網(wǎng)頁(yè)截圖如圖5所示。
圖5 E教授信息源網(wǎng)頁(yè)
由本文提出的科技專家信息提取方法實(shí)現(xiàn)的系統(tǒng)中提取的E教授專家信息為:姓名:“某某某”、性別:女、職稱:教授、出生年月:1969年3月江蘇生、出生地:江蘇睢寧人,其中正確出生年月為“1953年3月生”,系統(tǒng)提取的錯(cuò)誤出生年月為“1969年3月江蘇生”。
(4)網(wǎng)頁(yè)文檔中專家出生地信息提取出錯(cuò)。錯(cuò)誤原因?yàn)樘卣髟~匹配出錯(cuò),源網(wǎng)頁(yè)截圖如圖6所示。
圖6 F教授信息源網(wǎng)頁(yè)
由本文提出的科技專家信息提取方法實(shí)現(xiàn)的系統(tǒng)中提取的 F教授專家信息為:姓名:“某某某”、性別:男、職稱:教授、出生年月:1960年8月生、出生地:江蘇省“六大人”,其中正確的出生地為“河北昌黎人”,系統(tǒng)提取的錯(cuò)誤出生地為“江蘇省“六大人”。
(5)網(wǎng)頁(yè)文檔中專家信息提取不完整,錯(cuò)誤原因?yàn)樘卣髟~匹配不成功,源網(wǎng)頁(yè)截圖見(jiàn)圖7。
圖7 G教授信息源網(wǎng)頁(yè)
由本文提出的科技專家信息提取方法實(shí)現(xiàn)的系統(tǒng)中提取的G教授專家信息為:姓名:“某某某”、職稱:教授 、出生年月:無(wú),出生地:無(wú),其中文檔信息中包含出生年月為“1943年12月出生”,出生地為“江蘇無(wú)錫”。系統(tǒng)提取信息中未包含出生年月和出生地。
以上是在本文提出的基于Web數(shù)據(jù)挖掘的多因素科技專家信息提取方法下提取網(wǎng)頁(yè)文檔中科技專家信息出現(xiàn)的幾種情況。經(jīng)過(guò)系統(tǒng)對(duì)100個(gè)科技專家頁(yè)面的信息提取以及結(jié)果統(tǒng)計(jì),得到專家信息提取中的各專家信息字段提取錯(cuò)誤率與缺失率如表1所示。
表1 科技專家信息各字段提取錯(cuò)誤率
經(jīng)過(guò)統(tǒng)計(jì),在選取的100個(gè)科技專家介紹頁(yè)面當(dāng)中,共出現(xiàn)431個(gè)科技專家信息字段,其中33個(gè)科技專家信息出現(xiàn)偏差,根據(jù)以上實(shí)驗(yàn)統(tǒng)計(jì)得出,科技專家信息提取正確率為92.34%,科技專家信息提取查全率為94.43%。
本文提出了基于Web數(shù)據(jù)挖掘的多因素的科技專家信息提取方法,選取江蘇省10多所高校的100個(gè)科技專家介紹頁(yè)面作為實(shí)驗(yàn)對(duì)象,獲得了較好的效果,其中對(duì)于中文人名的信息提取錯(cuò)誤率僅為2%,中文人名信息提取缺失率為0;性別和職稱的信息提取錯(cuò)誤率和信息提取缺失率都為0;出生地的信息提取錯(cuò)誤率為6.02%,出生地的信息提取缺失率為15.66%;出生年月的提取錯(cuò)誤率和提取缺失率分別為2.22%與12.22%。綜合100個(gè)科技專家介紹頁(yè)面的所有信息字段,得出科技專家信息提取正確率為92.34%,科技專家信息提取查全率為94.43%,解決了從網(wǎng)頁(yè)信息中難以準(zhǔn)確獲取科技專家信息的問(wèn)題,滿足了建設(shè)科技專家基礎(chǔ)信息數(shù)據(jù)庫(kù)的應(yīng)用系統(tǒng)需求。
[1]Lai Jianbing,Liu Qiang,Liu Yi.Web information extraction based on Hidden Markov Model[C].Proceedings of the 14th International Conference on Computer Supported Cooperative Work in Design,2010:234 -238.
[2]Peng Chen,Yue Zhang.Web information extraction and its application[C].Proceedings of the IEEE International Conference on Cloud Computing and Intelligence Systems,2011:448 - 451.
[3]Lin S H,Ho J M.Discovering Informative Content Blocks from Web Documents[C].Proceedings of the 8th ACM SIGKDD International Conference,2002:588-593.
[4]孫承杰,關(guān)毅.基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J].中文信息學(xué)報(bào),2004,18(5):17 - 22.
[5]王琦,唐世渭,楊冬青,等.基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提?。跩].計(jì)算機(jī)研究與發(fā)展,2004,41(10):182-188.
[6]呂聚旺,都云程,王弘蔚,等.基于新型主題信息量化方法的Web主題信息提取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008(12):50-53.
[7]劉金嶺,談蕓,李健普,等.基于多因素的中文文本主題自動(dòng)抽取方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(7):72-79.
[8]王紅艷,朱全銀,嚴(yán)云洋,等.商品價(jià)格數(shù)據(jù)的兩種WEB挖掘算法比較[J].微電子學(xué)與計(jì)算機(jī),2011,28(19):168-172.
[9]Quanyin Zhu,Yunyang Yan,Jin Ding,et al.The Commodities Price Extracting for Shop Online[C].Proceedings of the International Conference on Future Information Technology and Management Engineering,2010,(2):317 -320.
[10]Quanyin Zhu,Jin Ding,Yonghua Yin,et al.A Hybrid Approach for New Products Discovery of Cell Phone Based on Web Mining[J].Journal of Information and Computational Science.2012,9(16):5039 -5046.
[11]Quanyin Zhu,Pei Zhou,Sunqun Cao,et al.A novel RDB-SW approach for commodities price dynamic trend analysis based on Web extracting[J].Journal of Digital Information Management,2012,10(4):230 -235.
[12]Quanyin Zhu,Pei Zhou.The System Architecture for the Basic Information of Science and Technology Experts Based on Distributed Storage and Web Mining[C].Proceedings of the International Conference on Computer Science and Service System,2012:661 -664.
[13]Kangjing Hu,Jin Ding,Chengjie Xu,et al.The Development of Software Testing Platform of Huaian City[C].Applied Mechanics and Materials,2013:411 -414.