張興蘭 劉巖
摘要:Web表格信息提取已成為構(gòu)建本體的重要工作,它能自動(dòng)將本體所需的屬性名和屬性值提取出來,節(jié)省大量人工勞動(dòng)。提出了一種基于單元格類型和值長度的表格結(jié)構(gòu)識(shí)別算法,能有效識(shí)別定位出的表格展開方式,對于表格信息提取具有重要意義。
關(guān)鍵詞:信息提?。槐砀裥畔⒊槿?;表格結(jié)構(gòu)識(shí)別
DOIDOI:10.11907/rjdk.161203
中圖分類號:TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1672-7800(2016)006-0001-04
3結(jié)語
在構(gòu)建知識(shí)庫時(shí)會(huì)用到本體的概念,本體的生成除了需專家人工參與外,在表格中提取本體的屬性成為一種非常重要的方式。本文對表格展開方式判別提供了一種方法,從表格屬性名和屬性值在類型和長度的差異中識(shí)別表格結(jié)構(gòu),構(gòu)造了類型樹,使類型差異轉(zhuǎn)化為樹的路徑;同時(shí)引入方差概念,將字符串長度變化情況用方差來描述,不再單一依靠均值來描述字符串的長度。下一步的研究重點(diǎn)是進(jìn)一步改進(jìn)表格定位算法,實(shí)現(xiàn)表格的更準(zhǔn)確定位,從而提升整個(gè)表格識(shí)別系統(tǒng)的準(zhǔn)確率。
3結(jié)語
在構(gòu)建知識(shí)庫時(shí)會(huì)用到本體的概念,本體的生成除了需專家人工參與外,在表格中提取本體的屬性成為一種非常重要的方式。本文對表格展開方式判別提供了一種方法,從表格屬性名和屬性值在類型和長度的差異中識(shí)別表格結(jié)構(gòu),構(gòu)造了類型樹,使類型差異轉(zhuǎn)化為樹的路徑;同時(shí)引入方差概念,將字符串長度變化情況用方差來描述,不再單一依靠均值來描述字符串的長度。下一步的研究重點(diǎn)是進(jìn)一步改進(jìn)表格定位算法,實(shí)現(xiàn)表格的更準(zhǔn)確定位,從而提升整個(gè)表格識(shí)別系統(tǒng)的準(zhǔn)確率。
參考文獻(xiàn):
[1]于靜.基于頁面主體提取的WEB信息抽取技術(shù)研究[D].南京:南京郵電大學(xué),2013.
[2]張紅梅.基于塊的Web網(wǎng)頁信息提取[J].軟件導(dǎo)刊,2012,11(1):132-134.
[3]程顯毅,朱倩,王進(jìn).中文信息抽取原理及應(yīng)用[M].北京:科學(xué)出版社,2010.
[4]廖濤,劉宗田,孫榮.Web表格定位技術(shù)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2009,36(9):227-230.
[5]CHEN H,TSAI S,TSAI J.Mining tables from large scale HTML texts[C].In Proceedings of the 18th International Conference on Computational Linguistics,New Jersey: Association for Computational Linguistics,2000:166-172.
[6]張凈.Web信息自動(dòng)抽取技術(shù)的研究與實(shí)現(xiàn)[D].武漢:武漢理工大學(xué),2009.
[7]TENGLI A,YANG Y,LI N.Machine learning table extractionfrom examples[C].In Proceeding of the 20th International Conference on Computational Linguistics(COLNG),New Jersey:Association for Computational Linguistics,2004:987-993.
[8]林琳.基于Ontology的web表格內(nèi)容抽取的研究與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2006.
[9]廖濤.Web表格定位技術(shù)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2009(9):227-230.
[10]賈云長.HTML表格向XML的智能轉(zhuǎn)換[J].計(jì)算機(jī)工程,2009(14):32-34.
[11]張瑞.網(wǎng)上表格數(shù)據(jù)到XML的自動(dòng)轉(zhuǎn)換[J].計(jì)算機(jī)工程與應(yīng)用,2007(2):190-192.
[12]徐飛.面向結(jié)構(gòu)的Web表格數(shù)據(jù)抽取系統(tǒng)[J].西安工業(yè)大學(xué)學(xué)報(bào),2009(6):574-577.