劉利
(瀘州職業(yè)技術(shù)學(xué)院信息工程系,四川 瀘州 646005)
互聯(lián)網(wǎng)作為開放式的知識(shí)庫,信息具有海量、多樣、散亂等特點(diǎn),網(wǎng)頁作為信息的載體,利用互聯(lián)網(wǎng)構(gòu)建知識(shí)庫,則演變?yōu)閷A烤W(wǎng)頁文本信息的抽取及結(jié)構(gòu)化的研究。當(dāng)前,文本信息抽取的對象有結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化信息,而抽取文本信息方式主要分為兩類[1],一類是機(jī)器學(xué)習(xí)方式[2],從結(jié)構(gòu)化和半結(jié)構(gòu)化信息抽取數(shù)據(jù);一類是自然語言處理[3],從非結(jié)構(gòu)化的文本信息中抽取有價(jià)值的數(shù)據(jù),就網(wǎng)頁自由文本信息特點(diǎn)而言更加適用。
在利用淺層句法分析方法上,錢偉中等人[4]提出了融合淺層句法分析的蛋白質(zhì)互作用信息抽取方法,在生物學(xué)方面的文本抽取效果較好;周順先等人[5]提出基于規(guī)則和統(tǒng)計(jì)抽取模型的主動(dòng)學(xué)習(xí)算法,需要先標(biāo)記訓(xùn)練集才能達(dá)到抽取同類信息的較好效果,不能很好地適應(yīng)多樣式的文本;龐文斌等人[6]進(jìn)行基于規(guī)則和統(tǒng)計(jì)的漢語淺層句法分析的研究,利用統(tǒng)計(jì)的方式通過先識(shí)別謂詞實(shí)現(xiàn)信息抽取,但缺乏考慮句式和代詞帶來的問題。
呂叔湘[7]早在多年前在其《中國文法要略》中提出“主-謂-賓”為句子的主干部分,它能反映句子的主要信息,而“句子的中心是一個(gè)動(dòng)詞”,對句子動(dòng)詞成分的確定有助于句子成分的整體分析。基于此,本文提出基于詞性合并的淺層句法分析方法,在文本信息抽取比同類方法效果較好。
文本信息抽取模塊主要實(shí)現(xiàn)的功能是抽取文本信息的主旨內(nèi)容,為進(jìn)一步的信息結(jié)構(gòu)化提供保障。本文算法從句子詞性合并和句式分析兩個(gè)方面著手,結(jié)合中樞論的觀點(diǎn)分析句子的成分,抽取文本信息。
漢語中可把復(fù)雜的句子轉(zhuǎn)變?yōu)槎鄠€(gè)簡單句,便于提高在句法分析中識(shí)別句子成分的準(zhǔn)確率。對句子進(jìn)行分詞,將分詞根據(jù)詞性進(jìn)行合并,共同組成句子成分,合并規(guī)則如下:
規(guī)則1:相鄰并詞性相同的詞語進(jìn)行合并,詞性和末尾詞詞性一致。如:“法新社/nt記者/n經(jīng)/p調(diào)查/vn后/f證實(shí)/v”經(jīng)過轉(zhuǎn)化后變?yōu)椤胺ㄐ律缬浾?n調(diào)查/vn后/f證實(shí)/v”。
規(guī)則2:對連詞、“比/p”、頓號(hào)左右詞性的合并,因?yàn)樽笥覂蛇呍~性為并列關(guān)系,最后詞性為末尾詞詞性。如:“北京/ns、/w天津/ns和/cc重慶/ns都/d是/vshi直轄市/n”轉(zhuǎn)變?yōu)椤氨本?、天津和重慶/ns都/d是/vshi直轄市/n”。
規(guī)則3:合并數(shù)詞到距離它最近的名詞,最后合并詞詞性為末尾詞詞性。如“一/m本/q書/n”經(jīng)過轉(zhuǎn)化后為“一本書/n”。
規(guī)則4:合并時(shí)間詞,若其后為主語或謂語詞詞性則合并;若其后為助詞,先判斷助詞后面是否有詞,有則合并時(shí)間詞到助詞后面的詞,沒有則合并時(shí)間詞及其前面的詞。兩種方式合并后的詞性為末尾詞詞性,如“我/rr是/vshi 1995年5月/t的/ude1生日/n”轉(zhuǎn)化后變?yōu)椤拔?rr是/vshi 1995年5月的生日/n”。
規(guī)則5:合并名詞短語,具體為合并“的”字前后詞,合并詞性為末尾詞的詞性。“的”字短如“今天/t的/ude1天氣/n”轉(zhuǎn)化后變?yōu)椤敖裉斓奶鞖?n”。
按漢語句式可分為一般句式和特殊句式,前者由主謂賓構(gòu)成,句子成分順序容易判斷;后者是將句子成分順序進(jìn)行變換,如倒裝、前置等結(jié)構(gòu)。
一般句式成分分析采用謂詞中樞論觀點(diǎn),先確定謂語成分,謂語可由動(dòng)詞和形容詞擔(dān)任,通過對“知網(wǎng)-中文信息結(jié)構(gòu)庫”的詞頻統(tǒng)計(jì)可知?jiǎng)釉~作為謂語的概率比形容詞大,故若在一個(gè)句子中同時(shí)出現(xiàn)動(dòng)詞和形容詞時(shí),則優(yōu)先選用動(dòng)詞做謂語,其次是選用形容詞。確定謂語后,再分析主語、狀語、補(bǔ)語、賓語成分。復(fù)雜句拆分為簡單句處理,處理后的結(jié)果合并為復(fù)雜句。如:主1謂1賓1和主2謂2賓2,如果賓1與主2相同,則合并為主1謂1賓1謂2賓2。
特殊句式為了突出句子某個(gè)成分通過特殊詞語將句子成分之間進(jìn)行交換。通常有把字句、被動(dòng)句、判斷句、連動(dòng)句、兼語句和存現(xiàn)句。
(1)把字句是通過“把”字將賓語提前,并同賓語構(gòu)成狀語。識(shí)別方式為查找“把”前面的主語,后面的賓語和謂語。
(2)被動(dòng)句是通過“被”關(guān)鍵字,將賓語提前到關(guān)鍵字之前,主語置于關(guān)鍵字之后。識(shí)別方式為查找“被”關(guān)鍵字,向前查找賓語,向后查找主語和謂語。
(3)判斷句同普通句式一致,故處理方式按簡單句處理。
(4)連動(dòng)句是存在某種聯(lián)系(如目的、因果、先后等聯(lián)系)的多個(gè)謂語一起組成連動(dòng)短語充當(dāng)句子的謂語。處理方式為將多個(gè)相鄰的謂語合并成一個(gè),成分識(shí)別按簡單句的方式處理。
(5)兼語句是句子某個(gè)詞或短語句子多個(gè)成分,如:“老師讓小明坐最后一個(gè)位置”,其中小明為兼語詞。處理方式為將復(fù)雜句式拆解為多個(gè)簡單句,然后按謂語中樞論觀點(diǎn)識(shí)別句子成分,最后將簡單句進(jìn)行合并。
(6)存現(xiàn)句是表示某個(gè)事物或某個(gè)人的出現(xiàn)、產(chǎn)生、存在和消失的狀態(tài),如:“辦公室坐著個(gè)人”。處理方式同一般句式處理方式一致。
對網(wǎng)頁文本信息經(jīng)過網(wǎng)頁信息抽取、指代消解、詞性合并、特殊句式識(shí)別、簡單句式識(shí)別、句子信息提取和篩選過程。本文利用網(wǎng)頁信息標(biāo)題的特點(diǎn),提取標(biāo)題信息中出現(xiàn)詞頻最高的兩個(gè)詞(下面統(tǒng)稱F詞和S詞),對文本信息篩選有很大幫助。句法分析具體算法實(shí)現(xiàn)如下:
輸入:抽取的網(wǎng)頁文本信息
輸出:文本信息的抽取結(jié)果
步驟:
(1)利用交大分詞對網(wǎng)頁標(biāo)題和正文信息進(jìn)行分詞,并統(tǒng)計(jì)出標(biāo)題的F詞和S詞。
(2)指代消解文本信息,還原代詞指代內(nèi)容。
(3)按詞性合并規(guī)則簡化文本信息中句子結(jié)構(gòu)。
(4)以“。”號(hào)和“;”號(hào)對文本信息分句,舍棄沒有識(shí)別主謂賓的句子,再按上述句式處理規(guī)則先處理特殊句式,后處理一般句式,詞性出現(xiàn)頻率大小查找謂語位置,向前查找主語,向后查找賓語,統(tǒng)計(jì)知網(wǎng)后得出主、賓語查找的順序是名詞、數(shù)詞、代詞。若句子中包含時(shí)間詞則保留時(shí)間詞的位置。
(5)由于以段為單位進(jìn)行文本信息抽取,如果經(jīng)過句法分析的段落沒有包含F(xiàn)詞和S詞,最后存儲(chǔ)某段主旨信息時(shí)格式為“F詞##S詞##標(biāo)題##某段主旨內(nèi)容”。
(6)將所有段落文本主旨信息分析完成后,返回的結(jié)果即為整個(gè)文本的主旨信息。
本文方法在謂語識(shí)別過程與龐文斌等人[7]都結(jié)合中樞論的觀點(diǎn),但使用算法不同,實(shí)驗(yàn)上將同他們的方法效果進(jìn)行比較,文本信息抽取常用評價(jià)標(biāo)準(zhǔn)查全率(也叫召回率,Recall)和查準(zhǔn)率(Precision)進(jìn)行評價(jià),計(jì)算公式如下:
其中,C1表示待提取的信息個(gè)數(shù),C2表示已提取的信息個(gè)數(shù),C3表示提取信息中的正確個(gè)數(shù)。查全率是在網(wǎng)頁總數(shù)的基礎(chǔ)上計(jì)算的,而查準(zhǔn)率則是在已提取信息個(gè)數(shù)基礎(chǔ)上計(jì)算的。
實(shí)驗(yàn)文本集選自1998年1月《人民日報(bào)》標(biāo)注語料庫,隨機(jī)選取里面的文章,以句子為單位統(tǒng)計(jì)其查全率,用公式1。
表1 謂語識(shí)別實(shí)驗(yàn)對比
通過表1對比可知,本文在謂語識(shí)別查全率較高,通過詞性合并能簡化句子成分,有助于謂語的識(shí)別。
通過詞性合并和句式分析提取句子的主旨信息,并能達(dá)到閱讀信息效果,本文對網(wǎng)頁信息抽取的文本集為基準(zhǔn),利用詞性合并的淺層句法分析方法抽取文本主旨信息,分別隨機(jī)抽取100-500個(gè)句子,用公式1和2對最后結(jié)果進(jìn)行評價(jià)。
表2 句子識(shí)別結(jié)果實(shí)驗(yàn)
由實(shí)驗(yàn)結(jié)果可知,利用本文方法對句子主謂賓識(shí)別效果較好,查全率和查準(zhǔn)率都保持在80%以上,能識(shí)別文本信息的主旨信息。同時(shí),也發(fā)現(xiàn)有很多不常見句式和短語對識(shí)別效果產(chǎn)生干擾,后期可對這些問題更加深入研究,這將提升句子識(shí)別的準(zhǔn)確性。