張?bào)愕ぃ?胡學(xué)鋼
(1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽合肥 230009;2.安徽農(nóng)業(yè)大學(xué)信息與計(jì)算機(jī)學(xué)院,安徽合肥 230036)
隨著信息技術(shù)的飛速發(fā)展和互聯(lián)網(wǎng)的普及,文本資源呈現(xiàn)出幾何級(jí)的增長。但是,網(wǎng)絡(luò)上的信息量大,更新速度快,用戶很難迅速地找出目標(biāo)信息。自動(dòng)文摘是繼信息檢索之后信息或知識(shí)獲取的一個(gè)重要步驟,對(duì)高質(zhì)量的文檔文摘十分重要[1]。自動(dòng)文摘是利用計(jì)算機(jī)從文章中自動(dòng)提取內(nèi)容生成摘要的方法,其中摘要應(yīng)包含原文的核心內(nèi)容或用戶感興趣的內(nèi)容,并以語意連貫的段落乃至篇章的形式輸出[2]。因此,自動(dòng)摘要是文本信息處理中重要的基礎(chǔ)性工作。
自動(dòng)文摘系統(tǒng)的研究起源于20世紀(jì)50年代末,文獻(xiàn)[3]提出了可以用計(jì)算機(jī)進(jìn)行文獻(xiàn)的壓縮。我國對(duì)中文自動(dòng)文摘的研究起步較晚,1985年才有學(xué)者正式撰文介紹國外自動(dòng)文摘方面的研究情況。20世紀(jì)80年代有學(xué)者將人工智能中一些理論應(yīng)用在自動(dòng)摘要中,90年代開始基于統(tǒng)計(jì)的自然語言處理方法再次興起,受此影響,自動(dòng)摘要系統(tǒng)中統(tǒng)計(jì)方法的研究逐漸增多[4]。自動(dòng)摘要技術(shù)總體上分為2類:基于機(jī)械統(tǒng)計(jì)的方法和基于知識(shí)理解的方法。
基于機(jī)械統(tǒng)計(jì)的方法[5,6]利用統(tǒng)計(jì)信息獲取文檔的關(guān)鍵詞,并結(jié)合提示詞、位置等啟發(fā)信息,從文檔中挑選出一些合適的句子,進(jìn)行潤色后得到文檔的摘要。機(jī)械統(tǒng)計(jì)方法具有速度快、領(lǐng)域不受限的特點(diǎn),但生成的摘要質(zhì)量較差,存在反映內(nèi)容不夠全面以及語句冗余等問題?;谥R(shí)理解的方法[7,8]利用各種知識(shí)和形式化理論,在理解文檔語義內(nèi)容的基礎(chǔ)上生成文摘(對(duì)原文的概括或濃縮)。與機(jī)械統(tǒng)計(jì)方法相比,理解摘要質(zhì)量較好,具有簡潔精煉、全面準(zhǔn)確及可讀性強(qiáng)等優(yōu)點(diǎn)。但是,理解摘要不僅要求計(jì)算具有自然語言理解和生成能力,還需要表達(dá)和組織各種背景、領(lǐng)域知識(shí)。這些工作的難度十分巨大,迄今為止進(jìn)展甚微。
本文針對(duì)以上2類方法存在的不足,提出了一種利用向量空間模型進(jìn)行冗余處理的自動(dòng)摘要方法。該方法以統(tǒng)計(jì)為基礎(chǔ),利用向量空間模型解決語句冗余問題,有效提高了摘要質(zhì)量,同時(shí)設(shè)計(jì)了一個(gè)中文自動(dòng)摘要系統(tǒng)。
向量空間模型(Vector Space M odel,簡稱VSM)是一種較著名的用于文檔表示的統(tǒng)計(jì)模型,該模型以特征項(xiàng)做為文檔表示的基本單位,特征項(xiàng)可以由字詞或短語組成。每一個(gè)文檔可以看成是由特征項(xiàng)組成的n維特征向量空間的一個(gè)向量,即
其中,W i為第i個(gè)向量T i在文檔中的權(quán)重,一般選詞做特征項(xiàng)比選字做為特征項(xiàng)要好一些。最初的特征向量表示完全用0和1表示,如果文本中出現(xiàn)了該詞則文本向量的維為1,否則為0。這種方法無法體現(xiàn)這個(gè)詞在文本中的作用程度,所以0和1被更精確的詞頻代替。一般使用TF-IDF公式計(jì)算特征項(xiàng)權(quán)重,其中TF(Term Frequency,簡稱TF)表示詞頻,IDF(Inverse Docum ent Frequency,簡稱IDF)表示逆文檔頻率,反映文檔集合中出現(xiàn)該特征項(xiàng)的文檔數(shù)目的頻率,TF-IDF權(quán)重的計(jì)算公式為:其中,W(t,d)為詞t在文本d中的權(quán)重;tf(t,d)為詞t在文本d中的詞頻;N為訓(xùn)練文本的總數(shù);nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù);分母為歸一化因子。
在自動(dòng)摘錄中,計(jì)算詞權(quán)、句權(quán)和選擇文摘句的依據(jù)是文本的6種形式特征:
(1)詞頻。能夠指示文章主題的所謂有效詞(SignificantWords)往往是中頻詞。根據(jù)句子中有效詞的個(gè)數(shù)可以計(jì)算句子的權(quán)值,文獻(xiàn)[3]首先提出了自動(dòng)摘錄方法的基本依據(jù)。分析文章時(shí),往往需要統(tǒng)計(jì)詞語出現(xiàn)的頻率,因?yàn)槲恼轮幸话愠霈F(xiàn)頻率高的詞語能表示文章的中心內(nèi)容。
(2)標(biāo)題。標(biāo)題是作者給出的提示文章內(nèi)容的短語,借助停用詞詞表(Stoplist),在標(biāo)題或小標(biāo)題中剔除功能詞或只具有一般意義的名詞,剩下的詞和原文內(nèi)容往往有緊密的聯(lián)系,可以作為有效詞。由于新聞報(bào)道的特殊性,新聞標(biāo)題一般更簡潔,與新聞報(bào)道的內(nèi)容聯(lián)系更緊密,對(duì)摘要的生成起重要作用。
(3)位置。句子的位置可以指句子在文章中的位置、在段落中的位置或在章節(jié)中的位置。一般地,一篇文章中的首句、末句,每個(gè)段落中的首句、末句等都是和句子中心內(nèi)容緊密相關(guān)的,因此,有必要提高處于特殊位置的句子的權(quán)值。
(4)線索詞。線索詞是指能提示文章主題出現(xiàn)的詞,如“總的來說”。另外,專有名詞如人名、機(jī)構(gòu)名等也可看作是線索詞。包含線索詞的句子在分析時(shí)應(yīng)給予一定的重視。
(5)句法結(jié)構(gòu)。句式與句子的重要性之間存在著某種聯(lián)系,如文摘中的句子大多是陳述句,而疑問句、感嘆句等則不宜進(jìn)入文摘。
(6)指示性短語。1977年,英國Lancaster大學(xué)的Paice提出根據(jù)各種“指示性短語”來選擇文摘句的方法[9]。和線索詞相比,指示性短語的可靠性要強(qiáng)得多。
對(duì)新聞網(wǎng)頁過濾后的文本首先進(jìn)行分詞,根據(jù)句子中詞語的重要性以及句子的位置,抽取文本的初始文摘,將初始文摘中的句子表示成向量形式,利用向量空間模式中計(jì)算2個(gè)向量相似度的公式,計(jì)算原始文摘中句子的相似性,去除相似性比較大的冗余句子,從而得到自動(dòng)摘要的冗余處理。
假設(shè)原文中包含的詞為W1,W2,…,Wn,則每個(gè)句子都可以表示為n維向量:T=〈T1,T2,…,Tn〉。Ti(1≤i≤n)的計(jì)算方法為:設(shè)n為W i在這個(gè)句子中出現(xiàn)的個(gè)數(shù),m為其它所有句子中含有Wi的句子的個(gè)數(shù),M為句子的總數(shù),那么Ti=n log(M/m)。
用同樣的方法[10],可以計(jì)算目標(biāo)句子的n維向量T′=〈T′1,T′2,…,T′n〉。2個(gè)句子T和T′之間的相關(guān)程度常常用它們的相似度Sim(T,T′)來度量。在向量空間模型下,借助向量之間的夾角余弦值來表示文本間的相似度,即
利用(2)式計(jì)算出2個(gè)句子的相似度,當(dāng)相似度達(dá)到給定閾值,說明句子之間的相似度很大,存在冗余,將其中權(quán)值較小的句子從文摘中刪除,進(jìn)而達(dá)到去除冗余的目的。
算法:基于向量空間模型文本摘要的自動(dòng)生成。
輸入:新聞網(wǎng)頁URL地址;生成摘要的百分比;原文最小長度閾值。
(1)對(duì)原始新聞網(wǎng)頁進(jìn)行預(yù)處理,過濾掉其中存在的一些廣告鏈接、導(dǎo)航鏈接或圖片信息等。在進(jìn)行自動(dòng)摘要之前首先要對(duì)Web新聞網(wǎng)頁進(jìn)行前期處理工作,去除頁面中無用信息,保留文檔正文。
(2)對(duì)抽取出來的正文文本長度進(jìn)行統(tǒng)計(jì),如果原文長度超過給定的閾值,則對(duì)原文進(jìn)行分詞處理。如果正文長度不超過設(shè)定的閾值,則不再進(jìn)行分詞等操作,直接將原文作為文摘結(jié)果輸出。
(3)按(3)式計(jì)算詞語ti在文檔d中的TFIDF i值,從高到低抽取若干詞語作為原文的關(guān)鍵詞,即
其中,t fi為詞語ti在文檔d中出現(xiàn)的頻率;N為所有文檔的數(shù)目;ni為包含詞語ti的文檔數(shù)目;分母是歸一化因子。
(4)根據(jù)標(biāo)題關(guān)鍵詞、抽取的關(guān)鍵詞、句子的位置信息計(jì)算句子的權(quán)值,按權(quán)值大小排序,選取權(quán)值高的若干句子作為初始文摘句。
(5)原始文摘中句子表示成向量形式,計(jì)算任意2個(gè)句子的相似度,刪除相似度高的冗余句,得到原文的最終摘要句。
由于文檔摘要所具有的不確定性,因此在摘要質(zhì)量的評(píng)估上缺乏比較理想的定量評(píng)估方法。對(duì)自動(dòng)摘要的結(jié)果進(jìn)行自動(dòng)評(píng)估成為一個(gè)難題,目前還沒有比較理想的定量評(píng)價(jià)方法能進(jìn)行自動(dòng)評(píng)估,所以一般用人工摘要結(jié)果與之相比較,而摘要評(píng)估方法采用主觀評(píng)價(jià)和客觀評(píng)價(jià)2種。
3.1.1 主觀評(píng)價(jià)
本文探討了基于HPLC-DAD稻谷中葉黃素的提取方法,通過單因素試驗(yàn)確定了各個(gè)因素的最佳條件。應(yīng)用響應(yīng)曲面法對(duì)四氫呋喃用量、KOH甲醇溶液質(zhì)量濃度和提取溫度三個(gè)因素進(jìn)行優(yōu)化,建立具有良好擬合度的回歸模型,得到最佳的提取方法為四氫呋喃用量15.5mL、KOH甲醇溶液質(zhì)量濃度0.1g/mL、提取溫度51℃,稻谷中葉黃素提取量為(1.63±0.03)μg/g。該方法縮短了反應(yīng)時(shí)間,避免了游離葉黃素的分解和異構(gòu)化,具有較好的重復(fù)性。
主觀評(píng)價(jià)包括:①完全性,即摘要是否能完全反映文檔的主要內(nèi)容,是否有遺漏;②冗余性,即句子不能有重復(fù);③可讀性和可理解性,即文摘句前后連貫,意義相承,語句流暢。
本系統(tǒng)生成的文摘屬于機(jī)械性文摘,所以可讀性和可理解性要差些。由于是按照段落抽取文摘,能保證其完全性;根據(jù)文中提到的句子相似度計(jì)算,去除文摘中的冗余,可以保證文摘句子沒有重復(fù)。
3.1.2 客觀評(píng)價(jià)
一般用準(zhǔn)確率和召回率來衡量摘要的質(zhì)量,兩者的數(shù)值越高說明摘要的質(zhì)量越好。假設(shè)自動(dòng)摘要出的句子集為X,人工摘要出的句子集為Y,則準(zhǔn)確率和召回率可采用以下方法進(jìn)行計(jì)算。
(1)準(zhǔn)確率(P)。它是自動(dòng)摘要結(jié)果中屬于應(yīng)摘出的句子數(shù)目和自動(dòng)摘出的所有句子數(shù)目的比值,即
(2)召回率(R)。它是自動(dòng)摘要結(jié)果中屬于應(yīng)摘出的句子數(shù)目和應(yīng)該摘出的句子數(shù)目的比值,即
如某篇文章在文摘長度占文章比例10%時(shí),系統(tǒng)抽取出文摘句子數(shù)為8句,該文章的專家文摘抽取的句子數(shù)量為12句,同時(shí)存在于文摘系統(tǒng)和專家文摘句中的句子數(shù)量為5句,則系統(tǒng)在該文章的文摘長度為10%時(shí),有
實(shí)驗(yàn)的測試語料集來源于網(wǎng)易163網(wǎng)站http://new s.163.com.cn上抓取的新聞,涵蓋了軍事、科技、體育等10個(gè)類別的文檔集,在每個(gè)類別中隨機(jī)抽取10篇新聞,這樣共得到10個(gè)類別的500篇文檔。
測試文檔類的類名及其包含的文檔數(shù)目,見表1所列。
表1 文本摘要測試數(shù)據(jù)集
在硬件環(huán)境CPU Celeron1.7 GH z,內(nèi)存512 M;軟件環(huán)境W indow s XP,Java6.0上實(shí)現(xiàn)了自動(dòng)文摘系統(tǒng)。文本平均測評(píng)參數(shù),見表2所列。此摘要系統(tǒng)的質(zhì)量雖然不能和人工摘要質(zhì)量相比,但處理速度還是令人滿意的。
表2 自動(dòng)文摘評(píng)價(jià)參數(shù)
從表2可以看出,隨著抽取摘要長度比例的增加,準(zhǔn)確率呈下降趨勢,而召回率呈上升趨勢。這是因?yàn)殡S著抽取摘要長度的增加,抽取的文摘句數(shù)也增加,抽取的句子數(shù)增加的趨勢大于抽取的文摘句增加的趨勢,所以準(zhǔn)確率有所下降;原文實(shí)際的文摘句始終保持不變,所以準(zhǔn)確率呈上升趨勢。
Internet上的文本自動(dòng)摘要是一個(gè)涉及多學(xué)科領(lǐng)域知識(shí)的應(yīng)用技術(shù),而中文分詞技術(shù)有待進(jìn)一步突破;網(wǎng)頁中結(jié)構(gòu)化信息的比例增大,雖然有助于自動(dòng)摘要的質(zhì)量提高,但最根本的還是文本理解技術(shù)要有本質(zhì)性的突破。針對(duì)Internet上新聞網(wǎng)頁的特征,本文提出了一套新的自動(dòng)摘要方案:首先將新聞網(wǎng)頁預(yù)處理,過濾掉其中的噪音;然后對(duì)文本內(nèi)容進(jìn)行分詞及提取關(guān)鍵詞,生成初步文摘;最后對(duì)文摘進(jìn)行冗余處理,生成文字流程且具備一定質(zhì)量的文摘。
理論和實(shí)驗(yàn)結(jié)果表明,該方法具有不受領(lǐng)域限制、摘要內(nèi)容全面及摘要比例可調(diào)等優(yōu)點(diǎn)。在今后的工作中,將進(jìn)一步提高文摘生成的速度,適當(dāng)利用一些自然語言理解技術(shù)來改進(jìn)文摘的質(zhì)量,從而提高Web文摘生成系統(tǒng)的性能。
[1] 江開忠,李子成,顧君忠.自動(dòng)文本摘要方法[J].計(jì)算機(jī)工程,2008,34(1):221-223.
[2] 官禮和.Internet網(wǎng)絡(luò)新聞文本自動(dòng)摘要的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(14):3518-3521.
[3] Luhn H P.The automatic creation of literatu re abstracts[J].IBM Jou rnal of Research and Developm ent,1958,2(2):159-165.
[4] 尹存燕,戴新宇,陳家駿.Internet上文本的自動(dòng)摘要技術(shù)[J].計(jì)算機(jī)工程,2006,32(3):88-90.
[5] 王文欣,黃萱菁.基于統(tǒng)計(jì)方法的漢語自動(dòng)文摘系統(tǒng)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2000,17(9):28-33.
[6] 王永成,許慧敏.OA-1.4版中文自動(dòng)摘要系統(tǒng)[J].高技術(shù)通訊,1998,(1):19-23.
[7] 吳 巖,劉 挺.中文自動(dòng)文摘原理與方法初探[J].中文信息學(xué)報(bào),1998,12(2):8-16.
[8] 孫春葵,李 蕾.基于知識(shí)的文本摘要系統(tǒng)研究與實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2000,37(7):874-881.
[9] Mathis B A,Rush JE.Abstracting en cyclopedia of compu ter and technology[M].New York:Marcel Dekker Inc,1975:102-142.
[10] 秦 兵,劉 挺,王 洋,等.基于常問問題集的中文問答系統(tǒng)研究[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2003,35(10):1179-1182.