徐濤
(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州 516007)
校園中文訊息自動摘要系統(tǒng)
徐濤
(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州516007)
近年來,基于手機(jī)之類移動終端的信息傳遞和發(fā)布成為移動終端App市場的一類重要應(yīng)用[1-4],人們開始習(xí)慣于在手機(jī)上獲取和閱讀信息。在大學(xué)或中學(xué)校園內(nèi),很多重要文件、新聞等都需要及時由校方轉(zhuǎn)發(fā)給廣大師生員工,手機(jī)等移動通訊工具由于便于隨身攜帶,因此面向移動手機(jī)端的訊息轉(zhuǎn)發(fā)顯得尤為必要,雖然現(xiàn)在已經(jīng)出現(xiàn)了諸如“校訊通”之類的校園移動通訊軟件,但需要注意的是,這些軟件并不具備自動文本摘要功能。手機(jī)之類移動設(shè)備的網(wǎng)速和屏幕大小明顯受限,一般情況下不能保留文件和新聞的全文,那些次要、重復(fù)的內(nèi)容只能選擇拋棄。目前很多校園通訊軟件采用人工操作來實(shí)現(xiàn)重要文件或新聞的內(nèi)容簡化,這樣做雖然可行,但明顯會造成額外負(fù)擔(dān),假如面臨大量的重要文件或新聞需要及時進(jìn)行發(fā)布時,采用手工操作將嚴(yán)重影響發(fā)布進(jìn)度和時效性,因此采用自動文本摘要技術(shù)顯得尤為必要。
近年來已經(jīng)出現(xiàn)了一些自動文本摘要技術(shù),針對網(wǎng)頁文檔結(jié)構(gòu)往往組織和結(jié)構(gòu)散亂、包含主題雜亂無章,網(wǎng)頁文檔摘要領(lǐng)域出現(xiàn)了一些較新的自動摘要技術(shù),具有代表性的在iOS上運(yùn)行的新聞閱讀類應(yīng)用Summly,采用了自然語義算法,生成的摘要可將原文凝練為不足400詞。
本文設(shè)計(jì)了一個用于大學(xué)或中學(xué)校園使用的中文訊息自動文本摘要系統(tǒng),采用自動文本分析的方式對校方需要轉(zhuǎn)發(fā)的重要文件或新聞生成摘要,可以節(jié)約人力成本,并能明顯提高發(fā)布時效。
整個系統(tǒng)的平臺架構(gòu)如圖1所示。重要的文件和新聞先經(jīng)過采集匯總到服務(wù)器上,服務(wù)器使用文本自動摘要技術(shù)快速將新聞文本壓縮成一段較短的精煉后文本摘要(一般控制在300字以下),摘要生成后利用互聯(lián)網(wǎng)發(fā)布到各個安裝了該應(yīng)用客戶端程序的智能手機(jī)上(包括Android手機(jī)和蘋果的iOS手機(jī)),而移動手機(jī)端的應(yīng)用程序App則根據(jù)接收的內(nèi)容,自動生成校園訊息列表,用戶可以通過閱讀壓縮后的文本摘要,萬一感興趣,還可以點(diǎn)擊源鏈接去訪問原文。
文本的自動摘要技術(shù)為本系統(tǒng)中的核心關(guān)鍵技術(shù),重要的文件或新聞都需要按照一系列的處理步驟來完成文本摘要并轉(zhuǎn)發(fā),包括中文分詞、特征詞的提取和計(jì)算權(quán)重、句子權(quán)重計(jì)算、句子相似度計(jì)算并過濾和形成最終摘要這樣的步驟進(jìn)行。
圖1 校園中文訊息系統(tǒng)運(yùn)營平臺
2.1中文分詞
分詞處理為提前和生成特征詞序列的必要前提工作,只有通過有效、準(zhǔn)確的分詞方案,才能夠形成候選特征詞。眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。把中文的漢字序列切分成有意義的詞,就是中文分詞。
目前在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的處理方法中文不能直接采用,究其原因則是中文必需有分詞這道工序。中文分詞是其他中文信息處理的基礎(chǔ),自動摘要,搜索引擎等只是中文分詞的一個應(yīng)用。
為了可以快速有效的進(jìn)行分詞處理,本系統(tǒng)采用了目前較為流行的分詞方案——ICTCLAS,該技術(shù)由中科院計(jì)算所研制,主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識別、新詞識別等。
2.2特征詞和句子的權(quán)重計(jì)算
特征詞指的是能夠反映文件或新聞文本主題的詞語,目前提出的方法大多通過計(jì)算文本分詞后的每個詞的權(quán)重,選取權(quán)重較大的詞語作為特征詞[5-8]。特征詞選取后主要用于在最后選取摘要句時句子的權(quán)重計(jì)算中用到,用于計(jì)算摘要句子能反映主題的權(quán)重值。
本系統(tǒng)在計(jì)算特征詞的權(quán)重值時只考慮名詞和動詞,原因?yàn)樵谖谋镜脑~語組成結(jié)構(gòu)中主要包括沒有實(shí)際意義的功能詞和有實(shí)際意義的內(nèi)容詞,而內(nèi)容詞在表達(dá)文章時起主要作用,主要體現(xiàn)為名詞和動詞。為了衡量詞語權(quán)重,本系統(tǒng)采用了TF-IDF算法,該算法為一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),可以判斷某個字詞在一個文件集或一個語料庫中的重要程度,字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級。
本系統(tǒng)中所生成的摘要為由原文本中最能代表全文主題的句子組成,可簡稱為主題摘要句,它們通常為權(quán)重最大的前若干個句子(最能體現(xiàn)主題),根據(jù)這些句子在原文中出現(xiàn)的位置再次排列組成最終的新聞?wù)?/p>
計(jì)算句子的權(quán)重時除了要考慮它所包含的特征詞(即句子所包含的詞語對文本影響較大)權(quán)重,還要考慮句子在原文和段落中出現(xiàn)的位置,另外標(biāo)題詞也會對句子權(quán)重產(chǎn)生影響。所以影響句子權(quán)重的因素包括:(1)特征詞的加權(quán)平均值;(2)句子包含特征詞的數(shù)量;(3)句子出現(xiàn)的位置權(quán)重比例因子(包含在全文中出現(xiàn)的位置權(quán)重比例因子和在單獨(dú)段落中出現(xiàn)的位置權(quán)重比例因子);(4)特殊標(biāo)記比重比例因子(如句子中含有像“總的來說”、“綜上所述”、“總而言之”這類型指示性詞語的句子);(5)與標(biāo)題出現(xiàn)重合的句子需要增加權(quán)重。
2.3計(jì)算句子相似度并過濾多余句子
在漢語表達(dá)的文本中,一個句子的特征基本可以認(rèn)為具有以下三類:詞特征、語義特征、句法特征。在語句相似度計(jì)算時,需要綜合考慮以上的這三類特征,讓它們進(jìn)行有機(jī)的加權(quán)組合和互相補(bǔ)充。
漢語文本的句子可分為核心部分和修飾部分,核心部分可認(rèn)為是那些能夠句子的語義起至關(guān)重要的作用,通常表現(xiàn)為主謂賓結(jié)構(gòu),而修飾部分則表現(xiàn)為次要,通常表現(xiàn)為定狀補(bǔ)結(jié)構(gòu)。由于主謂賓結(jié)構(gòu)中的主語和賓語往往為名詞或代詞,謂語則多為副詞或形容詞,而因此在進(jìn)行句子相似度計(jì)算時,應(yīng)當(dāng)對句子中出現(xiàn)的各類詞語進(jìn)行詞性標(biāo)注,然后保留關(guān)鍵詞,過濾掉非關(guān)鍵詞。
本文設(shè)計(jì)了一個基于自動文本摘要技術(shù)的校園訊息發(fā)布系統(tǒng),可以將校方需要轉(zhuǎn)發(fā)的重要文件或新聞采集匯總后,在服務(wù)器端進(jìn)行自動文本摘要,然后轉(zhuǎn)發(fā)給安裝有客戶端App的各類型移動手機(jī),可以滿足校園學(xué)習(xí)工作生活中的訊息發(fā)布的需要,節(jié)省了人工摘要的成本,有效提高發(fā)布的時效性。
[1]茆意宏.移動信息服務(wù)的內(nèi)涵與模式[J].情報(bào)科學(xué),2012,30(2):210-215.
[2]茆意宏.面向用戶需求的圖書館移動信息服務(wù)[J].中國圖書館學(xué)報(bào),2012,38(1):76-86.
[3]楊超,陳璐.基于手機(jī)短信的訂餐系統(tǒng)設(shè)計(jì)與開發(fā)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(2):472-476.
[4]劉慧,張軍.基于Internet的移動短信互通設(shè)計(jì)方案[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(31):5-8.
[5]江開忠,李子成,顧君忠.自動文本摘要方法[J].計(jì)算機(jī)工程,2008,34(1):221-223.
[6]馬漢華,邵志清,過弋.基于認(rèn)知心理學(xué)模型的自動文本摘要生成技術(shù)[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,35(6):886-891.
[7]余永紅,柏文陽.基于特征項(xiàng)權(quán)重自動分解的文本聚類[J].計(jì)算機(jī)工程,2011,37(11):25-27.
[8]張虹.基于自動文本分類的關(guān)鍵詞抽取算法[J].計(jì)算機(jī)工程,2009,35(12):145-147.
Campus Message;Mobile Phone;Text Forwarding;Automatic Text Summarization
A Campus Chinese Message System Based on Automatic Summarization
XU Tao
(Department of Computer Science,Huizhou University,Huizhou 516007)
1007-1423(2015)32-0036-03
10.3969/j.issn.1007-1423.2015.32.009
徐濤(1974-),男,山東淄博人,副教授,博士,研究方向?yàn)橐苿踊ヂ?lián)網(wǎng)信息技術(shù)和信息安全技術(shù)
2015-10-13
2015-11-05
隨著移動手機(jī)在校園內(nèi)的普及使用,在手機(jī)上閱讀來自學(xué)校的文件、新聞成為師生們獲取學(xué)校信息的重要來源。由于學(xué)校的文件和新聞通常包含大量的文本,在手機(jī)端閱讀非常不便,若采用人工摘要明顯會增加人力成本,并且會產(chǎn)生延遲,因此有必要采用自動摘要技術(shù)對訊息進(jìn)行加工精煉后轉(zhuǎn)發(fā)到移動手機(jī)端。設(shè)計(jì)一個基于自動文本摘要的校園中文訊息系統(tǒng),采用自動文本分析的方式對文件或新聞進(jìn)行加工提煉后生成摘要,然后推送到校園內(nèi)的移動手機(jī),在節(jié)約人力的同時,能夠提高文件和新聞發(fā)布的時效。
校園訊息;移動手機(jī);文本轉(zhuǎn)發(fā);自動文本摘要
2013年惠州市科技計(jì)劃項(xiàng)目(No.2013W20、No.2013W12)、惠州學(xué)院2014年度教研教改項(xiàng)目(No.JG2014011)、惠州學(xué)院應(yīng)用型人才培養(yǎng)示范專業(yè)(No.SZ2012001)
With popular use of mobile phones at campus,reading files and news from the school on the phone has become an important source of teachers and students to get school information.Because the school's files and news usually contain a lot of text,reading them on the phone side is very inconvenient.Since artificial abstract would significantly increase labor costs and may cause delay,it's necessary to use automatic summarization technology for refining messages.Proposes a campus information system based Chinese automatic text summarization.The abstracts of messages are generated after automatic text analysis,and then pushed to mobile phones on campus.While saving manpower,it can improve the timeliness of the files and news release.