徐濤(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州 516007)
基于自動(dòng)文本摘要的中文移動(dòng)簡訊系統(tǒng)
徐濤
(惠州學(xué)院計(jì)算機(jī)科學(xué)系,惠州 516007)
如何更加有效地使用移動(dòng)終端設(shè)備瀏覽和查閱網(wǎng)上的海量信息是當(dāng)前信息科學(xué)和移動(dòng)互聯(lián)網(wǎng)領(lǐng)域的研究熱點(diǎn)之一,與傳統(tǒng)的電腦PC平臺(tái)相比,手機(jī)等移動(dòng)終端設(shè)備帶給人們極為便利的通訊環(huán)境[1-4],因此開發(fā)移動(dòng)終端新聞簡訊服務(wù)平臺(tái)具有很高的實(shí)用和商業(yè)價(jià)值。
移動(dòng)終端設(shè)備與傳統(tǒng)的電腦上顯示的新聞?dòng)兴煌阂苿?dòng)終端設(shè)備的網(wǎng)速和屏幕大小明顯受限,因此通常無法將新聞的全文顯示,只能考慮將新聞里面次要、重復(fù)的內(nèi)容刪除,僅保留重點(diǎn)內(nèi)容。如果采用人工手段進(jìn)行簡化摘要雖然可行,但明顯會(huì)造成額外負(fù)擔(dān),如果需要發(fā)布大量新聞,會(huì)極大的影響新聞發(fā)布的進(jìn)度和時(shí)效性,因此采用自動(dòng)文本摘要技術(shù)顯得尤為必要。近年來已經(jīng)出現(xiàn)了一些自動(dòng)文本摘要技術(shù),針對(duì)網(wǎng)頁文檔結(jié)構(gòu)往往組織和結(jié)構(gòu)散亂、包含主題雜亂無章,網(wǎng)頁文檔摘要領(lǐng)域出現(xiàn)了一些較新的自動(dòng)摘要技術(shù),具有代表性的在iOS上運(yùn)行的新聞閱讀類應(yīng)用Summly,采用了自然語義算法,生成的摘要可將原文凝練為不足400詞。
本文設(shè)計(jì)了一個(gè)基于移動(dòng)終端設(shè)備的中文簡訊系統(tǒng),采用自動(dòng)文本分析的方式對(duì)新聞生成摘要,可以有效降低人工成本、提高新聞發(fā)布的時(shí)效。
移動(dòng)簡訊系統(tǒng)的運(yùn)行平臺(tái)如圖1所示,自動(dòng)文本摘要服務(wù)器從互聯(lián)網(wǎng)上對(duì)重要的新聞進(jìn)行數(shù)據(jù)采集,生成原始新聞文本的數(shù)據(jù)文件,然后執(zhí)行文本自動(dòng)摘要算法,生成文本摘要后轉(zhuǎn)發(fā)給各移動(dòng)客戶終端。
圖1 移動(dòng)簡訊系統(tǒng)運(yùn)行平臺(tái)
新聞文本自動(dòng)摘要的工作原理如圖2所示,通過互聯(lián)網(wǎng)對(duì)新聞進(jìn)行采集得到傳統(tǒng)新聞文本數(shù)據(jù),然后進(jìn)行分詞處理得到一組候選詞集合,在候選詞集合中提取特征詞并計(jì)算權(quán)重,得到一組帶權(quán)重的特征詞集合,然后再計(jì)算每個(gè)句子的權(quán)重,得到帶權(quán)重的句子集合,最后計(jì)算句子相似度,過濾多余語句,選擇權(quán)重最高的句子形成新聞?wù)?/p>
圖2 新聞文本自動(dòng)摘要工作流程圖
作為新聞文本摘要來說,特征詞指的是那些最能代表文本主題的詞語,因此選擇一個(gè)有效的方法對(duì)新聞文本中的特征詞進(jìn)行選取顯得尤為必要,許多文獻(xiàn)中已經(jīng)采取各類方法對(duì)特征詞提取以實(shí)現(xiàn)自動(dòng)文本摘要[5-8]。一段新聞文本中出現(xiàn)的大量詞匯基本可分為兩類:功能詞和內(nèi)容詞,其中功能詞不具備實(shí)際意義,又可以認(rèn)為是虛詞,而內(nèi)容詞則具備實(shí)際意義,可認(rèn)為是實(shí)詞。很明顯,一段新聞文本的主要表達(dá)內(nèi)容需要靠實(shí)詞來完成,因此在進(jìn)行特征詞提取時(shí),重點(diǎn)需要考慮去除和過濾虛詞。至于“的、地、得、和、了”這些助詞基本上大量出現(xiàn)在新聞文本中,可將其視為停用詞。本文使用常用的TF-IDF統(tǒng)計(jì)方法實(shí)現(xiàn)特征詞的權(quán)重評(píng)估,具體采用的TF-IDF公式如下:
由于在計(jì)算句子權(quán)重本項(xiàng)目采取的是側(cè)重段落首句和側(cè)重首段落,但是在新聞報(bào)道中首句有可能會(huì)是“某某記者報(bào)道”、“XX網(wǎng)X月X日訊”、“XX社北京X 月X日電”等不對(duì)新聞內(nèi)容有影響的新聞文體首句,所以在處理時(shí)首先將這一類新聞文體首句過濾。在進(jìn)行新聞?wù)且话悴粫?huì)考慮納入疑問句、感嘆句之類句式。
一般來說,新聞的標(biāo)題對(duì)新聞?wù)木哂袠O強(qiáng)的的概括作用,甚至而言,某些重大新聞的標(biāo)題就直接反映了新聞文本的中心思想,因此在進(jìn)行句子權(quán)重計(jì)算的如果結(jié)合標(biāo)題的相似性會(huì)產(chǎn)生更好的效果,具體做法可讓權(quán)重值參考標(biāo)題和句子相似度進(jìn)行加權(quán)。
在漢語表達(dá)的文本中,一個(gè)句子的特征基本可以認(rèn)為具有以下三類:詞特征、語義特征、句法特征。在語句相似度計(jì)算時(shí),需要綜合考慮以上的這三類特征,讓它們進(jìn)行有機(jī)的加權(quán)組合和互相補(bǔ)充。
漢語文本的句子可分為核心部分和修飾部分,核心部分可認(rèn)為是那些能夠句子的語義起至關(guān)重要的作用,通常表現(xiàn)為主謂賓結(jié)構(gòu),而修飾部分則表現(xiàn)為次要,通常表現(xiàn)為定狀補(bǔ)結(jié)構(gòu)。由于主謂賓結(jié)構(gòu)中的主語和賓語往往為名詞或代詞,謂語則多為副詞或形容詞,而因此在進(jìn)行句子相似度計(jì)算時(shí),應(yīng)當(dāng)對(duì)句子中出現(xiàn)的各類詞語進(jìn)行詞性標(biāo)注,然后保留關(guān)鍵詞,過濾掉非關(guān)鍵詞。
本文設(shè)計(jì)了一個(gè)基于移動(dòng)終端設(shè)備的中文簡訊系統(tǒng),使用自動(dòng)文本摘要技術(shù),該系統(tǒng)所有的新聞原文和摘要的形成均在服務(wù)器上執(zhí)行,然后將摘要后的新聞文本推送到到安裝相應(yīng)移動(dòng)端軟件的移動(dòng)終端設(shè)備上??梢詽M足各類即時(shí)新聞的快捷簡訊發(fā)布,節(jié)省人力資源,可以推廣到各類企事業(yè)單位公共信息傳播平臺(tái)使用。
[1]茆意宏.移動(dòng)信息服務(wù)的內(nèi)涵與模式[J].情報(bào)科學(xué),2012,30(2):210-215.
[2]茆意宏.面向用戶需求的圖書館移動(dòng)信息服務(wù)[J].中國圖書館學(xué)報(bào),2012,38(1):76-86.
[3]楊超,陳璐.基于手機(jī)短信的訂餐系統(tǒng)設(shè)計(jì)與開發(fā)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(2):472-476.
[4]劉慧,張軍.基于Internet的移動(dòng)短信互通設(shè)計(jì)方案[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(31):5-8.
[5]江開忠,李子成,顧君忠.自動(dòng)文本摘要方法[J].計(jì)算機(jī)工程,2008,34(1):221-223.
[6]馬漢華,邵志清,過弋.基于認(rèn)知心理學(xué)模型的自動(dòng)文本摘要生成技術(shù)[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,35(6):886-891.
[7]余永紅,柏文陽.基于特征項(xiàng)權(quán)重自動(dòng)分解的文本聚類[J].計(jì)算機(jī)工程,2011,37(11):25-27.
[8]張虹.基于自動(dòng)文本分類的關(guān)鍵詞抽取算法[J].計(jì)算機(jī)工程,2009,35(12):145-147.
Mobile Newsletters;Mobile Messaging;Mobile Devices;Automatic Text Summarization
A Chinese Mobile SMS System Based on Automatic Text Summarization
XU Tao
(Department of Computer Science,Huizhou University,Huizhou 516007)
1007-1423(2015)30-0003-03
10.3969/j.issn.1007-1423.2015.30.001
徐濤(1974-),男,山東淄博人,副教授,博士學(xué)位,研究方向?yàn)橐苿?dòng)互聯(lián)網(wǎng)信息技術(shù)和信息安全技術(shù)
2015-09-01
2015-09-25
設(shè)計(jì)一個(gè)基于自動(dòng)文本摘要的中文移動(dòng)簡訊系統(tǒng),采用自動(dòng)文本分析的方式對(duì)互聯(lián)網(wǎng)上的新聞信息進(jìn)行加工提煉后生成摘要,然后推送到移動(dòng)終端設(shè)備,可以有效地降低人工成本、提高新聞發(fā)布的時(shí)效。
移動(dòng)簡訊;移動(dòng)短信;移動(dòng)終端設(shè)備;自動(dòng)文本摘要
2013年惠州市科技計(jì)劃項(xiàng)目(No.2013W20)、惠州學(xué)院2014年度教研教改項(xiàng)目(No.JG2014011)、惠州市科技計(jì)劃項(xiàng)目(No.2013W12)
Presents a Chinese mobile SMS system based on automatic text summarization,generates a summary of news and information which collect from the Internet after refining procedure then push it to the mobile device.Automatic text summarization can effectively reduce labor costs and improve the timeliness of the news release.