□程子軒 顏成偉 李鋮碩
移動互聯(lián)網(wǎng)時代下,新媒體與大數(shù)據(jù)技術(shù)飛速發(fā)展,以微博、微信、短視頻等形式為代表的新媒體已然成為人們交流、休閑、學習、生活的一部分。微信相繼推出微信公眾平臺、朋友圈、消息推送等功能服務(wù)進一步擴大用戶群體規(guī)模,至今全球已有超過13億微信注冊賬戶。微信公眾平臺憑借龐大的微信用戶群體迅速成為最具影響力的信息傳播媒體平臺之一。然而龐大紛雜的賬號主體直接導(dǎo)致了微信公眾平臺信息質(zhì)量參差不齊、信息過載現(xiàn)象嚴重。因此,如何在海量、雷同的信息海洋中篩選出真正需要和感興趣的內(nèi)容是廣大微信用戶面臨的困擾,更是微信公眾平臺需要關(guān)注并有待解決的問題[1]。
微信公眾平臺的使用場景主要是移動網(wǎng)絡(luò)環(huán)境和智能終端,用戶受到手機、平板電腦等智能終端設(shè)備屏幕較小和閱讀時間碎片化的限制,很難在短時間內(nèi)瀏覽和閱讀幾千字的文章,知識過載和冗余給用戶帶來較差的閱讀體驗和較多的精力投入。因此,微信公眾平臺文本知識摘要生成具有重要作用和意義。
(一)微信公眾平臺文本知識摘要生成能夠提高用戶知識獲取效率。依靠自動化技術(shù)抽取生成概括性知識摘要,一方面能夠?qū)⑽恼聝?nèi)容大幅度縮短,可以給用戶提供判斷是否繼續(xù)閱讀的依據(jù),極大地節(jié)省了用戶的時間和精力,給用戶帶來較好的閱讀體驗。
(二)知識摘要自動化生成能夠提高微信公眾平臺知識重用效率,實現(xiàn)知識整合和序化組織。知識摘要的生成能夠減少和過濾冗余信息,提取文檔中的主要知識和思想觀點,整合多篇文檔中知識資源內(nèi)容,得到完整的高質(zhì)量知識資源,實現(xiàn)知識的重新整合和序化組織。
(三)微信公眾號摘要自動化生成能夠為新興的智能服務(wù)與市場分析方向提供強有力的支撐。微信公眾號摘要自動化生成能夠為微信公眾平臺知識組織與服務(wù)、智能檢索與問答、領(lǐng)域熱點追蹤和分析、行業(yè)咨詢等新興的智能服務(wù)與市場分析方向提供強有力的支撐,具有較高的商業(yè)價值。尤其對于微信公眾平臺推送類的學術(shù)類公眾號媒體,自動化知識摘要生成能夠在很大程度上減少平臺編輯的人力和財務(wù)成本,提升用戶體驗度。目前市場上能夠提供自動化知識摘要的服務(wù)平臺較少,所以從商業(yè)應(yīng)用角度具有一定的研究意義和價值。
(一)微信公眾平臺數(shù)據(jù)形式。微信公眾平臺支持推送消息的形式包括文字、語音、圖片、錄音、圖文消息、名片、視頻等,多種內(nèi)容形式可以同時存在于一條群發(fā)消息中。微信公眾平臺發(fā)布的文章中采用單一媒體形式的較少,以文字為主的圖文消息最為普遍。部分公眾號在文章中插入背景音樂或同步朗讀語音,使內(nèi)容表現(xiàn)形式更加豐富。隨著2020年1月微信視頻號系統(tǒng)內(nèi)測,微信公眾號內(nèi)的視頻發(fā)布逐漸向微信視頻號賬號轉(zhuǎn)移。因此,微信公眾號知識資源的形式主要是以文字配圖片的形式為主,同時包括音頻、視頻等多種媒體形式。
(二)微信公眾號知識類型。按照知識的專業(yè)深度不同,微信公眾號知識資源可分為科普型知識、專業(yè)科普型知識、專業(yè)發(fā)展前沿、專業(yè)知識以及學術(shù)專題型知識等??破招椭R的受眾最為廣泛,大部分公眾號會不定期發(fā)布科普型知識內(nèi)容,對知識普及起到積極宣傳的作用。專業(yè)科普型知識的受眾也十分廣泛,普通微信用戶對此類知識的關(guān)注度根據(jù)專業(yè)所在領(lǐng)域的熱度不同有所差異,如健康、科技、金融等領(lǐng)域?qū)I(yè)科普型知識受關(guān)注較多。相關(guān)領(lǐng)域的垂直類微信公眾號會不定期發(fā)布專業(yè)科普型知識,使微信用戶對感興趣的領(lǐng)域知識有進一步的了解和掌握。專業(yè)發(fā)展前沿、專業(yè)知識和學術(shù)專題等類型的知識由于對微信用戶專業(yè)基礎(chǔ)知識有一定要求,因而受眾相對較少,受眾群體以研究生、高校教師和科研工作者為主。專業(yè)發(fā)展前沿、專業(yè)知識和學術(shù)專題等類型的知識主要由學術(shù)類微信公眾號發(fā)布,這類公眾號的運營主體主要為科研機構(gòu)、學術(shù)期刊、高校圖書館等,一些垂直類公眾號也會少量發(fā)布專業(yè)發(fā)展前沿類知識內(nèi)容。學術(shù)微信用戶通過公眾號能夠掌握前沿的專業(yè)知識內(nèi)容,并通過平臺與其他學者對感興趣的知識內(nèi)容進行交流碰撞。
(三)微信公眾平臺數(shù)據(jù)資源特征。一是微信公眾號知識資源呈現(xiàn)出碎片化特點,適合碎片化閱讀。當前,由于生活節(jié)奏加快,碎片化閱讀已成為移動互聯(lián)網(wǎng)環(huán)境下的主流閱讀模式,而微信公眾號上的知識類型和傳播形式正符合現(xiàn)代人需求和時代發(fā)展趨勢。二是在將專業(yè)的知識內(nèi)容提煉、分解、重組、并深入淺出圖文并茂地演繹出來,對知識資源的質(zhì)量也提出了更高要求。例如,一些學術(shù)期刊公眾號如果單一復(fù)制母刊文章進行發(fā)布,則很難收獲較好的傳播效果,若能將原文基礎(chǔ)上進行二次加工,可以使用戶在短時間內(nèi)掌握論文精華,有效提高閱讀量及微信傳播指數(shù)(WCI)[2]。三是微信公眾號知識資源存在大量信息冗余。微信公眾號數(shù)量眾多,各公眾號專業(yè)水準參差不齊,部分文章原創(chuàng)性不足,內(nèi)容相似的熱點話題文章被不同公眾號頻頻推送的現(xiàn)象隨處可見。大量引用或轉(zhuǎn)載都造成了信息資源的浪費,給用戶閱讀和使用造成了一定的困擾。因此,如何從繁多的消息推送中甄別出有效信息、提高閱讀效率成為微信用戶的迫切需求。
摘要是以提供文獻內(nèi)容梗概為目的,不加評論和補充解釋,簡明、確切地記述文獻重要內(nèi)容的短文,能夠概括和總結(jié)文檔的中心思想和核心內(nèi)容。早在20世紀50年代,自動文本摘要已經(jīng)吸引了人們的關(guān)注。在20世紀50年代后期,Hans Peter Luhn利用詞頻和詞組頻率等特征從文本中提取重要句子,用于總結(jié)內(nèi)容[3]。文本摘要自動化生成是指運用現(xiàn)代計算機的自動化技術(shù)從原始文章中抽取或重新組織生成包含中心內(nèi)容、概要信息或者作者的情感態(tài)度的主題或語義內(nèi)容的句子,并將這些句子按照一定順序形成文章摘要的過程。
自動化摘要生成有多種分類方式。按照研究對象的文檔數(shù)量多少可以分為單文檔自動摘要和多文檔自動摘要。對于微信公眾平臺的知識摘要生成,提取單篇文檔中知識摘要即是單文檔知識摘要生成,提取某一領(lǐng)域知識相關(guān)的多篇文檔中內(nèi)容即是多文檔知識摘要生成。按照生成摘要的用途,可以將自動文檔摘要分為面向信息瀏覽和基于情感態(tài)度分析兩類。有些摘要是為了方便用戶瀏覽文檔的概要信息,有些而是為了分析出文檔中作者的情感態(tài)度。微信公眾平臺自動化摘要生成主要是為了便于用戶查找知識內(nèi)容和概括性瀏覽,因此需要進行面向知識瀏覽的自動化摘要生成。此外,按照自動文檔摘要中是否含有原文中句子可以分為兩類:一類是直接從文章中抽取權(quán)重排序較高的原文句子,不對原文檔中句子進行修改,按照一定順序組織形成文檔摘要,即抽取式方法;另一類是通過對原文的“理解”,組織生成新的語言句子對文檔的主題、概要信息進行融合表達概括,即生成式方法。由于生成式方法形成摘要過程中需要解決語義表示、推理和信息融合等問題,比抽取式方法復(fù)雜、難度大,且抽取式自動文檔摘要生成是從原文中選取關(guān)鍵句組成摘要,在語法、句法上錯誤率低,整體效果優(yōu)于生成式自動文檔摘要。因此,本文采用抽取式方法對微信公眾平臺知識自動化摘要生成開展研究。
采用抽取式方法進行微信公眾號文本自動摘要生成具體分為語料獲取、預(yù)處理、文本特征化、摘要抽取和效果評價五個步驟。
在語料獲取階段是采集微信公眾號發(fā)布的文本數(shù)據(jù),平臺內(nèi)部人員可以直接通過平臺數(shù)據(jù)庫調(diào)取,外部人員可以利用搜狗微信平臺進行數(shù)據(jù)爬取。預(yù)處理階段是將非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化信息,常用操作包括去除標記、分詞、詞性標注、去停用詞等,可以減少噪聲、提升文本質(zhì)量。文本特征化是將自然語言表示為計算機能夠識別處理的特征項,然后再對這些特征進行降維處理。Word2vec模型的出現(xiàn)為文本向量化提供了便利,Word2vec可以根據(jù)給定的語料庫,利用訓練好的模型快速有效地將一個詞語轉(zhuǎn)換成向量表達的形式,為后續(xù)的文本挖掘準備。摘要抽取是核心階段,目前基于圖模型的自動摘要方法比較常用,這種方法是將詞、句子等文本單元以及他們之間的相互關(guān)系作為頂點和邊,建立相應(yīng)的語言網(wǎng)絡(luò)圖模型,并從中識別出重要的句子,相關(guān)算法包括PageRank、LexRank和TextRank等。摘要抽取完成之后是效果檢驗,對于較小的樣本量可以采用Edmundson方法進行文本摘要效果評價方,即計算自動文本摘要與人工摘要的句子平均重合率,對于樣本量較大的可以采用ROUGE方法,包括基于N-gram共現(xiàn)統(tǒng)計的ROUGE-N方法,基于最長公共子序列的ROUGE-L方法,基于對順序詞對統(tǒng)計的ROUGE-S方法等。
自動化摘要技術(shù)作為知識集成組織的重要形式,可以協(xié)助用戶在較短時間內(nèi)快速了解文章內(nèi)容,解決知識過載和知識冗余等帶來的問題,極大地提高用戶閱讀及獲取知識的效率。引入自動生成摘要技術(shù)實現(xiàn)微信公眾平臺知識資源序化組織,能夠有效解決文本知識冗余與人工閱讀能力有限之間的矛盾。