劉 異,趙 輝
(1.南昌鐵路局黨干校 信息教研室,江西 南昌 330002;2.中南大學 信息與網絡中心,湖南 長沙410083)
基礎教育文本資源搜索引擎網頁機器人設計與實現(xiàn)
劉 異1,趙 輝2
(1.南昌鐵路局黨干校 信息教研室,江西 南昌 330002;2.中南大學 信息與網絡中心,湖南 長沙410083)
在基礎教育領域,為方便學生、教師、家長、教育機構等搜索相關教育文本資源,提出了專用于基礎教育文本資源搜集的快速高效的智能化網頁搜索機器人理論。文本自動分類、文獻自動文摘和自動關鍵詞提取是網頁機器人的重要組成部分。由分析Web網頁格式的文檔引出基礎教育文本資源信息挖掘模塊,設計提取關聯(lián)文本信息的算法,研究在搜索引擎中如何通過對互聯(lián)網海量多媒體教育信息的自動抓取、主題檢測、專題聚焦,實現(xiàn)對教育網絡的監(jiān)控和專題的追蹤等功能,以報告及圖表等多種分析結果的形式提供分析依據,設計基礎教育文本監(jiān)控分析系統(tǒng),為提供全面搜索教育網絡服務。
自動分類;自動文摘;自動關鍵詞提??;W eb文檔;搜索引擎;基礎教育資源
讀網時代,越來越多的人使用Internet查找資料輔助工作、學習,網絡充斥著人們日常生活的方方面面。各種搜索引擎從海量互聯(lián)網資源中為用戶檢索到所需的信息,其中有通用型的搜索引擎,如Google、Baidu,也不乏特定型的搜索引擎,如提供基礎教育文本資源搜索服務的網頁機器人。[1]文本監(jiān)控分析系統(tǒng),通過底層索引器將網頁機器人采集到的信息進行分類,建立主目錄、子目錄存儲在索引數據庫中,定時更新數據庫保證數據庫信息與Web內容同步,更新的具體實現(xiàn)通過網頁機器人遍歷指定范圍內的整個Web空間,不間斷地從一個Default.aspx網頁轉到另一個newspage.aspx網頁,從一個站點切換到下一個站點,將采集到的信息更新到數據庫中。
Web2.0時代,數據源形式多樣是互聯(lián)網基礎教育文本資源信息的一個重要特征。除基礎教育新聞、基礎教育BBS論壇等傳統(tǒng)信息源外,出現(xiàn)了基礎教育CastBox、基礎教育 Blog、Wiki、聚合基礎教育新聞等新型的Web2.0信息交互模式,產生的信息量越來越大。而不同信息源中所蘊涵的基礎教育文本資源信息具有重復性或關聯(lián)性,如果網頁機器人分別對這些信息源進行搜索,得到的結果中很大一部分信息可能是重復的,或者相關聯(lián)的信息沒有搜索到,這樣搜索的效率不高。另一方面,傳統(tǒng)的基礎教育文本資源信息采集過程中,添加或更新不同類型的信息源,可能需要調整網頁機器人的采集策略,難以適應Web2.0時代的信息源類型多樣化的特點。因此,有必要對來自不同信息源的基礎教育文本資源信息進行整合和融合。
作為一種新型的基于Web的數據集成技術,Mashup技術[3]是將多個支持WebAPI的不同應用進行堆疊而形成的新型Web服務,它兼容性好,適用于多種不同的外部網絡數據源格式,應用面廣,涵蓋外部公共APIs、XML、RSS、Atom、Feed、Web services、HTML等,具有Web2.0的特點。因此,本系統(tǒng)使用Mashup技術開發(fā)可視化的Mashup工具,供信息搜集人員對多種不同來源的基礎教育文本資源信息進行整合與融合,形成Mashup站點。(如圖1所示)這樣網頁機器人可以從Mashup站點采集各種互聯(lián)網基礎教育文本資源信息,以提高搜索的效率。
信息檢索、內容管理及信息過濾等流程困難重重,各種電子格式的文本文檔數量以指數爆炸性增長,有效的解決辦法是自動處理未分類文檔,判斷它所屬的預定義類別屬于一個或多個類別。根據現(xiàn)有的數學法則,構造出一個能把數據庫中的數據映射到指定類別中的分類函數模型,縮短文本內容檢索、文本數據存儲的處理時間。
圖1 基于Mashup技術的互聯(lián)網輿情信息采集與聚合
分類函數模型的構造有神經網絡分析法、統(tǒng)計方法及機器學習方法等。人工神經網絡分析法主要是針對小規(guī)模識別問題,不適用于大規(guī)模小樣本集群識別問題。[4]支持向量機分類法是萬普尼克等人依據統(tǒng)計學提出的,網頁機器人運行有限條件下小樣本的決策規(guī)則對各個測試集依次進行測試,產生極小誤差。它無需進行迭代運算,優(yōu)于神經網絡分析法,處理數據時局部不會出現(xiàn)極小值。[5]
通常情況下,支持向量機分類法適用于兩個模型的分類,對于多個模型的分類通過完全二叉決策樹的級連式SVM模型構造。假設分類函數模型類別數是M,SVM級數是N,那么N=[log2M],得到級連式SVM分類數據處理能力是2N≥M。三層級連式SVM的分類函數模型如圖2所示。
圖2 三層級連式SVM的分類函數模型
文獻自動文摘就是通過網頁機器人瀏覽原始文獻,自動提取文摘內容。自動文摘是“一份用網頁機器人自動提取文獻內容的縮短的精確表達而無須補充解釋或評論”。[6]自動文摘技術包含文字分詞、句法分析器、詞性注釋工具和自然語義處理等。
自動文摘技術目前有兩種實現(xiàn)方法:[7]一種是基于統(tǒng)計理論的方法,另一種是基于自然語言處理的方法。統(tǒng)計方法直接抽取原始文獻句子組合成文摘內容,而自然語言處理方法則是運用更深層次的機器學習技術如語義分析理解原文,推理出文摘內容,文摘語句與原文并不相同。
組合詞是文章的重要組成部分,包含各類術語、文本關鍵詞、實體命名等。在分詞系統(tǒng)中,組合詞能表達獨立的特定語義,但是容易被誤切分為多個與原文主題意思相悖的詞組。解決方法是根據句子內容、位置、線索詞和用戶偏好等關鍵因素使表達句子含義的組合詞獲取優(yōu)先級別的權重值,消除冗余內容,輸出文獻文摘。下面介紹幾種自動文摘的關鍵技術。
分詞是中文文本處理的第一步。由于網上數字化信息資源的擴增,漢語詞法分析系統(tǒng)內分詞詞典的詞庫量并不完善,詞庫更新速度跟不上資源擴增速度,導致不能智能識別出大規(guī)模的由兩個及兩個以上的詞構成的組合詞。解決方法是:網頁機器人使用基于詞序列頻率有向網的中文組合詞提取算法識別出組合詞。[8]結束識別操作,修正分詞結果,還原那些被分詞系統(tǒng)切碎歪曲文章大意的組合詞。[9]
為了使表達句子含義的組合詞獲取優(yōu)先級別的權重值,需要考慮詞頻、同義詞現(xiàn)象、詞性、詞長、位置等因素因子。詞頻,即詞出現(xiàn)的次數。在統(tǒng)計詞頻之前,先將意思相同或相近的同義詞詞頻合并為一個,再將這些詞頻疊加。同義詞現(xiàn)象在句子中出現(xiàn)的頻率較高,比如多名筆者頻繁用相同的詞表達相同的意思,一筆者頻繁用不同的近義詞表達相同的意思。現(xiàn)代漢語詞性包含兩類14種,其中名詞、名詞性詞組是表達句子中心主題的核心詞,這類組合詞具有較高優(yōu)先級別的權重值。詞長,即詞的字節(jié)長度。實驗表明,關鍵詞容易在4~6個字的詞中產生,故四個或四個以上詞長的詞被賦予更高優(yōu)先級別的權重值。另外,可以通過判斷組合詞的優(yōu)先位置獲取關鍵詞,比如能大致反映核心意思的詞是一篇文章的標題,故位于文章主、副標題的詞是重點排查詞。
句子的內容決定這句話在段落中的重要程度,需要考慮組合詞的權重值、線索詞的權重值、用戶喜好、句子的位置等因素因子。組合詞的權重值,即對各類術語、文本關鍵詞、實體命名等組合詞計算權重值,權重值越高,句子所含信息量越大,句子重要度越高。線索詞是“總而言之”、“綜上所述”等帶有明顯標志的詞和詞組,常用來標識段落中的重要句子。[10]“首先”、“其次”、“最后”等表示段落層次關系的線索詞應當優(yōu)先提取,輸出文摘操作變得簡單,效率大幅度提高。為獲取定制化的文獻自動文摘,使文摘句子投用戶所喜好,網頁機器人需要收集用戶固定喜好的詞集進行權重值計算。而句子的位置重要度一般依據每個段落的第二句話通常為段落的中心主題句,優(yōu)先考慮這句話所包含的重要信息。
為了高效地處理互聯(lián)網海量多媒體教育信息,技術人員在信息采集、資源檢索、文獻自動文摘、文本自動分類、文本信息聚合等方面開展了大量研究,發(fā)現(xiàn)網頁機器人怎樣遍歷文獻提取關鍵詞是做好研究工作的關鍵基石。
關鍵詞描述文章中心主題內容,以滿足不同人群依據個人喜好檢索文本信息。關鍵詞極其精煉的優(yōu)點使它能以極小的計算代價進行文本關聯(lián)性度量,提高進行信息采集、資源檢索、文獻自動文摘、文本自動分類、文本信息聚合等操作的處理效率。文本內容檢索是關鍵詞應用最廣泛的領域。用戶在搜索框內輸入查詢關鍵詞,搜索結果出現(xiàn)全部含有此關鍵詞的網絡文本資源。
“關鍵”的度量與“詞”的選擇是關鍵詞提取技術需要攻克的難點?!瓣P鍵”的度量技術不能應用于短語的現(xiàn)象比比皆是,故對于短語以及未登錄詞這一部分關鍵詞的提取工作困難重重。為此,筆者將關鍵詞提取技術分成兩大部分分析處理,包括單個關鍵詞提取和多個詞串關鍵詞提取。該技術依托分離函數模型的中文關鍵詞提取算法設計出不同的關鍵詞特征,提高關鍵詞抽取的準確度。
關鍵詞提取是典型的多標簽分類問題,技術人員往關鍵詞分類函數模型輸入一組訓練樣本,使用機器學習方法判斷出此模型中的每一個候選詞或詞串是關鍵詞還是非關鍵詞,標注候選詞,接著判斷新的候選關鍵詞,循環(huán)往復執(zhí)行。
前面提到,分詞是中文關鍵詞提取的第一步。需要強調的是,數字、標點符號不是單個候選關鍵詞。詞串在成為候選關鍵詞串之前要進行過濾處理,一般選取1<詞長<5的詞串作為候選詞串,刪除中文詞串中的數字、標點符號等無用字節(jié),而英文候選詞串提取會先把開頭詞、結尾詞過濾掉。
詞串是把一系列的詞按照某種分類方式組合在一起的一串詞,具有鏈式結構特點。不同于傳統(tǒng)意義上的等同,詞與詞串二者有所區(qū)別。因此,筆者針對詞和詞串設計出不同的特征,分開訓練、學習單個關鍵詞樣本集和多個關鍵詞串樣本集,獲取單個關鍵詞模型與多個關鍵詞串模型。然后依次應用這兩個不同的模型對單個候選關鍵詞和多個候選詞串關鍵詞進行判斷,可以往此分離函數模型中任意添加詞與詞串的關鍵特征,效果明顯優(yōu)于不考慮分離的整體函數模型。
因為分離函數模型是分別對詞與詞串構造分類模型,所以對應的模型可以選取不同的關鍵特征。特征TF×IDF使用統(tǒng)計學方法評估單個詞語對文檔集或語料庫中指定文檔的重要程度,實驗表明特征TF×IDF存在一些缺點:
(1)以“詞頻”特征單一衡量單個詞的重要度,重要的詞出現(xiàn)次數不多的情況時有發(fā)生(TF值不高)。
(2)算法不能反映單個詞位置,比如網絡文檔,應結合HTML的結構特征計算權重值。
(3)IDF值簡單,不易調整權重值,不足以反映單個詞的重要度和特征詞的分布情況。
針對TF×IDF不足,另外選取了兩個特征NWT和TF×IF。NWT是一篇文章詞數總數,它被用于解決小型文檔候選關鍵詞TF值不高的問題?!癟F×IF=候選關鍵詞在某份文檔中出現(xiàn)的頻率/候選關鍵詞在整本文檔集中的詞頻數”。TF×IF很好地解決了位置、分布情況的問題。
文本關鍵詞提取流程如圖3所示,包括分部讀取文本、拼接分詞、關鍵詞提取、過濾存儲和權重值計算五大流程。
分部讀取文本是為了賦予標題、起始段、正文和末尾段等段落不同的位置權重。分詞采用漢語詞法分析系統(tǒng),根據共現(xiàn)概率原理(即經常出現(xiàn)在同一個段落的若干詞為共現(xiàn)詞,共現(xiàn)的概率越高,詞與詞相互之間的關聯(lián)就越密切)對分詞結果進行過濾拼接。通過統(tǒng)計海量文本數據,對各詞詞性進行標注發(fā)現(xiàn):虛詞、標點或符號成為關鍵詞的概率幾乎為0,而實詞(如名詞、動詞、形容詞等)成為關鍵詞的概率較高。提取實詞可以消除提取噪音,提高提取速率。提取關鍵詞的同時,對相應詞頻、位置信息、出現(xiàn)文章數等信息進行格式化存儲。
圖3 文本關鍵詞提取流程
關鍵詞提取的存儲過程中可能會出現(xiàn)大量重復的相同詞匯或同義詞數組,故需要進行同義歸并和排重處理。使用詞語自動匹配算法合并相同含義的詞語,并累加相應詞頻數,同一詞語出現(xiàn)在不同的文章里還需要對出現(xiàn)的文章次數進行累加。為了方便統(tǒng)一處理,同義歸并需定義同義詞數組,只要計算機在文章中匹配到同義詞,就用該數組的第一項同義詞詞組替代,累加并統(tǒng)計出相應詞頻數。
結合一定時間內基礎教育話題受關注程度來對話題進行建模:〒=(n,rfi,Di,rdi,α),其中,n表示一定時間范圍內的時間單元個數;rfi是該話題在時間單元i中相關通告的通告頻率;Di是在時間單元i中通告的總數;rdi是話題在時間單元i中的通告天數;α是一個時間單元的天數。采用向量內積計算公式對熱點詞進行權重值計算,設置開關上下限閾值,過濾掉權重值較低的詞匯,獲得文本關鍵詞集,將詞集存放在索引數據庫中。
基礎教育文本資源搜索引擎網頁機器人有著寬廣的前景,在基礎教育產業(yè)必然會獨樹一幟大放異彩,人工智能成為教育技術學學科近年來研究的新熱點。本文提出了基于Mashup的基礎教育文本資源信息挖掘模塊信息采集與整合的方法,介紹了面向互聯(lián)網環(huán)境的基礎教育文本資源搜索引擎網頁機器人的關鍵技術,它是數字媒體技術、自然語言處理、模式識別及機器學習等交叉學科的一個研究方向,具有重要的理論價值和實際應用背景。到目前為止,對基礎教育文本智能化網頁搜索機器人的研究取得了實質性進展,但這僅僅是探索的第一步,網頁機器人理論研究還不成熟,筆者會在今后的科研工作中加強反思、修正和完善,將進一步的研究實踐應用到基礎教育網站中,為基礎教育文本資源網頁搜索服務,提高網頁機器人搜索效率。
[1]程斯輝.試論基礎教育的本質[J].中國教育學刊, 2004(1):15-19.
[2]孫茹.搜索引擎的智能化發(fā)展方向[J].科技傳播, 2015(1):125-129.
[3]潘雪峰,花貴春,梁斌.走進搜索引擎[M].北京:電子工業(yè)出版社,2011.
[4]李曉黎,劉繼敏,史忠植.基于支持向量機與無監(jiān)督聚類相結合的中文網頁分類器[J].計算機學報,2001(1): 62-67.
[5]陳毅松,汪國平,董士海.基于支持向量機的漸進直推式分類學習算法[J].軟件學報,2003(3):451-460.
[6]國際標準ISO 214-1979(E)規(guī)定.[EB/OL].http:// baike.baidu.com/item/.
[7]Ye SR,Chua T S,KarlM Y,et al.Document concept lattice for text understanding and summarization.Information Processing and Management,2007,43(2):1643-1662.
[8]Chen JC,Zheng Q L,Li Q Y,et al.Chinese combined-word detection based on directed net of word-sequence frequency.Application Research of Computers, 2009,26(10):3746-3749.
[9]Institute of computing technology Chinese academy of sciences.ICTCLAS 2009.http://ictclas.org/[2009-4-6].
[10]Guo Y H,Zhong Y X,Ma Z Y,et al.Introduction of the development of automatic summarization.Information Learned Journal,2002,21(5):582-591.Text Basic Education ResourcesSearch EngineW eb Robot.
G202
A
1673-8454(2017)19-0037-04
(編輯:王天鵬)