吳大慶 郭向陽 馬盡文
摘 要:隨著互聯(lián)網和移動通信技術的日益普及和成熟,教育行業(yè)正在向著信息化的方向快速發(fā)展,例如在線課堂、慕課等新的教學形式已改變了原有的教育形態(tài)。與此同時,人工智能技術的大量運用,使得教育信息化不再滿足于形式的創(chuàng)新,而是更重視教育數據的采集和挖掘,提高教育的針對性和智能化,產生了所謂的智慧教育。實際上,智慧教育更多地體現在從教育相關的數據中挖掘到新的教育理念,學習到重要的模式與方法,與數據挖掘技術密切相關。本文首先介紹文本挖掘的理論與方法,并進一步討論如何將其應用到智慧教育中,且以教育類新聞主題挖掘和在線課堂的智能化作為實例展示和證明了文本挖掘對智慧教育的發(fā)展能夠起到至關重要的作用。
關鍵詞:智慧教育;文本挖掘;機器學習;深度學習;主題發(fā)現
中圖分類號:G4 文獻標志碼:A 文章編號:2096-0069(2020)03-0001-08
引言
隨著互聯(lián)網和移動通信技術的快速發(fā)展,信號的生成、采集、處理和分享的速度和規(guī)模都達到了前所未有的程度,人類已經進入了大數據(Big Data)時代。在這一嶄新的數據時代中,我們能夠獲得大批量數據信息,使得許多問題的處理更加快速、準確和智能。然而,有價值的信息往往隱藏在大量數據的背后,并且被一些無關的數據或噪聲所干擾,因此,能夠從數據中挖掘出有價值信息的數據挖掘(Data Mining)技術近年來得到了快速的發(fā)展和廣泛的應用。韓家煒在2011年給出了數據挖掘的廣義解釋:從大量數據中挖掘出有趣模式和知識的過程。實際上,數據挖掘是從數據庫中發(fā)現知識(Knowledge Discovery in Database,KDD)的重要途徑之一,也是人工智能的基礎。[1]
在大數據時代中,文本數據成為許多信息的來源,對文本數據的挖掘蘊含著巨大的商業(yè)價值,因此文本挖掘(Text Mining)已引起學術界以及業(yè)界的廣泛關注。實際上,在人與人之間、人與機器之間都會產生大量的文本數據。與傳統(tǒng)數據挖掘不同,文本挖掘需要進行文本預處理,將非結構的文本轉化為結構性數據,通過對結構性數據的進一步挖掘,得到文本數據內部潛在的模式和規(guī)則,進而提高人們獲取文本信息的準確性和速度。根據人們的實際需求,文本挖掘的任務包括文本分類、文本聚類、信息抽取、情感與觀點分析、話題檢測與追蹤等。
雖然文本挖掘具有巨大的應用價值,但開展文本挖掘技術研究卻是一項非常具有挑戰(zhàn)性的工作,最根本的原因在于文本數據是一種非常不規(guī)則的、難以通過數學方法精確描述的數據類型,比具有精準數值表示的數字圖像和語音信號更難處理[2]。除此之外,在研究文本挖掘技術時,算法的表現還總是受困于文本噪聲繁多、歧義、語義的隱蔽性等語言現象[3]。比如“小明還欠款500元”,這個句子既可以理解為“小明償還欠款500元”,也可以理解為“小明仍然欠款500元”。從20世紀90年代開始,隨著計算機和互聯(lián)網的大規(guī)模使用,社交網絡的興起,文本挖掘開始走進人們的視野。文本數據的挖掘經歷了從開始的基于詞法、句法的分析向統(tǒng)計學方法的過渡和發(fā)展,目前已經進入基于機器學習和深度學習的快速發(fā)展時期。
文本挖掘技術已經被廣泛應用于醫(yī)療、法律、商務、金融、國家安全和教育等多個領域。在醫(yī)療領域,利用文本挖掘技術分析病人化驗報告,給出病情的初步診斷結果,能夠有效地縮短病人的就診時間且提高醫(yī)生的診斷效率;在法律領域,文本自動生成技術會幫助律師撰寫出法律文書的初稿,能夠為律師節(jié)約大量時間;在商務和金融領域,利用文本挖掘技術對大量的財經新聞、財務報告、用戶評論進行挖掘和分析,能夠幫助企業(yè)做出正確的決策。祝智庭在2012年指出,信息時代下智慧教育要以先進的、適宜的信息技術作為基本支持,設計開發(fā)能適應各種特定教學需求的智慧學習環(huán)境[4]。從廣義上講,智慧教育是指在教育領域全面深入地運用現代信息技術來促進教育向數字化、網絡化、智能化和多媒體化的轉變,達到開放、共享、交互、協(xié)作、泛在的目標。目前,我國智慧教育更多地集中在硬件、軟件和網絡等基礎技術和環(huán)境的建設上,已經在數字課本、在線課堂、學校云平臺等建設上取得了很大的進步,但作為教育智能化核心技術的文本挖掘還沒有很好地應用到智慧教育中來。為此,我們將文本挖掘技術引入到智慧教育領域,并以主題挖掘為例來說明它對智慧教育的作用和價值,希望能引起大家的關注和重視。
本文將做如下安排:首先,介紹文本挖掘的基本模型與算法,包括文本的表示及三種常見的文本挖掘任務和方法;其次,闡述目前文本挖掘技術應用到智慧教育中的一些嘗試;再次,演示一個實例——發(fā)現教育類新聞報道中的主題詞;然后,探討文本挖掘能夠為在線課堂提供的一些智能化應用;最后,對文本挖掘技術與智慧教育研究進行總結以及展望。
一、基本模型與算法
(一)文本表示
文本是由文字和標點符號組成的字符串。想要使計算機更高效地處理文本,就需要對文本進行預處理,具體來說就是對文本進行數字化編碼,達到相似文本表示相近、不同文本表示有著較大區(qū)別的目的。對于中文文本,我們還需要對其進行分詞,這是一個很具挑戰(zhàn)性的任務,但目前已經有一些有效的分詞工具可以利用,對此就不再討論了。
向量空間模型(Vector Space Model, VSM)是一種經常使用的簡單文本表示方法[5]。在該模型中,一條文本可以看成是詞表S={s1,s2,...,sv}中的某些詞所構成的一個集合。這樣一條文本總可表示為這些詞的權重所構成的一個V維向量。對于一個包含N條文本的語料庫,每一條文本可以用詞頻-逆向文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)向量來表示,具體定義如下:
其中fij是第j個文本中單詞wi出現的頻率,是全部N條文本中含有單詞wi的文本的個數。在一條文本中,出現次數高的詞的fij值比較大,此詞可代表該文本的可能性則較大。同時,如果這個詞在多條文本里面都出現,將較小,則意味著此詞對于區(qū)分該文本的作用較低。因此,TF-IDF的編碼方式可以很好反映出語料庫中的單詞對文本的重要性或可表示性。
為了更精細地描述單詞的語義,人們進一步提出了分布式表示,其思想基于這樣一種假設:一個詞的語義由其上下文決定,上下文相近的詞,其語義也相似。Mikolov等在2013年提出了基于神經網絡的詞嵌入(Word Embedding)模型CBOW(Continuous Bag-Of-Words,連續(xù)詞袋)[6]和Skip-gram[7],也就是現在經常所說的詞向量表示。以CBOW模型為例,利用整個訓練語料(V個文本),通過極大化下面的似然函數即可訓練出較理想的神經網絡模型(如圖1所示的網絡結構):
,C為滑動窗口大小,v(wi)為詞wi的向量表示,v(wj)=WInOneHot(wj),其中OneHot(wj)是 wj的獨熱編碼,即V維的二元向量,在wj的詞表索引號的分量位置上為1,其余分量位置上為0,而WOut和WIn則為神經網絡中的權矩陣、待訓練的參數矩陣。
通過極大化(2)獲得WOut和WIn后,則可得出語料庫中的第j條文本的向量表示為:
(二)文本挖掘技術
1.文本聚類分析
聚類分析是最基本的數據挖掘方法,在無任何類別標簽的前提下,通過對數據自身內在結構的學習來建立一種自動歸類規(guī)則或函數。聚類分析是一種傳統(tǒng)的非監(jiān)督統(tǒng)計學習方法,與有監(jiān)督的分類統(tǒng)計學習方法形成鮮明的對照。從聚類過程來看,聚類分析可分為單層聚類和層次聚類。單層聚類是初始時刻將全部文檔劃分為若干個不同的簇,通過迭代不斷修正和完善,其經典方法便是K-Means(K-均值)算法[8]。而層次聚類是按不同尺度逐步建立數據的層次聚類結構,最后達到所需要的聚類結果,其典型代表便是基于最小方差標準的Ward(沃德)算法。近年來,人們還提出了基于數據點分布密度的聚類分析方法,即根據數據點的聚集程度進行劃分,其典型代表便是DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度且可應用于噪聲環(huán)境的空間聚類)算法[9]。
2.主題模型
主題模型是用來刻畫文本中主題分布的模型。所謂主題可以理解為文本所談論的話題或關鍵詞。在主題模型里,主題常常被選定為一組關鍵詞,并通過這些詞的概率分布來描述它們的可能性或重要性。實際上,我們可以自然地認為不同主題的文本中詞的出現頻率是不同的,比如“演唱會”一詞在娛樂新聞中出現的頻率明顯高于科技新聞,相反,“人工智能”一詞在科技新聞中出現的頻率明顯高于娛樂新聞。
比較典型的主題模型包括潛在語義分析(Latent Semantic Analysis,LSA)[10]、概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)[11]、潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)[12]和貝葉斯Unigram(一元文法)模型[13]。
3.自動摘要
文本自動摘要是指通過算法自動從原始文檔中全面準確地提取出能夠反映該文檔中心思想的簡單連貫的短文。按照算法輸出結果的類型可以分為抽取式摘要和生成式摘要。抽取式摘要是從原文檔中抽取關鍵句和關鍵詞來組成摘要,而生成式摘要則允許根據原文生成新的詞語、短語來組成摘要,這樣顯然更接近人們做摘要的方式[14]。
抽取式摘要的代表算法是依據網頁檢索排序的PageRank算法所改進的TextRank算法[15]。其過程是首先構建一個詞節(jié)點的有向加權圖。對于當前詞節(jié)點,設指向其的前驅詞節(jié)點集合為In(wi)??紤]其中的一個詞節(jié)點wj,設它的后驅詞節(jié)點集合為Out(wj), 且指向詞節(jié)點wi的連接權重為lji,則 可以表示在所有詞節(jié)點wj的后驅詞節(jié)點集合中,通向當前詞節(jié)點wi所占的比重或者概率?;谶@些比重,我們按下述迭代公式來計算詞節(jié)點wi的rank值:
其中,γ為平滑系數。最后對rank值進行排序,抽取rank值大的詞組合作為摘要。
近年來,隨著深度學習技術的快速發(fā)展,生成式摘要可通過模仿機器翻譯中的Seq-Seq(序列-序列)模型[16]來進行,即將原始文本,即文字序列{x1,...,xN}作為輸入內容,并將標準摘要文字序列{y1,...,yM}(M<
Encoder和Decoder本質上都是循環(huán)神經網絡(Recurrent Neural Network, RNN)。Encoder中隱層狀態(tài)層神經元hi=σ(Wxv(xi)+Whhi-1),σ為激活函數,v(xi)=WInOneHot(xi)為輸入xi的向量表示。Encoder的輸出為c=f(h1,...,hN),稱為輸入的編碼。對于標準的Encoder-Decoder結構,一般每個解碼過程均取c=hN,意為最后一個循環(huán)神經元的輸出。Decoder中隱層狀態(tài)神經元Sj=σ(Wcc+Wyv(yj)+Wssj-1)。模型通過極大化全部輸出的預測概率來訓練參數:
其中,k為yj在詞表中的索引號。
在Encoder-Decoder結構基礎上,Seq-Seq模型依據可引入在計算機視覺領域中廣為使用的注意力(Attention)機制[17],能夠更加關注當前詞所在的上下文的信息。注意機制主要改變了Decoder中對于輸入經過Encoder的編碼c=f(h1,...,hN)的選擇。具體為
,意為每次解碼時,對于編碼信息的選擇要融合全部Encoder隱層狀態(tài),融合系數取決于當前Decoder階段隱層狀態(tài)與Encoder隱層狀態(tài)的關聯(lián)程度,即從輸入文本中找出與輸出相關的部分。具體計算方式為αji= ,scoreji=simlarity(sj,hi)。通過這種改進,Seq-Seq模型更符合人類做摘要的行為。
二、文本挖掘在智慧教育中的應用
近年來,隨著人工智能技術的長足發(fā)展,智能化的浪潮已涌入各行各業(yè),教育行業(yè)也成為熱點之一。2017年國務院印發(fā)《新一代人工智能發(fā)展規(guī)劃》文件明確提出了智能教育的概念,積極推進人工智能技術應用于教育領域的各個方面,引領中國智慧教育的大發(fā)展。目前的智慧教育還處在教育的信息化階段,利用信息技術打造教育平臺環(huán)境。接下來的發(fā)展更要突出人工智能的應用,即對教育過程中產生的數據進行深入分析和挖掘,為學生、教師與管理者的決策提供更有力的支持。
在智慧教育的發(fā)展過程中,文本挖掘逐漸嶄露頭角。例如網絡智能答疑系統(tǒng)[18]就是通過建立學科領域知識問答庫,將學生自然語言表達的問題和知識庫文檔進行特征項提取并按TF-IDF方法計算特征項的權重,采用向量空間模型計算二者的相似度,從而找到最佳答案。
在教育研究領域,通過文本挖掘分析國內教育信息化領域的研究熱點與趨勢也是一個很好的應用方向[19]。通常的做法是先對文本數據進行聚類分析,然后根據不同類別來發(fā)現其主題。在對文本數據進行預處理后,我們則可以采用傳統(tǒng)的聚類分析算法進行文本的聚類分析,而這些算法的優(yōu)劣則會影響到文本聚類的結果。我們采用了K-Means、Ward和DBSCAN算法在多個文本數據集進行實驗和比較。實驗結果表明,K-Means算法和Ward算法聚類效果要明顯優(yōu)于DBSCAN算法。進一步還可發(fā)現,K-Means算法運行速度快,Ward算法比較耗時,這是由于Ward算法要不斷地對所合并類之間的數據點的距離進行計算,而K-Means算法每次迭代只需計K×N次距離。因此我們在后面的應用中便選擇了K-Means算法進行下一步的文本聚類分析。對于N個數據樣本,K-Means算法的迭代過程如下:第一步,隨機初始化K個聚類中心(K 根據聚類分析的結果,我們可進一步對每類文檔進行主題分析與發(fā)現。我們通常可采用一些概率模型進行主題的推斷。雖然存在著各種模型和方法,但在新聞報道的聚類分析中,同一聚類的新聞材料一般可認為來自共同的主題或主題分布,貝葉斯Unigram模型往往取得較好的效果。實際上,這是一個典型的概率生成模型。對于包含N條文本的語料D={d1,...,dN},設第i條文本為di={wi1,...,wiL },其長度為Li,則貝葉斯Unigram模型所描述的生成文本的過程如圖3所示。 首先,利用Dirichlet分布來產生主題詞的概率分布φ:p(φ|β)=Dirichlet(β),其中β為其生成參數向量。然后,利用基于φ的多項式分布來獨立地產生每個單詞wij:p(wij|φ)=Multinomial(φ)。因此得到語料D的概率表示: 反過來,φ根據Dirichlet分布和多項式分布的共軛性質,φ的后驗概率分布可以表示為先驗和觀測所融合的Dirichlet分布:p(φ|W,β)=Dirichlet(W+β),其中W=(f1,...,fv)是詞表中每一個詞出現的頻率,因此可以直接用Dirichlet分布的均值的顯式表達作為主題分布隨機變量φ的估計: 將公式(7)得到的φ顯示表達代入并最大化下列似然函數: 得到對β的估計,再重新計算公式(7),即可得出該語料或聚類所服從的主題分布,即每個關鍵詞被抽取來生成文本的概率。 三、教育類新聞挖掘的應用實例 隨著互聯(lián)網的廣泛應用,教育相關的新聞報道日益增多,每天都會有大量相似或相關的文本信息涌入人們的視野。為了提高人們獲取信息的速度和質量,對大量的新聞報道進行主題挖掘是必要的。 本實例采用的數據集來自THUCNews數據集[20]中標簽為教育的部分,由新浪新聞RSS訂閱頻道2005—2011年間的歷史數據篩選過濾生成,包含14個領域的74萬篇新聞文檔,我們選取其中的教育領域的3萬篇作為全部語料。如表1所示,每一條文本由標題和內容組成。 首先,我們對文本數據中的每條文本用結巴分詞工具進行分詞,之后過濾停用詞,構建出語料的特征詞表。其次,我們利用CBOW模型訓練出特征詞的200維向量表示,同時計算每條文本的TF-IDF表示,把兩者進行融合,得到每條文本的200維向量表示。我們對所有文本樣本的向量表示通過t-SNE[21]降維至2維平面得到其可視化表示,從中可以看出,大部分區(qū)域有著明顯的團狀結構,因此可以通過聚類分析算法將相似文本歸并在一起。這樣, 我們進一步采用K-Means算法進行聚類分析,且根據經驗設置170個類別。最后,根據相似文本應具有共同主題的思想,隨機抽取10個類別,通過貝葉斯Unigram模型找到代表每個類的主題詞。 本研究從170個聚類結果中抽取了10個類進行主題挖掘。表2為從每個類中挖掘出的前10個主題詞列表。我們對每一類的文本進行主題挖掘,并按照概率大小從左至右進行排序,加黑的主題詞是該類中概率較大的主題詞。從這些挖掘結果,我們可以清晰地看出每個類下的教育報道的關注點,如自主招生、考研、大學排行榜、高考錄取分數等。此外,類和類之間的主題有著很明顯的差異,這能夠幫助有目的閱讀的讀者快速過濾不相關的新聞報道。 四、在線課堂教學的智能化應用 隨著信息化教學手段的提高和普及,各類學校都越來越重視網絡教學平臺的建設,并在課堂教學中增加了多種線上互動與交流的環(huán)節(jié)。在這些環(huán)節(jié)中可通過文本挖掘做到智能化教學,提高教學的水平和效率。 實際中,在線課堂面對著大量的學生,他們隨時可能提出許多問題,老師無法逐個閱讀,而文本挖掘技術可以很快地將這些問題分類并找出代表性的問題,為老師的教學提供快捷智能的輔助。另外,針對某一個事件或論點的多種評論,也可快速地計算出正面評價多還是負面評價多,為老師判斷學生的意見提供依據。對于線上課堂的留言板、論壇、聊天室的評論可進行文本聚類分析與主題發(fā)現,有利于快速了解大量學生在課堂學習中所遇到的普遍問題、學生的學習興趣、教學難點等,幫助教師制定相應的教學計劃,同時也為老師的教學評價提供指導信息。 另一方面,我們可根據線上課堂所產生的大量文本數據,結合現有的知識文本數據,采用文本挖掘技術來構建輔助線上課堂教學的系統(tǒng)。最具代表性的便是知識圖譜和問答系統(tǒng)。對于學生來說,系統(tǒng)的可視化的知識圖譜能夠提升學生對知識理解的速度和深度。我們可采用文本挖掘中的主題發(fā)現、關聯(lián)分析等技術,結合老師與學生的需求,構建課堂教學知識的圖譜,使學生可更直觀地了解知識的關聯(lián)和邏輯。對于老師來說,通常會重復地回答學生提出的相似問題,在特定的知識領域內搭建問答系統(tǒng)可以很好地減輕老師的教學強度,同時也方便學生快速便捷解決學習中遇到的問題。 五、總結和展望 本文介紹了文本挖掘中的基本思想、模型和方法,并討論如何將其應用于智慧教育中,推進我國教育智能化的發(fā)展。對教育類新聞主題的挖掘,可以清晰地看出教育類報道在一定時期內圍繞著的熱點,這能方便教育工作者快速了解教育領域關注的熱點和方向,對教育工作的展開能起到一定的參考作用。另外,通過在線課堂中的討論,我們也能看出文本挖掘與教育的智能化緊密相連,具有廣闊的應用前景。 智慧教育對促進我國的教育發(fā)展起著至關重要的作用,但目前的智慧教育仍處在發(fā)展的初期,需要引入更多的人工智能技術,尤其是文本挖掘技術,但教育行業(yè)中存在著大量的非結構化的文本數據,并且教育的種類繁多,如義務教育、高等教育、職業(yè)教育等,這給文本挖掘的研究和應用帶來了巨大的挑戰(zhàn)。將傳統(tǒng)的文本挖掘技術應用到教育方面的場景,需要重新設計模型和算法,并與實際應用場景建立反饋機制,才能促進教育的快速發(fā)展。 參考文獻 [1]HAN J,PEI J,KAMBER M.Data Mining:Concepts and Techniques[M].Amsterdam: Elsevier,2011. [2]宗成慶,夏睿,張家俊.文本數據挖掘[M].北京:清華大學出版社,2019. [3]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2013. [4]祝智庭,賀斌.智慧教育:教育信息化的新境界[J].電化教育研究,2012 (12):5-13. [5]SALTON G,WONG A,YANG C S.A Vector Space Model for Auto-matic Indexing[J]. Communications of the ACM(S0001-0782),1975, 18(11):613-620. [6]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient Estimation of Word Representations in Vector Space[OB/OL].(2013-9-7)[2020-2-10].http://arxiv.org/abs/1301.3781. [7]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed Represen-tations of Words and Phrases and Their Compositionality[C]//Ad-vances in Neural Information Processing Systems.2013:3111-3119. [8]MACQUEEN J.Some Methods for Classification and Analysis of Mu-ltivariate Observations[C]//Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability.1967,1(14):281-297. [9]ESTER M,KRIEGEL H P,SANDER J,et al.A Density-Based Algo-rithm for Discovering Clusters in Large Spatial Databases with Noise[C]//KDD.1996,96(34):226-231. [10]LANDAUER T K,DUMAIS S.Latent Semantic Analysis[J].Scholarpedia(S1941-6016),2008, 3(11):4356. [11]DEERWESTER S,DUMAIS S T,FURNAS G W,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science(S1097-4571),1990,41(6):391-407. [12]HOFMANN T.Probabilistic Latent Semantic Indexing[C]//Pro-ceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.1999:50-57. [13]BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research(S1533-7928),2003,3:993-1022. [14]WU D Q,GUO X Y,MA J W.News Topic Discovery through Com-munity Detection[C]//IEEE International Conference on Signal,Infor-mation and Data Processing.2019:43-48. [15]MIHALCEA R,TARAU P.Textrank:Bringing Order into Text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing.2004:404-411. [16]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks[C]//Advances in Neural Information Processing Systems.2014:3104-3112. [17]VASWANI A,SHAZEER N,PARMAR N,et al.Attention Is All You Need[C]//Advances in Neural Information Processing Systems.2017:5998-6008. [18]楊丹,鄒艷.基于自然語言處理的網絡教育智能答疑系統(tǒng)設計[J].科學咨詢 (科技.管理), 2011(10):46. [19]陸偉. 基于學術論文與新聞語料的教育信息化文本挖掘分析[J].大學(研究版),2017(12):36-43. [20]LI J Y,SUN M S.Scalable Term Selection for Text Categorization [C]// Proceedings of the 2007 Joint Conference on Empirical Methodsin Natural Language Processing and Computational Natural Language Learning.2007:774-782. [21]MAATEN L,HINTON G.Visualizing Data Using t-SNE[J].Journal of Machine Learning Research(S1533-7928),2008,9(11):2579-2605. (責任編輯 孫志莉 孫震華)