楊思狄
(內(nèi)蒙古大學(xué) 滿洲里學(xué)院,內(nèi)蒙古 滿洲里 021400)
多媒體課件在現(xiàn)階段的教學(xué)中發(fā)揮著十分重要的為,但是課件的組成往往需要耗費(fèi)大量的人力以及物理,于是課件自動生成技術(shù)由此形成[1-2].
現(xiàn)階段課件自動生成技術(shù)主要劃分為以下兩種形式:
(1) 將采集到的素材進(jìn)行整合從而形成自動課件,整合方法需要任課教師不斷進(jìn)行素材積累[3].相關(guān)的研究有王愛紅等人通過B/S 結(jié)構(gòu),針對教師上課采用的視頻以及音頻進(jìn)行采集,同時收集教師上課所利用全部媒體資源,將其進(jìn)行統(tǒng)一整合,從而形成多媒體課件.
(2) 通過數(shù)據(jù)庫或者知識庫已經(jīng)存在的數(shù)據(jù)形成自動課件,相關(guān)的研究有Dessislava Vassileva 等人通過本體知識庫以及元數(shù)據(jù)信息將領(lǐng)域知識進(jìn)行組合,同時采用自適應(yīng)的引擎組建個性化的多媒體課件.
上述第一種課件生成技術(shù)主要是依靠人工實(shí)現(xiàn)不同素材的整合,整個操作過程費(fèi)時費(fèi)力,同時課件的形成速度是無法保證的,所以并不適用.第二種技術(shù)主要通過數(shù)據(jù)庫或者知識庫,同時結(jié)合學(xué)習(xí)者的個人信息形成多媒體課件,但其仍然存在以下幾方面的問題:(1) 數(shù)據(jù)庫以及知識庫的組建仍然需要人工實(shí)現(xiàn),且整合的工作量較大;(2)不同庫中存放的知識大部分為通用知識,無法形成專門針對哪一學(xué)科的多媒體課件.
針對以上方法存在的問題,結(jié)合多媒體技術(shù),本文設(shè)計并提出一種基于多媒體技術(shù)的高等數(shù)學(xué)電子課件自動生成方法.通過具體的仿真實(shí)驗數(shù)據(jù),有效驗證了所提方法的優(yōu)越性以及有效性.
領(lǐng)域本體在電子課件自動生成研究中占據(jù)十分重要的地位,它能夠為該研究領(lǐng)域提供概念定義以及概念之間的關(guān)系,同時能夠為該領(lǐng)域發(fā)生的活動以及該領(lǐng)域的主要理論提供一個本體[4-5].以下給出領(lǐng)域本體生成模型的主要組成部分:
(1) 領(lǐng)域語料集以及背景語料集的采集.
選取對應(yīng)的文獻(xiàn)設(shè)定為領(lǐng)域語料,主要用來獲取概念定義以及概念之間存在的關(guān)聯(lián).其中文獻(xiàn)資料的選取需要具有權(quán)威性以及時效性等特性.
在此過程中,還能夠獲取一個和領(lǐng)域無關(guān)的語料集,在概念抽取的過程中設(shè)定為背景語料集,同時過濾掉無法真正代表領(lǐng)域的偽術(shù)語.
(2) 定義領(lǐng)域詞典.
設(shè)定領(lǐng)域詞典,將已知的領(lǐng)域概念加入到領(lǐng)域詞典中,同時還能夠在一定程度上避免在分詞過程中將領(lǐng)域劃分為無意義的詞,從而進(jìn)一步提升分詞結(jié)果的準(zhǔn)確性.
(3) 語料預(yù)處理.
針對語料文本進(jìn)行預(yù)處理,同時將領(lǐng)域文檔劃分成若干個不同的文本文件.
(4) 概念抽取.
針對拆分之后的文本文件進(jìn)行初次分詞以及詞性標(biāo)注,獲取切分文檔.在上述分析的基礎(chǔ)上,采用基于切分單元的最佳匹配算法針對切分文檔進(jìn)行處理,獲取再次分析的詞匯集合.
(5) 概念關(guān)系抽取.
采用VSM 方法組建概念向量空間模型,通過余弦相似度以及語義相似度相結(jié)合的方法計算不同概念之間的相似度,同時針對概念進(jìn)行層次聚類[6],準(zhǔn)確抽取出不同概念之間的分類關(guān)系.
(6) 本體評價.
針對本體進(jìn)行評價重點(diǎn)需要考慮以下兩方面的因素:(1) 本體自身的精準(zhǔn)性;(2) 建模獲取的本體是否能夠滿足課件自動生成的條件.
針對語料進(jìn)行預(yù)處理,其中一方面是抽取文本中重要的特征信息;另外一方面則需要針對文檔進(jìn)行切分,方便后續(xù)針對相關(guān)概念進(jìn)行提取.
通常情況下,一個文檔可能含有圖像、動畫等豐富的信息表達(dá)方式,但是最為主要的信息就是文字信息.根據(jù)將語料文檔格式轉(zhuǎn)換為文本文件,能夠自動刪除無用的文件,獲取規(guī)范的文本以及文件.
領(lǐng)域在這里主要是指教科書或者科技資料的電子文本.教科書或者科技資料內(nèi)容組織的主要特點(diǎn)是由章節(jié)組成,不同的章節(jié)內(nèi)容通常情況下描述不同內(nèi)容的主題,但是各個內(nèi)容主題和章節(jié)標(biāo)題之間存在的一定的關(guān)聯(lián).通過教科書以及科技資料等內(nèi)容的組建特點(diǎn)[7-8],針對領(lǐng)域文本的預(yù)處理就是一個逐漸進(jìn)行分解的過程,即首先將高等數(shù)學(xué)的整本教材按照章節(jié)劃分為幾個文本文件,同時將各個章節(jié)所表示的文件進(jìn)行拆分,拆分為多個不同的文件,即為拆分文件.
概念抽取為本體學(xué)習(xí)的重要起點(diǎn).以下詳細(xì)給出領(lǐng)域術(shù)語抽取的主要操作流程,如圖1所示.
圖1 領(lǐng)域術(shù)語抽取流程圖
經(jīng)過以上分析,針對文檔進(jìn)行統(tǒng)計獲取候選術(shù)語集,同時獲取對應(yīng)的4 個候選結(jié)果.采用基于切分單元的最佳匹配算法,針對切分文檔進(jìn)行處理,獲取候選集中部分元素.另外,根據(jù)閾值的設(shè)定,能夠?qū)⑶蟹治臋n集中的出現(xiàn)概率大于給定閾值的詞加入到對應(yīng)的候選術(shù)語集中.
以下重點(diǎn)采用TFIDF 方法針對候選集中的術(shù)語進(jìn)行領(lǐng)域相關(guān)分析,篩選出和領(lǐng)域存在關(guān)聯(lián)的術(shù)語.具體的操作步驟如下:
(1) 統(tǒng)計領(lǐng)域文檔集中出現(xiàn)的全部詞以及詞頻;
(2) 統(tǒng)計領(lǐng)域文檔集中各個詞在北京語料中出現(xiàn)的次數(shù);
(3) 計算不同詞的TFIDF 取值,算式如下:
(4) 針對TFIDF 的取值結(jié)果進(jìn)行排序;
(5) 設(shè)定對應(yīng)的閾值,同時將計算結(jié)果大于閾值的詞設(shè)定為候選術(shù)語集中的詞;
(6) 在計算的過程中,會存在由多個或者一個字組成的詞,但是這些詞大部分是不存在任何意義的,所以需要對其進(jìn)行過濾處理,獲取有效的候選術(shù)語集[9].
向量空間模型主要是通過信息中不同關(guān)鍵詞的出現(xiàn)次數(shù)組建關(guān)鍵詞向量,首先需要讀入概念提取階段所提取到的概念,同時組建領(lǐng)域概念詞列表,即
針對ConceptList中各個概念詞wi,以概念所出現(xiàn)的文檔設(shè)定為該詞語的向量,同時組建概念—文檔所代表的向量空間模型.
針對向量空間C 中的各個概念詞語wi,采用TFIDF 加權(quán)方法計算對應(yīng)的權(quán)值,即
結(jié)合概念列表,能夠組建一個M*N 的向量空間,具體的表示形式為
聚類方法主要是通過任意一種策略對高等數(shù)學(xué)概念之間的語義距離進(jìn)行距離實(shí)現(xiàn)特征信息分類,即
在完成高等數(shù)學(xué)特征信息的劃分之后,需要將采集到的課件內(nèi)容進(jìn)行均勻的切塊,然后將切塊得到的單元直接放入到課件對應(yīng)的文件當(dāng)中.以上做法雖然十分的簡單,但是均勻切塊的操作下,有效掩蓋了教材內(nèi)容自身存在的差異性,實(shí)際上就是塊長一致的教材單元包含的知識量不一定是相同的.
針對高等數(shù)學(xué)教材進(jìn)行均勻切塊制作課件的方法并不符合對應(yīng)的數(shù)學(xué)規(guī)律,需要按照正常的知識量進(jìn)行教學(xué)內(nèi)容組織,同時實(shí)現(xiàn)課件的制作.
通過對大量的課件進(jìn)行分析可知,知識量的大小和學(xué)習(xí)知識點(diǎn)所浪費(fèi)時間多少成正比,同時和課件中為知識點(diǎn)所需準(zhǔn)確的課件量多少呈正比.知識量針對課件內(nèi)容在PPT 文件中的放置位置有著十分重要的影響.在實(shí)際教學(xué)的過程中,高等數(shù)學(xué)知識量的度量將會受到多種不同因素的影響,如知識點(diǎn)的教學(xué)目標(biāo)、高等數(shù)學(xué)難重點(diǎn)情況、不同知識點(diǎn)之間的關(guān)系等.
知識點(diǎn)的教學(xué)層次越高,則說明知識點(diǎn)越難同時也越重要,且包含的知識量也就越大;反之,則包含的知識量也就越小.將影響知識點(diǎn)中知識量的各個因素進(jìn)行量化處理,則能夠獲取不同知識點(diǎn)的知識量.知識主要包含在對應(yīng)的概念中,針對高等數(shù)學(xué)教學(xué)大綱中的知識點(diǎn),需要從領(lǐng)域本體中提取對應(yīng)的概念,通過知識點(diǎn)以及知識量之間的量化關(guān)系能夠計算不同概念的知識量.
在上述分析的基礎(chǔ)上,結(jié)合對高等數(shù)學(xué)大量課件的研究分析,總結(jié)高等數(shù)學(xué)電子課件的制作規(guī)律,結(jié)合教學(xué)大綱以及多媒體技術(shù)[10],在領(lǐng)域本體中選取高等數(shù)學(xué)電子課件的內(nèi)容,以達(dá)到高等數(shù)學(xué)電子課件自動生成的目的.
為了驗證所提基于多媒體技術(shù)的高等數(shù)學(xué)電子課件自動生成方法的綜合有效性,需要進(jìn)行仿真實(shí)驗測試.實(shí)驗環(huán)境為:雙核2.50GHzPentium(R)處理器,2GB 內(nèi)存,仿真軟件采用MATLAB版本是R2015b[37].
(1) 電子課件自動生成時間.
課件生成的快慢在課件自動生成方法中占據(jù)十分重要的地位,其中電子課件自動生成時間越短,則說明課件生成速度越快;反之,則說明課件生成的速度較慢.實(shí)驗選取文獻(xiàn)[4]方法以及文獻(xiàn)[5]方法作為對比方法,具體的實(shí)驗對比結(jié)果如下表1~3 所示.
表1 所提方法的電子課件自動生成時間
表3 文獻(xiàn)[5]方法的電子課件自動生成時間
綜合分析以上表格中的實(shí)驗數(shù)據(jù)可知,當(dāng)課件的數(shù)量持續(xù)增加時,電子課件自動生成時間也在不斷增加.但是相比另外兩種方法,所提方法的電子課件自動生成時間明顯更低.
(2) 電子課件自動生成費(fèi)用.
以下仿真實(shí)驗測試對比三種不同方法的電子課件自動生成費(fèi)用,具體的實(shí)驗對比結(jié)果如圖2 所示.
分析圖2 中的實(shí)驗數(shù)據(jù)可知,所提方法的電子課件自動生成費(fèi)用最低;文獻(xiàn)[4]方法的電子課件自動生成費(fèi)用次之;文獻(xiàn)[5]方法的電子課件自動生成費(fèi)用最高.
圖2 不同方法的電子課件自動生成費(fèi)用對比結(jié)果
(3) 用戶滿意程度.
表4 所提方法的用戶滿意程度
由于不同方法生成的電子課件具有一定的差異性,以下對比三種不同方法所生成的電子課件,用戶對其滿意程度,具體的實(shí)驗對比結(jié)果如表4~6 所示.
表5 文獻(xiàn)[4]方法的用戶滿意程度
表6 文獻(xiàn)[5]方法的用戶滿意程度
分析以上表中的實(shí)驗數(shù)據(jù)可知,相比另外兩種方法,所提方法能夠獲取較高的用戶滿意程度,這說明所提方法自動生成的電子課件具有較強(qiáng)的實(shí)用性以及有效性.
針對傳統(tǒng)的高等數(shù)學(xué)電子課件自動生成方法存在的一系列問題,本文設(shè)計并提出一種基于多媒體技術(shù)的高等數(shù)學(xué)電子課件自動生成方法.通過具體的仿真實(shí)驗數(shù)據(jù),充分驗證了所提方法的有效性以及實(shí)用性,同時所提方法能夠獲取用戶較為滿意的高等數(shù)學(xué)電子課件.