王曉莉
(渭南職業(yè)技術(shù)學(xué)院,馬克思主義學(xué)院, 陜西,渭南 714026)
語(yǔ)料庫(kù)為通過科學(xué)取樣和處理后的電子文本庫(kù),是一種承載語(yǔ)言知識(shí)的基本資源。語(yǔ)料庫(kù)的研究已經(jīng)在各類學(xué)科教學(xué)方面被廣泛應(yīng)用。文獻(xiàn)[1]構(gòu)建的命名性失語(yǔ)的漢語(yǔ)普通話語(yǔ)料庫(kù),以命名性失語(yǔ)癥舉例,搭建語(yǔ)料數(shù)據(jù)集。文獻(xiàn)[2]基于自動(dòng)回標(biāo)的地理實(shí)體關(guān)系語(yǔ)料庫(kù)構(gòu)建方法,以地理實(shí)體的分類標(biāo)準(zhǔn)和語(yǔ)義關(guān)系作為參考標(biāo)準(zhǔn),根據(jù)地理實(shí)體關(guān)系語(yǔ)言描述習(xí)慣構(gòu)建標(biāo)注體系。該方法的平均回標(biāo)成功率較高,且標(biāo)注速度較快,可將其應(yīng)用于開放式的關(guān)系抽取任務(wù)中。文獻(xiàn)[3]研究了用Elan軟件構(gòu)建上下文驅(qū)動(dòng)的多模式語(yǔ)料庫(kù)的方法和過程。通過在不同語(yǔ)境下創(chuàng)造豐富而真實(shí)的語(yǔ)言環(huán)境,并提供潛在的用戶自定義策略,構(gòu)建多模式英語(yǔ)學(xué)習(xí)語(yǔ)料庫(kù)是一種理想的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)模式范式。文獻(xiàn)[4]利用數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)智能算法,對(duì)Internet上電力行業(yè)的信息數(shù)據(jù)進(jìn)行獲取和分類,構(gòu)建電力行業(yè)語(yǔ)料庫(kù)。
本文以思政知識(shí)作為語(yǔ)料庫(kù)核心要素,而上述語(yǔ)料庫(kù)大多數(shù)為文本型,在語(yǔ)境的豐富性方面存在一定程度的局限性,不符合當(dāng)今多媒體時(shí)代的思政教學(xué)需求[5],因此本文創(chuàng)新使用多模態(tài)語(yǔ)料庫(kù),為語(yǔ)言學(xué)習(xí)帶來(lái)新的生機(jī)。
本文提出了一種基于差分進(jìn)化算法的思政多模態(tài)語(yǔ)料庫(kù)智能構(gòu)建方案。根據(jù)思政教育的內(nèi)容特征,通過差分進(jìn)化算法獲得應(yīng)用于語(yǔ)料庫(kù)的最優(yōu)內(nèi)容,對(duì)語(yǔ)料庫(kù)的各個(gè)功能模塊進(jìn)行分析,完成多模態(tài)語(yǔ)料庫(kù)構(gòu)建的全過程。實(shí)驗(yàn)表明,本文方法所構(gòu)建的語(yǔ)料庫(kù)能夠在搜索關(guān)鍵詞后給出準(zhǔn)確的相關(guān)資料,且響應(yīng)時(shí)間較短,具有一定的實(shí)際應(yīng)用價(jià)值。
考慮到語(yǔ)料庫(kù)的針對(duì)性、規(guī)模性和代表性,根據(jù)思政教育的教學(xué)內(nèi)容總結(jié)出多模態(tài)語(yǔ)料庫(kù)內(nèi)容需要兼顧時(shí)代性、全面性以及恰當(dāng)性的特點(diǎn)。
因此,為獲得符合要求的最優(yōu)語(yǔ)料內(nèi)容,DE(Differential Evolution,差異進(jìn)化算法)對(duì)語(yǔ)料庫(kù)內(nèi)容進(jìn)行智能篩選[6-7]。
(1)
(2)
(3)
為了對(duì)群體的多樣性進(jìn)行衡量,引入多樣性度量準(zhǔn)則ρ,定義如下:
(4)
式中,|F|為每次搜索過程產(chǎn)生的可行解數(shù)目,|S|為生成的個(gè)體數(shù)目。同理,可通過約束違反度函數(shù)均值對(duì)群體中不同性解反約束強(qiáng)度進(jìn)行衡量,如下:
(5)
式中,Po為集合內(nèi)所含元素?cái)?shù)量,Pc為種群內(nèi)所含元素?cái)?shù)量,P(y)為反約束強(qiáng)度函數(shù)。為減少算法的復(fù)雜程度,設(shè)可行集合規(guī)模為N1,不可行群體規(guī)模為N2,最大規(guī)模為N3,O為群體規(guī)模數(shù)量,多樣性群體的復(fù)雜度可以表示為
(6)
則對(duì)差分算法進(jìn)行一次迭代后的復(fù)雜度可以表示為
M=O(N1)+O(N1)+O(N1)+O(N2)+
(7)
若搜索范圍N=N1+N2+N3,則有效降低了處理后的復(fù)雜度M 1.2.1 語(yǔ)料庫(kù)基本框架 語(yǔ)料庫(kù)的總體框架如圖1所示,整個(gè)體系主要分為4個(gè)模塊,分別為用戶管理模塊、框架管理模塊、思政語(yǔ)料管理模塊、語(yǔ)料統(tǒng)計(jì)檢索模塊4個(gè)部分。 圖1 系統(tǒng)基本框架結(jié)構(gòu) 1.2.2 語(yǔ)料庫(kù)功能結(jié)構(gòu)構(gòu)建 在圖1基礎(chǔ)上,給出語(yǔ)料庫(kù)的功能結(jié)構(gòu)如圖2所示。 圖2 語(yǔ)料庫(kù)的功能結(jié)構(gòu) (1) 用戶管理模塊功能 在語(yǔ)料庫(kù)內(nèi)設(shè)置不同級(jí)別的用戶組,并且賦予不同權(quán)限。用戶權(quán)限服從最小權(quán)限原則,用戶操作過程中沒有明確的允許即視為拒絕,且拒絕權(quán)限優(yōu)先。 (2) 框架管理模塊功能 該模塊具備查詢、修改、刪除思政知識(shí)等基本功能,且在使用時(shí)管理者能夠根據(jù)實(shí)際情況對(duì)框架以及詞元適當(dāng)調(diào)整。 (3) 語(yǔ)料管理模塊功能 該模塊能夠?qū)崿F(xiàn)基于思政的網(wǎng)絡(luò)語(yǔ)料下載。此處以“全國(guó)高校思想政治工作網(wǎng)”為數(shù)據(jù)源。根據(jù)關(guān)鍵字或用戶請(qǐng)求處理利用所提差分進(jìn)化算法搜索最優(yōu)結(jié)果,并將搜索獲得的視頻或文本下載至本地磁盤中。規(guī)定下載的語(yǔ)料信息中要包括標(biāo)題、作者等相關(guān)內(nèi)容。每進(jìn)行一次下載則自動(dòng)賦予其編號(hào),方便使用者管理,語(yǔ)料下載過程如圖3所示。 圖3 語(yǔ)料自動(dòng)下載過程 該模塊還能夠?qū)崿F(xiàn)語(yǔ)料標(biāo)注功能?,F(xiàn)階段較為常用的語(yǔ)料庫(kù)標(biāo)注軟件有ANVIL、Elan、DRS、MCA等[9]。由于Elan可以同時(shí)對(duì)多種行為符號(hào)進(jìn)行研究,還能夠以其為基礎(chǔ)平臺(tái)實(shí)現(xiàn)語(yǔ)料庫(kù)的構(gòu)建。因此本文選擇Elan軟件完成思政多模態(tài)語(yǔ)料庫(kù)的標(biāo)注和檢索。 Elan軟件[10]也支持音頻和視頻的多層標(biāo)注,在構(gòu)建語(yǔ)料庫(kù)的過程中,可以根據(jù)實(shí)際授課的檢索需要設(shè)定各層的標(biāo)注信息,并通過對(duì)標(biāo)注層屬性的設(shè)置規(guī)定層與層之間的關(guān)系。標(biāo)注者也可以在Elan軟件中標(biāo)注不同類型的語(yǔ)料單元,使語(yǔ)料庫(kù)可以識(shí)別出特定的符號(hào),從而提高了標(biāo)注的準(zhǔn)確性,同時(shí)也便于相關(guān)人員對(duì)語(yǔ)料庫(kù)信息的管理。 針對(duì)語(yǔ)料庫(kù)的片段顯示與播放速度的控制,可以通過Elan軟件導(dǎo)出含有視頻或音頻片段的標(biāo)注文件,并支持這些文件以表格、文本和字幕等方式顯示,在使用者使用時(shí),還可以隨時(shí)回放顯示內(nèi)容和控制播放速度,使語(yǔ)料庫(kù)更加智能化。 (4) 統(tǒng)計(jì)檢索模塊功能 本文提供2種語(yǔ)料檢索方式,分別為簡(jiǎn)單檢索與高級(jí)檢索。簡(jiǎn)單檢索主要通過逐詞索引的方式給出關(guān)鍵詞在語(yǔ)料庫(kù)中的相關(guān)信息,逐詞索引能夠記錄關(guān)鍵詞在語(yǔ)料庫(kù)中出現(xiàn)的位置,也能具備詞性選擇功能,記錄關(guān)鍵詞的不同詞性出現(xiàn)位置。高級(jí)檢索以簡(jiǎn)單檢索為基礎(chǔ),進(jìn)一步提供更多層面的索引,如利用時(shí)間、作者、框架元素等進(jìn)行檢索[11-12]。 語(yǔ)料庫(kù)功能結(jié)構(gòu)實(shí)現(xiàn)的部分偽代碼如下: Time register level (void * ARG) struct multiboot_ uinfo*mb=(struct multiboot_ Uinfo *) parameter; EDF_ uregister_ ulevel(EDF_ Uenable all); / / level 0: EDF CBS_ uregister_ ulevel(CBS_ Uenable all, 0); / / level 1: CBS RR_ uegister_ ulevel(RRTICK,RR_ .MAIN_ Yes, MB); / / level 2: loop dummy_ uregister_ Ulevel(); / / Level 3: Virtual Register module (); 1 / resource access protocol CABS_ uregister_ umudule(); //Resource access protocol Warning sound; 通過差異進(jìn)化算法對(duì)語(yǔ)料庫(kù)內(nèi)容進(jìn)行智能篩選,以獲得符合要求的最優(yōu)語(yǔ)料內(nèi)容,并在此基礎(chǔ)上,設(shè)計(jì)用戶管理模塊、框架管理模塊、思政語(yǔ)料管理模塊、語(yǔ)料統(tǒng)計(jì)檢索模塊4個(gè)模塊,完成差分進(jìn)化算法下思政多模態(tài)語(yǔ)料庫(kù)的智能構(gòu)建。 為驗(yàn)證本文所建語(yǔ)料庫(kù)的可行性,對(duì)其進(jìn)行實(shí)際應(yīng)用分析。選用某|檢索網(wǎng)站中的數(shù)據(jù)作為測(cè)試數(shù)據(jù),以關(guān)鍵詞搜索為例,在語(yǔ)料庫(kù)內(nèi)輸入馬克思理論后,語(yǔ)料庫(kù)彈出的搜索結(jié)果如圖4所示。 圖4 搜索結(jié)果頁(yè)面 從圖4中可知,在語(yǔ)料庫(kù)內(nèi)搜索關(guān)鍵詞后,系統(tǒng)給出的相關(guān)內(nèi)容符合馬克思主義檢索要求,且未出現(xiàn)重復(fù)信息。這是因?yàn)楸疚氖褂貌罘诌M(jìn)化算法優(yōu)化了構(gòu)建過程中語(yǔ)料篩選過程,證明了構(gòu)建方法可以應(yīng)用于實(shí)際工作中。 隨后對(duì)語(yǔ)料庫(kù)的搜索響應(yīng)時(shí)間進(jìn)行測(cè)試,并與文獻(xiàn)[1]、文獻(xiàn)[2]、文獻(xiàn)[3]、文獻(xiàn)[4]作對(duì)比分析,測(cè)試過程中每10次記錄1次平均值,50次后3種算法所得結(jié)果如表1所示。 表1 不同語(yǔ)料庫(kù)平均響應(yīng)時(shí)長(zhǎng)對(duì)比 單位:s 從表1中可以看出,相比文獻(xiàn)[1]、文獻(xiàn)[2]、文獻(xiàn)[3]、文獻(xiàn)[4],本文方法的響應(yīng)時(shí)間更短,則可說明差分進(jìn)化算法對(duì)語(yǔ)料庫(kù)內(nèi)容進(jìn)行智能篩選,識(shí)別出特定的符號(hào),從而提高標(biāo)注的準(zhǔn)確性。采用2種語(yǔ)料檢索方式,尋求最優(yōu)結(jié)果,能夠有效地提高工作效率,提升用戶的使用感。 為了提高思政教育工作效率,提出一種基于差分進(jìn)化算法的思政多模態(tài)語(yǔ)料庫(kù)智能構(gòu)建。該語(yǔ)料庫(kù)支持多種格式的音頻、視頻、文件的打開和播放,也能夠?qū)崿F(xiàn)正則表達(dá)式的精確檢索與多模態(tài)語(yǔ)境的播放,用戶可以在使用的過程中隨時(shí)進(jìn)行播放、暫停、回放等操作,實(shí)現(xiàn)智能化操作。 在未來(lái)的工作中,需要進(jìn)一步為語(yǔ)義角色標(biāo)注提供訓(xùn)練集,并且根據(jù)不同的用戶需求,不斷更新和完善語(yǔ)料庫(kù)的內(nèi)容。1.2 多模態(tài)語(yǔ)料庫(kù)設(shè)計(jì)
2 仿真實(shí)驗(yàn)
3 總結(jié)