胡慧婷,李建平,董振榮,白欣宇
(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
隨著信息技術(shù)化被廣泛應(yīng)用于教育行業(yè),計(jì)算機(jī)輔助教學(xué)是教育領(lǐng)域的主要方向以及大趨勢(shì)[1]。在互聯(lián)網(wǎng)發(fā)展的大環(huán)境下,信息超限表現(xiàn)為信息迷航、信息爆炸、信息焦慮、信息污染等[2]。盡管網(wǎng)絡(luò)資源能夠輔助學(xué)習(xí)者學(xué)習(xí),但網(wǎng)絡(luò)中海量的數(shù)據(jù)使教育技術(shù)學(xué)專業(yè)學(xué)習(xí)者陷入信息超限,條理不清晰,學(xué)習(xí)者很難快速找到需要的信息,且不能幫助學(xué)生認(rèn)清自身的薄弱之處。因此對(duì)教育技術(shù)學(xué)文本進(jìn)行自動(dòng)化的細(xì)致化知識(shí)點(diǎn)顯得十分重要。使用結(jié)合命名實(shí)體識(shí)別(NER)教育技術(shù)學(xué),提取出教育技術(shù)學(xué)中重要的術(shù)語(yǔ),能有效提高學(xué)習(xí)者的學(xué)習(xí)效率。
教育技術(shù)學(xué)專業(yè)術(shù)語(yǔ)知識(shí)圖譜可以從多源平臺(tái)收集整理海量信息和知識(shí),并能將知識(shí)及其關(guān)系可視化,為提高學(xué)習(xí)者學(xué)習(xí)效率提供了極大的幫助。教育技術(shù)學(xué)專業(yè)術(shù)語(yǔ)知識(shí)圖譜主要包括實(shí)體抽取、關(guān)系抽取以及屬性抽取等,實(shí)體抽取又稱為命名實(shí)體識(shí)別(NER),是構(gòu)建知識(shí)圖譜的首要工作[3]。
NER是自然語(yǔ)言處理任務(wù)中的基本步驟之一,主要是從非結(jié)構(gòu)化文本中識(shí)別出句子中的人名、地名、機(jī)構(gòu)名等實(shí)體[4]。早期基于規(guī)則和詞典的模式匹配方法,翟菊葉等人[5]使用CRF與規(guī)則相結(jié)合的方法對(duì)中文電子病歷進(jìn)行命名實(shí)體識(shí)別,但該方法的缺點(diǎn)是需要領(lǐng)域?qū)<抑贫ù罅康囊?guī)則,領(lǐng)域詞典需要定期維護(hù),通用性不高,所以學(xué)者們使用機(jī)器學(xué)習(xí)方法來(lái)解決這一問(wèn)題。傳統(tǒng)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法主要有隱馬爾可夫模型、最大熵模型、支持向量機(jī)模型和條件隨機(jī)場(chǎng)模型,王紅斌等人[6]將隱馬爾可夫模型和條件隨機(jī)場(chǎng)模型應(yīng)用于泰語(yǔ)領(lǐng)域,盡管機(jī)器學(xué)習(xí)的方法避免使用手工構(gòu)造規(guī)則模板,但是繁瑣的特征工程依然需要大量人工參與。隨著深度學(xué)習(xí)近幾年的發(fā)展,由于其具有較強(qiáng)的泛化能力,使得命名實(shí)體識(shí)別領(lǐng)域逐漸使用該方法,取得了很好的效果[7];石春丹等人[8]提出一種基于雙向門(mén)控循環(huán)單元的實(shí)體抽取模型,該模型結(jié)合門(mén)控循環(huán)單元結(jié)構(gòu)簡(jiǎn)單、參數(shù)更少的特點(diǎn),以GRU并發(fā)進(jìn)行多尺度的處理加速,從而更加快捷地完成序列數(shù)據(jù)的計(jì)算;秦婭等人[9]將CNN-BiLSTM-CRF應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,大大提高了識(shí)別精度;Yu等人[10]采用BERT模型,提出了一種融合句子內(nèi)容和上下文信息的隱式句子模型,對(duì)輸入進(jìn)行重構(gòu),有效提高了分類模型的性能;黃煒等人[11]提出了一種基于BiLSTM-CRF的涉恐信息,獲得了更高的分類準(zhǔn)確率,但在文本數(shù)據(jù)中很多字詞會(huì)根據(jù)文本語(yǔ)境的不同有不同的含義,該模型難以學(xué)習(xí)到字詞的不同特征;李明揚(yáng)等人[12]在BiLSTM-CRF模型中加入了自注意力機(jī)制,在Weibo NER語(yǔ)料庫(kù)上,能夠捕捉上下文信息,提升模型的識(shí)別精度;劉鵬等人[13]在提出礦山災(zāi)害模型時(shí),提出HIDCNN模型,采用迭代法堆疊DCNN,避免了簡(jiǎn)單堆疊多個(gè)DCNN導(dǎo)致的模型參數(shù)量大進(jìn)而使得模型訓(xùn)練困難的問(wèn)題,提高了模型訓(xùn)練效率和檢測(cè)的準(zhǔn)確性。
因教育技術(shù)學(xué)專業(yè)術(shù)語(yǔ)識(shí)別是一種特定領(lǐng)域的命名實(shí)體識(shí)別,關(guān)于其研究相對(duì)較少,所以缺乏大量的專業(yè)語(yǔ)料庫(kù)。針對(duì)以上問(wèn)題,該文采用自制數(shù)據(jù)集,通過(guò)人工標(biāo)注構(gòu)建實(shí)體語(yǔ)料;再利用BERT模型在預(yù)訓(xùn)練數(shù)據(jù)集中獲取詞向量表示,然后將詞向量輸入到BiLSTM中提取特征,最后使用CRF進(jìn)行實(shí)體標(biāo)注修正后輸出。以BERT-BiLSTM-CRF的命名實(shí)體識(shí)別方法,抽取教育技術(shù)學(xué)專業(yè)術(shù)語(yǔ),具有較高的準(zhǔn)確性。
由于教育技術(shù)學(xué)領(lǐng)域沒(méi)有開(kāi)放的數(shù)據(jù)集,該文手動(dòng)構(gòu)建了一個(gè)語(yǔ)料集用于研究。因《教育技術(shù)學(xué)研究方法》是教育技術(shù)學(xué)科必修課程,對(duì)學(xué)生掌握該專業(yè)的技能具有承上啟下的作用,該文以教育技術(shù)學(xué)專業(yè)教材《教育技術(shù)學(xué)研究方法》來(lái)構(gòu)建命名實(shí)體識(shí)別數(shù)據(jù)集。
根據(jù)教學(xué)大綱以及目錄,將實(shí)體分為3類:“研究概述類”、“研究方法類”與“數(shù)據(jù)分析類”。
教育技術(shù)學(xué)語(yǔ)料集共10 350句320 140個(gè)字,所用漢字2 150個(gè),具體頻率如表1所示。
表1 教育技術(shù)學(xué)主干課程實(shí)體出現(xiàn)頻率
教育技術(shù)學(xué)語(yǔ)料通過(guò)BIO實(shí)現(xiàn)對(duì)序列數(shù)據(jù)的聯(lián)合標(biāo)注,其中,“B-”表示命名實(shí)體中的第一個(gè)字,“I-”表示命名實(shí)體中間字和結(jié)尾字,“O”表示非實(shí)體字符,教育技術(shù)學(xué)實(shí)體標(biāo)注示例如圖1所示。
圖1 實(shí)體標(biāo)注方法及實(shí)體數(shù)量
BERT-BiLSTM-CRF教育技術(shù)學(xué)領(lǐng)域術(shù)語(yǔ)抽取模型整體結(jié)構(gòu)如圖2所示。
圖2 BERT-BiLSTM-CRF模型
因?yàn)榻逃夹g(shù)學(xué)主干課程實(shí)體的構(gòu)建中,文字中的內(nèi)容隱含于在上下文間、體現(xiàn)在字與字中的前后關(guān)系上。因此,首先使用2.1節(jié)生成的教育技術(shù)學(xué)命名實(shí)體識(shí)別數(shù)據(jù)庫(kù),作為訓(xùn)練特征輸入到BERT預(yù)訓(xùn)練語(yǔ)言模型層中,在本模型層中被標(biāo)注的字符集語(yǔ)料經(jīng)過(guò)該層將每個(gè)字符轉(zhuǎn)化為低維詞向量。其次經(jīng)過(guò)BiLSTM模塊進(jìn)行全局特征提取,將上一層輸出的詞向量序列輸入到這一層進(jìn)行語(yǔ)義編碼,自動(dòng)提取句子特征。最后是CRF層,利用這一層解碼輸出概率最大的預(yù)測(cè)標(biāo)簽序列,實(shí)現(xiàn)教育技術(shù)學(xué)研究方法術(shù)語(yǔ)的抽取。
2.2.1 BERT
因?yàn)榻逃夹g(shù)學(xué)主干課程的知識(shí)點(diǎn)分布跨度大,一個(gè)知識(shí)點(diǎn)涉及多個(gè)知識(shí)點(diǎn)的概念,主要知識(shí)點(diǎn)層級(jí)由多個(gè)分級(jí)的知識(shí)點(diǎn)構(gòu)成。而B(niǎo)ERT是一種自然語(yǔ)言處理預(yù)訓(xùn)練語(yǔ)言表征,能夠捕捉到文本語(yǔ)料的上下文信息,學(xué)習(xí)連續(xù)文本片段之間的關(guān)系并能夠計(jì)算詞語(yǔ)之間的相互關(guān)系。以BERT進(jìn)行教育技術(shù)學(xué)主干課程知識(shí)點(diǎn)特征提取,不僅包含詞上下文的語(yǔ)境或語(yǔ)義,而且攜帶上下文語(yǔ)境信息的靜態(tài)詞向量。
BERT[14]預(yù)訓(xùn)練模型主要由雙向Transformer編碼結(jié)構(gòu)組成,其中Transformer由自注意機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成,其與LSTM相比能捕捉更遠(yuǎn)距離的序列特征。
首先教育技術(shù)學(xué)語(yǔ)料庫(kù)向量經(jīng)過(guò)三個(gè)不同的全連接層,在Encoder部分得到Q(語(yǔ)料庫(kù)中當(dāng)前詞的表示)、K(Encoder中語(yǔ)料庫(kù)其他詞的表示)、V(Encoder中其他詞的表述)三個(gè)向量;在Decoder部分,得到解碼的Q(Decoder中當(dāng)前詞的表達(dá))、K(Encoder結(jié)束后所有輸入詞的表達(dá))、V(Encoder結(jié)束后所有輸入詞)三個(gè)向量;然后Q和KT進(jìn)行矩陣相乘得到單詞和其他單詞相關(guān)程度的向量QKT,最后將標(biāo)準(zhǔn)化的KT放入到Softmax激活函數(shù)中,得到詞與詞之間的關(guān)聯(lián)度向量,再乘以V得到最終向量。如公式所示:
(1)
再通過(guò)多頭結(jié)構(gòu)拼接向量結(jié)果:
MultiHead(Q,K,V)=Concat(head1,…,
headh)W
(2)
(3)
2.2.2 BiLSTM
在教育技術(shù)學(xué)主干課程實(shí)體的構(gòu)建中,文字中的內(nèi)容隱含于上下文間、體現(xiàn)在字與字中的前后關(guān)系上。而B(niǎo)iLSTM不僅可以保存短期的輸入,對(duì)雙向的語(yǔ)義關(guān)系也能夠更好地捕捉。因此該模型以BiLSTM模型作為字處理器,提取單個(gè)字的信息以及輸入語(yǔ)句內(nèi)字與字之間的關(guān)系。
BiLSTM由前向LSTM和后向LSTM組成用以提取全局的上下文特征[15]。LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),相比于傳統(tǒng)的RNN,LSTM神經(jīng)元結(jié)構(gòu)創(chuàng)新地采用了三個(gè)門(mén)控制單元,分別為輸入門(mén)、輸出門(mén)和遺忘門(mén)[16]。
遺忘門(mén)決定遺忘神經(jīng)元中的哪些信息:對(duì)前一時(shí)刻的隱層狀態(tài)ht-1與當(dāng)前時(shí)刻的輸入詞Xt,選擇要遺忘的信息,計(jì)算方式如公式(4)所示:
ft=σ(Wxfxt+Whfht-1+bf)
(4)
其中,σ為激活函數(shù),Wxf為輸入項(xiàng)Xt;Whf為輸入項(xiàng)ht-1;Wxf和Whf組成遺忘門(mén)的權(quán)重矩陣Wf,bf為偏置項(xiàng)。
輸入門(mén)控制當(dāng)前信息:通過(guò)前一時(shí)刻的隱層狀態(tài)ht-1與當(dāng)前時(shí)刻的輸入詞Xt,選擇要記憶的信息,輸出記憶門(mén)的值it與臨時(shí)細(xì)胞狀態(tài)Ct,計(jì)算公式如公式(5):
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(5)
其中,Wi為權(quán)重矩陣,bi為偏置項(xiàng)。當(dāng)前時(shí)刻單元狀態(tài)ct,由上一次的輸出和當(dāng)前的輸入確定,如公式(6):
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
(6)
其中,ct-1為前一個(gè)的單元狀態(tài),ft為遺忘門(mén)。
輸出門(mén):決定的輸出信息,計(jì)算如公式(7):
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
(7)
輸入門(mén)和單元狀態(tài)確定了長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的輸出,如公式(8):
ht=ottanh(ct)
(8)
其中,ht表示t時(shí)刻的隱藏狀態(tài),tanh是正切激活函數(shù)。通過(guò)三個(gè)門(mén)的控制,使得LSTM具有長(zhǎng)序列特征的記憶功能,同時(shí)解決了RNN訓(xùn)練過(guò)程中出現(xiàn)的梯度消失和梯度爆炸問(wèn)題。因此BiLSTM構(gòu)建模型,并根據(jù)文本中詞的分布式自動(dòng)提取特征,生成上下文預(yù)測(cè)的標(biāo)簽。
2.2.3 CRF
因?yàn)锽iLSTM的分類方式忽略字符對(duì)應(yīng)得分,會(huì)導(dǎo)致預(yù)測(cè)出非合法實(shí)體類型情況,而CRF的作用是對(duì)識(shí)別結(jié)果進(jìn)行進(jìn)一步的修正,即提取標(biāo)簽之間的依賴關(guān)系,使得識(shí)別的實(shí)體滿足標(biāo)注規(guī)則[16]。其主要的實(shí)現(xiàn)方法是給定一個(gè)輸入序列X=(x1,x2,…,xn),其對(duì)應(yīng)的預(yù)測(cè)序列為Y=(y1,y2,…,yn),通過(guò)計(jì)算Y的評(píng)分函數(shù),得到預(yù)測(cè)序列Y產(chǎn)生的概率,最后計(jì)算當(dāng)預(yù)測(cè)序列產(chǎn)生概率的似然函數(shù)為最大時(shí)的預(yù)測(cè)標(biāo)注序列作為輸出[17]。其中預(yù)測(cè)序列Y的評(píng)分函數(shù)的計(jì)算方法如公式(9)所示:
(9)
其中,X表示轉(zhuǎn)移分?jǐn)?shù)矩陣,Xyi-1,yi表示標(biāo)簽yi-1到標(biāo)簽yi的分?jǐn)?shù),Pi,yi表示第i個(gè)詞映射到標(biāo)簽yi的非歸一化概率。該文以Softmax函數(shù)來(lái)計(jì)算教育技術(shù)學(xué)語(yǔ)料預(yù)測(cè)序列概率p(Y|X):
(10)
兩頭取對(duì)數(shù)得到預(yù)測(cè)序列的似然函數(shù):
(11)
(12)
實(shí)驗(yàn)?zāi)P偷倪\(yùn)行環(huán)境為64位Ubuntu18.04操作系統(tǒng),具有實(shí)驗(yàn)的訓(xùn)練環(huán)境如表2所示。
表2 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)所用的數(shù)據(jù)集以教育技術(shù)學(xué)專業(yè)課本為例,對(duì)文本進(jìn)行標(biāo)注,根據(jù)教學(xué)大綱以及目錄,將實(shí)體類別分為3種,分別為研究概論、研究方法以及數(shù)據(jù)分析。
該文采用準(zhǔn)確率P、召回率R和F1值3個(gè)指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn),計(jì)算公式如公式(13)~公式(15):
(13)
(14)
(15)
從表3可以看到,文中方法P為81.72%,這是因?yàn)榻逃夹g(shù)學(xué)領(lǐng)域中命名實(shí)體詞組合比較靈活,相較于CNN-BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型自動(dòng)學(xué)習(xí)實(shí)體特征,采用自適應(yīng)的特征模板從窗口提取的特征往往更有效。R為75.73%,F(xiàn)1值為78.61%,因?yàn)槲闹蟹椒ㄏ噍^于BiFlaG更注重于字符級(jí)表示向量與詞嵌入向量連接,同時(shí)CRF損失函數(shù)中轉(zhuǎn)移概率矩陣可學(xué)習(xí)到很多約束的規(guī)則,使預(yù)測(cè)結(jié)果更加準(zhǔn)確。文中方法相較于IDCNN[18],能夠?qū)W習(xí)到字級(jí)詞級(jí)的特征,充分考慮到字詞在文本不同語(yǔ)境的不同含義,不存在深度神經(jīng)網(wǎng)絡(luò)帶來(lái)的模型有效信息衰減問(wèn)題。文中方法相較于HIDCNN模型,解決了長(zhǎng)距離依賴的問(wèn)題,不僅保存了模型前后時(shí)刻的狀態(tài)信息,也保存了label之間的相互關(guān)系,因此在R值與F1值上高于HIDCNN模型。
表3 命名實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果
所采用的基于BERT-BiLSTM-CRF的教育技術(shù)學(xué)專業(yè)術(shù)語(yǔ)抽取模型在P、R和F1值3個(gè)方面都優(yōu)于其他模型。
如表4所示,僅使用BERT模型時(shí)分類精度較低,因?yàn)橹煌ㄟ^(guò)遷移學(xué)習(xí)了通用領(lǐng)域的詞語(yǔ)信息,在加入了BiLSTM訓(xùn)練本文的教育技術(shù)學(xué)命名實(shí)體識(shí)別數(shù)據(jù)集后,P、R、F1值均有提高。原因有二,第一是因?yàn)槲闹薪逃夹g(shù)學(xué)命名實(shí)體識(shí)別的有效性,第二是BiLSTM-CRF通過(guò)獲取詞語(yǔ)前后的信息融入詞語(yǔ)的上下文信息,可以清楚地區(qū)分語(yǔ)料庫(kù)中的多義詞。經(jīng)過(guò)CRF再次修正后,通過(guò)大規(guī)模語(yǔ)料的預(yù)訓(xùn)練,可以有效提高教育技術(shù)學(xué)領(lǐng)域命名實(shí)體的識(shí)別精度。證明了所采用的基于BERT-BiLSTM-CRF的教育技術(shù)學(xué)專業(yè)術(shù)語(yǔ)抽取模型的有效性。
表4 實(shí)驗(yàn)結(jié)果有效性驗(yàn)證
對(duì)教育技術(shù)學(xué)領(lǐng)域命名實(shí)體識(shí)別進(jìn)行了研究,設(shè)計(jì)了一種基于BERT的教育技術(shù)學(xué)文本命名實(shí)體識(shí)別方法。首先根據(jù)網(wǎng)絡(luò)資料以及教育技術(shù)學(xué)主干課程的教材《教育技術(shù)學(xué)研究方法》完成了教育技術(shù)數(shù)據(jù)準(zhǔn)備工作,提出了基于“研究概述”、“研究方法”以及“數(shù)據(jù)分析”三個(gè)大類的教育技術(shù)學(xué)命名實(shí)體識(shí)別數(shù)據(jù)集。然后,根據(jù)數(shù)據(jù)集,知識(shí)點(diǎn)跨度大,字與字之間聯(lián)系緊密等特點(diǎn),設(shè)計(jì)適用于文中的BERT-BiLSTM-CRF模型,完成對(duì)文本數(shù)據(jù)字級(jí)別的抽取,充分學(xué)習(xí)上下文的特征并且能提取出全局最優(yōu)標(biāo)注序列,最終得到教育技術(shù)學(xué)主干課程實(shí)體。在實(shí)驗(yàn)中進(jìn)行了驗(yàn)證,為教育技術(shù)學(xué)主干課程知識(shí)圖譜的構(gòu)建提供了技術(shù)支撐。