李昊澤 云南師范大學(xué)
命名實(shí)體識別的是從非結(jié)構(gòu)化或半結(jié)構(gòu)化等文本中提取出來的所需要的內(nèi)容使其變成為有用的文本內(nèi)容。在現(xiàn)在這個大數(shù)據(jù)以及云計算的時代,主要面對的用戶的群體是各式各樣的普通用戶,對于不同的群體所需要從文本內(nèi)容中提取的信息野不盡相同。所以,如何高效的從幾何級數(shù)的互聯(lián)網(wǎng)看似雜亂無章的數(shù)據(jù)中抽取出來對各類用戶有用的文本信息顯得非常的重要。命名實(shí)體識別技術(shù)為了解決上述提出的主要問題提供了一種新的思路。中文命名實(shí)體識別技術(shù)是自然語言處理的基礎(chǔ)并且也是主要的任務(wù)?,F(xiàn)在的自然語言處理任務(wù)都需要先運(yùn)用到命名實(shí)體識別等基礎(chǔ)的任務(wù)。如海量文本的情感分析、語義的標(biāo)注任務(wù)以及機(jī)器翻譯等領(lǐng)域中都非常普遍用到命名實(shí)體識別技術(shù),所以,對于命名實(shí)體識別的研究對于自然語言處理領(lǐng)域來說是具有非常重要的意義。
長短期記憶網(wǎng)絡(luò)(LSTM)就是為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)因?yàn)樘荻认沟脽o法利用距離過遠(yuǎn)的信息這個問題。一般來說循環(huán)神經(jīng)網(wǎng)絡(luò)在6 層以后記憶的能力已經(jīng)接近為零了。長短期記憶網(wǎng)絡(luò)模型解決了循環(huán)神經(jīng)網(wǎng)絡(luò)存在梯度消失會使得無法利用距離過遠(yuǎn)的信息這個問題,提出短期和長期記憶單元的引入,其主要目的是將信息存儲在內(nèi)存單元,更新,和衰減記憶單元和輸入/輸出將由多個門控制對應(yīng)的記憶單元,學(xué)會控制的參數(shù)對應(yīng)的記憶單元門決定信息的記憶單元存儲或遺忘。在長短期記憶網(wǎng)絡(luò)模型里,設(shè)長短期記憶網(wǎng)絡(luò)在t 時刻的輸入是i_t,t-1 時刻的隱藏層和記憶單元分別為h_(t-1)、c_(t-1),輸出t 時刻的隱藏層h_t和記憶單元c_t。
(1)門信息公式:
(2)記憶單元值的公式:
(3)t 時刻隱藏層值的公式:
其中W 和b 均表示參數(shù),σ一般取sigmod 函數(shù) 。
從以上的門信息、記憶單元值以及t 時刻的隱藏層值的計算公式我們可以看出來,不添加門的時候記憶單元值與輸入門來乘得到的數(shù)值放到記憶單元值里,這樣就可以把信息放到里面,而對于門信息里的遺忘門與t-1 時刻的隱藏層的值乘起來,這樣得到的數(shù)值,把數(shù)值放到放到記憶單元里,主要會使得記憶單元的衰減,將t 時刻的記憶單元與輸出門相乘,使記憶單元中的信息輸出到隱藏層,從而影響t+1 時刻各個門的輸出。有了控制信息的記憶單元,網(wǎng)絡(luò)就可以存儲對任務(wù)最有用的信息。可以看出,LSTM 基本解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中梯度消失的缺陷。
長短期記憶網(wǎng)絡(luò)模型雖然理論上解決了解決解決循環(huán)神經(jīng)網(wǎng)絡(luò)因?yàn)榇嬖谔荻认沟脽o法利用距離過遠(yuǎn)的信息這個問題,但是在實(shí)際實(shí)驗(yàn)過程中,我們還是會發(fā)現(xiàn)長期記憶和短期記憶的網(wǎng)絡(luò)模型只能利用以前的歷史信息,而沒有考慮到后面文本對前面文本的影響,這也是非常重要的。此外,對于整個序列標(biāo)注任務(wù),如果沒有充分利用上下文信息進(jìn)行預(yù)測是不準(zhǔn)確的。對于長短期記憶網(wǎng)絡(luò)模型所存在的問題,又有學(xué)者提出了雙向長短期記憶網(wǎng)絡(luò)(Bi LSTM)模型,雙向長短期記憶網(wǎng)絡(luò)模型可以使得其同時使用整個序列的信息,也就是可以考慮到上下文的信息。雙向長短期記憶網(wǎng)絡(luò)模型是由反向LSTM 網(wǎng)絡(luò)和正向LSTM 網(wǎng)絡(luò)組成,在雙向計算輸入序列時,可以充分考慮輸入序列上下文信息的使用。并且長短期記憶網(wǎng)絡(luò)模型不僅可以捕捉到對于時序的動態(tài)信息,而且也可以利用到當(dāng)前詞的前后文信息,使得最后獲得較好的依賴關(guān)系。
對于以上所闡述的的命名實(shí)體識別模型LSTM 以及BiLSTM,我們可以發(fā)現(xiàn)在做實(shí)體識別的任務(wù)時,長短期記憶網(wǎng)絡(luò)模型不僅可以捕捉到對于時序的動態(tài)信息,而且也可以利用到當(dāng)前詞的前后文信息,使得最后獲得較好的依賴關(guān)系,使得命名實(shí)體識別的效果顯著提升,并且結(jié)合中文語言的結(jié)構(gòu)特點(diǎn),可以做到充分挖掘文本序列中的潛在信息,從而更好的識別實(shí)體.