程鐘慧 陳珂 陳剛 徐世澤 傅丁莉
摘 ?要:命名實(shí)體識(shí)別是一項(xiàng)從非結(jié)構(gòu)化大數(shù)據(jù)集中抽取有意義的實(shí)體的技術(shù)。命名實(shí)體識(shí)別技術(shù)有著非常廣泛的應(yīng)用,例如從軌道交通列車產(chǎn)生的海量運(yùn)行控制日志中抽取日期、列車、站臺(tái)等實(shí)體信息進(jìn)行進(jìn)階數(shù)據(jù)分析。近年來(lái),基于學(xué)習(xí)的方法成為主流,然而這些算法嚴(yán)重依賴人工標(biāo)注,訓(xùn)練集較小時(shí)會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,無(wú)法達(dá)到預(yù)期的泛化效果。針對(duì)以上問(wèn)題,本文提出了一種基于強(qiáng)化學(xué)習(xí)的協(xié)同訓(xùn)練框架,在少量標(biāo)注數(shù)據(jù)的情況下,無(wú)須人工參與,利用大量無(wú)標(biāo)注數(shù)據(jù)自動(dòng)提升模型性能。在兩種不同領(lǐng)域的語(yǔ)料上進(jìn)行實(shí)驗(yàn),模型F1值均提升10%,證明了本文方法的有效性和通用性。同時(shí),與傳統(tǒng)的協(xié)同訓(xùn)練方法進(jìn)行對(duì)比,本文方法F1值高于其他方法5%,實(shí)驗(yàn)結(jié)果表明本文方法更加智能。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);協(xié)同訓(xùn)練;命名實(shí)體識(shí)別
中圖分類號(hào):TP391.1 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:Named entity recognition(NER)is a technique for extracting meaningful entities from unstructured big datasets.NER has a wide range of applications.An example of NER is advanced data analysis which extracts date,train,platform and other entity information from a large operation logs dataset produced by rail transit trains.In recent years,the reinforcement learning based method has become the mainstream method of solving this task.However,these algorithms rely heavily on manual labeling.The over-fitting problem may occur when the training set is small,and cannot achieve the expected generalization effect.In this paper,we propose a novel method,Reinforced Co-Training.With only small amount of labeled data,the performance of the named entity recognition model can be automatically improved by using a large amount of unlabeled data.We have experimented our framework on corpus in two different fields,the results show that the F1 value of our proposed method is increased by 10%,which proves the effectiveness and generality of the method in this paper.We also compared our method with the traditional co-training methods,the F1 value of our method is 5% higher than other methods,which shows that this method is more intelligent.
Keywords:reinforcement learning;co-training;named entity recognition
1 ? 引言(Introduction)
給定一個(gè)非結(jié)構(gòu)化大數(shù)據(jù)集(如軌道交通列車控制系統(tǒng)產(chǎn)生的車輛運(yùn)行控制日志),命名實(shí)體識(shí)別(NER)技術(shù)的目的是從該數(shù)據(jù)集中提取出具有特定意義的實(shí)體,如站臺(tái)名、列車號(hào)、控制指令等[1],進(jìn)而為其他大數(shù)據(jù)建模任務(wù)提供實(shí)用信息。研究者們將NER任務(wù)歸約為序列標(biāo)注問(wèn)題[2],基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法和深度學(xué)習(xí)的方法成為主流,例如條件隨機(jī)場(chǎng)模型[3],基于卷積網(wǎng)絡(luò)的序列標(biāo)注模型[4]以及基于雙向LSTM網(wǎng)絡(luò)的模型[5]等。然而,基于學(xué)習(xí)的方法嚴(yán)重依賴人工標(biāo)注,訓(xùn)練集較小時(shí)會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,無(wú)法達(dá)到預(yù)期的泛化效果。同時(shí),命名實(shí)體具有極強(qiáng)的不確定性,在進(jìn)行大規(guī)模的數(shù)據(jù)標(biāo)注時(shí)需要消耗大量的人力和時(shí)間,其代價(jià)是難以接受的。與標(biāo)注語(yǔ)料不同,無(wú)標(biāo)注語(yǔ)料數(shù)量巨大且極易獲得,因此如何發(fā)揮大量無(wú)標(biāo)注語(yǔ)料的價(jià)值,在少量標(biāo)注數(shù)據(jù)的情況下改善模型學(xué)習(xí)性能是命名實(shí)體識(shí)別進(jìn)一步研究的重點(diǎn)。
半監(jiān)督學(xué)習(xí)[6]方法通常利用大量的無(wú)標(biāo)注數(shù)據(jù)來(lái)輔助少量的有標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí),從而提高模型學(xué)習(xí)性能。協(xié)同訓(xùn)練(Co-training)[7]是廣泛使用的半監(jiān)督學(xué)習(xí)方法之一,它利用兩個(gè)學(xué)習(xí)器的“相容互補(bǔ)性”來(lái)互相標(biāo)記樣本擴(kuò)大訓(xùn)練集,從而達(dá)到借助無(wú)標(biāo)注數(shù)據(jù)提升學(xué)習(xí)性能的目的。協(xié)同訓(xùn)練的關(guān)鍵在于挑選高質(zhì)量的無(wú)標(biāo)注數(shù)據(jù)添加到訓(xùn)練集中,目前通常使用啟發(fā)式的樣本選擇策略。然而,現(xiàn)有的協(xié)同訓(xùn)練算法存在一些缺陷。首先,在訓(xùn)練過(guò)程中,每次添加兩個(gè)弱分類器的偽標(biāo)注數(shù)據(jù)到訓(xùn)練集中,會(huì)造成噪聲累積。其次,由于少量標(biāo)注數(shù)據(jù)和大量無(wú)標(biāo)注數(shù)據(jù)在分布上具有一定差異,在訓(xùn)練一段時(shí)間后,會(huì)導(dǎo)致采樣偏差向無(wú)標(biāo)注數(shù)據(jù)方向偏移,進(jìn)而導(dǎo)致訓(xùn)練模型性能降低。此外,傳統(tǒng)的協(xié)同訓(xùn)練方法為了減少噪聲的引入,每次添加模型置信度高的預(yù)測(cè)結(jié)果到訓(xùn)練集中,容易造成局部采樣限制,會(huì)限制模型泛化能力[8]。
因此,一種理想的協(xié)同訓(xùn)練算法應(yīng)該具備兩個(gè)特性,一是擴(kuò)充訓(xùn)練集帶來(lái)的噪聲應(yīng)盡可能小,二是能對(duì)數(shù)據(jù)空間進(jìn)行充分探索,以獲得更好的泛化學(xué)習(xí)性能?;谝陨希疚睦蒙疃萉網(wǎng)絡(luò)(Deep Q-network)[9]自動(dòng)學(xué)習(xí)選擇策略替代傳統(tǒng)的啟發(fā)式樣本選擇策略,進(jìn)而提高協(xié)同訓(xùn)練效果。
本文的主要貢獻(xiàn)如下:
(1)提出了一種基于強(qiáng)化學(xué)習(xí)的協(xié)同訓(xùn)練框架,在少量標(biāo)注數(shù)據(jù)情況下,無(wú)須人工參與,利用大量無(wú)標(biāo)注數(shù)據(jù)自動(dòng)提升命名實(shí)體識(shí)別模型的性能。
(2)提出了一種基于實(shí)體級(jí)置信度的模型集成方法,減少協(xié)同訓(xùn)練過(guò)程中噪聲的引入,進(jìn)一步提高添加樣本的質(zhì)量。
(3)在人民日?qǐng)?bào)和金融新聞?wù)Z料上進(jìn)行重復(fù)實(shí)驗(yàn),證明了本文方法的有效性、通用性和魯棒性。同時(shí),與傳統(tǒng)的協(xié)同訓(xùn)練方法進(jìn)行對(duì)比實(shí)驗(yàn),本文方法F1值高于其他方法5%。
2 ? 相關(guān)工作(Related work)
針對(duì)如何在少量標(biāo)注數(shù)據(jù)的情況下,使用半監(jiān)督學(xué)習(xí)方法進(jìn)行命名實(shí)體識(shí)別任務(wù),已有學(xué)者做了相關(guān)研究。Liao[10]等人提出了一種基于CRF單一分類器的半監(jiān)督命名實(shí)體識(shí)別方法,需要人工分析數(shù)據(jù),提取有效規(guī)則,難度較大且規(guī)則的領(lǐng)域移植性較差。Aryoyudanta[11]等人使用SVM單一分類器,基于上下文和實(shí)體兩種不同的屬性視圖構(gòu)建兩個(gè)學(xué)習(xí)器進(jìn)行協(xié)同訓(xùn)練。Xiao[12]等人提出了一種基于CRF和SVM協(xié)同訓(xùn)練的中文機(jī)構(gòu)實(shí)體識(shí)別算法,定義了一種啟發(fā)式樣本選擇策略。然而,這些半監(jiān)督學(xué)習(xí)方法都是基于人工預(yù)先設(shè)定的樣本選擇策略,無(wú)法對(duì)數(shù)據(jù)空間進(jìn)行充分準(zhǔn)確的學(xué)習(xí)。協(xié)同訓(xùn)練算法的核心在于樣本選擇策略,Zhang[13]等人提出了一種性能驅(qū)動(dòng)的樣本選擇策略,選擇有助于提高分類精度的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)。同時(shí),Chawla[14]等人論證了隨機(jī)挑選樣本的方法會(huì)導(dǎo)致訓(xùn)練模型向無(wú)標(biāo)注數(shù)據(jù)分布方向發(fā)生采樣偏移。
與上述半監(jiān)督命名實(shí)體識(shí)別方法相比,本文使用深度強(qiáng)化學(xué)習(xí)模型自動(dòng)學(xué)習(xí)樣本選擇策略。深度強(qiáng)化學(xué)習(xí)(DRL)[15,16]是人工智能領(lǐng)域新的研究熱點(diǎn),它將深度學(xué)習(xí)(DL)[17]在特征表示方面較強(qiáng)的抽象感知能力和強(qiáng)化學(xué)習(xí)(RL)[18]的推理決策能力相結(jié)合。Lange[19]等人最先將深度學(xué)習(xí)模型和強(qiáng)化學(xué)習(xí)方法結(jié)合,提出了一種深度自動(dòng)編碼器,但是只適用于狀態(tài)空間維度較小的問(wèn)題。Mnih[9]等人結(jié)合深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)強(qiáng)化學(xué)習(xí)中求解最優(yōu)動(dòng)作值函數(shù)的Q學(xué)習(xí)算法,提出了深度Q網(wǎng)絡(luò)模型(DQN)來(lái)近似表示動(dòng)作值函數(shù)。近年來(lái),深度強(qiáng)化學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域獲得了越來(lái)越多的關(guān)注,在會(huì)話生成、文本摘要等任務(wù)中均有應(yīng)用。但由于語(yǔ)言是離散的,句子空間是無(wú)窮的,所以在將NLP任務(wù)轉(zhuǎn)化為DRL問(wèn)題時(shí)存在諸多挑戰(zhàn)。
3 ?基于強(qiáng)化學(xué)習(xí)的協(xié)同訓(xùn)練框架(Reinforced Co-training)
3.1 ? 未標(biāo)注數(shù)據(jù)子集的劃分
由于無(wú)標(biāo)注數(shù)據(jù)數(shù)量巨大,如果在每次迭代過(guò)程中只選擇一個(gè)樣本添加到訓(xùn)練集中,并重新訓(xùn)練兩個(gè)學(xué)習(xí)器,那將十分低效。所以,我們首先將大量的無(wú)標(biāo)注數(shù)據(jù)樣本切分成句子,并根據(jù)句子間的相似度大小,將其劃分成子集。這樣每次算法挑選一個(gè)無(wú)標(biāo)注數(shù)據(jù)子集作為候選樣本添加到訓(xùn)練集中,更新兩個(gè)學(xué)習(xí)器,能極大提高計(jì)算效率,節(jié)約時(shí)間成本。
4 ? 實(shí)驗(yàn)與分析(Experiment and analysis)
4.1 ? 實(shí)驗(yàn)數(shù)據(jù)
本文選用人民日?qǐng)?bào)(1998年)和金融新聞兩種不同領(lǐng)域的語(yǔ)料庫(kù)對(duì)前文提出的基于強(qiáng)化學(xué)習(xí)協(xié)同訓(xùn)練模型進(jìn)行評(píng)估實(shí)驗(yàn),其中人民日?qǐng)?bào)為通用領(lǐng)域公開數(shù)據(jù)集,是中文命名實(shí)體識(shí)別任務(wù)常用的語(yǔ)料;金融新聞是從金融網(wǎng)站上利用爬蟲技術(shù)獲取的1000篇經(jīng)人工標(biāo)注的新聞?wù)Z料,具有一定的領(lǐng)域特性。其中人民日?qǐng)?bào)語(yǔ)料共有19484個(gè)句子、52735個(gè)實(shí)體,包括人名、地名、機(jī)構(gòu)名三類;金融新聞?wù)Z料含有26233個(gè)句子、56813個(gè)實(shí)體,包括人名、地名、機(jī)構(gòu)名、日期、貨幣、百分比、時(shí)間七類。我們將原始的帶標(biāo)注語(yǔ)料劃分成四個(gè)數(shù)據(jù)集:訓(xùn)練集、驗(yàn)證集、測(cè)試集和無(wú)標(biāo)注數(shù)據(jù)集,首先隨機(jī)選取500個(gè)句子作為少量標(biāo)注訓(xùn)練集,之后從剩余的數(shù)據(jù)中選取10%作為驗(yàn)證集,10%作為測(cè)試集,其余80%去除標(biāo)注結(jié)果作為協(xié)同訓(xùn)練過(guò)程中待添加的無(wú)標(biāo)注數(shù)據(jù)集。
4.2 ? 實(shí)驗(yàn)配置
4.2.1 ? 實(shí)驗(yàn)環(huán)境
本文的實(shí)驗(yàn)是在一臺(tái)小型服務(wù)器上運(yùn)行的,CPU處理器為Intel(R) Xeon(R) Silver 4114 CPU @2.2GHz,GPU為GeForce GTX 1080Ti,內(nèi)存為100GB,操作系統(tǒng)為Ubuntu 18.04.1 LTS Server。使用的編程語(yǔ)言為Python,版本為3.6.7,使用深度學(xué)習(xí)框架TensorFlow 1.12.0。
4.2.2 ? 實(shí)驗(yàn)設(shè)置
(1)協(xié)同訓(xùn)練模型
本文選用了兩個(gè)主流的命名實(shí)體識(shí)別模型進(jìn)行協(xié)同訓(xùn)練,其一是CRF序列標(biāo)注模型[3],另一個(gè)則是基于深度學(xué)習(xí)的BiLSTM-CRF模型[5]。前者屬于傳統(tǒng)的概率圖模型,對(duì)條件分布進(jìn)行建模,后者旨在通過(guò)一個(gè)深度神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)從輸入文本到標(biāo)注序列的映射關(guān)系,是一個(gè)端到端的過(guò)程。兩種模型從學(xué)習(xí)和訓(xùn)練的原理上具有顯著的差異性和互補(bǔ)性。
實(shí)驗(yàn)使用python-crfsuite庫(kù)實(shí)現(xiàn)CRF模型。為避免分詞的影響,采用基于字符特征的CRF模型。特征方面選擇大小為2的上下文窗口,考慮前后各兩個(gè)字符對(duì)當(dāng)前字符的影響,特征包括1-Gram、2-Gram、字符所在詞的詞性以及在詞中的位置特征。BiLSTM模型的batch_size為16,學(xué)習(xí)率取0.001,采用Adam梯度下降優(yōu)化算法,為防止過(guò)擬合,實(shí)驗(yàn)中采用early_stop準(zhǔn)則,使用驗(yàn)證集,如果評(píng)價(jià)指標(biāo)在驗(yàn)證集上連續(xù)三個(gè)epoch沒(méi)有變化,就停止訓(xùn)練。
(2)網(wǎng)絡(luò)參數(shù)設(shè)置
在本文的協(xié)同訓(xùn)練框架中,我們將無(wú)標(biāo)注數(shù)據(jù)子集的數(shù)量設(shè)置為100。在候選無(wú)標(biāo)注樣本的內(nèi)容表示部分,分別通過(guò)128個(gè)大小為3、4、5的卷積核,步長(zhǎng)為1進(jìn)行卷積,使用ReLU激活函數(shù)。在不確定性表示部分,使用20個(gè)大小為3的卷積核,步長(zhǎng)為1進(jìn)行卷積。全連接層輸出向量維度為256。設(shè)置折扣因子為0.99,batch_size為32?;胤庞洃泦卧畲笕萘繛?000個(gè)轉(zhuǎn)移樣本,學(xué)習(xí)率和行為策略的參數(shù)都設(shè)置為從開始到1000個(gè)轉(zhuǎn)移樣本區(qū)間內(nèi)線性遞減的形式,即從0.005降到0.00025,從1.0降到0.0001。
(3)對(duì)比實(shí)驗(yàn)設(shè)置
我們將本文提出的基于強(qiáng)化學(xué)習(xí)的協(xié)同訓(xùn)練方法RL Co-Training與兩種經(jīng)典方法對(duì)比:
①Standard Co-Training:協(xié)同訓(xùn)練的兩個(gè)模型各自隨機(jī)選擇偽標(biāo)注樣本進(jìn)行協(xié)同訓(xùn)練[7]。
②CoTrade Co-Training:協(xié)同訓(xùn)練的兩個(gè)模型各自挑選置信度高的偽標(biāo)注樣本,添加到對(duì)方的訓(xùn)練集中[22]。
4.3 ? 實(shí)驗(yàn)結(jié)果分析
本文在人民日?qǐng)?bào)和金融新聞兩種不同領(lǐng)域的語(yǔ)料上分別進(jìn)行實(shí)驗(yàn),并與兩種經(jīng)典的協(xié)同訓(xùn)練算法Standard Co-Training,CoTrade Co-Training進(jìn)行對(duì)比。實(shí)驗(yàn)中,首先使用從語(yǔ)料中隨機(jī)選擇的500個(gè)句子作為少量的帶有標(biāo)注的訓(xùn)練數(shù)據(jù)對(duì)兩個(gè)學(xué)習(xí)模型進(jìn)行初始化,得到兩個(gè)弱學(xué)習(xí)器,之后分別使用三種不同的協(xié)同訓(xùn)練算法,每次根據(jù)各自不同的樣本選擇策略不斷添加100句偽標(biāo)注數(shù)據(jù),擴(kuò)增訓(xùn)練集,迭代訓(xùn)練學(xué)習(xí)模型,最后利用測(cè)試集計(jì)算模型對(duì)所有實(shí)體識(shí)別的F1值,具體結(jié)果如表1和表2所示。
從中可以看出,(1)本文提出的基于強(qiáng)化學(xué)習(xí)的協(xié)同訓(xùn)練方法RL Co-Training在只有少量標(biāo)注數(shù)據(jù)初始化模型的情況下,無(wú)須人工參與,通過(guò)利用大量無(wú)標(biāo)注語(yǔ)料迭代訓(xùn)練,可以有效提升模型性能,在兩種測(cè)試語(yǔ)料上模型的F1值均可有效提升10%左右,證明了本文方法的有效性和通用性;(2)本文的RL Co-Training方法表現(xiàn)效果要好于傳統(tǒng)的協(xié)同訓(xùn)練方法,其F1值高于其他方法5%左右。
為了進(jìn)一步比較分析三種協(xié)同訓(xùn)練算法樣本選擇策略的性能,圖3和圖4分別給出了在兩種語(yǔ)料上,各方法在驗(yàn)證集上F1值隨迭代次數(shù)的變化情況。在每種語(yǔ)料上分別展示了在協(xié)同訓(xùn)練迭代過(guò)程中,兩種協(xié)同訓(xùn)練模型CRF和BiLSTM,以及對(duì)兩個(gè)模型進(jìn)行集成后的性能變化,橫軸表示迭代過(guò)程中添加進(jìn)訓(xùn)練集中的偽標(biāo)注數(shù)據(jù)的句子數(shù)量,縱軸表示模型在驗(yàn)證集上的F1值。
從中可以看出:(1)在添加句子數(shù)量相同的情況下,本文的RL Co-Training方法獲得了最好的效果,模型性能的提升最大,說(shuō)明本文提出的協(xié)同訓(xùn)練算法學(xué)習(xí)效率最高;(2)Standard Co-training隨機(jī)選擇添加樣本的方法造成了模型極強(qiáng)的不穩(wěn)定性,CoTrade Co-training可以有效提升協(xié)同訓(xùn)練效果,但是每次迭代只添加置信度高的樣本限制了模型的泛化能力。本文方法與兩者相比有顯著提升,證明了本文使用強(qiáng)化學(xué)習(xí)智能體來(lái)自動(dòng)學(xué)習(xí)一種樣本選擇策略,替代傳統(tǒng)的預(yù)先定義的啟發(fā)式樣本選擇策略方法的有效性。強(qiáng)化學(xué)習(xí)智能體可以對(duì)樣本空間進(jìn)行充分探索,選取更高質(zhì)量的無(wú)標(biāo)注數(shù)據(jù),不僅可以幫助改善Standard Co-Training算法在隨機(jī)挑選樣本時(shí)發(fā)生的采樣偏移問(wèn)題,還可以改善CoTrade Co-Training算法由于局部采樣造成的對(duì)模型泛化能力的限制。
此外,為了驗(yàn)證本文方法的魯棒性,我們?cè)O(shè)計(jì)了如下實(shí)驗(yàn):首先,使用原始數(shù)據(jù)劃分訓(xùn)練強(qiáng)化學(xué)習(xí)智能體Q-agent。在測(cè)試時(shí),隨機(jī)生成另外五個(gè)訓(xùn)練集,并將剩余數(shù)據(jù)按原比例劃分為測(cè)試集和無(wú)標(biāo)注數(shù)據(jù)集,使用Q-agent已經(jīng)學(xué)到的樣本選擇策略對(duì)兩個(gè)模型重新進(jìn)行協(xié)同訓(xùn)練,將兩個(gè)模型集成后在測(cè)試集上進(jìn)行測(cè)試,結(jié)果如表3所示。結(jié)果表明,本文方法對(duì)不同的初始化訓(xùn)練集具有魯棒性,我們模型中的強(qiáng)化學(xué)習(xí)智能體Q-agent可以學(xué)習(xí)到一個(gè)良好的魯棒的樣本選擇策略來(lái)選擇高質(zhì)量的無(wú)標(biāo)注子集,以幫助協(xié)同訓(xùn)練過(guò)程。
5 ? 結(jié)論(Conclusion)
本文提出了一種基于強(qiáng)化學(xué)習(xí)的協(xié)同訓(xùn)練框架,在少量標(biāo)注數(shù)據(jù)的情況下,無(wú)須人工參與,利用大量無(wú)標(biāo)注數(shù)據(jù)自動(dòng)提升模型性能??蚣苤械膹?qiáng)化學(xué)習(xí)智能體可以學(xué)習(xí)一種良好的樣本選擇策略,選擇高質(zhì)量的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行協(xié)同訓(xùn)練。我們?cè)趦煞N不同領(lǐng)域的語(yǔ)料上對(duì)模型進(jìn)行了評(píng)估,實(shí)驗(yàn)結(jié)果表明本文方法性能優(yōu)于其他的協(xié)同訓(xùn)練算法。我們還對(duì)強(qiáng)化學(xué)習(xí)智能體進(jìn)行了測(cè)試,證明了學(xué)習(xí)到的樣本選擇策略對(duì)不同的初始化訓(xùn)練集和數(shù)據(jù)劃分具有魯棒性。在未來(lái)的研究中,我們計(jì)劃將本文提出的框架擴(kuò)展應(yīng)用到其他不同類型的任務(wù)中去。
參考文獻(xiàn)(References)
[1] Grishman R,Sundheim B.Message Understanding conference-6:a brief history[C].Proceedings of the 16th International Conference on Computational Linguistics,1996:466-471.
[2] Finkel J R,Grenager T,Manning C.Incorporating non-local information into information extraction systems by Gibbs sampling[C].Proceedings of the 2005,43rd Annual Meeting of the Association for Computational Linguistics,2005:363-370.
[3] Lafferty J,McCallum A,Pereira F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Proceedings of the 18th International Conference on Machine Learning,2001:282-289.
[4] Collobert R,Weston J,Bottou L.Natural language processing(almost) from scratch[J].Journal of Machine Learning Research,2011,12:2493-2537.
[5] Chiu J P C,Nichols E.Named entity recognition with bidirectional LSTM-CNNs[J].Transactions of the Association for Computational Linguistics,2016(4):357-370.
[6] Chapelle O,Scholkopf B,Zien A.Semi-supervised learning (chapelle,o.et al.,eds.;2006)[book reviews][J].IEEE Transactions on Neural Networks,2009,20(3):542-542.
[7] Blum A,Mitchell T.Combining labeled and unlabeled data with co-training[J].Proceedings of the eleventh annual conference on Computational learning theory,1998:92-100.
[8] Zhang R,Rudnicky A I.A new data selection principle for semi-supervised incremental learning[C].IEEE,2006(2):780-783.
[9] Minh V,Kavukcuoglu K,Silver D.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529-533.
[10] LIAO W,Veeramachaneni S.A simple semi-supervised algorithm for named entity recognition[C].Naacl Hlt Workshop on Semi-supervised Learning for Natural Language Processing,2009.
[11] Aryoyudanta B,Adji T B,Hidayah I.Semi-supervised learning approach for Indonesian named entity recognition (NER) using co-training algorithm[C].International Seminar on Intelligent Technology & Its Applications IEEE,2017.
[12] XIAO K.Chinese organization name recognition based on co-training algorithm[C].International Conference on Intelligent System & Knowledge Engineering IEEE,2008.
[13] ZHANG R,Rudnicky A I.A new data selection principle for semi-supervised incremental learning[C].18th International Conference on Pattern Recognition,IEEE Computer Society,2006:780-783.
[14] Chawla N V,Karakoulas G.Learning from labeled and unlabeled data:An empirical study across techniques and domains[J].Journal of Artificial Intelligence Research,2005,23:331-366.
[15] Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529.
[16] Silver D,Huang A,Maddison C J.Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484-489.
[17] Yu K,Jia L,Chen Y.Deep learning:yesterday,today,and tomorrow[J].Journal of computer Research and Development,2013,50(9):1799-1804.
[18] Sutton R,Barto A.Reinforcement learning:An ?Introduction[M].MIT Press,1998.
[19] Lange S,Riedmiller M.Deep auto-encoder neural networks in reinforcement learning[C].The 2010 International Joint Conference on Neural Networks,2010,1-8.
[20] Rajaraman A,Ullman J D.Finding similar items[J].Mining of Massive Datasets,2010,77:73-80.
[21] Watkins C J C H,Dayan P.Q-learning[J].Machine learning,1992,8(3-4):279-292.
[22] Zhang M L,Zhou Z H.CoTrade:confident co-training with data editing[J].IEEE Transactions on Systems,2011,41(6):1612-1626.
作者簡(jiǎn)介:
程鐘慧(1995-),女,碩士生.研究領(lǐng)域:自然語(yǔ)言處理.
陳 ?珂(1977-),女,博士,副教授.研究領(lǐng)域:時(shí)空數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘,數(shù)據(jù)隱私保護(hù).
陳 ? 剛(1973-),男,博士,教授.研究領(lǐng)域:大數(shù)據(jù)管理.
徐世澤(1973-),男,本科,高級(jí)工程師.研究領(lǐng)域:電力系統(tǒng)及自動(dòng)化.本文通訊作者.
傅丁莉(1988-),女,本科,工程師.研究領(lǐng)域:通信技術(shù).