楊永秀,白 宇,蔡?hào)|風(fēng),何佳蔚
(沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽(yáng) 110136)
專家信息推送是企業(yè)信息服務(wù)的重要內(nèi)容。知識(shí)圖譜能夠有效整合多源異構(gòu)數(shù)據(jù),具備快速檢索的優(yōu)點(diǎn)[1],是實(shí)現(xiàn)專家信息推送的有效方法。為構(gòu)建科技人物圖譜,需要從非結(jié)構(gòu)化的科技人物簡(jiǎn)歷中提取出人物相關(guān)信息。
現(xiàn)階段對(duì)非結(jié)構(gòu)化文本的信息抽取通常轉(zhuǎn)化為序列標(biāo)注任務(wù),主要以基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的深度學(xué)習(xí)方法為主。該方法有基于字和基于詞兩種,均難以同時(shí)具備語(yǔ)義信息豐富度高與未登錄詞數(shù)量少的優(yōu)點(diǎn),現(xiàn)有方法多將運(yùn)算后的字特征與詞特征融合作為新詞特征[2,3],不能完全保留字特征的語(yǔ)義,融合過(guò)程中字特征對(duì)新特征貢獻(xiàn)較少。現(xiàn)有信息抽取方法多使用基于深度學(xué)習(xí)及條件隨機(jī)場(chǎng)(conditional random fields,CRF)的序列標(biāo)注模型[4-7],對(duì)訓(xùn)練集中分布較少的句式特征擬合困難。為此有人將序列標(biāo)注模型與分類模型結(jié)合用于信息抽取任務(wù)[8,9],然而分類模型難以學(xué)習(xí)前后文特征分布與標(biāo)簽約束,現(xiàn)有結(jié)合方法使分類模型整體貢獻(xiàn)度較低,并沒(méi)有發(fā)揮出模型的優(yōu)勢(shì),不能彌補(bǔ)序列標(biāo)注模型的特征選擇偏差。目前將兩類模型結(jié)合用于文本信息抽取的文獻(xiàn)相對(duì)較少。
基于上述問(wèn)題,本文提出以下兩種解決方案:
(1)為全面保留文本語(yǔ)義信息,有效表達(dá)科技人物簡(jiǎn)歷中的領(lǐng)域術(shù)語(yǔ),采用面向研究領(lǐng)域?qū)I(yè)術(shù)語(yǔ)的字詞協(xié)同表示方法以提高簡(jiǎn)歷文本的表達(dá)能力,使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM)結(jié)合CRF模型完成對(duì)簡(jiǎn)歷文本的標(biāo)注,該方法有效減少了未登錄詞的數(shù)量且保證了文本信息豐富度。
(2)針對(duì)現(xiàn)有的信息抽取模型難以捕捉科技人物簡(jiǎn)歷中特殊句式及信息間關(guān)聯(lián)關(guān)系,存在學(xué)習(xí)經(jīng)歷識(shí)別偏好的問(wèn)題。提出將梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)[10]模型用于學(xué)習(xí)經(jīng)歷和工作經(jīng)歷所包含的時(shí)間及單位信息的分類矯正方法。
科技人物簡(jiǎn)歷信息的抽取對(duì)文本特征表達(dá)的質(zhì)量要求較高,本文提出字詞協(xié)同的文本表達(dá)方法以全面表征科技人物簡(jiǎn)歷的語(yǔ)義信息??紤]到簡(jiǎn)歷信息抽取過(guò)程中的長(zhǎng)距離依賴性[11],將雙向LSTM-CRF的模型對(duì)簡(jiǎn)歷文本進(jìn)行建模,即利用雙向LSTM提取字詞協(xié)同表達(dá)文本特征,輸出標(biāo)簽概率,通過(guò)CRF層引入標(biāo)簽約束,尋找最優(yōu)標(biāo)簽序列。科技人物簡(jiǎn)歷中描述工作經(jīng)歷與時(shí)間經(jīng)歷的語(yǔ)言結(jié)構(gòu)相似,現(xiàn)有序列標(biāo)注模型未能獲取到學(xué)習(xí)經(jīng)歷與工作經(jīng)歷的前后文特征差異。因此本文提出使用GBDT算法對(duì)工作經(jīng)歷與時(shí)間經(jīng)歷中的時(shí)間和單位信息再分類,為了節(jié)約訓(xùn)練時(shí)間成本在深度學(xué)習(xí)的識(shí)別結(jié)果的基礎(chǔ)上,對(duì)每個(gè)待分類項(xiàng)提取文本特征最后使用GBDT算法重新區(qū)分它們所屬的經(jīng)歷類別。本文整體任務(wù)流程,如圖1所示。
圖1 科技人物簡(jiǎn)歷信息抽取流程
本文所使用的科技人物簡(jiǎn)歷來(lái)源豐富,研究領(lǐng)域信息中,常見(jiàn)不同領(lǐng)域的專業(yè)術(shù)語(yǔ),其中不乏部分中英文、標(biāo)點(diǎn)符號(hào)混合詞匯,如“桑蒂苷”、“訶子”、“POP原子鐘”等?,F(xiàn)有的文本表達(dá)方法未能有效表達(dá)上述領(lǐng)域術(shù)語(yǔ),導(dǎo)致模型對(duì)研究領(lǐng)域信息識(shí)別困難。表1為科技人物簡(jiǎn)歷中多語(yǔ)種混合信息的數(shù)量以及包含專業(yè)術(shù)語(yǔ)的研究領(lǐng)域信息數(shù)量占研究領(lǐng)域信息總數(shù)量的比重。
表1 關(guān)于研究領(lǐng)域信息的統(tǒng)計(jì)結(jié)果
圖2為研究領(lǐng)域信息所涉及的不同學(xué)科及其分布情況,具體展示了前20個(gè)占比較多的學(xué)科。
圖2 研究領(lǐng)域信息中所涉及的學(xué)科及其分布情況
基于上述情況由于文中一詞多義現(xiàn)象較多,為了充分保留語(yǔ)義信息,采用基于字詞協(xié)同的雙向LSTM結(jié)合CRF的序列標(biāo)注模型對(duì)文本特征進(jìn)行提取得到序列化標(biāo)簽。模型整體結(jié)構(gòu)如圖3所示。
圖3 字詞協(xié)同序列標(biāo)注整體模型框架
相比于傳統(tǒng)的Elman-RNN和Jordan-RNN[12],LSTM更加具備處理長(zhǎng)距離依賴問(wèn)題的優(yōu)勢(shì),緩解了RNN訓(xùn)練過(guò)程中的梯度爆炸和梯度消失問(wèn)題。在序列標(biāo)注任務(wù)中,多采用CRF層取代雙向LSTM的softmax輸出層,其中雙向LSTM并不會(huì)直接輸出模型預(yù)測(cè)的標(biāo)簽,而是將待標(biāo)記對(duì)象對(duì)應(yīng)所有備選標(biāo)簽的概率輸出至CRF層,采用全局歸一化的方法,在整個(gè)句子級(jí)別進(jìn)行建模。有效解決了原有模型的標(biāo)記偏置問(wèn)題。模型結(jié)構(gòu)如圖4所示。
圖4 雙向LSTM-CRF模型
對(duì)于給定一條非結(jié)構(gòu)化文本序列
X=(X1,X2,X3…Xn)
(1)
假設(shè)其所對(duì)應(yīng)的標(biāo)簽序列即網(wǎng)絡(luò)輸出的目標(biāo)序列為
y=(y1,y2,y3…yn)
(2)
則雙向LSTM層的輸出分值由以下公式得出
(3)
其中,A代表轉(zhuǎn)移分?jǐn)?shù)矩陣,P代表雙向LSTM層輸出的分?jǐn)?shù)矩陣。對(duì)于給定的文本序列X, 整個(gè)網(wǎng)絡(luò)得到的目標(biāo)序列y的概率為
(4)
其中,YX代表句子X(jué)的所有可能標(biāo)簽序列,在訓(xùn)練過(guò)程中使得正確序列的對(duì)數(shù)概率最大化
(5)
最后根據(jù)式(6)進(jìn)行解碼得到最終的預(yù)測(cè)標(biāo)簽
(6)
由于本文的科技人物來(lái)自不同的領(lǐng)域,語(yǔ)料中涉及多學(xué)科的專業(yè)知識(shí),為了避免出現(xiàn)更多的未登錄詞,與Zhang等[13]提出的Lattice LSTM對(duì)字詞特征結(jié)合的方法不同,本文并沒(méi)有利用所有潛在的詞特征,而是首先選取了置信度較高的分詞結(jié)果,采用更加細(xì)粒度的方式利用詞特征補(bǔ)充字特征的方式,以加強(qiáng)對(duì)該字的重新表達(dá),字詞協(xié)同方法如圖5所示。
圖5 字詞協(xié)同
如圖5所示,例如句子“微波遙感”常被分詞為“微波”和“遙感”,在預(yù)訓(xùn)練詞向量模型中,得到的輸出e1,2和e3,4分別代表“微波”和“遙感”,而在預(yù)訓(xùn)練字向量中得到的輸出e1,e2,e3,e4分別代表“微”、“波”、“遙”、“感”。而后將6個(gè)向量進(jìn)行聯(lián)合拼接以得到對(duì)這4個(gè)字重新表達(dá)的強(qiáng)特征向量,具體公式如下所示
E1=e1+e1,2
(7)
E2=e2+e1,2
(8)
E3=e3+e3,4
(9)
E4=e4+e3,4
(10)
最后將字詞協(xié)同特征向量送入模型中訓(xùn)練得到最終的輸出結(jié)果。
大部分科技人物簡(jiǎn)歷中會(huì)首先描述作者教育背景,導(dǎo)致模型對(duì)學(xué)習(xí)時(shí)間及學(xué)習(xí)經(jīng)歷識(shí)別有所偏好。如例1中所示模型錯(cuò)誤地將該信息識(shí)別為學(xué)習(xí)單位。對(duì)于工作時(shí)間和工作單位來(lái)說(shuō),如例2所示,簡(jiǎn)歷中常見(jiàn)“畢業(yè)后進(jìn)入……工作的表達(dá)”此類信息往往緊隨某段學(xué)習(xí)經(jīng)歷后,現(xiàn)有模型難以捕捉該句式特點(diǎn),在例2中錯(cuò)誤地將該信息識(shí)別為學(xué)習(xí)經(jīng)歷。針對(duì)以上問(wèn)題,提出基于機(jī)器學(xué)習(xí)的分類方法對(duì)時(shí)間和單位信息再矯正。其中GBDT通過(guò)殘差學(xué)習(xí),利用前一輪學(xué)習(xí)器的誤差實(shí)現(xiàn)小梯度樣本的正確劃分,對(duì)不常見(jiàn)及一些極端樣本處理能力較強(qiáng)。張春祥等[14]將該方法用于詞義消歧任務(wù);封化民等[15]將GBDT用于網(wǎng)絡(luò)入侵檢測(cè);劉金元等[16]將GBDT算法用于航班延誤分析。因此,本文提出基于GBDT的簡(jiǎn)歷信息再分類方法,以序列標(biāo)注模型識(shí)別出的學(xué)習(xí)時(shí)間、學(xué)習(xí)單位、工作時(shí)間、工作單位4類信息,作為最小分類單位,提取待分類對(duì)象的語(yǔ)言學(xué)特征,使用GBDT判斷該信息所屬經(jīng)歷類別。
例1:江**,男,中科院半導(dǎo)體所研究員。
例2:畢業(yè)后進(jìn)入中科院山西煤炭所工作。
本文提取科技人物簡(jiǎn)歷中信息之間的關(guān)聯(lián)關(guān)系、分類對(duì)象的前后文是否具備特定語(yǔ)言格式、科技人物簡(jiǎn)歷中是否具備關(guān)鍵詞信息3項(xiàng)作為待分類對(duì)象特征。表2為本文所采用的特征說(shuō)明。
表2 特征提取說(shuō)明
對(duì)于某待提取對(duì)象,首先尋找其所在簡(jiǎn)歷是否出現(xiàn)相關(guān)經(jīng)歷關(guān)鍵詞,以該信息距離最近的關(guān)鍵詞為準(zhǔn)。然后針對(duì)
待抽取對(duì)象尋找其所在的分句,并在分句內(nèi)查找關(guān)聯(lián)信息,判斷是否具備特定語(yǔ)言格式。具體提取流程見(jiàn)表3。
表3 特征提取流程
分類決策樹(shù)是一種以樹(shù)狀圖為基礎(chǔ)的對(duì)實(shí)例進(jìn)行分類的有監(jiān)督機(jī)器學(xué)習(xí)算法。常用的生成算法有ID3、C4.5、CART。梯度提升決策樹(shù)算法的實(shí)質(zhì)是以決策樹(shù)為基函數(shù)的提升算法,在訓(xùn)練過(guò)程中采用殘差擬合的方式,首先選擇梯度大的樣本計(jì)算信息增益[17]。當(dāng)達(dá)到預(yù)設(shè)的迭代次數(shù)或剩余樣本梯度足夠小不需再去擬合時(shí)結(jié)束。最后以累加的方式得到最終的結(jié)論。訓(xùn)練過(guò)程中第M棵決策樹(shù)如式(11)所示
(11)
其中,M代表決策樹(shù)個(gè)數(shù);Φm代表決策樹(shù)參數(shù);T(x;Φm) 是決策樹(shù)。具體訓(xùn)練過(guò)程如下:
(1)初始化提升樹(shù)
F0(x)=0
(12)
(2)采用向前分布算法,得到第m步的模型為
Fm(x)=Fm-1(x)+T(x;Φm)
(13)
(3)利用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化來(lái)計(jì)算下一步參數(shù)Φm
(14)
(4)其中L為損失函數(shù)采用平方誤差損失函數(shù)計(jì)算,如式(15)所示
L[y,F(x)]=[y,F(x)]2=
[y-Fm-1(x)-T(xi;Φm)]2
(15)
本文所使用的簡(jiǎn)歷文本是從多家研究所及高校的科研人員主頁(yè)中獲取的非結(jié)構(gòu)化的簡(jiǎn)歷文本共3000條,每條包含150至700個(gè)漢字,16種待抽取信息共64 379個(gè)標(biāo)注項(xiàng)。按照7∶1∶2分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。圖6為各項(xiàng)信息分布及所含標(biāo)注項(xiàng)數(shù)量。
圖6 各項(xiàng)信息分布及所含標(biāo)注數(shù)量
本文采用精確率(P)、召回率(R)和F1值作為評(píng)價(jià)指標(biāo)。在測(cè)試過(guò)程中,只有當(dāng)一個(gè)信息的邊界和信息類型都完全正確時(shí),才認(rèn)為該信息識(shí)別正確。評(píng)價(jià)標(biāo)準(zhǔn)具體定義如下
(16)
(17)
(18)
其中,Tp為模型識(shí)別正確的信息個(gè)數(shù),F(xiàn)P為模型識(shí)別出的不正確的信息個(gè)數(shù),F(xiàn)N為模型未識(shí)別到的正確信息個(gè)數(shù)。
本節(jié)將設(shè)置科技人物簡(jiǎn)歷中研究領(lǐng)域信息抽取實(shí)驗(yàn),選擇在總體抽取結(jié)果以及研究領(lǐng)域抽取結(jié)果表現(xiàn)較好的序列標(biāo)注模型以支持下一步對(duì)時(shí)間和單位分類矯正的實(shí)驗(yàn)。最后將會(huì)給出最終模型對(duì)所有信息的抽取結(jié)果并針對(duì)實(shí)驗(yàn)結(jié)果予以分析。
4.2.1 研究領(lǐng)域信息抽取方法對(duì)比
研究領(lǐng)域信息結(jié)果見(jiàn)表4,表4展示了本文所使用的基于字詞協(xié)同的信息抽取方法及現(xiàn)有其他方法對(duì)研究領(lǐng)域信息的抽取結(jié)果。表4中所有的模型若涉及到LSTM均使用一層雙向LSTM,且雙向LSTM層節(jié)點(diǎn)數(shù)均設(shè)置為120,模型迭代次數(shù)均為30次,訓(xùn)練過(guò)程中使用Dropout算法[18]防止過(guò)擬合。
表4 序列標(biāo)注模型抽取結(jié)果對(duì)比
根據(jù)表4中各模型對(duì)研究領(lǐng)域信息抽取的精確率、召回率和F1值可以看出,基于字詞協(xié)同的文本表達(dá)方法能夠有效提高模型對(duì)研究領(lǐng)域信息的識(shí)別性能。相比于Strubell等[19]和Huang Z等[20]提出的方法本文所采用的模型照比基于字和基于詞的雙向LSTM-CRF模型對(duì)研究領(lǐng)域信息識(shí)別的F1值分別提升了4.39%和4.98%。在總體的抽取結(jié)果上分別提升了1.82%和1.67%。本文還與殷章志等[8]中提出的字詞模型融合方法做了對(duì)比,實(shí)驗(yàn)結(jié)果表明本文的字詞協(xié)同方法更適合對(duì)科技人物簡(jiǎn)歷信息進(jìn)行抽取。而Devlin等[21]提出的BERT動(dòng)態(tài)文本表達(dá)方法,由于其中的遮擋語(yǔ)言模型會(huì)隨機(jī)掩蓋住文本中15%的單詞。為了減少這種隨機(jī)遮擋所帶來(lái)的負(fù)面影響,BERT對(duì)訓(xùn)練數(shù)據(jù)規(guī)模要求較高,由于本文中使用的數(shù)據(jù)規(guī)模有限,因此很難達(dá)到期望的效果。該模型雖然獲得了最高的召回率但是在精確率以及F1值上照比本文提出的方法表現(xiàn)較差。
4.2.2 分類矯正方法對(duì)比
在上述的實(shí)驗(yàn)中,已經(jīng)獲得了在研究領(lǐng)域以及總體抽取結(jié)果上最優(yōu)的序列標(biāo)注模型。接下來(lái)針對(duì)上述序列標(biāo)注模型對(duì)學(xué)習(xí)時(shí)間、學(xué)習(xí)單位、工作時(shí)間、工作單位分類混淆的問(wèn)題,為了使GBDT更有針對(duì)性,對(duì)易分類混淆的信息進(jìn)行區(qū)分,同時(shí)節(jié)約訓(xùn)練過(guò)程的時(shí)間成本,在原有序列標(biāo)注模型識(shí)別基礎(chǔ)上只針對(duì)以上4類提取特征重新區(qū)分它們所屬經(jīng)歷類別,至于其它錯(cuò)誤暫不予修正。在這部分實(shí)驗(yàn)中設(shè)置了同等數(shù)據(jù)條件下決策樹(shù)算法、KNN(K-nearest neighbor,KNN)算法以及使用RBF核函數(shù)的支持向量機(jī)算法(support vector machine,SVM)與本文提出的基于GBDT分類算法進(jìn)行對(duì)比。實(shí)驗(yàn)中GBDT模型的學(xué)習(xí)率設(shè)置為0.5、迭代次數(shù)設(shè)置為20、樹(shù)的最大深度設(shè)置為5。決策樹(shù)模型的最大深度同樣設(shè)置為5,SVM的懲罰系數(shù)設(shè)置為1,KNN模型的K近臨數(shù)設(shè)置為4。以基于字詞協(xié)同的雙向LSTM-CRF模型為該部分實(shí)驗(yàn)的基線模型,分類實(shí)驗(yàn)結(jié)果見(jiàn)表5。
表5 分類實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果可以看出使用機(jī)器學(xué)習(xí)的分類算法均能在原有序列標(biāo)注模型分類的基礎(chǔ)上提高兩種時(shí)間和單位信息的分類正確率。其中本文所提出的基于GBDT的分類方法照比基于字詞協(xié)同的雙向LSTM-CRF對(duì)工作時(shí)間、工作單位、學(xué)習(xí)時(shí)間、學(xué)習(xí)單位識(shí)別的F1值分別提升了1.29%、1.26%、1.97%、2.03%。其中對(duì)學(xué)習(xí)時(shí)間和學(xué)習(xí)單位識(shí)別的精確率提升了3.34%和3.16%,對(duì)工作時(shí)間和工作單位識(shí)別的召回率同樣提升了2.4%和2.26%。說(shuō)明基于GBDT的再分類方法一定程度上解決了基于字詞協(xié)同的雙向LSTM-CRF模型對(duì)學(xué)習(xí)時(shí)間和學(xué)習(xí)單位的分類偏好問(wèn)題。其中KNN模型的分類性能相對(duì)較差,這是因?yàn)镵NN模型通過(guò)計(jì)算樣本之間的距離來(lái)進(jìn)行決策,隨著數(shù)據(jù)維度的增加,一些不常見(jiàn)的特征樣本并沒(méi)有出現(xiàn)在觀測(cè)點(diǎn)附近,導(dǎo)致模型預(yù)測(cè)精度稍差。而基于決策樹(shù)和SVM的分類方法,雖然具備相對(duì)較高的魯棒性,但仍然不能處理一些極端樣本。當(dāng)樣本特征中有兩個(gè)值分別指向不同的類別,而
另一個(gè)特征態(tài)度不明確時(shí),模型很難進(jìn)行判斷。相比而言,GBDT算法可以通過(guò)增加決策樹(shù)的數(shù)量來(lái)減少模型的偏差[22],通過(guò)多個(gè)分類器的集成,增加了模型的多樣性,更好地容忍訓(xùn)練集中的樣本偏差具備更強(qiáng)的泛化能力,對(duì)極端樣本的處理能力更強(qiáng)。
4.2.3 實(shí)驗(yàn)結(jié)果分析及最終抽取結(jié)果
以黃勝等[11]所提出的雙向LSTM-CRF模型為例,以下是基于字、基于詞以及基于字詞協(xié)同方法的對(duì)比實(shí)例。
例3:從事年輕雙星/多重星高分辨率觀測(cè)研究。
字特征:輕雙星/多重星高分辨率觀測(cè)
詞特征:年輕雙星/多重星高分辨率觀測(cè)
字詞協(xié)同特征:年輕雙星/多重星高分辨率觀測(cè)
例4:研究重點(diǎn)是非糧植物菊芋的綜合開(kāi)發(fā)。
字特征:非糧植物菊芋的綜合開(kāi)發(fā)
詞特征:是非糧植物菊芋的綜合開(kāi)發(fā)
字詞協(xié)同特征:非糧植物菊芋的綜合開(kāi)發(fā)
由上例可以看出,基于字詞協(xié)同的抽取方法能夠結(jié)合字特征以及詞特征的優(yōu)點(diǎn),在基于字特征和基于詞特征的方法一個(gè)識(shí)別正確,而另一個(gè)識(shí)別錯(cuò)誤的情況下能夠進(jìn)行修正。
針對(duì)部分信息分類混淆的問(wèn)題,以基于字詞協(xié)同的雙向LSTM-CRF的序列標(biāo)注模型為基礎(chǔ),下面是一個(gè)具體的分類實(shí)例。
例5:王**,現(xiàn)為中科院半導(dǎo)體所研究員。
序列標(biāo)注:學(xué)習(xí)單位
GBDT:工作單位
例6:1996~1999,助教,桂林電子科技大學(xué)
序列標(biāo)注:學(xué)習(xí)時(shí)間
GBDT:工作時(shí)間
由上例可以看出使用GBDT再分類的方法能夠有效緩解序列標(biāo)注模型對(duì)學(xué)習(xí)時(shí)間、學(xué)習(xí)單位、工作時(shí)間、工作單位的分類偏差,充分驗(yàn)證本文所提方法更適合對(duì)科技人物簡(jiǎn)歷信息進(jìn)行抽取。表6是基于GBDT矯正的字詞協(xié)同科技人物簡(jiǎn)歷信息抽取結(jié)果。
表6 科技人物簡(jiǎn)歷信息最終抽取結(jié)果
本文對(duì)科技人物簡(jiǎn)歷信息的抽取將重心放在了對(duì)研究領(lǐng)域信息的識(shí)別以及對(duì)工作經(jīng)歷和學(xué)習(xí)經(jīng)歷所包含的時(shí)間和單位信息的識(shí)別上。針對(duì)科技人物簡(jiǎn)歷包含較多專業(yè)名詞及領(lǐng)域術(shù)語(yǔ),現(xiàn)有序列標(biāo)注方法很難對(duì)科技人物簡(jiǎn)歷中研究領(lǐng)域信息進(jìn)行識(shí)別,本文提出一種基于字詞協(xié)同的簡(jiǎn)歷信息抽取方法。實(shí)驗(yàn)結(jié)果表明,使用字詞協(xié)同的方法在多個(gè)模型上均能夠提高模型對(duì)研究領(lǐng)域信息的識(shí)別性能,其中字詞協(xié)同雙向LSTM結(jié)合CRF的模型,在抽取結(jié)果上優(yōu)于現(xiàn)有其它序列標(biāo)注模型。為了充分發(fā)揮序列標(biāo)注模型以及分類模型的優(yōu)點(diǎn),提高模型對(duì)工作經(jīng)歷和學(xué)習(xí)經(jīng)歷所包含的時(shí)間和單位信息的分類性能,本文提出了基于GBDT的信息再分類方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠解決序列標(biāo)注模型對(duì)上述信息的分類不平衡問(wèn)題,提高了模型對(duì)工作經(jīng)歷和學(xué)習(xí)經(jīng)歷中時(shí)間和單位信息的識(shí)別能力。
本文中所使用的語(yǔ)料涉及多個(gè)學(xué)科不同領(lǐng)域的人物簡(jiǎn)歷,但每個(gè)領(lǐng)域所包含的簡(jiǎn)歷數(shù)量較少,且信息數(shù)量分布不均,在下一步的任務(wù)中,考慮使用文本數(shù)據(jù)增強(qiáng)的方法以擴(kuò)充語(yǔ)料中不同領(lǐng)域科技人物簡(jiǎn)歷數(shù)量,進(jìn)一步提升模型對(duì)研究領(lǐng)域信息抽取性能,在分類算法上,由于當(dāng)前特征提取工作仍然需要人工參與,下一步工作考慮使用深度學(xué)習(xí)自動(dòng)提取文本特征。