• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向科技人物簡(jiǎn)歷的信息抽取方法

    2021-11-20 01:56:58楊永秀蔡?hào)|風(fēng)何佳蔚
    關(guān)鍵詞:協(xié)同分類領(lǐng)域

    楊永秀,白 宇,蔡?hào)|風(fēng),何佳蔚

    (沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽(yáng) 110136)

    0 引 言

    專家信息推送是企業(yè)信息服務(wù)的重要內(nèi)容。知識(shí)圖譜能夠有效整合多源異構(gòu)數(shù)據(jù),具備快速檢索的優(yōu)點(diǎn)[1],是實(shí)現(xiàn)專家信息推送的有效方法。為構(gòu)建科技人物圖譜,需要從非結(jié)構(gòu)化的科技人物簡(jiǎn)歷中提取出人物相關(guān)信息。

    現(xiàn)階段對(duì)非結(jié)構(gòu)化文本的信息抽取通常轉(zhuǎn)化為序列標(biāo)注任務(wù),主要以基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的深度學(xué)習(xí)方法為主。該方法有基于字和基于詞兩種,均難以同時(shí)具備語(yǔ)義信息豐富度高與未登錄詞數(shù)量少的優(yōu)點(diǎn),現(xiàn)有方法多將運(yùn)算后的字特征與詞特征融合作為新詞特征[2,3],不能完全保留字特征的語(yǔ)義,融合過(guò)程中字特征對(duì)新特征貢獻(xiàn)較少。現(xiàn)有信息抽取方法多使用基于深度學(xué)習(xí)及條件隨機(jī)場(chǎng)(conditional random fields,CRF)的序列標(biāo)注模型[4-7],對(duì)訓(xùn)練集中分布較少的句式特征擬合困難。為此有人將序列標(biāo)注模型與分類模型結(jié)合用于信息抽取任務(wù)[8,9],然而分類模型難以學(xué)習(xí)前后文特征分布與標(biāo)簽約束,現(xiàn)有結(jié)合方法使分類模型整體貢獻(xiàn)度較低,并沒(méi)有發(fā)揮出模型的優(yōu)勢(shì),不能彌補(bǔ)序列標(biāo)注模型的特征選擇偏差。目前將兩類模型結(jié)合用于文本信息抽取的文獻(xiàn)相對(duì)較少。

    基于上述問(wèn)題,本文提出以下兩種解決方案:

    (1)為全面保留文本語(yǔ)義信息,有效表達(dá)科技人物簡(jiǎn)歷中的領(lǐng)域術(shù)語(yǔ),采用面向研究領(lǐng)域?qū)I(yè)術(shù)語(yǔ)的字詞協(xié)同表示方法以提高簡(jiǎn)歷文本的表達(dá)能力,使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM)結(jié)合CRF模型完成對(duì)簡(jiǎn)歷文本的標(biāo)注,該方法有效減少了未登錄詞的數(shù)量且保證了文本信息豐富度。

    (2)針對(duì)現(xiàn)有的信息抽取模型難以捕捉科技人物簡(jiǎn)歷中特殊句式及信息間關(guān)聯(lián)關(guān)系,存在學(xué)習(xí)經(jīng)歷識(shí)別偏好的問(wèn)題。提出將梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)[10]模型用于學(xué)習(xí)經(jīng)歷和工作經(jīng)歷所包含的時(shí)間及單位信息的分類矯正方法。

    1 科技人物簡(jiǎn)歷信息抽取

    科技人物簡(jiǎn)歷信息的抽取對(duì)文本特征表達(dá)的質(zhì)量要求較高,本文提出字詞協(xié)同的文本表達(dá)方法以全面表征科技人物簡(jiǎn)歷的語(yǔ)義信息??紤]到簡(jiǎn)歷信息抽取過(guò)程中的長(zhǎng)距離依賴性[11],將雙向LSTM-CRF的模型對(duì)簡(jiǎn)歷文本進(jìn)行建模,即利用雙向LSTM提取字詞協(xié)同表達(dá)文本特征,輸出標(biāo)簽概率,通過(guò)CRF層引入標(biāo)簽約束,尋找最優(yōu)標(biāo)簽序列。科技人物簡(jiǎn)歷中描述工作經(jīng)歷與時(shí)間經(jīng)歷的語(yǔ)言結(jié)構(gòu)相似,現(xiàn)有序列標(biāo)注模型未能獲取到學(xué)習(xí)經(jīng)歷與工作經(jīng)歷的前后文特征差異。因此本文提出使用GBDT算法對(duì)工作經(jīng)歷與時(shí)間經(jīng)歷中的時(shí)間和單位信息再分類,為了節(jié)約訓(xùn)練時(shí)間成本在深度學(xué)習(xí)的識(shí)別結(jié)果的基礎(chǔ)上,對(duì)每個(gè)待分類項(xiàng)提取文本特征最后使用GBDT算法重新區(qū)分它們所屬的經(jīng)歷類別。本文整體任務(wù)流程,如圖1所示。

    圖1 科技人物簡(jiǎn)歷信息抽取流程

    2 面向領(lǐng)域術(shù)語(yǔ)的字詞協(xié)同表達(dá)方法

    本文所使用的科技人物簡(jiǎn)歷來(lái)源豐富,研究領(lǐng)域信息中,常見(jiàn)不同領(lǐng)域的專業(yè)術(shù)語(yǔ),其中不乏部分中英文、標(biāo)點(diǎn)符號(hào)混合詞匯,如“桑蒂苷”、“訶子”、“POP原子鐘”等?,F(xiàn)有的文本表達(dá)方法未能有效表達(dá)上述領(lǐng)域術(shù)語(yǔ),導(dǎo)致模型對(duì)研究領(lǐng)域信息識(shí)別困難。表1為科技人物簡(jiǎn)歷中多語(yǔ)種混合信息的數(shù)量以及包含專業(yè)術(shù)語(yǔ)的研究領(lǐng)域信息數(shù)量占研究領(lǐng)域信息總數(shù)量的比重。

    表1 關(guān)于研究領(lǐng)域信息的統(tǒng)計(jì)結(jié)果

    圖2為研究領(lǐng)域信息所涉及的不同學(xué)科及其分布情況,具體展示了前20個(gè)占比較多的學(xué)科。

    圖2 研究領(lǐng)域信息中所涉及的學(xué)科及其分布情況

    基于上述情況由于文中一詞多義現(xiàn)象較多,為了充分保留語(yǔ)義信息,采用基于字詞協(xié)同的雙向LSTM結(jié)合CRF的序列標(biāo)注模型對(duì)文本特征進(jìn)行提取得到序列化標(biāo)簽。模型整體結(jié)構(gòu)如圖3所示。

    圖3 字詞協(xié)同序列標(biāo)注整體模型框架

    2.1 雙向LSTM-CRF模型

    相比于傳統(tǒng)的Elman-RNN和Jordan-RNN[12],LSTM更加具備處理長(zhǎng)距離依賴問(wèn)題的優(yōu)勢(shì),緩解了RNN訓(xùn)練過(guò)程中的梯度爆炸和梯度消失問(wèn)題。在序列標(biāo)注任務(wù)中,多采用CRF層取代雙向LSTM的softmax輸出層,其中雙向LSTM并不會(huì)直接輸出模型預(yù)測(cè)的標(biāo)簽,而是將待標(biāo)記對(duì)象對(duì)應(yīng)所有備選標(biāo)簽的概率輸出至CRF層,采用全局歸一化的方法,在整個(gè)句子級(jí)別進(jìn)行建模。有效解決了原有模型的標(biāo)記偏置問(wèn)題。模型結(jié)構(gòu)如圖4所示。

    圖4 雙向LSTM-CRF模型

    對(duì)于給定一條非結(jié)構(gòu)化文本序列

    X=(X1,X2,X3…Xn)

    (1)

    假設(shè)其所對(duì)應(yīng)的標(biāo)簽序列即網(wǎng)絡(luò)輸出的目標(biāo)序列為

    y=(y1,y2,y3…yn)

    (2)

    則雙向LSTM層的輸出分值由以下公式得出

    (3)

    其中,A代表轉(zhuǎn)移分?jǐn)?shù)矩陣,P代表雙向LSTM層輸出的分?jǐn)?shù)矩陣。對(duì)于給定的文本序列X, 整個(gè)網(wǎng)絡(luò)得到的目標(biāo)序列y的概率為

    (4)

    其中,YX代表句子X(jué)的所有可能標(biāo)簽序列,在訓(xùn)練過(guò)程中使得正確序列的對(duì)數(shù)概率最大化

    (5)

    最后根據(jù)式(6)進(jìn)行解碼得到最終的預(yù)測(cè)標(biāo)簽

    (6)

    2.2 字詞協(xié)同表示方法

    由于本文的科技人物來(lái)自不同的領(lǐng)域,語(yǔ)料中涉及多學(xué)科的專業(yè)知識(shí),為了避免出現(xiàn)更多的未登錄詞,與Zhang等[13]提出的Lattice LSTM對(duì)字詞特征結(jié)合的方法不同,本文并沒(méi)有利用所有潛在的詞特征,而是首先選取了置信度較高的分詞結(jié)果,采用更加細(xì)粒度的方式利用詞特征補(bǔ)充字特征的方式,以加強(qiáng)對(duì)該字的重新表達(dá),字詞協(xié)同方法如圖5所示。

    圖5 字詞協(xié)同

    如圖5所示,例如句子“微波遙感”常被分詞為“微波”和“遙感”,在預(yù)訓(xùn)練詞向量模型中,得到的輸出e1,2和e3,4分別代表“微波”和“遙感”,而在預(yù)訓(xùn)練字向量中得到的輸出e1,e2,e3,e4分別代表“微”、“波”、“遙”、“感”。而后將6個(gè)向量進(jìn)行聯(lián)合拼接以得到對(duì)這4個(gè)字重新表達(dá)的強(qiáng)特征向量,具體公式如下所示

    E1=e1+e1,2

    (7)

    E2=e2+e1,2

    (8)

    E3=e3+e3,4

    (9)

    E4=e4+e3,4

    (10)

    最后將字詞協(xié)同特征向量送入模型中訓(xùn)練得到最終的輸出結(jié)果。

    3 基于GBDT的分類矯正

    大部分科技人物簡(jiǎn)歷中會(huì)首先描述作者教育背景,導(dǎo)致模型對(duì)學(xué)習(xí)時(shí)間及學(xué)習(xí)經(jīng)歷識(shí)別有所偏好。如例1中所示模型錯(cuò)誤地將該信息識(shí)別為學(xué)習(xí)單位。對(duì)于工作時(shí)間和工作單位來(lái)說(shuō),如例2所示,簡(jiǎn)歷中常見(jiàn)“畢業(yè)后進(jìn)入……工作的表達(dá)”此類信息往往緊隨某段學(xué)習(xí)經(jīng)歷后,現(xiàn)有模型難以捕捉該句式特點(diǎn),在例2中錯(cuò)誤地將該信息識(shí)別為學(xué)習(xí)經(jīng)歷。針對(duì)以上問(wèn)題,提出基于機(jī)器學(xué)習(xí)的分類方法對(duì)時(shí)間和單位信息再矯正。其中GBDT通過(guò)殘差學(xué)習(xí),利用前一輪學(xué)習(xí)器的誤差實(shí)現(xiàn)小梯度樣本的正確劃分,對(duì)不常見(jiàn)及一些極端樣本處理能力較強(qiáng)。張春祥等[14]將該方法用于詞義消歧任務(wù);封化民等[15]將GBDT用于網(wǎng)絡(luò)入侵檢測(cè);劉金元等[16]將GBDT算法用于航班延誤分析。因此,本文提出基于GBDT的簡(jiǎn)歷信息再分類方法,以序列標(biāo)注模型識(shí)別出的學(xué)習(xí)時(shí)間、學(xué)習(xí)單位、工作時(shí)間、工作單位4類信息,作為最小分類單位,提取待分類對(duì)象的語(yǔ)言學(xué)特征,使用GBDT判斷該信息所屬經(jīng)歷類別。

    例1:江**,男,中科院半導(dǎo)體所研究員。

    例2:畢業(yè)后進(jìn)入中科院山西煤炭所工作。

    3.1 特征提取

    本文提取科技人物簡(jiǎn)歷中信息之間的關(guān)聯(lián)關(guān)系、分類對(duì)象的前后文是否具備特定語(yǔ)言格式、科技人物簡(jiǎn)歷中是否具備關(guān)鍵詞信息3項(xiàng)作為待分類對(duì)象特征。表2為本文所采用的特征說(shuō)明。

    表2 特征提取說(shuō)明

    對(duì)于某待提取對(duì)象,首先尋找其所在簡(jiǎn)歷是否出現(xiàn)相關(guān)經(jīng)歷關(guān)鍵詞,以該信息距離最近的關(guān)鍵詞為準(zhǔn)。然后針對(duì)

    待抽取對(duì)象尋找其所在的分句,并在分句內(nèi)查找關(guān)聯(lián)信息,判斷是否具備特定語(yǔ)言格式。具體提取流程見(jiàn)表3。

    表3 特征提取流程

    3.2 GBDT分類算法

    分類決策樹(shù)是一種以樹(shù)狀圖為基礎(chǔ)的對(duì)實(shí)例進(jìn)行分類的有監(jiān)督機(jī)器學(xué)習(xí)算法。常用的生成算法有ID3、C4.5、CART。梯度提升決策樹(shù)算法的實(shí)質(zhì)是以決策樹(shù)為基函數(shù)的提升算法,在訓(xùn)練過(guò)程中采用殘差擬合的方式,首先選擇梯度大的樣本計(jì)算信息增益[17]。當(dāng)達(dá)到預(yù)設(shè)的迭代次數(shù)或剩余樣本梯度足夠小不需再去擬合時(shí)結(jié)束。最后以累加的方式得到最終的結(jié)論。訓(xùn)練過(guò)程中第M棵決策樹(shù)如式(11)所示

    (11)

    其中,M代表決策樹(shù)個(gè)數(shù);Φm代表決策樹(shù)參數(shù);T(x;Φm) 是決策樹(shù)。具體訓(xùn)練過(guò)程如下:

    (1)初始化提升樹(shù)

    F0(x)=0

    (12)

    (2)采用向前分布算法,得到第m步的模型為

    Fm(x)=Fm-1(x)+T(x;Φm)

    (13)

    (3)利用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化來(lái)計(jì)算下一步參數(shù)Φm

    (14)

    (4)其中L為損失函數(shù)采用平方誤差損失函數(shù)計(jì)算,如式(15)所示

    L[y,F(x)]=[y,F(x)]2=
    [y-Fm-1(x)-T(xi;Φm)]2

    (15)

    4 實(shí)驗(yàn)結(jié)果及分析

    本文所使用的簡(jiǎn)歷文本是從多家研究所及高校的科研人員主頁(yè)中獲取的非結(jié)構(gòu)化的簡(jiǎn)歷文本共3000條,每條包含150至700個(gè)漢字,16種待抽取信息共64 379個(gè)標(biāo)注項(xiàng)。按照7∶1∶2分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。圖6為各項(xiàng)信息分布及所含標(biāo)注項(xiàng)數(shù)量。

    圖6 各項(xiàng)信息分布及所含標(biāo)注數(shù)量

    4.1 評(píng)價(jià)標(biāo)準(zhǔn)

    本文采用精確率(P)、召回率(R)和F1值作為評(píng)價(jià)指標(biāo)。在測(cè)試過(guò)程中,只有當(dāng)一個(gè)信息的邊界和信息類型都完全正確時(shí),才認(rèn)為該信息識(shí)別正確。評(píng)價(jià)標(biāo)準(zhǔn)具體定義如下

    (16)

    (17)

    (18)

    其中,Tp為模型識(shí)別正確的信息個(gè)數(shù),F(xiàn)P為模型識(shí)別出的不正確的信息個(gè)數(shù),F(xiàn)N為模型未識(shí)別到的正確信息個(gè)數(shù)。

    4.2 實(shí)驗(yàn)結(jié)果及分析

    本節(jié)將設(shè)置科技人物簡(jiǎn)歷中研究領(lǐng)域信息抽取實(shí)驗(yàn),選擇在總體抽取結(jié)果以及研究領(lǐng)域抽取結(jié)果表現(xiàn)較好的序列標(biāo)注模型以支持下一步對(duì)時(shí)間和單位分類矯正的實(shí)驗(yàn)。最后將會(huì)給出最終模型對(duì)所有信息的抽取結(jié)果并針對(duì)實(shí)驗(yàn)結(jié)果予以分析。

    4.2.1 研究領(lǐng)域信息抽取方法對(duì)比

    研究領(lǐng)域信息結(jié)果見(jiàn)表4,表4展示了本文所使用的基于字詞協(xié)同的信息抽取方法及現(xiàn)有其他方法對(duì)研究領(lǐng)域信息的抽取結(jié)果。表4中所有的模型若涉及到LSTM均使用一層雙向LSTM,且雙向LSTM層節(jié)點(diǎn)數(shù)均設(shè)置為120,模型迭代次數(shù)均為30次,訓(xùn)練過(guò)程中使用Dropout算法[18]防止過(guò)擬合。

    表4 序列標(biāo)注模型抽取結(jié)果對(duì)比

    根據(jù)表4中各模型對(duì)研究領(lǐng)域信息抽取的精確率、召回率和F1值可以看出,基于字詞協(xié)同的文本表達(dá)方法能夠有效提高模型對(duì)研究領(lǐng)域信息的識(shí)別性能。相比于Strubell等[19]和Huang Z等[20]提出的方法本文所采用的模型照比基于字和基于詞的雙向LSTM-CRF模型對(duì)研究領(lǐng)域信息識(shí)別的F1值分別提升了4.39%和4.98%。在總體的抽取結(jié)果上分別提升了1.82%和1.67%。本文還與殷章志等[8]中提出的字詞模型融合方法做了對(duì)比,實(shí)驗(yàn)結(jié)果表明本文的字詞協(xié)同方法更適合對(duì)科技人物簡(jiǎn)歷信息進(jìn)行抽取。而Devlin等[21]提出的BERT動(dòng)態(tài)文本表達(dá)方法,由于其中的遮擋語(yǔ)言模型會(huì)隨機(jī)掩蓋住文本中15%的單詞。為了減少這種隨機(jī)遮擋所帶來(lái)的負(fù)面影響,BERT對(duì)訓(xùn)練數(shù)據(jù)規(guī)模要求較高,由于本文中使用的數(shù)據(jù)規(guī)模有限,因此很難達(dá)到期望的效果。該模型雖然獲得了最高的召回率但是在精確率以及F1值上照比本文提出的方法表現(xiàn)較差。

    4.2.2 分類矯正方法對(duì)比

    在上述的實(shí)驗(yàn)中,已經(jīng)獲得了在研究領(lǐng)域以及總體抽取結(jié)果上最優(yōu)的序列標(biāo)注模型。接下來(lái)針對(duì)上述序列標(biāo)注模型對(duì)學(xué)習(xí)時(shí)間、學(xué)習(xí)單位、工作時(shí)間、工作單位分類混淆的問(wèn)題,為了使GBDT更有針對(duì)性,對(duì)易分類混淆的信息進(jìn)行區(qū)分,同時(shí)節(jié)約訓(xùn)練過(guò)程的時(shí)間成本,在原有序列標(biāo)注模型識(shí)別基礎(chǔ)上只針對(duì)以上4類提取特征重新區(qū)分它們所屬經(jīng)歷類別,至于其它錯(cuò)誤暫不予修正。在這部分實(shí)驗(yàn)中設(shè)置了同等數(shù)據(jù)條件下決策樹(shù)算法、KNN(K-nearest neighbor,KNN)算法以及使用RBF核函數(shù)的支持向量機(jī)算法(support vector machine,SVM)與本文提出的基于GBDT分類算法進(jìn)行對(duì)比。實(shí)驗(yàn)中GBDT模型的學(xué)習(xí)率設(shè)置為0.5、迭代次數(shù)設(shè)置為20、樹(shù)的最大深度設(shè)置為5。決策樹(shù)模型的最大深度同樣設(shè)置為5,SVM的懲罰系數(shù)設(shè)置為1,KNN模型的K近臨數(shù)設(shè)置為4。以基于字詞協(xié)同的雙向LSTM-CRF模型為該部分實(shí)驗(yàn)的基線模型,分類實(shí)驗(yàn)結(jié)果見(jiàn)表5。

    表5 分類實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)結(jié)果可以看出使用機(jī)器學(xué)習(xí)的分類算法均能在原有序列標(biāo)注模型分類的基礎(chǔ)上提高兩種時(shí)間和單位信息的分類正確率。其中本文所提出的基于GBDT的分類方法照比基于字詞協(xié)同的雙向LSTM-CRF對(duì)工作時(shí)間、工作單位、學(xué)習(xí)時(shí)間、學(xué)習(xí)單位識(shí)別的F1值分別提升了1.29%、1.26%、1.97%、2.03%。其中對(duì)學(xué)習(xí)時(shí)間和學(xué)習(xí)單位識(shí)別的精確率提升了3.34%和3.16%,對(duì)工作時(shí)間和工作單位識(shí)別的召回率同樣提升了2.4%和2.26%。說(shuō)明基于GBDT的再分類方法一定程度上解決了基于字詞協(xié)同的雙向LSTM-CRF模型對(duì)學(xué)習(xí)時(shí)間和學(xué)習(xí)單位的分類偏好問(wèn)題。其中KNN模型的分類性能相對(duì)較差,這是因?yàn)镵NN模型通過(guò)計(jì)算樣本之間的距離來(lái)進(jìn)行決策,隨著數(shù)據(jù)維度的增加,一些不常見(jiàn)的特征樣本并沒(méi)有出現(xiàn)在觀測(cè)點(diǎn)附近,導(dǎo)致模型預(yù)測(cè)精度稍差。而基于決策樹(shù)和SVM的分類方法,雖然具備相對(duì)較高的魯棒性,但仍然不能處理一些極端樣本。當(dāng)樣本特征中有兩個(gè)值分別指向不同的類別,而

    另一個(gè)特征態(tài)度不明確時(shí),模型很難進(jìn)行判斷。相比而言,GBDT算法可以通過(guò)增加決策樹(shù)的數(shù)量來(lái)減少模型的偏差[22],通過(guò)多個(gè)分類器的集成,增加了模型的多樣性,更好地容忍訓(xùn)練集中的樣本偏差具備更強(qiáng)的泛化能力,對(duì)極端樣本的處理能力更強(qiáng)。

    4.2.3 實(shí)驗(yàn)結(jié)果分析及最終抽取結(jié)果

    以黃勝等[11]所提出的雙向LSTM-CRF模型為例,以下是基于字、基于詞以及基于字詞協(xié)同方法的對(duì)比實(shí)例。

    例3:從事年輕雙星/多重星高分辨率觀測(cè)研究。

    字特征:輕雙星/多重星高分辨率觀測(cè)

    詞特征:年輕雙星/多重星高分辨率觀測(cè)

    字詞協(xié)同特征:年輕雙星/多重星高分辨率觀測(cè)

    例4:研究重點(diǎn)是非糧植物菊芋的綜合開(kāi)發(fā)。

    字特征:非糧植物菊芋的綜合開(kāi)發(fā)

    詞特征:是非糧植物菊芋的綜合開(kāi)發(fā)

    字詞協(xié)同特征:非糧植物菊芋的綜合開(kāi)發(fā)

    由上例可以看出,基于字詞協(xié)同的抽取方法能夠結(jié)合字特征以及詞特征的優(yōu)點(diǎn),在基于字特征和基于詞特征的方法一個(gè)識(shí)別正確,而另一個(gè)識(shí)別錯(cuò)誤的情況下能夠進(jìn)行修正。

    針對(duì)部分信息分類混淆的問(wèn)題,以基于字詞協(xié)同的雙向LSTM-CRF的序列標(biāo)注模型為基礎(chǔ),下面是一個(gè)具體的分類實(shí)例。

    例5:王**,現(xiàn)為中科院半導(dǎo)體所研究員。

    序列標(biāo)注:學(xué)習(xí)單位

    GBDT:工作單位

    例6:1996~1999,助教,桂林電子科技大學(xué)

    序列標(biāo)注:學(xué)習(xí)時(shí)間

    GBDT:工作時(shí)間

    由上例可以看出使用GBDT再分類的方法能夠有效緩解序列標(biāo)注模型對(duì)學(xué)習(xí)時(shí)間、學(xué)習(xí)單位、工作時(shí)間、工作單位的分類偏差,充分驗(yàn)證本文所提方法更適合對(duì)科技人物簡(jiǎn)歷信息進(jìn)行抽取。表6是基于GBDT矯正的字詞協(xié)同科技人物簡(jiǎn)歷信息抽取結(jié)果。

    表6 科技人物簡(jiǎn)歷信息最終抽取結(jié)果

    5 結(jié)束語(yǔ)

    本文對(duì)科技人物簡(jiǎn)歷信息的抽取將重心放在了對(duì)研究領(lǐng)域信息的識(shí)別以及對(duì)工作經(jīng)歷和學(xué)習(xí)經(jīng)歷所包含的時(shí)間和單位信息的識(shí)別上。針對(duì)科技人物簡(jiǎn)歷包含較多專業(yè)名詞及領(lǐng)域術(shù)語(yǔ),現(xiàn)有序列標(biāo)注方法很難對(duì)科技人物簡(jiǎn)歷中研究領(lǐng)域信息進(jìn)行識(shí)別,本文提出一種基于字詞協(xié)同的簡(jiǎn)歷信息抽取方法。實(shí)驗(yàn)結(jié)果表明,使用字詞協(xié)同的方法在多個(gè)模型上均能夠提高模型對(duì)研究領(lǐng)域信息的識(shí)別性能,其中字詞協(xié)同雙向LSTM結(jié)合CRF的模型,在抽取結(jié)果上優(yōu)于現(xiàn)有其它序列標(biāo)注模型。為了充分發(fā)揮序列標(biāo)注模型以及分類模型的優(yōu)點(diǎn),提高模型對(duì)工作經(jīng)歷和學(xué)習(xí)經(jīng)歷所包含的時(shí)間和單位信息的分類性能,本文提出了基于GBDT的信息再分類方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠解決序列標(biāo)注模型對(duì)上述信息的分類不平衡問(wèn)題,提高了模型對(duì)工作經(jīng)歷和學(xué)習(xí)經(jīng)歷中時(shí)間和單位信息的識(shí)別能力。

    本文中所使用的語(yǔ)料涉及多個(gè)學(xué)科不同領(lǐng)域的人物簡(jiǎn)歷,但每個(gè)領(lǐng)域所包含的簡(jiǎn)歷數(shù)量較少,且信息數(shù)量分布不均,在下一步的任務(wù)中,考慮使用文本數(shù)據(jù)增強(qiáng)的方法以擴(kuò)充語(yǔ)料中不同領(lǐng)域科技人物簡(jiǎn)歷數(shù)量,進(jìn)一步提升模型對(duì)研究領(lǐng)域信息抽取性能,在分類算法上,由于當(dāng)前特征提取工作仍然需要人工參與,下一步工作考慮使用深度學(xué)習(xí)自動(dòng)提取文本特征。

    猜你喜歡
    協(xié)同分類領(lǐng)域
    分類算一算
    蜀道難:車與路的協(xié)同進(jìn)化
    領(lǐng)域·對(duì)峙
    青年生活(2019年23期)2019-09-10 12:55:43
    分類討論求坐標(biāo)
    “四化”協(xié)同才有出路
    汽車觀察(2019年2期)2019-03-15 06:00:50
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
    新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
    協(xié)同進(jìn)化
    波多野结衣高清作品| 每晚都被弄得嗷嗷叫到高潮| 亚洲最大成人中文| 国产亚洲精品av在线| 在线播放无遮挡| 热99在线观看视频| 精品国产三级普通话版| 3wmmmm亚洲av在线观看| 日本免费一区二区三区高清不卡| 99久久成人亚洲精品观看| 日本黄色片子视频| 国内精品久久久久久久电影| 久久久国产成人免费| 日韩欧美精品免费久久 | 日本 av在线| 国产精品久久久人人做人人爽| 久久99热这里只有精品18| 五月玫瑰六月丁香| 日本精品一区二区三区蜜桃| 十八禁网站免费在线| 免费电影在线观看免费观看| 美女黄网站色视频| 长腿黑丝高跟| 亚洲av电影在线进入| 90打野战视频偷拍视频| 亚洲国产欧美人成| 久久久久久久午夜电影| 久久久精品欧美日韩精品| 18禁美女被吸乳视频| 色播亚洲综合网| 一边摸一边抽搐一进一小说| 青草久久国产| 国产精品嫩草影院av在线观看 | 国产激情欧美一区二区| 欧美乱码精品一区二区三区| 丁香六月欧美| 欧美乱码精品一区二区三区| 国产精品99久久99久久久不卡| 欧美激情久久久久久爽电影| 欧美精品啪啪一区二区三区| 国产精品99久久久久久久久| 99久久99久久久精品蜜桃| 国产精品亚洲美女久久久| 一个人看视频在线观看www免费 | 乱人视频在线观看| 免费搜索国产男女视频| 观看美女的网站| 国产精品 国内视频| 好男人在线观看高清免费视频| 国产真实乱freesex| 国产真实乱freesex| 欧美极品一区二区三区四区| 蜜桃亚洲精品一区二区三区| 久久久久精品国产欧美久久久| 亚洲在线自拍视频| 亚洲无线观看免费| 国产免费男女视频| 欧美日韩瑟瑟在线播放| 国产精品一区二区三区四区免费观看 | 午夜两性在线视频| 一本综合久久免费| www.色视频.com| 男女做爰动态图高潮gif福利片| 婷婷六月久久综合丁香| 一进一出好大好爽视频| 露出奶头的视频| 最近最新免费中文字幕在线| 18禁黄网站禁片午夜丰满| 特大巨黑吊av在线直播| 内地一区二区视频在线| 亚洲精品乱码久久久v下载方式 | www日本黄色视频网| 国产精品国产高清国产av| 老司机在亚洲福利影院| 99视频精品全部免费 在线| 精品人妻偷拍中文字幕| 一级a爱片免费观看的视频| 一区二区三区高清视频在线| 国产乱人伦免费视频| 免费一级毛片在线播放高清视频| 99精品在免费线老司机午夜| 国产亚洲精品一区二区www| 亚洲无线观看免费| 手机成人av网站| 在线国产一区二区在线| 日本一本二区三区精品| 人妻丰满熟妇av一区二区三区| 99久久精品一区二区三区| 在线国产一区二区在线| 亚洲欧美日韩东京热| 黄色成人免费大全| 我的老师免费观看完整版| 日韩精品青青久久久久久| 精品久久久久久,| 宅男免费午夜| 久久久精品欧美日韩精品| 91在线精品国自产拍蜜月 | 午夜久久久久精精品| 精品国内亚洲2022精品成人| 亚洲国产欧美网| 在线十欧美十亚洲十日本专区| 久久精品91蜜桃| 日韩人妻高清精品专区| 日韩成人在线观看一区二区三区| 18禁国产床啪视频网站| 久久香蕉国产精品| 精品久久久久久久毛片微露脸| 欧美在线一区亚洲| 国产亚洲精品久久久com| 国产真实乱freesex| 亚洲第一欧美日韩一区二区三区| 亚洲天堂国产精品一区在线| 国产激情欧美一区二区| 欧美乱色亚洲激情| 欧美日韩综合久久久久久 | 欧美午夜高清在线| 高清日韩中文字幕在线| 19禁男女啪啪无遮挡网站| 亚洲av第一区精品v没综合| 十八禁人妻一区二区| 国产欧美日韩一区二区精品| 欧美色欧美亚洲另类二区| 亚洲国产精品久久男人天堂| 一区二区三区国产精品乱码| 两性午夜刺激爽爽歪歪视频在线观看| 在线观看66精品国产| 成人av一区二区三区在线看| 啦啦啦免费观看视频1| 亚洲精品色激情综合| 五月玫瑰六月丁香| 搡老妇女老女人老熟妇| 男插女下体视频免费在线播放| 99久久精品国产亚洲精品| 久久久久久久亚洲中文字幕 | 国产精品亚洲美女久久久| 熟女电影av网| 精品电影一区二区在线| 欧美在线黄色| 最近视频中文字幕2019在线8| 夜夜爽天天搞| 日本黄色片子视频| 精品99又大又爽又粗少妇毛片 | 精品乱码久久久久久99久播| 中文字幕熟女人妻在线| 国产精品久久视频播放| 51国产日韩欧美| 欧美一级毛片孕妇| 精品久久久久久久久久免费视频| 韩国av一区二区三区四区| 国产老妇女一区| 国产野战对白在线观看| 久久精品国产清高在天天线| 国产一区二区三区在线臀色熟女| 好男人在线观看高清免费视频| 国产精品久久电影中文字幕| 成人精品一区二区免费| 成人特级黄色片久久久久久久| 国产精品久久久久久亚洲av鲁大| 午夜a级毛片| 国产三级黄色录像| 91久久精品国产一区二区成人 | 看片在线看免费视频| 天天一区二区日本电影三级| 91久久精品电影网| 在线观看一区二区三区| 亚洲av日韩精品久久久久久密| 亚洲av熟女| 欧美成狂野欧美在线观看| 亚洲欧美精品综合久久99| 窝窝影院91人妻| av福利片在线观看| 女人高潮潮喷娇喘18禁视频| 高清日韩中文字幕在线| 国内毛片毛片毛片毛片毛片| 亚洲精品456在线播放app | 亚洲精品亚洲一区二区| 国内揄拍国产精品人妻在线| 床上黄色一级片| 欧美成人一区二区免费高清观看| bbb黄色大片| 蜜桃久久精品国产亚洲av| 窝窝影院91人妻| 亚洲av二区三区四区| 国产真实伦视频高清在线观看 | 99久久精品一区二区三区| av福利片在线观看| 色在线成人网| 琪琪午夜伦伦电影理论片6080| 午夜福利在线观看吧| 国产亚洲欧美98| 国产成人a区在线观看| 久久久久国产精品人妻aⅴ院| 国内精品美女久久久久久| 啦啦啦免费观看视频1| 久久精品综合一区二区三区| 在线观看午夜福利视频| xxxwww97欧美| 国产色爽女视频免费观看| 国产精品99久久久久久久久| 国产高潮美女av| 久久久久久久久久黄片| 亚洲欧美一区二区三区黑人| 桃红色精品国产亚洲av| 国产v大片淫在线免费观看| av专区在线播放| 中文亚洲av片在线观看爽| 少妇丰满av| 舔av片在线| 亚洲av免费高清在线观看| 亚洲国产中文字幕在线视频| 一区二区三区国产精品乱码| 国产精品久久久久久久电影 | 亚洲人成网站高清观看| 亚洲人成网站在线播放欧美日韩| 99精品欧美一区二区三区四区| 日日干狠狠操夜夜爽| 久99久视频精品免费| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 欧美乱妇无乱码| 精品久久久久久久久久久久久| 日韩精品中文字幕看吧| 国产精品影院久久| 日韩欧美三级三区| 亚洲七黄色美女视频| 麻豆国产av国片精品| 成人亚洲精品av一区二区| 一级毛片高清免费大全| 12—13女人毛片做爰片一| 色综合亚洲欧美另类图片| 18禁美女被吸乳视频| 免费在线观看成人毛片| 亚洲av成人精品一区久久| 一个人看视频在线观看www免费 | 国产成人影院久久av| 人妻久久中文字幕网| netflix在线观看网站| 午夜两性在线视频| 欧美bdsm另类| 午夜福利免费观看在线| 欧美成狂野欧美在线观看| 欧美日韩亚洲国产一区二区在线观看| 看片在线看免费视频| av在线蜜桃| 精品乱码久久久久久99久播| 欧美黑人巨大hd| 人妻久久中文字幕网| 欧美日韩国产亚洲二区| av中文乱码字幕在线| 欧美一区二区国产精品久久精品| av女优亚洲男人天堂| 国产精品 欧美亚洲| 国产午夜精品论理片| 欧美+亚洲+日韩+国产| 十八禁网站免费在线| 久久久色成人| 国产精品一区二区免费欧美| 在线天堂最新版资源| 一进一出好大好爽视频| 免费搜索国产男女视频| 欧美中文日本在线观看视频| 亚洲一区二区三区不卡视频| 免费看a级黄色片| 极品教师在线免费播放| 黄色片一级片一级黄色片| 免费观看精品视频网站| 精品国产亚洲在线| 亚洲美女视频黄频| 女人十人毛片免费观看3o分钟| 成年免费大片在线观看| 久久久久久久久中文| 每晚都被弄得嗷嗷叫到高潮| 日本精品一区二区三区蜜桃| 日本一二三区视频观看| 尤物成人国产欧美一区二区三区| 在线观看66精品国产| 香蕉av资源在线| 男人的好看免费观看在线视频| av黄色大香蕉| 夜夜看夜夜爽夜夜摸| 97超视频在线观看视频| 最近最新免费中文字幕在线| 99久久成人亚洲精品观看| 波野结衣二区三区在线 | а√天堂www在线а√下载| 女人被狂操c到高潮| 国产精品乱码一区二三区的特点| eeuss影院久久| 中国美女看黄片| 亚洲av成人精品一区久久| av在线蜜桃| 嫁个100分男人电影在线观看| 亚洲不卡免费看| 又紧又爽又黄一区二区| 在线免费观看的www视频| 欧美成狂野欧美在线观看| 午夜免费男女啪啪视频观看 | 综合色av麻豆| 99久国产av精品| 女同久久另类99精品国产91| 国产国拍精品亚洲av在线观看 | 欧美精品啪啪一区二区三区| 一进一出好大好爽视频| 成人性生交大片免费视频hd| 国产伦一二天堂av在线观看| 一区福利在线观看| 久久性视频一级片| 精品久久久久久久人妻蜜臀av| av国产免费在线观看| 禁无遮挡网站| 成人永久免费在线观看视频| 国产精品免费一区二区三区在线| 美女 人体艺术 gogo| 欧美日韩瑟瑟在线播放| 深夜精品福利| 精品久久久久久久久久免费视频| 日韩欧美一区二区三区在线观看| www.熟女人妻精品国产| 他把我摸到了高潮在线观看| 日本在线视频免费播放| av欧美777| 亚洲欧美精品综合久久99| 男女午夜视频在线观看| 色视频www国产| 日韩欧美国产一区二区入口| 很黄的视频免费| 欧美一区二区精品小视频在线| 欧美成狂野欧美在线观看| 小说图片视频综合网站| 高清毛片免费观看视频网站| 精品福利观看| 母亲3免费完整高清在线观看| 欧美精品啪啪一区二区三区| 99国产精品一区二区蜜桃av| 免费无遮挡裸体视频| 天美传媒精品一区二区| 搞女人的毛片| av视频在线观看入口| 久久精品国产亚洲av涩爱 | 中出人妻视频一区二区| 欧美在线黄色| 亚洲久久久久久中文字幕| eeuss影院久久| 亚洲精品456在线播放app | 亚洲专区中文字幕在线| 美女 人体艺术 gogo| 精品电影一区二区在线| 一级黄片播放器| 成人国产一区最新在线观看| 免费在线观看成人毛片| 亚洲美女黄片视频| 蜜桃亚洲精品一区二区三区| 日韩 欧美 亚洲 中文字幕| 亚洲一区高清亚洲精品| 亚洲欧美日韩无卡精品| 免费看日本二区| 国产真实伦视频高清在线观看 | 热99re8久久精品国产| 精品人妻偷拍中文字幕| 免费在线观看亚洲国产| 久久国产乱子伦精品免费另类| 国产97色在线日韩免费| 亚洲精品成人久久久久久| 久久精品国产99精品国产亚洲性色| 免费看a级黄色片| 在线看三级毛片| av天堂在线播放| 日本撒尿小便嘘嘘汇集6| 日本五十路高清| 两人在一起打扑克的视频| 此物有八面人人有两片| 亚洲一区高清亚洲精品| 日韩 欧美 亚洲 中文字幕| 欧美日韩亚洲国产一区二区在线观看| 久久婷婷人人爽人人干人人爱| 亚洲国产中文字幕在线视频| 国产极品精品免费视频能看的| a在线观看视频网站| 亚洲成人免费电影在线观看| 一本久久中文字幕| 午夜福利在线观看免费完整高清在 | 午夜老司机福利剧场| 国产精品亚洲一级av第二区| 亚洲av免费高清在线观看| 国产一区二区三区视频了| 好男人在线观看高清免费视频| 国产免费一级a男人的天堂| av女优亚洲男人天堂| ponron亚洲| 日韩有码中文字幕| 女人高潮潮喷娇喘18禁视频| 99久久综合精品五月天人人| 草草在线视频免费看| 日本三级黄在线观看| 国产精品av视频在线免费观看| 日本三级黄在线观看| 久久精品国产清高在天天线| 内地一区二区视频在线| 少妇丰满av| 亚洲久久久久久中文字幕| 国产伦精品一区二区三区视频9 | 搡女人真爽免费视频火全软件 | 精华霜和精华液先用哪个| 亚洲第一欧美日韩一区二区三区| 日本 av在线| 日韩欧美国产在线观看| 国产国拍精品亚洲av在线观看 | 五月玫瑰六月丁香| 中文字幕高清在线视频| 国产伦人伦偷精品视频| 亚洲精品一卡2卡三卡4卡5卡| www.www免费av| 成人特级黄色片久久久久久久| 男人和女人高潮做爰伦理| 国产高清视频在线播放一区| 亚洲人成伊人成综合网2020| 亚洲国产精品sss在线观看| 熟女少妇亚洲综合色aaa.| 久久久成人免费电影| 九色国产91popny在线| 国产欧美日韩精品亚洲av| 成人精品一区二区免费| 天美传媒精品一区二区| 三级男女做爰猛烈吃奶摸视频| 日韩欧美精品免费久久 | 免费高清视频大片| 亚洲中文日韩欧美视频| а√天堂www在线а√下载| 白带黄色成豆腐渣| 亚洲最大成人手机在线| 精品电影一区二区在线| 亚洲真实伦在线观看| 老鸭窝网址在线观看| 中文亚洲av片在线观看爽| 日韩亚洲欧美综合| 女人高潮潮喷娇喘18禁视频| 亚洲男人的天堂狠狠| 香蕉av资源在线| 亚洲欧美日韩高清在线视频| 嫩草影院精品99| 天天一区二区日本电影三级| 日韩高清综合在线| 99久久久亚洲精品蜜臀av| 老司机午夜十八禁免费视频| 久久国产乱子伦精品免费另类| 久久草成人影院| 久久久成人免费电影| 国产成人av激情在线播放| 久久香蕉国产精品| 国产探花极品一区二区| 日韩高清综合在线| 伊人久久大香线蕉亚洲五| 女人被狂操c到高潮| 国产精品av视频在线免费观看| 男人的好看免费观看在线视频| 国内精品美女久久久久久| 非洲黑人性xxxx精品又粗又长| 91av网一区二区| 日本在线视频免费播放| 亚洲内射少妇av| 国产午夜精品论理片| 母亲3免费完整高清在线观看| 精品国产超薄肉色丝袜足j| 日韩有码中文字幕| 亚洲精品成人久久久久久| 一本精品99久久精品77| 欧美性猛交黑人性爽| 又黄又粗又硬又大视频| www.www免费av| 日本免费一区二区三区高清不卡| 蜜桃亚洲精品一区二区三区| 丰满人妻一区二区三区视频av | 99热只有精品国产| 少妇的逼水好多| av视频在线观看入口| 一区二区三区激情视频| 午夜精品久久久久久毛片777| 国产三级在线视频| 精品久久久久久久久久久久久| 国产成人福利小说| 熟妇人妻久久中文字幕3abv| 18禁裸乳无遮挡免费网站照片| 亚洲成人久久性| e午夜精品久久久久久久| 最新中文字幕久久久久| 脱女人内裤的视频| 搡老妇女老女人老熟妇| 午夜两性在线视频| 日本撒尿小便嘘嘘汇集6| 搡女人真爽免费视频火全软件 | 国产精品免费一区二区三区在线| 午夜日韩欧美国产| 免费人成视频x8x8入口观看| 99久久久亚洲精品蜜臀av| 久久精品国产99精品国产亚洲性色| 国产欧美日韩一区二区三| 天堂av国产一区二区熟女人妻| 国产伦人伦偷精品视频| 日本黄色视频三级网站网址| 国内精品久久久久久久电影| 国产蜜桃级精品一区二区三区| av专区在线播放| 日日干狠狠操夜夜爽| 国产极品精品免费视频能看的| 两人在一起打扑克的视频| 久久99热这里只有精品18| 丁香六月欧美| 夜夜爽天天搞| 亚洲 国产 在线| 亚洲人成网站在线播| 99在线人妻在线中文字幕| 两性午夜刺激爽爽歪歪视频在线观看| 俺也久久电影网| 亚洲精品在线观看二区| 久久久久精品国产欧美久久久| 欧美日韩中文字幕国产精品一区二区三区| 手机成人av网站| 1024手机看黄色片| 精华霜和精华液先用哪个| 欧美一级a爱片免费观看看| 制服丝袜大香蕉在线| 精品不卡国产一区二区三区| 老司机午夜十八禁免费视频| 欧美午夜高清在线| 国产熟女xx| 俺也久久电影网| 国产男靠女视频免费网站| 中文字幕人妻熟人妻熟丝袜美 | 免费av不卡在线播放| 亚洲人与动物交配视频| 久久婷婷人人爽人人干人人爱| 看片在线看免费视频| 母亲3免费完整高清在线观看| 精品电影一区二区在线| 欧洲精品卡2卡3卡4卡5卡区| 少妇的逼好多水| 国产毛片a区久久久久| 1024手机看黄色片| 少妇丰满av| 免费一级毛片在线播放高清视频| 天天躁日日操中文字幕| 国产精品久久久久久亚洲av鲁大| 级片在线观看| 乱人视频在线观看| 九九在线视频观看精品| 亚洲一区高清亚洲精品| 天堂动漫精品| 激情在线观看视频在线高清| 在线观看日韩欧美| 国产精品av视频在线免费观看| 小蜜桃在线观看免费完整版高清| 欧美成人一区二区免费高清观看| 久久欧美精品欧美久久欧美| 亚洲第一电影网av| 99国产综合亚洲精品| 国产精品久久久久久久电影 | 亚洲av美国av| 少妇熟女aⅴ在线视频| 成人性生交大片免费视频hd| 久久这里只有精品中国| 9191精品国产免费久久| a在线观看视频网站| 午夜影院日韩av| 亚洲在线观看片| 日本a在线网址| 两个人的视频大全免费| 亚洲国产精品久久男人天堂| 亚洲狠狠婷婷综合久久图片| 一区二区三区激情视频| 精品日产1卡2卡| 久久精品综合一区二区三区| 小说图片视频综合网站| 久久久国产成人精品二区| 天堂√8在线中文| 网址你懂的国产日韩在线| 很黄的视频免费| 亚洲av美国av| 色老头精品视频在线观看| 精品熟女少妇八av免费久了| 日韩欧美一区二区三区在线观看| 国产熟女xx| 1024手机看黄色片| 久久这里只有精品中国| 搡老熟女国产l中国老女人| tocl精华| 亚洲美女视频黄频| 国产午夜精品论理片| 精品一区二区三区视频在线 | 天堂av国产一区二区熟女人妻| 免费看十八禁软件| 美女大奶头视频| 亚洲av中文字字幕乱码综合| 日韩高清综合在线| 亚洲精品成人久久久久久| 一区二区三区国产精品乱码| 亚洲五月婷婷丁香| 搡老岳熟女国产| 波多野结衣巨乳人妻| 日本一二三区视频观看| 中文字幕人成人乱码亚洲影| 真人做人爱边吃奶动态| 国产精华一区二区三区| 国产精品香港三级国产av潘金莲| 亚洲午夜理论影院| 国产欧美日韩一区二区精品| 久久99热这里只有精品18| 又黄又粗又硬又大视频| 熟女人妻精品中文字幕| 他把我摸到了高潮在线观看| 两性午夜刺激爽爽歪歪视频在线观看| 国产美女午夜福利| 亚洲av美国av| 一个人看的www免费观看视频| 欧美丝袜亚洲另类 | 亚洲国产精品999在线| 国产激情偷乱视频一区二区|