• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種采用機(jī)器閱讀理解模型的中文分詞方法

    2022-08-18 14:43:34周裕林陳艷平黃瑞章秦永彬林川
    關(guān)鍵詞:歧義分詞損失

    周裕林,陳艷平,黃瑞章,秦永彬,林川

    (1.公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室,550025,貴陽;2.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,550025,貴陽)

    中文分詞是中文信息處理中的首要任務(wù)。與英語使用分隔符來分割單詞不同,漢語是一種由本族語素(漢字)發(fā)展而成的多合成語言[1]。在漢語中,語素也可以獨(dú)立成詞。語素和復(fù)合詞的模糊導(dǎo)致了漢語中對(duì)詞的概念比較弱。另外,與英語使用分隔符來分割單詞不同,漢語句子采用連續(xù)書寫。詞與詞之間沒有分隔符。因此,在中文文本里,經(jīng)常存在分詞歧義。單個(gè)句子會(huì)產(chǎn)生多種可能的切分路徑。例如,“世界冠軍”“抽象概念”“銀行流水”等,這些詞既可單獨(dú)成詞,又可以切分成粒度更小的多個(gè)詞語,例如“世界/冠軍”“抽象/概念”“銀行/流水”等。

    中文分詞作為中文信息處理的第一步,直接用于支撐多種下游任務(wù),如文本分類、機(jī)器翻譯等。分詞結(jié)果的不同將會(huì)對(duì)下游任務(wù)產(chǎn)生不同的影響。錯(cuò)誤的分詞結(jié)果會(huì)產(chǎn)生錯(cuò)誤擴(kuò)散,直接影響下游任務(wù)的性能。所以,中文分詞是中文信息處理中一項(xiàng)重要任務(wù)。

    現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型很難捕獲句子中的長距離語義依賴,使得模型對(duì)文本語義特征理解不夠充分,從而對(duì)文本中的歧義詞邊界識(shí)別性能較差。然而,在序列標(biāo)注任務(wù)中,歧義詞的邊界樣本又相對(duì)較少,存在樣本不平衡問題。例如,“世界冠軍”“抽象概念”等歧義詞屬于難分類樣本,文本中存在著的歧義詞與大量的非歧義詞樣本造成了難易樣本不平衡。傳統(tǒng)的序列標(biāo)注模型(如LSTM、CRF、Transformer的雙向編碼器(BERT)等)在歧義詞上識(shí)別性能都較差,不能很好地解決難易樣本不平衡問題。盡管在解決中文分詞歧義性上提出了各種解決方案,但仍然存在不足。目前,主流的中文分詞模型主要采用序列標(biāo)注模型。序列標(biāo)注模型只依賴每個(gè)字周圍的局部特征對(duì)字的分類標(biāo)簽進(jìn)行預(yù)測。該模型存在輸入特征使用不充分、難易樣本中難分類樣本得不到重點(diǎn)關(guān)注的問題,使得模型識(shí)別歧義詞性能較差。

    針對(duì)中文分詞模型輸入特征使用不充分、難易樣本不平衡的問題,本文提出了基于機(jī)器閱讀理解的中文分詞模型。本文設(shè)計(jì)模型的動(dòng)機(jī)是構(gòu)建問題信息作為先驗(yàn)知識(shí)以豐富模型輸入特征。針對(duì)中文詞組的歧義性帶來的難易樣本不平衡問題,本文改進(jìn)了損失函數(shù)。在Bakeoff2005語料庫的4個(gè)公共數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明了本文方法的有效性。本文的主要貢獻(xiàn)如下。

    (1)采用基于機(jī)器閱讀理解模型的方法,通過構(gòu)建問題信息作為先驗(yàn)知識(shí)以豐富模型輸入特征,增強(qiáng)模型對(duì)文本語義特征的理解,實(shí)現(xiàn)歧義詞的更好識(shí)別。

    (2)在充分分析中文詞組特點(diǎn)的基礎(chǔ)上,改進(jìn)損失函數(shù)以緩解歧義詞所帶來的難易樣本不平衡問題。

    (3)本文首次將機(jī)器閱讀理解模型應(yīng)用于中文分詞任務(wù)中,為中文分詞提供了一種新思路。

    1 相關(guān)工作

    目前,主流的中文分詞方法是基于神經(jīng)網(wǎng)絡(luò)模型。許多方法都將中文分詞作為序列標(biāo)注任務(wù)進(jìn)行處理,然而這些方法都存在輸入特征使用不充分和無法緩解難易樣本不平衡問題。

    隨著深度神經(jīng)網(wǎng)絡(luò)模型不斷發(fā)展[2],出現(xiàn)了許多應(yīng)用于各項(xiàng)自然語言處理任務(wù)的神經(jīng)網(wǎng)絡(luò)模型[3]。Collobert等[4]提出將神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用于序列標(biāo)注任務(wù)。此后,許多方法相繼應(yīng)用于中文分詞。Chen等[5]提出用長短記憶(LSTM)神經(jīng)網(wǎng)絡(luò)來解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)存在的長期依存關(guān)系的問題;Yao等[6]在Chen等的基礎(chǔ)上,提出雙向長短記憶(Bi-LSTM)神經(jīng)網(wǎng)絡(luò)來充分利用上下文信息進(jìn)行分詞;Chen等[7]提出帶門結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)(GRNN)來保留上下文;Chen等[8]使用對(duì)抗神經(jīng)網(wǎng)絡(luò)來使用多個(gè)語料庫進(jìn)行聯(lián)合訓(xùn)練;Ma等[9]在Bi-LSTM上引入預(yù)訓(xùn)練、dropout、超參數(shù)調(diào)參這3項(xiàng)深度學(xué)習(xí)技術(shù),以簡單的模型實(shí)現(xiàn)復(fù)雜模型的性能;Yang等[10]利用外部知識(shí)提高中文分詞的準(zhǔn)確率;Gong等[11]提出一個(gè)將每個(gè)標(biāo)準(zhǔn)分割成若干標(biāo)準(zhǔn)的Swich-LSTM結(jié)構(gòu);Zhou等[12]引入多種漢字Embedding來增強(qiáng)語義;He等[13]提出利用多標(biāo)準(zhǔn)進(jìn)行中文分詞;郭振鵬等[14]提出結(jié)合詞典的CNN-BiGRU-CRF網(wǎng)絡(luò)中文分詞模型。

    大規(guī)模預(yù)訓(xùn)練模型BERT[15]和ELMo[16]的出現(xiàn)刷新了NLP領(lǐng)域各項(xiàng)任務(wù)的記錄。Diao等[17]提出基于BERT的N-gram增強(qiáng)中文文本編碼器,以方便識(shí)別出可能的詞組合;Tian等[18]提出基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型;Tian等[19]提出基于鍵值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型;Chen等[20]提出在基于全局字符聯(lián)機(jī)制的神經(jīng)網(wǎng)絡(luò)模型GCA-FL,通過聯(lián)邦學(xué)習(xí)的方式增強(qiáng)模型在中文分詞上的性能。

    以上模型盡管在公共數(shù)據(jù)集上取得了不錯(cuò)的效果,但還存在以下的不足:①傳統(tǒng)的序列標(biāo)注模型對(duì)文本語義特征使用不充分;②中文分詞文本存在難易樣本不平衡問題無法得到有效緩解。近年來,有把序列標(biāo)注任務(wù)轉(zhuǎn)換成智能問答(QA)任務(wù)的趨勢。Li等[21]將實(shí)體識(shí)別任務(wù)轉(zhuǎn)換成機(jī)器閱讀理解(MRC)任務(wù),每個(gè)實(shí)體類型R(x,y)都能被參數(shù)化為帶答案y的一個(gè)問題q(x);Li等[22]將關(guān)系抽取任務(wù)轉(zhuǎn)換為一個(gè)多回合的問答任務(wù)。此外,構(gòu)建問題信息作為先驗(yàn)知識(shí),能使輸入特征更加豐富。然而,以上模型無法緩解難易樣本不平衡問題。Lin等[23]在目標(biāo)檢測中通過降低易分類樣本的損失權(quán)重,從而更加關(guān)注難分類樣本,能夠有效緩解難易樣本之間的不平衡;Liu等[24]引入密度函數(shù),在目標(biāo)檢測中既抑制了易分類樣本損失權(quán)重,又不太過于關(guān)注難分類樣本。

    2 機(jī)器閱讀理解模型

    2.1 BERT預(yù)訓(xùn)練模型

    Vaswani等[25]最早提出Transformer的模型架構(gòu)。它能夠更好地學(xué)習(xí)到句子當(dāng)中單詞與單詞之間的聯(lián)系,并完全依賴于自注意力機(jī)制來計(jì)算其輸入和輸出從而結(jié)合上下文語境來提高模型的性能。自注意力機(jī)制的公式為

    (1)

    式中:Q、K、V表示3個(gè)矩陣向量;d為Q向量的維度;通過softmax對(duì)得到的分?jǐn)?shù)歸一化。由于BERT的目標(biāo)是生成語言模型,只需要用到Transformer編碼器的機(jī)制,所以對(duì)Transformer的解碼器部分不再作過多敘述。

    BERT預(yù)訓(xùn)練模型中的Embedding層是由3種Embedding求和得到。其中,Token Embeddings是詞向量。Segment Embeddings是用來區(qū)分兩種句子,因?yàn)轭A(yù)訓(xùn)練不只做語言模型,還要做以兩個(gè)句子為輸入的分類任務(wù)。Position Embeddings是用來表示句子中單詞的位置。BERT預(yù)訓(xùn)練模型通過3個(gè)Embeddings相加能更好地提取句子語義特征。

    2.2 閱讀理解分詞標(biāo)注

    本文是在大規(guī)模預(yù)訓(xùn)練BERT模型上構(gòu)建的機(jī)器閱讀理解模型。給定一個(gè)輸入句子X={x1,x2,…,xn},其中,n代表句子中第n個(gè)字,然后在X中發(fā)現(xiàn)每一個(gè)詞組。首先,需要將數(shù)據(jù)集轉(zhuǎn)換成(QUESTION,ANSWER,CONTEXT)的三元組形式,其中,QUESTION表示問題生成模板,ANSWER使用xstart,end來表示在句子中詞組的開始和結(jié)束下標(biāo),CONTEXT為整個(gè)句子的文本。對(duì)于詞組,產(chǎn)生一個(gè)問題q={q1,q2,…,qm},其中m代表問題中第m個(gè)字。通過產(chǎn)生一個(gè)問題qy就能獲得一個(gè)三元組(qy,xstart,end,X),也就是先前定義的三元組(QUESTION,ANSWER,CONTEXT)。由于構(gòu)建了關(guān)于詞組先驗(yàn)知識(shí)的問題,生成問題的內(nèi)容對(duì)最后的結(jié)果有一定影響。Li等[22]采用基于規(guī)則的過程來構(gòu)建問題。在本文中,采用問句和詞定義的方式來構(gòu)建問題。詞定義表示為詞概念的描述,它描述得盡可能通用、精準(zhǔn)且沒有歧義。兩種問題的構(gòu)建方式如表1所示。

    表1 問題的構(gòu)建方式

    問題內(nèi)容構(gòu)建的不同,與文本拼接輸入模型時(shí)會(huì)帶有不同的先驗(yàn)知識(shí),從而對(duì)最后的預(yù)測結(jié)果產(chǎn)生一定的影響,如圖1所示。本文給定文本“學(xué)生會(huì)組織義演活動(dòng),他馬上從南京市長江大橋過來”。由于詞定義構(gòu)建的問題內(nèi)容相較于問句式產(chǎn)生的輸入特征更加豐富,使得對(duì)“學(xué)生會(huì)”“南京市長江大橋”上分詞更加準(zhǔn)確。

    圖1 不同問題內(nèi)容構(gòu)建對(duì)分詞結(jié)果的影響

    2.3 機(jī)器閱讀理解

    機(jī)器閱讀理解分詞模型結(jié)構(gòu)如圖2所示。在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上,加入已構(gòu)建問題詞組的先驗(yàn)知識(shí),輸入BERT編碼器后得到隱藏層特征,最后通過解析特征輸出結(jié)果。

    圖2 機(jī)器閱讀理解分詞模型

    輸入包含了問題和文本兩個(gè)部分,通過BERT預(yù)訓(xùn)練模型獲得隱藏層表征矩陣

    (2)

    式中:f為BERT編碼函數(shù);Q為問題信息;C為文本信息;E為BERT編碼器輸出的表征矩陣。

    通過多層感知向量機(jī)(MLP)[26]得到預(yù)測的詞組索引。在MLP中,獲得句子中每個(gè)字是詞組的開始和結(jié)束索引的概率

    (3)

    式中Tstart和Tend是學(xué)習(xí)權(quán)重。對(duì)Pstart和Pend每一行使用arg max函數(shù),得到預(yù)測的每個(gè)詞組的開始和結(jié)束索引

    (4)

    Pistart,jend=sigmoid(mconcat(Eistart,Ejend))

    (5)

    式中m是學(xué)習(xí)權(quán)重。將獲得的結(jié)果合并得到范圍概率分布矩陣

    式中pij表示句中索引i到索引j組成詞組的概率。最后,通過人工設(shè)定閾值,輸出匹配的詞組結(jié)果。

    2.4 改進(jìn)損失函數(shù)

    盡管機(jī)器閱讀理解模型通過編碼問題信息豐富了輸入特征,但在數(shù)據(jù)集中存在著很多易分類樣本和難分類樣本。這使得難易樣本之間存在不平衡,從而降低了分詞的準(zhǔn)確度。為了解決上述問題,本文改進(jìn)了交叉熵?fù)p失函數(shù)

    (6)

    式中:y∈{-1,1}是一個(gè)真實(shí)類;p∈[0,1]是模型對(duì)標(biāo)簽為y=1的類的估計(jì)概率。交叉熵函數(shù)在機(jī)器閱讀理解模型使用為

    (7)

    式中Ystart,end表示每個(gè)起始索引的真實(shí)標(biāo)簽??偟膿p失函數(shù)為上述3個(gè)損失函數(shù)之和。然而,即使是容易識(shí)別的樣本也會(huì)因?yàn)榻徊骒負(fù)p失而遭受非顯著程度的損失。這些微小的損失值在大量容易識(shí)別的樣本中匯總起來,可以淹沒稀有類。通常,在樣本不平衡問題上,普遍存在著的是正負(fù)樣本不平衡,即正(負(fù))例太多、負(fù)(正)例太少。一個(gè)解決正負(fù)類別不平衡的常用方法是為類別引入一個(gè)權(quán)重因子α∈[0,1][27]。最后,權(quán)重之和重寫為

    L=αtLstart+βtLend+γtLspan

    (8)

    在本文實(shí)驗(yàn)中,訓(xùn)練機(jī)器閱讀理解中文分詞模型時(shí)會(huì)遇到普遍不平衡現(xiàn)象壓倒了交叉熵?fù)p失。易分類樣本占了損失值的大部分,并主導(dǎo)了梯度。盡管αt、βt、γt能夠平衡正負(fù)樣本不平衡,但是無法平衡難易樣本。因此,需要降低易分類樣本權(quán)重并關(guān)注難分類樣本。本文借鑒目標(biāo)檢測中平衡正負(fù)難易樣本的方法,對(duì)交叉熵函數(shù)引入一個(gè)平滑因子[23]

    (9)

    式中θ≥0是關(guān)注度參數(shù)。因此,定義新的損失函數(shù)

    F(p,y)=ptg(p,y)

    (10)

    在式(10)中可以通過參數(shù)θ來平滑地調(diào)整易分類樣本的損失權(quán)重。例如,在θ=2和樣本概率p=0.9時(shí),可計(jì)算出與沒有平滑因子相比,這個(gè)樣本對(duì)損失的貢獻(xiàn)權(quán)重降低為原來的1%。在p=0.1時(shí),這個(gè)樣本顯然是難分類樣本,計(jì)算出的平滑因子要比易分類樣本要高,意味著模型在梯度更新過程中應(yīng)該更加關(guān)注這個(gè)樣本。合并式(7)~(10),得到最終的損失函數(shù)

    L=αtF(Pstart,Ystart)+βtF(Pend,Yend)+

    γtF(Pstart,end,Ystart,end)

    (11)

    通過改進(jìn)交叉熵函數(shù)緩解了難易樣本間的不平衡問題。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 數(shù)據(jù)集

    進(jìn)行基于機(jī)器閱讀理解模型的中文分詞任務(wù),實(shí)驗(yàn)所用數(shù)據(jù)集來自Bakeoff2005語料庫中的4個(gè)公共數(shù)據(jù)集PKU、MSRA、CITYU、AS。因機(jī)器閱讀理解任務(wù)不同于序列標(biāo)注任務(wù),需將原本的訓(xùn)練集和測試集轉(zhuǎn)換成MRC所需格式(MRC所用訓(xùn)練集和測試集均與原數(shù)據(jù)集相同),轉(zhuǎn)換后數(shù)據(jù)集樣本數(shù)詳細(xì)信息如表2所示,表中顯示了未登錄詞(out of vocabulary,OOV)在測試集中的比例。

    表2 訓(xùn)練集、測試集和OOV樣本數(shù)的統(tǒng)計(jì)信息

    3.2 評(píng)測指標(biāo)

    實(shí)驗(yàn)采用精準(zhǔn)率P、召回率R、F1值為評(píng)測指標(biāo),其中主要以F1值為主要評(píng)測指標(biāo)。P、R、F1值的計(jì)算公式分別為

    (12)

    (13)

    (14)

    式中:Wc為正確分詞樣本數(shù);Wa為全部樣本數(shù);Wt為測試集中正確的樣本數(shù)。

    未登錄詞是指已知詞典中不存在的新詞,識(shí)別出未登錄詞也是評(píng)價(jià)中文分詞模型性能優(yōu)劣的重要指標(biāo)之一。未登錄詞召回率計(jì)算公式為

    (15)

    式中:Ws為數(shù)據(jù)集中正確的分詞答案;Wp為模型預(yù)測分詞的結(jié)果;V(Ws)為Ws中的詞組未在詞典中出現(xiàn)的詞數(shù)。

    3.3 超參數(shù)及訓(xùn)練設(shè)置

    超參數(shù)的選擇對(duì)模型訓(xùn)練結(jié)果有很大影響,超參數(shù)設(shè)計(jì)如下:優(yōu)化算法使用Adam,初始學(xué)習(xí)率為0.000 05,以0.05速度進(jìn)行衰減;每個(gè)batch_size為16,Dropout為0.2,迭代20輪;概率分布矩陣閾值為0.5。本文選擇BERT中的base版本。

    3.4 實(shí)驗(yàn)結(jié)果及分析

    將本文模型與中文分詞常用的經(jīng)典模型CRF、LSTM、ELMo、BERT以及近年來其他中文分詞模型等進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如表3所示。

    表3 中文分詞模型實(shí)驗(yàn)結(jié)果對(duì)比

    從表3可以看出,本文模型盡管在PKU數(shù)據(jù)集上效果略差,但與近年深度學(xué)習(xí)的中文分詞模型相比還是取得了不錯(cuò)的結(jié)果。這主要緣于以下3點(diǎn)。一是本文模型在構(gòu)建時(shí)區(qū)別于序列標(biāo)注任務(wù),將模型的構(gòu)建分為3個(gè)步驟:首先,將序列標(biāo)注數(shù)據(jù)集格式轉(zhuǎn)換成機(jī)器閱讀理解格式;其次,構(gòu)建問題信息以豐富輸入特征;最后,改進(jìn)損失函數(shù)緩解難易樣本不平衡,從而提高模型的性能。二是問題內(nèi)容構(gòu)建上采用詞定義的方式,比問句式所獲得的輸入特征要更加豐富。三是本文模型適用于中文分詞中結(jié)構(gòu)明確、詞組邊界清晰、存在歧義詞等特點(diǎn)的特定領(lǐng)域數(shù)據(jù)。

    為驗(yàn)證改進(jìn)損失函數(shù)對(duì)于平衡難易樣本的有效性,改變改進(jìn)損失中的參數(shù)θ進(jìn)行實(shí)驗(yàn),結(jié)果如表4所示。

    表4 不同θ下的實(shí)驗(yàn)結(jié)果對(duì)比

    當(dāng)θ=0時(shí),交叉熵?fù)p失函數(shù)與改進(jìn)的損失函數(shù)相等。從表4可以看出,相比于不加平滑因子,加入平滑因子后性能都有提升。在PKU、MSRA、CITYU、AS數(shù)據(jù)集上,F1分別提升了1.46%、0.89%、0.7%、1.04%。式(9)以及實(shí)驗(yàn)結(jié)果表明,當(dāng)θ=1時(shí),模型對(duì)易分類樣本的損失抑制和對(duì)難分類樣本關(guān)注度變化較小,使得在緩解難易樣本不平衡上效果較弱。θ=2時(shí)模型性能最好。這是因?yàn)棣?2時(shí),本文模型能夠較好地抑制易分類樣本損失和關(guān)注難分類樣本。但是,當(dāng)θ=5時(shí),過度的抑制易分類樣本損失和關(guān)注難分類樣本,使得模型性能反而下降。這是因?yàn)檫^度抑制易分類樣本損失反而會(huì)造成模型對(duì)易分類樣本識(shí)別錯(cuò)誤。若在模型已經(jīng)收斂的情況下去過度關(guān)注那些非常難分類的樣本,也會(huì)使模型產(chǎn)生誤判。上述兩種情況會(huì)導(dǎo)致模型的準(zhǔn)確度降低。

    未登錄詞是影響中文分詞準(zhǔn)確性的關(guān)鍵問題之一。為驗(yàn)證閱讀理解分詞模型在OOV上的表現(xiàn),對(duì)比了閱讀理解模型和表3中的經(jīng)典模型在OOV上的性能,結(jié)果如表5所示。可以看出,本文方法在OOV識(shí)別效果上均優(yōu)于經(jīng)典模型。其原因在于:①大規(guī)模預(yù)訓(xùn)練模型BERT通過海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,掌握更好的通用語言能力,下游任務(wù)只需微調(diào)即可獲得優(yōu)異性能;②OOV中也包含歧義詞和難分類樣本。本文在預(yù)訓(xùn)練模型BERT基礎(chǔ)上豐富輸入特征和改進(jìn)損失函數(shù),在提高歧義詞識(shí)別的基礎(chǔ)上,也增強(qiáng)了OOV的識(shí)別。盡管如此,由于新詞的不斷出現(xiàn),中文分詞中OOV的識(shí)別仍具挑戰(zhàn)性。

    表5 不同模型的OOV召回率實(shí)驗(yàn)結(jié)果對(duì)比

    在對(duì)實(shí)驗(yàn)過程進(jìn)一步分析后,發(fā)現(xiàn)本文方法在樣本數(shù)較少的情況下也呈現(xiàn)出不錯(cuò)的結(jié)果。本文將4個(gè)公共數(shù)據(jù)集按10%、20%、40%、80%、100%的比例劃分訓(xùn)練集,測試集保持不變,實(shí)驗(yàn)結(jié)果如圖3所示??梢钥闯?4個(gè)公共數(shù)據(jù)集按比例劃分訓(xùn)練集,送入模型訓(xùn)練20個(gè)epoch后,在測試集上得到的實(shí)驗(yàn)結(jié)果相差不大;隨著訓(xùn)練集規(guī)模的增大,實(shí)驗(yàn)結(jié)果提升較小;本文提出的機(jī)器閱讀理解模型能夠在樣本數(shù)較少的情況下,達(dá)到較好的中文分詞結(jié)果。

    (a)PKU數(shù)據(jù)集

    最后,對(duì)本文模型進(jìn)行消融實(shí)驗(yàn)分析。表6對(duì)原始MRC方法[21]和本文方法進(jìn)行了實(shí)驗(yàn)對(duì)比,并在問題信息構(gòu)建上采用了表1中的兩種方式。

    從表6可以看出,改進(jìn)損失函數(shù)和問題信息構(gòu)建的不同會(huì)帶來明顯的提升。在PKU、MSRA、CITYU、AS數(shù)據(jù)集上,比原始MRC方法[21]分別提升了1.52%、1.05%、0.91%、1.29%。由此說明對(duì)基礎(chǔ)的MRC模型改進(jìn)損失函數(shù)后,能更好地緩解難易樣本的不平衡。在問題信息構(gòu)建上,詞定義的方式比問句的方式能帶來更加豐富的特征,使得模型在4個(gè)數(shù)據(jù)集上都獲得了一定的提升。

    表6 消融實(shí)驗(yàn)結(jié)果

    綜上所述可知,本文提出的基于機(jī)器閱讀理解的中文分詞方法可以有效解決中文分詞領(lǐng)域的分詞問題。

    4 結(jié) 論

    本文提出了一種機(jī)器閱讀理解模型的中文分詞方法,解決了序列標(biāo)注模型很難獲取句子長距離依賴導(dǎo)致輸入特征使用不充分、邊界樣本少導(dǎo)致數(shù)據(jù)不平衡問題。本文將序列標(biāo)注任務(wù)轉(zhuǎn)換為機(jī)器閱讀理解任務(wù)并改進(jìn)損失函數(shù),進(jìn)而有效地增強(qiáng)輸入特征使用和緩解數(shù)據(jù)不平衡。實(shí)驗(yàn)結(jié)果表明,本文提出的方法相比于序列標(biāo)注模型的中文分詞方法具有明顯優(yōu)勢。

    本文是機(jī)器閱讀理解模型在中文分詞上的初步探索,該方法還有進(jìn)一步改進(jìn)的空間。在下一步工作中,可以使用不同的預(yù)訓(xùn)練模型和改進(jìn)注意力機(jī)制來更好地捕獲上下文信息。通過探索新的模型架構(gòu)、設(shè)計(jì)新的問題構(gòu)建方式,進(jìn)一步提升機(jī)器閱讀理解模型在中文分詞上的應(yīng)用。

    猜你喜歡
    歧義分詞損失
    少問一句,損失千金
    胖胖損失了多少元
    eUCP條款歧義剖析
    中國外匯(2019年12期)2019-10-10 07:26:58
    結(jié)巴分詞在詞云中的應(yīng)用
    玉米抽穗前倒伏怎么辦?怎么減少損失?
    English Jokes: Homonyms
    值得重視的分詞的特殊用法
    “那么大”的語義模糊與歧義分析
    一般自由碰撞的最大動(dòng)能損失
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    大话2 男鬼变身卡| 国产精品国产三级国产av玫瑰| 亚洲精品日韩av片在线观看| 欧美日韩综合久久久久久| 大香蕉久久成人网| 黑人猛操日本美女一级片| 日日爽夜夜爽网站| 一边摸一边做爽爽视频免费| 欧美精品高潮呻吟av久久| 久久鲁丝午夜福利片| 母亲3免费完整高清在线观看 | 狂野欧美白嫩少妇大欣赏| 久久99热6这里只有精品| 亚洲图色成人| 久久精品国产亚洲av涩爱| 蜜桃在线观看..| 国产男女超爽视频在线观看| 全区人妻精品视频| 99热国产这里只有精品6| 国产视频首页在线观看| 日韩亚洲欧美综合| 午夜影院在线不卡| 亚洲第一区二区三区不卡| 国产精品无大码| 精品午夜福利在线看| 热re99久久国产66热| 免费黄色在线免费观看| 一区二区三区四区激情视频| 成年人午夜在线观看视频| 色哟哟·www| 母亲3免费完整高清在线观看 | 视频区图区小说| 最近最新中文字幕免费大全7| 成人国产av品久久久| 亚洲欧美精品自产自拍| 我的老师免费观看完整版| 亚洲av日韩在线播放| 少妇高潮的动态图| 99视频精品全部免费 在线| 男的添女的下面高潮视频| 色网站视频免费| 精品少妇黑人巨大在线播放| 99视频精品全部免费 在线| 黄色配什么色好看| 国产精品99久久久久久久久| 午夜视频国产福利| 亚洲欧美成人精品一区二区| 国产探花极品一区二区| 在线精品无人区一区二区三| 亚洲在久久综合| 亚洲精品美女久久av网站| 久久精品人人爽人人爽视色| 久久女婷五月综合色啪小说| 夫妻性生交免费视频一级片| 99精国产麻豆久久婷婷| 熟女电影av网| 成年美女黄网站色视频大全免费 | 七月丁香在线播放| 一区在线观看完整版| 国产永久视频网站| 你懂的网址亚洲精品在线观看| 成年人免费黄色播放视频| 国产成人一区二区在线| 午夜福利视频在线观看免费| 丝瓜视频免费看黄片| 最近手机中文字幕大全| 久久国产亚洲av麻豆专区| 最近手机中文字幕大全| 高清欧美精品videossex| 成年人午夜在线观看视频| 午夜老司机福利剧场| 亚洲av免费高清在线观看| 亚洲av免费高清在线观看| 中文字幕精品免费在线观看视频 | 精品少妇久久久久久888优播| 毛片一级片免费看久久久久| 狂野欧美白嫩少妇大欣赏| 国产无遮挡羞羞视频在线观看| 精品99又大又爽又粗少妇毛片| videos熟女内射| 80岁老熟妇乱子伦牲交| 亚洲成色77777| 亚洲精品久久久久久婷婷小说| 美女国产视频在线观看| a级毛片免费高清观看在线播放| 18禁在线播放成人免费| 免费观看的影片在线观看| 国产精品久久久久成人av| 好男人视频免费观看在线| 一本一本综合久久| 国产精品99久久99久久久不卡 | 黄色怎么调成土黄色| 国产精品国产三级国产av玫瑰| 极品人妻少妇av视频| 少妇丰满av| 最近最新中文字幕免费大全7| 精品少妇久久久久久888优播| 曰老女人黄片| 91精品国产国语对白视频| 在线观看免费高清a一片| 亚洲天堂av无毛| 久久久国产一区二区| 日本av手机在线免费观看| 久久久久久伊人网av| 欧美激情极品国产一区二区三区 | 国产色爽女视频免费观看| 日韩成人伦理影院| 99精国产麻豆久久婷婷| 国产黄色免费在线视频| 这个男人来自地球电影免费观看 | 国产免费又黄又爽又色| 国产高清三级在线| 大又大粗又爽又黄少妇毛片口| 成年女人在线观看亚洲视频| 熟女av电影| 免费av不卡在线播放| 国产成人一区二区在线| 国产伦理片在线播放av一区| 伦精品一区二区三区| av专区在线播放| a级毛色黄片| 亚洲精品456在线播放app| 狠狠精品人妻久久久久久综合| 老女人水多毛片| 飞空精品影院首页| 男人爽女人下面视频在线观看| 日韩免费高清中文字幕av| 亚洲综合色网址| 亚洲综合色网址| 欧美日韩视频高清一区二区三区二| 18禁在线播放成人免费| 亚洲精品国产av成人精品| 免费日韩欧美在线观看| 免费黄网站久久成人精品| 久久狼人影院| 久久亚洲国产成人精品v| 成年人免费黄色播放视频| 日韩av在线免费看完整版不卡| 国产伦精品一区二区三区视频9| 国产片内射在线| 国模一区二区三区四区视频| 99热这里只有是精品在线观看| 久久久久久久亚洲中文字幕| 国产精品一区二区三区四区免费观看| 超色免费av| 丰满乱子伦码专区| 婷婷色综合www| 高清在线视频一区二区三区| 久久久久久人妻| a 毛片基地| 九九爱精品视频在线观看| 看十八女毛片水多多多| 亚洲国产色片| 亚洲精品456在线播放app| kizo精华| 亚洲精品aⅴ在线观看| 久久久久久伊人网av| 啦啦啦视频在线资源免费观看| 高清欧美精品videossex| 99九九线精品视频在线观看视频| 免费大片18禁| 丁香六月天网| 亚洲综合色惰| 精品卡一卡二卡四卡免费| a级毛色黄片| 男人添女人高潮全过程视频| 亚洲中文av在线| 国产免费现黄频在线看| 亚洲,一卡二卡三卡| 国产亚洲午夜精品一区二区久久| 丰满少妇做爰视频| 国产视频内射| 欧美一级a爱片免费观看看| 女人久久www免费人成看片| 免费观看a级毛片全部| 色视频在线一区二区三区| 欧美精品亚洲一区二区| 免费少妇av软件| 人妻一区二区av| 国产免费福利视频在线观看| 色婷婷av一区二区三区视频| 久久人人爽人人爽人人片va| 亚洲欧洲国产日韩| 黄片无遮挡物在线观看| 亚洲精品亚洲一区二区| 久久99一区二区三区| 久久99蜜桃精品久久| 国产精品欧美亚洲77777| 亚洲精品日本国产第一区| 三上悠亚av全集在线观看| 亚洲人成网站在线观看播放| 欧美精品一区二区大全| 自拍欧美九色日韩亚洲蝌蚪91| 一区二区三区免费毛片| 97精品久久久久久久久久精品| 日韩精品免费视频一区二区三区 | a级毛色黄片| 亚洲av不卡在线观看| 日日摸夜夜添夜夜添av毛片| 一级,二级,三级黄色视频| √禁漫天堂资源中文www| 一二三四中文在线观看免费高清| 建设人人有责人人尽责人人享有的| 亚洲欧美成人精品一区二区| 亚洲精品日韩在线中文字幕| 国产视频首页在线观看| 欧美精品亚洲一区二区| 久久精品国产鲁丝片午夜精品| 少妇的逼水好多| 国产成人一区二区在线| 欧美日韩在线观看h| 亚洲av.av天堂| 久久久久久久精品精品| 如何舔出高潮| 国产午夜精品一二区理论片| 国产白丝娇喘喷水9色精品| 国产午夜精品久久久久久一区二区三区| 在线观看三级黄色| 黑人高潮一二区| 99久久精品国产国产毛片| 新久久久久国产一级毛片| 不卡视频在线观看欧美| 久久久亚洲精品成人影院| 多毛熟女@视频| 简卡轻食公司| 日韩在线高清观看一区二区三区| 亚洲av中文av极速乱| 国产男女内射视频| 2021少妇久久久久久久久久久| 欧美精品亚洲一区二区| 国产av一区二区精品久久| 久久久午夜欧美精品| 日本av手机在线免费观看| 亚洲精品国产av蜜桃| av有码第一页| 日韩中字成人| 国精品久久久久久国模美| 91精品国产九色| 国产男女超爽视频在线观看| 欧美精品国产亚洲| 亚洲欧美日韩另类电影网站| 99re6热这里在线精品视频| 九九久久精品国产亚洲av麻豆| 国产精品嫩草影院av在线观看| 国产亚洲精品第一综合不卡 | 久久久国产精品麻豆| 国产伦精品一区二区三区视频9| 国产av国产精品国产| 亚洲av综合色区一区| 十八禁网站网址无遮挡| 男的添女的下面高潮视频| 亚洲内射少妇av| 午夜激情av网站| 午夜精品国产一区二区电影| 亚洲经典国产精华液单| 国产精品国产三级国产av玫瑰| 丰满少妇做爰视频| 午夜激情av网站| a级毛色黄片| 国产在线一区二区三区精| 99视频精品全部免费 在线| 七月丁香在线播放| 大香蕉97超碰在线| 亚洲欧美色中文字幕在线| 黄色一级大片看看| av免费观看日本| 精品久久蜜臀av无| 国产免费视频播放在线视频| 国产乱来视频区| 日本黄色片子视频| 高清在线视频一区二区三区| 你懂的网址亚洲精品在线观看| 丰满乱子伦码专区| 狂野欧美激情性bbbbbb| 91精品国产九色| 国产精品一二三区在线看| 久热久热在线精品观看| 国产精品蜜桃在线观看| 中文字幕制服av| 欧美成人精品欧美一级黄| 黑人巨大精品欧美一区二区蜜桃 | 久久久久人妻精品一区果冻| 中文字幕最新亚洲高清| 男女国产视频网站| 久久97久久精品| 老女人水多毛片| 飞空精品影院首页| 飞空精品影院首页| 新久久久久国产一级毛片| 精品亚洲成国产av| 久久国产精品男人的天堂亚洲 | 简卡轻食公司| 丝袜脚勾引网站| 亚洲精品成人av观看孕妇| 人妻系列 视频| 欧美成人精品欧美一级黄| 蜜桃久久精品国产亚洲av| 又黄又爽又刺激的免费视频.| av在线app专区| 久久久国产欧美日韩av| 黄色欧美视频在线观看| 赤兔流量卡办理| 免费大片黄手机在线观看| av.在线天堂| 少妇丰满av| 一本—道久久a久久精品蜜桃钙片| 精品久久蜜臀av无| 日韩三级伦理在线观看| 中文字幕最新亚洲高清| 国产日韩一区二区三区精品不卡 | 国产精品久久久久久av不卡| 久久久精品94久久精品| 国产高清国产精品国产三级| a级毛片免费高清观看在线播放| 亚洲av福利一区| 日韩av免费高清视频| 国产亚洲午夜精品一区二区久久| 欧美日韩视频高清一区二区三区二| 国国产精品蜜臀av免费| 有码 亚洲区| 免费大片18禁| 久久韩国三级中文字幕| 国产精品久久久久成人av| 丰满迷人的少妇在线观看| 久久99热这里只频精品6学生| 日韩成人av中文字幕在线观看| 国产成人a∨麻豆精品| a级毛片黄视频| a级毛色黄片| 免费少妇av软件| 人人妻人人爽人人添夜夜欢视频| 国产熟女欧美一区二区| 99精国产麻豆久久婷婷| 久久热精品热| 超色免费av| 亚洲国产av影院在线观看| 各种免费的搞黄视频| 精品一区在线观看国产| 啦啦啦视频在线资源免费观看| 热99国产精品久久久久久7| 麻豆精品久久久久久蜜桃| 91精品国产九色| 亚洲av成人精品一区久久| videos熟女内射| 久热这里只有精品99| 国产毛片在线视频| 色网站视频免费| .国产精品久久| 边亲边吃奶的免费视频| 免费高清在线观看视频在线观看| 九九久久精品国产亚洲av麻豆| 夫妻午夜视频| 丰满少妇做爰视频| 另类精品久久| 天天影视国产精品| 少妇被粗大的猛进出69影院 | 国产精品女同一区二区软件| 午夜91福利影院| 日韩 亚洲 欧美在线| 如何舔出高潮| 欧美成人午夜免费资源| 久久99热6这里只有精品| 好男人视频免费观看在线| 国产精品熟女久久久久浪| 国产乱来视频区| 国产伦理片在线播放av一区| 在线观看免费日韩欧美大片 | 亚洲精品久久成人aⅴ小说 | 亚洲色图综合在线观看| 午夜激情av网站| 青春草视频在线免费观看| 一级毛片黄色毛片免费观看视频| 欧美丝袜亚洲另类| 免费看不卡的av| 精品一区二区免费观看| 人妻系列 视频| 日本黄大片高清| 久久综合国产亚洲精品| 自线自在国产av| 大香蕉久久网| 18禁裸乳无遮挡动漫免费视频| 校园人妻丝袜中文字幕| 久久久国产欧美日韩av| 欧美亚洲 丝袜 人妻 在线| av卡一久久| 日韩欧美一区视频在线观看| av福利片在线| 亚洲四区av| 久久精品国产亚洲av涩爱| 99热国产这里只有精品6| 久久综合国产亚洲精品| 亚洲少妇的诱惑av| 成人毛片60女人毛片免费| xxxhd国产人妻xxx| 亚洲美女搞黄在线观看| 日韩人妻高清精品专区| 亚洲,一卡二卡三卡| 一区二区日韩欧美中文字幕 | 99久久精品一区二区三区| 欧美人与性动交α欧美精品济南到 | 九九爱精品视频在线观看| videosex国产| 一级a做视频免费观看| 精品99又大又爽又粗少妇毛片| 成人毛片60女人毛片免费| 99久久精品国产国产毛片| 成年人免费黄色播放视频| 国产精品人妻久久久影院| 国产精品国产三级国产专区5o| 国产高清不卡午夜福利| 国产精品女同一区二区软件| 国产免费又黄又爽又色| av免费观看日本| 狂野欧美白嫩少妇大欣赏| 插逼视频在线观看| 国产黄片视频在线免费观看| 日韩一区二区视频免费看| 少妇丰满av| 久久精品国产亚洲网站| 精品熟女少妇av免费看| 国产高清有码在线观看视频| 国产淫语在线视频| 搡女人真爽免费视频火全软件| 午夜激情福利司机影院| 高清午夜精品一区二区三区| 国产成人av激情在线播放 | 交换朋友夫妻互换小说| 国产成人a∨麻豆精品| 欧美激情 高清一区二区三区| 五月玫瑰六月丁香| 欧美成人午夜免费资源| 成人手机av| 成人无遮挡网站| 久久久国产欧美日韩av| 午夜av观看不卡| 一区二区三区乱码不卡18| 丝袜喷水一区| 国产 一区精品| 久久精品夜色国产| 全区人妻精品视频| 国产免费视频播放在线视频| 欧美老熟妇乱子伦牲交| 自拍欧美九色日韩亚洲蝌蚪91| 自线自在国产av| 欧美日韩在线观看h| 欧美xxxx性猛交bbbb| 国产精品久久久久久久电影| 久久97久久精品| 欧美老熟妇乱子伦牲交| 免费久久久久久久精品成人欧美视频 | 五月玫瑰六月丁香| 99久久人妻综合| 美女主播在线视频| 麻豆精品久久久久久蜜桃| 交换朋友夫妻互换小说| 精品少妇久久久久久888优播| 十八禁高潮呻吟视频| 欧美日韩精品成人综合77777| 国产精品国产三级国产专区5o| 午夜福利网站1000一区二区三区| 一区二区三区免费毛片| 久久鲁丝午夜福利片| 青青草视频在线视频观看| 国产精品国产av在线观看| 在线观看三级黄色| 中文字幕人妻熟人妻熟丝袜美| 日本午夜av视频| 欧美丝袜亚洲另类| freevideosex欧美| 国产 精品1| 日本黄大片高清| 国产在视频线精品| .国产精品久久| 啦啦啦视频在线资源免费观看| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 91精品国产九色| av在线观看视频网站免费| 国产黄色视频一区二区在线观看| av.在线天堂| 最后的刺客免费高清国语| 久久精品人人爽人人爽视色| xxxhd国产人妻xxx| 18+在线观看网站| xxx大片免费视频| 婷婷色av中文字幕| 汤姆久久久久久久影院中文字幕| 欧美日韩av久久| 日本黄大片高清| 美女cb高潮喷水在线观看| 亚洲成色77777| 亚洲精品av麻豆狂野| 十八禁网站网址无遮挡| 国产精品女同一区二区软件| 国产不卡av网站在线观看| 免费av中文字幕在线| 一级毛片aaaaaa免费看小| 777米奇影视久久| 乱码一卡2卡4卡精品| 视频区图区小说| 高清毛片免费看| 亚洲av.av天堂| 中文字幕人妻熟人妻熟丝袜美| 免费少妇av软件| 亚洲av男天堂| 狠狠精品人妻久久久久久综合| 免费看光身美女| 母亲3免费完整高清在线观看 | 精品99又大又爽又粗少妇毛片| 国产午夜精品久久久久久一区二区三区| 一级黄片播放器| 久久免费观看电影| 高清欧美精品videossex| 99国产综合亚洲精品| 大片免费播放器 马上看| 国产精品一区二区在线观看99| 91精品伊人久久大香线蕉| 黑丝袜美女国产一区| 日韩欧美精品免费久久| 国产成人精品无人区| 免费看av在线观看网站| 国产精品国产三级国产av玫瑰| 国产成人午夜福利电影在线观看| 久久 成人 亚洲| 我的老师免费观看完整版| 亚洲成人一二三区av| 一级毛片 在线播放| 久久久精品免费免费高清| 亚洲精品av麻豆狂野| 欧美最新免费一区二区三区| 热re99久久国产66热| 亚洲经典国产精华液单| videossex国产| 久久国产精品大桥未久av| 人妻人人澡人人爽人人| 在线 av 中文字幕| 日本-黄色视频高清免费观看| 成人无遮挡网站| 全区人妻精品视频| 热99国产精品久久久久久7| 91久久精品电影网| 韩国av在线不卡| 国产极品天堂在线| 国产日韩欧美视频二区| 国产午夜精品久久久久久一区二区三区| 嘟嘟电影网在线观看| 亚洲熟女精品中文字幕| 亚洲精品456在线播放app| 99热国产这里只有精品6| 免费看av在线观看网站| 亚洲美女黄色视频免费看| 国产69精品久久久久777片| 国产极品天堂在线| 人妻少妇偷人精品九色| 一级,二级,三级黄色视频| 亚洲成人手机| 色94色欧美一区二区| 久久午夜福利片| 看十八女毛片水多多多| 黄色怎么调成土黄色| 亚洲精华国产精华液的使用体验| 伦理电影免费视频| 夜夜爽夜夜爽视频| 777米奇影视久久| 少妇的逼水好多| 中国国产av一级| 日韩在线高清观看一区二区三区| 久久影院123| 一个人看视频在线观看www免费| 色视频在线一区二区三区| 看十八女毛片水多多多| 婷婷色综合www| 欧美精品一区二区大全| 曰老女人黄片| 一区二区三区精品91| 999精品在线视频| 国产一区二区在线观看av| 久久久a久久爽久久v久久| 色哟哟·www| 中国美白少妇内射xxxbb| 国产成人av激情在线播放 | 亚洲国产精品成人久久小说| 国产永久视频网站| 99热6这里只有精品| 国产极品天堂在线| 亚洲欧美日韩另类电影网站| 久久久亚洲精品成人影院| 美女国产高潮福利片在线看| 成人毛片60女人毛片免费| 国产精品嫩草影院av在线观看| 亚洲欧美精品自产自拍| a 毛片基地| 国产精品成人在线| 欧美成人午夜免费资源| 亚洲美女视频黄频| 国产色爽女视频免费观看| 久久人人爽人人爽人人片va| 国产伦理片在线播放av一区| 精品少妇内射三级| 两个人的视频大全免费| 51国产日韩欧美| 91aial.com中文字幕在线观看| 欧美 日韩 精品 国产| av免费在线看不卡| 美女中出高潮动态图| 欧美另类一区| 亚洲精华国产精华液的使用体验| 午夜免费鲁丝| 大陆偷拍与自拍| 欧美精品亚洲一区二区| 哪个播放器可以免费观看大片| 免费黄频网站在线观看国产| 欧美另类一区| 麻豆成人av视频| 青青草视频在线视频观看| 亚洲久久久国产精品|