• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      裁判文書關(guān)鍵詞提取的改進(jìn)方法研究

      2020-12-07 08:20:34白鳳波王世凡王穎潔
      關(guān)鍵詞:詞頻文書裁判

      白鳳波,常 林,王世凡,李 彬,王穎潔,周 紅,劉 耀

      1.中國政法大學(xué) 證據(jù)科學(xué)研究院,北京 100088

      2.浙江迪安鑒定科學(xué)研究院,杭州 310000

      3.中國科學(xué)技術(shù)大學(xué) 軟件學(xué)院,江蘇 蘇州 215000

      4.大連大學(xué) 信息工程學(xué)院,遼寧 大連 116622

      5.公安部物證鑒定中心,北京 100038

      1 引言

      關(guān)鍵詞是反映文章中心或主旨思想的一組詞或短語[1],關(guān)鍵詞提取作為文本聚類或自然語言處理的關(guān)鍵步驟之一,是指采用自動(dòng)化的技術(shù)在文本中提取關(guān)鍵詞的過程。關(guān)鍵詞提取可以分為有監(jiān)督提取、半監(jiān)督提取和無監(jiān)督提取三類[2],目前普遍采用的是適應(yīng)性較強(qiáng)的無監(jiān)督的關(guān)鍵詞抽取算法。近年來,研究者們對關(guān)鍵詞提取算法開展了大量的研究工作[3]。其中,TF-IDF[4]算法作為一種基于統(tǒng)計(jì)學(xué)的提取方法,主要通過詞頻計(jì)算提取文章中的關(guān)鍵詞,但由于對詞頻的過度依賴往往會(huì)降低提取的效果。有些研究者在傳統(tǒng)的TF-IDF算法上加入語義、詞頻、詞長、位置等多方面的信息對其進(jìn)行改進(jìn)[5-7]。針對TF-IDF算法沒有考慮特征詞在文本集上的分布特征,文獻(xiàn)[8-10]將信息熵、互信息、信息增益等與TF-IDF 進(jìn)行結(jié)合。為彌補(bǔ)數(shù)據(jù)集偏斜帶來的問題,文獻(xiàn)[11]提出用 Category Term Descriptor(CTD)來改進(jìn)TF-IDF。還有研究者用特征選擇函數(shù)來代替IDF,將傳統(tǒng)的TF-IDF 算法改進(jìn)成TF 乘以特征選擇函數(shù)的形式[12]?;趥鹘y(tǒng)算法的復(fù)雜中文的專業(yè)短語抽取的準(zhǔn)確程度問題,本文提出一種改進(jìn)的加權(quán)算法(IAKEF)。在我國加強(qiáng)依法治國的方針指引下,人工智能研究特別是自然語言處理與法治社會(huì)的結(jié)合必將進(jìn)一步加深。然而,通過對作為最終法庭審判結(jié)論的裁判文書進(jìn)行關(guān)鍵詞提取,為審判人員、司法鑒定、律師等司法服務(wù)工作者提供正確、全面的參考案例,有效提高工作效率顯得尤為關(guān)鍵。

      2 模型描述

      判決文書雖然在詞頻與逆文檔頻率方面與其他文本處理差異很小,其關(guān)鍵詞抽取與日常用語中的關(guān)鍵詞有所不同。其一,停用詞有所不同。例如,像“本院認(rèn)為”“裁定”“一審”等在文書中頻繁出現(xiàn)但又無法表達(dá)文書主旨內(nèi)容的詞語,將會(huì)成為關(guān)鍵詞提取的干擾項(xiàng)。其二,關(guān)鍵詞的詞長較長。裁判文書中詞長為四個(gè)字以上的詞匯超過四成比例。如圖1 所示,見Word2Vec 抽取的關(guān)鍵詞列舉。其三,文本內(nèi)容分類較細(xì)。由于裁判文書的類型有七大類,各類型的文書主題的側(cè)重不同,關(guān)鍵詞傾向也不同。

      圖1 裁判文書的Word2Vec關(guān)鍵詞抽取舉例

      2.1 傳統(tǒng)的TF-IDF算法

      詞頻(Term Frequency,TF)是指詞語在整個(gè)文本中出現(xiàn)的頻率,計(jì)算方法是用該詞語在文本中總共出現(xiàn)的次數(shù)除以文本中的單詞總數(shù);逆文檔頻率(Inverse Document Frequency,IDF)是用來衡量詞語是否具有文章代表性的評價(jià)方法,計(jì)算方法為用語料庫中文檔的總數(shù)除以出現(xiàn)詞語的文檔數(shù)目并取對數(shù)。倘若一個(gè)詞在某一類中出現(xiàn)的頻率較高,而在其他類中出現(xiàn)的頻率較低,則說明該詞語在此類中具有很強(qiáng)的代表性,其IDF值就高;相反,若一個(gè)詞在每個(gè)文檔中均有出現(xiàn),則其文章代表性較低,IDF 值也就低。IDF 因子在一定程度上避免了文章中常用非關(guān)鍵詞語成為關(guān)鍵詞的可能。

      TF-IDF 的主要思想是,用TF 相乘IDF 的結(jié)果作為計(jì)算詞語的權(quán)重,詞語在文章中出現(xiàn)的頻率越高,而包含該詞語的文檔數(shù)越少,則認(rèn)為該詞語的重要性越高。

      計(jì)算公式如式(1)~式(3)所示:

      TF-IDF是一種基于統(tǒng)計(jì)特征的傳統(tǒng)的關(guān)鍵詞提取算法,算法的性能較好,運(yùn)算速度快,提取的結(jié)果比較符合實(shí)際。但是該算法僅僅考慮詞頻方面的因素,沒有考慮詞語出現(xiàn)的位置、詞性、詞長等信息,具有一定的局限性。

      2.2 改進(jìn)的關(guān)鍵詞提取算法

      針對TF-IDF 算法的缺陷,目前已有一些學(xué)者提出了改進(jìn)的算法,例如 TF-IDF′[7]算法、CTD[11]算法、TFIDF-IGD[10]算法以及融合多特征的TF-IDF-MTF[13]算法,這些算法都在一定程度上提高了權(quán)重計(jì)算的準(zhǔn)確率,但對于裁判文書專業(yè)性較強(qiáng)的數(shù)據(jù)文本來說提取效果不是太好。本文根據(jù)裁判文書的特點(diǎn),結(jié)合已改進(jìn)的TF-IDF算法,提出了一套新的改進(jìn)方法,對裁判文書的關(guān)鍵詞提取收到了良好的效果。

      2.2.1 改進(jìn)的文本預(yù)處理

      通過Jieba[14]分詞和Ltp[15]分詞技術(shù)對文書的文本進(jìn)行分詞,兩種分詞工具的結(jié)合可以進(jìn)行互補(bǔ),克服各自的缺點(diǎn),從而提高了分詞的準(zhǔn)確率。同時(shí)考慮到本文所用到的數(shù)據(jù)為判決文書,具有一定的法律專業(yè)性。所以,又以“搜狗”這一在線工具為例對其細(xì)胞詞庫中關(guān)于文書、法律和專有名詞方面的詞庫進(jìn)行解析,作為自定義字典,加入到Jieba 和Ltp 分詞工具中,進(jìn)一步提高了分詞的專業(yè)性。停用詞字典在第一輪分詞的基礎(chǔ)上進(jìn)行更新,將出現(xiàn)頻率較高的無效詞逐一加入停用詞詞典,以提高提取關(guān)鍵詞的有效率。文本中的同義詞在一定程度上也會(huì)影響關(guān)鍵詞提取的準(zhǔn)確率,例如“審判”和“審訊”作為近義詞,若在提取時(shí)單獨(dú)對待,可能因?yàn)閮烧叩臋?quán)重均較低而被忽略,若作為同一個(gè)詞進(jìn)行處理,則能避免這種情況的出現(xiàn)。在預(yù)處理階段進(jìn)行同義詞處理,根據(jù)同義詞庫合并文本相似度高的詞語成為了預(yù)處理階段重要的一步。改進(jìn)的文本預(yù)處理階段流程,見圖2。

      圖2 預(yù)處理階段流程

      2.2.2 基于語義的改進(jìn)

      傳統(tǒng)的TF-IDF 算法僅僅統(tǒng)計(jì)詞頻信息,傾向于頻率較高的詞語,沒有考慮詞語的語義、位置、詞長、詞性等方面的信息,而這些因素都會(huì)影響詞語在文章中的表示意義,使得提取了一些頻率較高但與主題無關(guān)的關(guān)鍵詞。裁判文書作為一種特殊的法律文本,文書的標(biāo)題在一定程度上可以很好地概述全文的內(nèi)容,這也說明了不同位置的詞語代表文本內(nèi)容的重要性程度不同。

      針對以上提起的幾方面因素,楊凱艷在文獻(xiàn)[16]中已有探索,本文在其研究的基礎(chǔ)上加以改進(jìn),使其在語義上更能符合裁判文書的特點(diǎn)。本文提出將多個(gè)影響因素進(jìn)行特征融合,把得到的融合特征MTF(Multi-Term-Feature)作為乘數(shù)因子加入權(quán)重計(jì)算公式中去,以改善傳統(tǒng)算法在語義方面的不足。融合特征MTF的計(jì)算公式如式(4)所示:

      (1)詞性因子POS(Part of Speech)

      在一個(gè)句子中,不同詞性的詞語對句子修飾性不同,所蘊(yùn)含的信息量不同,也會(huì)導(dǎo)致句子的語義不同。本文通過對人工標(biāo)注的1 000 條判決文書的5 000 個(gè)關(guān)鍵詞詞性進(jìn)行分析,結(jié)果如圖3所示。

      圖3 關(guān)鍵詞詞性分布

      通過圖2 可知關(guān)鍵詞中大約70%的詞語詞性為名詞、動(dòng)詞、動(dòng)名詞,詞性為形容詞、副詞的所占比例約為20%,其他詞性所占比例為10%。所以根據(jù)詞性的分布不同,應(yīng)給予詞語不同的權(quán)重。本文的詞性因子計(jì)算公式如式(5)所示:

      (2)詞長因子TL(Term Length)

      針對詞長因子,目前常用的兩種評價(jià)方法,分別為詞長比例權(quán)重法和設(shè)置常數(shù)法。前者是將詞語的長度與全文中最長詞語長度的比值作為詞長因子,后者則是通過對特定長度的詞語進(jìn)行人工設(shè)置系數(shù)來為詞長因子賦值。考慮到裁判文書中詞長作為一項(xiàng)重要因子,對文檔主題的貢獻(xiàn)度較大,本文評價(jià)方法采用后者。通過對人工標(biāo)注的5 000 個(gè)關(guān)鍵詞詞長進(jìn)行分析,其分布如圖4所示。

      根據(jù)實(shí)驗(yàn)數(shù)據(jù)的百分比,得出的詞長權(quán)重系數(shù)計(jì)算公式如式(6)所示:

      圖4 關(guān)鍵詞詞長分布

      其中l(wèi)i為詞語長度。

      (3)詞位置因子WL(Word Location)

      判決文書中標(biāo)題與內(nèi)容的基本符合率為95%,在文書的首段和結(jié)尾位置也往往富含大量有效信息,這些特定的位置關(guān)鍵詞出現(xiàn)的概率比較大。通過對詞語的位置信息進(jìn)行有效標(biāo)識(shí)可以提高關(guān)鍵詞的提取效果。本文通過將詞語第一次和最后一次出現(xiàn)位置作為特征對提取算法進(jìn)行改進(jìn)。

      ①預(yù)先的標(biāo)題處理

      根據(jù)標(biāo)題與文章內(nèi)容的長度,通過增加標(biāo)題在總文本中出現(xiàn)的次數(shù)加以改進(jìn)。計(jì)算公式如式(7)所示:

      其中,Count(title)為標(biāo)題重復(fù)次數(shù),ceil代表向下取整。

      ②詞位置因子的處理

      能夠總結(jié)全文的詞語往往出現(xiàn)在文章的末尾,對整篇文章進(jìn)行概括;而能夠開門見山、指明文意的詞語出現(xiàn)在開頭的概率更大,起到統(tǒng)領(lǐng)全文的作用;因此詞位置因子的計(jì)算公式如式(8)~(10)所示:

      其中,F(xiàn)P(T,d)代表詞語的首位置,LP(T,d)代表詞語的末位置,F(xiàn)irstPos(T)是詞語T在文本d中首次出現(xiàn)時(shí)已出現(xiàn)的詞語數(shù),LastPos(T)代表詞語T最后一次出現(xiàn)時(shí)文章還未出現(xiàn)的詞語數(shù),SumWords(d)是文本d的詞語總數(shù)。

      (4)詞跨度因子WS(Word Span)

      詞跨度代表詞在文本中首次出現(xiàn)的位置與最后一次出現(xiàn)的位置之間的距離,反映了詞在文中的出現(xiàn)范圍。通常來講,詞在文章中出現(xiàn)的范圍越廣,即詞跨度越大,說明該詞越能反映文章的主題[17];相反,詞跨度越小,說明詞語集中在局部出現(xiàn),不能概括全文的主旨。倘若某詞在局部出現(xiàn)的頻率很大,則會(huì)一定程度上影響全文關(guān)鍵詞的提取,所以引入詞跨度因子可以較好地避免這一問題。

      詞跨度因子主要是過濾某個(gè)局部范圍內(nèi)頻率較高的詞語,計(jì)算方法如式(11)所示:

      其中,las(T)為詞T在文本d中最后一次出現(xiàn)的序號,fir(T)為詞T在文本d中首次出現(xiàn)的序號,SumWords(d)為文本d分詞后的總詞數(shù)。

      2.2.3 基于分類內(nèi)分布的改進(jìn)

      由于裁判文書的類型有刑事判決、民事裁定、行政判決、行政賠償、執(zhí)行裁定、民事判決、其他類七大類,文書類型的不同會(huì)導(dǎo)致文書主題的側(cè)重不同,即各種類型文書之間的關(guān)鍵詞傾向不同。本文區(qū)分了裁判文書的分類,假設(shè)文本集合C中共有N種分類,C={C1,C,…,C},類C的文本數(shù)為為詞語t在C2niki這一分類出現(xiàn)的頻率[18]。計(jì)算公式如式(12)和式(13)所示:

      此時(shí)分類內(nèi)離散度Dic如式(13)所示:

      其中Dii為詞語tk在類Ci中無偏估計(jì)的樣本的方差,如式(14)所示:

      對于兩個(gè)詞語T1、T2,假設(shè)計(jì)算時(shí)得出的IDF值相等,說明包含兩詞的文檔數(shù)是一樣的。而在同一類Ci中,假設(shè)詞語T1 普遍出現(xiàn)在類Ci的各項(xiàng)文檔中,而詞語T2 僅出現(xiàn)在類Ci的某幾篇文檔中,此時(shí)說明詞語T1 對類Ci更顯著,其成為類Ci文檔中關(guān)鍵詞的可能性較大;計(jì)算它們的離散度,得到T1 的類內(nèi)離散度值比T2 的類內(nèi)離散度值要小,說明類內(nèi)離散度越低,詞語對應(yīng)的權(quán)重就會(huì)越高[5]。

      詞語T在各個(gè)類中分布不均勻,其在各個(gè)類中代表文檔主題的影響力就不同。考慮裁判文書有民事、刑事等七大類,且各類別的裁判文書特點(diǎn)鮮明,本文引入類內(nèi)離散度,將詞語最能代表那個(gè)類別的類內(nèi)離散度作為該詞語的調(diào)整因子,解決類內(nèi)分布差異問題。離散度D計(jì)算方法如式(15)所示:

      2.2.4 基于分類間分布的改進(jìn)

      本文中引入信息增益來解決文書分類間的詞語分布的問題。信息增益是一種基于信息論的特征選擇方法[19-20]。信息熵是由美國數(shù)學(xué)家克勞德·艾爾伍德·香農(nóng)(Claude Elwood Shannon)提出的對信息的一種度量單位,表示所蘊(yùn)含信息量的多少;在信息論中,信息熵用于描述信息空間的突發(fā)性和不確定性。熵的值越小,表示信息空間概率分布越均勻;條件熵的定義是在給定X的條件下,Y的條件概率分布的熵對X的數(shù)學(xué)期望,它描述的是觀測某個(gè)變量之后信息空間的不確定性程度;信息量被用來度量不確定性的減少程度,因此信息增益代表了所觀測的變量攜帶的信息量。其量化思想為:當(dāng)詞語在各個(gè)類中分布越均勻,說明它對類別的區(qū)分能力越弱,即所含的信息量越少,應(yīng)給予較低的權(quán)重,反之亦然。通過把信息增益公式引入到文本集合的類別間,依靠數(shù)據(jù)集合中類別信息熵和文本類別中詞語條件熵之間信息量的增益關(guān)系,來確定該詞語在文本分類中所能提供的信息量,并把這個(gè)信息量反映到詞語的權(quán)重中[20]。

      信息增益計(jì)算公式如式(16)所示:

      假設(shè)文檔結(jié)合共有n種類別,E(C)為文檔集合類別C的信息熵,E(C|T)為詞語T對文本集類別的條件熵;P(ci)表示類別ci的概率,P(t)表示詞語T在文檔集合中出現(xiàn)的概率,P(ˉt)表示詞語T不出現(xiàn)的概率,P(ˉt)=1-P(t);每個(gè)樣本子集的熵,可以轉(zhuǎn)化為子集與文本集合類別ci的條件熵,E(C|t)表示詞語T出現(xiàn)時(shí)類別集合的條件熵,E(C|ˉt)表示詞條T不出現(xiàn)時(shí)類別集合的條件熵;P(ci|t)表示ci類中含有詞語T的文檔數(shù),表示ci類中不含詞語T的文檔數(shù)。信息熵、條件熵的計(jì)算公式如式(17)~式(20)所示:

      2.2.5 基于TextRank的改進(jìn)

      TextRank 算法是利用局部詞匯之間關(guān)系(共現(xiàn)窗口)對后續(xù)關(guān)鍵詞進(jìn)行排序,用到了詞之間的關(guān)聯(lián)性,這是其優(yōu)于TF-IDF的地方,可以彌補(bǔ)傳統(tǒng)的TD-IDF算法僅考慮詞頻的問題,因此本文提出的改進(jìn)的計(jì)算公式如式(21)所示:

      本文中?為加權(quán)因子。

      3 模型實(shí)現(xiàn)

      基于改進(jìn)的關(guān)鍵詞抽取算法,其流程見圖5。

      圖5 改進(jìn)的關(guān)鍵詞抽取算法流程圖

      步驟1文本預(yù)處理,數(shù)據(jù)清洗、格式標(biāo)記的去除、中文分詞技術(shù)、詞性標(biāo)注、以及停用詞過濾。

      步驟2統(tǒng)計(jì)詞語信息,主要包括詞語的詞頻、詞性、長度、出現(xiàn)的文檔數(shù)和位置。

      步驟3結(jié)合信息熵、離散度、融合特征以及TextRank,根據(jù)改進(jìn)的公式計(jì)算候選詞的權(quán)重。

      步驟4將候選詞權(quán)重由大到小的順序排序,取前一個(gè)詞語作為關(guān)鍵詞。

      4 實(shí)驗(yàn)驗(yàn)證

      4.1 實(shí)驗(yàn)環(huán)境

      4.1.1 軟件環(huán)境

      基于Windows 10 操作系統(tǒng),采用Python 3.5 編譯環(huán)境對上述實(shí)驗(yàn)進(jìn)行驗(yàn)證實(shí)現(xiàn)。主要采用Python 語言中第三方工具對系統(tǒng)數(shù)據(jù)結(jié)構(gòu)進(jìn)行設(shè)計(jì),以實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)和各種操作。其中,第三方工具包含Pyltp0.2.1、Ltp3.4.0、Pandas0.24.2、Jieba0.39、Gensim 3.7.2等。

      4.1.2 硬件環(huán)境

      計(jì)算機(jī)型號:神舟戰(zhàn)神Z7-i78172S2。

      處理器:Intel?Core? i7-4720HQ CPU @ 2.60 GHz。

      安裝內(nèi)存:32.00 GB。

      4.2 實(shí)驗(yàn)數(shù)據(jù)集和評價(jià)方法

      本文實(shí)驗(yàn)數(shù)據(jù)集是采用由網(wǎng)絡(luò)獲取的裁判文書文本數(shù)據(jù)。數(shù)據(jù)集共包含1 000 條訓(xùn)練集,已經(jīng)人工標(biāo)注關(guān)鍵詞;包含240 000 條記錄作為測試集進(jìn)行關(guān)鍵詞提取。語料集中主要包括刑事判決、民事裁定、行政判決、行政賠償、執(zhí)行裁定、民事判決、其他類七大類。本文選取已有人工標(biāo)注的1 000 條文件數(shù)據(jù),每個(gè)文書選取5個(gè)詞語作為關(guān)鍵詞(其中包含不少于5 000個(gè)的關(guān)鍵詞)用于實(shí)驗(yàn)仿真。因?yàn)槿肆蜁r(shí)間有限,盡量較好地保證質(zhì)量,由專業(yè)司法工作專家依照案件的緣由和類別完成少量標(biāo)注數(shù)據(jù)。

      實(shí)驗(yàn)所用測試集是用來進(jìn)行關(guān)鍵詞提取的驗(yàn)證與評價(jià)。因?yàn)闇y試集包含文本數(shù)量較大沒有全部人工標(biāo)注和評價(jià),實(shí)驗(yàn)抽樣選取其中大約1 000 條文本進(jìn)行人工標(biāo)注對比評價(jià)和分析,驗(yàn)證這部分?jǐn)?shù)據(jù)的準(zhǔn)確率。實(shí)驗(yàn)設(shè)計(jì)驗(yàn)證關(guān)鍵詞提取準(zhǔn)確程度,主要是基于人工標(biāo)注的1 000 條文書進(jìn)行的,每篇文書人工標(biāo)注5 個(gè)關(guān)鍵詞,算法提取10 個(gè)關(guān)鍵詞,用F1-Measure 作為評價(jià)標(biāo)準(zhǔn)。

      4.3 實(shí)驗(yàn)步驟與結(jié)果分析

      為衡量關(guān)鍵詞的有效性,本文將算法提取的關(guān)鍵詞與人工標(biāo)注作比較,來判斷提取算法效果的優(yōu)劣。

      4.3.1 實(shí)驗(yàn)數(shù)據(jù)處理

      本文選取人工標(biāo)注的1 000 條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,其中刑事判決類200 條、民事裁定類200 條、行政判決類200條、行政賠償類50條、執(zhí)行裁定類200條、民事判決類50條、其他類100條。每條數(shù)據(jù)已經(jīng)有人工標(biāo)注出5個(gè)關(guān)鍵詞作為實(shí)驗(yàn)結(jié)果比較。

      4.3.2 實(shí)驗(yàn)步驟

      第一步進(jìn)行文本的預(yù)處理:通過對數(shù)據(jù)進(jìn)行標(biāo)題內(nèi)容合并、分詞、停用詞和同義詞過濾處理,構(gòu)建候選詞集合。

      第二步關(guān)鍵詞提?。悍謩e采用傳統(tǒng)TF-IDF 算法、TextRank[21]算法、Word2Vec[22]及改進(jìn)的算法進(jìn)行關(guān)鍵詞提取,每篇文章標(biāo)準(zhǔn)10 個(gè)關(guān)鍵詞用于與人工標(biāo)準(zhǔn)的關(guān)鍵詞對比。

      4.3.3 實(shí)驗(yàn)評價(jià)指標(biāo)

      實(shí)驗(yàn)選用準(zhǔn)確率P、召回率R、F1-Measure(F1)作為評價(jià)指標(biāo);準(zhǔn)確率P是人工標(biāo)注的關(guān)鍵詞與計(jì)算機(jī)提取關(guān)鍵詞的交集和計(jì)算機(jī)提取關(guān)鍵詞的比率,是用于評價(jià)查找準(zhǔn)確程度的指標(biāo);召回率是用人工標(biāo)注的關(guān)鍵詞與計(jì)算機(jī)提取關(guān)鍵詞的交集和人工標(biāo)注的關(guān)鍵詞的比率,是用于評價(jià)查找完全程度的指標(biāo);F1 因子是兩者的綜合指標(biāo),當(dāng)F1 因子較高時(shí),則能說明實(shí)驗(yàn)方法比較有效。設(shè)算法提取關(guān)鍵詞集合為T,人工標(biāo)注關(guān)鍵詞集合為H。P、R、F1 的計(jì)算公式如式(22)~(24)所示:

      4.3.4 實(shí)驗(yàn)結(jié)果分析

      按照以上步驟進(jìn)行關(guān)鍵詞提取,將不同算法的各項(xiàng)指標(biāo)存入表1 中。為了分析單一改進(jìn)策略對算法評價(jià)結(jié)果的影響,將逐一排除改進(jìn)策略的生成的評價(jià)指標(biāo)記入表2 中。不同算法準(zhǔn)確率P、召回率R、F1-Measure(F1)評價(jià)指標(biāo)比較如圖6,加權(quán)因子與P、R、F1 值對應(yīng)圖如圖7。

      表1 不同算法在判決文書中評價(jià)指標(biāo)

      表2 各改進(jìn)策略單獨(dú)排除的評價(jià)指標(biāo)

      圖6 不同算法評價(jià)指標(biāo)比較

      圖7 加權(quán)因子?與P、R、F1 值對應(yīng)圖

      通過圖6 可知,不同算法對各類判決文書的F1 評測進(jìn)行比較,TextRank 算法相比其他算法來說,在各類文書中關(guān)鍵詞提取的效果穩(wěn)定性較高,但其準(zhǔn)確率要低于傳統(tǒng)的TF-IDF 算法和改進(jìn)的算法。Word2Vec 提取效果最差,不適用于裁判文書關(guān)鍵詞的提取。

      通過圖7 可知,改進(jìn)的算法與傳統(tǒng)的TF-IDF、Text-Rank、Word2Vec相比,在準(zhǔn)確率P、召回率R、F1-Measure上都有了很大的提高,F(xiàn)1 值分別提高了0.088 00、0.150 14、0.437 07;實(shí)驗(yàn)結(jié)果表明該方法可以很好地提高對裁判文書進(jìn)行關(guān)鍵詞提取的準(zhǔn)確率;并進(jìn)一步對加權(quán)因子?研究比較,當(dāng)?=0.5 時(shí),改進(jìn)的TF-IDF算法關(guān)鍵詞準(zhǔn)確率達(dá)到最高。

      圖8 TF-IDF算法的裁判文書關(guān)鍵字抽取樣本

      圖9 TextRank算法的裁判文書關(guān)鍵字抽取樣本

      圖10 Word2Vec算法的裁判文書關(guān)鍵字抽取樣本

      圖11 IAKEF(0.5)算法的裁判文書關(guān)鍵字抽取樣本

      通過圖8~11 可見(其中title 字段較長,故只截取了前三個(gè)字),雖然改進(jìn)的算法比傳統(tǒng)的TF-IDF、Text-Rank、Word2Vec評估值較好,與真正的司法常用關(guān)鍵詞仍有較大差距。例如,文中“國土資源局”“土地資源”“勞動(dòng)合同”“危險(xiǎn)駕駛罪”“民事訴訟法”,這些詞匯并沒有符合專家標(biāo)注意圖。因此,司法相關(guān)命名實(shí)體庫的缺失可能是導(dǎo)致這一結(jié)果的原因。

      5 結(jié)束語

      傳統(tǒng)的TF-IDF關(guān)鍵詞提取算法僅考慮詞語出現(xiàn)的詞頻及逆詞頻,具有一定的局限性。本文將融合特征、信息熵、離散度、TextRank引入詞語的權(quán)重計(jì)算公式中,考慮詞語的詞性、詞長、詞位置和詞跨度等多重因素,提出了一種改進(jìn)的關(guān)鍵詞提取算法,解決了傳統(tǒng)算法在語義、類內(nèi)外分布上的存在的不足的問題。最后通過實(shí)驗(yàn)證明本文提出算法的有效性。分別對TF-IDF、TextRank、Word2Vec 和改進(jìn)的關(guān)鍵詞提取算法進(jìn)行實(shí)驗(yàn),對實(shí)驗(yàn)結(jié)果進(jìn)行對比分析,實(shí)驗(yàn)結(jié)果表明改進(jìn)的關(guān)鍵詞抽取算法(IAKEF)實(shí)驗(yàn)效果要優(yōu)于傳統(tǒng)的算法,且當(dāng)加權(quán)因子?=0.5 時(shí)準(zhǔn)確率達(dá)到最高。提出的算法分別在語義、類內(nèi)外分布上的改進(jìn)策略獨(dú)立影響雖不顯著,但每項(xiàng)影響對計(jì)算結(jié)果都有積極效果。

      本文還有很多不夠完善的地方,在以后的學(xué)習(xí)研究中有以下方面可以加以改進(jìn)。首先,同義詞處理可以加強(qiáng)。由于裁判文書中涉及一些專業(yè)性較強(qiáng)的詞匯,本文所用的同義詞詞庫來源于網(wǎng)絡(luò),對裁判文書中進(jìn)行同義詞識(shí)別時(shí)效果不是很好。采用專業(yè)性更為適當(dāng)?shù)乃痉ㄏ嚓P(guān)命名實(shí)體詞庫和同義詞詞庫是下一步的研究內(nèi)容。其次,增加處理命名實(shí)體識(shí)別過程以解決未登錄詞問題。使用現(xiàn)有的工具詞典不能識(shí)別的某些司法領(lǐng)域?qū)S性~語等未登錄詞,下一步將通過大規(guī)模語料標(biāo)注和訓(xùn)練以減少未登錄詞的影響。另外,詞語權(quán)重計(jì)算問題可以通過增強(qiáng)特征采集方法改善。在特征設(shè)計(jì)上,通過結(jié)合更多的特征性提高關(guān)鍵詞提取效果,是下一步的研究內(nèi)容。

      致謝感謝迪安鑒定科學(xué)研究院院長常林教授的支持及其實(shí)驗(yàn)室的同仁們的幫助。

      猜你喜歡
      詞頻文書裁判
      太行山文書精品選(17)
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      法官如此裁判
      法官如此裁判
      監(jiān)獄執(zhí)法文書規(guī)范探討
      法律裁判中的比較推理
      法律方法(2019年4期)2019-11-16 01:07:10
      黑水城出土《宋西北邊境軍政文書》中“砲”類文書再討論
      西夏學(xué)(2019年1期)2019-02-10 06:22:40
      清代刑事裁判中的“從重”
      法律史評論(2018年0期)2018-12-06 09:22:28
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      板桥市| 大安市| 郧西县| 汝州市| 嵊州市| 稻城县| 睢宁县| 岳西县| 同心县| 和顺县| 陵川县| 琼海市| 中江县| 宜兰县| 桑日县| 洛扎县| 上思县| 浦县| 巴林左旗| 利辛县| 广平县| 崇仁县| 遵义市| 武宣县| 松江区| 远安县| 宁河县| 肇源县| 安吉县| 长岛县| 益阳市| 永济市| 宕昌县| 宁晋县| 上栗县| 泸溪县| 徐水县| 舞阳县| 八宿县| 栾城县| 东阳市|