王寶瑩 李泊寧 徐天柱 劉亞平
摘 要 目的:利用下深度學(xué)習(xí)算法實現(xiàn)智能裁判,提高判案效率和準(zhǔn)確率。方法:采用聚類算法中k-means算法對案件進行分類,更好地實現(xiàn)算法裁判。結(jié)果:該聚類算法可以對案件進行分類,但對于沒有給定分類的數(shù)據(jù)集需要多次實驗選定適當(dāng)k值。結(jié)論:初始中心選不同位置會導(dǎo)致最終分類結(jié)果不同,對于多分類可能出現(xiàn)局部最優(yōu)情況,為了解決這種情況還可以優(yōu)化k-means算法。
關(guān)鍵詞 聚類;k-means;算法裁判;數(shù)據(jù)集
引言
為了實現(xiàn)人工智能,深度學(xué)習(xí)被引入到機器學(xué)習(xí)這個領(lǐng)域中。深度學(xué)習(xí)在很多方面都有飛速的發(fā)展,例如數(shù)據(jù)挖掘,搜索引擎,機器學(xué)習(xí)和個性化推薦技術(shù)等。具體到審判上,算法是本質(zhì),對未來司法活動可以帶來巨大的甚至可以說是革命性的影響就是算法。算法裁判雖然目前在司法實踐中的運用還是在起步階段,但它所具有的優(yōu)勢著實是顯而易見。由于人的決策容易收到固有偏見的影響,相對而言,算法決策就會更加公平客觀。由于算法是以大量數(shù)據(jù)為基礎(chǔ),因此在裁判中的運用,可以節(jié)省司法資源,提高司法效率[1]。本文主要探討的是對于大量案件的分類方法,本文采用聚類分析中的k-means算法。
1聚類算法
①常見聚類算法簡介。聚類算法也稱聚類分析是數(shù)據(jù)挖掘中的一種重要算法,常見的聚類算法有k-means、k-medoids、clara和clarans等。這四類算法的特點如下,k-means算法對于非法數(shù)據(jù)格式較為敏感,產(chǎn)生類的大小相差不會很大[2]。而k-medoids方法可以解決數(shù)據(jù)敏感問題,但k-medoids方法也存在缺陷,該種算法只適合小數(shù)據(jù),對于大量數(shù)據(jù)其計算量要大得多,因此也不適合本文中對于大量案件的分類。而clara算法能夠處理大量的數(shù)據(jù),因為clara算法是一種基于采樣的方法。但同樣clara算法也存在缺陷,采樣的大小決定了clara算法的效率高低,clara算法采樣都是不變的,最佳的結(jié)果很難得到。而clarans的算法在每一次循環(huán)的過程中所采用的采樣都是不一樣的,但也存在缺點就是循環(huán)次數(shù)必須認為定義[3]。所以最終經(jīng)考慮本文采用k-means算法。②k-means算法介紹。k-means算法是無監(jiān)督的聚類算法,它實現(xiàn)起來比較簡單,聚類效果也不錯,因此應(yīng)用很廣泛[4]??梢暂斎胍粋€變量k,將大量數(shù)據(jù)對象進行數(shù)據(jù)對象劃分,劃分為輸入值k類。這k個對象作為初始聚類中心,其余對象則是需要計算這些對象與聚類中心的距離,計算出距離后要將對象分配給與其距離最近的聚類。然后繼續(xù)計算每個所獲得的新聚類的中心,不斷重復(fù)這一過程直到均值不在變化,或者說直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般情況下都采用均方差作為標(biāo)準(zhǔn)測度函數(shù)[5]。
2k-means算法在算法裁判中的應(yīng)用展望
我國目前正在大力發(fā)展和建設(shè)智慧法院,這也是算法裁判在司法實踐中的具體體現(xiàn)。為實現(xiàn)法院審判體系和審判能力智能化,需要研制庭審數(shù)據(jù)格式統(tǒng)一規(guī)范,庭審數(shù)據(jù)深度分析等規(guī)范,利用本文中聚類算法中的k-means算法可以對多元化數(shù)據(jù)進行數(shù)據(jù)挖掘和分析,進而提升庭審效率[6]。我們對案件隨機選取部分,選取其中k個點為聚類中心,計算每個點到k個聚類中心的聚類,然后將該點分到最近的聚類中心,這樣就形成了k個簇。再重新計算每個簇的質(zhì)心,重復(fù)做直到質(zhì)心的位置不再發(fā)生變化[7]。這樣就可以順利將案件進行分類了。那么在深度學(xué)習(xí)的過程中,對待不同類型的案件可以統(tǒng)計規(guī)范,實現(xiàn)智能化審判[8]。當(dāng)然,目前我國的算法裁判還是初步階段,雖然有了一定的算法裁判應(yīng)用,但依然存在一定爭議,后續(xù)我們可以改進聚類算法,對于案件分類更加準(zhǔn)確,也可以一定程度上減少算法裁判的爭議[9]。把案件用表達式表示,假設(shè)簇劃分為(C1,C2,...Ck),最小化平方誤差E:
3結(jié)束語
算法已初步實現(xiàn),數(shù)據(jù)集采用于北大法律信息網(wǎng)經(jīng)典案例。該聚類算法可以對案件進行分類,但對于沒有給定分類的數(shù)據(jù)集需要多次實驗選定適當(dāng)k值。初始中心選不同位置會導(dǎo)致最終分類結(jié)果不同,對于多分類可能出現(xiàn)局部最優(yōu)情況,為了解決這種情況還可以優(yōu)化k-means算法。
參考文獻
[1] 高學(xué)強.人工智能時代的算法裁判及其規(guī)制[J].陜西師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2019(3):161-168.
[2] 陳姿含.人工智能算法中的法律主體性危機[J].法律科學(xué):西北政法大學(xué)學(xué)報,2019(4):40-47.
[3] 蘇令銀.透視人工智能背后的“算法歧視”[N].中國社會科學(xué)報,2017-10-10.
[4] 張富利,鄭海山.大數(shù)據(jù)時代人工智能輔助量刑問題研究[J].昆明理工大學(xué)學(xué)報:社會科學(xué)版,2018(6):1-10.
[5] 辛春花,郭艷光,魯曉波.大型數(shù)據(jù)庫中利用強化學(xué)習(xí)改進Treap的關(guān)聯(lián)規(guī)則挖掘算法[J].計算機應(yīng)用研究,2020,38(1):1-6.
[6] 何占軍,鄧敏,蔡建南,等.顧及背景知識的多事件序列關(guān)聯(lián)規(guī)則挖掘方法[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2018,43(5):766-772.
[7] Huang Yu, Li Tang, Luo Cheng, et al. Matrix-based dynamic updating rough fuzzy? approximations for? data? mining [J]. Knowledge-Based Systems, 2017, 119 (6):273-283.
[8] HANM J W, KAMBER M, PEI J.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2012:35-37.
[9] 高一飛,高建.智慧法院的審判管理改革[J].法律適用,2018(1):58-64.
[10] 潘瑋,牟冬梅,李茵,等.關(guān)鍵詞共現(xiàn)方法識別領(lǐng)域研究熱點過程中的數(shù)據(jù)清洗方法[J].圖書情報工作,2017(7):111-117.
作者簡介
王寶瑩(1980-),女,河北承德人;學(xué)歷:碩士研究生,職稱:講師;現(xiàn)就職單位:承德醫(yī)學(xué)院,研究方向:網(wǎng)格計算。