• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法研究

      2022-05-30 13:54:34甄沐華陳鵬王坤范子楊王者
      知識管理論壇 2022年5期

      甄沐華 陳鵬 王坤 范子楊 王者

      摘要:[目的/意義]針對公安業(yè)務(wù)中對熱線文本數(shù)據(jù)犯罪線索關(guān)鍵信息識別與篩查時存在的信息化分析能力不足問題,提出一種基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法,幫助業(yè)務(wù)部門提高相關(guān)情報研判效率,使得犯罪線索篩查工作更加信息化和科學(xué)化。[方法/過程]考慮到直接采用文本類等算法方法或因有效信息樣本量占比過小使得模型訓(xùn)練不充分,本文首先對已知犯罪線索進行基于文本相似度的種子詞集抽取,然后采用Word2Vec對種子詞匯從同類詞、替代詞兩個角度擴展構(gòu)成專業(yè)詞庫,最后使用基于語義的積分篩查模型實現(xiàn)對熱線文本數(shù)據(jù)中犯罪線索篩查。[結(jié)果/結(jié)論]對濟南市1 050條先驗熱線文本數(shù)據(jù)作犯罪線索篩查實驗,并進行實際比對與結(jié)果指標(biāo)分析,得到結(jié)果召回率86%,可以認(rèn)為本文所述基于語義的積分篩查方法對濟南市熱線文本數(shù)據(jù)內(nèi)犯罪信息具體性識別達(dá)到預(yù)期效果并實現(xiàn)犯罪線索有效篩查。

      關(guān)鍵詞:熱線文本? ? 專業(yè)詞庫? ? 文本相似度? ? 犯罪線索篩查

      分類號:TP391;G250

      引用格式:甄沐華, 陳鵬, 王坤, 等. 基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法研究[J/OL]. 知識管理論壇, 2022, 7(5): 539-548[引用日期]. http://www.kmf.ac.cn/p/313/.

      1? 引言

      電話熱線是便民服務(wù)的重要舉措,同時,熱線文本數(shù)據(jù)往往因潛藏著一些犯罪線索(指可供偵查、調(diào)查和控制的有關(guān)犯罪活動的情報信息)而成為公安機關(guān)犯罪線索排查的重要數(shù)據(jù)來源。目前,公安機關(guān)在處理熱線文本數(shù)據(jù)時,多采用“標(biāo)簽體系+人工篩查”的方法,即執(zhí)法人員首先通過分類標(biāo)簽定位至可能出現(xiàn)犯罪關(guān)鍵信息的數(shù)據(jù)類目,再快速瀏覽數(shù)據(jù)詳情內(nèi)容字段并根據(jù)經(jīng)驗知識識別事件關(guān)鍵信息,最后研判該數(shù)據(jù)是否作為犯罪線索輸出。但由于詳情內(nèi)容字段數(shù)據(jù)多以大段落文本形式呈現(xiàn),且其中包含的有效關(guān)鍵信息詞匯單元占比較小,在提取和挖掘關(guān)鍵信息時具有相當(dāng)?shù)睦щy,使得傳統(tǒng)人工篩查模式中存在有效研判效率較低、數(shù)據(jù)利用不充足等問題[1-2]。

      熱線文本數(shù)據(jù)犯罪線索篩查工作的關(guān)鍵在于對數(shù)據(jù)文本內(nèi)容中代表犯罪語義關(guān)鍵信息的識別和提取。目前,在文本內(nèi)容關(guān)鍵信息抽取方面,研究人員進行了大量的研究,其中基于詞頻的關(guān)鍵詞提?。═F-IDF、LDA等)是一種常用的方法,但是當(dāng)關(guān)鍵信息詞匯單元數(shù)量在文本中占比較小時,基于詞頻的關(guān)鍵詞提取方法不能夠滿足文本分析的需求,與此同時,在中文文本分析時,基于詞頻提取的關(guān)鍵詞還存在著語義歧義問題[3]。對此,一些研究人員提出通過詞向量技術(shù)(Word2Vec)構(gòu)建關(guān)鍵信息詞庫,結(jié)合關(guān)鍵詞抽取、文本相似度計算等文本分析方法以解決關(guān)鍵信息詞匯單元占比小及語義歧義問題對文本分析的影響。例如,彭云等利用基于語義關(guān)系約束的SRC-LDA主題模型對商品評論文本進行了主題詞提取,實現(xiàn)了對商品評論主題詞的有效提取[4];劉耕等利用關(guān)聯(lián)詞和Jaccard系數(shù)擴展規(guī)則設(shè)計了敏感詞庫并對網(wǎng)絡(luò)輿情敏感文本進行了敏感信息檢索和提取,實現(xiàn)了網(wǎng)絡(luò)敏感信息可靠率10%以上的提升[5];劉亞橋等利用詞向量模型構(gòu)建的攝影領(lǐng)域評論情感詞典對攝影評論數(shù)據(jù)進行了攝影情感信息提取并做進一步語料分類,實現(xiàn)了基于情感詞典下對攝影領(lǐng)域評論語料分類[6];譚敏博等對谷類作物病害數(shù)據(jù)進行了谷類作物病害特征信息提取,實現(xiàn)了對谷類作物病害特征屬性識別的精準(zhǔn)查詢[7];夏松等利用基于Word2Vec技術(shù)的語義近似匹配對微博類社交平臺短文本構(gòu)建了網(wǎng)絡(luò)謠言敏感詞庫,實現(xiàn)了基于網(wǎng)絡(luò)謠言敏感詞庫的網(wǎng)絡(luò)謠言有效識別[8];唐曉波等聯(lián)合TF-IDF方法與詞向量特征擴展方法對醫(yī)療問答社區(qū)健康問句短文本提取了健康信息關(guān)鍵詞并集合作為健康問句關(guān)鍵信息詞庫,實現(xiàn)了基于健康問句關(guān)鍵信息詞庫的健康問句文本的有效分類[9];姜天宇等利用詞向量構(gòu)建和TF-IDF加權(quán)方法對新華社不同類別郵件進行了郵件主題信息關(guān)鍵詞提取,進一步結(jié)合改進的樸素貝葉斯樹方法實現(xiàn)了對新華社郵件的文本分類[10]。

      從目前研究進展來看,關(guān)鍵詞、特征詞提取等自然語言處理技術(shù)已在新聞學(xué)等諸多領(lǐng)域得到了應(yīng)用,并達(dá)到了較好的應(yīng)用效果。但在當(dāng)前,各類公安業(yè)務(wù)處理線索數(shù)據(jù)文本工作時受限于信息表達(dá)規(guī)范化不足、有效信息分散等問題而仍采用傳統(tǒng)人工篩查模式,缺少針對特定類型犯罪線索的有效信息化挖掘方法。為此,本文以熱線文本數(shù)據(jù)為例,立足犯罪線索文本特點,設(shè)計了抽取其中犯罪線索關(guān)鍵信息的方法,并根據(jù)公安機關(guān)情報研判邏輯設(shè)計了基于語義的積分篩查模型[11],從而提升公安機關(guān)文本數(shù)據(jù)中信息化獲取犯罪線索的能力。

      2? 關(guān)鍵詞抽取

      在“標(biāo)簽體系+人工提取”篩查方法廣泛、成熟的應(yīng)用背景下,熱線文本數(shù)據(jù)同樣根據(jù)事件所涉政府業(yè)務(wù)領(lǐng)域不同而被賦予以業(yè)務(wù)領(lǐng)域相應(yīng)粗粒度標(biāo)簽,事件詳情內(nèi)容則不做標(biāo)簽處理。而熱線文本數(shù)據(jù)中的犯罪線索往往從事件詳情內(nèi)容字段中挖掘分析得到,且代表犯罪線索語義的關(guān)鍵信息在詳情內(nèi)容文本中位置分散、數(shù)量較其他信息占比小、不具有明顯文本句式結(jié)構(gòu)化特征,常見表達(dá)形式有單詞匯表達(dá)、短語句式表達(dá)兩種,如“偵查”“予以/取締”。與此同時,構(gòu)建專業(yè)詞庫時不可避免地對短語句式進行再分詞處理,若采用文本類等自動化算法直接對文本進行處理,則再分詞后存在的大量無獨立語義詞匯將對結(jié)果準(zhǔn)確性有明顯影響。

      目前,公安機關(guān)民警對熱線數(shù)據(jù)中犯罪線索的排查和識別主要通過關(guān)鍵詞來進行判定,但由于來電人表達(dá)方式和習(xí)慣的不同,一些涉嫌犯罪的表述可能存在著句式結(jié)構(gòu)和語義歧義等問題。因此,要盡可能地達(dá)到對熱線文本數(shù)據(jù)中犯罪線索的排查和識別,首先需要確定數(shù)據(jù)中已有的代表犯罪語義關(guān)鍵信息詞匯(種子詞集),并在此基礎(chǔ)上關(guān)聯(lián)相關(guān)的同義詞和近義詞(擴展詞集),最終實現(xiàn)熱線文本數(shù)據(jù)犯罪線索的關(guān)鍵詞庫的構(gòu)建。

      2.1? 種子詞集構(gòu)建

      詞向量技術(shù)(Word2Vec)是一種基于上下文分布表示詞義的技術(shù)方法,其專注于無標(biāo)注數(shù)據(jù),利用神經(jīng)網(wǎng)絡(luò)語言模型從大量文本中學(xué)習(xí)語義信息。詞向量技術(shù)常常用于計算詞語間、句子間或者其他長文本間的相似度,并具有良好效果[12-16]。

      在種子詞集構(gòu)建上,本文首先收集執(zhí)法部門的犯罪信息詞匯作為經(jīng)驗知識詞集,隨后以全量數(shù)據(jù)語料作為訓(xùn)練語料庫,得到全量數(shù)據(jù)Word2Vec詞向量模型、已知屬性(普通事件/疑似犯罪線索事件)的數(shù)據(jù)語料Word2Vec詞向量、經(jīng)驗知識詞集基于全量語料上下文語義的詞向量,最后,以已知屬性數(shù)據(jù)語料詞向量作為種子詞集識別抽取的數(shù)據(jù)基礎(chǔ),以經(jīng)驗知識詞匯集詞向量為對照匹配變量集,通過向量間映射計算得到二者文本相似度,實現(xiàn)對已知屬性數(shù)據(jù)中符合相似度要求的信息詞匯抽取并集合得到種子詞集,其流程如圖1所示:

      抽取得到的種子詞匯分為兩類:代表疑似犯罪線索事件語義的詞匯Word_T(下同),代表普通事件語義的詞匯Word_F(下同)。此處所指“疑似犯罪線索事件”即可根據(jù)相關(guān)法律規(guī)定屬于公安機關(guān)犯罪活動偵辦的事件,包括可判定為有違法行為但未達(dá)犯罪標(biāo)準(zhǔn)的、需要進一步確認(rèn)的及已立案需督辦的線索事件;普通事件即根據(jù)相關(guān)法律規(guī)定不屬于公安機關(guān)管轄的事件,包括經(jīng)有關(guān)辦理單位確認(rèn)后反饋為惡意、重復(fù)撥打的無效熱線事件。

      為確定抽取得到的種子詞匯在犯罪線索篩查中的可靠性,通過回溯已知屬性數(shù)據(jù)本身,定義回溯值為某種子詞匯所屬數(shù)據(jù)屬性為犯罪線索的數(shù)據(jù)數(shù)量(回溯數(shù))與其在全量數(shù)據(jù)中出現(xiàn)次數(shù)(詞頻)的比值,代表了該詞匯在犯罪線索篩查過程中的可靠性,公式(1):

      其中,P(word)代表種子詞匯回溯值,n(word)代表種子詞匯回溯數(shù),N(word)代表種子詞匯在全量數(shù)據(jù)中詞頻。將得到的回溯值作為對應(yīng)種子詞匯在犯罪線索篩查模型中的權(quán)重系數(shù)。

      2.2? 擴展詞集

      考慮到同一語義的表達(dá)會以不同的詞匯和句式結(jié)構(gòu)呈現(xiàn),為了實現(xiàn)專業(yè)詞庫的有效覆蓋和擴展,從種子詞集的同類詞、替代詞2個方面進行詞庫的擴展,另結(jié)合輿情領(lǐng)域公開敏感詞庫共同構(gòu)成擴展詞集。擴展詞集的詞匯可靠性由擴展詞匯與種子詞匯的文本字面距離相似度確定,本文采用余弦距離相似度(Cosine Similarity)計算得到,如公式(2)所示:

      對于同類詞集擴展,Word2Vec方法計算所得詞向量能夠反映出詞匯所處上下文和語義關(guān)系。首先通過全量語料的Word2Vec詞向量模型得到種子詞集的詞向量,再以全量數(shù)據(jù)語料庫構(gòu)建的Word2Vec詞向量模型為同類詞集識別抽取的數(shù)據(jù)基礎(chǔ),以種子詞集詞向量對照匹配變量集,計算得到二者文本相似度,實現(xiàn)在全量語料庫中基于上下文語義關(guān)系的關(guān)鍵信息同類詞匯的抽取,并將相似度作為對應(yīng)詞匯在犯罪線索篩查模型中的權(quán)重系數(shù),其流程如圖2所示:

      對于替代詞集擴展,考慮到同一語義可由不同詞匯表達(dá),以種子詞集在中文表達(dá)中的近義詞作為其替代詞。利用種子詞集基于全量語料的Word2Vec詞向量模型的詞向量,結(jié)合近義詞查找工具,在以開源維基百科中文語料庫中尋找近義詞并計算二者文本相似度,實現(xiàn)基于公開中文語料庫的關(guān)鍵信息替代詞匯的抽取,將相似度作為對應(yīng)詞匯在犯罪線索篩查模型中的權(quán)重系數(shù),其流程圖如圖3所示:

      3? 犯罪線索篩查模型

      3.1? 犯罪線索積分預(yù)警模型

      積分預(yù)警模型是基于大數(shù)據(jù)背景下的情報主導(dǎo)警務(wù)模式應(yīng)運而生的公安數(shù)據(jù)挖掘手段[11]。該模型方法以某事件發(fā)生為預(yù)警對象,將可能影響該事件發(fā)生的因素羅列出來,并按照因素的影響性程度賦予相應(yīng)的權(quán)重分值,每當(dāng)某個因素出現(xiàn)時,都會以和的形式計算出相應(yīng)分值,直到所有的因素都被積分出來。積分分值代表事件發(fā)生的定量描述,可表示為:

      其中,i為影響因素,y為分值設(shè)定,p為該因素權(quán)重系數(shù)。針對本文研究熱線數(shù)據(jù),單條待篩查數(shù)據(jù)積分總值由其與各類型詞集匹配后產(chǎn)生的各積分值構(gòu)成。各類型詞集積分值由分屬兩個不同屬性的詞集積分值構(gòu)成。各個詞集的積分值影響因素為符合條件的單一詞匯的相似度、該單一詞匯權(quán)重值及與詞集詞匯匹配到相同詞匯的個數(shù)。除此之外,輿情領(lǐng)域公開敏感詞集只做相同詞匯計數(shù)積分處理。單條數(shù)據(jù)于詞集的積分值計算規(guī)則如下:

      其中,S(dic)代表某類型詞集(種子詞集、同類詞集、替代詞集)的積分值,S(Word_T)及S(Word_F)代表某類詞集中代表疑似犯罪線索事件語義的詞集(T)或代表普通事件語義的詞集(F),a、b為該詞集的權(quán)重系數(shù),SUM代表總積分結(jié)果,Counts(internet)代表匹配過程中出現(xiàn)的輿情領(lǐng)域公開敏感詞集中不重復(fù)計數(shù)的詞匯數(shù)目。

      3.2? 犯罪線索篩查算法

      在采用“標(biāo)簽體系”對數(shù)據(jù)已做粗粒度分類背景下,本文研究文本數(shù)據(jù)中包含事件詳情內(nèi)容信息和標(biāo)點符號、語氣詞等無效信息。據(jù)此,在匹配篩查之前需要對待篩查數(shù)據(jù)作預(yù)處理:通過中文分詞工具Jieba對待篩查數(shù)據(jù)進行分詞處理,為避免分詞粒度不同造成后續(xù)匹配失敗,在精確分詞模式基礎(chǔ)上設(shè)計自定義分詞標(biāo)準(zhǔn);對分詞后數(shù)據(jù),使用自定義停用詞表去除標(biāo)點符號、干擾詞等無效文本。

      本文采用基于語義的積分預(yù)警模型實現(xiàn)對熱線文本中犯罪線索篩查,即專業(yè)詞庫中詞匯的可靠度(權(quán)重值)與匹配時的文本相似度共同控制篩查結(jié)果。對于單條待篩查數(shù)據(jù),篩查流程主要從3個層次循序進行:待篩查數(shù)據(jù)詞匯與某詞集詞匯匹配相似值計算、單條數(shù)據(jù)與專業(yè)詞庫中某詞集匹配積分值運算、單條數(shù)據(jù)與專業(yè)詞庫積分值運算。

      對于待篩查數(shù)據(jù)詞匯與某詞集詞匯匹配相似值計算(match(seg,word)),即單條待篩查數(shù)據(jù)中某詞匯(seg)與專業(yè)詞庫中某詞集中某詞匯(word)的相似值計算,具體步驟如下:①判斷輸入的兩詞匯是否相同,若相同則相似值記為1,否則進行②;②判斷兩詞匯是否同時存在于已訓(xùn)練好的Word2Vec詞向量模型中,若存在則計算兩詞匯文本相似度后進行④,否則進行③;③在基于維基百科語料的詞向量模型中得到seg的詞向量,進而計算兩詞匯文本相似度,后進行④;④判斷相似度是否大于或等于設(shè)定閾值,若滿足則記錄該相似度,否則結(jié)束本次相似值計算;⑤將記錄的二者文本相似度與本次匹配的word對應(yīng)權(quán)重值p作乘積運算,結(jié)果作為兩詞匯的相似值。

      對于單條待篩查數(shù)據(jù)與某詞集的相似值運算(sim(data,dic)),以分詞后的待篩查數(shù)據(jù)、專業(yè)詞庫中某詞集作為輸入項目。遍歷輸入數(shù)據(jù)集合中元素并做碰撞匹配,結(jié)合match(seg,word)模塊,對每次遍歷產(chǎn)生相似值作求和運算。與此同時,計算某詞集中詞匯在待篩查數(shù)據(jù)中相同個數(shù),再將求和運算結(jié)果與詞匯相同個數(shù)求和得到該待篩查數(shù)據(jù)與某詞集的相似值。

      對于單條待篩查數(shù)據(jù)與專業(yè)詞庫相似值積分運算與結(jié)果輸出(sim(data,all)),待篩查數(shù)據(jù)經(jīng)上述處理后,分別得到該待篩查數(shù)據(jù)與所有詞集的相似值。根據(jù)2.1設(shè)計的積分運算規(guī)則計算該條數(shù)據(jù)與專業(yè)詞庫相似值積分運算結(jié)果并輸出。單輪待篩查數(shù)據(jù)集篩查完成后,可將此輪數(shù)據(jù)加入數(shù)據(jù)庫中實現(xiàn)數(shù)據(jù)動態(tài)更新。

      4? 實驗驗證

      4.1? 數(shù)據(jù)來源及示例

      本文主要采用依托于Python3.0編程語言環(huán)境的gensim.Word2Vec詞向量模型工具構(gòu)建Word2Vec詞向量模型。實驗數(shù)據(jù)來源于濟南市公安局食藥環(huán)支隊提供的12345市長熱線數(shù)據(jù);時間跨度為2020年1月至2021年3月;數(shù)據(jù)分別涉及食藥安全、醫(yī)藥監(jiān)督、環(huán)境保護、疫苗注射4個領(lǐng)域,共8萬多條;參考實際公安工作業(yè)務(wù)流程,研究數(shù)據(jù)字段為已由相關(guān)行政單位核實的熱線事件回復(fù)內(nèi)容,旨在發(fā)現(xiàn)線索、督辦線索,實驗數(shù)據(jù)語料部分示例及數(shù)據(jù)屬性如表1所示:

      4.2? 專業(yè)詞庫構(gòu)建

      4.2.1? 種子詞集

      根據(jù)1.1所述種子詞集構(gòu)建方法,通過遍歷學(xué)習(xí)集中經(jīng)驗知識詞匯,對預(yù)處理后的已知屬性數(shù)據(jù)采用Word2Vec詞向量工具與經(jīng)驗知識詞集中詞匯作文本相似度計算,將相似度高的詞匯集合,并入經(jīng)驗知識詞集后作為種子詞集?;诓煌瑢傩缘臄?shù)據(jù)得到種子詞集分為兩類:以seed_T指代代表疑似犯罪信息語義的詞集,以seed_F指代普通事件信息語義的詞集。實驗中,共得到94個種子詞匯,如表2,其中seed_T詞集55個,seed_F詞集39個。

      進一步地,對生成的種子詞匯通過公式(1)并結(jié)合分層抽樣方法計算詞匯回溯值。圖4為seed_T詞頻和回溯數(shù)關(guān)系圖,圖5為seed_T回溯值趨勢圖。對于seed_T中詞匯,詞匯的回溯數(shù)在詞頻占比中呈現(xiàn)明顯不均衡態(tài)勢,回溯值與詞頻關(guān)系以無規(guī)律波動呈現(xiàn)。整體來看,回溯值與詞頻無明顯伴隨關(guān)系,但是各詞匯回溯數(shù)與詞頻占比體現(xiàn)了犯罪信息在文本中占比小的特點。分析可知,由于seed_T中疑似犯罪語義多為短語句式,分詞后存在3種性質(zhì)詞匯,根據(jù)詞頻的排序為:連詞(如“已經(jīng)”)、中立語義詞匯(如“拍照”“調(diào)查”)、術(shù)語詞匯(如“取證”“嫌疑人”)。此3種詞匯共同作用于對文本中犯罪信息的判定,連詞和中立語義詞匯單獨出現(xiàn)時難以判斷語義性質(zhì)且常與不同的術(shù)語詞匯搭配出現(xiàn),而術(shù)語詞匯單獨出現(xiàn)時則需要結(jié)合語境判斷是否為犯罪語義,以詞頻作為犯罪線索關(guān)鍵信息識別標(biāo)準(zhǔn)會對結(jié)果有較大影響。圖6為seed_F詞頻和回溯數(shù)關(guān)系圖,圖7為seed_F回溯值趨勢圖。對于seed_F詞集,回溯數(shù)與詞頻成正比,也即n(word)N(word),回溯值趨于穩(wěn)定,多集中于區(qū)間[0.8,1)。與seed_T中短語形式信息不同,seed_F為表達(dá)普通事件語義的信息,其短語形式的信息(如“不/列入/考核”“超出/管轄范圍”)大多由否定性連詞詞匯和術(shù)語構(gòu)成,當(dāng)二者同時出現(xiàn)將該條數(shù)據(jù)判定為普通事件的概率幾乎為1,即具有獨判性。同時,多數(shù)具有否定性的術(shù)語詞匯亦具有獨判性(如“駁回”“惡意投訴”),因此,一些否定性質(zhì)詞匯的回溯值會接近于1,也即依據(jù)該詞匯判定數(shù)據(jù)為非犯罪線索可靠性極高。圖8展示了種子詞集中分詞后各字詞有向網(wǎng)絡(luò)

      關(guān)系圖,以各字詞作為節(jié)點,節(jié)點大小由詞頻確定,帶有箭頭的節(jié)點間連邊為詞匯組成短語的句式結(jié)構(gòu)聯(lián)系,邊長由詞匯的回溯數(shù)確定??梢园l(fā)現(xiàn),圖中較大節(jié)點為詞性是連詞或語義中立性質(zhì)的詞匯,進一步說明了此兩類詞匯的可靠性較低;反之,能夠明確表達(dá)疑似犯罪語義的詞匯在圖中表現(xiàn)為較小的節(jié)點,句式結(jié)構(gòu)多與較大節(jié)點詞匯聯(lián)系,說明此類詞匯的可靠性較高。本文以字詞的回溯值為其在積分篩查模型中的影響因子權(quán)重系數(shù),能夠縮小使用字詞一致規(guī)則或詞頻系數(shù)規(guī)則作為篩查識別標(biāo)準(zhǔn)時出現(xiàn)結(jié)果誤差。

      4.2.2? 擴展詞集

      同類詞集擴展。利用Word2Vec工具得到94個種子詞集在全量語料庫中的均值向量,繼而通過文本相似度計算得到種子詞集在全量語料庫中的同類詞集。實驗中共取到與種子詞集同類的480個詞作為擴展的同類詞,如表3,其中seed_T同類詞集(seed_T_similar,下同)中251個,seed_F同類詞集(seed_F_similar,下同)中229個:

      替代詞集擴展。對種子詞集經(jīng)過Word2Vec工具作詞向量處理后,結(jié)合Synonyms中文近義詞查找工具,產(chǎn)生種子詞集的替代詞集,如“勸誡”的替代詞有:告誡、責(zé)備等。實驗中共取到506個詞作為擴展的替代詞,如表4,其中seed_T替代詞集(seed_T_synonym,下同)271個,seed_F替代詞集(seed_F_synonym,下同)235個:

      4.3? 犯罪線索篩查結(jié)果

      犯罪線索篩查實驗中使用未參與模型訓(xùn)練的1 050條數(shù)據(jù),其中普通事件屬性數(shù)據(jù)(F類數(shù)據(jù))1 000條,疑似犯罪線索屬性數(shù)據(jù)(T類數(shù)據(jù))50條。根據(jù)本文所述基于語義的篩查方法對樣本數(shù)據(jù)進行犯罪線索篩查積分運算,得到F類數(shù)據(jù)997條、T類數(shù)據(jù)53條;經(jīng)與實際數(shù)據(jù)比對,實際為T類且判定為T類的數(shù)據(jù)有43條,結(jié)果統(tǒng)計指標(biāo)如表5所示。由于T類數(shù)據(jù)占全部待篩查數(shù)據(jù)比例較低,實驗期待較高的結(jié)果召回率。從實驗結(jié)果的指標(biāo)來看,召回率86%,精確率81.13%,可以認(rèn)為本文所述基于關(guān)鍵詞挖掘的積分篩查模型在對熱線文本數(shù)據(jù)中犯罪線索篩查時達(dá)到了預(yù)期的效果。

      5? 結(jié)論

      對熱線數(shù)據(jù)中的犯罪信息做到有理、有據(jù)、科學(xué)的抽取是執(zhí)法部門處理文本信息數(shù)據(jù)、確定犯罪線索的重要環(huán)節(jié)。本文提出了一種基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)中犯罪線索自動化篩查方法,首先通過詞向量模型及文本相似度計算等方法建立專業(yè)詞庫,然后設(shè)計了基于專業(yè)詞庫的犯罪線索積分篩查模型,并以濟南市熱線文本數(shù)據(jù)進行實證分析。經(jīng)過與數(shù)據(jù)實際情況比對,該方法能夠?qū)鲜袩峋€文本數(shù)據(jù)中的犯罪信息具體性識別并實現(xiàn)犯罪線索有效地篩查,使得犯罪線索篩查工作更加信息化和科學(xué)化。同時,該方法也適用于其他公安業(yè)務(wù)中文本數(shù)據(jù)目標(biāo)信息識別及數(shù)據(jù)篩查,如輿情監(jiān)測業(yè)務(wù)。本文也存在一定的局限,如在專業(yè)詞庫構(gòu)建方面,詞向量模型訓(xùn)練時需要一定數(shù)量的經(jīng)驗知識詞匯及已知目標(biāo)數(shù)據(jù)樣本用于構(gòu)建專業(yè)詞庫;在線索篩查算法方面,未來可引入基于doc2vec的段落向量模型的文本分類方法,結(jié)合本文所述專業(yè)詞庫做定性加權(quán)分析。

      參考文獻:

      [1] 王勇.大數(shù)據(jù)在我國食藥智慧監(jiān)管中的應(yīng)用[J].中國食品藥品監(jiān)管, 2018(5): 44-47.

      [2] 袁猛, 劉文杰, 胡建華, 等.“昆侖2020”:全方位構(gòu)筑食藥環(huán)安全防線[J].人民公安, 2020(16): 30-33.

      [3] 徐建民, 王金花, 馬偉瑜.利用本體關(guān)聯(lián)度改進的TF-IDF特征詞提取方法[J].情報科學(xué), 2011, 29(2): 279-283.

      [4] 彭云, 萬常選, 江騰蛟, 等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學(xué)報, 2017, 28(3): 676-693.

      [5] 劉耕, 方勇, 劉嘉勇.基于關(guān)聯(lián)詞和擴展規(guī)則的敏感詞庫設(shè)計[J].四川大學(xué)學(xué)報(自然科學(xué)版), 2009, 46(3): 667-671.

      [6] 劉亞橋, 陸向艷, 鄧凱凱, 等.攝影領(lǐng)域評論情感詞典構(gòu)建方法[J].計算機工程與設(shè)計, 2019, 40(10): 3037-3042.

      [7] 譚敏博.基于知識圖譜的谷類作物病害識別及個性化推送研究[D].長沙:湖南農(nóng)業(yè)大學(xué), 2018.

      [8] 夏松, 林榮蓉, 劉勘.網(wǎng)絡(luò)謠言敏感詞庫的構(gòu)建研究——以新浪微博謠言為例[J].知識管理論壇, 2019, 4(5): 267-275.

      [9] 唐曉波, 高和璇.基于關(guān)鍵詞詞向量特征擴展的健康問句分類研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn), 2020, 4(7): 66-75.

      [10] 姜天宇, 王蘇, 徐偉.基于樸素貝葉斯的中文文本分類[J].電腦知識與技術(shù), 2019, 15(23): 253-254, 263.

      [11] 吳紹忠.重點人員積分預(yù)警模型建設(shè)基礎(chǔ)問題研究[J].中國人民公安大學(xué)學(xué)報(自然科學(xué)版), 2012, 18(2): 76-79.

      [12] 涂銘, 劉祥, 劉樹春. Python自然語言處理實戰(zhàn)核心技術(shù)與算法[M]. 北京:機械工業(yè)出版社, 2021:120, 129.

      [13] 嚴(yán)紅.詞向量發(fā)展綜述[J].現(xiàn)代計算機(專業(yè)版), 2019(8): 50-52.

      [14] CHEN K J, MA W Y. Unknown word extraction for Chinese documents[C]// Proceedings of international conference on DBLP. Taipei: Morgan Kaufmann Publishers, 2002:169-175.

      [15] PEDERSEN T, KULKARNI A. Identifying similar words and contexts in natural language with sense clusters[C]//Proceedings of the 20th national conference on artificial intelligence. Pittsburgh: AAAI Press, 2010:1694-1695.

      [16] NEVIAROUSKAYA A, PRENDINGER H, ISHIZUKAM. SentiFul: a lexicon for sentiment analysis[J].IEEE transactions on affective computing, 2011, 2(1): 22-36.

      作者貢獻說明:

      甄沐華:設(shè)計研究方法,完成實驗,起草論文,修改論文與定稿;

      陳? 鵬:提出研究思路,修改論文;

      王? 坤:提供數(shù)據(jù),提出研究問題;

      范子楊:采集數(shù)據(jù),進行實驗;

      王? 者:采集數(shù)據(jù),進行實驗。

      Research on Hotline Text Data Crime Clue Screening Method based on Keyword Mining

      Zhen Muhua1? Chen Peng1? Wang Kun2? Fan Ziyang1? Wang Zhe1

      1School for Informatics and Cyber Security, Peoples Public Security University of China, Beijing 100038

      2Jinan Public Security Bureau, Jinan 250099

      Abstract: [Purpose/Significance] Aiming at the problem of insufficient information analysis ability in the current public security business about identification and screening of crime clues in hotline texts, a method of hotline text data crime clue screening based on keyword mining is proposed to help business departments improve relevant intelligence and judgment [Method/Process] Considering that algorithms such as automatic text classification are subject to the problem of sample size, this paper firstly identified the key information of the known attribute data and established a seed lexicon, and then used Word2Vec to expand the seed vocabulary from the perspectives of similar words and synonym words to form a professional thesaurus, and finally used a semantics-based integral screening model to screen criminal clues in the hotline text data. [Result/Conclusion] This paper conducted a crime clue screening experiment on 1 050 priori hotline text data in Jinan City. After actual comparison and index analysis, the recall rate reached 86%. The specific identification of crime information in the text data of the city hotline achieved the expected effect and realized the effective screening of crime clues.

      Keywords: hotline text? ? professional thesaurus? ? text similarity? ? crime clue screening

      紫金县| 大关县| 东阳市| 泰来县| 塔河县| 蒙山县| 武冈市| 松阳县| 嵊泗县| 美姑县| 罗江县| 福建省| 彭阳县| 凯里市| 桓台县| 申扎县| 景德镇市| 泗水县| 灵台县| 莱西市| 顺义区| 汝城县| 根河市| 曲水县| 赤水市| 天祝| 扎鲁特旗| 新密市| 牡丹江市| 布拖县| 东辽县| 东山县| 太仓市| 鸡西市| 且末县| 石棉县| 图木舒克市| 黎川县| 永和县| 金沙县| 丰镇市|