朱澤圻
摘要:本文提出在聊天機(jī)器人的應(yīng)用背景下敏感內(nèi)容的定義,統(tǒng)計了各種分類標(biāo)準(zhǔn)下敏感內(nèi)容的分布,并在從網(wǎng)絡(luò)爬取的問答語料中,分別采用敏感詞表過濾與機(jī)器學(xué)習(xí)方法進(jìn)行了數(shù)據(jù)清洗,在提出的敏感內(nèi)容定義下,召回率達(dá)到80%,合格數(shù)據(jù)留存率達(dá)到60%。本文還利用優(yōu)化后的敏感詞表與啟發(fā)式規(guī)則,無監(jiān)督地獲得敏感語料,可有效地大量獲得無關(guān)鍵詞的敏感內(nèi)容,擴(kuò)增數(shù)據(jù)合格率可達(dá)80%。
關(guān)鍵詞: 聊天機(jī)器人; 文本分類; 敏感內(nèi)容識別
【Abstract】 In this paper, the definition of sensitive content as well as the statistical analysis of different kinds of sensitive content in the context of chat robot application are proposed. Sensitive vocabulary filtering and machine learning are used to clean the question-and-answer corpus crawled from the network. Under the proposed definition of sensitive content, the recall rate reaches 80%, and the qualified data retention rate reaches 60%. Unsupervised mining method with optimized sensitive vocabulary and heuristic rules are used to obtain sensitive corpus, which effectively obtains a large number of sensitive content without keywords. The eligibility rate of the expanded data can reach 80%.
【Key words】 ?chat robot; text classification; sensitive content recognition
0 引 言
聊天機(jī)器人是一種人機(jī)交互系統(tǒng),通過自然語言模擬人類進(jìn)行對話。這種系統(tǒng)往往運(yùn)行在各種平臺上,如個人電腦、社交網(wǎng)絡(luò)軟件或即時通訊工具等。聊天機(jī)器人主要有2種類型:封閉域聊天機(jī)器人進(jìn)行的是帶有目的的對話,以盡快獲得必要信息、完成任務(wù)為目標(biāo);開放域聊天機(jī)器人進(jìn)行的則是非任務(wù)型對話,也就是所謂的閑聊,以持續(xù)推進(jìn)聊天為目標(biāo)[1-2]。
時至今日,聊天機(jī)器人受到了工業(yè)界的廣泛關(guān)注。聊天機(jī)器人作為人機(jī)交互問題的一種解決方案,在智能硬件等領(lǐng)域都陸續(xù)進(jìn)入了實(shí)用,發(fā)揮了重要的作用,有著良好的商業(yè)前景。目前,各大互聯(lián)網(wǎng)公司都先后推出了自己的聊天機(jī)器人產(chǎn)品,如微軟的小冰、阿里的店小蜜、百度的度秘等,以聊天機(jī)器人為主打產(chǎn)品的創(chuàng)業(yè)公司也在陸續(xù)涌現(xiàn)。
聊天機(jī)器人產(chǎn)生回復(fù)的方式主要有3種:基于人工編寫的規(guī)則,基于從問答語料庫的檢索和基于模型的生成。其中,檢索和生成方法都對語料庫有較大的需求:在檢索過程中,直接在問答語料庫中匹配問題,獲得回答;而在生成過程中,也需要使用已有的語料庫訓(xùn)練模型。目前的聊天機(jī)器人都非常依賴大規(guī)模語料庫。
由于規(guī)模較大,聊天機(jī)器人的語料庫往往是從公開網(wǎng)絡(luò)上爬取的。然而,互聯(lián)網(wǎng)上不僅有理性的討論,也有不理智的辱罵、仇視與偏見。微軟曾經(jīng)把聊天機(jī)器人程序Tay上線到twitter上,通過與網(wǎng)友的互動學(xué)習(xí)對話,結(jié)果半天之內(nèi)就學(xué)會了仇視人類和種族歧視的言論,引發(fā)了廣泛的爭論、質(zhì)疑與反思[3-4]。要承擔(dān)程序研發(fā)者的社會責(zé)任,就需要從語料庫的構(gòu)建過程開始,清洗敏感內(nèi)容。
當(dāng)前的敏感內(nèi)容清洗手段主要目的是阻止不良信息在互聯(lián)網(wǎng)上擴(kuò)散,比較重視主題上的敏感內(nèi)容[5]。但對于面向商業(yè)化應(yīng)用的聊天機(jī)器人而言,除了上述明顯有違國家相關(guān)法律法規(guī)的信息之外,對于可能傷害用戶的內(nèi)容、可能攻擊其他廠商引發(fā)糾紛的內(nèi)容也是不宜發(fā)表的敏感信息。此外,已有的敏感內(nèi)容清洗系統(tǒng)往往構(gòu)建靜態(tài)的知識庫與規(guī)則,不利于持續(xù)的擴(kuò)充;然而聊天機(jī)器人系統(tǒng)需要持續(xù)從互聯(lián)網(wǎng)中爬取語料,而隨著時間的推移,也一定會有新的敏感內(nèi)容出現(xiàn),需要有擴(kuò)展能力的捕捉方式。本文的目標(biāo)是設(shè)計一個面向聊天機(jī)器人的敏感內(nèi)容識別方案,涉及的工作包括研發(fā)一個敏感內(nèi)容的清洗系統(tǒng)和一個敏感語料的擴(kuò)增系統(tǒng)。
1 相關(guān)研究
1.1 敏感內(nèi)容的定義
對于敏感內(nèi)容的定義,以往的研究者也有多種看法。目前學(xué)界普遍認(rèn)為,敏感內(nèi)容分為2類。一類是主題上的敏感內(nèi)容,另一類是態(tài)度傾向上的敏感內(nèi)容[5-6]。對于主題上的敏感內(nèi)容,只要識別出了主題就可以直接過濾;而對于態(tài)度傾向上的敏感內(nèi)容,則需要進(jìn)一步判斷態(tài)度傾向。具體來說,如果一對問答提及淫穢色情的內(nèi)容,那么這對問答就可以直接過濾掉;然而,如果一對問答提及的是一個犯罪事件,則需要進(jìn)一步分析發(fā)言者的情感傾向、評價的對象等,最終才能決定這是不是敏感內(nèi)容。然而,在聊天機(jī)器人的背景下,上述定義方式并不能完全適應(yīng)需求。
迄至目前,聊天機(jī)器人的交互能力較低,表達(dá)鮮明觀點(diǎn)的需求不高;但與此同時,一旦聊天機(jī)器人發(fā)表了不恰當(dāng)?shù)难哉?,除了給用戶造成不適,還容易造成傳播上的危機(jī),給運(yùn)營者造成不良影響。在能夠通過爬蟲技術(shù)得到大規(guī)模語料庫的背景下,相比起查準(zhǔn)率,更重要的是查全率。研究可知,若未能全面收錄合理的對話語料不會帶來太大的損失,而錯誤地收錄了敏感語料卻可能給聊天機(jī)器人帶來災(zāi)難。
此外,聊天機(jī)器人往往需要與用戶進(jìn)行一對一的深入交流,聊天機(jī)器人的使用者也覆蓋了老年人、中年人、青年人、少年兒童等。一些網(wǎng)絡(luò)用語或許在公開網(wǎng)絡(luò)上很普遍,但是在與青少年交流時就會變成不良的示范;一些話題或許年輕人能夠接受,老年人卻可能會完全拒絕。因此,敏感內(nèi)容的定義也需要變得更加寬泛。
1.2 敏感內(nèi)容識別方法
敏感內(nèi)容的識別方法可以按照多種標(biāo)準(zhǔn)劃分。其中,比較主流的是敏感詞表方法和語義過濾方法。對此可做闡釋分述如下。
敏感詞表方法,就是構(gòu)建敏感詞庫,而后從語料中匹配敏感詞,如果能夠匹配成功,則說明語料為敏感語料。敏感詞表方法往往會受到敏感詞表過小、新敏感內(nèi)容出現(xiàn)以及敏感詞的變形體等因素的制約,有很多的改進(jìn)方法。余敦輝等人[7]提出了基于決策樹的敏感詞變形體識別算法,通過分析字形、讀音等信息,構(gòu)建決策樹,并識別敏感詞。
語義過濾方法是指綜合語義信息進(jìn)行過濾。劉梅彥等人[5]先采用主題信息過濾,判斷模型是否牽涉敏感話題,再進(jìn)行傾向性過濾,去除態(tài)度敏感的內(nèi)容。呂濱等人[6]根據(jù)語義關(guān)系,根據(jù)語義框架表示不同,將文本分成了4種模式。接下來,分別把已過濾的文本內(nèi)容和被過濾的文本內(nèi)容填充語義框架,并計算相似度,從而判斷是否需要過濾。
上述方法中,敏感詞表方法即使解決了變形體問題,詞表的覆蓋面以及新敏感詞的納入仍然高度依賴人工操作;語義過濾方法需要使用語義分析工具進(jìn)行處理,存在誤差累積的問題,而且語義框架也是高度依賴人工定義的內(nèi)容。在聊天機(jī)器人的應(yīng)用背景下,有較大的局限性。
2 敏感內(nèi)容的定義、分類與分布
2.1 敏感內(nèi)容的定義與概念
經(jīng)典看法認(rèn)為,敏感內(nèi)容分為主題上的敏感內(nèi)容,與態(tài)度傾向上的敏感內(nèi)容[5-6]。對于聊天機(jī)器人而言,分析敏感內(nèi)容不能夠脫離其依存的客觀條件。聊天機(jī)器人是一種能夠在開放或封閉平臺中與用戶交互的程序,因此聊天機(jī)器人也要“遵紀(jì)守法”,不能發(fā)表違法、違規(guī)或不道德的內(nèi)容。聊天機(jī)器人的設(shè)計目的是與用戶繼續(xù)進(jìn)行持續(xù)、愉快的交流,因此聊天機(jī)器人也不應(yīng)該主動發(fā)表令用戶感到不適的內(nèi)容,更不能夠?qū)τ脩暨M(jìn)行言語上的攻擊。最后,聊天機(jī)器人往往會面對廣大的用戶群體,對于一些機(jī)構(gòu)、人物或事物的不恰當(dāng)評價也容易引起較大的爭議乃至商業(yè)糾紛,因此也應(yīng)該盡量避免負(fù)面的評價。
通過上述分析,可以發(fā)現(xiàn)敏感內(nèi)容有3種層次:首先顯著違反法律或道德、不為社會所容忍的內(nèi)容;其次是在交談過程中容易讓交談對象感到不舒適、不愉快的內(nèi)容;最后則是容易引起爭議的評價內(nèi)容。
聊天機(jī)器人的主要回復(fù)方式分為規(guī)則式、檢索式與生成式。其中,規(guī)則式方法需要人工編寫,因此容易控制語料質(zhì)量,但是無論是檢索式、還是生成式聊天機(jī)器人,都需要規(guī)模較大的語料庫,而這樣的語料庫往往是從網(wǎng)絡(luò)中爬取構(gòu)建的。盡管各大網(wǎng)絡(luò)社區(qū)都有盡量避免不友善內(nèi)容的相關(guān)制度與規(guī)定,然而,詞匯的豐富性、語言表達(dá)方式的多樣性以及社會熱點(diǎn)的實(shí)時性使得公開網(wǎng)絡(luò)上大量存在著敏感內(nèi)容。
因此,在語料庫構(gòu)建階段就清洗掉敏感內(nèi)容,是聊天機(jī)器人技術(shù)應(yīng)用的重要步驟。
2.2 敏感內(nèi)容的分類與分布
敏感內(nèi)容的分類有2個視角。其一是內(nèi)容的視角,關(guān)注敏感語料具體而言包含什么內(nèi)容;其二是明顯度的視角,關(guān)注敏感語料有多容易識別。本文從新浪微博中隨機(jī)爬取了360 000條微博及其下的評論,從中隨機(jī)抽出了10 000對問答。通過人工初步標(biāo)注,發(fā)現(xiàn)敏感內(nèi)容占比約為29%。隨后,本文又抽取敏感內(nèi)容中的500對問答,分別從上述兩個視角考察了敏感內(nèi)容的分布。
2.2.1 敏感程度角度的分類與分布
從明顯程度上說,根據(jù)有無敏感詞可以進(jìn)行初步劃分;對于前者,又可以根據(jù)敏感詞的明顯程度做進(jìn)一步劃分??傮w來說可分成3類,即:有明顯敏感詞的內(nèi)容、只有隱晦敏感詞的內(nèi)容、不包含敏感詞的內(nèi)容。研究可得,敏感內(nèi)容在明顯程度上的分布見表1。
分析表1可以發(fā)現(xiàn),盡管帶有明顯或隱晦敏感詞的數(shù)量相當(dāng)可觀,也有相當(dāng)大一部分?jǐn)?shù)量是沒有敏感詞的。同時,聊天機(jī)器人的語料清洗更重視敏感內(nèi)容的召回率、而非準(zhǔn)確率。因此,在這個任務(wù)上,敏感詞過濾方法不會得到理想的效果。
2.2.2 內(nèi)容角度的分類與分布
從內(nèi)容上說,敏感內(nèi)容主要分為以下情況:
(1)犯罪、違法、違規(guī)內(nèi)容:牽涉國家、社會、政府機(jī)關(guān)、政治制度、政策法規(guī)、政治人物、宗教信仰、恐怖主義等的內(nèi)容。
(2)淫穢色情內(nèi)容:描寫性行為,性交,性技巧,性犯罪,與性變態(tài)有關(guān)的暴力、虐待、侮辱行為以及心理感受的內(nèi)容,色情淫蕩形象等的內(nèi)容。
(3)不友善內(nèi)容:針對個人、人群、地域與非公務(wù)組織機(jī)構(gòu)的攻擊性觀點(diǎn)或陳述,對人輕蔑、不尊重的內(nèi)容。
(4)負(fù)面評價:對公司企業(yè)、各類產(chǎn)品和社會名人等公共領(lǐng)域進(jìn)行批評、指責(zé)的觀點(diǎn)、陳述內(nèi)容。
(5)消極內(nèi)容:反映不符合主流價值觀的思想傾向,傾向社會陰暗面的內(nèi)容。
進(jìn)行統(tǒng)計后發(fā)現(xiàn)上述內(nèi)容的分布情況詳見表2。
分析表2可知,不友善的部分占了敏感內(nèi)容的一半以上,居于首位,這是因?yàn)榛ヂ?lián)網(wǎng)上的聊天有相當(dāng)一部分是以不尊重的態(tài)度進(jìn)行的;這些內(nèi)容在互聯(lián)網(wǎng)平臺上或許因可以制造流量與熱度而得到容忍,但在聊天機(jī)器人中則一樣是不合適的內(nèi)容。僅次于其后的是消極內(nèi)容,這部分內(nèi)容談?wù)摰氖且恍┥鐣呢?fù)面信息,在公開網(wǎng)絡(luò)上往往也是正常的討論,但也同樣不宜出現(xiàn)在聊天機(jī)器人的語料庫中。
接下來,若再考察其中有明顯敏感詞的項(xiàng)目的比例,就會發(fā)現(xiàn),消極內(nèi)容、負(fù)面內(nèi)容、不友善內(nèi)容這三項(xiàng)往往都有相當(dāng)數(shù)量是不帶有敏感詞的。這也決定了敏感詞過濾方法不能很好地識別這些內(nèi)容。同時,即使是在犯罪違法或淫穢色情這兩個類別中,有明顯敏感詞的內(nèi)容也不到總體的一半。
2.3 小結(jié)
通過統(tǒng)計分析,可以發(fā)現(xiàn)敏感內(nèi)容中有很大的比例不包含敏感詞;同時,相比起人們熟悉的犯罪違法違規(guī)內(nèi)容或淫穢色情內(nèi)容,比例更大的卻是不友善內(nèi)容和消極內(nèi)容,而且其中的很大部分內(nèi)容也并不包含敏感詞。
3 敏感內(nèi)容的識別方法研究
本文主要使用傳統(tǒng)的敏感詞表方法和bert文本分類模型[8]進(jìn)行了敏感內(nèi)容清洗的實(shí)驗(yàn)。除了傳統(tǒng)的在準(zhǔn)確率P、召回率R以及F-值等,本文還引入了2個新的評價指標(biāo):清洗結(jié)果可用度(P_normal)與有效信息留存度(R_normal)。其中,清洗結(jié)果可用度是指,清洗完畢后的信息中不敏感內(nèi)容的占比,可以反映清洗完成后的數(shù)據(jù)有多少可用,而有效信息留存度則是指不敏感內(nèi)容在清洗完成后剩余的比例,可以反映保留了多少有效信息。
本文從新浪微博中隨機(jī)爬取了360 000條微博及其下的評論,從中隨機(jī)抽出了20 000對問答,分三次先后標(biāo)注了5 000對、5 000對和10 000對數(shù)據(jù)。其中,第一次標(biāo)注的數(shù)據(jù)作為測試集,后續(xù)標(biāo)注的數(shù)據(jù)作為訓(xùn)練集。
3.1 敏感詞表方法
本文首先從網(wǎng)絡(luò)收集了8個敏感詞表(總共含約7萬詞)并集成到一個敏感詞表中,同時將集成的詞表在收集到的微博全集中統(tǒng)計出現(xiàn)次數(shù),去掉沒出現(xiàn)過的詞,再按頻次從高到低,人工辨別詞語的可靠性,進(jìn)行人工的刪除、改寫或擴(kuò)增,保留了2 714個敏感詞,得到優(yōu)化后的詞表。在測試集上分別測試了2個詞表的表現(xiàn),詳見表3。
顯然,無論是哪種詞表,準(zhǔn)確率雖然相對較高,但是召回率都很低,遠(yuǎn)遠(yuǎn)達(dá)不到任務(wù)所需要的標(biāo)準(zhǔn)。同時還可以發(fā)現(xiàn),優(yōu)化后的詞表雖然準(zhǔn)確率有所降低,卻在召回率上有顯著的提升,在后續(xù)的任務(wù)中可以起到更好的作用。
3.2 bert文本分類模型
本文采用了Google公開的bert預(yù)訓(xùn)練模型,該模型在各項(xiàng)自然語言處理任務(wù)中都能起到很好的效果。本文借助這一預(yù)訓(xùn)練模型構(gòu)建文本分類器,先后采用了5 000對、10 000對以及兩者組合的數(shù)據(jù)集進(jìn)行訓(xùn)練,再在訓(xùn)練集上測試,敏感閾值為0.5,得到結(jié)果見表4。
顯然,對標(biāo)注數(shù)據(jù)的擴(kuò)增可以有效提升召回率與清洗結(jié)果可用度,數(shù)據(jù)越多模型性能越好。
3.3 兩者相結(jié)合的方法
本文進(jìn)一步嘗試結(jié)合bert模型與敏感詞表方法。具體來說,對每對輸入內(nèi)容進(jìn)行2次判斷。第一次使用bert模型辨別是否為敏感內(nèi)容,第二次用敏感詞表辨別是否敏感內(nèi)容,任意一次判斷為敏感內(nèi)容就算是敏感內(nèi)容。得到結(jié)果見表5。
因此,加入優(yōu)化詞表可以在bert分類模型的基礎(chǔ)上進(jìn)一步提升性能。
4 敏感內(nèi)容的擴(kuò)增方法
根據(jù)此前的實(shí)驗(yàn),可以發(fā)現(xiàn),采用分類模型的情況下,擴(kuò)增訓(xùn)練集的大小可以提升模型性能。而參考各模型的清洗結(jié)果可用度,可以發(fā)現(xiàn)已有結(jié)果的清洗可用度都比較高,因此擴(kuò)增不敏感內(nèi)容并不困難,難點(diǎn)在于敏感內(nèi)容的擴(kuò)增。
對于敏感內(nèi)容的擴(kuò)增有2個思路。其一,直接通過敏感詞的檢索,獲得擴(kuò)增的問答對;其二,通過借助微博文本結(jié)構(gòu)化的信息,從微博中擴(kuò)增問答對。以下將主要從擴(kuò)增的內(nèi)容數(shù)量和人工評價得到的合格率兩方面來考察敏感語料擴(kuò)增效果。
4.1 敏感詞表直接識別法
本文采用此前優(yōu)化后的敏感詞表,逐個識別微博及其回復(fù)構(gòu)成的所有問答對,提取包含敏感詞的問答對,分別考慮只包含1個關(guān)鍵詞和包含2個關(guān)鍵詞兩種情況。得到的結(jié)果見表6。
由表6可以看到,隨著敏感詞數(shù)量的增加,敏感詞表擴(kuò)增方法的合格率雖然上升,但同時收集到的敏感語料數(shù)量迅速下降。通過對具體結(jié)果進(jìn)行分析,還能發(fā)現(xiàn)若干個敏感詞對應(yīng)的敏感內(nèi)容比例迅速提升。說明單純使用敏感詞表過濾難以構(gòu)建起大量、穩(wěn)定的敏感詞表。
4.2 結(jié)合詞表的敏感內(nèi)容挖掘方法
本文采集的每條微博數(shù)據(jù)以樹狀結(jié)構(gòu)保存。父節(jié)點(diǎn)為微博以及相關(guān)信息,同時有一個以上的子結(jié)點(diǎn),為對該微博的評論;子結(jié)點(diǎn)也可以有子結(jié)點(diǎn),為對該條評論的評論。樹的深度最大為3。
本文認(rèn)為,如果同一條微博下,大多數(shù)評論都是圍繞著敏感內(nèi)容,那么一定有一定數(shù)量的微博包含著敏感詞,且微博整體也都是明顯或隱晦的敏感內(nèi)容。對于敏感詞又可以細(xì)分為2種,一種是語氣上的敏感詞,另一種是主題上的敏感詞。如果微博中有足夠比例的評論都包含語氣上的敏感詞,那么可以相信微博底下大多數(shù)都是語氣令人不舒服的評論;而如果微博中包含若干個主題上的敏感詞,那么可以相信微博是在圍繞著敏感的話題展開對話。
基于上述思考,控制2個變量篩選微博數(shù)據(jù):一是微博中包含語氣敏感詞的評論比例b,二是微博中包含的主題敏感詞數(shù)目k。改變k時,把b固定在0.1;改變b時,把k固定在0,得到實(shí)驗(yàn)結(jié)果見表7、表8。
顯然,在擴(kuò)增的絕對數(shù)量上,結(jié)合微博結(jié)構(gòu)信息可以增加擴(kuò)增內(nèi)容的數(shù)量,并且也能夠保證合格的敏感內(nèi)容數(shù)量保持在較高的水平,顯著優(yōu)于使用敏感詞表直接進(jìn)行擴(kuò)增。
此外,根據(jù)數(shù)據(jù)可以發(fā)現(xiàn),無論是哪個篩選指標(biāo),單純提高指標(biāo)并不會一直提升合格率,指標(biāo)過高時合格率反而會回落。猜測可能是因?yàn)樵~表中的一些敏感詞存在相關(guān)關(guān)系,把指標(biāo)提升得過高會導(dǎo)致擴(kuò)增的數(shù)據(jù)偏向這些敏感內(nèi)容。
5 結(jié)束語
當(dāng)前,聊天機(jī)器人系統(tǒng)仍然非常依賴于語料庫。構(gòu)建語料庫的過程中,敏感內(nèi)容清洗是一個重要的步驟,且面向聊天機(jī)器人系統(tǒng)的敏感內(nèi)容清洗與一般的敏感內(nèi)容清洗相比,要求要更嚴(yán)格,過濾失敗的風(fēng)險也會更高。
本文通過分析新浪微博中獲取的問答語料數(shù)據(jù),得到了2個結(jié)論:敏感內(nèi)容多數(shù)都以隱晦的形式出現(xiàn);不同類別的敏感內(nèi)容占比并不均衡,且總體來說都傾向于隱晦形式。本文提出,衡量敏感內(nèi)容清洗系統(tǒng)除了使用傳統(tǒng)的準(zhǔn)確率、召回率和F-值,還可以考慮清洗內(nèi)容可用度與有效內(nèi)容留存度,以衡量清洗后數(shù)據(jù)的清潔程度以及有用數(shù)據(jù)的保留程度。
本文提出了一種基于在無標(biāo)注數(shù)據(jù)上優(yōu)化敏感詞表的方式,并實(shí)現(xiàn)了一個結(jié)合敏感詞表與分類模型的敏感內(nèi)容清洗系統(tǒng)。通過實(shí)驗(yàn)發(fā)現(xiàn),對敏感詞表使用恰當(dāng)?shù)那逑捶椒梢蕴嵘湫阅?,擴(kuò)充分類模型的訓(xùn)練數(shù)據(jù)也可以提升分類模型的表現(xiàn),而且結(jié)合分類模型與敏感詞表可以實(shí)現(xiàn)最好的性能。
本文提出了一種在微博結(jié)構(gòu)語料中,借助敏感詞表,提取不包含敏感詞的敏感內(nèi)容的方法,并且在內(nèi)容抽取數(shù)量與質(zhì)量上都超過了直接使用敏感詞表抽取的效果。同時也發(fā)現(xiàn),單純增加主題敏感詞的數(shù)量要求或語氣敏感評論的比例要求并不能一直提升擴(kuò)增效果。
本文中最好的擴(kuò)增方法也只有80%的合格率。擴(kuò)增所得內(nèi)容中包含的20%普通數(shù)據(jù)的構(gòu)成與性質(zhì),以及具體的去除方法,可以作為進(jìn)一步研究的內(nèi)容。
本文提出了清洗低質(zhì)量敏感詞表的方法,而擴(kuò)增敏感詞仍然需要人工介入。如何在已有的研究的基礎(chǔ)上,持續(xù)擴(kuò)增敏感詞表,也是亟待深入研究的重要內(nèi)容。
更進(jìn)一步,如果有辦法利用敏感詞表持續(xù)擴(kuò)增敏感語料,又可以借助敏感語料的內(nèi)容持續(xù)擴(kuò)增敏感詞表,將可以實(shí)現(xiàn)敏感數(shù)據(jù)清洗的良性循環(huán),也是值得研究的內(nèi)容。
參考文獻(xiàn)
[1] ?劉挺. 人機(jī)對話技術(shù)的進(jìn)展[R]. 深圳:中國計算機(jī)學(xué)會,2017.
[2]張偉男,劉挺. 聊天機(jī)器人技術(shù)的研究進(jìn)展[J]. 中國人工智能學(xué)會通訊,2016(6):17.
[3]陳昌鳳. 讓算法回歸人類價值觀的本質(zhì)[J]. 新聞與寫作,2018,9(1):1.
[4]董青嶺. 人工智能時代的道德風(fēng)險與機(jī)器倫理[J]. 云夢學(xué)刊,2018,39(5):39.
[5]劉梅彥,黃改娟. 面向信息內(nèi)容安全的文本過濾模型研究[J]. 中文信息學(xué)報,2017,31(2):126.
[6]呂濱,雷國華,于燕飛,等. 基于語義分析的網(wǎng)絡(luò)不良信息過濾系統(tǒng)研究[J]. 計算機(jī)應(yīng)用與軟件,2010,27(2):283.
[7]余敦輝,張笑笑,付聰,等. 基于決策樹的敏感詞變形體識別算法研究及應(yīng)用[J/OL]. 計算機(jī)應(yīng)用研究:1-7[2019-03-14].https://doi.org/10.19734/j.issn.1001-3695.2018.11.0792.
[8]VASWANI A , SHAZEER N , PARMAR N , et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Long Beach, California,USA:Neural Information Processing Systems Foundation, Inc., 2017:5998.