高雄 韓紅旗 王力 薛陜
1. 中國科學(xué)技術(shù)信息研究所 北京 100038;
2. 富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室 北京 100038
隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的不斷增長,大規(guī)模文本分類技術(shù)已成為當(dāng)今大數(shù)據(jù)時(shí)代迫切需要的關(guān)鍵技術(shù)之一,并引起了學(xué)者的廣泛關(guān)注[1,2]。普通的文本分類問題一般只涉及數(shù)個(gè)類別,多則數(shù)十個(gè)類別。與普通文本分類問題不同,大規(guī)模文本分類的類別數(shù)量較多,如《中國圖書館分類法》(原稱《中國圖書館圖書分類法》,以下簡稱《中圖法》)包括的類目數(shù)量達(dá)到兩萬以上,其中的三級類目接近2500個(gè),使用一般的方法很難對數(shù)千個(gè)甚至上萬個(gè)類別進(jìn)行準(zhǔn)確地分類[3]。因此如何選擇一種有效的方法對大規(guī)模文本進(jìn)行分類以達(dá)到理想的效果是目前文本分類領(lǐng)域亟待解決的關(guān)鍵問題。最近幾年,基于神經(jīng)網(wǎng)絡(luò)的分類算法在文本分類領(lǐng)域得到應(yīng)用并取得不錯(cuò)的效果[4-7]。然而,這種學(xué)習(xí)算法需要每個(gè)類別下具有大量的訓(xùn)練樣本數(shù)據(jù)。也就是說,目前主流的文本分類算法的效果很大程度上取決于訓(xùn)練語料的質(zhì)量。從某種意義上講,需要的訓(xùn)練語料越多,其所包含噪聲的概率也就越大。因此,在將訓(xùn)練語料輸入深度學(xué)習(xí)模型之前,對訓(xùn)練語料進(jìn)行清洗是非常重要的,這直接決定了模型的效果,甚至?xí)绊懩P偷氖諗俊?/p>
數(shù)據(jù)清洗,也稱為去噪,就是把冗雜、混亂、無效的噪聲數(shù)據(jù)清洗干凈。郭宇航[8]使用基于語言模型和基于點(diǎn)互信息等兩種方式消除基于同義詞擴(kuò)展的訓(xùn)練語料中的噪聲。Xu[9]等人于2019年在認(rèn)真分析了Web of Science(WoS)中的被引文獻(xiàn)的DOI的錯(cuò)誤類型及其發(fā)生的頻率的基礎(chǔ)上,提出了一種基于正則表達(dá)式的數(shù)據(jù)清洗的方法,實(shí)驗(yàn)結(jié)果表明該方法能夠有效提高訓(xùn)練語料的質(zhì)量。
目前專門針對大規(guī)模文本分類中的訓(xùn)練語料去噪問題的研究還較少,多集中于簡單的基于正則表達(dá)式的方法,即通過分析常見的噪聲類型,人工編寫正則表達(dá)式規(guī)則,從而去除訓(xùn)練數(shù)據(jù)中的噪聲;或是通過語言模型等方法,即計(jì)算一個(gè)詞語序列構(gòu)成一個(gè)句子的概率,來判斷一句話出現(xiàn)的概率高不高,是否符合日常的表達(dá)習(xí)慣等。這些方法只能去除“錯(cuò)別字、亂碼、語法錯(cuò)誤和不符合所屬語言或領(lǐng)域的表達(dá)習(xí)慣”帶來的噪聲,而大規(guī)模文本分類中的訓(xùn)練語料的噪聲多是“類別外噪聲”,如:中圖分類號(hào)A14(一級類目A:馬克思主義、列寧主義、毛澤東思想、鄧小平理論;二級類目A1:馬克思、恩格斯著作;三級類目A14:詩詞)類別的訓(xùn)練語料中出現(xiàn)的“基于‘地區(qū)’特點(diǎn)的風(fēng)險(xiǎn)投資環(huán)境的系統(tǒng)分析研究”這樣的“語義”上明顯不屬于A14的數(shù)據(jù)。顯然,“類別外噪聲”是無法通過基于正則表達(dá)式或是語言模型的方法來消除的。
本文重點(diǎn)利用語義信息來消除“類別外噪聲”,通過對每個(gè)類別的訓(xùn)練語料構(gòu)建“類目-類目關(guān)鍵詞”知識(shí)庫,利用“詞嵌入”自動(dòng)化比較其語義信息來判斷該類別下是否存在噪聲,并給出噪聲類目候選列表和噪聲數(shù)據(jù)候選列表,最后通過人機(jī)交互的方式消除噪聲,從而提升大規(guī)模文本分類中的訓(xùn)練語料質(zhì)量,進(jìn)而不斷提高自動(dòng)分類標(biāo)引工具的準(zhǔn)確率,更好地在科技領(lǐng)域服務(wù)于科研人員。
本文基于《中圖法》對大規(guī)模文本分類的訓(xùn)練語料進(jìn)行去噪研究。分為“構(gòu)建分類文件系統(tǒng)”、“分析噪聲類型與多策略去噪”等部分,其中重點(diǎn)研究“類別外噪聲”的消除。
在實(shí)踐中,大規(guī)模文本分類的訓(xùn)練語料多為不同類別(如不同的中圖分類號(hào))的文獻(xiàn)混雜在一起,存儲(chǔ)在純文本文件或SQL文件中,這樣不利于觀察訓(xùn)練語料中的噪聲類型及其特征,從而影響去噪。因此,有必要按照《中圖法》將各個(gè)類別混在一起的訓(xùn)練語料分門別類地放在不同的文件夾以及文件中,即按照《中圖法》構(gòu)建分類文件系統(tǒng)。
《中圖法》是我國建國后編制出版的一部具有代表性的大型綜合性分類法,是當(dāng)今國內(nèi)圖書館使用最廣泛的分類法體系?!吨袌D法》出版于1975年,2010年出版了第五版?!吨袌D法》共分5個(gè)基本部類、22個(gè)大類,采用英文字母與阿拉伯?dāng)?shù)字相結(jié)合的混合號(hào)碼(即中圖分類號(hào)),用一個(gè)字母代表一個(gè)大類,以字母順序反映大類的次序,在字母后用數(shù)字作標(biāo)記。
根據(jù)《中圖法》的分類結(jié)構(gòu)以及文本分類的精度要求,本文建立層級粒度到三級中圖分類號(hào)的分類文件系統(tǒng),因此首先需要構(gòu)建三級類目嵌套字典。其結(jié)構(gòu)如下:
1)三級字典(最內(nèi)層字典)
鍵:三級中圖分類號(hào)(形如:A11),值:1;
2)二級字典
鍵:二級中圖分類號(hào)(形如:A1),值:三級字典;
3)一級字典(最外層字典)
鍵:一級中圖分類號(hào)(形如:A),值:二級字典。
需要特別說明的是,如G51(世界教育事業(yè),三級中圖分類號(hào))的上級中圖分類號(hào)并不是G5,這樣不利于根據(jù)三級類目嵌套字典對訓(xùn)練語料進(jìn)行抽取。為了解決這一問題,增加了10個(gè)'*_NA'二級類目號(hào),10個(gè)'*_NA'二級類目號(hào)及其對應(yīng)的三級類目號(hào)具體如下:
1)G5_NA:G51/57、G51、G52、G53/57
2)G6_NA:G61/79、G61、G62、G63、G64、G65
3)G7_NA:G71、G72、G74、G75、G76、G77、G78、G79
4)H82_NA:H824
5)K8_NA:K82、K833/837、K86、K87/879.49、K87、K883/887
6)O2_NA:O21、O22、O23、O24、O29
7)O5_NA:O51、O52、O53、O55、O56、O57、O59
8)P6_NA:P61、P62、P64、P68、P691、P694
9)V3_NA:V31、V32、V35、V37
10)V5_NA:V51、V52、V55、V57
根據(jù)上述構(gòu)建的三級類目嵌套字典對訓(xùn)練語料進(jìn)行抽取,構(gòu)建基于《中圖法》的分類文件系統(tǒng)。具體步驟如下:獲取訓(xùn)練語料的必要字段(如:id、標(biāo)題、關(guān)鍵詞等)以及中圖分類號(hào)列表;依次循環(huán)上述構(gòu)建的三級類目嵌套字典的一、二、三級類目號(hào),并判斷“訓(xùn)練語料中的記錄是否屬于該級類目號(hào)”,若屬于該級類目號(hào),則劃分到以該級類目號(hào)命名的txt文件中。構(gòu)建的分類文件系統(tǒng)結(jié)構(gòu)如下:
1)一級類目號(hào)對應(yīng)文件夾;
2)二級類目號(hào)對應(yīng)文件夾,存放于該二級類目號(hào)屬于的一級類目號(hào)文件夾下;
3)三級類目號(hào)對應(yīng)txt文件,存放于該三級類目號(hào)屬于的二級類目號(hào)文件夾下。
為了便于統(tǒng)計(jì),文件夾名或者txt文件名均以“_”+該類目下的記錄數(shù)結(jié)尾。
(1)分析噪聲類型
基于上述構(gòu)建好的“分類文件系統(tǒng)”,隨機(jī)抽取一些訓(xùn)練語料文件進(jìn)行觀察,分析并總結(jié)噪聲類型如表1所示。其中除了包括常見的訓(xùn)練語料中的噪聲類型:出現(xiàn)字母、html標(biāo)簽、多余的空格和特殊符號(hào)等,還有“類別外噪聲”,如:中圖分類號(hào)A14(一級中圖分類號(hào)A:馬克思主義、列寧主義、毛澤東思想、鄧小平理論;二級中圖分類號(hào)A1:馬克思、恩格斯著作;三級中圖分類號(hào)A14:詩詞)類別的訓(xùn)練語料中出現(xiàn)的“基于‘地區(qū)’特點(diǎn)的風(fēng)險(xiǎn)投資環(huán)境的系統(tǒng)分析研究”這樣的“語義”上明顯不屬于A14的數(shù)據(jù)。
表1 噪聲定義及編號(hào)
(2)多策略去噪
針對(1)部分分析出的不同噪聲類型,本文采用不同的策略針對性地消除不同類型的噪聲。采用基于正則表達(dá)式的方法,可以相對容易地將上述編號(hào)1-5類型的噪聲消除,而針對“類別外噪聲”,則無法通過基于正則表達(dá)式的方法消除,該類型噪聲的消除也是本文的重點(diǎn)。下文重點(diǎn)闡述該類型噪聲的消除。
(1)構(gòu)建“類目-類目關(guān)鍵詞”知識(shí)庫
將《中圖法》中每個(gè)中圖分類號(hào)的語義描述按照層級關(guān)系排列與對應(yīng)的三級中圖分類號(hào)(一個(gè)三級中圖分類號(hào)即是一個(gè)類目)組成一個(gè)字段,即“類目語義描述”字段?;谏鲜鰳?gòu)建好的分類文件系統(tǒng),對每個(gè)三級中圖分類號(hào)對應(yīng)的訓(xùn)練語料中的關(guān)鍵詞字段做詞頻統(tǒng)計(jì),最終返回最高頻的前5個(gè)關(guān)鍵詞作為類目關(guān)鍵詞,是為“類目-類目關(guān)鍵詞”知識(shí)庫的第2個(gè)字段,即“類目關(guān)鍵詞”字段。下文使用類目關(guān)鍵詞作為識(shí)別“類別外噪聲”的特征,如果類目關(guān)鍵詞和對應(yīng)的三級中圖分類號(hào)的“類目描述”在語義上不相關(guān),則表明該類目對應(yīng)的訓(xùn)練語料中存在大量的噪聲數(shù)據(jù)。
(2)兩階段法消除“類別外噪聲”
針對大規(guī)模文本分類的訓(xùn)練語料的“類別外噪聲”,本文采用“兩階段法”逐步定位“類別外噪聲”。第1階段:給出可能存在“類別外噪聲”的類目候選列表。基于上述構(gòu)建的“類目-類目關(guān)鍵詞”知識(shí)庫,使用“類目關(guān)鍵詞中的字符沒有出現(xiàn)在類目語義描述”的約束,對知識(shí)庫中的每一個(gè)類目進(jìn)行初篩。對于初篩之后的“(類目語義描述,類目關(guān)鍵詞)字符串對”使用Bert預(yù)訓(xùn)練模型[10]進(jìn)行“詞嵌入”,得到其向量化表示,計(jì)算兩者之間的余弦相似度并根據(jù)該值對“字符串對”進(jìn)行排序,從而自動(dòng)化比較“類目描述”的語義以及其對應(yīng)的“類目關(guān)鍵詞”的語義是否相似,來判斷該類別下是否存在“類別外噪聲”,然后將可能存在“類別外噪聲”的類目候選列表交由人工審核確定閾值,相似度值小于該閾值的需要重點(diǎn)審核;第2階段:給出可能存在“類別外噪聲”的文獻(xiàn)候選列表。根據(jù)審核后的存在“類別外噪聲”的類目列表以及1.1部分構(gòu)建好的分類文件系統(tǒng),定位到存在“類別外噪聲”的類目訓(xùn)練語料文件,對于十分明顯的“類別外噪聲”文獻(xiàn)的訓(xùn)練語料文件,可以通過關(guān)鍵詞匹配的方式直接消除;對于混雜“類別外噪聲”文獻(xiàn)的訓(xùn)練語料文件,使用Bert預(yù)訓(xùn)練模型對該文件中的不同的文獻(xiàn)的關(guān)鍵詞進(jìn)行“詞嵌入”得到其向量,使用余弦相似度來計(jì)算文獻(xiàn)之間的距離,給出可能存在“類別外噪聲”的文獻(xiàn)候選列表,最后通過人機(jī)交互的方式消除噪聲。
本文實(shí)驗(yàn)所用數(shù)據(jù)為收集的約800萬條覆蓋22個(gè)一級中圖分類號(hào)的會(huì)議論文、期刊論文等文獻(xiàn)數(shù)據(jù),包含題名、關(guān)鍵詞、摘要、中圖分類號(hào)等信息。本文所用的數(shù)據(jù)中,一級中圖分類號(hào)22個(gè),二級中圖分類號(hào)254個(gè),三級中圖分類號(hào)1679個(gè)。數(shù)據(jù)集關(guān)于一級中圖分類號(hào)的統(tǒng)計(jì)信息如表2所示。
表2 數(shù)據(jù)集的統(tǒng)計(jì)信息
在“兩階段法消除‘類別外噪聲’”部分使用的是主流的Google公布的一個(gè)具有12層,768維,1.1億參數(shù)的中文BERT預(yù)訓(xùn)練模型chinese_L-12_H-768_A-12。
針對實(shí)驗(yàn)數(shù)據(jù)集構(gòu)建的層級粒度到三級中圖分類號(hào)的分類文件系統(tǒng),以A(一級中圖分類號(hào))、A1(二級中圖分類號(hào))、A11(三級中圖分類號(hào))為例,如圖1所示,其中的文件夾名或者txt文件名均以“_”+該類目下的記錄數(shù)結(jié)尾。根據(jù)分類文件系統(tǒng)可以清楚地看出實(shí)驗(yàn)數(shù)據(jù)集中一、二、三級中圖分類號(hào)對應(yīng)的文獻(xiàn)數(shù)量。
圖1 實(shí)驗(yàn)數(shù)據(jù)集構(gòu)建的分類文件系統(tǒng)結(jié)構(gòu)示意圖
針對實(shí)驗(yàn)數(shù)據(jù)集構(gòu)建的“類目-類目關(guān)鍵詞”知識(shí)庫,以A14舉例為:“類目語義描述”字段:A14(馬克思主義、列寧主義、毛澤東思想、鄧小平理論/馬克思、恩格斯著作/詩詞);“類目關(guān)鍵詞”字段:風(fēng)險(xiǎn)投資、環(huán)境、系統(tǒng)分析、地區(qū)、速效磷。
(1)消噪第1階段實(shí)驗(yàn)
在兩階段法消除“類別外噪聲”的第1階段中,經(jīng)過使用“類目關(guān)鍵詞中的字符沒有出現(xiàn)在類目語義描述”的約束初篩之后,1679個(gè)三級中圖分類號(hào)(類目編號(hào):1-1679)中有234個(gè)可能存在“類別外噪聲”的類目,如表3所示。使用Bert預(yù)訓(xùn)練模型向量化“類目語義描述”與“類目關(guān)鍵詞”,并計(jì)算兩者之間的余弦相似度并根據(jù)該值由小到大排序后的結(jié)果,如表4所示。經(jīng)由專家審核確定的閾值為0.82(對應(yīng)表4中的序號(hào)為90的類目),即可能存在“類別外噪聲”的類目候選列表中余弦相似度值高于0.82的146個(gè)類目,除極個(gè)別(11個(gè)類目)外,均不存在“類別外噪聲”,需要重點(diǎn)審核相似度值小于該閾值的89個(gè)類目。經(jīng)審核,234個(gè)類目中確定存在“類別外噪聲”的類目數(shù)量為44個(gè)(見表5)。
表3 初篩之后可能存在“類別外噪聲”的類目候選列表
表4 排序之后可能存在“類別外噪聲”的類目候選列表
表5 人工審核后的存在“類別外噪聲”的類目列表
(2)消噪第2階段實(shí)驗(yàn)
第2階段:給出可能存在“類別外噪聲”的文獻(xiàn)候選列表。根據(jù)人工審核后的存在“類別外噪聲”的類目列表,定位到對應(yīng)的類目訓(xùn)練語料文件,對于十分明顯的“類別外噪聲”文獻(xiàn)的訓(xùn)練語料文件,可以通過關(guān)鍵詞匹配的方式直接消除,如類目A14(馬克思主義、列寧主義、毛澤東思想、鄧小平理論/馬克思、恩格斯著作/詩詞),一共4條文獻(xiàn)記錄(見表6),都與A14語義不符,可直接消除。
表6 全部為“類別外噪聲”的類目訓(xùn)練語料文件(以A14為例)
對于混雜“類別外噪聲”文獻(xiàn)的訓(xùn)練語料文件,如類目H77(語言、文字/印歐語系/羅馬語族),一共10條文獻(xiàn)記錄(見表7),有些文獻(xiàn)是“類別外噪聲”(如表7中的1、2、10),而另一些不是,需要使用“詞嵌入”并計(jì)算余弦相似度,給出可能存在“類別外噪聲”的文獻(xiàn)候選列表(見表8),經(jīng)專家審核,候選列表中的前7條均為“類別外噪聲”文獻(xiàn)。
表7 混雜“類別外噪聲”的類目訓(xùn)練語料文件(以H77為例)
表8 可能存在“類別外噪聲”的文獻(xiàn)候選列表(以H77為例)
(3)結(jié)果分析
表3中類目編號(hào)4、5、11、13、34、38、73等7個(gè)例子表明使用約束可以找出明顯是“類別外噪聲”的類目,而類目編號(hào)53、55、61等3個(gè)例子表明使用約束初篩之后類目候選列表中會(huì)存在一些正確無噪聲的類目,所以依然有必要使用“詞嵌入”、計(jì)算相似度等方式對候選列表進(jìn)行排序。
從表4可以看出,雖然經(jīng)過排序之后類目編號(hào)725、61、741所表示的正確無噪聲的類目仍在表中,但是類如715等類目編號(hào)進(jìn)入到前10中,即將初篩列表中混雜的噪聲類目提升到了更顯著的位置,方便后續(xù)人工審核及確定閾值。表8也能體現(xiàn)出類似的情況。
使用本文方法,待去噪的三級類目數(shù)量逐步從最初的1679個(gè)篩選為234個(gè),再從234個(gè)確定為最終的44個(gè)。此外,對44個(gè)存在“類別外噪聲”的類目進(jìn)行統(tǒng)計(jì)分析,可以得出H、K、A三個(gè)一級類目下出現(xiàn)的“類別外噪聲”較多。
圖2 實(shí)驗(yàn)數(shù)據(jù)集中“類別外噪聲”一級類目統(tǒng)計(jì)圖
自動(dòng)分類標(biāo)引工具的訓(xùn)練目前以監(jiān)督學(xué)習(xí)方法為主,而訓(xùn)練語料的質(zhì)量對于大規(guī)模文本分類自動(dòng)標(biāo)引工具準(zhǔn)確率的提升至關(guān)重要。本文重點(diǎn)利用語義信息來消除“類別外噪聲”,提出了兩階段法對其進(jìn)行消除。通過對約800萬條會(huì)議論文、期刊論文等文獻(xiàn)數(shù)據(jù)的去噪實(shí)驗(yàn)結(jié)果分析,證明此方法可有效檢測出存在“類別外噪聲”的類目以及文獻(xiàn)。大規(guī)模文本分類具有類目數(shù)量大、類目層次多、數(shù)據(jù)量大等特點(diǎn),在此種情境下去噪是一件非常復(fù)雜的工作,本研究提出的方法可有效減少人工工作量,快速檢測出存在噪聲的數(shù)據(jù)。但因?yàn)楸痉椒ɑ诟哳l關(guān)鍵詞,所以對一個(gè)具有少量噪聲數(shù)據(jù)的類目的處理則需要新的方法。這種更細(xì)致的情況下的研究是未來的工作方向。