謝波 何鳳
摘 要:為對(duì)廣東省投資項(xiàng)目在線(xiàn)審批監(jiān)管平臺(tái)積累的近40萬(wàn)個(gè)固定資產(chǎn)投資項(xiàng)目的產(chǎn)業(yè)類(lèi)別進(jìn)行分類(lèi),利于政府內(nèi)部統(tǒng)計(jì)管理。在專(zhuān)家識(shí)別的人工打標(biāo)簽的方法基礎(chǔ)上,進(jìn)一步采用了線(xiàn)性支持向量機(jī)等分類(lèi)算法,并基于反饋式文本分類(lèi)機(jī)器學(xué)習(xí)原理再次識(shí)別了所有項(xiàng)目的標(biāo)簽類(lèi)別,項(xiàng)目標(biāo)簽分類(lèi)準(zhǔn)確率由82%提升到91%。結(jié)果表明,反饋式文本分類(lèi)技術(shù),顯著提高了項(xiàng)目分類(lèi)的準(zhǔn)確性。
關(guān)鍵詞:項(xiàng)目標(biāo)簽;文本分類(lèi)、詞向量;分類(lèi)器;線(xiàn)性支持向量機(jī);反饋學(xué)習(xí)
中圖分類(lèi)號(hào):TP181? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)17-0100-04
Abstract: In order to classify the industry categories of the nearly 400,000 fixed assets investment projects accumulated by the online approval and supervision platform for investment projects in Guangdong Province, it is conducive to the governments internal statistical management. Based on the manual labeling method recognized by experts, classification algorithms such as linear support vector machines are further adopted, based on the feedback text classification machine learning principle, the label categories of all items are recognized again, and the accuracy of project label classification has been improved by 82% to 91%. The results show that the feedback text classification technology significantly improves the accuracy of project labels classification.
Keywords: project label; text classification; word vector; classifier; linear support vector machine; feedback learning
0? 引? 言
長(zhǎng)期以來(lái),固定資產(chǎn)投資一直是推動(dòng)經(jīng)濟(jì)增長(zhǎng)最重要的驅(qū)動(dòng)力,固定資產(chǎn)投資項(xiàng)目的分類(lèi)統(tǒng)計(jì)是宏觀經(jīng)濟(jì)運(yùn)行狀況的重要監(jiān)測(cè)指標(biāo)。廣東省發(fā)展和改革委員會(huì)牽頭建設(shè)的廣東省投資項(xiàng)目在線(xiàn)審批監(jiān)管平臺(tái),是投資項(xiàng)目統(tǒng)一辦理登記賦碼、在線(xiàn)審批、專(zhuān)項(xiàng)申報(bào)等服務(wù)的平臺(tái),自2018年上線(xiàn)使用,截至2021年7月底,積累了近40萬(wàn)個(gè)固定資產(chǎn)投資項(xiàng)目的賦碼信息,包括項(xiàng)目名稱(chēng)、申報(bào)單位名稱(chēng)、規(guī)模及描述、國(guó)民經(jīng)濟(jì)行業(yè)類(lèi)別,意向投資額等。這些項(xiàng)目信息由項(xiàng)目單位填報(bào),難以準(zhǔn)確的按領(lǐng)域、行業(yè)、產(chǎn)業(yè)等類(lèi)別進(jìn)行分類(lèi),不利于政府內(nèi)部統(tǒng)計(jì)管理。并且固定資產(chǎn)投資分類(lèi)統(tǒng)計(jì)一直較傳統(tǒng),主要基于國(guó)民經(jīng)濟(jì)行業(yè),由于國(guó)民經(jīng)濟(jì)行業(yè)包括20個(gè)門(mén)類(lèi),類(lèi)別較多,較難從宏觀層面判別項(xiàng)目所屬投資領(lǐng)域,有必要新增符合新時(shí)代特點(diǎn)的可靈活調(diào)整的投資分類(lèi)標(biāo)簽,但是對(duì)40萬(wàn)個(gè)項(xiàng)目人工打標(biāo)簽,工作耗費(fèi)低,本文將采用多類(lèi)別文本分類(lèi)技術(shù),快速識(shí)別眾多投資項(xiàng)目的標(biāo)簽類(lèi)別,為項(xiàng)目自動(dòng)打上基礎(chǔ)設(shè)施項(xiàng)目、公共服務(wù)項(xiàng)目、產(chǎn)業(yè)工程項(xiàng)目、房地產(chǎn)項(xiàng)目、工業(yè)投資項(xiàng)目等一級(jí)標(biāo)簽,并對(duì)一級(jí)標(biāo)簽進(jìn)行細(xì)分,形成標(biāo)簽體系。通過(guò)文本分類(lèi)機(jī)器學(xué)習(xí)在投資項(xiàng)目領(lǐng)域的應(yīng)用,不僅快速準(zhǔn)確地為投資項(xiàng)目打上了標(biāo)簽,還可結(jié)合項(xiàng)目的其他數(shù)據(jù)特征,持續(xù)監(jiān)測(cè)廣東投資意向情況和相關(guān)行業(yè)投資運(yùn)行情況,為完善投資宏觀管理提供了決策支持。
1? 研究方法概述
文本分類(lèi)技術(shù)主要采用文本特征判斷所屬類(lèi)別。對(duì)項(xiàng)目打標(biāo)簽,主要利用項(xiàng)目名稱(chēng)等文本信息判斷項(xiàng)目所屬類(lèi)別。早期的文本分類(lèi)方法主要為專(zhuān)家規(guī)則分類(lèi),通過(guò)匹配簡(jiǎn)要關(guān)鍵詞或大量推理規(guī)則,判別文檔所屬類(lèi)別。隨著統(tǒng)計(jì)學(xué)習(xí)方法和機(jī)器學(xué)習(xí)方法不斷改進(jìn),逐漸形成了將文本信息轉(zhuǎn)換為空間向量模型,抽取特征工程,根據(jù)分類(lèi)算法判斷文本類(lèi)別的方法。如文獻(xiàn)[7]基于 word2vec詞模型對(duì)中文短文本分類(lèi)方法進(jìn)行了研究,發(fā)現(xiàn)此方法可以有效進(jìn)行短文本分類(lèi),最好情況下的F-度量提高45.2。文獻(xiàn)[9]采用樸素貝葉斯對(duì)中文文本進(jìn)行了,發(fā)現(xiàn)樸素貝葉斯在中文本分類(lèi)方面有較好的分類(lèi)效果和時(shí)間效率,平均準(zhǔn)確率達(dá)81.4%。文獻(xiàn)[12]基于SVM對(duì)中文文本分類(lèi)反饋學(xué)習(xí)技術(shù)進(jìn)行了研究,發(fā)現(xiàn)反饋學(xué)習(xí)是一種有效的學(xué)習(xí)方法,在少量反饋基礎(chǔ)上,能較快提高分類(lèi)性能。
由于在廣東省投資項(xiàng)目在線(xiàn)審批監(jiān)管平臺(tái)中,僅省重點(diǎn)項(xiàng)目具有明確的項(xiàng)目分類(lèi)標(biāo)簽,但這些分類(lèi)標(biāo)簽不具有普遍適用性,難以適用于所有投資項(xiàng)目。為滿(mǎn)足學(xué)習(xí)語(yǔ)料的充足性和適用性,需擴(kuò)大樣本數(shù)量,本文首先使用專(zhuān)家規(guī)則識(shí)別了大量項(xiàng)目作為訓(xùn)練和測(cè)試集,再采用邏輯回歸、多項(xiàng)式樸素貝葉斯、線(xiàn)性支持向量機(jī)、隨機(jī)森林等分類(lèi)算法,構(gòu)建最優(yōu)的標(biāo)簽識(shí)別分類(lèi)器,自動(dòng)識(shí)別項(xiàng)目標(biāo)簽。這些分類(lèi)算法本質(zhì)上都是尋找最佳分類(lèi)超平面,用差別對(duì)給定的一個(gè)數(shù)據(jù)進(jìn)行分類(lèi),都屬于監(jiān)督學(xué)習(xí)算法,需根據(jù)已知類(lèi)別學(xué)習(xí)分類(lèi)模式用來(lái)判斷新樣本所屬類(lèi)別。但它們也有區(qū)別,邏輯回歸是一個(gè)參數(shù)統(tǒng)計(jì)方法,樸素貝葉斯根據(jù)先驗(yàn)概率和后驗(yàn)概率判斷樣本屬于某個(gè)類(lèi)別的概率,SVM是一個(gè)幾何的非參數(shù)統(tǒng)計(jì)方法,通過(guò)少數(shù)點(diǎn)學(xué)習(xí)分類(lèi)器。隨機(jī)森林是包含多個(gè)決策樹(shù)的分類(lèi)器,用規(guī)則判斷所屬類(lèi)別。
2? 基于文本分類(lèi)的項(xiàng)目標(biāo)簽識(shí)別
2.1? 基于文本分類(lèi)技術(shù)識(shí)別投資項(xiàng)目標(biāo)簽的流程
使用文本分類(lèi)技術(shù)識(shí)別投資項(xiàng)目標(biāo)簽的具體流程如圖1所示,首先通過(guò)專(zhuān)家規(guī)則法,識(shí)別了二十多萬(wàn)個(gè)投資項(xiàng)目的標(biāo)簽類(lèi)別,以此作為樣本數(shù)據(jù)。將其中的三分之二項(xiàng)目作為訓(xùn)練集,三分之一項(xiàng)目作為測(cè)試集,讀取數(shù)據(jù),進(jìn)行分詞、文本清洗后,將文本信息轉(zhuǎn)換為向量空間模型并降維,再利用邏輯回歸、樸素貝葉斯、支持向量機(jī)等分類(lèi)算法構(gòu)建項(xiàng)目標(biāo)簽識(shí)別模型,并通過(guò)比較獲得了項(xiàng)目分類(lèi)效果最好的算法。通過(guò)保存模型,識(shí)別全部項(xiàng)目標(biāo)簽后,再人工判斷反饋,再次訓(xùn)練、測(cè)試,比較模型準(zhǔn)確度是否有提升,獲取分類(lèi)準(zhǔn)確度最高的模型,以此預(yù)測(cè)其他項(xiàng)目的標(biāo)簽類(lèi)別。
2.2? 項(xiàng)目標(biāo)簽分類(lèi)器的具體構(gòu)建過(guò)程
2.2.1? 抽取項(xiàng)目標(biāo)簽樣本
根據(jù)少量已知標(biāo)簽的項(xiàng)目信息,如項(xiàng)目名稱(chēng)、規(guī)模描述和建設(shè)單位名稱(chēng),統(tǒng)計(jì)分析各類(lèi)型項(xiàng)目的高頻關(guān)鍵詞,根據(jù)高頻關(guān)鍵詞、組合詞和負(fù)面詞等構(gòu)建專(zhuān)家規(guī)則判斷全部非個(gè)人投資項(xiàng)目的標(biāo)簽類(lèi)別,再經(jīng)人工甄別,共獲得了216 826個(gè)樣本,其中2 241個(gè)產(chǎn)業(yè)工程項(xiàng)目,34 925個(gè)房地產(chǎn)項(xiàng)目,70 169個(gè)工業(yè)投資項(xiàng)目,24 292個(gè)公共服務(wù)項(xiàng)目,85 199個(gè)基礎(chǔ)設(shè)施項(xiàng)目,雖然項(xiàng)目類(lèi)別分布不均衡,但適用于各類(lèi)文本分類(lèi)算法。將其中三分之二的項(xiàng)目數(shù)據(jù)作為訓(xùn)練集,三分之一作為測(cè)試集,采用不同分類(lèi)算法構(gòu)建項(xiàng)目標(biāo)簽識(shí)別模型,最后通過(guò)交叉統(tǒng)計(jì)驗(yàn)證,使用準(zhǔn)確性最高的算法應(yīng)用于全部投資項(xiàng)目和新項(xiàng)目的標(biāo)簽識(shí)別。
2.2.2? 項(xiàng)目文本信息分詞和文本清洗
為簡(jiǎn)化項(xiàng)目標(biāo)簽的機(jī)器學(xué)習(xí)過(guò)程,本文只采用項(xiàng)目名稱(chēng)這單一信息識(shí)別項(xiàng)目標(biāo)簽。第一步,先去除停用詞,包括一些副詞、地理信息詞、形容詞及其一些連接詞。然后采用JIEBA分詞技術(shù),對(duì)清洗后的文本進(jìn)行分詞,提取項(xiàng)目的基本特征,構(gòu)建特征向量。如項(xiàng)目名稱(chēng)為“粵西天然氣主干管網(wǎng)茂名-陽(yáng)江干線(xiàn)項(xiàng)目”,通過(guò)分詞和文本清洗后只剩4個(gè)特征,為[天然氣'','主干','管網(wǎng)','干線(xiàn)',],最大程度提煉文本主干信息,降低向量維度,從而減少分類(lèi)計(jì)算難度,提升模型訓(xùn)練速度。
在對(duì)所有類(lèi)別的項(xiàng)目進(jìn)行分詞后統(tǒng)計(jì),發(fā)現(xiàn)各類(lèi)別之間的關(guān)鍵詞差異較大,組內(nèi)一些關(guān)鍵詞具有關(guān)聯(lián)性,如基礎(chǔ)設(shè)施項(xiàng)目主要為污水處理、道路修建,環(huán)節(jié)整治、改造和提升等關(guān)鍵詞。工業(yè)投資主要為技術(shù)改造、生產(chǎn)線(xiàn)、年產(chǎn)、光伏、生產(chǎn)等關(guān)鍵詞。房地產(chǎn)主要為花園、社區(qū)、裝修、地塊等關(guān)鍵詞、公共服務(wù)主要為校區(qū)、學(xué)校、醫(yī)院、中心等關(guān)鍵詞,產(chǎn)業(yè)工程項(xiàng)目主要為現(xiàn)代農(nóng)業(yè)、智慧、產(chǎn)業(yè)園等關(guān)鍵詞。各類(lèi)型項(xiàng)目文本特征較明顯,相關(guān)關(guān)鍵詞可組合使用,提升識(shí)別概率,從項(xiàng)目名稱(chēng)著手,能較好地建立分類(lèi)算法識(shí)別項(xiàng)目類(lèi)別。
2.2.3? 構(gòu)建文本向量空間模型并降維
對(duì)項(xiàng)目文本提取特征值后,如果將所有特征都放進(jìn)分類(lèi)器用于判別文本類(lèi)別,由于維度過(guò)高,過(guò)于稀疏,模型的效果并不佳。特別是在分類(lèi)速度上,由于經(jīng)過(guò)多個(gè)特征值的組合,特征空間將無(wú)限擴(kuò)大,模型需要學(xué)習(xí)的參數(shù)數(shù)量也增加,導(dǎo)致耗時(shí)過(guò)多。本文采用卡方檢驗(yàn)提取特征,卡方檢驗(yàn)的目的是計(jì)算每個(gè)特征對(duì)分類(lèi)結(jié)果的相關(guān)性,相關(guān)性越大則越有助于分類(lèi)器進(jìn)行分類(lèi),否則就可以將其作為無(wú)用特征拋棄。
經(jīng)過(guò)對(duì)21.7萬(wàn)樣本數(shù)據(jù)進(jìn)行分詞后,通過(guò)卡方檢驗(yàn)共獲取了53.6萬(wàn)個(gè)特征,并用卡方檢驗(yàn)找出了每個(gè)分類(lèi)中關(guān)聯(lián)度最大的兩個(gè)詞語(yǔ)和兩個(gè)詞語(yǔ)對(duì)。如:與“基礎(chǔ)設(shè)施”關(guān)聯(lián)度最大的2個(gè)詞語(yǔ)為整治和道路,最有關(guān)的2個(gè)關(guān)聯(lián)詞語(yǔ)對(duì)為[綜合、整治]、[污水、處理廠(chǎng)]。與“工業(yè)投資”關(guān)聯(lián)度最大的2個(gè)詞語(yǔ)為生產(chǎn)線(xiàn)、技術(shù)改造,最有關(guān)的2個(gè)關(guān)聯(lián)詞語(yǔ)對(duì)為[光伏、發(fā)電]、[分布式、光伏]。與“房地產(chǎn)”關(guān)聯(lián)度最大的2個(gè)詞語(yǔ)為商業(yè)樓、花園,最有關(guān)的2個(gè)關(guān)聯(lián)詞語(yǔ)對(duì)為[老舊、小區(qū)]、[小區(qū)、改造]。與“公共服務(wù)”關(guān)聯(lián)度最大的2個(gè)詞語(yǔ)為醫(yī)院、中學(xué),最有關(guān)的2個(gè)關(guān)聯(lián)詞語(yǔ)對(duì)為[學(xué)生、宿舍樓]、[人民、醫(yī)院]。 與“產(chǎn)業(yè)工程”關(guān)聯(lián)度最大的2個(gè)詞語(yǔ)為智慧、產(chǎn)業(yè)園,最有關(guān)的2個(gè)關(guān)聯(lián)詞語(yǔ)對(duì)為[冷鏈、物流園]、[現(xiàn)代農(nóng)業(yè)、產(chǎn)業(yè)園]。
找出特征后,為了方便統(tǒng)計(jì)計(jì)算各類(lèi)別之間的距離,需要將文本信息轉(zhuǎn)換為詞向量空間模型表示的數(shù)字格式,早期的詞袋模型,將所有文本的所有詞表示為向量維度,詞越多,維度越大,向量模型為每個(gè)文檔詞的頻率。且詞袋模型不考慮詞的語(yǔ)義和語(yǔ)序,會(huì)損失一些語(yǔ)義上的特征信息。為了克服詞袋模型無(wú)法表示文本語(yǔ)義的缺陷和維度災(zāi)難,文本采用Word2Ve模型,將文本信息轉(zhuǎn)化為向量空間模型。該模型采用單層神經(jīng)網(wǎng)絡(luò)將高維度的向量轉(zhuǎn)換成低維度的詞向量,將每個(gè)詞轉(zhuǎn)化為詞向量,能夠較好地考慮上下文語(yǔ)義信息,同時(shí)可以避免維度“災(zāi)難”問(wèn)題。
2.2.4? 構(gòu)建多類(lèi)別標(biāo)簽識(shí)別算法
將各類(lèi)投資項(xiàng)目的項(xiàng)目名稱(chēng)轉(zhuǎn)換為詞向量空間模型后,分別使用邏輯回歸、多項(xiàng)式樸素貝葉斯、線(xiàn)性支持向量機(jī)、隨機(jī)森林4個(gè)分類(lèi)算法構(gòu)建項(xiàng)目多類(lèi)別標(biāo)簽識(shí)別模型,經(jīng)測(cè)算后,線(xiàn)性支持向量機(jī)的分類(lèi)算法模型準(zhǔn)確度最高為74.7%,其次為邏輯回歸73.7%,多項(xiàng)式樸素貝葉斯為69.3%,隨機(jī)森林的準(zhǔn)確率最低為39.3%。最終采用線(xiàn)性支持向量機(jī)模型對(duì)預(yù)先抽取的三分之一樣本進(jìn)行測(cè)試,模型準(zhǔn)確度為82.9%,分類(lèi)效果良好,特別是工業(yè)投資、公共服務(wù)和基礎(chǔ)設(shè)施標(biāo)簽的分類(lèi)準(zhǔn)確度,達(dá)85%左右,實(shí)際項(xiàng)目數(shù)和預(yù)測(cè)項(xiàng)目數(shù)如表1所示,支持向量機(jī)模型的預(yù)測(cè)準(zhǔn)確性如表2所示。
2.3? 關(guān)于反饋學(xué)習(xí)后文本分類(lèi)效果分析
通過(guò)對(duì)最初的216 826個(gè)樣本進(jìn)行人工反饋,剔除了8個(gè)測(cè)試項(xiàng)目,最后只剩下216 818個(gè)樣本。并規(guī)范了標(biāo)簽分類(lèi)的定義,如燃?xì)夤堋⒐┧艿匿佋O(shè)屬于基礎(chǔ)設(shè)施項(xiàng)目,燃?xì)獍l(fā)電、水生產(chǎn)屬于工業(yè)投資,消防、公園、衛(wèi)生站的建設(shè)屬于公共服務(wù),舊村改造、加裝電梯、新建樓盤(pán)屬于房地產(chǎn)等,結(jié)合規(guī)則和機(jī)器學(xué)習(xí)判別的項(xiàng)目標(biāo)簽,共反饋修正了4萬(wàn)個(gè)項(xiàng)目的原始標(biāo)簽,產(chǎn)業(yè)工程項(xiàng)目由之前的2 241個(gè),反饋后為2 181個(gè);房地產(chǎn)項(xiàng)目由之前的34 925個(gè),反饋后為21 191個(gè);工業(yè)投資項(xiàng)目由之前的70 169個(gè),反饋后為65 270個(gè);公共服務(wù)項(xiàng)目由之前的24 292個(gè),反饋后為35 132個(gè);基礎(chǔ)設(shè)施項(xiàng)目由之前的85 199個(gè),反饋后為93 044個(gè)。
使用邏輯回歸、多項(xiàng)式樸素貝葉斯、線(xiàn)性支持向量機(jī)、隨機(jī)森林4個(gè)分類(lèi)算法重新構(gòu)建項(xiàng)目多類(lèi)別標(biāo)簽識(shí)別模型后,模型的準(zhǔn)確度變化如表3所示。
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),反饋學(xué)習(xí)有效提高了文本分類(lèi)的準(zhǔn)確性,通過(guò)對(duì)少量項(xiàng)目的標(biāo)簽反饋和修正,模型的分類(lèi)性能顯著提升,線(xiàn)性支持向量機(jī)的分類(lèi)算法由74.7%提升至88%,提升了13.3%。將模型訓(xùn)練的分類(lèi)規(guī)則應(yīng)用至測(cè)試樣本,支持向量機(jī)在樣本反饋后的表現(xiàn)如表4所示。
經(jīng)反饋學(xué)習(xí)后,再使用線(xiàn)性支持向量機(jī)分類(lèi)算法判別項(xiàng)目標(biāo)簽,各類(lèi)別的準(zhǔn)確率都有顯著提升,特別是房地產(chǎn),標(biāo)簽識(shí)別準(zhǔn)確度由77%提升到87%,基礎(chǔ)設(shè)施、工業(yè)投資和公共服務(wù)的識(shí)別準(zhǔn)確度,目前已提高至90%以上。由于產(chǎn)業(yè)工程的項(xiàng)目數(shù)量較少,易被判別到其他標(biāo)簽,識(shí)別難度較大,準(zhǔn)確率由65%僅提升至67%。后續(xù)過(guò)程中將進(jìn)行有效反饋,持續(xù)提升標(biāo)簽識(shí)別準(zhǔn)確度。
3? 結(jié)? 論
綜上所述,本文基于文本分類(lèi)技術(shù)研究了固定資產(chǎn)投資項(xiàng)目的分類(lèi),以多個(gè)標(biāo)簽分類(lèi)為例分析了固定資產(chǎn)投資項(xiàng)目分類(lèi)模型的實(shí)際效果,結(jié)果表明,利用數(shù)據(jù)分析技術(shù)、分詞分析法等進(jìn)行投訴工單文本挖掘,突破了既有分類(lèi)模糊不清的限制。
經(jīng)測(cè)算,投資項(xiàng)目的文本信息使用線(xiàn)性支持向量機(jī)算法進(jìn)行標(biāo)簽分類(lèi)效果最佳,目前測(cè)試樣本總體識(shí)別準(zhǔn)確率達(dá)90%以上。
本次在人工反饋的基礎(chǔ)上,模型準(zhǔn)確度由74.7%提升至88%,在后續(xù)工作應(yīng)用中,將繼續(xù)把人工反饋的信息增加至樣本集中,以修正學(xué)習(xí)源,訓(xùn)練出更加準(zhǔn)確的規(guī)則,提高模型準(zhǔn)確度,經(jīng)過(guò)不斷反饋學(xué)習(xí),實(shí)現(xiàn)分類(lèi)的最大提升。
在實(shí)現(xiàn)項(xiàng)目大類(lèi)標(biāo)簽的識(shí)別后,將再次對(duì)各類(lèi)標(biāo)簽進(jìn)行細(xì)分,劃分為各領(lǐng)域各類(lèi)型的二級(jí)標(biāo)簽,同樣適用機(jī)器學(xué)習(xí)的訓(xùn)練模式不斷識(shí)別、反饋、提升,快速識(shí)別各類(lèi)二級(jí)標(biāo)簽,為研究項(xiàng)目的細(xì)分領(lǐng)域提供分析維度。
參考文獻(xiàn):
[1] 蘇金樹(shù),張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展 [J].軟件學(xué)報(bào),2006(9):1848-1859.
[2] 楊麗華,戴齊,楊占華.文本分類(lèi)技術(shù)研究 [J].微計(jì)算機(jī)信息,2006(15):209-211.
[3] 汪家成,薛濤.基于FastText和關(guān)鍵句提取的中文長(zhǎng)文本分類(lèi) [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(8):213-218.
[4] 于游,付鈺,吳曉平.中文文本分類(lèi)方法綜述 [J].網(wǎng)絡(luò)與信息安全學(xué)報(bào),2019,5(5):1-8.
[5] 馬思丹,劉東蘇.基于加權(quán)Word2vec的文本分類(lèi)方法研究 [J].情報(bào)科學(xué),2019,37(11):38-42.
[6] 孫桂煌.基于大數(shù)據(jù)技術(shù)的中文多標(biāo)簽文本分類(lèi)方法研究 [J].齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,36(6):39-43.
[7] 高明霞,李經(jīng)緯.基于word2vec詞模型的中文短文本分類(lèi)方法 [J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2019,49(2):34-41.
[8] 方秋蓮,王培錦,隋陽(yáng),等.樸素Bayes分類(lèi)器文本特征向量的參數(shù)優(yōu)化 [J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2019,57(6):1479-1484.
[9] 潘忠英.樸素貝葉斯中文文本分類(lèi)器的設(shè)計(jì)與實(shí)現(xiàn) [J].電腦編程技巧與維護(hù),2021(2):37-39+70.
[10] 劉碩,王庚潤(rùn),李英樂(lè),等.中文短文本分類(lèi)技術(shù)研究綜述 [J].信息工程大學(xué)學(xué)報(bào),2021,22(3):304-312.
[11] 栗征征.中文文本分類(lèi)概述 [J].電腦知識(shí)與技術(shù),2021,17(1):229-230.
[12] 孫晉文,肖建國(guó).基于SVM的中文文本分類(lèi)反饋學(xué)習(xí)技術(shù)的研究 [J].控制與決策,2004(8):927-930.
作者簡(jiǎn)介:謝波(1983—),男,漢族,湖南常德人,投資項(xiàng)目部部長(zhǎng),高級(jí)工程師,碩士,主要研究方向:電子政務(wù)建設(shè)、信用體系建設(shè)、投資項(xiàng)目管理;何鳳(1988—),女,漢族,湖南汨羅人,信息系統(tǒng)項(xiàng)目管理師,高級(jí)工程師,碩士,研究方向:信息系統(tǒng)項(xiàng)目管理、數(shù)據(jù)分析和挖掘、數(shù)據(jù)治理、數(shù)據(jù)可視化。