• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向非均衡文本信息的企業(yè)生產(chǎn)安全氛圍智能感知模型

      2022-05-30 06:01:24謝漢青邱少輝王寓霖段在鵬
      安全與環(huán)境工程 2022年3期
      關(guān)鍵詞:分類文本生產(chǎn)

      謝漢青,邱少輝,王寓霖*,張 燦,李 帆,段在鵬

      (1.中鋁東南材料院(福建)科技有限公司,福建 福州 350015;2.中鋁瑞閩股份有限公司,福建 福州 350015;3.福州大學(xué)環(huán)境與安全工程學(xué)院,福建 福州 350108)

      良好的企業(yè)生產(chǎn)安全管理是企業(yè)正常安全生產(chǎn)的重要保障,企業(yè)安全生產(chǎn)管理相關(guān)研究常集中于事故致因理論[1]、事故防控模式[2]、事故分析模型[3]等領(lǐng)域。近年企業(yè)安全生產(chǎn)管理研究尤其注重人因管理[4],其相關(guān)研究開始集中于安全文化[5]、安全氛圍[6]、安全行為[7-8]等領(lǐng)域,其中安全氛圍以其涵蓋范圍廣、形式新穎等特點成為企業(yè)安全生產(chǎn)管理研究的熱點。1980年,Zohar[9]首次用安全氛圍表示安全文化,可見安全氛圍和安全文化在某種程度上是相似的,都反映了班組和企業(yè)的一種潛在的文化狀態(tài);同年,Zohar提出了安全氛圍的定義,稱其為“組織內(nèi)員工共享的對于具有風(fēng)險的工作環(huán)境的認(rèn)知”[10]。之后,國內(nèi)外學(xué)者對安全氛圍的定義也都與此類似,如Alistair等[11]提出安全氛圍包括員工對安全問題的態(tài)度,對員工參與處理安全問題的評價等因素;張江石等[12]提出組織和群體對安全問題的認(rèn)識構(gòu)成了安全氛圍,并進(jìn)一步建立了72個安全氛圍的指標(biāo)要素和構(gòu)成模型;施妃霞等[13]研究了機(jī)場安全氛圍與機(jī)場員工安全行為之間的關(guān)系;Zohar[14]在其研究中指出,在安全氛圍較差的企業(yè)或組織中,員工更容易出現(xiàn)違章操作等不安全行為;Probst等[15]研究指出,安全氛圍對工作場所中存在的安全風(fēng)險具有預(yù)測性,營造良好的安全氛圍能夠降低生產(chǎn)事故的發(fā)生,從而提高企業(yè)安全業(yè)績;邱東陽等[16]利用文獻(xiàn)計量法梳理了安全氛圍領(lǐng)域總體發(fā)展現(xiàn)狀及研究熱點;Le等[17]研究了工會會員與美國成年工人對安全氛圍看法之間的關(guān)聯(lián)。

      縱觀國內(nèi)外對安全氛圍的研究發(fā)現(xiàn),其研究方法大部分是基于人工統(tǒng)計調(diào)查,采用人工處理大量文本信息,具有主觀性較強(qiáng)、容易漏查某些關(guān)鍵信息等缺陷,并且傳統(tǒng)有關(guān)安全氛圍的研究停留在簡單的定性判斷,僅有少量的定量數(shù)據(jù)分析,缺少實際的應(yīng)用價值。隨著科技的飛速發(fā)展,傳統(tǒng)的分析方法現(xiàn)今已不能滿足安全氛圍領(lǐng)域的統(tǒng)籌研究。

      智能化文本挖掘是由計算機(jī)自動提取文本特征,依據(jù)一定的算法,將文本按內(nèi)容或?qū)傩詺w到一個或多個類別的過程[18]。文本分類技術(shù)能夠充分挖掘文本知識,其中很重要的一個步驟就是分類模型的選擇和構(gòu)建。目前已有許多機(jī)器學(xué)習(xí)方法被應(yīng)用到文本分類中,主要有SVM[19-20]、DT[21]、KNN[22-23]、Adaboost[24-25]等方法,如樊興華等[26]利用樸素貝葉斯提出了一種新的高效的文本分類技術(shù)。文本分類的應(yīng)用研究也十分廣泛,如劉昭等[27]提出了一種基于社交網(wǎng)絡(luò)數(shù)據(jù)的交通突發(fā)事件識別方法;薛楠楠等[28]利用文本挖掘方法研究了建筑工人的不安全行為,驗證了文本挖掘和因素分級結(jié)果的實用性和合理性;葛繼科等[29]針對火災(zāi)文本中各類別分布不均衡的特點,提出了一種基于改進(jìn)樸素貝葉斯的文本分類算法,用于對其進(jìn)行相對準(zhǔn)確的分類。但是,目前對于企業(yè)生產(chǎn)安全氛圍文本信息分類的應(yīng)用研究較少,且?guī)缀跷匆娭悄芨兄P驮谄髽I(yè)安全氛圍研究方面的應(yīng)用。然而大量研究表明,安全氛圍對改進(jìn)企業(yè)員工的不安全行為有積極的作用,而智能化方法能夠充分利用企業(yè)安全生產(chǎn)過程中產(chǎn)生的安全檢查數(shù)據(jù)來對企業(yè)生產(chǎn)安全氛圍的文本信息進(jìn)行挖掘,因此智能化挖掘企業(yè)生產(chǎn)安全氛圍文本信息,全面開展企業(yè)生產(chǎn)安全決策十分必要。

      海因里希法則說明了在機(jī)械事故中,死亡或重傷、輕傷或故障以及無傷害事故數(shù)量的比例接近1∶29∶300。對于不同的生產(chǎn)過程,不同類型的事故,上述比例關(guān)系不一定完全相同,但這個統(tǒng)計規(guī)律說明了在進(jìn)行同一項生產(chǎn)活動時,無數(shù)次意外事件必然會導(dǎo)致重大傷亡事故的發(fā)生。而在實際的企業(yè)安全生產(chǎn)活動中,事故程度明顯存在不平衡現(xiàn)象,相應(yīng)產(chǎn)生的安全檢查數(shù)據(jù)也為非均衡的樣本數(shù)據(jù)。在智能感知模型的研究中,不均衡的樣本數(shù)據(jù)會使學(xué)習(xí)模型產(chǎn)生偏差,所占比例較大的類可能導(dǎo)致在模型訓(xùn)練中出現(xiàn)過擬合現(xiàn)象,智能感知模型訓(xùn)練需在均衡數(shù)據(jù)的基礎(chǔ)上開展。因此,需要利用類SMOET算法對非均衡的樣本數(shù)據(jù)進(jìn)行均衡化處理。為此,本文提出了一種面向非均衡文本信息的企業(yè)生產(chǎn)安全智能感知方法,該方法利用機(jī)器學(xué)習(xí)算法和自然語言處理技術(shù)充分挖掘企業(yè)生產(chǎn)安全氛圍文本信息。首先對原始文本數(shù)據(jù)進(jìn)行停用詞和分詞處理;然后構(gòu)建了“類SMOTE”算法生成少數(shù)類樣本,用于解決文本數(shù)據(jù)不均衡問題,并利用基于隱含狄利克雷分布(LDA)主題模型提取樣本主題;最后使用多種算法構(gòu)建文本分類器,實現(xiàn)了安全氛圍主題辨識和安全氛圍等級預(yù)測,進(jìn)而智能感知企業(yè)的生產(chǎn)安全現(xiàn)狀。

      1 企業(yè)生產(chǎn)安全氛圍文本信息預(yù)處理

      在收集歸納企業(yè)的生產(chǎn)安全氛圍文本信息時,由于企業(yè)文本數(shù)據(jù)量較大,采用文本分類技術(shù)對其進(jìn)行科學(xué)的組織和管理顯得尤為重要。在實證研究過程中,基于東南某有色金屬加工企業(yè)的安全管理信息系統(tǒng)(Safety Management Information System,SMIS),收集了2015—2019年該企業(yè)生產(chǎn)全過程共126 009條安全生產(chǎn)文本信息,依據(jù)文本信息對企業(yè)生產(chǎn)安全氛圍現(xiàn)狀進(jìn)行計分。本研究中原始文本數(shù)據(jù)與軟件的連接方式(數(shù)據(jù)輸入方式)為:首先基于企業(yè)SMIS系統(tǒng)導(dǎo)出數(shù)據(jù)表,并將表格轉(zhuǎn)為CSV格式;然后基于Python開源工具包pandas中的 read_csv()函數(shù)將原始文本數(shù)據(jù)輸入至編程軟件,輸入軟件的文本數(shù)據(jù)經(jīng)后續(xù)切分詞、停用詞清洗等處理后,進(jìn)行初步統(tǒng)計并輸入相關(guān)模型。企業(yè)原始文本數(shù)據(jù)包括員工、所在組織、隱患描述、計分、記錄時間等信息,在對企業(yè)生產(chǎn)安全氛圍文本信息進(jìn)行分析時,主要依據(jù)隱患描述和計分兩大項。其中,計分等級[30]是安全相關(guān)領(lǐng)域?qū)<液驮撈髽I(yè)安全管理人員結(jié)合該企業(yè)實際情況制定,并經(jīng)過多年管理實踐不斷修正得出的,代表的是對安全獎懲行為的不同劃分狀況,具有通用意義?;谥卣故酒髽I(yè)典型危險源或危險場所和優(yōu)先考慮出現(xiàn)頻率最高計分項兩方面,篩選出示例數(shù)據(jù)如表1所示。

      表1 企業(yè)生產(chǎn)安全氛圍文本相關(guān)信息

      表1中選取的為行車、鑄造機(jī)、污水站、磨床等企業(yè)典型危險源或危險場所的數(shù)據(jù);從“計分”項來看,表1中所列數(shù)據(jù)包含0.1、0.2、0.3三類計分項數(shù)據(jù)量占所有計分項(7項)數(shù)據(jù)量的94.8%。

      由于文本信息大部分沒有明確的記錄標(biāo)準(zhǔn),通過預(yù)處理可以去掉無用信息,降低模型噪音,因此對文本信息進(jìn)行預(yù)處理非常必要。該企業(yè)生產(chǎn)安全氛圍文本信息長度較短,同時夾雜著數(shù)字、字母以及符號、空格等不同格式信息,這要求在文本信息分析時需要對文本信息進(jìn)行預(yù)處理。企業(yè)生產(chǎn)安全氛圍文本信息預(yù)處理流程,如圖1所示。對收集到的文本信息進(jìn)行預(yù)處理包括:去除文本空格、去除文本中的符號、運用jieba分詞器(Python生態(tài)系統(tǒng)中的中文分詞庫類)對文本進(jìn)行分詞。查看分詞結(jié)果,如果對特定或者專業(yè)的詞匯處理效果不佳,可以利用jieba中的suggest_freq(動態(tài)修改詞頻)對其進(jìn)行定義劃分,重新調(diào)整和完善相關(guān)詞匯,接著去除停用詞,最后得到模型訓(xùn)練的文本信息。

      圖1 企業(yè)生產(chǎn)安全氛圍文本信息預(yù)處理流程圖

      導(dǎo)入文本數(shù)據(jù),經(jīng)過文本信息預(yù)處理后,統(tǒng)計得出分詞后的前10個分詞頻率的柱狀圖,見圖2。

      圖2 企業(yè)生產(chǎn)安全氛圍文本信息詞頻統(tǒng)計柱狀圖

      由圖2可知,該企業(yè)生產(chǎn)安全重要隱患主要是人員因素,如“鉗工”,因此該企業(yè)要注重人員管理,可以從加強(qiáng)人員的安全培訓(xùn)教育、規(guī)范人員的操作流程、制定完善的安全制度措施、做好安全防護(hù)工作等方面不斷完善;物的因素主要包括“行車”等,因此該企業(yè)要提高操作人員的專業(yè)素養(yǎng),注意行車安全,制定好專門的行車路線和行車通道,重點關(guān)注鉗工作業(yè)的生產(chǎn)安全。

      2 基于“類SMOTE”算法的企業(yè)生產(chǎn)安全氛圍非均衡文本處理

      現(xiàn)有文本大部分是非均衡樣本,即在分類問題中,不同類別的樣本數(shù)不相稱或數(shù)量級相差較大。非均衡樣本可能導(dǎo)致企業(yè)安全氛圍等級預(yù)測模型訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象。

      對收集到的該企業(yè)生產(chǎn)安全氛圍文本數(shù)據(jù)按分值和字段長度進(jìn)行分類數(shù)量統(tǒng)計,其統(tǒng)計結(jié)果見表2。

      表2 企業(yè)生產(chǎn)安全氛圍原始文本字段統(tǒng)計結(jié)果

      由表2可知:文本計分中95%都為正向得分,表明該企業(yè)生產(chǎn)安全氛圍狀況良好;另外也可發(fā)現(xiàn)文本計分類別主要集中在0.1、0.2、0.3三大類,計分類別為0.1的文本信息最多,達(dá)到46 414條,即該樣本為顯著的非均衡樣本,如果直接對該非均衡樣本進(jìn)行訓(xùn)練分析,則易產(chǎn)生過擬合現(xiàn)象,會降低少類樣本的靈敏性[31-32]。

      現(xiàn)有解決非均衡樣本的方法主要有合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE),SMOTE算法是隨機(jī)過采樣算法的一種改進(jìn)方案[32-33],其基本思想是對少數(shù)類樣本進(jìn)行分析,并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中。該算法主要用于不均衡數(shù)據(jù)的處理,其結(jié)果是產(chǎn)生了少數(shù)類中的部分?jǐn)?shù)據(jù),這個過程是在少數(shù)類全部樣本T中,找到樣本Xi的K個近鄰,然后在K個近鄰中隨機(jī)選擇一個樣本Xi(n)再生成一個0到1之間的隨機(jī)數(shù)δj,從而合成一個新樣本Xij:

      Xij=Xi+δj·[Xi(n)-Xi]

      (1)

      SMOTE算法的優(yōu)點在于其能夠有效消除樣本不均衡性,解決多數(shù)類樣本的存在對模型結(jié)果的影響;但該算法的樣本生成策略導(dǎo)致其只能處理“數(shù)值”型樣本,無法處理非均衡文本信息。非均衡文本信息根據(jù)SMOTE算法思想[34-35],可設(shè)計“類SMOTE”算法來消除文本數(shù)據(jù)中的不均衡性,該算法對于非均衡文本信息處理方式,其相關(guān)的思路具體如下:

      (2) 統(tǒng)計原始文本分詞長度分布比例,即將文本分詞長度人為劃分為40n(n是正整數(shù))比例,統(tǒng)計各類別中文本長度分詞比例R。

      (3) 對于每一個少數(shù)類文本,依據(jù)該類別中文本的分詞頻率即取詞概率N,選擇若干個樣本詞,構(gòu)建新的文本。將分類類別文本數(shù)據(jù)量最大記為P,少數(shù)類別中原始文本數(shù)量為S,新生成文本長度D=P-S,使得S+D總文本數(shù)量中各文本長度分詞比例仍為R。

      依據(jù)上述“類SMOTE”算法思路,對實例中的非均衡原始文本信息進(jìn)行處理,生成的新文本數(shù)據(jù)量統(tǒng)計結(jié)果,見表3。

      表3 企業(yè)生產(chǎn)安全氛圍文本信息數(shù)量對比

      由表3可知,新的總文本數(shù)量達(dá)324 213條,各計分類別的文本數(shù)據(jù)量基本實現(xiàn)平衡,有助于實現(xiàn)后續(xù)模型擬合。同時,該文本數(shù)據(jù)量的生成也為非均衡文本數(shù)據(jù)處理提供了新的思路。

      3 基于隱含狄利克雷分布的企業(yè)生產(chǎn)安全氛圍主題辨識

      在文本數(shù)據(jù)量較大的情況下,傳統(tǒng)人工處理方法難以對文本信息有一個整體的認(rèn)知。為了高效獲得文本主旨信息,快速找到每個分類文檔中的主題分布和每一個主題中詞的分布,本文利用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)方法對企業(yè)生產(chǎn)安全氛圍主題進(jìn)行辨識。LDA主題模型是一種無監(jiān)督學(xué)習(xí),通過將文檔中的詞進(jìn)行分頻統(tǒng)計,得出規(guī)定數(shù)量的主題,并能夠計算出每個主題、每個主題上詞的概率分布,其在文本識別、文檔分類等自然語言處理場景中常有應(yīng)用。在LDA主題模型中,首先指定一個主題數(shù)目K,之后所有的主題分布就都基于K個主題展開。具體基于LDA主題模型的文本信息分類統(tǒng)計圖,見圖3。

      圖3 基于LDA主題模型的文本信息分類統(tǒng)計圖

      基于LDA主題模型的文本信息主題識別具體步驟如下:

      (1) 按照概率P(di)選中一篇文檔di;

      (2) 從Dirichlet分布α中抽樣生成文檔di的主題分布θm;

      (3) 從主題分布θm中抽取文檔di第j個詞的主題Zm,n;

      (4) 從Dirichlet分布β中抽樣生成主題Zm,n對應(yīng)的詞分布φk;

      (5) 從詞分布φk中抽樣生成詞Wm,n.

      根據(jù)上述分成7類的安全文本利用LDA主題模型對其進(jìn)行主題分析,分詞統(tǒng)計結(jié)果見表4。

      表4 基于LDA主題模型的分詞統(tǒng)計結(jié)果

      為了找到文本各類別之間主題分布情況,利用LDA主題模型對各類別文本主題進(jìn)行分析,得到各分類文本主題內(nèi)容,見表5。

      表5 各分類文本主題內(nèi)容統(tǒng)計

      由表5可以看出:

      (1) 將文本主題進(jìn)行分類,負(fù)值-1和-0.5計分類別中“行車”所占比重最高,推測行車安全是該企業(yè)生產(chǎn)安全重點;違規(guī)操作也是企業(yè)安全隱患中的一環(huán);同時,分析發(fā)現(xiàn)在生產(chǎn)過程中可能存在由于手機(jī)的使用,導(dǎo)致安全隱患和事故發(fā)生,故在后續(xù)的安全管理過程中,需進(jìn)一步改進(jìn)。

      (2) 由正向計分類別分析得出,“發(fā)現(xiàn)”一詞權(quán)重較大,表明該企業(yè)對發(fā)現(xiàn)相關(guān)安全隱患事件存在相關(guān)的控制措施;同時,安全工作的重點在于人和機(jī)器狀態(tài)的管控。

      4 基于機(jī)器學(xué)習(xí)算法的企業(yè)生產(chǎn)安全氛圍智能感知模型

      以上著重對企業(yè)生產(chǎn)安全氛圍感知中的主題識別方面進(jìn)行了探究,下面將對企業(yè)生產(chǎn)安全氛圍感知中的安全氛圍等級預(yù)測進(jìn)行研究。本研究先將原始數(shù)據(jù)輸入至編譯軟件中后,利用“類SMOTE”方法生成少數(shù)類別的新文本信息,與原始文本信息一起隨機(jī)組合,一起作為總文本信息;然后對總文本信息進(jìn)行清洗后,使用LDA主題模型通過將單個詞作為輸入,將其傳遞給該詞獨有的單個線性隱藏層,并使用softmax激活層預(yù)測該詞上下文的其他詞,從而獲取該詞的分布式表示,也就是詞向量;最后將數(shù)據(jù)劃分為70%的訓(xùn)練集和30%的測試集,進(jìn)行建模和分析。

      不同的分類算法對不同數(shù)據(jù)的敏感程度不同,需要訓(xùn)練分類算法進(jìn)行擇優(yōu)。為了尋找最合適的分類預(yù)測器,對多種分類算法進(jìn)行了相關(guān)模擬,本文選用了多種回歸模型,既有基于線性模型、適用于線性數(shù)據(jù)的經(jīng)典分類器,也有基于圖論、不易過擬合、適用于低相關(guān)度數(shù)據(jù)的分類器,能夠兼顧絕大多數(shù)的數(shù)據(jù)類型;同時,選用的基于3種不同原理的集成模型能夠?qū)⒉煌膯畏诸惼鬟M(jìn)行綜合,可提高最終的預(yù)測精度,有利于找到適合該類樣本的分類預(yù)測模型。

      為了對模型預(yù)測效果進(jìn)行有效評估,利用不同分類算法模型訓(xùn)練得出各類別文本的F1-Score值分布圖和不同分類算法模型訓(xùn)練的總體預(yù)測精度圖,見圖4和圖5。

      圖4 不同分類算法模型訓(xùn)練的各類別文本F1-Score值分布圖

      圖5 不同分類算法模型訓(xùn)練的總體預(yù)測精度圖

      由圖4和圖5可知:F1-Score值分布圖顯示出投票法和貝葉斯模型對收集的文本數(shù)據(jù)訓(xùn)練效果的擬合度較好,總體預(yù)測精度達(dá)到了0.78,但是投票法模型訓(xùn)練得到的各類別文本F1-Score值分布總體表現(xiàn)更好,說明模型更加穩(wěn)定,但對訓(xùn)練得到0.1計分類別的分類效果欠佳,可利用處理后新生成的文本數(shù)據(jù),通過多種分類算法模型對獲得的數(shù)據(jù)集進(jìn)行模擬分類;單分類器K近鄰模型對文本數(shù)據(jù)模擬得到整體預(yù)測精度為0.31,模型的擬合效果精度不理想,整體的召回率也偏低,不適合對大量文本數(shù)據(jù)進(jìn)行擬合。

      總結(jié)上述文本信息處理和分析,得出面向非均衡文本信息的企業(yè)生產(chǎn)安全氛圍智能預(yù)測表,見表6。

      表6 面向非均衡文本信息的企業(yè)生產(chǎn)安全氛圍智能預(yù)測表

      由表6可知,面向非均衡文本信息的企業(yè)生產(chǎn)安全氛圍智能預(yù)測,經(jīng)過文本信息的分析和處理,通過輸入相關(guān)文本就可以智能預(yù)測輸出主題,并科學(xué)預(yù)測出相關(guān)文本的等級分類,有利于企業(yè)科學(xué)化安全分析及管理。

      5 結(jié) 論

      (1) 利用分詞統(tǒng)計所研究的有色金屬加工企業(yè)生產(chǎn)安全氛圍文本信息,結(jié)果發(fā)現(xiàn)該企業(yè)生產(chǎn)安全重要隱患主要是人員因素,對該企業(yè)而言,在收集到的企業(yè)生產(chǎn)安全文本數(shù)據(jù)中,機(jī)械安全如行車是生產(chǎn)安全需要重點關(guān)注的環(huán)節(jié),同時對于特種作業(yè)員工包括“鉗工”等需重點關(guān)注其作業(yè)的生產(chǎn)安全,規(guī)范相關(guān)操作流程,加強(qiáng)生產(chǎn)安全監(jiān)督及管理,落實生產(chǎn)安全責(zé)任制。

      (2) 借鑒SMOTE算法思想,提出“類SMOTE”算法用于解決非均衡文本信息問題。該方法利用文本分詞統(tǒng)計分詞頻率,以詞頻作為隨機(jī)概率值進(jìn)行取詞,按照原始文本分詞長度比例生成新的文本,并根據(jù)文本分類分詞結(jié)果中不平衡比例設(shè)置采樣比例。對于每一個少數(shù)類文本,利用該類別的分詞頻率,依據(jù)一定的采樣比例,可構(gòu)建新的文本。該方法的提出,為不均衡文本信息的處理提供了一種新的解決辦法,為文本采樣提供了新思路。

      (3) 通過LDA主題模型可對所研究的有色金屬加工企業(yè)生產(chǎn)安全氛圍主題進(jìn)行辨識。根據(jù)收集的文本信息資料顯示:正向計分類別劃分主題突顯的是及時發(fā)現(xiàn)安全隱患,重點是人的不安全行為,包括人員違規(guī)使用通訊設(shè)備手機(jī)、“鉗工”等因素;負(fù)向計分類別劃分主題突顯的是現(xiàn)場物的不安全狀態(tài),包括“叉車”“卷材”等。

      (4) 通過多種算法模型對新生成文本與原始文本構(gòu)成的組合文本數(shù)據(jù)集進(jìn)行訓(xùn)練,結(jié)果發(fā)現(xiàn)投票法模型的訓(xùn)練效果在該案例中表現(xiàn)最優(yōu),達(dá)到78%的預(yù)測精度,貝葉斯模型雖然預(yù)測精度與投票法模型一樣,但貝葉斯模型的魯棒性稍次于投票法模型;其次是堆疊法模型和邏輯回歸模型預(yù)測精度達(dá)到0.76。在后續(xù)的研究過程中可以進(jìn)一步探討文本分類模型差異的原理,有針對性地進(jìn)一步提高模型的擬合度。

      猜你喜歡
      分類文本生產(chǎn)
      分類算一算
      用舊的生產(chǎn)新的!
      “三夏”生產(chǎn) 如火如荼
      在808DA上文本顯示的改善
      分類討論求坐標(biāo)
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      數(shù)據(jù)分析中的分類討論
      S-76D在華首架機(jī)實現(xiàn)生產(chǎn)交付
      教你一招:數(shù)的分類
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      西宁市| 呼玛县| 竹溪县| 普安县| 津市市| 永靖县| 乌拉特后旗| 台江县| 类乌齐县| 聂荣县| 颍上县| 莒南县| 社旗县| 惠东县| 平昌县| 商都县| 吉木萨尔县| 栾城县| 米脂县| 高淳县| 搜索| 海南省| 惠东县| 股票| 南川市| 甘肃省| 通化市| 湾仔区| 榕江县| 天津市| 西昌市| 雅安市| 大英县| 神农架林区| 桦甸市| 青铜峡市| 襄樊市| 汶上县| 青岛市| 洪雅县| 阳谷县|