康曉珍 郭陽
河南中煙黃金葉生產(chǎn)制造中心 河南鄭州 450000
[提 要]隨著信息技術(shù)在企業(yè)生產(chǎn)、經(jīng)營、管理等環(huán)節(jié)的滲透不斷加深,“數(shù)據(jù)”資源在企業(yè)中的地位愈加重要。各信息系統(tǒng)中除結(jié)構(gòu)化數(shù)據(jù)之外還積累了大量非結(jié)構(gòu)化的文本數(shù)據(jù)。充分利用文本挖掘技術(shù),可對信息化系統(tǒng)中文本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)歸集,建立生產(chǎn)過程問題改進(jìn)經(jīng)驗(yàn)的知識(shí)分類與典型問題改進(jìn)知識(shí)庫,實(shí)現(xiàn)知識(shí)的傳承。并針對問題描述分析,智能推薦類似問題的解決方法,使知識(shí)服務(wù)于生產(chǎn)過程控制本身,提升企業(yè)的核心競爭力。
隨著信息技術(shù)在企業(yè)生產(chǎn)、經(jīng)營、管理等環(huán)節(jié)的滲透不斷加深,“數(shù)據(jù)”資源在企業(yè)中的地位愈加重要。各信息系統(tǒng)中除結(jié)構(gòu)化數(shù)據(jù)之外還積累了大量非結(jié)構(gòu)化的文本數(shù)據(jù),這些文本數(shù)據(jù)中蘊(yùn)含著豐富的信息。目前,xx廠的信息化系統(tǒng)存在大量文本數(shù)據(jù),僅僅依靠數(shù)據(jù)庫的查詢檢索機(jī)制和統(tǒng)計(jì)學(xué)方法很難有效利用這些信息,迫切需要一種成熟、有效、可推廣的文本數(shù)據(jù)統(tǒng)計(jì)歸集解決方案,從而使經(jīng)驗(yàn)知識(shí)化,為企業(yè)生產(chǎn)、經(jīng)營、管理提供有效支撐[1]。
立足xx廠信息化系統(tǒng)文本數(shù)據(jù)現(xiàn)狀,其自主設(shè)計(jì)開發(fā)的大數(shù)據(jù)分析應(yīng)用平臺(tái)中問題改進(jìn)管理模塊具有較高的代表性。從系統(tǒng)上線運(yùn)行以來,已積累2萬多條問題改進(jìn)任務(wù)單,異常問題處理信息涵蓋“生產(chǎn)、質(zhì)量、效率、設(shè)備、消耗”等類別,問題改善經(jīng)驗(yàn)以文本信息存儲(chǔ)于信息系統(tǒng),未能得到有效歸集和知識(shí)再利用。
目前文本信息采集主要依靠人工錄入方式。這種方式存在三點(diǎn)主要缺陷:其一,錄入過程存在較強(qiáng)的主觀性和隨意性,不利于進(jìn)一步的提取轉(zhuǎn)化;其二,受錄入人員參與積極性制約,所得信息的完整度不足;其三,相同信息的多次錄入會(huì)造成大量的重復(fù)性工作和時(shí)間浪費(fèi)。
另外,在生產(chǎn)實(shí)際過程中,當(dāng)異常問題重復(fù)發(fā)生時(shí),維修工、操作工主要利用自身經(jīng)驗(yàn)來解決,如有一種智能推薦技術(shù),及時(shí)快速提供有效的問題改進(jìn)建議及指導(dǎo)方案,將會(huì)大大提高處理異常問題的效率和準(zhǔn)確性。
利用文本挖掘技術(shù),對知識(shí)統(tǒng)計(jì)歸集模式進(jìn)行研究,可對信息化系統(tǒng)中文本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)歸集,形成系統(tǒng)化的共性知識(shí)。以xx廠較具代表性的大數(shù)據(jù)分析應(yīng)用平臺(tái)問題改進(jìn)管理模塊作為研究的切入點(diǎn),利用智能化的文本挖掘技術(shù),將問題改進(jìn)經(jīng)驗(yàn)進(jìn)行歸集、統(tǒng)計(jì),挖掘異常問題產(chǎn)生的根本原因和處理方法,形成共性的知識(shí)庫,并在人工處理異常問題時(shí),智能推薦問題解決措施,利用全員智慧發(fā)現(xiàn)解決問題,實(shí)現(xiàn)知識(shí)從實(shí)踐中來到實(shí)踐中去的學(xué)習(xí)性循環(huán)[2]。
采用文本聚類、文本分類、文本摘要等技術(shù),將問題改進(jìn)經(jīng)驗(yàn)進(jìn)行歸集、統(tǒng)計(jì),挖掘異常問題產(chǎn)生的根本原因和處理方法,通過識(shí)別文本信息中的關(guān)鍵字,建立準(zhǔn)確、科學(xué)的分類體系,實(shí)現(xiàn)問題改進(jìn)經(jīng)驗(yàn)的知識(shí)轉(zhuǎn)化與歸集,形成共性的知識(shí)庫。
(1)文本預(yù)處理。將提取出的問題改進(jìn)歷史記錄進(jìn)行清洗,對主要字段進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化,并糾正其中可能存在的錯(cuò)誤,保證用于文本挖掘的數(shù)據(jù)源質(zhì)量。
(2)文本聚類。針對問題改進(jìn)處理過程的主要字段,根據(jù)需要進(jìn)行文本聚類??筛鶕?jù)該字段每條文本的相似度,智能對問題原因進(jìn)行聚類,自動(dòng)將問題原因劃分類別,并對每個(gè)類別提取出關(guān)鍵詞與摘要,計(jì)算每個(gè)類別出現(xiàn)的概率、重要性等指標(biāo)。
(3)文本分類。文本分類的算法實(shí)現(xiàn)分為文本向量化、統(tǒng)計(jì)加權(quán)、分類模型等步驟,根據(jù)文本聚類智能生成的典型類別進(jìn)行優(yōu)化調(diào)整,建立準(zhǔn)確、科學(xué)的分類體系,并在系統(tǒng)運(yùn)行過程中在線學(xué)習(xí)、更新。
(4)智能摘要。從問題處理措施的內(nèi)容中提取出能夠包含其主要內(nèi)容的關(guān)鍵詞,根據(jù)專家經(jīng)驗(yàn),建立摘要詞典?;谒鶆?chuàng)建的摘要詞典,采用詞頻統(tǒng)計(jì)等方法,搜索全體條目。針對每個(gè)條目,按照關(guān)鍵詞與關(guān)鍵詞出現(xiàn)的順序,建立摘要,用于進(jìn)行智能化的分析與報(bào)表。
利用文本挖掘技術(shù)建立知識(shí)庫,對文本數(shù)據(jù)統(tǒng)計(jì)歸集后在信息系統(tǒng)中實(shí)現(xiàn)循環(huán)應(yīng)用。在問題處理人員填寫問題改進(jìn)任務(wù)單時(shí),根據(jù)問題標(biāo)題或用戶輸入的模糊關(guān)鍵詞,智能推薦相關(guān)的處理措施,自動(dòng)完成表單填寫;在數(shù)據(jù)庫中無匹配的問題時(shí),將分析新填寫的問題處理措施,更新知識(shí)數(shù)據(jù)庫,為后來類似問題提供處理措施參考。并形成關(guān)于問題處理措施、原因分析、經(jīng)驗(yàn)總結(jié)的智能報(bào)表[3]。
(1)建立知識(shí)數(shù)據(jù)庫。數(shù)據(jù)庫中的關(guān)鍵字段,例如問題類型、問題原因等是使用者極為關(guān)注的信息,對關(guān)鍵字段信息建立索引有助于快速訪問這些信息,可以為搜索、推薦等功能提供更高效的訪問。
(2)模糊搜索、智能推薦與自動(dòng)完成。當(dāng)知識(shí)數(shù)據(jù)庫建立之后,可采用基于歷史行為、基于模型、基于關(guān)聯(lián)規(guī)則等智能推薦算法,在問題處理人員填寫問題改進(jìn)任務(wù)單時(shí),根據(jù)問題標(biāo)題或用戶輸入的模糊關(guān)鍵詞,智能推薦相關(guān)的處理措施,自動(dòng)完成表單填寫;在數(shù)據(jù)庫中無匹配的問題時(shí),將分析新填寫的問題處理措施,更新知識(shí)數(shù)據(jù)庫,為后來類似問題提供處理措施參考。
(3)智能報(bào)表實(shí)現(xiàn)知識(shí)交互。將部分描述性表達(dá)通過文本挖掘提取出關(guān)鍵信息,例如某問題的改進(jìn)處理措施的類別、出現(xiàn)的頻率、占比排序等,使之轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),并歸納成不同類型的問題記錄。形成關(guān)于問題處理措施、原因分析、經(jīng)驗(yàn)總結(jié)的報(bào)表。
采用文本挖掘技術(shù),可充分挖掘長期沉淀于信息化系統(tǒng)中的文本數(shù)據(jù)信息,從中提取出有價(jià)值的知識(shí),并利用智能推薦技術(shù),可自動(dòng)給出指導(dǎo)異常問題處理的建議方法,提高文本信息錄入的人工智能程度,同時(shí)進(jìn)一步提高異常問題的處理效率和準(zhǔn)確性。以信息化方式實(shí)現(xiàn)知識(shí)的共享與傳承,從而使知識(shí)歸集并服務(wù)于企業(yè)運(yùn)營、生產(chǎn)過程控制本身,提升企業(yè)的核心競爭力。