寧曉盼,莫柳珍,孫 瀟,高俊永,黃向陽,許廣球
(1.廣西大學(xué)輕工與食品工程學(xué)院,廣西 南寧 530004;2.廣州甘蔗研究所 廣東省甘蔗改良與生物煉制重點實驗室,廣東 廣州 510316)
數(shù)據(jù)分析法在制糖生產(chǎn)中的應(yīng)用
寧曉盼1,莫柳珍2,孫瀟2,高俊永2,黃向陽2,許廣球2
(1.廣西大學(xué)輕工與食品工程學(xué)院,廣西南寧530004;2.廣州甘蔗研究所廣東省甘蔗改良與生物煉制重點實驗室,廣東廣州510316)
制糖生產(chǎn)過程中每天產(chǎn)生的數(shù)據(jù)多且處理復(fù)雜,文章主要介紹了幾種常用的數(shù)據(jù)分析法在制糖生產(chǎn)中的應(yīng)用,包括:聚類分析法、控制圖法、灰色關(guān)聯(lián)法、回歸分析法。在現(xiàn)今的信息化、知識化、大數(shù)據(jù)時代,制糖生產(chǎn)過程的數(shù)據(jù)分析??蔀樯a(chǎn)者提供輔助決策,提高管理效率,更好地控制好生產(chǎn)成本,提高產(chǎn)品質(zhì)量等。
制糖生產(chǎn);聚類分析法;灰色關(guān)聯(lián)法;控制圖法;回歸分析法
隨著信息產(chǎn)業(yè)的快速發(fā)展,越來越多的應(yīng)用將會涉及到大數(shù)據(jù),而這些數(shù)據(jù)都呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,數(shù)據(jù)分析方法在大數(shù)據(jù)領(lǐng)域起到至關(guān)重要的作用。大數(shù)據(jù)已經(jīng)不再是簡簡單單的數(shù)據(jù)大的事實,最重要的是實現(xiàn)對大數(shù)據(jù)進(jìn)行分析,只有通過分析才能獲得更多潛在的、深入的、有價值的信息。大數(shù)據(jù)分析的理論核心是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中提取隱含在其中人們事先不知道,但又是潛在的、有用的信息和知識的過程[1]。大數(shù)據(jù)分析已涉及到醫(yī)藥、電力、化工、金融等行業(yè),然而制糖行業(yè)對生產(chǎn)數(shù)據(jù)的分析利用水平還明顯落后于其它行業(yè)。
制糖行業(yè)是我國傳統(tǒng)的農(nóng)副產(chǎn)品加工業(yè),糖廠每天產(chǎn)生成千上百個數(shù)據(jù),主要包括農(nóng)務(wù)砍運(yùn)甘蔗數(shù)據(jù)、生產(chǎn)過程數(shù)據(jù)、化驗報表數(shù)據(jù)等,這些數(shù)據(jù)相互交叉,密切關(guān)聯(lián),構(gòu)成了制糖生產(chǎn)大數(shù)據(jù)系統(tǒng)。制糖生產(chǎn)過程包括壓榨、澄清、蒸發(fā)、煮糖等工段,每一個工段都有嚴(yán)格的工藝要求。糖廠生產(chǎn)管理工作的關(guān)鍵之一是對各工段生產(chǎn)指標(biāo)數(shù)據(jù)進(jìn)行嚴(yán)格的控制,確保生產(chǎn)在良好的工藝條件下平穩(wěn)進(jìn)行。制糖過程產(chǎn)生大量數(shù)據(jù)背后隱藏著許多重要的信息,分析并找出數(shù)據(jù)與數(shù)據(jù)之間的潛在聯(lián)系,獲取對生產(chǎn)有效的信息,對提高生產(chǎn)管理效能、保證產(chǎn)品質(zhì)量、節(jié)能減排都有重要意義。
目前在甘蔗制糖企業(yè)生產(chǎn)管理過程中,應(yīng)用數(shù)據(jù)分析法對生產(chǎn)過程管理的研究較少,但數(shù)據(jù)分析對制糖生產(chǎn)管理具有重要意義。數(shù)據(jù)分析可分為描述性數(shù)據(jù)分析、預(yù)測性數(shù)據(jù)分析和驗證性數(shù)據(jù)分析,數(shù)據(jù)處理的一般過程有確定目的和思路、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)等步驟。數(shù)據(jù)分析的分類方法有很多,預(yù)測性數(shù)據(jù)分析和驗證性數(shù)據(jù)分析一般有關(guān)聯(lián)規(guī)則法、控制圖法、分類規(guī)則、聚類分析、回歸分析、偏差分析等。
2.1聚類分析法
聚類分析是依據(jù)樣本之間的特征差異,即通過度量研究對象的某種特殊屬性的相似程度,使同一類樣品中的相似度最大,不同樣品的相似度最?。?]。聚類分析的過程主要依賴于樣本之間的差異。常用的聚類分析方法主要有5大類,即基于劃分、基于層次、基于密度、基于網(wǎng)格和基于模型的聚類分析方法[3,4]。
聚類分析能夠挖掘客戶管理關(guān)系,制糖企業(yè)與蔗農(nóng)之間就存在著一定的客戶管理關(guān)系。廖燕玲[5]等以廣西為例采用模糊聚類技術(shù)對甘蔗種植戶信息進(jìn)行分析處理,集中提取甘蔗種植戶的信息,如種植的總面積、優(yōu)質(zhì)土地面積、畝產(chǎn)高于當(dāng)年總平均畝產(chǎn)的產(chǎn)率等,獲取隱藏著的具有重要價值的種植戶信息,以便于發(fā)現(xiàn)有價值的、較大潛力的種植戶。同時依據(jù)甘蔗品種在不同生長期糖分的積累不同,利用蔗糖分?jǐn)?shù)據(jù)的時序性和糖分積累曲線的特點,通過聚類分析選擇優(yōu)質(zhì)高產(chǎn)及高蔗糖分的甘蔗進(jìn)行壓榨。具體方法依據(jù)不同品種之間的糖分曲線不同,峰值糖不同;以及同一品種中不同種蔗單位之間的種植條件不同、管理方法不同使得早中晚期的糖分高低也不同;可通過聚類分析優(yōu)化收割蔗糖分高的甘蔗。
通過上述研究可以看出聚類分析法可以應(yīng)用于農(nóng)務(wù)管理,能夠?qū)崿F(xiàn)對不同種植行為特征的農(nóng)戶進(jìn)行分類,優(yōu)化收割次序,提高甘蔗糖分、產(chǎn)量和質(zhì)量,促進(jìn)糖業(yè)發(fā)展,提高經(jīng)濟(jì)效益。
2.2控制圖法
控制圖法是質(zhì)量管理常用的分析方法之一,是記錄過程質(zhì)量隨時間變化進(jìn)程的一種形式,它建立在數(shù)理統(tǒng)計學(xué)的基礎(chǔ)之上,利用有效數(shù)據(jù)建立控制界限,一般分為上控制界限和下控制界限[6]。若控制圖中的描點落在控制界限外或控制界限內(nèi)的排列不隨機(jī),則表示出現(xiàn)異常,若控制圖的描點在控制界限內(nèi)則表示正常??刂茍D在質(zhì)量診斷方面,可以用來度量過程的穩(wěn)定性;在質(zhì)量控制方面,可以用來確定何時對生產(chǎn)數(shù)據(jù)進(jìn)行調(diào)整;在質(zhì)量改進(jìn)方面,可以用來確認(rèn)過程是否得到改進(jìn)。
廖玉[7]等為判別澄清工序與蒸發(fā)工序中色值的問題,針對亞硫酸法甘蔗糖廠生產(chǎn)過程將控制圖中的“單值—移動極差控制圖”與“選控單值—選控移動極差控制圖”聯(lián)合運(yùn)用于澄清工序和蒸發(fā)工序。分別收集了30個批次澄清汁色值和粗糖漿色值原始數(shù)據(jù),制作控制圖,并針對每個批次異常原因進(jìn)行分析,判別相應(yīng)的崗位責(zé)任,并提出了各工段相對應(yīng)的解決措施。如其中一個批次澄清汁色值和粗糖漿色值均偏高,蒸發(fā)工序未出現(xiàn)異常警報而澄清工序出現(xiàn)異常警報;原因分析及采取的相應(yīng)措施:澄清汁色值偏高致粗糖漿色值也相應(yīng)偏高,由于蒸發(fā)工序正常,因此只需要解決澄清工序存在異常問題即可。這里如果不使用選控圖,就難以分清哪個工序造成影響。
通過應(yīng)用控制圖法進(jìn)行日常生產(chǎn)質(zhì)量管理是提高企業(yè)經(jīng)濟(jì)效益的重要手段??刂茍D法可以分清上下工序之間的責(zé)任,加強(qiáng)中間制品的質(zhì)量管理,便于針對性解決工序中存在的問題,提高產(chǎn)品質(zhì)量使過程控制趨于穩(wěn)定??刂茍D法有助于抓住生產(chǎn)主要矛盾,及時發(fā)現(xiàn)異常原因,快速解決問題,起到預(yù)防為主的作用,便于進(jìn)一步嚴(yán)格控制生產(chǎn)指標(biāo),使產(chǎn)品白砂糖的一級品率逐步提高。
2.3灰色關(guān)聯(lián)法
灰色關(guān)聯(lián)分析是通過對數(shù)據(jù)幾何關(guān)系和曲線幾何形狀的相似度進(jìn)行比較,來分析系統(tǒng)各因素之間的關(guān)聯(lián)程度[8]?;疑P(guān)聯(lián)分析是數(shù)據(jù)挖掘內(nèi)部規(guī)律的主要方法,灰色關(guān)聯(lián)系統(tǒng)適應(yīng)于部分信息明確,部分信息不明確的研究。在經(jīng)濟(jì)、管理等領(lǐng)域得到了廣泛的應(yīng)用。目前針對亞硫酸法糖廠生產(chǎn)過程,糖汁中二氧化硫的殘存機(jī)理并不十分明晰,白砂糖含硫量的影響因素多且內(nèi)在聯(lián)系變化不定,有的因素通過監(jiān)測可以掌握其影響程度,有的因素難以測量或未被人們所認(rèn)識。據(jù)研究決定白砂糖中二氧化硫殘留量的首要因素是生產(chǎn)過程中加入二氧化硫量[9]。
張思源[10]等以亞硫酸法糖廠的清汁pH、清糖漿pH、清汁的含硫量、清糖漿的含硫量等四個因素作為主要影響因子,基于生產(chǎn)查定數(shù)據(jù),運(yùn)用灰色系統(tǒng)關(guān)聯(lián)理論,分析它們對白砂糖二氧化硫含量的影響主次。通過數(shù)據(jù)分析得出對白砂糖二氧化硫殘留量的影響主次為:清汁含硫量、清汁pH值、清糖漿含硫量、清糖漿pH值。清汁SO2含量和清汁pH值是影響白砂糖質(zhì)量的重要指標(biāo),且是澄清工段全面的影響指標(biāo)。關(guān)聯(lián)結(jié)果與定性分析一致,結(jié)果可信?;疑碚撜J(rèn)為,盡管客觀系統(tǒng)表象復(fù)雜,數(shù)據(jù)雜亂,但它總是有整體功能的,因此必然蘊(yùn)含某種內(nèi)在規(guī)律。
灰色關(guān)聯(lián)分析是一種研究數(shù)據(jù)少、信息不確定性的有效方法。由于不考慮樣本序列的統(tǒng)計規(guī)律,對樣本容量沒有過高要求,應(yīng)用廣泛且定量與定性分析的結(jié)果一般能夠相吻合。
在甘蔗制糖廢蜜中所含主要成分為蔗糖、還原糖、有機(jī)非糖分、無機(jī)鹽灰分及水分等,而廢蜜糖分因其他成分含量的不同而有所增減,如還原糖逐漸下降,而非糖分量逐漸上升進(jìn)而影響廢蜜純度及產(chǎn)率。因此可通過灰色關(guān)聯(lián)法分析廢蜜中的成分與廢蜜糖度之間的數(shù)量關(guān)系,并采取適當(dāng)方法降低廢蜜糖分的損失率,提高產(chǎn)糖率。
2.4回歸分析法
回歸分析是一種基于統(tǒng)計相關(guān)量誤差分析的統(tǒng)計工具,是誤差方差最小化的最優(yōu)估計[11],是利用回歸顯著性置信度估計,獲取回歸曲線的置信區(qū)間,用點跡擬合回歸方程,得到相互關(guān)系的經(jīng)驗公式。
李東生[12]等通過大量的歷史資料和數(shù)據(jù)應(yīng)用回歸分析法,分析了東莞糖廠兩個榨季白糖灰份異常的因素,找出特定工藝條件下白糖灰分與原料蔗非糖分的相關(guān)關(guān)系,通過檢測數(shù)據(jù)整理計算。
得出方程y=0.0257+0.0218x,并作出相關(guān)檢驗。得出白糖灰分與原料蔗非糖分相關(guān),兩者相關(guān)關(guān)系在95%的顯著水平。
原料蔗非糖分和白糖灰分都是隨機(jī)變量,他們之間具有一定的相關(guān)關(guān)系,難以求得確定的函數(shù)式,但可用確定的回歸分析的方法找出相互關(guān)系的經(jīng)驗公式。指導(dǎo)生產(chǎn),提高產(chǎn)品質(zhì)量。回歸分析法還可應(yīng)用于白砂糖色值影響因素的分析。白砂糖色值是衡量產(chǎn)品質(zhì)量的重要指標(biāo)之一,清汁色值、清汁pH值、糖漿色值、糖漿pH值是影響其色值的主要因素,可通過回歸分析法找出四者相關(guān)關(guān)系,提高白砂糖品質(zhì)。
大數(shù)據(jù)隱含著巨大的社會、經(jīng)濟(jì)、科研價值,已引起了各行各業(yè)的高度重視,我們在利用數(shù)據(jù)分析的過程中,也常常會遇到一些問題。糖廠數(shù)據(jù)分析中常見的主要問題有。
一是數(shù)據(jù)采集不全。數(shù)據(jù)分析的基礎(chǔ)是數(shù)據(jù)量,糖廠數(shù)據(jù)的主要來源包括化驗室數(shù)據(jù)、生產(chǎn)過程數(shù)據(jù)、農(nóng)務(wù)數(shù)據(jù)等,目前國內(nèi)大部分糖廠生產(chǎn)自動化程度不高,對生產(chǎn)數(shù)據(jù)的采集,存在數(shù)據(jù)采集量小、數(shù)據(jù)采集不全等問題,這在一定程度上影響對汁糖生產(chǎn)數(shù)據(jù)的分析。
二是數(shù)據(jù)利用效率低。糖廠的化驗室系統(tǒng)和生產(chǎn)數(shù)據(jù)系統(tǒng)、及農(nóng)務(wù)系統(tǒng)之間一般是相對孤立的,現(xiàn)有數(shù)據(jù)之間未建立具體的關(guān)聯(lián)性,不能夠快速、充分利用數(shù)據(jù),使數(shù)據(jù)利用效率降低。
三是數(shù)據(jù)的可靠性。制糖生產(chǎn)過程中部分?jǐn)?shù)據(jù)易受到人為操作不當(dāng)、環(huán)境條件、設(shè)備故障、儀表故障等因素影響,在此條件下,獲得的數(shù)據(jù)可能會失真,此時對數(shù)據(jù)不加分析評判而直接使用,毫無意義。
四是實際應(yīng)用不多。糖廠實際生產(chǎn)中數(shù)據(jù)量大、數(shù)據(jù)之間的關(guān)系復(fù)雜、生產(chǎn)管理指標(biāo)多、關(guān)聯(lián)度復(fù)雜,目前對糖廠數(shù)據(jù)分析的研究較少,具有一定的難度,數(shù)據(jù)分析理論與實際的應(yīng)用需要進(jìn)一步結(jié)合,在實踐中提高糖廠數(shù)據(jù)分析的水平。
大數(shù)據(jù)時代已經(jīng)來臨,社會各行各業(yè)都面臨著前所未有的數(shù)據(jù)量和數(shù)據(jù)分析需求,數(shù)據(jù)分析方法眾多,根據(jù)不同需求選取適當(dāng)方法,對糖廠實際生產(chǎn)數(shù)據(jù)進(jìn)行分析,挖掘潛在的、有意義的、有價值的信息,對指導(dǎo)生產(chǎn),加強(qiáng)管理生產(chǎn)工序中遇到的問題,提高產(chǎn)品質(zhì)量,減少原料消耗和節(jié)能減排都將有重要意義。
[1]梁劍,李曉.智能化數(shù)據(jù)挖掘系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機(jī)應(yīng)用研究,2002,19(5):89-91.
[2]戴危艷,李少華,王軍,等.利用聚類分析方法進(jìn)行模型優(yōu)選[J].?dāng)鄩K油氣田,2015,,22(4):492-496.
[3]Bandyopadhyay S,Coyle E J.An energy efficient hierarchical clustering algorithm for wireless sensor networks [C]//INFOCOM 2003.Twenty-Second Annual Joint Conference of the IEEE Computer and Communications.IEEE Societies.IEEE,2003,3:1713-1723.
[4]Kriegel H P,Pfeifle M.Density-based clustering of uncertaindata[C]//Proceedings of the eleventhACM SIGKDD international conference on Knowledge discovery in datamining.ACM,2005:672-677.
[5]廖燕玲.模糊聚類技術(shù)在甘蔗種植戶信息分析中的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2007,35(28):9098-9099.
[6]苗同暢,劉杰.控制圖技術(shù)在糖化生產(chǎn)中的應(yīng)用[J].啤酒科技,2010,6:023.
[7]廖玉.初探Xcs-Rs選控圖在甘蔗制糖生產(chǎn)線上的應(yīng)用[A].第二屆糖業(yè)科技與發(fā)展高峰論壇論文錄[C].2015年.
[8]Azzeh M,Neagu D,Cowling P I.Analogy-based software effort estimation using Fuzzy numbers[J].Journal of Systems and Software,2011,84(2):270-284.
[9]霍漢鎮(zhèn).現(xiàn)代制糖化學(xué)與工藝學(xué)[M].化學(xué)工業(yè)出版社,2008.
[10]張思原,郭海蓉,容玲.白砂糖二氧化硫含量影響因素的灰色關(guān)聯(lián)度分析[J].食品科技,2008,33(10):93-95.
[11]M.·費史,F(xiàn)isz M,王福保.概率論及數(shù)理統(tǒng)計[M].科學(xué)技術(shù)出版社,1962.
[12]李東生.白糖灰份與原料甘蔗非糖分在特定條件下相關(guān)的探索[J].甘蔗糖業(yè),1983,6:006.
TS242.1
B
2095-820X(2016)02-04
2016-04-05