劉偉川,倪坤儀,王剛華,李聰超,張英麗
(西門子(中國)有限公司,北京 100102)
隨著鋼鐵行業(yè)的發(fā)展與全球工業(yè)數(shù)字化程度的提升,鋼鐵行業(yè)的數(shù)字化逐漸成為受矚目的話題。早在20世紀末,鋼鐵行業(yè)的專家系統(tǒng)[1]對于生產過程的輔助已獲得較多成果;如今,除已有的專家系統(tǒng)與知識外,大量實際生產數(shù)據的收集與應用能夠為鋼鐵行業(yè)產業(yè)升級提供進一步幫助。實現(xiàn)數(shù)字化,首先需要提取工業(yè)生產中的數(shù)據,以滿足后續(xù)產線監(jiān)控、質量預警、大數(shù)據分析等應用?,F(xiàn)代化鋼鐵企業(yè)中,數(shù)據產生的價值愈發(fā)重要,在連續(xù)的熱軋產線上,往往存在產線實時監(jiān)測數(shù)據無法立刻與產品對應,無法通過數(shù)據實時進行判斷,數(shù)據質量差的問題。隨著互聯(lián)網、大數(shù)據等行業(yè)的興起,相關技術亦愈發(fā)成熟。在消費與服務行業(yè)存在大量成功的大數(shù)據產生價值的案例,如利用實時客流進行商業(yè)評估,利用用戶瀏覽趨勢推送相關信息等[2]。
工業(yè)中的實時數(shù)據存在于生產與日常的運營當中,目前,大量企業(yè)還處在較為初級的利用粗粒度的匯總信息進行事后分析的階段,主要的應用集中在商業(yè)智能、看板等領域,大量的產線數(shù)據并未加以有效利用,每日產生的TB級數(shù)據僅存儲在數(shù)據庫中,雖無人分析查看,仍需保留至幾年后方可刪除。此現(xiàn)象反映了產線數(shù)據要素價值未激活,持續(xù)增長的數(shù)據對于企業(yè)數(shù)據存儲產生的壓力日漸凸顯兩個主要問題。為此,根據典型熱軋線的生產數(shù)據、數(shù)據應用場景,設計并實現(xiàn)了生產大數(shù)據實時清洗框架,使實時產生的數(shù)據能夠以結構化、與產品(鋼卷)綁定的形式進行存儲,以便后續(xù)針對產品的分析;同時,大大降低了數(shù)據量,將重復與價值低的信號數(shù)據清洗,僅保留對工藝與業(yè)務有價值的數(shù)據;另外,數(shù)據的質量在清洗的過程中,通過消除空值、異常值、數(shù)據正則化等方法得到提升,大大節(jié)省了后續(xù)分析中的數(shù)據清洗與預處理工作。下面對數(shù)據清洗框架的設計與實現(xiàn),以及其在實際場景中的應用與價值體現(xiàn)做一介紹。
現(xiàn)代化的鋼鐵企業(yè)以滿足客戶的需求為目標,需要實現(xiàn)多品種、小批量、高質量、高效率等多項要求。對于帶鋼熱連軋復雜的生產過程,為了實現(xiàn)上述目標,功能完備的計算機控制系統(tǒng)是必不可少的。目前,現(xiàn)代化的帶鋼熱連軋生產配置了從基礎設備控制到生產管理的多級IT系統(tǒng)。通常一個較為完備的熱軋多級IT系統(tǒng)包含四個級別,即基礎自動化級(L1)、過程控制級(L2)、生產控制級(L3級)和生產管理級(L4)。L1級以產線設備為主要控制對象,完成位置、速度等方面的控制。同時,對熱軋質量相關的關鍵變量如帶鋼厚度、寬度、溫度等進行L1級的控制。L2級主要完成L1級所需要的軋制工藝控制參數(shù)和設備控制參數(shù)目標值的計算,該計算一般通過L2級中預設的數(shù)學模型和相關的優(yōu)化功能完成。L3級主要完成生產計劃的調整和發(fā)布,同時包含對生產績效的計算和處理;此外,對板坯庫、鋼卷庫、成品庫進行相關的管理,同時對成品的質量進行監(jiān)控。
從訂單到產品交付,四級IT系統(tǒng)以不同的方式產生數(shù)據,是數(shù)據分析的主要數(shù)據來源。其中,L1、L2級系統(tǒng)是熱軋生產大數(shù)據的主要來源?;诖髷?shù)據的四個特征,熱軋生產大數(shù)據具有很多自身的特點:
(1)數(shù)據體量方面,熱軋產線包含加熱爐、粗軋、精軋、卷取等主要工藝段,每個工藝段包含不同類型的機械設備、電氣設備、水電氣公輔設備等。這些設備或系統(tǒng)在帶鋼生產過程中會產生大量的實時數(shù)據。同時,與設備相配套的自動化系統(tǒng)也會產生相應的控制數(shù)據,包含時序數(shù)據和控制閉環(huán)相關的設定值、反饋值、控制器參數(shù)等。
(2)數(shù)據類型方面,熱軋產線上產生的數(shù)據包含多種不同類型的數(shù)據,如鋼卷跟蹤相關的事件數(shù)據、軋制相關的過程變量(如軋制力)、關鍵質量相關的變量數(shù)據(溫度、厚度、寬度、板形等)。典型的7臺精軋機構成的精軋機組通常包含70~80個控制回路,其對應的變量種類復雜且相互耦合。
(3)產生速度方面,熱軋生產數(shù)據的采集頻率通常很高,尤其在精軋階段,帶鋼的高速軋制使得精軋區(qū)域會以十幾毫秒的頻率進行數(shù)據采集。
(4)價值密度方面,產線不同工藝段的數(shù)據隨時間不斷產生,其中真正軋制時的數(shù)據僅占一部分。
綜上所述,在鋼鐵行業(yè)的數(shù)字化項目中,如何有效地應對生產大數(shù)據的特點是數(shù)字化項目高質量交付的前提,也是需要解決的核心問題。
熱軋線數(shù)字化項目通常是在其高自動化水平的基礎上提出的,旨在提升數(shù)據集成和深度挖掘能力。一般來說,項目以貫通L1、L2級數(shù)據為主,同時兼顧L3級相關數(shù)據的集成,通過實時數(shù)據清洗實現(xiàn)產線的數(shù)據資產建立,并以數(shù)據資產支撐上層的熱軋智慧應用。典型熱軋線數(shù)字化項目整體架構如圖1所示。
圖1 典型熱軋線數(shù)字化項目整體架構Fig.1 Overall Framework for Typical Digital Project on Hot Rolling Line
數(shù)據清洗功能架構在平臺的IaaS基礎設施之上,對接已有系統(tǒng)中的實時數(shù)據并完成數(shù)據清洗。清洗后的結果既可以直接提供給實時性較高的應用,也可以直接完成數(shù)據持久化,供后續(xù)數(shù)據分析和其他應用使用??梢钥闯觯瑪?shù)據清洗作為整個建構的中間層,是整個上層智慧應用的數(shù)據底座,是上層智慧應用有效運行的必要前提條件。同時,為了使清洗后數(shù)據更具有業(yè)務價值,建立了從業(yè)務視角出發(fā)的鋼卷數(shù)字化畫像,結合數(shù)據清洗將鋼卷相關的數(shù)據進行實時關聯(lián)。
熱軋產線的實時數(shù)據清洗是支撐熱軋智慧應用的關鍵。從數(shù)據的角度面臨幾個難點:
(1)熱軋產線通常包含多種數(shù)據源接入,包括L1級和L2級相關的數(shù)據采集系統(tǒng)、水電煤氣系統(tǒng)、質量判定系統(tǒng)等。系統(tǒng)之間相對獨立,需要進行同步接入。
(2)L1、L2級具有極高的數(shù)據采集頻率,需要完成實時的數(shù)據接入與清洗,并將清洗結果進行持久化,對于清洗系統(tǒng)的數(shù)據承壓能力提出了較高的要求。
(3)典型熱軋線數(shù)字化項目具有多樣的清洗需求,包含鋼卷ID與生產數(shù)據實時綁定、粗軋正逆軋制映射、鋼卷時空變換、數(shù)據特征提取等。如何在極高頻率下完成數(shù)據的清洗工作,對于清洗算法的設計和實現(xiàn)都是很大的挑戰(zhàn)。
(4)如何構建有效的鋼卷數(shù)字畫像,將生產、質量等不同維度的數(shù)據進行關聯(lián),進而支持上層智慧應用的需求,也是數(shù)據清洗所面臨的難點之一。
針對實時數(shù)據清洗的難點和鋼鐵行業(yè)的特點,實時清洗框架的功能需要涵蓋對多種應用場景的彈性支持、對清洗過程中的異常進行容錯處理、具有高吞吐量和低延遲的特性、特殊應用場景的支持[3]。
整個數(shù)據流向的架構分為5層,自下而上由接入層、計算層、存儲層、服務層、應用層構成。涵蓋了數(shù)據從L1到L4流轉的各個步驟。其中,接入層采用Kafka消息中間件作為數(shù)據接入方式。計算層基于Flink[4]實時數(shù)據處理框架,對具體的場景需求進行算法定制。存儲層提供關系型數(shù)據庫PostgreSQL和實時數(shù)據庫ClickHouse作為數(shù)據存儲組件。服務層對外提供統(tǒng)一的數(shù)據接口,對上層應用屏蔽下層的數(shù)據復雜性,利于最上層應用的開發(fā)與實施。實時清洗架構圖如圖2所示。
圖2 實時清洗架構圖Fig.2 Architecture Diagram for Real-time Cleaning
3.2.1 引入主數(shù)據表
由于鋼鐵行業(yè)的特殊性,在整個流式處理中,原始數(shù)據并沒有和生產數(shù)據實時綁定,對后續(xù)的分析應用造成了技術負擔。在此場景中,系統(tǒng)引入主數(shù)據表概念以處理各種業(yè)務需求,其中定義了數(shù)據源系統(tǒng)中的測點和分析系統(tǒng)中的對應關系、各個工序對應的配置、鋼卷ID對應的source通道等一系列輔助數(shù)據清理的信息來支持彈性分析。用戶同樣可以通過編輯主數(shù)據表來輸入專家知識并幫助數(shù)據清理邏輯以更好地滿足業(yè)務需要。
3.2.2 數(shù)據熱存儲
在典型熱軋數(shù)字化項目中,由于測點眾多,業(yè)務邏輯相對復雜,主數(shù)據表的體量隨著業(yè)務的推進迅速增加。為此,系統(tǒng)提出以預加載主數(shù)據表和熱存儲關聯(lián)的方式解決大數(shù)據實時清理中的主數(shù)據加載、分發(fā)、對上下游的壓力問題。隨著數(shù)據表容量的變化,系統(tǒng)以切換主數(shù)據表的加載方式來更好地服務清洗需求。預加載主數(shù)據的方式是將主數(shù)據預先加載到內存中,各處理單元在流式處理時到內存中完成相應的關聯(lián)和查詢操作,實現(xiàn)簡單,但是占用內存,不適合主數(shù)據大的場景,且主數(shù)據更新不及時。熱存儲關聯(lián)的方式是將主數(shù)據加入熱存儲中,通過異步IO的操作、去IO的方式完成查詢。在吞吐量高的場景下,為了防止與熱存儲的交互造成瓶頸,系統(tǒng)引入緩存機制以減輕對熱存儲交互的壓力。同時,系統(tǒng)采用事件差異檢查的機制來避免無效的數(shù)據加載操作和主數(shù)據及時更新的問題。在主數(shù)據表更新時,系統(tǒng)將對已加載主數(shù)據和主數(shù)據表進行差異分析。如果有差異,將差異更新至緩存。實時清洗框架熱存儲功能如圖3所示。
圖3 實時清洗框架熱存儲功能Fig.3 Thermal Storage Function of Real-time Cleaning Framework
3.2.3 數(shù)據緩存
在工業(yè)場景中,數(shù)據的準確性非常重要。在分布式系統(tǒng)中,組成系統(tǒng)的各個計算機是相互獨立的。系統(tǒng)易受各種意外因素的影響而發(fā)生故障(磁盤、網絡等)。如果發(fā)生了故障,在很多大數(shù)據清理框架中會有不同的側重點。流處理引擎為數(shù)據處理定義的語義包含at-most-once、at-least-once以及exactly-once。在此項目的技術選型中,系統(tǒng)采用了對鋼鐵行業(yè)最適合的exactly-once模式來保證數(shù)據的準確性和避免數(shù)據重復。在數(shù)據清理框架中系統(tǒng)將配置和啟用檢查點機制,框架定期觸發(fā)檢查點并觸發(fā)快照的生成。快照中包含了能從故障中恢復的相關信息。在開始流式處理時會生成一個快照,在之后的各個計算因子作用下此快照版本會被更新,并傳遞檢查點信息至下一個計算因子,在整個流式過程結束之后提交整個快照以歸檔整個流程。整套機制不依賴于外部系統(tǒng),各環(huán)節(jié)的狀態(tài)信息將維護在清理框架中,由框架統(tǒng)一管理。如果發(fā)生故障,就從最近的一次快照中恢復運行。數(shù)據在最終計算和歸檔化的過程中只會被計算和統(tǒng)計一次。實時清洗框架狀態(tài)緩存功能如圖4所示。
圖4 實時清洗框架狀態(tài)緩存功能Fig.4 Status Cache Function of Real-time Cleaning Framework
3.2.4 數(shù)據源接入
在數(shù)據源部分,為了保證系統(tǒng)的高吞吐量和低延遲,相關業(yè)務會被拆解成多個信息通道并行傳輸,在保證高效信息傳輸?shù)耐瑫r也解決了高速消息隊列在某些設置下很難保證對消息順序性的問題。在常見的流式處理框架中,系統(tǒng)為了保證數(shù)據的快速投遞,會將數(shù)據拆分成多個通道傳輸,但是在隨后的多個通道合并處理過程中,很難在保證效率的情況下保證數(shù)據能夠被順序消費和處理。在工業(yè)場景中,由此引發(fā)的問題常常是不能被接受的。為此,需在系統(tǒng)中、全局順序和局部順序的平衡中保證清洗任務的高效運行。在具體的實現(xiàn)中,依賴鋼鐵行業(yè)知識和熱軋線的工藝特點,將各工藝段拆分成多個通道,以保證各個通道中的消息數(shù)據。在各工藝段的數(shù)據聯(lián)合處理中,結合專家知識調整各通道在高吞吐量下可能引發(fā)的時間戳到達時間不一致情況,以達到全局順序的要求。實時清洗框架數(shù)據源接入如圖5所示。
圖5 實時清洗框架數(shù)據源接入Fig.5 Data Source Access to Real-time Cleaning Framework
面對復雜的清洗需求,利用算子(Operator)在上述實時數(shù)據清洗框架中主要實現(xiàn)鋼卷ID與生產數(shù)據實時綁定、粗軋正逆軋制映射、鋼卷時空變換、數(shù)據特征提取四個功能。
4.1.1 鋼卷ID與生產數(shù)據實時綁定
由于在產線數(shù)據中,鋼卷ID的下發(fā)信號通道是由六個通道的ASCII碼組成,其下發(fā)時間不與生產時間相關,且存在重復下發(fā)情況;鋼卷ID如何與產線上得到的數(shù)據進行綁定是項目首先需要解決的問題。傳統(tǒng)方法一般對鋼卷ID下發(fā)后產生的所有相應數(shù)據進行存儲,產線級數(shù)據采集量大,因此轉變?yōu)閷α魅胨阕拥纳a數(shù)據進行標注 (即標注鋼卷ID),以極大減少實時清洗平臺的計算與存儲量,提升鋼卷ID綁定的效率,同時為后續(xù)其他功能騰挪計算空間。
4.1.2 粗軋正逆軋制映射
由于在物理層面,粗軋工序的正逆軋制存在往復行動,因此所有具有方向性的數(shù)據點、需要定位軋制位置(與后續(xù)時空變換更加相關)的數(shù)據點,均需要進行正逆軋制映射,以判斷出軋制方向和出軋制的位置,即鋼卷頭/尾位置坐標。由于正逆軋制具有咬鋼、軋制力、速度等多種指示信號,結合以上三者狀態(tài),即可判斷正逆軋制與位置信息。
4.1.3 鋼卷時空變換
無論粗軋或精軋,后續(xù)鋼卷生產過程參數(shù)與質量的相關性分析均需要與鋼卷位置進行關聯(lián),因此鋼卷長度的時空變換是至關重要的功能。由于在生產過程中,鋼坯產生形變,軋制完成的鋼卷表面缺陷在形變前的加工參數(shù)溯源是主要難點。為此,首先以鋼坯形變均勻為重要假設,根據拉速對鋼坯行進長度進行累計,并在每個數(shù)據點明確已軋制長度,以便后續(xù)分析使用。
4.1.4 數(shù)據特征提取
大量數(shù)據中,數(shù)據的基本特征如平均值、最大值、最小值、標準差等均是常規(guī)的必需參數(shù),但每一鋼卷的上千條數(shù)據分別聚合計算的工作量與計算量過于巨大。因此,項目應用時在實時數(shù)據清洗平臺上部署了數(shù)據特征提取算子,對常用數(shù)據特征進行滾動計算,即僅儲存數(shù)個參數(shù),在鋼卷軋制完成后即可得出其特征值。由于標準差是一項必須獲得全量數(shù)據方可精確計算的參數(shù),基于實時計算的情況,采用迭代算法進行滾動計算,以近似實際標準差。
鋼卷在生產過程中相關聯(lián)的數(shù)據不僅包含其ID、生產工藝參數(shù)、訂單等信息,產線上的控制參數(shù)、實時測量的溫度,甚至于能源表計系統(tǒng)測量的流量都是鋼卷數(shù)字畫像的一部分。在后續(xù)對鋼卷的分析過程中,針對不同的主題,提取鋼卷的相關數(shù)據是熱軋生產及其相關應用的數(shù)據獲取最優(yōu)方式。為達到此目標,根據應用維度,從“人、機、料、法、環(huán)、測”六方面為鋼卷建立了數(shù)字畫像。除此六維度以外,鋼卷數(shù)字畫像的參數(shù)分為控制參數(shù)與實際參數(shù)兩類;在針對鋼卷的質量分析中,需要對比L2的模型計算下設值(即控制參數(shù))與實際參數(shù)的區(qū)別。由于數(shù)據量較多且邏輯復雜,利用知識圖譜技術進行鋼卷數(shù)字畫像構建,每個畫像從加熱爐至卷取結束,包括軋制力、彎輥力、軋輥速度、前滑后滑、溫度、厚度、平直度、冷卻水流量、竄輥位置的下設值及其實際值等,共約700個測點。
在數(shù)據通過Kafka接入后,4.1中的四個工藝段的生產數(shù)據實時綁定算子根據各測點位置將測點值與鋼卷ID進行綁定,并存入存儲層的時序數(shù)據庫中。同時,由于各測點邏輯關系固定,在服務層根據其業(yè)務邏輯建立本體框架,使不斷產生的數(shù)據可以根據本體庫的結構與邏輯關系進行關聯(lián),進而生成知識圖譜。對于上層應用層,在進行高級應用構建與分析時,根據知識圖譜查詢相關數(shù)據即可。本體庫與知識圖譜示意圖如圖6所示。
圖6 本體庫與知識圖譜示意圖Fig.6 Schematic Diagram for Ontology Base and Knowledge Mapping
實時數(shù)據清洗框架的一大應用即將數(shù)據以10 ms左右的時間清洗后,進行產品在線初步分析。由于生產性質限制,當發(fā)生超出閾值或不符標準情況時,無法停線中斷不合格產品的生產,但可在產線上對產品標注;同時,利用鋼卷時空變換功能,對粗軋、精軋前6架的問題鋼卷段進行標注。
應用方案在項目中進行了實施和驗證,效果如下:
(1)實時清洗框架成功承受住了熱軋線上最小10 ms的數(shù)據采樣頻率,能在高速數(shù)據流的情況下完成數(shù)據清洗并保持系統(tǒng)穩(wěn)定。
(2)鋼卷ID與生產數(shù)據實時綁定能夠有效去除非生產時的數(shù)據,同時結合時序數(shù)據庫的壓縮能力,大幅度減小數(shù)據存儲量(某典型熱軋項目中可以達到60 G原始數(shù)據到600 MB~1 G的減量效果),從而有效節(jié)約生產系統(tǒng)的存儲空間,提高后續(xù)數(shù)據查詢的效率。
(3)項目中對典型鋼卷進行了數(shù)據準確性驗證,所提出的實時清洗框架能夠做到數(shù)據不丟失并與原始生產數(shù)據對應。
(4)在鋼卷ID綁定后的數(shù)據上進行了業(yè)務相關的實時計算,為軋制穩(wěn)定性分析、過程預警的應用場景提供了高質量的數(shù)據支持。
從熱軋產線的數(shù)據特點出發(fā),分析了熱軋的數(shù)據特點,以及在數(shù)據清洗時所面臨的難點。在此基礎上,提出了一種新的實時大數(shù)據清洗框架,說明了框架的特點以及相應技術組件,并對熱軋生產中的數(shù)據清洗需求進行了分析。同時,基于清洗后的產線數(shù)據,設計了一種熱軋生產線的知識圖譜建立方法,該方法綜合考慮了產品、產線設備、質量分析等各個方面因素,以產品為中心打通并連接了多種數(shù)據,為數(shù)據應用提供了有效的數(shù)據基礎。