賴龍偉,冷用斌,閻映炳,陳之初
(中國科學(xué)院 上海應(yīng)用物理研究所,上海 201800)
?
上海光源全局束流診斷數(shù)據(jù)倉庫開發(fā)
賴龍偉,冷用斌*,閻映炳,陳之初
(中國科學(xué)院 上海應(yīng)用物理研究所,上海 201800)
上海光源已建成的束流診斷系統(tǒng)可滿足光源的日常運(yùn)行和機(jī)器研究需要。但由于缺少有效的事件觸發(fā)處理機(jī)制,無法保存并分析運(yùn)行期間突發(fā)的全局軌道擾動(dòng)、BPM故障和DCCT噪聲等異?,F(xiàn)象。為解決以上問題,本文在現(xiàn)有束測系統(tǒng)的基礎(chǔ)上開發(fā)了基于Soft IOC的全局束流診斷數(shù)據(jù)倉庫。數(shù)據(jù)倉庫通過在線監(jiān)測加速器和束測系統(tǒng)的運(yùn)行狀況,在發(fā)現(xiàn)異常現(xiàn)象時(shí)及時(shí)發(fā)出觸發(fā)信號(hào)并存儲(chǔ)相關(guān)數(shù)據(jù)進(jìn)行分析。運(yùn)行結(jié)果表明,數(shù)據(jù)倉庫能有效檢測加速器和束測系統(tǒng)異常,并可用于生成束測設(shè)備置信度指標(biāo),為進(jìn)一步優(yōu)化束測系統(tǒng)和提高光源運(yùn)行性能提供有效依據(jù)。
上海光源;數(shù)據(jù)倉庫;束流診斷;異常檢測
上海光源束測系統(tǒng)包含200多個(gè)測量設(shè)備,包括束流位置測量、流強(qiáng)測量、束斑尺寸測量、填充模式測量、束團(tuán)長度測量等,可提供機(jī)器運(yùn)行和加速器物理研究所需的束流和機(jī)器參數(shù)[1]。束測系統(tǒng)每秒在線發(fā)布超過2萬個(gè)變量參數(shù),數(shù)百個(gè)包含兩千點(diǎn)的波形記錄。如此大量的數(shù)據(jù)包含巨大的潛在價(jià)值,若能對(duì)其進(jìn)行有效處理并加以利用,將會(huì)有較好的應(yīng)用前景。
在過去幾年的運(yùn)行中,束測系統(tǒng)發(fā)生了數(shù)次硬件和軟件的異常,導(dǎo)致束測數(shù)據(jù)的可靠性和真實(shí)性無法保證。主要的異?,F(xiàn)象有:束測系統(tǒng)維護(hù)期間,BPM電纜連接突然中斷;全環(huán)軌道擾動(dòng);個(gè)別BPM數(shù)據(jù)出現(xiàn)脈沖擾動(dòng)和平移跳變;DCCT數(shù)據(jù)脈沖噪聲;填充模式檢測器由于軌道擾動(dòng)出現(xiàn)較大的測量誤差等。
由于無有效工具,異常發(fā)生時(shí)無法通知運(yùn)行人員,發(fā)生后亦無法進(jìn)行故障分析。已有的BPM 10 Hz窄帶數(shù)據(jù)無法完成此類處理,必須使用寬帶歷史數(shù)據(jù),如694 kHz的逐圈BPM數(shù)據(jù)或10 kHz的DCCT數(shù)據(jù)等。但每秒實(shí)時(shí)采集如此大量的寬帶數(shù)據(jù)并不現(xiàn)實(shí),可行的方案是建立全局束流診斷數(shù)據(jù)倉庫,在線進(jìn)行關(guān)聯(lián)數(shù)據(jù)分析并存儲(chǔ)異常發(fā)生時(shí)的有用數(shù)據(jù)用于故障診斷?;谝陨戏治觯疚拈_展全局束流診斷數(shù)據(jù)倉庫的開發(fā)和應(yīng)用研究。
圖1 數(shù)據(jù)倉庫硬件結(jié)構(gòu)Fig.1 Hardware structure of data warehouse
數(shù)據(jù)倉庫硬件結(jié)構(gòu)如圖1所示,在現(xiàn)有的儲(chǔ)存環(huán)束測系統(tǒng)控制網(wǎng)絡(luò)的基礎(chǔ)上配置1臺(tái)IBM System x3550 M4服務(wù)器,被檢測對(duì)象包括束流位置檢測、流強(qiáng)檢測設(shè)備、束斑尺寸檢測設(shè)備、填充模式檢測設(shè)備??刂葡到y(tǒng)基于EPICS構(gòu)建,在被檢測對(duì)象上配置了EPICS IOC,數(shù)據(jù)通過網(wǎng)絡(luò)傳輸至服務(wù)器,在服務(wù)器上開發(fā)Soft IOC實(shí)現(xiàn)全局束流診斷數(shù)據(jù)倉庫。數(shù)據(jù)倉庫采用開源的分布式數(shù)據(jù)庫Couchbase進(jìn)行數(shù)據(jù)管理。
數(shù)據(jù)倉庫主要實(shí)現(xiàn)以下功能:提供一套束流診斷系統(tǒng)自檢工具,快速排查所有設(shè)備的硬件連接和電子學(xué)配置;故障發(fā)生時(shí)產(chǎn)生事件觸發(fā)信號(hào),保存可進(jìn)行離線故障分析的寬帶數(shù)據(jù);維護(hù)動(dòng)態(tài)BPM信任度列表,軌道反饋系統(tǒng)和機(jī)器研究等可依據(jù)該表決定使用哪些BPM;設(shè)置加速器運(yùn)行狀態(tài)標(biāo)志,指示加速器的運(yùn)行可靠度和穩(wěn)定度;為每個(gè)診斷設(shè)備設(shè)置置信度標(biāo)志,幫助用戶對(duì)束測數(shù)據(jù)進(jìn)行取舍?;谏鲜鲂枨?,設(shè)計(jì)了包含6個(gè)數(shù)據(jù)分析引擎、1個(gè)基準(zhǔn)數(shù)據(jù)庫、1個(gè)故障分析歷史數(shù)據(jù)庫、5類運(yùn)行數(shù)據(jù)、1個(gè)置信度表和1個(gè)高速M(fèi)atlab-EPICS接口的全局束流診斷數(shù)據(jù)倉庫[2]。
1) 數(shù)據(jù)分析引擎
數(shù)據(jù)分析引擎是數(shù)據(jù)倉庫的核心,現(xiàn)有6個(gè)數(shù)據(jù)分析引擎協(xié)同工作。
(1) 基準(zhǔn)管理引擎。采集系統(tǒng)正常運(yùn)行時(shí)的歷史數(shù)據(jù),建立各設(shè)備和加速器的基準(zhǔn)。
(2) BPM逐圈數(shù)據(jù)分析引擎[3]。利用MIA方法對(duì)全環(huán)140個(gè)BPM的逐圈數(shù)據(jù)進(jìn)行時(shí)域和頻域的相關(guān)性分析,實(shí)現(xiàn)對(duì)Lattice參數(shù)在線監(jiān)測、BPM故障診斷、加速器運(yùn)行異常時(shí)的報(bào)警,并對(duì)BPM系統(tǒng)進(jìn)行性能分析且提供BPM的置信度。
(3) BPM慢獲取數(shù)據(jù)(SA)分析引擎。通過對(duì)10 Hz的BPM四通道數(shù)據(jù)SA進(jìn)行相關(guān)性分析,可進(jìn)行如電纜連接異常等BPM故障診斷;通過計(jì)算并記錄SA短時(shí)間標(biāo)準(zhǔn)差,可分析儲(chǔ)存環(huán)掉束原因;通過記錄SA可觀察束流軌道長時(shí)間漂移;通過對(duì)全環(huán)BPM的SA進(jìn)行相關(guān)性分析可監(jiān)測全環(huán)軌道參數(shù)和評(píng)估各BPM性能,為每個(gè)BPM計(jì)算置信度。
(4) 束流流強(qiáng)分析引擎。通過對(duì)填充模式的和信號(hào)與DCCT進(jìn)行相關(guān)運(yùn)算,評(píng)估DCCT和填充模式測量的性能,記錄光源的運(yùn)行情況,同時(shí)可進(jìn)行束流平均壽命和逐束團(tuán)壽命校驗(yàn);通過計(jì)算全環(huán)BPM和信號(hào)與DCCT的相關(guān)函數(shù),評(píng)估BPM的性能。
(5) 束斑尺寸分析引擎。通過計(jì)算束斑截面尺寸和束流位置頻譜的關(guān)聯(lián)性,進(jìn)行干涉儀或X射線針孔相機(jī)的可靠性分析;通過計(jì)算束斑截面尺寸和束流壽命的關(guān)聯(lián)性,進(jìn)行托歇克壽命測量及應(yīng)用研究,觀察束流不理想度。
(6) 置信度計(jì)算引擎。綜合以上幾個(gè)分析引擎的計(jì)算結(jié)果,生成一張包括所有設(shè)備和整個(gè)加速器置信度的表格,并在故障發(fā)生時(shí)發(fā)出觸發(fā)信號(hào)并存儲(chǔ)運(yùn)行數(shù)據(jù)到歷史數(shù)據(jù)庫中。
2) 基準(zhǔn)數(shù)據(jù)庫
基準(zhǔn)數(shù)據(jù)庫包含所有束測設(shè)備和加速器的基準(zhǔn)數(shù)據(jù),數(shù)據(jù)來源于歷史運(yùn)行數(shù)據(jù),且在每種運(yùn)行模式下均重新建立。
3) 運(yùn)行數(shù)據(jù)庫
運(yùn)行數(shù)據(jù)庫綜合控制網(wǎng)絡(luò)的所有實(shí)時(shí)束測數(shù)據(jù),包括兩個(gè)在線環(huán)形緩存器。第1個(gè)緩存器以1 Hz采集速率存儲(chǔ)100 s的數(shù)據(jù)。第2個(gè)緩存器存儲(chǔ)以0.01 Hz采集速率存儲(chǔ)24 h的數(shù)據(jù)。每幀的數(shù)據(jù)結(jié)構(gòu)和第1個(gè)緩存器相同,但帶寬降到0.005 Hz。每天存儲(chǔ)緩存器中的數(shù)據(jù),用作長期運(yùn)行狀態(tài)的評(píng)估。
4) 置信度表
由置信度計(jì)算引擎生成置信度表,該表包括每個(gè)診斷系統(tǒng)和整個(gè)機(jī)器的狀態(tài)評(píng)估結(jié)果,并以EPICS PV的形式按1 Hz速率在控制網(wǎng)絡(luò)更新發(fā)布。用戶可在線獲取該數(shù)據(jù),并決定相關(guān)數(shù)據(jù)的取舍。
5) 故障分析歷史數(shù)據(jù)庫
故障分析歷史數(shù)據(jù)庫的內(nèi)容來自運(yùn)行數(shù)據(jù)庫,每個(gè)記錄都和故障事件相關(guān)聯(lián),通過該數(shù)據(jù)庫可在事后進(jìn)行精細(xì)分析并確定故障原因。
6) 高速M(fèi)atlab-EPICS接口
為實(shí)現(xiàn)以上功能,LCA或MCA已不能滿足對(duì)數(shù)據(jù)的訪問速度要求,因此,參考LabVIEW內(nèi)存共享IOCcore接口的方法,設(shè)計(jì)速度更高的Matlab-EPICS接口[4]。
數(shù)據(jù)倉庫自2012年下半年投入運(yùn)行以來,累積了大量束流運(yùn)行數(shù)據(jù),目前主要通過離線分析對(duì)用于上海光源的運(yùn)行性能評(píng)估、束測系統(tǒng)運(yùn)行狀態(tài)監(jiān)測及一些隨機(jī)事件的輔助機(jī)器進(jìn)行研究。
2.1 上海光源運(yùn)行性能評(píng)估
利用數(shù)據(jù)倉庫對(duì)加速器主要的幾個(gè)參數(shù)進(jìn)行監(jiān)測以評(píng)估機(jī)器性能,包括軌道穩(wěn)定性、流強(qiáng)穩(wěn)定性、填充均勻度、工作點(diǎn)穩(wěn)定性等,評(píng)估主要基于SA。上海光源2013年的運(yùn)行情況如下:軌道穩(wěn)定性在單個(gè)運(yùn)行周期內(nèi)好于0.5 μm,不同周期間軌道跳變嚴(yán)重,上半年達(dá)到200 μm,下半年約30 μm;流強(qiáng)的穩(wěn)定度短時(shí)間內(nèi)保持在1 mA(0.5%)范圍內(nèi),但不穩(wěn)定,長時(shí)間在2 mA(1%)范圍內(nèi),尚有優(yōu)化空間;填充均勻度上半年在3%~6%,下半年下降至4%~10%,注入過程的重復(fù)性還有優(yōu)化空間;水平方向工作點(diǎn)上半年在0.20~0.25間漂移,24 h穩(wěn)定度在0.001內(nèi),不同運(yùn)行周期內(nèi)阻尼時(shí)間不同,暑期排除電源波動(dòng)影響后,下半年的24 h內(nèi)穩(wěn)定度好于0.000 1。
2.2 束測系統(tǒng)運(yùn)行狀態(tài)監(jiān)測
利用MIA算法對(duì)全環(huán)140個(gè)DBPM處理器的逐圈數(shù)據(jù)進(jìn)行分析,可快速進(jìn)行BPM系統(tǒng)故障診斷。如圖2所示,對(duì)注入期間的逐圈數(shù)據(jù)進(jìn)行MIA分解,獲得束流中包含的β振蕩(第1、2個(gè)模式)、能量振蕩(第3個(gè)模式)和電子學(xué)噪聲(第9個(gè)模式)。利用分解的各物理模式的幅度可進(jìn)行BPM的性能評(píng)估,發(fā)現(xiàn)可能有問題的BPM,并有助于查找影響系統(tǒng)性能的噪聲來源。類似分析還可用于對(duì)BPM的分辨率進(jìn)行在線評(píng)估[5]。
圖2 β振蕩(a)、能量振蕩(b)和電子學(xué)噪聲(c)Fig.2 Betatron oscillation mode (a), energy oscillation mode (b) and electronics noise mode (c)
通過長期記錄BPM故障情況,定位出置信度高的BPM用于快反饋和軌道反饋,提高系統(tǒng)性能。圖3為2012年10月14日至11月3日期間BPM故障統(tǒng)計(jì)情況。從圖3中可直觀地找出經(jīng)常發(fā)生故障的BPM,如20#、85#、123#、128#,也易于發(fā)現(xiàn)性能良好的BPM。
圖3 BPM運(yùn)行故障記錄Fig.3 BPM failure record
2.3 隨機(jī)事件的數(shù)據(jù)記錄及輔助機(jī)器研究
上海光源目前計(jì)劃將流強(qiáng)提高到240 mA,但在240 mA穩(wěn)定運(yùn)行一段時(shí)間后有時(shí)會(huì)丟失10 mA束流變?yōu)?30 mA。利用數(shù)據(jù)倉庫對(duì)掉束前后相關(guān)的束流數(shù)據(jù)進(jìn)行分析,可幫助定位掉束原因并解決該問題。圖4a為流強(qiáng)從240 mA掉至230 mA后再次注入的過程;圖4b為掉束前后束團(tuán)電荷量,掉束過程中疑似發(fā)生多束團(tuán)不穩(wěn)定性(束團(tuán)串尾部被刮掉)。同時(shí),在掉束后垂直方向β振幅增大,而水平、垂直工作點(diǎn)未見明顯變化。通過分析時(shí)域波形可知,掉束前橫向反饋穩(wěn)定工作,掉束過程中及掉束后均不能有效抑制橫向振蕩。補(bǔ)注束流至240 mA后,橫向反饋系統(tǒng)恢復(fù)正常工作。綜合上述分析結(jié)果和該時(shí)刻儲(chǔ)存環(huán)真空度數(shù)據(jù),可初步判定是由于真空放氣引起的快離子不穩(wěn)定性導(dǎo)致的束團(tuán)串尾部刮束。
圖4 掉束前后流強(qiáng)(a)和束團(tuán)電荷量(b)Fig.4 Current (a) and bunch charge (b) before and after beam loss
本文通過綜合所有在線束測設(shè)備和相關(guān)機(jī)器運(yùn)行參數(shù),基于高速EPICS-Matlab接口,在服務(wù)器上開發(fā)了EPICS Soft IOC實(shí)現(xiàn)各類信號(hào)處理算法,建立了能有效進(jìn)行系統(tǒng)運(yùn)行狀態(tài)監(jiān)控、異常診斷、提供系統(tǒng)置信度指標(biāo)等功能在內(nèi)的全局束流診斷數(shù)據(jù)倉庫。利用該數(shù)據(jù)倉庫可長時(shí)間監(jiān)測加速器運(yùn)行過程中的軌道、流強(qiáng)、工作點(diǎn)、填充模式等參數(shù),對(duì)光源運(yùn)行性能進(jìn)行評(píng)估。并對(duì)運(yùn)行中的束測系統(tǒng)故障和掉束問題進(jìn)行了診斷研究,為問題的解決提供了有效手段。
[1] LENG Yongbin, YE Kairong, ZHOU Weimin, et al. SSRF beam diagnostics system commissioning[C]∥DIPAC2009. Basel: DIPAC, 2009.
[2] LENG Yongbin, YAN Yingbing, CHEN Zhichu, et al. Beam diagnostics global data warehouse implementation and application at SSRF[C]∥IPAC2011. San Sebastian: IPAC, 2011.
[3] CHEN Zhichu, LENG Yongbin, YUAN Ren-xian, et al. BPM Troubleshooting by using PCA in SSRF[J]. Nuclear Science and Techniques, 2014, 25(2): 020102.
[4] YAN Yingbing, LENG Yongbin. Soft IOC application in SSRF beam diagnostics system[C]∥IPAC2010. Kyoto: IPAC, 2010: 2 707-2 709.
[5] CHEN Zhichu, LENG Yongbin, YAN Yingbing, et al. Performance evaluation of BPM system in SSRF using PCA method[J]. Chinese Physics C, 2014, 38(8): 087004.
Development of Global Data Warehouse for Beam Diagnostics at SSRF
LAI Long-wei, LENG Yong-bin*, YAN Ying-bing, CHEN Zhi-chu
(ShanghaiInstituteofAppliedPhysics,ChineseAcademyofSciences,Shanghai201800,China)
The beam diagnostic system is adequate during the daily operation and machine study at the Shanghai Synchrotron Radiation Facility (SSRF). Without the effective event detecting mechanism, it is difficult to dump and analyze abnormal phenomena such as the global orbital disturbance, the malfunction of the BPM and the noise of the DCCT. The global beam diagnostic data warehouse was built in order to monitor the status of the accelerator and the beam instruments. The data warehouse was designed as a Soft IOC hosted on an independent server. Once abnormal phenomena happen it will be triggered and will store the relevant data for further analysis. The results show that the data warehouse can detect abnormal phenomena of the machine and the beam diagnostic system effectively, and can be used for calculating confidential indicators of the beam instruments. It provides an efficient tool for the improvement of the beam diagnostic system and accelerator.
SSRF; data warehouse; beam diagnostics; abnormal detection
2014-01-24;
2014-06-30
國家自然科學(xué)基金資助項(xiàng)目(11075198,11305253,11105211);中國科學(xué)院知識(shí)創(chuàng)新工程新銳計(jì)劃項(xiàng)目資助(Y45501306)
賴龍偉(1985—),男,江西寧都人,助理研究員,博士,核技術(shù)及應(yīng)用專業(yè)
*通信作者:冷用斌,E-mail: lengyongbin@sinap.ac.cn
TL506
A
1000-6931(2015)06-1149-04
10.7538/yzk.2015.49.06.1149