郝 彬, 李 薇
(上海交通大學藥學院,上海 200240)
色譜、質(zhì)譜以及色譜-質(zhì)譜聯(lián)用是高校和科研單位大型儀器共享平臺最常見的檢測儀器,服務(wù)于生命科學、藥學、醫(yī)學等研究領(lǐng)域內(nèi)的定量和定性分析,其特點是樣本量多(幾十個至上千個,連續(xù)檢測數(shù)小時至數(shù)天)、分析及數(shù)據(jù)處理時間長(幾小時至幾天)。常規(guī)的儀器管理平臺可對色譜、質(zhì)譜儀器進行日常管理,如信息管理、開放預約、使用記錄與統(tǒng)計等[1-4]。提高儀器的共享使用率需解決兩大技術(shù)和管理問題,即儀器的運行效率和數(shù)據(jù)的處理效率。數(shù)據(jù)分析與樣品測試各自獨立運行可有效增加儀器的測試機時與樣品量,提高儀器利用率。
數(shù)據(jù)處理軟件是樣品數(shù)據(jù)分析的主要工具,是色譜、質(zhì)譜分析技術(shù)不可或缺的重要組成部分[5-7]。色譜、質(zhì)譜儀器所產(chǎn)生的數(shù)據(jù)均需專門的數(shù)據(jù)處理軟件進行分析[8],而大部分軟件是與儀器硬件相配套,由儀器廠商提供且具有一定的使用授權(quán),因此這些數(shù)據(jù)處理工作只能在采集數(shù)據(jù)的電腦上或?qū)S秒娔X上進行,受到使用時間及場所的限制。而實驗人員可利用網(wǎng)絡(luò)遠程連接到數(shù)據(jù)工作站上處理大型儀器所采集的數(shù)據(jù)[9-10],不再受時間和空間的限制;管理人員也可以進行遠程協(xié)助及故障診斷與處理,從而大大拓展儀器使用空間和時間。
虛擬機可以單獨支持不同的系統(tǒng),相互獨立,又便于管理與維護[11-12]。目前,遠程-虛擬機方案已經(jīng)用于計算機實驗教學等方面[11,13],但尚沒有儀器共享平臺數(shù)據(jù)處理應(yīng)用方面的相關(guān)報道。本文針對院級公共儀器平臺中各色譜、質(zhì)譜儀器數(shù)據(jù)處理軟件的運行要求、遠程訪問、安全與維護等一系列關(guān)鍵技術(shù)問題進行研究,提出遠程-虛擬機模型,并以此模型為基礎(chǔ),嘗試設(shè)計和構(gòu)建一個色譜、質(zhì)譜遠程數(shù)據(jù)處理平臺,實現(xiàn)色譜、質(zhì)譜數(shù)據(jù)的遠程處理,為院級公共平臺大型儀器共享管理提供技術(shù)保障。
根據(jù)軟件安裝平臺以及每個平臺可同時開放服務(wù)的用戶數(shù)量,遠程數(shù)據(jù)處理平臺可分為物理機獨立和共享模式,以及虛擬機獨立和共享模式共4種類型。
獨立模式是指將1個色譜、質(zhì)譜處理軟件安裝運行在1個獨立的物理機或虛擬機上,其隔離級別最高,運行效率最高,但增加了維護和購置成本,需占用更多的資源。完全物理機的獨立模式無疑是運行效率最高,特別適用于長時間、高負荷的數(shù)據(jù)計算,但其購置與維護成本、能耗也最高。
共享模式是指將多個色譜、質(zhì)譜處理軟件安裝運行在1個物理機或虛擬機上,不同用戶分別或同時使用數(shù)據(jù)處理程序。這是共享程度最高、隔離級別最低的模式,其優(yōu)點是:維護和購置成本最低,減少物理機或虛擬機數(shù)量意味著降低購置成本和維護成本。缺點是:隔離級別、安全性最低,系統(tǒng)崩潰將影響所有共享用戶,而且單一處理軟件只能限定1位用戶,其中1個用戶運行高負荷數(shù)據(jù)處理工作將占用大量系統(tǒng)資源從而影響其他用戶的工作。因而盡管共享模式是一種最經(jīng)濟的方式,但僅適用于同時進行輕負荷數(shù)據(jù)處理工作,或進行單一的高負荷工作。平臺組建4種模式的比較見表1。
表1 平臺4種組建模式的比較
基于物理機或虛擬機的遠程數(shù)據(jù)處理平臺,其獨立與共享模式的選擇可從經(jīng)濟性、安全性、使用頻率及使用方式等方面去考慮,必要時可采用獨立與共享相結(jié)合的方式來保證數(shù)據(jù)處理的性能和效率。由于各個色譜、質(zhì)譜處理軟件安裝要求不同,應(yīng)用范圍各異,使用頻率高低不同,實際應(yīng)用中需兼顧性能與成本的平衡。
公共平臺的色譜、質(zhì)譜儀器一般來源于多個生產(chǎn)廠商,每臺儀器的軟件運行環(huán)境存在明顯差異,對操作系統(tǒng)、運行庫等要求不同。虛擬機可以單獨支持不同的系統(tǒng),相互獨立,又便于管理和維護,并可分別運行多個獨立數(shù)據(jù)處理程序而不相互干擾;虛擬機還可以提供最大程度的兼容性,便于軟件的部署。
一臺虛擬機服務(wù)器可運行多臺相互獨立的虛擬機以安裝不同的數(shù)據(jù)處理軟件,小規(guī)模色譜、質(zhì)譜平臺或?qū)嶒炇覂H用一臺服務(wù)器即可同時運行多臺獨立虛擬機。這種虛擬機技術(shù)在不增加CPU工作負荷的情況下,實現(xiàn)了更為穩(wěn)定和高效的虛擬機應(yīng)用。即使某個虛擬機出現(xiàn)故障無法運行也不會對其他虛擬機上的操作產(chǎn)生任何影響,同時故障虛擬機的恢復可通過虛擬機的克隆備份而得到快速恢復。
色譜和質(zhì)譜數(shù)據(jù)平臺選擇一臺服務(wù)器上同時運行4臺獨立虛擬機。遠程數(shù)據(jù)處理平臺具體配置為:Dell工作站1臺(物理機);路由器1臺,連接到校園網(wǎng)。Dell工作站安裝Windows Server 2019操作系統(tǒng),部署VMware workstation Pro 16.1虛擬機軟件,建立4個虛擬機并分別安裝Empower、Labsolution、MultiQuant以及Sciex OS數(shù)據(jù)處理軟件。Empower 3是目前Waters公司的色譜工作站,LabSolution是島津公司的色譜與質(zhì)譜采集與處理軟件,MultiQuant用于批量處理Sciex公司液相-三重四極桿質(zhì)譜儀Qtrap5500的定量數(shù)據(jù),Sciex OS可進行液相-四極桿飛行時間質(zhì)譜的高分辨質(zhì)譜數(shù)據(jù)分析。各軟件的安裝要求見圖1,物理機及各虛擬機的配置見圖2。
圖1 4種色譜、質(zhì)譜數(shù)據(jù)處理軟件的安裝要求*
圖2 物理機及各虛擬機的配置
在VMware workstation Pro上安裝虛擬機之前需根據(jù)各軟件的技術(shù)文檔確定相應(yīng)的安裝環(huán)境,如操作系統(tǒng)、CPU、內(nèi)存、硬盤空間,按要求配置虛擬機并安裝操作系統(tǒng)。本平臺分別建立了兩個虛擬機系統(tǒng),Win 7(32 bit)和Win 10(64 bit)。各虛擬機的配置,如CPU、內(nèi)存、硬盤等均可在虛擬機設(shè)置中進行調(diào)整,以分別滿足不同處理軟件的運行要求。如果多個虛擬機的操作系統(tǒng)相同,可以應(yīng)用虛擬機克隆生成多個相同的克隆虛擬機,然后將軟件部署在各個克隆虛擬機上,可節(jié)省大量的物理機硬盤空間[14-15]。同樣,安裝數(shù)據(jù)處理軟件并配置網(wǎng)絡(luò)后可再次進行虛擬機克隆,將克隆機提供給用戶使用。虛擬機系統(tǒng)故障時,只需使用備份的克隆文件恢復即可。鏈接克隆虛擬機所占用的磁盤空間較小,更有利于快速系統(tǒng)恢復。
虛擬機的網(wǎng)絡(luò)連接屬性設(shè)置為橋接模式,即將虛擬機直接連接到外部網(wǎng)絡(luò)。人工分配各虛擬機的IP地址,并指定其遠程桌面連接使用的端口。在路由器參數(shù)設(shè)置中,需在外部網(wǎng)絡(luò)(WAN)端進行端口轉(zhuǎn)發(fā)設(shè)置,包括物理機和各虛擬機的外部端口、IP地址和內(nèi)部端口參數(shù),以便外網(wǎng)的計算機可直接訪問虛擬機。
用戶采用遠程桌面接入的方式來訪問數(shù)據(jù)處理平臺[16]。遠程桌面連接工具除Window版本(系統(tǒng)自帶)外,微軟公司也提供安卓和蘋果Mac版本,支持手機、平板端和蘋果電腦的接入。用戶遠程接入的步驟為:①用戶在遠程桌面連接工具中輸入指定色譜質(zhì)譜數(shù)據(jù)處理軟件對應(yīng)的虛擬機IP地址和端口號,經(jīng)路由器轉(zhuǎn)接并通過服務(wù)器中VMware workstation連接到目標虛擬機;②經(jīng)用戶名及密碼驗證后登陸對應(yīng)的虛擬機系統(tǒng);③啟動色譜質(zhì)譜數(shù)據(jù)處理軟件進行數(shù)據(jù)分析。整個色譜質(zhì)譜數(shù)據(jù)處理平臺的拓撲結(jié)構(gòu)如圖3所示。
圖3 色譜、質(zhì)譜數(shù)據(jù)處理平臺的拓撲結(jié)構(gòu)示意圖
虛擬機中安裝預約管理程序,并接入學院公共儀器開放共享平臺。用戶使用前需在預約系統(tǒng)內(nèi)預約并取得驗證碼,遠程桌面連接到目標虛擬機后輸入預約驗證碼后方可使用相應(yīng)的數(shù)據(jù)處理系統(tǒng)。
在虛擬機系統(tǒng)中導入實驗數(shù)據(jù)后,測試人員應(yīng)用4臺電腦通過校園網(wǎng)連入色譜、質(zhì)譜數(shù)據(jù)處理平臺,遠程進行相應(yīng)的數(shù)據(jù)處理和分析。運行測試包括系統(tǒng)資源占用、軟件啟動時間、批量數(shù)據(jù)處理時間等。測試項目分為物理機測試、單虛擬機處理測試和全虛擬機處理測試。其中,物理機測試指將數(shù)據(jù)處理軟件安裝在獨立的物理機并運行測試;單虛擬機處理測試指單獨1臺虛擬機運行測試,其他3臺虛擬機處于空閑狀態(tài);全虛擬機處理測試指全部4臺虛擬機同時運行測試。測試指標為完成批量數(shù)據(jù)處理所用的時間,結(jié)果見表2。測試數(shù)據(jù)表明單虛擬機運行的性能相當于物理機的90%,即使4臺虛擬機同時運行,各分系統(tǒng)的性能仍可滿足4位用戶同時在線進行數(shù)據(jù)分析,其性能相當于物理機的80%-90%。
表2 數(shù)據(jù)處理系統(tǒng)的性能測試
色譜、質(zhì)譜數(shù)據(jù)遠程處理平臺的實現(xiàn)是基于虛擬機系統(tǒng)和遠程網(wǎng)絡(luò)訪問,其構(gòu)建的遠程處理系統(tǒng)具有一系列優(yōu)點:①實現(xiàn)分析儀器更高效的應(yīng)用,儀器的測試操作與數(shù)據(jù)處理分離,避免數(shù)據(jù)處理過程中占用過多的電腦系統(tǒng)資源;②有效地整合分析儀器數(shù)據(jù)處理資源,通過網(wǎng)絡(luò)把分散于不同儀器處理平臺的軟件有機地聯(lián)系起來,如可同時處理同一樣品的色譜與質(zhì)譜數(shù)據(jù),或不同質(zhì)譜平臺的數(shù)據(jù);③支持多用戶異地實時進行數(shù)據(jù)處理以及單用戶同時處理多項實驗數(shù)據(jù);④極強的靈活性和可拓展性,可根據(jù)軟件的應(yīng)用調(diào)整虛擬操作系統(tǒng)的配置,如增加內(nèi)存及硬盤空間;可增加多個虛擬機以適應(yīng)數(shù)據(jù)處理需要。
基于Windows Server 2019及VMware workstation基礎(chǔ)上的虛擬機運行數(shù)量有限,但安裝配置及維護均簡單方便,可滿足大多數(shù)色譜、質(zhì)譜數(shù)據(jù)處理需求。不足之處是:①服務(wù)器基于Windows Server 2019,本身需占用一定的系統(tǒng)資源;②服務(wù)器硬件水平限制了更強的虛擬機配置及虛擬機數(shù)量;③虛擬機的啟動及故障排查、恢復需人工處理。
更高性能的遠程數(shù)據(jù)處理平臺方案需要更強的服務(wù)器作為基礎(chǔ),即高頻、多核及多處理器,128G甚至192G內(nèi)存,大容量高速固態(tài)硬盤等。ESXi提供虛擬化服務(wù),即所有的虛擬機包括vCenter Server均運行在ESXi服務(wù)上面[17]。應(yīng)用vSphere client直接管理ESXi服務(wù)或通過vCenter間接管理ESXi服務(wù)。這樣通過VMware vSphere軟件可高效管理、訪問十幾臺至幾十臺虛擬機,不但可運行多個不同的數(shù)據(jù)處理軟件,也可同時運行相同的數(shù)據(jù)處理軟件進行不同的數(shù)據(jù)分析。
針對公共儀器測試平臺的色譜、質(zhì)譜數(shù)據(jù)處理問題,本文設(shè)計并建立了基于虛擬化技術(shù)的遠程數(shù)據(jù)處理平臺,將現(xiàn)有的本地數(shù)據(jù)處理程序以虛擬機為載體連入網(wǎng)絡(luò),從而實現(xiàn)多用戶同時進行數(shù)據(jù)的遠程訪問與處理。實踐證明,基于虛擬機和遠程桌面技術(shù)的數(shù)據(jù)處理平臺極大拓展了儀器使用空間和時間,能夠顯著提高大型儀器的共享程度,有效提高色譜和質(zhì)譜等分析儀器應(yīng)用效率和使用水平,在公共平臺及實驗室大型儀器共享和使用管理方面具有廣闊的應(yīng)用前景。