• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      ETL國(guó)產(chǎn)服務(wù)器替代進(jìn)口服務(wù)器的研究

      2015-08-17 07:40:02朱順痣
      關(guān)鍵詞:內(nèi)存進(jìn)口服務(wù)器

      王 琰,朱順痣

      (廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024)

      ETL國(guó)產(chǎn)服務(wù)器替代進(jìn)口服務(wù)器的研究

      王琰,朱順痣

      (廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024)

      構(gòu)建中國(guó)建設(shè)銀行新疆分行將ETL應(yīng)用從進(jìn)口服務(wù)器遷移到國(guó)產(chǎn)服務(wù)器的遷移方案,搭建進(jìn)口服務(wù)器環(huán)境和國(guó)產(chǎn)服務(wù)器環(huán)境的運(yùn)行比較平臺(tái).根據(jù)工作流類型,比較典型工作流在兩環(huán)境下的運(yùn)行情況,發(fā)現(xiàn)雖然國(guó)產(chǎn)服務(wù)器基于內(nèi)存處理的性價(jià)比要差于進(jìn)口服務(wù)器,但若與生產(chǎn)環(huán)境中的進(jìn)口服務(wù)器平臺(tái)相比,無論從性能,還是從健壯性角度,國(guó)產(chǎn)服務(wù)器均可獨(dú)立承擔(dān)起銀行ETL應(yīng)用的工作.

      銀行ETL系統(tǒng);服務(wù)器國(guó)產(chǎn)化;健壯性;性能;數(shù)據(jù)遷移

      抽取、轉(zhuǎn)換和導(dǎo)入(extraction-transformation-loading,ETL)工作是銀行業(yè)務(wù)系統(tǒng)的基礎(chǔ)環(huán)節(jié),是國(guó)產(chǎn)服務(wù)器能否支持銀行業(yè)系統(tǒng)的關(guān)鍵.ETL應(yīng)用的實(shí)現(xiàn)已經(jīng)是一個(gè)較為成熟的領(lǐng)域,DataStage是一款能滿足大型數(shù)據(jù)遷移應(yīng)用的軟件產(chǎn)品,基于圖形化界面定制作業(yè)的靈活性和分布式數(shù)據(jù)處理能力,在ETL領(lǐng)域得到廣泛應(yīng)用.而且,由于ETL具有抽取和導(dǎo)入的步驟,ETL工具也常被用作數(shù)據(jù)遷移工具[1].但這種軟件產(chǎn)品無法應(yīng)對(duì)特殊環(huán)境,需要進(jìn)行功能上的擴(kuò)展和靈活配置.

      在數(shù)據(jù)遷移方面人們已經(jīng)有很多工作.大慶油田井下分公司數(shù)據(jù)中心建設(shè)時(shí),由于數(shù)據(jù)模型差異較大、業(yè)務(wù)規(guī)則復(fù)雜,需要專門開發(fā)一套基于元數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)遷移方案[2].而廣西大學(xué)圖書管理系統(tǒng)卻面臨著存儲(chǔ)大量東盟小語種書籍的需求,需要基于數(shù)據(jù)編碼格式作數(shù)據(jù)遷移[3].另外,對(duì)于基于信息系統(tǒng)變更或整合時(shí)的數(shù)據(jù)遷移,對(duì)舊系統(tǒng)的調(diào)查分析及事后的檢查也是必不可少的環(huán)節(jié)[4].文獻(xiàn)[5]進(jìn)一步提出一個(gè)可配置數(shù)據(jù)遷移框架,引入信息系統(tǒng)Web服務(wù)接口和業(yè)務(wù)規(guī)則引擎,實(shí)現(xiàn)數(shù)據(jù)遷移軟件與底層數(shù)據(jù)庫分離,提高了數(shù)據(jù)遷移中間件的可用性.

      隨著大數(shù)據(jù)環(huán)境的普及,人們的興趣逐漸傾向于大數(shù)據(jù)環(huán)境下的數(shù)據(jù)ETL和分布式ETL的實(shí)現(xiàn).例如,文獻(xiàn)[6]總結(jié)了大數(shù)據(jù)環(huán)境下海量數(shù)據(jù)遷移時(shí)所使用的ETL方法,并結(jié)合上海社保系統(tǒng)數(shù)據(jù)遷移的實(shí)踐,對(duì)多種方法進(jìn)行了嘗試.文獻(xiàn)[7]將開源工具Sqoop(可作為數(shù)據(jù)加載工具)和Hive(可作為數(shù)據(jù)轉(zhuǎn)換工具)相結(jié)合,構(gòu)建一個(gè)基于Hadoop平臺(tái)的分布式ETL工具.文獻(xiàn)[8]的研究更為深入,它對(duì)Hadoop底層源代碼進(jìn)行修改,改善了HDFS數(shù)據(jù)塊分配的合理性,提高了大數(shù)據(jù)遷移的傳輸效率.文獻(xiàn)[9]-[10]研究的是云模型下數(shù)據(jù)遷移的策略和技術(shù).銀行系統(tǒng)遷移方面的工作如文獻(xiàn)[11],它的重點(diǎn)是雙系統(tǒng)切換時(shí)的系統(tǒng)停機(jī)設(shè)計(jì),引入停機(jī)時(shí)間窗口內(nèi)提供小范圍服務(wù)的設(shè)計(jì)方案,降低因系統(tǒng)切換帶來的無法對(duì)外提供服務(wù)的損失.

      銀行ETL應(yīng)用類型多種多樣,數(shù)據(jù)分布各有不同,基于部分工作流的測(cè)試結(jié)果難以推廣.因此,本文首先構(gòu)建了一個(gè)將數(shù)據(jù)由進(jìn)口服務(wù)器遷移到國(guó)產(chǎn)服務(wù)器環(huán)境的遷移方案,并根據(jù)現(xiàn)有ETL工作流的類型,分析這些類型中的典型工作流在進(jìn)口服務(wù)器環(huán)境和國(guó)產(chǎn)服務(wù)器環(huán)境下性能和健壯性的表現(xiàn),發(fā)現(xiàn)國(guó)產(chǎn)服務(wù)器下的ETL應(yīng)用需要對(duì)這類工作流的運(yùn)行邏輯進(jìn)行適當(dāng)修改,以便提高內(nèi)存的使用率.

      1 對(duì)比環(huán)境描述

      銀行的應(yīng)用環(huán)境錯(cuò)綜復(fù)雜,需要通過示范應(yīng)用系統(tǒng)的移植進(jìn)一步擴(kuò)大研究和應(yīng)用范圍.本文的工作基于ETL應(yīng)用系統(tǒng)向國(guó)產(chǎn)高端容錯(cuò)服務(wù)器遷移的過程,構(gòu)建業(yè)務(wù)環(huán)境需求的遷移方案,并比較兩類服務(wù)器在性能和穩(wěn)定性方面對(duì)業(yè)務(wù)的支持程度.

      1.1數(shù)據(jù)與操作描述

      ETL工作主要用于數(shù)據(jù)庫增量的同步.ETL應(yīng)用的基本原理是:從各種原始的業(yè)務(wù)系統(tǒng)(異構(gòu)多源)中提取數(shù)據(jù),按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取到的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,最后將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部導(dǎo)入到目標(biāo)數(shù)據(jù)庫中.測(cè)試過程將涉及異構(gòu)數(shù)據(jù)庫主機(jī)環(huán)境下ETL應(yīng)用運(yùn)行一致性驗(yàn)證、增量數(shù)據(jù)動(dòng)態(tài)獲取、增量數(shù)據(jù)同步程序的開發(fā)及性能比較.

      本應(yīng)用環(huán)境中,ETL應(yīng)用的輸入數(shù)據(jù)分為總行下發(fā)數(shù)據(jù)和分行應(yīng)用數(shù)據(jù)兩類.前者以下簡(jiǎn)稱總推分?jǐn)?shù)據(jù),后者簡(jiǎn)稱分行數(shù)據(jù),兩者的數(shù)據(jù)量大致相等.每個(gè)環(huán)境中,數(shù)據(jù)庫內(nèi)存儲(chǔ)的全量數(shù)據(jù)達(dá)到8 T,批量處理所需的日增量(及短期歷史)的數(shù)據(jù)量達(dá)到2 TB,根據(jù)本項(xiàng)目存續(xù)的不同階段,對(duì)于存儲(chǔ)的峰值要求為10 TB.批量數(shù)據(jù)處理類應(yīng)用以后臺(tái)數(shù)據(jù)處理作業(yè)為主,每日日常運(yùn)行作業(yè)數(shù)量約為5 000個(gè),系統(tǒng)峰值出現(xiàn)在月初,月初峰值每日運(yùn)行作業(yè)數(shù)量將達(dá)到7 000個(gè)左右.

      1.2系統(tǒng)架構(gòu)

      如圖1所示,ETL系統(tǒng)分為進(jìn)口服務(wù)器和國(guó)產(chǎn)服務(wù)器兩個(gè)環(huán)境.這兩個(gè)環(huán)境的程序運(yùn)行邏輯基本一致,即針對(duì)分行應(yīng)用自身產(chǎn)生的數(shù)據(jù),在國(guó)外進(jìn)口服務(wù)器和國(guó)產(chǎn)服務(wù)器的異構(gòu)環(huán)境下運(yùn)行相同的ETL過程,將每日增量數(shù)據(jù)更新到各自對(duì)應(yīng)的數(shù)據(jù)庫中.兩套環(huán)境的比較僅基于分行數(shù)據(jù)ETL過程,不對(duì)總推分?jǐn)?shù)據(jù)的處理進(jìn)行比較.因此,分行數(shù)據(jù)的ETL將分別在國(guó)產(chǎn)服務(wù)器環(huán)境和進(jìn)口服務(wù)器環(huán)境執(zhí)行.而總推分?jǐn)?shù)據(jù)相關(guān)的ETL應(yīng)用則僅在進(jìn)口服務(wù)器環(huán)境執(zhí)行,然后通過Oracle物化視圖機(jī)制,將國(guó)產(chǎn)服務(wù)器環(huán)境中的總推分?jǐn)?shù)據(jù)建成物化視圖,根據(jù)對(duì)應(yīng)ETL作業(yè)結(jié)束信息,調(diào)用Oracle刷新物化視圖命令.國(guó)產(chǎn)服務(wù)器環(huán)境中的分行全量數(shù)據(jù)是在初始時(shí)一次性導(dǎo)入,而分行增量數(shù)據(jù)通過ETL應(yīng)用分別加入兩個(gè)環(huán)境中,本文需要比較的就是兩套環(huán)境下加載分行增量數(shù)據(jù)的ETL工作流的性能及其穩(wěn)定性.

      由于兩個(gè)環(huán)境的ETL過程和數(shù)據(jù)都是一致的,關(guān)鍵的不同在于數(shù)據(jù)庫服務(wù)器.前者采用HP服務(wù)器HP rp8420作為主機(jī),而后者的主機(jī)是浪潮天梭高端容錯(cuò)計(jì)算機(jī),型號(hào)為K1 950,這正好形成一個(gè)天然的比較環(huán)境.在數(shù)據(jù)庫服務(wù)器上,這兩個(gè)環(huán)境都采用Linux+Oracle的軟件架構(gòu).國(guó)外進(jìn)口服務(wù)器環(huán)境使用HP UNIX作為操作系統(tǒng),版本為HP 11iV1,數(shù)據(jù)庫使用ORACLE 10.2.0.5,國(guó)產(chǎn)服務(wù)器環(huán)境的軟件配置與之差不多,區(qū)別在于操作系統(tǒng)使用K-UX.當(dāng)然,由于國(guó)產(chǎn)服務(wù)器是本次為驗(yàn)證國(guó)產(chǎn)服務(wù)器可用性而專程采購,設(shè)備較新,配置較好.本文的工作不是聚焦在比較國(guó)產(chǎn)服務(wù)器與進(jìn)口服務(wù)器自身的好壞,應(yīng)該采購哪款產(chǎn)品,而是關(guān)注國(guó)產(chǎn)服務(wù)器能否完成進(jìn)口服務(wù)器目前所進(jìn)行的工作,以及對(duì)哪類工作支持不好.具體配置將在第3節(jié)實(shí)驗(yàn)分析中說明.

      2 典型的ETL工作流類型

      ETL應(yīng)用由工作流組成,工作流是操作和存儲(chǔ)的有序關(guān)聯(lián).為驗(yàn)證國(guó)產(chǎn)服務(wù)器在銀行ETL應(yīng)用下的運(yùn)行效果,需要對(duì)ETL工作流進(jìn)行劃分,以便根據(jù)不同類別進(jìn)行比較.數(shù)據(jù)倉庫方面最著名的測(cè)試基準(zhǔn)是TPC-H[12].但是對(duì)于ETL系統(tǒng),其場(chǎng)景相對(duì)較簡(jiǎn)單,并不合適.因此,惠普實(shí)驗(yàn)室Simitsis等人提出了一個(gè)面向ETL工作流的測(cè)試基準(zhǔn)[13].該測(cè)試基準(zhǔn)基于操作與存儲(chǔ)的關(guān)系將工作流分為線型(line)、y型(wishbone)、匯入型(primary flow)、樹型(tree)、分支型(fork)以及蝴蝶型(butterfly)等若干種.本文主要用到線型、樹型、分支型、蝴蝶型等4種,并根據(jù)實(shí)際需求增加:對(duì)稱樹型和混合型.圖2即是這些類型,圖2中圓柱表示數(shù)據(jù)存儲(chǔ),包括表或物化視圖,而三角形標(biāo)志表示操作.

      1)線型工作流.這是指源是單表、然后對(duì)該表依順序作一系列操作、最后將結(jié)果導(dǎo)入到另一張表的一類工作流,其操作過程是一個(gè)順序的流程,故稱為線型工作流.操作的過程中允許數(shù)據(jù)落地,操作包括過濾、字符串操作、分組聚集等.示例工作流的圖形結(jié)構(gòu)如圖2(a)所示.

      2)樹型工作流.這是多個(gè)線型工作流的組合.在這類工作流中,分不出干流與支流,這體現(xiàn)了多個(gè)源平等融入目標(biāo)的過程.樹型工作流的圖形結(jié)構(gòu)如圖2(b)所示.從圖2(b)中可以看出,該工作流是由3個(gè)匯入型工作流合并而成,每個(gè)匯入型工作流的長(zhǎng)度相同,無法區(qū)分正源.而合并后的操作又形成一條線型工作流.整個(gè)圖形結(jié)構(gòu)向右偏轉(zhuǎn)90度來看,猶如一棵參天巨樹,故名樹型工作流.

      3)分支型工作流.該工作流如圖2(c)所示,與樹型工作流正好相反,分支型工作流是將單個(gè)源的數(shù)據(jù)進(jìn)行處理,最后分散到多個(gè)目標(biāo).

      4)蝴蝶型工作流.這是最復(fù)雜的工作流,是分支型工作流和樹型工作流的合并.它通過合并操作將多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并,然后分散到不同的數(shù)據(jù)目的中.示例的圖形結(jié)構(gòu)如圖2(d)所示,該工作流分別對(duì)零件-供應(yīng)表和供應(yīng)商表的增量數(shù)據(jù)進(jìn)行轉(zhuǎn)換,然后將二者進(jìn)行連接形成中間存儲(chǔ)View09,并在該物化視圖的基礎(chǔ)上分別基于國(guó)家和零件號(hào)以及國(guó)家和供應(yīng)商號(hào),計(jì)算各統(tǒng)計(jì)信息,最終將兩類統(tǒng)計(jì)信息分別存儲(chǔ)到不同的數(shù)據(jù)目的地,物化視圖View12和View13.

      5)對(duì)稱樹型工作流.這是對(duì)建行新疆分行現(xiàn)有工作流進(jìn)行分析的基礎(chǔ)上發(fā)現(xiàn)的一種工作流.該工作流的圖形結(jié)構(gòu)如圖2(e)所示,它可視為由一個(gè)反向樹型工作流再加上一個(gè)樹型工作流組成.該工作流由一個(gè)數(shù)據(jù)源出發(fā),中間經(jīng)過處理后產(chǎn)生多個(gè)分叉,而這些分叉最終再合并到一個(gè)數(shù)據(jù)存儲(chǔ)中.

      6)混合型工作流.這是另一種在實(shí)際環(huán)境中出現(xiàn)的工作流,它由多個(gè)部分組成,而各個(gè)部分之間沒有交集,可以各自獨(dú)立完成,各部分之間的關(guān)系是完全并行結(jié)構(gòu).從邏輯上,此類工作流可拆分成各個(gè)獨(dú)立的工作流.在實(shí)際工作中,一方面,開發(fā)人員在設(shè)計(jì)工作流時(shí),出于便于管理的目的,根據(jù)工作流所屬系統(tǒng),將屬于同一個(gè)系統(tǒng)的工作合并在一個(gè)工作流中,一個(gè)工作流結(jié)束則意味該系統(tǒng)的工作全部結(jié)束.另一方面,工作流數(shù)量的減少也有助于降低調(diào)度服務(wù)器CTM的壓力.圖2(f)是這類工作流的一個(gè)樣例,該工作流由兩個(gè)獨(dú)立的線型工作流構(gòu)成.

      根據(jù)對(duì)建行新疆分行實(shí)際工作流的調(diào)研,目前系統(tǒng)中的工作流多是這類混合型工作流.因此,在實(shí)際的實(shí)驗(yàn)時(shí),此類工作流的結(jié)構(gòu)甚為復(fù)雜,會(huì)對(duì)性能分析造成不利影響.在之后的實(shí)驗(yàn)中需要根據(jù)工作流的復(fù)雜程度分析工作流的性能,本文引入工作流長(zhǎng)度描述工作流的復(fù)雜長(zhǎng)度,定義如下:

      定義1運(yùn)行線路,即從任一數(shù)據(jù)源存儲(chǔ)到任一數(shù)據(jù)目標(biāo)存儲(chǔ)的數(shù)據(jù)處理過程.

      定義2工作流長(zhǎng)度,即工作流圖形結(jié)構(gòu)中最長(zhǎng)運(yùn)行線路上的操作個(gè)數(shù)之和.

      接下來,本文將根據(jù)典型類別對(duì)實(shí)際運(yùn)行工作流在兩類服務(wù)器上的表現(xiàn)進(jìn)行比較,判斷國(guó)產(chǎn)服務(wù)器是否能替代進(jìn)口服務(wù)器.

      3 實(shí)驗(yàn)分析

      本實(shí)驗(yàn)平臺(tái)分別搭建在兩個(gè)環(huán)境上,一個(gè)是以惠普服務(wù)器作為ETL的數(shù)據(jù)庫服務(wù)器,另一個(gè)環(huán)境是以國(guó)產(chǎn)浪潮天梭服務(wù)器作為ETL的數(shù)據(jù)庫服務(wù)器.兩個(gè)環(huán)境都是由4臺(tái)機(jī)器構(gòu)成,其中1臺(tái)是數(shù)據(jù)庫服務(wù)器,另外3臺(tái)是ETL客戶機(jī).各機(jī)器總體性能的描述如下:1)所有機(jī)器上CPU的空閑比例都很高,最低的一臺(tái)機(jī)器也達(dá)到95.9%;2)客戶機(jī)的空閑內(nèi)存占比相當(dāng)高,最低的一臺(tái)機(jī)器達(dá)到90.6%;3)服務(wù)器的空閑內(nèi)存比僅有3.28%.

      數(shù)據(jù)庫服務(wù)器的配置:國(guó)產(chǎn)服務(wù)器環(huán)境的數(shù)據(jù)庫服務(wù)器使用是浪潮天梭K1 950服務(wù)器,CPU為32×1.86 GB,內(nèi)存為1 TB,操作系統(tǒng)為K-UX(一款類Linux操作系統(tǒng)),數(shù)據(jù)庫使用Oracle Server10.2.0.5 for linux,進(jìn)口服務(wù)器環(huán)境的數(shù)據(jù)庫服務(wù)器使用HP rp8420服務(wù)器,CPU為16×1.1 GB,內(nèi)存為64 GB,操作系統(tǒng)為HP 11iV1,數(shù)據(jù)庫使用Oracle Server10.2.0.5 for HP-US.

      常見的測(cè)試基準(zhǔn)多使用性價(jià)比、吞吐量、功耗指標(biāo)以及綜合指標(biāo),例如綜合功耗與吞吐量的每小時(shí)查詢綜合性能指標(biāo)作為服務(wù)器評(píng)估依據(jù).由于兩個(gè)環(huán)境的服務(wù)器采購時(shí)間和硬件配置不同,無法在同樣的基準(zhǔn)上進(jìn)行比較,這也是終端用戶測(cè)試所面臨的常見問題.因此,本實(shí)驗(yàn)的目的并非精確比較各工作流在性能上的差距,而是判斷在硬件配置提升的情形下,新環(huán)境能否在性能和穩(wěn)定性上替代原有環(huán)境.其次,通過類似性價(jià)比指標(biāo)判斷國(guó)產(chǎn)服務(wù)器在應(yīng)用上還存在哪些問題.3.1工作流基本信息

      本文的實(shí)驗(yàn)是在實(shí)際環(huán)境上運(yùn)行的,總體運(yùn)行時(shí)間達(dá)半年.由于數(shù)據(jù)獲取原因,本文從現(xiàn)有的90多個(gè)工作流中隨機(jī)抽取了10個(gè)工作流的一周運(yùn)行數(shù)據(jù)進(jìn)行分析.這些工作流大部分都是混合型工作流,表1是對(duì)這些工作流的基本描述.這些工作流的結(jié)構(gòu)比理論上的情況要復(fù)雜得多,每個(gè)混合型工作流由多個(gè)基本工作流構(gòu)成,而且構(gòu)成混合工作流的基本工作流的長(zhǎng)度都比較深.

      表1 工作流性能的描述

      3.2工作流性能分析

      由于各工作流的運(yùn)行時(shí)長(zhǎng)各不相同,且相差極大,有些工作流的正常運(yùn)行時(shí)長(zhǎng)僅有10多分鐘,而有些則長(zhǎng)達(dá)400多分鐘.為了使比較具有說服力,本文采取對(duì)每個(gè)工作流進(jìn)行討論,分原始運(yùn)行時(shí)間和去噪后運(yùn)行時(shí)間兩個(gè)系列,展示國(guó)產(chǎn)服務(wù)器環(huán)境與進(jìn)口服務(wù)器環(huán)境下運(yùn)行時(shí)間的區(qū)別,具體結(jié)果如圖3所示.圖3的橫軸是工作流,列出了第1~第10個(gè)工作流,縱坐標(biāo)則是國(guó)產(chǎn)服務(wù)器環(huán)境的運(yùn)行時(shí)長(zhǎng)與進(jìn)口服務(wù)器環(huán)境的運(yùn)行時(shí)長(zhǎng)之比,單位是百分?jǐn)?shù).

      從圖3中可以看出,在不考慮硬件配置的情形下,從原始運(yùn)行時(shí)間來看,從第1個(gè)工作流到第10個(gè)工作流,雖然國(guó)產(chǎn)服務(wù)器的運(yùn)行時(shí)長(zhǎng)與進(jìn)口服務(wù)器相比,一直都不超過100%.但是,其比例是不斷上升的,第一個(gè)工作流的比例還在50%以下,而最后一個(gè)就接近100%了.從去噪后的運(yùn)行時(shí)間來看,其趨勢(shì)與原始時(shí)間也是類似的,基本呈逐漸上升趨勢(shì),除了第3個(gè)工作流有輕微的下降.在去噪后的正常情況下,與進(jìn)口服務(wù)器相比,在大部分工作流上,國(guó)產(chǎn)服務(wù)器的表現(xiàn)要遜色于未去噪的情況.這說明,異常情況對(duì)國(guó)產(chǎn)服務(wù)器的性能影響會(huì)更小.因此,不管是未去噪的原始運(yùn)行時(shí)間,還是去噪后的運(yùn)行時(shí)間,絕大部分的工作流都體現(xiàn)出國(guó)產(chǎn)服務(wù)器環(huán)境的運(yùn)行效果不弱于進(jìn)口服務(wù)器環(huán)境的特點(diǎn).除了第10個(gè)工作流,在去噪后的比較中,國(guó)產(chǎn)服務(wù)器的性能略差于進(jìn)口服務(wù)器的.

      3.3工作流性能波動(dòng)分析

      從工作流運(yùn)行性能比較中可以看出,在實(shí)際運(yùn)行中運(yùn)行的時(shí)長(zhǎng)會(huì)出現(xiàn)波動(dòng),有些工作流的性能波動(dòng)還比較大.為了一起比較所有工作流的波動(dòng),本文采用了變異系數(shù)(變異系數(shù)=標(biāo)準(zhǔn)差/平均值)的概念.實(shí)驗(yàn)結(jié)果如圖4所示,橫軸是10個(gè)工作流,縱軸是變異系數(shù)的值,圖4上有兩條曲線,一條是國(guó)產(chǎn)服務(wù)器上各工作流的變異系數(shù),另一條則對(duì)應(yīng)進(jìn)口服務(wù)器的表現(xiàn).從圖4中可以看出,除了第3個(gè)工作流外,國(guó)產(chǎn)服務(wù)器的變異系數(shù)都要小于進(jìn)口服務(wù)器.變異系數(shù)越小,說明每次運(yùn)行時(shí)長(zhǎng)的變化比越小.因此得出:國(guó)產(chǎn)服務(wù)器的健壯性更強(qiáng).圖4也與圖3形成呼應(yīng),在運(yùn)行時(shí)間比較圖中,僅有工作流3在去噪后的表現(xiàn)優(yōu)于未去噪的情況.而圖4中也僅有工作流3在國(guó)產(chǎn)服務(wù)器上的變異系數(shù)高于進(jìn)口服務(wù)器上的變異系數(shù).這說明,變異系數(shù)與去噪前后的性能比相關(guān).

      3.4基于工作流運(yùn)行時(shí)間的性價(jià)比分析

      由于兩環(huán)境的硬件配置不同,需要考慮進(jìn)行性價(jià)比較.由于兩款設(shè)備購買時(shí)間不同,根據(jù)購買價(jià)格進(jìn)行分析,無法體現(xiàn)實(shí)際差別,需要對(duì)傳統(tǒng)的性價(jià)比指標(biāo)進(jìn)行調(diào)整.根據(jù)表1可看出,影響ETL工作流性能的主要瓶頸在于數(shù)據(jù)庫服務(wù)器的內(nèi)存,為此,本文定義了一個(gè)性價(jià)比指標(biāo),即:

      定義3每GB內(nèi)存上每小時(shí)運(yùn)行次數(shù) = 60 / (工作流運(yùn)行時(shí)長(zhǎng)(單位分鐘) * 服務(wù)器內(nèi)存),單位為:次數(shù)/GB.

      實(shí)驗(yàn)結(jié)果如圖5所示,由于去噪時(shí)間與原始時(shí)間的效果差別不大,故僅顯示去噪時(shí)間的效果,圖5的橫軸是10個(gè)工作流,縱軸是去噪時(shí)間上基于內(nèi)存的性價(jià)比.圖上兩條線對(duì)應(yīng)國(guó)產(chǎn)服務(wù)器環(huán)境和進(jìn)口服務(wù)器環(huán)境,圖中的值越高則說明性價(jià)比越高.從圖5得出:進(jìn)口服務(wù)器的性價(jià)比會(huì)高于國(guó)產(chǎn)服務(wù)器的.特別是工作流4、6、8、10上,國(guó)產(chǎn)服務(wù)器的性價(jià)比要遠(yuǎn)遠(yuǎn)落后于進(jìn)口服務(wù)器.根據(jù)對(duì)這4個(gè)工作流的描述,該工作流都包含了一個(gè)長(zhǎng)度較大的線型工作流.由于兩套環(huán)境的軟件配置基本一致,因此問題的緣由可能在于操作系統(tǒng)方面,國(guó)產(chǎn)服務(wù)器使用的操作系統(tǒng)是在Linux基礎(chǔ)上修改得到的K-UX,而進(jìn)口服務(wù)器使用的操作系統(tǒng)是HP-UX.可能K-UX在內(nèi)存分配、回收等方面未考慮ETL的特點(diǎn),導(dǎo)致對(duì)內(nèi)存的低效使用.因此,對(duì)終端客戶而言,下一步的工作是考慮針對(duì)長(zhǎng)度較深的線型工作流的K-UX內(nèi)存耗費(fèi)較大的特點(diǎn),進(jìn)行應(yīng)用程序的修改,以優(yōu)化工作流的運(yùn)行性能,更好地提升對(duì)內(nèi)存的利用.

      4 小結(jié)

      本文對(duì)中國(guó)建設(shè)銀行新疆分行將ETL應(yīng)用系統(tǒng)遷移至國(guó)產(chǎn)化服務(wù)器環(huán)境的過程進(jìn)行了描述,完成了在國(guó)產(chǎn)服務(wù)器上部署ETL應(yīng)用的一個(gè)嘗試,并通過實(shí)驗(yàn)展示了國(guó)產(chǎn)服務(wù)器與進(jìn)口服務(wù)器在性能方面的優(yōu)劣.從實(shí)驗(yàn)的結(jié)果來看,在現(xiàn)有ETL應(yīng)用中,國(guó)產(chǎn)服務(wù)器無論在健壯性還是性能方面的表現(xiàn)都可以取代現(xiàn)有的進(jìn)口服務(wù)器環(huán)境.但是,在實(shí)驗(yàn)中也發(fā)現(xiàn),在基于內(nèi)存計(jì)算的性價(jià)比方面,國(guó)產(chǎn)服務(wù)器還是遜色于進(jìn)口服務(wù)器,特別是存在長(zhǎng)度較深的線型工作流時(shí).因此若要部署國(guó)產(chǎn)服務(wù)器,需要對(duì)這類工作流的運(yùn)行邏輯進(jìn)行修改,以便提高內(nèi)存的使用率.最后,筆者也建議國(guó)產(chǎn)服務(wù)器廠商對(duì)操作系統(tǒng)的內(nèi)存分配與置換進(jìn)行優(yōu)化,以便更好地推廣產(chǎn)品.

      當(dāng)然,本文的實(shí)驗(yàn)也存在著若干不足:一方面由于時(shí)間因素,實(shí)驗(yàn)還不夠充分,只選取了10個(gè)工作流以及一周的運(yùn)行情況,需要擴(kuò)大數(shù)據(jù)的搜集范圍,進(jìn)行更為細(xì)致的實(shí)驗(yàn);另一方面,對(duì)于工作流未進(jìn)行更深入的分解,特別是混合型工作流,應(yīng)該分析到每個(gè)獨(dú)立成分的運(yùn)行時(shí)長(zhǎng),以便更好地展示國(guó)產(chǎn)服務(wù)器對(duì)不同類型工作流的影響.因此,需要將這些工作總結(jié)起來,綜合這些工作流和數(shù)據(jù),并根據(jù)數(shù)據(jù)的分布,設(shè)計(jì)一個(gè)人造數(shù)據(jù)生成器,形成一個(gè)ETL應(yīng)用的測(cè)試基準(zhǔn),為在ETL應(yīng)用大規(guī)模推廣國(guó)產(chǎn)服務(wù)器做好基礎(chǔ)工作.

      致謝:感謝贊揚(yáng)豐碩公司與中國(guó)建設(shè)銀行新疆分行搭建的實(shí)驗(yàn)環(huán)境.

      [1]MOHAMMED AL-KATEB,ALAIN C.Adding a temporal dimension to the TPC-H benchmark[C]//4th TPC Technology Conference.Istanbul:TPCTC,2012.

      [2]ALKIS S,PANOS V.Benchmarking ETL workflows[C]//Proc of TPCTC 2009.Lyon:TPCTC,2009.

      [3]宋鵬,廉繼.ETL技術(shù)在復(fù)雜數(shù)據(jù)遷移項(xiàng)目中的應(yīng)用[J].西安工程大學(xué)學(xué)報(bào),2008,22(4):493- 497.

      [4]叢慧剛,任慶東,李天陽,等.元數(shù)據(jù)驅(qū)動(dòng)的大型數(shù)據(jù)庫遷移工具實(shí)現(xiàn)[J].科學(xué)技術(shù)與工程,2011,11(10):2353-2356.

      [5]陳園園,陶飛.社保信息系統(tǒng)中數(shù)據(jù)遷移的實(shí)現(xiàn)[J].蘇州市職業(yè)大學(xué)學(xué)報(bào),2011,22(2):27-30.

      [6]何剛.基于Hadoop平臺(tái)的分布式ETL研究與實(shí)現(xiàn)[D].上海:東華大學(xué),2014.

      [7]王剛,王冬,李文,等.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)遷移技術(shù)研究[J].微型電腦應(yīng)用,2013,30(5):1-3.

      [8]劉豹.一種分布式 ETL 工具的設(shè)計(jì)與實(shí)現(xiàn)[J].軟件,2013,34(10):73-77.

      [9]韓劍峰.可配置化數(shù)據(jù)遷移框架的研究與實(shí)現(xiàn)[D].上海:上海交通大學(xué),2011.

      [10]唐小新.基于Unicode字符集數(shù)據(jù)遷移的設(shè)計(jì)與實(shí)現(xiàn)[J].企業(yè)科技與發(fā)展,2011(17):22-24.

      [11]林衛(wèi)華.銀行計(jì)算機(jī)系統(tǒng)數(shù)據(jù)遷移與系統(tǒng)停機(jī)的研究與應(yīng)用[D].長(zhǎng)春:吉林大學(xué),2011.

      [12]OI H,NIBOSHI S.Workload analysis of SPECj Enterprise 2010[C]//IEEE 10th International Symposium Proc of Parallel and Distributed Processing with Applications (ISPA).Leganes:IEEE,2012.

      [13]JAN M S.The linpack benchmark[N].Computer World,2005-05-30(8).

      (責(zé)任編輯雨松)

      Study on Substituting Localized Servers forImported Servers on ETL Application

      WANG Yan,ZHU Shun-zhi

      (School of Computer and Information Engineering,Xiamen University of Technology,Xiamen 361024,China)

      Based on a migration process of ETL applications from imported servers to localized servers environment in China Construction Bank,Xinjiang Branch,firstly,a migration solution is designed for building a comparison platform for localized servers and imported servers;Secondly,a comparison for typical types of workflows is finished under these environments,a conclusion could be drawn that banking ETL application could entirely implemented on localized server,not only from aspect of efficiency,but also from robustness.Although on localized servers,the price/performance metric of ram processing is worse than that of imported servers.

      banking ETL system;server localization,robustness;performance,data migration

      2014-10-29

      2015-01-23

      國(guó)家自然科學(xué)基金項(xiàng)目(61373147)

      王琰(1977-),男,講師,博士,研究方向?yàn)閿?shù)據(jù)庫、數(shù)據(jù)挖掘.E-mail:wangyan@xmut.edu.cn

      TP399

      A

      1673-4432(2015)01-0079-07

      猜你喜歡
      內(nèi)存進(jìn)口服務(wù)器
      通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計(jì)與實(shí)現(xiàn)
      “春夏秋冬”的內(nèi)存
      數(shù)據(jù)進(jìn)口
      汽車縱橫(2017年3期)2017-03-18 11:21:22
      得形忘意的服務(wù)器標(biāo)準(zhǔn)
      數(shù)據(jù)—進(jìn)口
      汽車縱橫(2016年9期)2016-10-27 12:48:07
      數(shù)據(jù) 進(jìn)口
      汽車縱橫(2016年8期)2016-09-24 15:39:05
      計(jì)算機(jī)網(wǎng)絡(luò)安全服務(wù)器入侵與防御
      把“進(jìn)口門到門”做到極致
      基于內(nèi)存的地理信息訪問技術(shù)
      上網(wǎng)本為什么只有1GB?
      周宁县| 民丰县| 双桥区| 凤冈县| 和平县| 清水河县| 石狮市| 乐至县| 阳高县| 苗栗县| 南宫市| 深圳市| 河间市| 溆浦县| 张北县| 汶上县| 蓝田县| 平泉县| 双峰县| 白水县| 西藏| 奉化市| 长寿区| 依安县| 红安县| 娄底市| 福海县| 讷河市| 同江市| 泰兴市| 伊春市| 高邮市| 鸡西市| 司法| 礼泉县| 洪雅县| 资阳市| 冕宁县| 九龙县| 盈江县| 华安县|