趙艷妮,郭華磊(.陜西職業(yè)技術(shù)學(xué)院計(jì)算機(jī)科學(xué)系,西安 7000;.西安通信學(xué)院信息服務(wù)系,西安 7006)
一種異構(gòu)信息系統(tǒng)數(shù)據(jù)遷移技術(shù)研究
趙艷妮1,郭華磊2
(1.陜西職業(yè)技術(shù)學(xué)院計(jì)算機(jī)科學(xué)系,西安710100;2.西安通信學(xué)院信息服務(wù)系,西安710106)
數(shù)據(jù)庫(kù)遷移作為一種實(shí)現(xiàn)數(shù)據(jù)共享的方式被主流數(shù)據(jù)庫(kù)廠商所支持,商業(yè)數(shù)據(jù)庫(kù)附帶的數(shù)據(jù)遷移工具主要有SQL Server數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換服務(wù)DTS、Oracle數(shù)據(jù)庫(kù)的Migration Workbench、DB2數(shù)據(jù)庫(kù)的Universal Database Migration Toolkit、MySQL數(shù)據(jù)庫(kù)的Migration Toolkit和達(dá)夢(mèng)數(shù)據(jù)庫(kù)的數(shù)據(jù)交換平臺(tái)DMETL。商業(yè) ETL工具主要包括國(guó)外的 Datastage、Powercenter、ETL Automation和國(guó)內(nèi)的Beeload、Primeton DI、ReiK-ing ETL等。開(kāi)源ETL工具主要包括國(guó)外的Kettle、Talend和國(guó)內(nèi)的TASKCTL。上述三種異構(gòu)數(shù)據(jù)庫(kù)ETL工具,各有其優(yōu)缺點(diǎn)。數(shù)據(jù)庫(kù)自帶ETL工具出于商業(yè)目的完全支持自己數(shù)據(jù)庫(kù)系統(tǒng)的操作使用,對(duì)其他數(shù)據(jù)庫(kù)系統(tǒng)支持較差;商業(yè)ETL工具功能最全面,幾乎支持所有主流數(shù)據(jù)庫(kù),但價(jià)格昂貴;開(kāi)源ETL工具成本低,但是后期培訓(xùn)費(fèi)用較高,功能有限,穩(wěn)定性和安全性無(wú)法保證[1]。本文提出一種通用異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)遷移的設(shè)計(jì)思路和實(shí)現(xiàn)方法,解決數(shù)據(jù)庫(kù)系統(tǒng)類(lèi)型不同導(dǎo)致的數(shù)據(jù)無(wú)法共享問(wèn)題。
如圖1所示,數(shù)據(jù)遷移的基本流程包括需求分析、技術(shù)實(shí)現(xiàn)和遷移驗(yàn)證3個(gè)重要環(huán)節(jié)。鑒于新老系統(tǒng)設(shè)計(jì)的差異和復(fù)雜性,需要進(jìn)行遷移驗(yàn)證,比較遷移后新老系統(tǒng)的運(yùn)行差異,發(fā)現(xiàn)不足,通過(guò)多次迭代不斷優(yōu)化遷移方案,實(shí)現(xiàn)系統(tǒng)切換后業(yè)務(wù)功能的平穩(wěn)過(guò)渡。信息服務(wù)系統(tǒng)信息遷移的基本流程分為準(zhǔn)備、實(shí)施和評(píng)估三個(gè)階段[2]。
(1)準(zhǔn)備階段。分析、清洗源數(shù)據(jù),確定遷移方案。首先,分析源數(shù)據(jù)。理清現(xiàn)有信息系統(tǒng)存儲(chǔ)平臺(tái)、操作系統(tǒng)類(lèi)型、數(shù)據(jù)庫(kù)系統(tǒng)結(jié)構(gòu)以及數(shù)據(jù)之間的邏輯關(guān)系。然后,清洗源數(shù)據(jù),并確定遷移方案。根據(jù)業(yè)務(wù)需求,刪除冗余、錯(cuò)誤數(shù)據(jù),改造二義數(shù)據(jù),實(shí)現(xiàn)信息的清洗和抽取,確定信息遷移范圍和方案。
(2)實(shí)施階段。包括預(yù)遷移和實(shí)施遷移。首先,進(jìn)行信息預(yù)遷移,即采用既定的遷移方案,從各種數(shù)據(jù)類(lèi)型中抽取樣本數(shù)據(jù)遷移到目標(biāo)平臺(tái)上。若遷移成功,則按該方案實(shí)施整體信息遷移;否則,返回源數(shù)據(jù)分析階段,重新制定遷移方案。
圖1 信息遷移基本流程示意圖
圖2 基于XML技術(shù)的異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)信息遷移框架圖
(3)評(píng)估階段。進(jìn)行系統(tǒng)可用性評(píng)估和目標(biāo)數(shù)據(jù)檢查。首先,進(jìn)行系統(tǒng)可用性評(píng)估。測(cè)試完全遷移后的數(shù)據(jù)對(duì)應(yīng)用業(yè)務(wù)的支持能力。若通過(guò)評(píng)估,則進(jìn)行目標(biāo)數(shù)據(jù)檢查;否則,重新確定遷移方案。目標(biāo)數(shù)據(jù)檢查,即對(duì)數(shù)據(jù)進(jìn)行合法性、完整性和一致性檢查。若檢查通過(guò),移交數(shù)據(jù);否則,重新遷移。
現(xiàn)有信息系統(tǒng)所使用的數(shù)據(jù)庫(kù)系統(tǒng),存在數(shù)據(jù)庫(kù)類(lèi)型多樣、數(shù)據(jù)格式不統(tǒng)一等問(wèn)題,其異構(gòu)性主要體現(xiàn)在以下三個(gè)方面[3]:
(1)數(shù)據(jù)庫(kù)系統(tǒng)異構(gòu)。數(shù)據(jù)可存儲(chǔ)在關(guān)系型、層次型、網(wǎng)絡(luò)型、面向?qū)ο笮秃秃瘮?shù)型等多種數(shù)據(jù)庫(kù)系統(tǒng)中,甚至文本文件中;
(2)數(shù)據(jù)類(lèi)型異構(gòu)。主要表現(xiàn)在:不同數(shù)據(jù)庫(kù)系統(tǒng),支持的數(shù)據(jù)類(lèi)型不同;即使同一數(shù)據(jù)類(lèi)型,其精度、計(jì)量單位、存儲(chǔ)方式等也可能不同;
(3)數(shù)據(jù)庫(kù)語(yǔ)義異構(gòu)。主要表現(xiàn)在:相同數(shù)據(jù)庫(kù)字段名稱,業(yè)務(wù)含義不同;相同業(yè)務(wù)含義,數(shù)據(jù)庫(kù)字段名稱不同;數(shù)據(jù)之間的完整性約束不同等。
實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)間信息遷移的關(guān)鍵,是利用中間件的轉(zhuǎn)換功能,解決數(shù)據(jù)庫(kù)系統(tǒng)間的異構(gòu)沖突。中間件技術(shù)是根據(jù)全局統(tǒng)一的公共數(shù)據(jù)模式和數(shù)據(jù)描述格式,準(zhǔn)確無(wú)二義地定義需遷移的數(shù)據(jù)格式,形成規(guī)范性說(shuō)明文檔,進(jìn)行數(shù)據(jù)轉(zhuǎn)換??刹捎没谠獢?shù)據(jù)、本體或XML等技術(shù)來(lái)實(shí)現(xiàn)。如圖2所示,描述了基于XML技術(shù)實(shí)現(xiàn)信息遷移的具體過(guò)程。
基于XML技術(shù)的異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)之間的信息遷移,通過(guò)將數(shù)據(jù)映射為XML文檔、數(shù)據(jù)類(lèi)型映射為XML Schema文檔的形式,建立文檔和數(shù)據(jù)庫(kù)系統(tǒng)之間的映射關(guān)系,解決不同數(shù)據(jù)庫(kù)系統(tǒng)間的異構(gòu)問(wèn)題[4]。
在信息服務(wù)系統(tǒng)運(yùn)行階段,經(jīng)常需要在保持業(yè)務(wù)連續(xù)性的條件下,實(shí)施在線的信息遷移,以滿足系統(tǒng)平臺(tái)的擴(kuò)展升級(jí)和數(shù)據(jù)庫(kù)系統(tǒng)的建設(shè)維護(hù)需求。
基于XML異構(gòu)數(shù)據(jù)庫(kù)信息遷移基本思路[5]:首先,建立源數(shù)據(jù)庫(kù)表到目標(biāo)數(shù)據(jù)庫(kù)表的映射關(guān)系模型,將源數(shù)據(jù)庫(kù)中數(shù)據(jù)按照指定規(guī)則抽取并轉(zhuǎn)換為XML特定格式保存到XML數(shù)據(jù)文件中;然后,根據(jù)需求對(duì)XML數(shù)據(jù)文件進(jìn)行相應(yīng)的數(shù)據(jù)更新和數(shù)據(jù)清洗,減少數(shù)據(jù)的錯(cuò)誤率和冗余度;最后把XML數(shù)據(jù)文件中數(shù)據(jù)轉(zhuǎn)換為目標(biāo)數(shù)據(jù)庫(kù)表相應(yīng)字段格式裝載到目標(biāo)數(shù)據(jù)庫(kù)中?;赬ML的數(shù)據(jù)遷移框架圖如圖2所示。
在異構(gòu)數(shù)據(jù)庫(kù)之間利用XML進(jìn)行數(shù)據(jù)遷移,要建立XML關(guān)系數(shù)據(jù)模型。XML數(shù)據(jù)關(guān)系模型以XML文件的形式表示源數(shù)據(jù)庫(kù)表與目標(biāo)數(shù)據(jù)庫(kù)表之間的映射關(guān)系。利用DOM4J解析器把XML數(shù)據(jù)文件的數(shù)據(jù)按照要求導(dǎo)入到目標(biāo)數(shù)據(jù)庫(kù)中。基于XML的關(guān)系數(shù)據(jù)模型結(jié)構(gòu)圖如圖3所示。
圖3 基于XML的關(guān)系數(shù)據(jù)模型結(jié)構(gòu)圖
由關(guān)系數(shù)據(jù)庫(kù)轉(zhuǎn)換為XML模式,關(guān)鍵有以下兩點(diǎn)[6]:
(1)結(jié)構(gòu)方面,能夠用XML最直觀最精確的方法表示出關(guān)系數(shù)據(jù)的結(jié)構(gòu);
(2)語(yǔ)義方面,盡可能多的直接從數(shù)據(jù)庫(kù)中獲取,并用最好的方式表達(dá)出來(lái)。
關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)本身是一種扁平結(jié)構(gòu),因此在映射到XML時(shí),用XML元素表示關(guān)系數(shù)據(jù)庫(kù)的列屬性,使用屬性和元素都能夠很好的表達(dá)數(shù)據(jù)類(lèi)型靈活,支持更多的語(yǔ)義約束,更容易擴(kuò)展。當(dāng)與關(guān)系數(shù)據(jù)庫(kù)進(jìn)行轉(zhuǎn)換時(shí),可以利用傳統(tǒng)的“對(duì)象—關(guān)系”映射技術(shù)來(lái)實(shí)現(xiàn)。如圖4所示。
圖4 關(guān)系數(shù)據(jù)庫(kù)與XML文檔轉(zhuǎn)換圖
將文本、圖片、視頻、音頻等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)遷移到數(shù)據(jù)庫(kù)時(shí),都是按照文件的方式存儲(chǔ)在大字段中,例如,SQL Server數(shù)據(jù)庫(kù)數(shù)據(jù)類(lèi)型為 “image”字段,Oracle數(shù)據(jù)庫(kù)數(shù)據(jù)類(lèi)型為“BLOB”字段,用來(lái)存儲(chǔ)圖片、文本、音頻和視頻等信息,種類(lèi)多、原理差異性非常大。因此,針對(duì)大字段數(shù)據(jù)的遷移是數(shù)據(jù)遷移的核心技術(shù),也是評(píng)估數(shù)據(jù)遷移是否成功的關(guān)鍵。
異構(gòu)數(shù)據(jù)庫(kù)信息遷移技術(shù)采用二進(jìn)制流文件方式實(shí)施大字段數(shù)據(jù)遷移[7],具體過(guò)程如下:
(1)根據(jù)制定的數(shù)據(jù)遷移方案,建立源數(shù)據(jù)和目標(biāo)數(shù)據(jù)庫(kù)字段間的映射表;
(2)根據(jù)字段映射表和查詢條件讀取源數(shù)據(jù)庫(kù)數(shù)據(jù),如果是大字段類(lèi)型,采用文件流方式,把數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制字符串,寫(xiě)入到中間文件中(本文大字段中間文件采用txt方式)。在XML文件中記錄大字段的字段類(lèi)型,在XML文件中大字段對(duì)應(yīng)的元素內(nèi)容記錄中間文件的存儲(chǔ)路徑,把源數(shù)據(jù)庫(kù)中大字段內(nèi)容以二進(jìn)制流方式讀出,轉(zhuǎn)化為二進(jìn)制字符串寫(xiě)入到中間文件;
(3)最后,解析XML文件,依據(jù)XML文件中大字段對(duì)應(yīng)的元素內(nèi)容記錄中間文件的存儲(chǔ)路徑讀取中間文件內(nèi)容,把二進(jìn)制字符串轉(zhuǎn)換為二進(jìn)制形式以流的形式寫(xiě)入到目標(biāo)數(shù)據(jù)庫(kù)。
基于“源數(shù)據(jù)庫(kù)-XML-目標(biāo)數(shù)據(jù)庫(kù)”的異構(gòu)數(shù)據(jù)庫(kù)遷移技術(shù)。在信息管理系統(tǒng)升級(jí)改造過(guò)程中,數(shù)據(jù)表結(jié)構(gòu)、表名稱,以及字段名稱和類(lèi)型可能發(fā)生改變,具體措施如下:
(1)根據(jù)制定的數(shù)據(jù)遷移方案,生成源數(shù)據(jù)和目標(biāo)數(shù)據(jù)庫(kù)之間的映射表,實(shí)現(xiàn)源數(shù)據(jù)表字段和目標(biāo)數(shù)據(jù)庫(kù)表之間的映射。如果表映射是“一對(duì)一”關(guān)系,僅僅建立源字段與目標(biāo)字段的映射;如果表映射是“多對(duì)一”或“一對(duì)多”關(guān)系,建立源表和源字段與目標(biāo)表和目標(biāo)字段組合的映射,通過(guò)組合映射解決表結(jié)構(gòu)發(fā)生改變的問(wèn)題;
(2)根據(jù)字段映射表,生產(chǎn)中間轉(zhuǎn)換的XML文件,記錄目標(biāo)數(shù)據(jù)庫(kù)名稱、目標(biāo)數(shù)據(jù)庫(kù)類(lèi)型、目標(biāo)表名稱、目標(biāo)字段名稱和目標(biāo)字段類(lèi)型,其中把目標(biāo)字段名稱作為XML的元素名稱,目標(biāo)字段類(lèi)型作為XML元素的屬性,把從源數(shù)據(jù)庫(kù)讀取的內(nèi)容轉(zhuǎn)換為字符串,作為對(duì)應(yīng)目標(biāo)字段名稱元素的內(nèi)容,如果是大字段,則存放其中間文件路徑;
(3)通過(guò)設(shè)置條件,可以查詢數(shù)據(jù)、刪除錯(cuò)誤的數(shù)據(jù)、驗(yàn)證數(shù)據(jù)等;
(4)通過(guò)解析XML文件,讀取目標(biāo)數(shù)據(jù)庫(kù)名稱、目標(biāo)數(shù)據(jù)表名稱、目標(biāo)字段名稱和字段元素內(nèi)容,根據(jù)字段名稱,在目標(biāo)數(shù)據(jù)庫(kù)中讀取字段類(lèi)型,然后根據(jù)字段類(lèi)型把字段元素內(nèi)容轉(zhuǎn)換為相應(yīng)格式,生產(chǎn)相應(yīng)SQL語(yǔ)句,裝載到目標(biāo)數(shù)據(jù)庫(kù)。通過(guò)以目標(biāo)字段名稱作為XML文件的元素,以該元素的字符串內(nèi)容為該字段內(nèi)容,解決了字段名稱和類(lèi)型發(fā)生改變的問(wèn)題。
基于XML的異構(gòu)數(shù)據(jù)庫(kù)遷移系統(tǒng)利用自身的數(shù)據(jù)清洗功能,減少數(shù)據(jù)庫(kù)的冗余度。數(shù)據(jù)清洗分源表清洗和目標(biāo)表清洗[8]。源表清洗指在數(shù)據(jù)遷移前對(duì)源數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)清洗,優(yōu)點(diǎn)是可以避免把臟數(shù)據(jù)或冗余數(shù)據(jù)遷移到目標(biāo)數(shù)據(jù)庫(kù),缺點(diǎn)是如果發(fā)生誤刪除,數(shù)據(jù)無(wú)法恢復(fù);目標(biāo)表清洗指在數(shù)據(jù)遷移之后對(duì)目標(biāo)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)遷移,優(yōu)點(diǎn)是如果發(fā)生數(shù)據(jù)誤刪除,可以通過(guò)源數(shù)據(jù)恢復(fù)誤刪除的數(shù)據(jù),缺點(diǎn)是如果源數(shù)據(jù)有臟數(shù)據(jù)或冗余數(shù)據(jù),也遷移到目標(biāo)數(shù)據(jù)庫(kù),可能造成一定的冗余。
源表清洗和目標(biāo)表清洗都具有單表清洗和多表清洗。單表清洗按照設(shè)置的條件對(duì)數(shù)據(jù)進(jìn)行刪除;多表清洗比較麻煩,如果多個(gè)表之間建立了級(jí)聯(lián),為了保證數(shù)據(jù)的一致性,必須先刪除從表,再刪除主表,否則,數(shù)據(jù)庫(kù)發(fā)生級(jí)聯(lián)錯(cuò)誤。數(shù)據(jù)清洗后,數(shù)據(jù)庫(kù)減少了錯(cuò)誤率和冗余度,提高查詢的效率,保證數(shù)據(jù)的完整性和一致性。
本實(shí)驗(yàn)通過(guò)用戶易用性、在多種數(shù)據(jù)庫(kù)類(lèi)型之間的通用性、擴(kuò)展性、數(shù)據(jù)遷移過(guò)程中安全性、遷移成本、具有消除臟數(shù)據(jù)功能和遷移效率幾個(gè)方面綜合評(píng)價(jià)幾種常用數(shù)據(jù)遷移工具。具體如表1所示。
表1 數(shù)據(jù)遷移方法對(duì)比情況表
通過(guò)與其他ETL工具比較,本方法技術(shù)簡(jiǎn)單、功能全面,在通用性、數(shù)據(jù)完整性以及可擴(kuò)展性方面具有明顯的優(yōu)勢(shì)。
本文提出的基于“源數(shù)據(jù)庫(kù)-XML-目標(biāo)數(shù)據(jù)庫(kù)”的遷移技術(shù)解決了傳統(tǒng)手工遷移歷史數(shù)據(jù)的局限性,大幅提升了信息系統(tǒng)歷史數(shù)據(jù)遷移的效率,實(shí)現(xiàn)了不同類(lèi)型數(shù)據(jù)庫(kù)間的信息遷移和集成,為企業(yè)業(yè)務(wù)系統(tǒng)更新?lián)Q代過(guò)程中的信息資源的延續(xù)使用,及企業(yè)信息資源共享奠定了基礎(chǔ),在保證準(zhǔn)確率、完整性和精度的基礎(chǔ)上,效果顯著。
[1]劉如九,張振山,柴天佑.一種通用的多數(shù)據(jù)庫(kù)間數(shù)據(jù)抽取方法及應(yīng)用[J].北京交通大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,32(4):14-18.
[2]羅益輝,謝長(zhǎng)生.基于QoS的數(shù)據(jù)遷移模型的設(shè)計(jì)[J].計(jì)算機(jī)工程,2009,35(6):57-59.
[3]齊少蕾,林慧蘋(píng).一種適SaaS多租戶模式的數(shù)據(jù)遷移方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(32):65-70.
[4]Hu Jun,Huang Hou kuan,Gao Fang.A clustering algorithm for parallel coordinates-based measure model and its applications[J]. Journal of Nanjing University:Natural Sciences,2009,45(5):645-655.
[5]趙艷妮,郭華磊.基于XML的數(shù)據(jù)遷移技術(shù)在信息系統(tǒng)升級(jí)中的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(12):52-54.
[6]程利.數(shù)據(jù)庫(kù)應(yīng)用平臺(tái)的異構(gòu)數(shù)據(jù)遷移[J].信息系統(tǒng)工程,2014,(3):150-151.
[7]汪奮進(jìn).一個(gè)基于數(shù)據(jù)映射的個(gè)人信息匯聚及數(shù)據(jù)遷移系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京大學(xué),2014.
[8]吳淑瑋,閆訓(xùn)超,曹齊.企業(yè)級(jí)信息系統(tǒng)數(shù)據(jù)遷移[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(7):53-57.
Heterogeneous Database;Data Migration;Data Mapping
Research on Data Migration Technology of Heterogeneous Information System
ZHAO Yan-ni1,GUO Hua-lei2
(1.Department of Computer Science,Shannxi Vocational&Technical College,Xi'an 710100;
2.Department of Information Service,Xi'an Communication College,Xi'an 710016)
1007-1423(2015)24-0021-05
10.3969/j.issn.1007-1423.2015.24.007
趙艷妮(1982-),女,陜西藍(lán)田人,講師,碩士,研究方向?yàn)檐浖こ?/p>
2015-07-20
2015-08-05
隨著新技術(shù)出現(xiàn)和業(yè)務(wù)發(fā)展,企業(yè)運(yùn)行多年的信息系統(tǒng)需要升級(jí)改造,需要將舊系統(tǒng)的數(shù)據(jù)遷移到新系統(tǒng),保證系統(tǒng)切換后業(yè)務(wù)平穩(wěn)過(guò)渡。數(shù)據(jù)遷移不是單純的數(shù)據(jù)“搬運(yùn)”,而是按照全新的“圖紙”進(jìn)行數(shù)據(jù)“重構(gòu)”,不僅要對(duì)舊系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗,還要完成新老系統(tǒng)數(shù)據(jù)的映射關(guān)系和新業(yè)務(wù)要素的生成規(guī)則,并最終完成數(shù)據(jù)內(nèi)容和格式的轉(zhuǎn)換。在Eclipse開(kāi)發(fā)平臺(tái)上開(kāi)發(fā)一款異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)遷移工具,利用XML為信息遷移平臺(tái),建立一種有效的“源數(shù)據(jù)庫(kù)-XML-目標(biāo)數(shù)據(jù)庫(kù)”映射模型,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)遷移,對(duì)信息系統(tǒng)數(shù)據(jù)遷移具有借鑒意義。
異構(gòu)數(shù)據(jù)庫(kù);數(shù)據(jù)遷移;數(shù)據(jù)映射
陜西省自然科學(xué)基金(No.2014JM8354)、陜西省教育廳重點(diǎn)實(shí)驗(yàn)室科技項(xiàng)目(No.13JS083)
郭華磊(1981-),男,河南泌陽(yáng)人,碩士,講師,研究方向?yàn)樾畔⒎?wù)
With the new technology and business development,corporate operation information system needs to be upgraded for many years,migrate data from old system to new system,guarantee system after switching the business smooth transition.Data migration is not a simple “move”,but shall be carried out data“refactoring”in accordance with the new“drawing”,not only to the old system of business data cleaning,data mapping and complete the new and old system and new business elements to generate rules,and finally complete the data content and format conversion.On the Eclipse development platform to develop a heterogeneous database data migration tools,use of XML for migration of information transfer platform,establish an effective“source database-XML-target database”mapping model,realize the heterogeneous database data migration,it has reference significance for information system data migration.