王開源
宿州學(xué)院商學(xué)院,安徽宿州,234000
高校每年有大量畢業(yè)生,學(xué)位管理工作人員在處理學(xué)位數(shù)據(jù)時(shí)都會(huì)花費(fèi)很大的精力。學(xué)位數(shù)據(jù)人數(shù)多、字段數(shù)量大,稍不注意都會(huì)給最終數(shù)據(jù)帶來巨大誤差。而且有些學(xué)位管理工作人員經(jīng)驗(yàn)不足或運(yùn)用計(jì)算機(jī)與數(shù)據(jù)庫技術(shù)方面的水平不高,要在有限的時(shí)間里收集整理,按標(biāo)準(zhǔn)結(jié)構(gòu)構(gòu)建好完整的學(xué)位數(shù)據(jù)是一件不容易的事情。從數(shù)據(jù)采集、數(shù)據(jù)清理、數(shù)據(jù)規(guī)范和數(shù)據(jù)安全四個(gè)方面進(jìn)行介紹,以方便廣大高校學(xué)位管理工作者快速構(gòu)建學(xué)位數(shù)據(jù)庫。
數(shù)據(jù)采集是學(xué)位管理中的基礎(chǔ)工作,直接關(guān)系到學(xué)位管理工作的優(yōu)劣。當(dāng)前,常用的數(shù)據(jù)采集工具是EXCEL表格和VFP數(shù)據(jù)庫(Visual Foxpro)。EXCEL表格在創(chuàng)建表格及錄入數(shù)據(jù)方面比較簡單,但在數(shù)據(jù)庫功能方面比較有限。VFP技術(shù)性較強(qiáng),在數(shù)據(jù)庫功能方面比EXCEL好。
EXCEL電子表格和VFP 數(shù)據(jù)庫在高校數(shù)據(jù)管理中使用較為廣泛。EXCEL電子表格是Microsoft Office的重要成員,主要功能是制作各種電子表格,可以利用公式對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的運(yùn)算,并將數(shù)據(jù)以各種統(tǒng)計(jì)圖表的形式表現(xiàn)出來,還可以對(duì)數(shù)據(jù)進(jìn)行分析[1]。VFP數(shù)據(jù)庫是一種典型的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),用來存儲(chǔ)數(shù)據(jù)的基本結(jié)構(gòu)是二維表,通過二維表可以方便實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)的構(gòu)建、數(shù)據(jù)的錄入、數(shù)據(jù)結(jié)構(gòu)的修改和數(shù)據(jù)的編輯等操作。
利用EXCEL和VFP數(shù)據(jù)采集的關(guān)鍵是設(shè)置數(shù)據(jù)結(jié)構(gòu)和錄入數(shù)據(jù)內(nèi)容。在EXCEL中,設(shè)置數(shù)據(jù)結(jié)構(gòu)只需根據(jù)標(biāo)準(zhǔn)要求在表格的首行錄入字段名稱即可。VFP數(shù)據(jù)庫二維表的數(shù)據(jù)結(jié)構(gòu)設(shè)置是在表設(shè)計(jì)器中設(shè)定。以學(xué)士學(xué)位數(shù)據(jù)采集的數(shù)據(jù)結(jié)構(gòu)為例,根據(jù)標(biāo)準(zhǔn)要求設(shè)置姓名、姓名拼音、學(xué)號(hào)、身份證號(hào)、政治面貌、民族字段,如圖1所示。并且字段的類型全部設(shè)置為字符型,在數(shù)據(jù)內(nèi)容錄入方面的關(guān)鍵是準(zhǔn)確性與規(guī)范性。在做好數(shù)據(jù)錄入之前,需要明確數(shù)據(jù)的真實(shí)性、準(zhǔn)確性與一致性。在數(shù)據(jù)的規(guī)范性方面重點(diǎn)是統(tǒng)一數(shù)據(jù)的規(guī)范格式,如身份證號(hào)規(guī)定是18位,其他有關(guān)字段內(nèi)容也只能從規(guī)范內(nèi)容中選用。學(xué)位數(shù)據(jù)字段的設(shè)置要盡量精簡,對(duì)文本的字體、字號(hào)、對(duì)齊方式及數(shù)據(jù)類型都要有明確要求。
圖1 VFP數(shù)據(jù)庫學(xué)位數(shù)據(jù)采集結(jié)構(gòu)
數(shù)據(jù)清理是將采集數(shù)據(jù)中不規(guī)范、不正確的數(shù)據(jù)找出來進(jìn)行修正。包括檢查數(shù)據(jù)一致性、處理無效值和缺失值等。在學(xué)籍管理中的數(shù)據(jù)清理常采用數(shù)據(jù)比對(duì)與數(shù)據(jù)對(duì)接方式來檢查數(shù)據(jù)的一致性、完整性[2]。
數(shù)據(jù)比對(duì)是將采集的數(shù)據(jù)與標(biāo)準(zhǔn)數(shù)據(jù)按照關(guān)鍵字進(jìn)行一致性比對(duì),找出差異并予以修正。如將采集的學(xué)位數(shù)據(jù)與教務(wù)網(wǎng)絡(luò)系統(tǒng)數(shù)據(jù)按照身份證號(hào)關(guān)鍵字進(jìn)行比對(duì),找出兩數(shù)據(jù)之間的差異。在“目標(biāo)源字段列表”和“比對(duì)源字段列表”中選取要進(jìn)行比對(duì)的同名字段,并且在“目標(biāo)源關(guān)鍵字段”和“比對(duì)源關(guān)鍵字段”中選擇身份證號(hào)關(guān)鍵字段進(jìn)行,如圖2所示。
圖2 數(shù)據(jù)比對(duì)
采集數(shù)據(jù)包含字段信息比較有限,要得到比較全面的信息,必須將采集數(shù)據(jù)與其他數(shù)據(jù)進(jìn)行對(duì)接,對(duì)接前要確定好雙方對(duì)接的關(guān)鍵字段。如將采集的學(xué)位數(shù)據(jù)與教務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行對(duì)接,采集的學(xué)位數(shù)據(jù)字段有限,教務(wù)系統(tǒng)中的字段信息比較全,可以將二者以身份證號(hào)為關(guān)鍵字進(jìn)行對(duì)接[3]。對(duì)接方式如下:設(shè)定采集數(shù)據(jù)得到的表為CJ,從教務(wù)系統(tǒng)導(dǎo)出的表為JW,兩表中具有共同的身份證號(hào)字段SFZH,以SFZH為連接字段,對(duì)二表進(jìn)行對(duì)接并將對(duì)接后的數(shù)據(jù)保存到CJJW表中,指令如下:
SELECT * FROM CJ,JW WHERE ALLTRIM(CJ.SFZH)==ALLTRIM(JW.SFZH) INTO DBF CJJW
對(duì)接后數(shù)據(jù)的記錄條數(shù)如果與CJ表的數(shù)據(jù)條數(shù)一致,說明是全部對(duì)接上了。如果CJJW表的數(shù)據(jù)條數(shù)與CJ不一致,則說明沒有完全對(duì)接上,在身份證號(hào)字段上存在誤差。接下來可以將CJJW表與CJ表進(jìn)行比對(duì),找出其中存在差異的數(shù)據(jù),比對(duì)方式可以采用上述的比對(duì)軟件處理。從比對(duì)的結(jié)果中找出對(duì)接不上的記錄以修改有關(guān)不準(zhǔn)確的數(shù)據(jù)。修改后繼續(xù)將CJ與JW進(jìn)行對(duì)接,直到全部數(shù)據(jù)能夠?qū)由蟍4]。
在采集數(shù)據(jù)表中往往會(huì)出現(xiàn)字段內(nèi)容重復(fù)的情況,需要查找重復(fù)內(nèi)容并加以修正。在EXCEL中,處理字段中重復(fù)內(nèi)容的方式為: 選擇可能存在重復(fù)內(nèi)容的字段,然后通過“開始”菜單中的“條件格式”進(jìn)行處理[5]。在“新建格式規(guī)則”中選擇“僅對(duì)唯一值或重復(fù)值設(shè)置格式”,在“全部設(shè)置格式”組合框中選擇“重復(fù)”,點(diǎn)擊“格式按鈕”選擇合適的格式,如圖3所示。
圖3 EXCEL重復(fù)數(shù)據(jù)清理
批量刪除記錄,在VFP數(shù)據(jù)表中要?jiǎng)h除某些記錄,可以使用DELETE語句實(shí)現(xiàn)批量的刪除操作。如要在2018屆學(xué)位數(shù)據(jù)表“XW2018”刪除學(xué)制為2年的學(xué)生,操作指令如下:
DELETE FROM XW2018 WHERE XZ=2
批量更新表中字段內(nèi)容,如將性別民族政治面貌更換為相應(yīng)的代碼,例如將性別統(tǒng)一更換為性別碼,“男”用代碼“1”替換,“女”用代碼“2”替換,執(zhí)行代碼如下:
REPLACE XB WITH “1” FOR ALLTRIM(XB)==“男”
REPLACE XB WITH “2” FOR ALLTRIM(XB)==“女”
批量更新數(shù)據(jù)中的出生日期字段“CSRQ”,執(zhí)行代碼如下:
REPLACE CSRQ WITH MID(SFZH,7,6) ALL
上面操作所得到的只是部分?jǐn)?shù)據(jù),與學(xué)位網(wǎng)的注冊(cè)數(shù)據(jù)所要求的數(shù)據(jù)庫結(jié)構(gòu)還不完全一樣,需要將該表中不需要的字段進(jìn)行刪除,添加注冊(cè)結(jié)構(gòu)中需要的字段,并按要求對(duì)表中某些字段的內(nèi)容進(jìn)行統(tǒng)一更新。
在EXCEL的“開始”菜單中利用“字體”“對(duì)齊”等對(duì)數(shù)據(jù)格式進(jìn)行規(guī)范,如對(duì)字體、字號(hào)和字形等進(jìn)行設(shè)定。
在EXCEL中設(shè)置數(shù)據(jù)的有效性規(guī)則,如要設(shè)置身份證號(hào)字段的文本長度為固定數(shù)值18的操作步驟如下:在采集數(shù)據(jù)中,選擇需設(shè)置有效性規(guī)則的字段,然后打開“數(shù)據(jù)”菜單下的“數(shù)據(jù)有效性”進(jìn)行設(shè)置,在“數(shù)據(jù)有效性”窗口中選擇“文本長度”,數(shù)據(jù)項(xiàng)選擇“等于”,長度項(xiàng)填寫為18[6],如圖4所示。
圖4 數(shù)據(jù)有效性設(shè)置
為用戶錄入有誤的數(shù)據(jù)顯示提示信息,以“SFZH”字段的數(shù)據(jù)輸入為例,當(dāng)用戶輸入的數(shù)據(jù)不符合數(shù)據(jù)的要求時(shí),在“數(shù)據(jù)有效性”對(duì)話框的“出錯(cuò)警告”中進(jìn)行設(shè)定出錯(cuò)警告的“標(biāo)題”和“錯(cuò)誤信息”,如圖5所示。
圖5 數(shù)據(jù)有效性警告設(shè)置
索引是可快速訪問數(shù)據(jù)庫表的特定信息,是某個(gè)表中一列或若干列值的集合和相應(yīng)的指向表中物理標(biāo)識(shí)這些數(shù)據(jù)頁的邏輯指針清單。在運(yùn)用VFP表格采集數(shù)據(jù)時(shí),為防止數(shù)據(jù)錄入人員重復(fù)錄入數(shù)據(jù),可以在設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu)時(shí)為關(guān)鍵字段設(shè)置主索引或唯一索引[7]。
采集數(shù)據(jù)后的重要環(huán)節(jié)就是存儲(chǔ),以保證數(shù)據(jù)的穩(wěn)定性和安全性。為確保數(shù)據(jù)的穩(wěn)定與安全,首先要選擇可靠的存儲(chǔ)硬件設(shè)備,然后對(duì)數(shù)據(jù)標(biāo)明制作日期并加密。下面就EXCEL與VFP數(shù)據(jù)的十分有效加密設(shè)置方法。首先準(zhǔn)備好EXCEL與VFP數(shù)據(jù),然后利用WINRAR對(duì)其進(jìn)行壓縮,在壓縮的同時(shí)可以對(duì)其進(jìn)行加密。
打開準(zhǔn)備好的數(shù)據(jù),在“文件”菜單下的“信息”選項(xiàng)中的“保護(hù)工作簿”,通過“用密碼進(jìn)行加密”選項(xiàng)進(jìn)行數(shù)據(jù)內(nèi)容的加密。
在數(shù)據(jù)文件上單擊鼠標(biāo)右鍵,在快捷菜單中選擇“添加到壓縮文件”,在“壓縮文件名和參數(shù)”對(duì)話框中選擇“設(shè)置密碼”來設(shè)定密碼,在對(duì)壓縮文件保存時(shí),可以同時(shí)標(biāo)注文件的編輯日期[8]。
利用EXCEL與VFP技術(shù)對(duì)應(yīng)屆畢業(yè)生的大量學(xué)位數(shù)據(jù)進(jìn)行整理和完善,對(duì)于每個(gè)高校在畢業(yè)季的工作有十分重要的意義。本研究主要利用了EXCEL的數(shù)據(jù)存儲(chǔ)、重復(fù)清理、VFP數(shù)據(jù)庫的索引、VFP數(shù)據(jù)庫技術(shù)中的比對(duì)與表格對(duì)接技術(shù)解決兩個(gè)大量數(shù)據(jù)表格數(shù)據(jù)不一致問題,對(duì)非專業(yè)人員從事學(xué)位管理工作,對(duì)學(xué)校順利完成畢業(yè)生的畢業(yè)環(huán)節(jié)都有著十分重要的指導(dǎo)意義。