摘" 要:該文分析高校學(xué)生基礎(chǔ)信息數(shù)據(jù)特點,針對本地數(shù)據(jù)管理不規(guī)范、不可追溯、關(guān)聯(lián)性不足等問題,分別對Tableau Prep Builder和Power BI 2種商業(yè)BI工具數(shù)據(jù)預(yù)處理功能進(jìn)行研究分析,提出基于2種BI工具的數(shù)據(jù)預(yù)處理的實現(xiàn)路徑,并對2種數(shù)據(jù)處理方式進(jìn)行比較。
關(guān)鍵詞:BI工具基礎(chǔ)信息;數(shù)據(jù)預(yù)處理;數(shù)據(jù)建模;編輯器;表格
中圖分類號:TP30" " " "文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號:2095-2945(2023)16-0089-05
Abstract: This paper analyzes the characteristics of college students' basic information data. Aiming at the problems of nonstandard, untraceable, and insufficient relevance of local data management, this paper studies and analyzes the data preprocessing functions of two commercial BI tools, Tableau Prep Builder and Power BI, proposes the implementation path of data preprocessing based on the two BI tools, and compares the two data processing methods.
Keywords: basic information of BI tools; data preprocessing; data modeling; editor; table
目前高校學(xué)生管理基礎(chǔ)信息數(shù)據(jù)眾多,傳統(tǒng)的Excel本地數(shù)據(jù)處理模式已經(jīng)無法滿足統(tǒng)計需要。而在基于Excel的數(shù)據(jù)分析過程中,通常需要花費一半以上時間用于數(shù)據(jù)整理和合并。Tableau Prep Builder[1]是一款直觀、簡潔和智能的工具,可有效清理和組織數(shù)據(jù)以供分析。同樣,PowerBI具有強(qiáng)大的數(shù)據(jù)預(yù)處理功能。2種BI工具在對本地數(shù)據(jù)處理方面各有特色,下面將就高校學(xué)生基礎(chǔ)管理數(shù)據(jù)處理在2種工具中的應(yīng)用做探討。
1" 高校學(xué)生基礎(chǔ)信息數(shù)據(jù)準(zhǔn)備
1.1" 數(shù)據(jù)組成及特點
高校學(xué)生基礎(chǔ)信息數(shù)據(jù)包括學(xué)生基本信息、學(xué)生宿舍管理信息、學(xué)生成績管理、學(xué)生操行分統(tǒng)計和公益工時統(tǒng)計等[2]。目前高校學(xué)生基礎(chǔ)信息數(shù)據(jù)管理存在以下特點。
1)本地數(shù)據(jù)所占比例較大。大量地原始數(shù)據(jù),特別是一些過程記錄被保存在本地硬盤,未完全實現(xiàn)數(shù)據(jù)庫管理。
2)數(shù)據(jù)關(guān)聯(lián)分析不足。學(xué)生宿舍、公益工時、操行分等表現(xiàn)未與學(xué)生成績等關(guān)聯(lián),不能綜合全面評定學(xué)生表現(xiàn)。
3)數(shù)據(jù)不可追溯。通常學(xué)生畢業(yè)后,其在校期間的過程數(shù)據(jù)只會選擇性保留,缺少歷史記錄。
1.2" 數(shù)據(jù)準(zhǔn)備
規(guī)范高校學(xué)生基礎(chǔ)信息管理,首先需要對這些數(shù)據(jù)進(jìn)行規(guī)范管理、規(guī)范記錄。作為數(shù)據(jù)管理人員需要厘清明細(xì)表與匯總表的關(guān)系,合理選擇表格形式記錄數(shù)據(jù),規(guī)范采集記錄數(shù)據(jù)。
1.2.1" 區(qū)分明細(xì)表與匯總表
通常我們采用二維表記錄數(shù)據(jù)時會出現(xiàn)多行表頭、大量合并單元格,見表1。這在進(jìn)行數(shù)據(jù)分析時需要對單元格進(jìn)行拆分才能進(jìn)一步篩選或者數(shù)據(jù)透視處理。
而數(shù)據(jù)分析生成的是一張二維明細(xì)表,其應(yīng)符合以下原則。
1)每一行應(yīng)是一條單獨的記錄且完整、不可拆分的單元,一個完整的數(shù)據(jù)記錄。
2)盡量保證數(shù)據(jù)記錄完整,杜絕合并單元格,刪除多重表頭。標(biāo)題不能為空、不能重復(fù),盡量不要用數(shù)字作為標(biāo)題。
3)數(shù)據(jù)字段應(yīng)包含關(guān)鍵字段,即數(shù)據(jù)庫各表中的主鍵字段,比如記錄設(shè)備狀態(tài)信息,那么不同表數(shù)據(jù)的關(guān)聯(lián)可以選擇設(shè)備編號作為主鍵。
1.2.2" 合理選擇一維表與二維表記錄數(shù)據(jù)
通常一維表為源數(shù)據(jù)表,二維表為展示數(shù)據(jù)表。二維表在BI工具中可以通過列轉(zhuǎn)置等方式轉(zhuǎn)換為一維表,一維表更適合作為數(shù)據(jù)分析的原始材料。一維表轉(zhuǎn)二維表稱之為透視,二維表轉(zhuǎn)一維表稱之為逆透視。
一維表適合記錄單獨一條記錄,每一列的內(nèi)容為獨立的參數(shù),見表2。該一維表中每一行為單獨記錄,可作為源數(shù)據(jù)記錄,但未對數(shù)據(jù)進(jìn)行聚合分析。
二維表更為明確直觀,每一列的內(nèi)容不為獨立的參數(shù),見表3。該二維表每一門學(xué)科成績需要姓名與科目名稱共同確定,數(shù)據(jù)展示相對更為直觀。
1.2.3" 規(guī)范數(shù)據(jù)記錄格式
1)規(guī)范本地數(shù)據(jù)文件命名。統(tǒng)一按照結(jié)構(gòu)門類制定命名規(guī)則。如將基礎(chǔ)數(shù)據(jù)按照如下格式進(jìn)行命名:wrh-gc-宿舍管理-學(xué)生入住信息表。其中wrh為學(xué)校字母縮寫,gc為學(xué)院字母縮寫,宿舍管理為性質(zhì)分類,學(xué)生入住信息表為子分類表。
2)規(guī)范數(shù)據(jù)記錄格式。一是規(guī)范日期文本記錄方式。日期應(yīng)統(tǒng)一采用“xxxx年xx月xx日、xxxx/xx/xx、xxxx-xx-xx”。二是規(guī)范數(shù)值記錄方式。數(shù)值不帶單位,表格不單獨小計。三是同一字段數(shù)據(jù)格式應(yīng)嚴(yán)格一致。
2" 基于Tableau的數(shù)據(jù)預(yù)處理方法
利用Tableau Prep Builder進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)字段整理、結(jié)構(gòu)調(diào)整、合并建模等[3]。其中字段整理包括字段重命名、字段篩選、清除異常值及重復(fù)項,結(jié)構(gòu)調(diào)整包括數(shù)據(jù)轉(zhuǎn)置、聚合計算;合并建模包括數(shù)據(jù)并集連接、數(shù)據(jù)混合等。
2.1" 數(shù)據(jù)整理
2.1.1" 數(shù)據(jù)拆分
如果字段中存在有特定分割字符的字段可在數(shù)據(jù)配置窗格中選擇自動拆分方式進(jìn)行拆分。如果需要拆分的字段長度不固定且無分割字符則采用LOOKUP函數(shù)、正則匹配函數(shù)等方式解決。如圖1所示,使用“自定義拆分”功能對學(xué)生家庭住址信息按照省-地市-縣區(qū)-鄉(xiāng)鎮(zhèn)/街道方式進(jìn)行拆分。
2.1.2" 數(shù)據(jù)分組
即將性質(zhì)相似多個字段進(jìn)行合并。如圖2所示,統(tǒng)計學(xué)生生源地按“中部”“西部”“東部”3個區(qū)域進(jìn)行劃分,則可以利用Tableau Prep Builder分組功能。
2.1.3" 數(shù)據(jù)篩選
這里數(shù)據(jù)篩選包括空值篩選,也可以通過查詢匹配等方式篩選。
2.1.4" 數(shù)據(jù)字符串清理
包括對字段大小寫修改,移除特定字母、數(shù)字、標(biāo)點符號和剪裁空格等操作。
2.2" 數(shù)據(jù)結(jié)構(gòu)整理
2.2.1" 數(shù)據(jù)轉(zhuǎn)置
如圖3所示,通過添加數(shù)據(jù)轉(zhuǎn)置流程,可實現(xiàn)對數(shù)據(jù)列轉(zhuǎn)換為行消滅“大寬表”,對數(shù)據(jù)行轉(zhuǎn)換為列消滅“大長表”。
2.2.2" 排名排序
若僅對某一度量值進(jìn)行排名,可在需要排名的字段上創(chuàng)建排名,排名方式可根據(jù)需要選擇“密集排名”“百分比”“排名”,可進(jìn)行DESC或ASC排列。若需對多個維度進(jìn)行排名,如對某個年級每個班同學(xué)成績進(jìn)行排名,即排名在每個分類中進(jìn)行,此時需要使用“fixedlod”表達(dá)式,首先創(chuàng)建字段{FIXED [年級],[班級]:avg([分?jǐn)?shù)])},然后在此字段創(chuàng)建排名,分組依據(jù)中選擇[班級],排名方式選擇密集排名。
2.2.3" 數(shù)據(jù)聚合計算
一是單一層次聚合。在Tableau Prep Builder數(shù)據(jù)處理里程中增加聚合節(jié)點,將作為聚合依據(jù)的維度字段放在分組字段,作為聚合材料的度量字段放在聚合字段。
二是獨立層次聚合。主要是運用fixedlod表達(dá)式,通過創(chuàng)建字段方式引用FIXED LOD詳細(xì)級別表達(dá)式[4]。如圖4所示,直接在需要分組依據(jù)中選擇姓名作為聚合計算層次的字段,在計算依據(jù)中選擇分?jǐn)?shù)需要聚合計算的字段。
2.3" 數(shù)據(jù)合并
一是數(shù)據(jù)結(jié)構(gòu)相同的不同表合并。如圖5所示,將不同班級學(xué)生信息表進(jìn)行合并,在Tableau Prep Builder數(shù)據(jù)流程中創(chuàng)建并集節(jié)點,然后通過添加并集方式最后形成數(shù)據(jù)總表。
二是數(shù)據(jù)結(jié)構(gòu)不同的數(shù)據(jù)合并。2張表之間存在相同的主鍵,如學(xué)生家庭住址信息表與學(xué)生聯(lián)系方式表,其直接存在共同的主鍵即“學(xué)號”和“姓名”,可通過左聯(lián)接、右聯(lián)接或中間聯(lián)接方式將2個表數(shù)據(jù)實現(xiàn)關(guān)聯(lián)合并。
3" 基于Power BI的數(shù)據(jù)預(yù)處理方法
Power BI是微軟出品的一款數(shù)據(jù)分析軟件,可自動實現(xiàn)對數(shù)據(jù)的獲取、清洗、轉(zhuǎn)換、建模、可視化及共享[5]。利用Power BI及Power Query同樣可實現(xiàn)數(shù)據(jù)清理及建模。
3.1" 利用Power Query處理不規(guī)范數(shù)據(jù)
3.1.1nbsp; 更改數(shù)據(jù)類型
利用Power Query編輯器中轉(zhuǎn)換數(shù)據(jù)類型功能對數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換。如將數(shù)字類型轉(zhuǎn)換為文本類型,將不規(guī)范的日期數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)日期類型。
3.1.2" 轉(zhuǎn)換字母大小寫
同樣在Power Query編輯器中,一是通過lt;Ctrlgt;鍵選中需要轉(zhuǎn)換字母大小寫格式的多列,在列標(biāo)題上右擊,在彈出的快捷菜單中選擇轉(zhuǎn)換每個字詞首字母大寫選項。另外,單擊下拉列表中的【大寫】或【小寫】選項,可以將所有單詞或字母都轉(zhuǎn)換為大寫或小寫格式。
3.1.3" 刪除文本中的空格和不可見字符
我們獲得的數(shù)據(jù)經(jīng)常夾雜著大量難以識別的非打印字符,即不可見字符,這些字符的存在,容易在引用、統(tǒng)計中出錯。可使用Power Query編輯器的轉(zhuǎn)換功能中的“修整”和“清除”功能。
3.2" 數(shù)據(jù)清理篩選
主要利用Power Query編輯器中管理列或減少行功能,對數(shù)據(jù)中的重復(fù)項進(jìn)行刪減。利用文本篩選器對數(shù)據(jù)進(jìn)行篩選。
3.3" 數(shù)據(jù)排名排序
針對數(shù)值型數(shù)據(jù)字段排序,可以在Power Query編輯器中直接右鍵單擊要排序的列頭,選擇按照升序或者降序進(jìn)行排列。如果要對日期數(shù)據(jù)進(jìn)行排列,一定要先保證當(dāng)前列的數(shù)據(jù)類型是日期或者日期和時間,否則按照文本或者數(shù)字類型進(jìn)行排序,得到的將是一個錯亂的日期。針對文本型數(shù)據(jù)字段可以在Power BI主界面中新建度量值方式,運用函數(shù)rankx進(jìn)行排名。如創(chuàng)建成績排名=Rankx(all(“學(xué)生成績信息”),calculate(sum(‘學(xué)生成績信息’[分?jǐn)?shù)]))。
3.4" 數(shù)據(jù)合并
多張結(jié)構(gòu)相同表格匯總??梢酝ㄟ^Power BI導(dǎo)入文件夾的方式,將結(jié)構(gòu)相似的Excel文件一次性導(dǎo)入Power BI中。在獲取數(shù)據(jù)中選擇從文件夾中獲取,組合時根據(jù)需要選擇“合并并轉(zhuǎn)換數(shù)據(jù)”或“合并和加載”,再在Power Query編輯器中選擇添加自定義列,如圖6所示,最后解析樣本即可將所有Excel文件中的數(shù)據(jù)全部匯總到Power BI中了。
3.5" 數(shù)據(jù)建模
高校學(xué)生管理通常為多個數(shù)據(jù)源,往往并不是只有一張表。通常不同表需要按照一定邏輯關(guān)系協(xié)同配合才能進(jìn)行數(shù)據(jù)分析。如圖7所示,編輯各表間關(guān)系,各表數(shù)據(jù)源之間可以存在一對一、一對多和多對多關(guān)系。表格間關(guān)系建立后以在Power BI的“報表”模塊中生成各種透視分析報表。
4" 2種BI工具數(shù)據(jù)處理性能比較
Tableau和Power BI是市面上可視化2種主流工具,現(xiàn)在對2種BI工具在數(shù)據(jù)源連接性、軟件易用性、數(shù)據(jù)處理速度和價格比選等方面表現(xiàn)進(jìn)行比較,見表4。
5" 結(jié)束語
數(shù)據(jù)預(yù)處理通常包括數(shù)據(jù)拆分、分組、大小寫轉(zhuǎn)換、數(shù)據(jù)轉(zhuǎn)置和不同層次聚合以及各表關(guān)系等內(nèi)容。傳統(tǒng)的采用Excel管理分析本地數(shù)據(jù)方式已不能滿足高校學(xué)生基礎(chǔ)信息管理要求,使用Tableau Prep Builder 和Power BI 2款商業(yè)BI工具開展數(shù)據(jù)預(yù)處理將大幅提高工作效率和數(shù)據(jù)準(zhǔn)確性。
參考文獻(xiàn):
[1] 蘭坤,吳瓊.基于Tableau和Excel的學(xué)生多維大數(shù)據(jù)分析研究[J].信息與電腦,2019(8):126-127,136.
[2] 萬輝.大數(shù)據(jù)在高校學(xué)生管理工作中的應(yīng)用[J].高校輔導(dǎo)員學(xué)刊,2014,6(4):48-51.
[3] 楊小軍,張雪超,李安琪.利用Excel和Tableau實現(xiàn)業(yè)務(wù)工作數(shù)據(jù)化管理[J].電腦編程技巧與維護(hù),2017(12):66-68.
[4] 喜樂君.數(shù)據(jù)可視化分析:Tableau原理與實踐[M].電子工業(yè)出版社,2020.
[5] 何逸波.基于POWERBI的數(shù)據(jù)分析系統(tǒng)的構(gòu)建與應(yīng)用[J].區(qū)域治理,2018(33):218.