楊菲菲
摘要:從社會(huì)需求出發(fā),將大數(shù)據(jù)和信息管理與信息系統(tǒng)專(zhuān)業(yè)有機(jī)結(jié)合,構(gòu)建了基于Hadoop的面向信管專(zhuān)業(yè)的數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群。根據(jù)課程群建設(shè)思路,確定了該課程群的教學(xué)目標(biāo),找到對(duì)應(yīng)的知識(shí)能力體系,確定了課程,構(gòu)建了該課程群的課程體系,以期為信管專(zhuān)業(yè)的改革發(fā)展提供參考。
關(guān)鍵詞:Hadoop;數(shù)據(jù)分析與數(shù)據(jù)挖掘;課程群;信管專(zhuān)業(yè)
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)28-0095-03
Research on Curriculum Group of Data Analysis and Data Mining Based on Hadoop of Information Management and Information System
YANG Fei-fei
(ShandongYouthUniversityofPoliticalScience, Jinan 250103, China)
Abstract: From the point of social needs,combining the big data and information management and information system specialty, a data analysis and data mining course group based on Hadoop is built. According to the train of thought of the course group construction, the corresponding knowledge ability system is found and the curriculum is determined in this paper. The construction of curriculum system will provide some reference for the reform and development of the information management and information system.
Key words: Hadoop;data Analysis and data Mining;curriculum group;information management and information system
1 引言
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是最珍貴的資源,數(shù)據(jù)將引領(lǐng)傳統(tǒng)行業(yè),并將與之結(jié)合,催化出不可低估的影響力,大數(shù)據(jù)本身就是一個(gè)大的系統(tǒng),在系統(tǒng)內(nèi)部進(jìn)行數(shù)據(jù)分析從而得出數(shù)據(jù)的價(jià)值。大數(shù)據(jù)蓬勃發(fā)展的背景下,社會(huì)對(duì)具有數(shù)據(jù)管理和分析能力的人才需求在迅猛增長(zhǎng),其需求量超過(guò)對(duì)傳統(tǒng)信息管理人才的需求量,所需人員必須擁有相應(yīng)的技術(shù)水平、管理水平、社會(huì)交往能力、信息系統(tǒng)分析和開(kāi)發(fā)能力,更重要的是對(duì)數(shù)據(jù)進(jìn)行有效分析的能力。事實(shí)上,數(shù)據(jù)管理與分析已滲透到社會(huì)經(jīng)濟(jì)的各個(gè)領(lǐng)域,社會(huì)需要能夠進(jìn)行數(shù)據(jù)管理與分析的創(chuàng)新型人才。隨著大數(shù)據(jù)技術(shù)的發(fā)展,信息管理與信息系統(tǒng)專(zhuān)業(yè)的側(cè)重點(diǎn)從信息系統(tǒng)開(kāi)發(fā)將轉(zhuǎn)移到信息資源的利用上。因此,國(guó)內(nèi)很多高校對(duì)于信息管理與信息系統(tǒng)的課程體系及課程群也進(jìn)行了相關(guān)的研究。汪祖柱[1]在大數(shù)據(jù)背景下的信息管理與信息系統(tǒng)專(zhuān)業(yè)課程建設(shè)中指出在課程體系中添加數(shù)據(jù)挖掘,及數(shù)據(jù)分析相應(yīng)的語(yǔ)言;高巖[2]以數(shù)據(jù)治理能力為導(dǎo)向構(gòu)建的數(shù)據(jù)處理課程群,其主要課程包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫(kù)系統(tǒng)原理、信息資源管理、信息安全等,培養(yǎng)學(xué)生在數(shù)據(jù)組織、元/主數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)集成等方面的能力。山東理工大學(xué)的劉婷婷等[3]在人才培養(yǎng)目標(biāo)中也強(qiáng)調(diào)學(xué)生不但要掌握現(xiàn)代信息系統(tǒng)的規(guī)劃、分析、設(shè)計(jì)、實(shí)施和運(yùn)維等方面的方法與技術(shù),更要具有現(xiàn)代管理科學(xué)思想和較強(qiáng)的信息系統(tǒng)開(kāi)發(fā)利用以及數(shù)據(jù)分析處理能力。信息管理與信息系統(tǒng)專(zhuān)業(yè)是和大數(shù)據(jù)聯(lián)系最為緊密的專(zhuān)業(yè),為了應(yīng)對(duì)大數(shù)據(jù)分析與應(yīng)用的挑戰(zhàn),抓住機(jī)遇,找到我校信息管理與信息系統(tǒng)專(zhuān)業(yè)的特色,拓寬就業(yè)生的就業(yè)范圍,在信息管理與信息系統(tǒng)專(zhuān)業(yè)中建設(shè)并實(shí)踐數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群是非常迫切的任務(wù)。
2 課程群建設(shè)的基本思路
課程群是圍繞一定專(zhuān)業(yè)的人才培養(yǎng)目標(biāo)要求,為了完成某種能力的培養(yǎng),由若干門(mén)具有邏輯關(guān)系的課程重新規(guī)劃、整合構(gòu)建的有機(jī)結(jié)合體。課程間相互連接、相互支撐、相互配合,教學(xué)內(nèi)容要具有系統(tǒng)性、關(guān)聯(lián)性和整體性[4]。它的建設(shè)不是簡(jiǎn)單的課程堆積,需要從實(shí)際應(yīng)用的角度對(duì)教學(xué)內(nèi)容進(jìn)行系統(tǒng)設(shè)計(jì),對(duì)相關(guān)課程的整體內(nèi)容、結(jié)構(gòu)、關(guān)聯(lián)性進(jìn)行整體優(yōu)化,各課程形成一個(gè)有機(jī)聯(lián)系的整體,才能稱(chēng)得上是真正的課程群[5]。課程群打破了課程內(nèi)容的歸屬性,弱化了課程的獨(dú)立性,強(qiáng)化課程之間的親和性,使它們?cè)谝粋€(gè)更高的層面上連貫起來(lái)。
圖1 課程群建設(shè)思路
在進(jìn)行課程群的構(gòu)建時(shí),采用如圖1的建設(shè)思路。首先根據(jù)建設(shè)課程群的目的確定課程群教學(xué)目標(biāo),即該課程群在專(zhuān)業(yè)人才培養(yǎng)中的地位及作用,然后分解該目標(biāo)找到對(duì)應(yīng)的知識(shí)體系、實(shí)踐能力和綜合素質(zhì),繼而找到對(duì)應(yīng)的課程,有了課程需要根據(jù)所對(duì)應(yīng)的知識(shí)點(diǎn)撰寫(xiě)課程大綱,還需要有完成該課程群所需要的保障條件,課程群有效實(shí)施后,實(shí)現(xiàn)課程群的目標(biāo),形成了閉環(huán)。
在構(gòu)建課程群時(shí)除了理論知識(shí)的優(yōu)化整合外,還需要考慮實(shí)踐環(huán)節(jié)的統(tǒng)籌,建立合理的實(shí)踐教學(xué)體系也是課程群建設(shè)的重要部分。
3 數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的構(gòu)建
3.1課程群教學(xué)目標(biāo)
課程群的構(gòu)建不能脫離專(zhuān)業(yè)人才培養(yǎng),課程體系建設(shè)是專(zhuān)業(yè)培養(yǎng)目標(biāo)相適應(yīng)的整個(gè)課程體系為對(duì)象,是屬于宏觀層面的課程建設(shè);課程的建設(shè)是一單獨(dú)課程為建設(shè)對(duì)象,屬于微觀層面的課程建設(shè);課程群的建設(shè)是以相對(duì)獨(dú)立的課程整體為建設(shè)對(duì)象,具有明確的教學(xué)目標(biāo)與培養(yǎng)任務(wù),屬于中觀層面的建設(shè)。
根據(jù)信息管理與信息系統(tǒng)專(zhuān)業(yè)的人才培養(yǎng)目標(biāo),數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群在整個(gè)人才培養(yǎng)中的地位非常重要,學(xué)生應(yīng)該掌握數(shù)據(jù)采集、存儲(chǔ)、分析與挖掘以及可視化的相關(guān)方法和技術(shù),具備數(shù)據(jù)分析與數(shù)據(jù)挖掘的能力,在目前大數(shù)據(jù)的背景下,學(xué)生應(yīng)該具備以Hadoop為技術(shù)支持的數(shù)據(jù)分析與數(shù)據(jù)挖掘的能力。
3.2課程群的構(gòu)建
根據(jù)以上課程群的教學(xué)目標(biāo),以數(shù)據(jù)分析與數(shù)據(jù)挖掘的流程來(lái)找到對(duì)應(yīng)的知識(shí)體系,進(jìn)而確定對(duì)應(yīng)的課程以及課程的前導(dǎo)后續(xù)關(guān)系。
3.2.1 能力培養(yǎng)的流程
以Hadoop為技術(shù)基礎(chǔ)的數(shù)據(jù)分析與數(shù)據(jù)挖掘的流程如圖2所示。
數(shù)據(jù)分析與數(shù)據(jù)挖掘的第一步必須有大量的數(shù)據(jù),數(shù)據(jù)的來(lái)源可以是已存儲(chǔ)的數(shù)據(jù),也可以是從網(wǎng)絡(luò)或系統(tǒng)中提取的數(shù)據(jù),在此,我們著重教給學(xué)生從網(wǎng)絡(luò)自行爬取數(shù)據(jù)的方法。
數(shù)據(jù)采集后,需要對(duì)數(shù)據(jù)進(jìn)行清洗,即對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,處理好之后進(jìn)行存儲(chǔ),目前,數(shù)據(jù)庫(kù)的存儲(chǔ)可以使用關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、分布式文件存儲(chǔ)數(shù)據(jù)庫(kù)等。因?yàn)闃?gòu)建的是以Hadoop為技術(shù)基礎(chǔ)的課程群,在此我們著重培養(yǎng)學(xué)生使用分布式文件存儲(chǔ)數(shù)據(jù)庫(kù)的能力。
數(shù)據(jù)存儲(chǔ)后,可以對(duì)數(shù)據(jù)進(jìn)行分析與挖掘,使用大數(shù)據(jù)技術(shù)中的MapReduce以及數(shù)據(jù)挖掘、數(shù)據(jù)統(tǒng)計(jì)的方法對(duì)數(shù)據(jù)進(jìn)行分析挖掘。
數(shù)據(jù)挖掘后,以圖表的形式展現(xiàn)清晰明了,需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)可視化。
3.2.2課程群知識(shí)體系的構(gòu)建
根據(jù)上述流程,逐個(gè)分析各個(gè)流程中需要用的知識(shí)技能。
1)數(shù)據(jù)采集
數(shù)據(jù)采集中著重培養(yǎng)學(xué)生從網(wǎng)絡(luò)爬取數(shù)據(jù)的能力,在目前眾多的方法中選取比較流行的前沿語(yǔ)言Python語(yǔ)言,在此流程中,需要用到的知識(shí)技能如下:
(1)學(xué)生需要掌握數(shù)據(jù)采集的基本原理
(2)掌握Python語(yǔ)言的基本語(yǔ)法
(3)具備使用Python語(yǔ)言進(jìn)行數(shù)據(jù)采集的能力。
2)數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)存儲(chǔ)中,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后實(shí)現(xiàn)分布式存儲(chǔ),需要用到的知識(shí)技能如下:
(1)數(shù)據(jù)預(yù)處理的原理方法,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。
(2)Hadoop體系結(jié)構(gòu)
(3)HDFS分布式文件系統(tǒng)的基本原理及運(yùn)行機(jī)制
(4)掌握一門(mén)分布式文件存儲(chǔ)數(shù)據(jù)庫(kù),這里選用比較前沿的MongoDB。
對(duì)于關(guān)系型數(shù)據(jù)庫(kù),在數(shù)據(jù)庫(kù)原理專(zhuān)業(yè)基礎(chǔ)課中已經(jīng)講述,在此不再納入該課程體系的范疇。
3)數(shù)據(jù)分析與數(shù)據(jù)挖掘
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和存儲(chǔ)后,可以根據(jù)目標(biāo)對(duì)數(shù)據(jù)進(jìn)行分析與挖掘了。在此,需要使用的知識(shí)技能如下:
(1)掌握數(shù)據(jù)統(tǒng)計(jì)的基本原理
(2)掌握數(shù)據(jù)挖掘的經(jīng)典算法和典型工具
(3)理解MapReduce編程模型的原理
(4)掌握簡(jiǎn)單的MapReduce程序的編寫(xiě)
(5)掌握Python中Pandas庫(kù)numpy數(shù)值計(jì)算方法
4)數(shù)據(jù)可視化
數(shù)據(jù)可視化在目前的數(shù)據(jù)分析中用的非常多,也有很多的工具。為了使該課程群具有前后連貫性和統(tǒng)一性,在此,使用Python語(yǔ)言中數(shù)據(jù)可視化的工具包,需要使用到的知識(shí)技能如下:
(1)掌握matplotlib的使用方法,matplotlib是Python中最基本的可視化工具
(2)掌握seaborn的使用,seaborn是一個(gè)非常漂亮的可視化工具。
以上,根據(jù)課程群的建設(shè)目標(biāo),找到了對(duì)應(yīng)的知識(shí)體系。
3.2.2 課程的構(gòu)建
根據(jù)上述中對(duì)課程知識(shí)點(diǎn)的分析描述,對(duì)課程進(jìn)行合并歸納,找到課程群中的課程,課程群推導(dǎo)過(guò)程如圖3所示。
從圖3中,根據(jù)每個(gè)流程中對(duì)應(yīng)的知識(shí)點(diǎn),找到對(duì)應(yīng)的課程,對(duì)課程進(jìn)行內(nèi)容合并,課程群的主要課程包括Python語(yǔ)言、數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、大數(shù)據(jù)技術(shù)、MongoDB數(shù)據(jù)庫(kù)六門(mén)課程。其中,Python語(yǔ)言課程的講解中需要包括的內(nèi)容有網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用、Python語(yǔ)言數(shù)據(jù)分析與挖掘、Python語(yǔ)言可視化。為了更好地提高學(xué)生的實(shí)踐能力,將整個(gè)課程的內(nèi)容按照能力培養(yǎng)的流程從頭到尾進(jìn)行貫穿,在課程學(xué)習(xí)結(jié)束后,增加了一個(gè)數(shù)據(jù)分析與數(shù)據(jù)挖掘項(xiàng)目綜合實(shí)訓(xùn)。
3.2.3課程群的課程體系
為了更好地達(dá)到該課程群的教學(xué)目標(biāo),對(duì)課程群中的課程以及支撐課程進(jìn)行分析,得出數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的課程體系,如圖4所示。
學(xué)生學(xué)習(xí)數(shù)據(jù)分析與數(shù)據(jù)挖掘的課程,需要具有計(jì)算機(jī)科學(xué)的基礎(chǔ),掌握面向?qū)ο蟮挠?jì)算機(jī)編程思想和數(shù)據(jù)描述方法,需要開(kāi)設(shè)數(shù)據(jù)結(jié)構(gòu)、計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)原理、程序設(shè)計(jì)語(yǔ)言等課程;為了給學(xué)生將來(lái)從事數(shù)據(jù)分析、數(shù)據(jù)挖掘等相關(guān)工作奠定基礎(chǔ),以數(shù)學(xué)和統(tǒng)計(jì)為基礎(chǔ),掌握基本的數(shù)學(xué)邏輯思維方法,需要開(kāi)設(shè)微積分、線性代數(shù)、概率論與數(shù)理統(tǒng)計(jì)等課程,這些構(gòu)成了數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的支撐平臺(tái),為數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的開(kāi)設(shè)奠定了基礎(chǔ)。
課程的開(kāi)設(shè)先后關(guān)系如圖4中所示。Python語(yǔ)言是整個(gè)課程群的語(yǔ)言基礎(chǔ),貫穿整個(gè)課程群的學(xué)習(xí),所以放在最前面,根據(jù)信管專(zhuān)業(yè)的課程體系整體安排,建議在第四學(xué)期開(kāi)設(shè)。數(shù)據(jù)預(yù)處理和MongoDB數(shù)據(jù)庫(kù)也是比較基礎(chǔ)的課程,Python語(yǔ)言中采集部分需要用到相關(guān)知識(shí),所以與Python語(yǔ)言課程一起開(kāi)設(shè)。根據(jù)能力培養(yǎng)的流程,將大數(shù)據(jù)技術(shù)、統(tǒng)計(jì)學(xué)在第五學(xué)期開(kāi)設(shè),數(shù)據(jù)挖掘在第六學(xué)期開(kāi)設(shè),在整個(gè)課程學(xué)習(xí)完后,第六學(xué)期的期末進(jìn)行數(shù)據(jù)分析與數(shù)據(jù)挖掘綜合項(xiàng)目實(shí)訓(xùn)。
數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的具體的教學(xué)安排如表1所示,其中學(xué)分是指理論課和實(shí)驗(yàn)課的總學(xué)分,其中理論課的1學(xué)分為16課時(shí),實(shí)踐課的1學(xué)分為32課時(shí),如“2+2”表示32課時(shí)的理論課和64學(xué)分的實(shí)驗(yàn)課。另外,項(xiàng)目綜合實(shí)訓(xùn)屬于集中實(shí)踐環(huán)節(jié),2學(xué)分為2周的時(shí)間。
4 結(jié)束語(yǔ)
在當(dāng)前大數(shù)據(jù)背景下,基于Hadoop技術(shù)的面向信管專(zhuān)業(yè)的數(shù)據(jù)分析與數(shù)據(jù)挖掘課程群的構(gòu)建研究是信息管理與信息系統(tǒng)專(zhuān)業(yè)與大數(shù)據(jù)結(jié)合的一次創(chuàng)新。以社會(huì)的需求為導(dǎo)向,以培養(yǎng)學(xué)生的數(shù)據(jù)分析與數(shù)據(jù)挖掘的能力為目標(biāo),同時(shí)培養(yǎng)學(xué)生運(yùn)用數(shù)據(jù)思維分析和解決實(shí)際問(wèn)題的能力。此課程群的有效實(shí)施,還需要有完善的實(shí)踐平臺(tái)以及一支知識(shí)結(jié)構(gòu)合理、教學(xué)水平高的教學(xué)團(tuán)隊(duì),這是以后重點(diǎn)建設(shè)的方向。
參考文獻(xiàn):
[1]汪祖柱.大數(shù)據(jù)背景下的信息管理與信息系統(tǒng)專(zhuān)業(yè)課程建設(shè)[J] .宿州學(xué)院學(xué)報(bào),2015(2):121-122.
[2]高巖. 大數(shù)據(jù)背景下信息管理專(zhuān)業(yè)的課程群建設(shè)[J].計(jì)算機(jī)教育,2014(12):8-10.
[3]劉婷婷, 李長(zhǎng)儀, 張立濤.大數(shù)據(jù)時(shí)代下信息管理與信息系統(tǒng)專(zhuān)業(yè)培養(yǎng)模式研究[J].中國(guó)電力教育,2014(2):48-50.
[4] 石洪波,冀素琴,呂亞麗,郭珉.財(cái)經(jīng)院校信息類(lèi)專(zhuān)業(yè)數(shù)據(jù)管理與分析課程群體系研究[J].高等財(cái)經(jīng)教育研究,2015(9):54-58.
[5] 張景森,杜振川,周俊杰,許云,張靜.高校課程群建設(shè)理論與實(shí)踐中的幾個(gè)問(wèn)題[J]. 現(xiàn)代教育科學(xué),2015(9):64-69.
【通聯(lián)編輯:王力】