常桐善
(1.華中科技大學(xué) 教育科學(xué)研究院, 武漢 430074; 2.加州大學(xué) 校長辦公室, 奧克蘭 94607)
美國高等教育數(shù)據(jù)的發(fā)展和建設(shè)有很多年的歷史,早期的數(shù)據(jù)在量和種類方面都難以展示大數(shù)據(jù)的特征。隨著高校的決策模式從官僚主義、學(xué)院型等傳統(tǒng)決策模式向更加科學(xué)的循證決策模式轉(zhuǎn)變,以及高等教育發(fā)展的復(fù)雜化和競爭的日趨激烈,高校對大數(shù)據(jù)的需求持續(xù)升級。與此同時,計算機(jī)、網(wǎng)絡(luò)、云端、人工智能、數(shù)字化等技術(shù)的快速發(fā)展及其在高校的普遍應(yīng)用,為高校收集、整合、共享數(shù)據(jù)提供了便捷且能支付的技術(shù)。進(jìn)入21世紀(jì)以來,美國高等教育大數(shù)據(jù)的發(fā)展和建設(shè)速度非常快。
以加州大學(xué)為例,目前收集的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的大學(xué)運(yùn)行系統(tǒng)的數(shù)據(jù)。新的數(shù)據(jù)來源包括廣泛用于學(xué)習(xí)分析(learning analytics)的學(xué)習(xí)管理系統(tǒng)(learning management system)、從加州勞動局獲得的用于學(xué)生學(xué)習(xí)成果評價(learning outcomes assessment)的畢業(yè)生就業(yè)數(shù)據(jù)、從稅務(wù)部門獲得的用于評價校友社會貢獻(xiàn)度的納稅和捐贈等數(shù)據(jù)、從領(lǐng)英(Linkedin)等社交媒體獲得的用于評價畢業(yè)生職業(yè)發(fā)展和成就的數(shù)據(jù),以及通過數(shù)字化技術(shù)轉(zhuǎn)換的加州大學(xué)從建校到20世紀(jì)80年代建立數(shù)據(jù)系統(tǒng)之前的在校生和課程設(shè)置數(shù)據(jù)等。總體上,到目前為止,美國高等教育大數(shù)據(jù)建設(shè)仍然領(lǐng)先世界各國,在一定程度上也引領(lǐng)世界高等教育大數(shù)據(jù)建設(shè)的發(fā)展方向。
中國高等教育領(lǐng)域的大數(shù)據(jù)建設(shè)也經(jīng)歷了相當(dāng)長一段時間的發(fā)展。尤其是最近幾年,國家相繼出臺有關(guān)文件,要求高校加快高等教育數(shù)字化轉(zhuǎn)型和大數(shù)據(jù)建設(shè)。教育部2018年印發(fā)的《教育信息化2.0行動計劃》明確強(qiáng)調(diào),要完善教育管理信息化頂層設(shè)計,全面提高利用大數(shù)據(jù)支撐保障教育管理、決策和公共服務(wù)的能力。但不可否認(rèn),目前中國教育大數(shù)據(jù)建設(shè)仍然存在許多問題,“教育數(shù)據(jù)分散,教育信息孤島現(xiàn)象較為嚴(yán)重”,“教育數(shù)據(jù)的收集和分析手段需要改進(jìn)”[1]。這些問題也是高等教育大數(shù)據(jù)建設(shè)面臨的挑戰(zhàn)和亟待解決的問題。從表面上看,這些問題是數(shù)據(jù)收集和整合的問題,但實(shí)質(zhì)上是大數(shù)據(jù)治理和應(yīng)用的問題——缺乏大數(shù)據(jù)治理的法律和規(guī)章制度方面的保障以及在高校決策中廣泛實(shí)踐的理念。
雖然中美兩國的高等教育體制不盡相同,但在高等教育治理和大數(shù)據(jù)建設(shè)目標(biāo)方面應(yīng)該有諸多相似之處。例如,高校運(yùn)行數(shù)據(jù)是大數(shù)據(jù)的基礎(chǔ)來源,循證科學(xué)決策模式、循證教學(xué)改革等都是中美高等教育體制大數(shù)據(jù)建設(shè)和應(yīng)用的目標(biāo),所以美國高等教育大數(shù)據(jù)建設(shè)的經(jīng)驗(yàn)對中國相同領(lǐng)域的建設(shè)應(yīng)該具有借鑒價值。本研究首先簡要介紹高等教育大數(shù)據(jù)的相關(guān)概念、特征以及類型,然后基于美國高校尤其是加州大學(xué)系統(tǒng)大數(shù)據(jù)建設(shè)的經(jīng)驗(yàn),闡述美國高等教育大數(shù)據(jù)的建設(shè)路徑,最后討論美國的經(jīng)驗(yàn)對中國高等教育大數(shù)據(jù)建設(shè)的啟示。
需要強(qiáng)調(diào)兩個方面的問題:一是高等教育大數(shù)據(jù)是指高等教育領(lǐng)域的大數(shù)據(jù),本質(zhì)上是高校大數(shù)據(jù)的總稱,所以下面闡述的高等教育大數(shù)據(jù)建設(shè)路徑是基于高校大數(shù)據(jù)建設(shè)的實(shí)踐經(jīng)驗(yàn),既反映高校層面的大數(shù)據(jù)建設(shè)路徑,也適用于高等教育宏觀層面的大數(shù)據(jù)建設(shè)。二是學(xué)者們?yōu)榱碎_展高等教育學(xué)學(xué)術(shù)研究而收集和積累的數(shù)據(jù)也是高等教育大數(shù)據(jù)的重要組成部分,其特征和建設(shè)路徑與高校層面通過運(yùn)行和調(diào)研系統(tǒng)以及共享渠道獲得的數(shù)據(jù)非常相似;加之美國很多學(xué)者使用的數(shù)據(jù)是從高?;蛳嚓P(guān)機(jī)構(gòu)獲得的高等教育整合數(shù)據(jù),所以本研究所闡述的高等教育大數(shù)據(jù)治理和數(shù)據(jù)收集、整合、共享的建設(shè)路徑也適用于高等教育學(xué)學(xué)術(shù)研究領(lǐng)域的大數(shù)據(jù)建設(shè)。
大數(shù)據(jù)概念的存在已經(jīng)有很長時間,最早由邁克爾·考克斯(Michael Cox)和大衛(wèi)·埃爾斯沃思(David Ellsworth)于1997年在電氣電子工程師學(xué)會(The Institute of Electrical and Electronics Engineers)的報告中提出。他們強(qiáng)調(diào):“可視化給計算機(jī)系統(tǒng)提供了非常有意義的挑戰(zhàn):數(shù)據(jù)表格太大,導(dǎo)致內(nèi)外部驅(qū)動器的儲存容量不夠。我們把這些問題統(tǒng)稱為‘大數(shù)據(jù)’問題?!盵2]根據(jù)吉爾·普利斯(Gil Press)對“大數(shù)據(jù)”發(fā)展歷史的梳理研究,這篇研究文章是美國計算機(jī)協(xié)會(Association for Computing Machinery)收藏的所有文章中最早使用“大數(shù)據(jù)”這個術(shù)語的文章[3]。后來,陸續(xù)出現(xiàn)的“信息爆炸”(information explosion)和“商業(yè)智能”(business intelligence)等概念對理解大數(shù)據(jù)以及推動大數(shù)據(jù)的建設(shè)具有重要意義。
那么,高等教育領(lǐng)域是從什么時候開始使用“大數(shù)據(jù)”這個術(shù)語的?筆者查看了各類文獻(xiàn),沒有找到具體的答案。史蒂文·伯勒爾(Steven Burrell)認(rèn)為,20世紀(jì)90年代,伴隨著“商業(yè)智能”和“分析科學(xué)”(analytics)等的廣泛使用,美國大多數(shù)高校開始制定長遠(yuǎn)的信息發(fā)展戰(zhàn)略規(guī)劃,開發(fā)數(shù)據(jù)系統(tǒng),向高等教育大數(shù)據(jù)發(fā)展方向邁進(jìn)[4]。顯然,高等教育大數(shù)據(jù)的發(fā)展與其他領(lǐng)域的發(fā)展幾乎是同步的。這個結(jié)論與筆者在2002年撰寫的計算機(jī)科學(xué)碩士學(xué)位論文的研究結(jié)果基本一致。這篇論文分析了美國100所高校的信息技術(shù)發(fā)展戰(zhàn)略規(guī)劃,當(dāng)時有些學(xué)校的信息技術(shù)戰(zhàn)略發(fā)展規(guī)劃已經(jīng)過多次更新,進(jìn)入第三、第四個5~10年的規(guī)劃周期。這些高校提出的很多目標(biāo)雖然沒有使用“大數(shù)據(jù)”這個術(shù)語,但都聚焦于數(shù)據(jù)建設(shè)和實(shí)施措施。
20年后的今天,高等教育大數(shù)據(jù)已成為高等教育領(lǐng)域最流行的話題之一。采用“big data in higher education”(高等教育大數(shù)據(jù))和“big data and higher education”(大數(shù)據(jù)與高等教育)等關(guān)鍵詞在谷歌網(wǎng)站搜索(關(guān)鍵詞加雙引號搜索,獲取包含與關(guān)鍵詞完全匹配的信息),可以找到上百萬條相關(guān)信息,內(nèi)容分布在“高等教育大數(shù)據(jù)建設(shè)”“高等教育大數(shù)據(jù)科學(xué)”“高等教育大數(shù)據(jù)應(yīng)用”和“高等教育大數(shù)據(jù)革新”等諸多領(lǐng)域。
數(shù)據(jù)究竟“大”到什么程度可稱之為大數(shù)據(jù)?似乎沒有具體的界定。學(xué)者通常通過對特征的描述來界定大數(shù)據(jù)。網(wǎng)絡(luò)上廣泛流傳的大數(shù)據(jù)特征描述是“5V”特征:量大(volume)、種類多(variety)、變化速度快(velocity)、真實(shí)性(veracity)和價值(value)。量大顧名思義就是指數(shù)據(jù)的數(shù)量大。以美國高校學(xué)生注冊數(shù)據(jù)為例,學(xué)校通常記錄每學(xué)期開學(xué)3周后的注冊學(xué)生數(shù)以及到期末時仍然在校的學(xué)生數(shù),也就是說每學(xué)期記錄兩次??赡軙袑W(xué)生中途離開再重新注冊等情況,這樣每學(xué)期的記錄就有近10萬條,一年就有近20萬條,10年后就可以收集約200萬條數(shù)據(jù)。這些數(shù)據(jù)的量足夠供學(xué)校分析學(xué)生的注冊和保留行為。當(dāng)然,這些數(shù)據(jù)的量與商業(yè)系統(tǒng)的數(shù)據(jù)量相比,確實(shí)不大,但對高校研究學(xué)生的注冊行為和保留率來說,這些數(shù)據(jù)已足夠,所以稱之為大數(shù)據(jù)亦不為過。大數(shù)據(jù)種類多的特征可以從兩個方面解讀:一是同一組數(shù)據(jù)中的變量類別多,如學(xué)生招生數(shù)據(jù)可能包括學(xué)生個人特征、家庭背景、學(xué)校特征和社區(qū)特征等數(shù)據(jù);二是數(shù)據(jù)的來源種類多,跟蹤了解大學(xué)生成長特征的數(shù)據(jù)可能包括入學(xué)前的學(xué)習(xí)表現(xiàn)、入學(xué)后的課程學(xué)習(xí)結(jié)果、社會活動的參與程度以及畢業(yè)后的研究生教育或就業(yè)情況等數(shù)據(jù)。變化速度快是指數(shù)據(jù)更新速度快、單位時間內(nèi)數(shù)據(jù)積累的頻度高。在商業(yè)領(lǐng)域,大數(shù)據(jù)更多地反映某種交易量的變化,如商品的交易等,所以可能在短暫的幾秒鐘內(nèi),就有上萬條新數(shù)據(jù)載入。這種情況在高校比較少見,高校常見的變化速度快的數(shù)據(jù)包括課程注冊系統(tǒng)的數(shù)據(jù),可能在系統(tǒng)開放后,短時間內(nèi)的載入量也會達(dá)到上萬條,但這種情況一年也就幾次。校園智慧卡是另一個數(shù)據(jù)記錄變化較快的領(lǐng)域。有4萬名學(xué)生的大學(xué)可能每天的數(shù)據(jù)載入量就有上百萬條。考慮到學(xué)生的隱私問題,美國高校很少記錄和使用校園卡的數(shù)據(jù)。大數(shù)據(jù)的真實(shí)性和價值顧名思義就是指大數(shù)據(jù)的準(zhǔn)確性、真實(shí)程度以及服務(wù)于決策、研究等的價值。從嚴(yán)格意義上說,真實(shí)性和價值并非大數(shù)據(jù)的特征,因?yàn)閿?shù)據(jù)是否真實(shí)、是否能展示有價值的信息,在很大程度上還取決于數(shù)據(jù)挖掘的方法和能力,以及在數(shù)據(jù)結(jié)果解讀時,有效結(jié)合機(jī)構(gòu)事務(wù)原則的程度。有的數(shù)據(jù)可能對今天的發(fā)展來說沒有價值,但一段時間后,當(dāng)學(xué)校的戰(zhàn)略發(fā)展方向發(fā)生變化,可能就有價值了。所以,如果我們一定要說真實(shí)性和價值也是大數(shù)據(jù)的特征,那么我們只能說它們是大數(shù)據(jù)的“隱性特征”,需要挖掘方可顯示,量大、種類多、變化速度快則可稱之為大數(shù)據(jù)的“顯性特征”。
理解高等教育大數(shù)據(jù)的類型有助于合理設(shè)計數(shù)據(jù)收集、整合和共享的方法。根據(jù)數(shù)據(jù)所反映的內(nèi)涵意義,可以將大數(shù)據(jù)分為事實(shí)數(shù)據(jù)(fact data)和行為數(shù)據(jù)(behavioral data)。事實(shí)數(shù)據(jù)記錄事情發(fā)生的頻度,如注冊學(xué)習(xí)某一門課程的學(xué)生人數(shù)、在頂尖期刊發(fā)表論文的教師人數(shù)以及教師的工資等??梢哉f,高校運(yùn)行系統(tǒng)記載的數(shù)據(jù)大多數(shù)是事實(shí)數(shù)據(jù)。當(dāng)然也有例外,如學(xué)生學(xué)習(xí)管理系統(tǒng)記錄的數(shù)據(jù)就是混合型數(shù)據(jù),既包括事實(shí)數(shù)據(jù),如完成作業(yè)的情況,也包括行為數(shù)據(jù),如先閱讀資料還是先完成作業(yè)的行為。行為數(shù)據(jù)是通過對研究對象的觀察、試驗(yàn)、人工智能工具的跟蹤記錄以及研究對象自我反饋等方式收集到的反映研究對象行為的數(shù)據(jù)。事實(shí)數(shù)據(jù)通?;卮稹笆鞘裁础焙汀叭绾巍钡葐栴},而行為數(shù)據(jù)則有利于解釋“為什么”和“未來怎樣”等問題。例如,學(xué)生的學(xué)習(xí)成績是事實(shí)數(shù)據(jù),可以用來回答“學(xué)生的學(xué)習(xí)成績?nèi)绾巍钡葐栴};學(xué)生學(xué)習(xí)投入反映了學(xué)生的學(xué)習(xí)行為,可以用來解釋學(xué)習(xí)成績差異的原因,回答“為什么學(xué)生的學(xué)習(xí)成績有差異”和“如何幫助學(xué)生提升他們的學(xué)習(xí)成績”等問題。通常情況下,相比于收集事實(shí)數(shù)據(jù),收集行為數(shù)據(jù)的難度更大,所以研究人員在研究設(shè)計時搞清楚數(shù)據(jù)的類型對保證數(shù)據(jù)信效度極為重要。
數(shù)據(jù)也可以根據(jù)其來源分為客觀數(shù)據(jù)和主觀數(shù)據(jù)。客觀數(shù)據(jù)是通過記錄客觀事件的發(fā)生情況獲得的數(shù)據(jù),可能是事實(shí)數(shù)據(jù),也可能是行為數(shù)據(jù)。例如,教師通過記錄學(xué)生在課堂上的提問次數(shù),對學(xué)生的學(xué)習(xí)參與行為進(jìn)行記錄而收集到的數(shù)據(jù)就是客觀數(shù)據(jù)。相反,如果我們通過調(diào)查問卷,讓學(xué)生通過回顧式方法判斷自己課堂參與的頻度(如“經(jīng)?!薄坝袝r”“偶爾”和“從不”等)而收集到的數(shù)據(jù),是學(xué)生根據(jù)自己的回憶和判斷提供的數(shù)據(jù),就屬于主觀數(shù)據(jù)。尤其是當(dāng)學(xué)生對“經(jīng)常”和“有時”等術(shù)語的主觀判斷有差異時,對自己參與程度的判斷就可能產(chǎn)生誤差。顯然,客觀數(shù)據(jù)比主觀數(shù)據(jù)具有更加可靠的信度,但要求教師長期記錄學(xué)生的課堂參與程度是不現(xiàn)實(shí)的,所以從時間和經(jīng)濟(jì)效益的角度來說,在很多領(lǐng)域收集主觀數(shù)據(jù)的可行性更強(qiáng),而且在有些領(lǐng)域也只能收集到主觀數(shù)據(jù),如學(xué)生對學(xué)校服務(wù)的滿意度,這也是美國高校目前收集類似數(shù)據(jù)的主要方法。當(dāng)然,隨著技術(shù)的發(fā)展,高校也逐步使用課堂反饋儀記錄學(xué)生的參與情況。例如,學(xué)生提問或回答問題時用“回答儀”代替?zhèn)鹘y(tǒng)的舉手方式告知老師?!盎卮饍x”與學(xué)習(xí)管理系統(tǒng)鏈接,可以客觀記錄學(xué)生課堂參與程度數(shù)據(jù),同時也起到了考勤的作用。
根據(jù)時間跨度,大數(shù)據(jù)又可分為片段性數(shù)據(jù)(snapshot data)與持續(xù)性數(shù)據(jù)(longitudinal data)。片段性數(shù)據(jù)顧名思義就是反映一項(xiàng)活動的某一個或者某幾個片段的數(shù)據(jù),而持續(xù)性數(shù)據(jù)則反映一項(xiàng)活動的完整過程。事實(shí)上,在絕大多數(shù)情況下,高等教育領(lǐng)域和商業(yè)領(lǐng)域的數(shù)據(jù)都是片段性數(shù)據(jù),即使是我們常常稱之為持續(xù)性數(shù)據(jù)的數(shù)據(jù)也只能是“相對持續(xù)性”的,而不是“絕對持續(xù)性”的。例如,本科生某一學(xué)期的學(xué)習(xí)過程數(shù)據(jù)對本科教育的整體過程來說是片段性數(shù)據(jù),但每學(xué)期的成績可能是由期中考試、平時測驗(yàn)、作業(yè)、參與等具有一定持續(xù)性的數(shù)據(jù)組成的。對這一學(xué)期來說,這樣的數(shù)據(jù)反映了學(xué)生學(xué)習(xí)的整體情況,在這個特定的時間段內(nèi),稱之為持續(xù)性數(shù)據(jù)亦可。在高等教育領(lǐng)域,片段性數(shù)據(jù)對戰(zhàn)略規(guī)劃進(jìn)展監(jiān)測、學(xué)生學(xué)習(xí)過程評估和增值評估等都具有非常重要的意義,但持續(xù)性數(shù)據(jù)更有利于大學(xué)評價治理效能、辦學(xué)效益和教育質(zhì)量改變的全過程。
從數(shù)據(jù)的儲存形式和結(jié)構(gòu)特征來說,大數(shù)據(jù)包括結(jié)構(gòu)性數(shù)據(jù)(structured data)與非結(jié)構(gòu)性數(shù)據(jù)(unstructured data)。結(jié)構(gòu)性數(shù)據(jù)就是我們常說的儲存在數(shù)據(jù)庫里的行數(shù)據(jù),可以用二維表格來展示。例如,我們常見的學(xué)生注冊統(tǒng)計表格,就是由學(xué)生姓名、課程名稱構(gòu)成的縱橫二維的結(jié)構(gòu)化數(shù)據(jù)表格。目前高等教育大數(shù)據(jù)中的絕大多數(shù)數(shù)據(jù)都是結(jié)構(gòu)性數(shù)據(jù)。非結(jié)構(gòu)性數(shù)據(jù)是指字段長度不等并且每個字段的記錄可以由可重復(fù)或不可重復(fù)的字段構(gòu)成的數(shù)據(jù),包括文本、圖像、聲音、影視和超媒體等信息。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,高等教育大數(shù)據(jù)中的非結(jié)構(gòu)性數(shù)據(jù)不斷增多。美國高等教育目前最常見的非結(jié)構(gòu)性數(shù)據(jù)來源于社交媒體、大學(xué)申請的個人陳述(personal statement)和學(xué)生對調(diào)查問卷中開放性問題(open-ended questions)的回答。了解數(shù)據(jù)組成的結(jié)構(gòu)性和非結(jié)構(gòu)性特征對合理設(shè)計和開發(fā)大數(shù)據(jù)儲存系統(tǒng)、正確選擇數(shù)據(jù)挖掘工具、提升數(shù)據(jù)應(yīng)用效度均有助益。
隨著數(shù)據(jù)的增多,數(shù)據(jù)安全越來越成為大數(shù)據(jù)治理的難題。從數(shù)據(jù)類型來說,正確界定和處理隱私數(shù)據(jù)(privacy data)與非隱私數(shù)據(jù)成為大數(shù)據(jù)建設(shè)必須認(rèn)真解決的問題?;诖髷?shù)據(jù)的犯罪行為時有發(fā)生,如詐騙、欺凌、廣告騷擾等,電話、郵件詐騙就是由個人信息被盜或泄漏而導(dǎo)致的后果。通常情況下,與個人信息(如姓名、社會安全號、學(xué)/工號、郵件地址、住址、電話號碼和社交媒體號碼等)鏈接的所有數(shù)據(jù)都是隱私數(shù)據(jù),不能公開,而且要加密儲存。在數(shù)據(jù)匯總報告時,與個人背景特征同時報告的匯總數(shù)據(jù)都必須考慮群體人數(shù)的問題(group size issue)。例如,在美國的很多大學(xué),如果某個族裔群體人數(shù)少于10人,就會在匯總報告中刪除這個群體的數(shù)據(jù),如平均成績、課程成績達(dá)標(biāo)比例等。這樣做一方面是為了保護(hù)學(xué)生的隱私,另一方面也是為了保證數(shù)據(jù)分析結(jié)果的信度。如果某個群體的人數(shù)太少,任何小的變化都可能會改變研究和分析的結(jié)論。美國高等教育需要普遍遵循的兩項(xiàng)法律是《家庭教育權(quán)與隱私法》(Family Education Rights and Privacy Act, FERPA)[5]和《健康保險隱私及責(zé)任法》(Health Insurance Portability and Accountability Act, HIPAA)[6]。
數(shù)據(jù)治理(data governance)是大數(shù)據(jù)時代新的管理實(shí)踐理念。傳統(tǒng)的數(shù)據(jù)管理模式強(qiáng)調(diào)從技術(shù)層面進(jìn)行數(shù)據(jù)的收集、儲存、管理等事宜,數(shù)據(jù)治理則彰顯了數(shù)據(jù)管理的綜合性和整體性特征,強(qiáng)調(diào)大學(xué)決策、利益人和數(shù)據(jù)安全等,涉及大學(xué)戰(zhàn)略發(fā)展的整體過程,其目的是通過綜合治理模式有效控制和管理大學(xué)的數(shù)據(jù)資產(chǎn),提升其質(zhì)量、價值和利用率。從數(shù)字化轉(zhuǎn)型的視角討論,這種從數(shù)據(jù)管理到數(shù)據(jù)治理的變化除了需要強(qiáng)大的數(shù)字化技術(shù)支撐外,更需要數(shù)字化戰(zhàn)略的引導(dǎo),包括對大數(shù)據(jù)的認(rèn)知和持有的價值觀、國家和地方層面的大數(shù)據(jù)治理法律保障和指導(dǎo)性政策,以及高校層面的數(shù)據(jù)資產(chǎn)管理和數(shù)據(jù)共享的規(guī)章制度等[7]。
從1965年開始,美國聯(lián)邦政府先后出臺的涉及數(shù)據(jù)治理的法律包括《美國高等教育法》(Higher Education Act of 1965)、《國家研究法》(The National Research Act of 1974)和《高等教育透明度法》(Higher Education Transparency Act)等。這些法律包括數(shù)據(jù)收集、學(xué)生隱私保護(hù)和數(shù)據(jù)公開等多方面的條款。由于美國高等教育運(yùn)行隸屬州政府管轄,各州也出臺了支持本州高等教育大數(shù)據(jù)發(fā)展的法律和相關(guān)政策。例如,加州的《公共信息法》(California Public Records Act)要求在保護(hù)個人隱私的前提下,包括公立高校在內(nèi)的州立公共機(jī)構(gòu)有義務(wù)對外分享數(shù)據(jù),提升公眾對教育的知情權(quán)。2021年,加州又通過了旨在建立加州“搖籃到職場”數(shù)據(jù)系統(tǒng)(The California Cradle-to-Career Data System)的法律,要求公立教育系統(tǒng)以及教育局、衛(wèi)生局、勞動局等州政府機(jī)構(gòu)共同參與,建立加州學(xué)生層面的教育數(shù)據(jù)系統(tǒng)。這個系統(tǒng)建成后,將包括加州所有基礎(chǔ)教育和高等教育在校學(xué)生的背景、課程學(xué)習(xí)、就讀經(jīng)歷和學(xué)業(yè)完成情況等學(xué)生成長數(shù)據(jù),而且會每年更新。在高校層面,大數(shù)據(jù)治理的規(guī)章制度更多。加州大學(xué)校長辦公室在過去十多年已逐步完成了從數(shù)據(jù)管理向數(shù)據(jù)治理的過渡,相繼出臺了一系列數(shù)據(jù)治理政策,包括部門之間協(xié)調(diào)運(yùn)行數(shù)據(jù)的合作要求,數(shù)據(jù)的收集、儲存和整合制度、報告平臺開發(fā)和工具選用指南、院校研究數(shù)據(jù)服務(wù)指南、數(shù)據(jù)資產(chǎn)管理制度、數(shù)據(jù)隱私保密制度、用戶培訓(xùn)措施以及數(shù)據(jù)結(jié)果公開和報告制度等[8-9]。
另外,建立健全大數(shù)據(jù)建設(shè)組織機(jī)構(gòu)也是提升大數(shù)據(jù)治理能力的重要組成部分。美國高校大數(shù)據(jù)建設(shè)通常由學(xué)校的信息中心與院校研究部門合作完成。院校研究部門從大學(xué)運(yùn)行規(guī)則和數(shù)據(jù)分析的角度提出大數(shù)據(jù)需求報告,包括數(shù)據(jù)變量、標(biāo)準(zhǔn)、使用工具和需要解決的問題等。當(dāng)然,院校研究部門通常與職能部門(教務(wù)、財務(wù)、學(xué)生工作、科研和人事等部門)合作完成這樣的報告。信息中心會根據(jù)大數(shù)據(jù)需求報告,提出技術(shù)需求及實(shí)施報告。顯然,美國高校的院校研究機(jī)構(gòu)立足院校運(yùn)行規(guī)則對大數(shù)據(jù)建設(shè)提出需求,有效推動了大數(shù)據(jù)建設(shè)的進(jìn)程[10]。
高等教育大數(shù)據(jù)的主要來源是高校的運(yùn)行數(shù)據(jù)系統(tǒng),也就是用于大學(xué)日常業(yè)務(wù)運(yùn)行的數(shù)據(jù)系統(tǒng),包括工資發(fā)放、財務(wù)報銷、學(xué)生注冊、學(xué)生學(xué)習(xí)和教師科研等各個領(lǐng)域。在此基礎(chǔ)上,大學(xué)通常建立大學(xué)層面的數(shù)據(jù)倉儲,與運(yùn)行數(shù)據(jù)系統(tǒng)對接,定期導(dǎo)入運(yùn)行數(shù)據(jù)系統(tǒng)的數(shù)據(jù),供大學(xué)數(shù)據(jù)報告、分析和相關(guān)學(xué)術(shù)研究使用。由于美國高校在20世紀(jì)80年代就開發(fā)了類似的運(yùn)行數(shù)據(jù)系統(tǒng),所以很多高校在部分領(lǐng)域的數(shù)據(jù)積累已經(jīng)有40年的歷史,基本形成了本校的大數(shù)據(jù)系統(tǒng)。例如,加州大學(xué)總校目前的部分學(xué)生系統(tǒng)就包括過去30多年的400多萬名學(xué)生的申請資料和入學(xué)數(shù)據(jù)。另外,加州大學(xué)總校通過數(shù)字化技術(shù),將加州大學(xué)從1869年建校開始到建立加州大學(xué)數(shù)據(jù)系統(tǒng)之前的學(xué)生信息進(jìn)行數(shù)字化處理,形成了包括幾千萬條信息的學(xué)生數(shù)據(jù)庫。所以說,高校持續(xù)性地收集數(shù)據(jù)是高等教育大數(shù)據(jù)建設(shè)的主要路徑。
為了進(jìn)一步了解學(xué)生的學(xué)習(xí)和活動行為、教師的教學(xué)、科研和服務(wù)行為以及他們對學(xué)校服務(wù)、校園校風(fēng)的滿意度等,美國高校從20世紀(jì)80年代開始,通過調(diào)查問卷收集這些領(lǐng)域的行為數(shù)據(jù)。可以說,美國幾乎所有的高校都定期開展這方面的調(diào)查研究。加州大學(xué)從2002年開始,每兩年對本科學(xué)生進(jìn)行一次調(diào)查研究,截至目前已經(jīng)開展了11次調(diào)研,積累了60多萬條調(diào)查數(shù)據(jù),每一條數(shù)據(jù)包括300~400個變量[11]。此外,加州大學(xué)還對研究生的就讀經(jīng)歷、在校學(xué)生的經(jīng)費(fèi)開支以及教師的教學(xué)等情況進(jìn)行調(diào)查。所有這些數(shù)據(jù)都可以與運(yùn)行系統(tǒng)的數(shù)據(jù)對接,形成了集事實(shí)數(shù)據(jù)與行為數(shù)據(jù)、客觀數(shù)據(jù)與主觀數(shù)據(jù)、片段性數(shù)據(jù)與持續(xù)性數(shù)據(jù)為一體的數(shù)據(jù)系統(tǒng)。雖然調(diào)查數(shù)據(jù)本身的量不算大,但與運(yùn)行數(shù)據(jù)系統(tǒng)的學(xué)生入學(xué)、課程學(xué)習(xí)、畢業(yè)、資助、就業(yè)以及教師教學(xué)等數(shù)據(jù)整合后,其價值就會成千上萬倍地增加。
另外,隨著高校對個性化教育的日趨重視,學(xué)校希望通過學(xué)習(xí)分析來解決學(xué)生學(xué)習(xí)差異的問題,所以很多學(xué)校開始通過學(xué)習(xí)管理系統(tǒng)收集學(xué)生個性化學(xué)習(xí)數(shù)據(jù),尤其是針對網(wǎng)絡(luò)課程教學(xué),通過學(xué)習(xí)管理系統(tǒng)收集數(shù)據(jù)更加可行。但由于涉及很多教師和學(xué)生隱私方面的問題,學(xué)習(xí)管理系統(tǒng)對數(shù)據(jù)的收集還停留在供授課教師使用的層面,還沒有廣泛導(dǎo)入大學(xué)整合型的大數(shù)據(jù)系統(tǒng)。相信隨著大數(shù)據(jù)治理體系和技術(shù)的成熟,學(xué)生學(xué)習(xí)數(shù)據(jù)將是高等教育大數(shù)據(jù)最有價值的數(shù)據(jù)組成。
除了高校從管理的角度持續(xù)性地收集數(shù)據(jù)外,高等教育領(lǐng)域的學(xué)者為了開展學(xué)術(shù)研究也在不斷收集相關(guān)數(shù)據(jù)。雖然這些數(shù)據(jù)可能由于缺少個體識別信息,難以與高校大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)整合,但仍然是高等教育大數(shù)據(jù)的重要組成部分。學(xué)者通過大數(shù)據(jù)研究,從不同的角度為高等教育發(fā)展提供了科學(xué)研究依據(jù)。
在國家和州層面的眾多法律和規(guī)章制度的保護(hù)和授權(quán)之下,高校以及相關(guān)機(jī)構(gòu)展開了多層次、多維度的數(shù)據(jù)交換和共享。這種數(shù)據(jù)共享是高等教育領(lǐng)域大數(shù)據(jù)建設(shè)的主要途徑之一,在高等教育大數(shù)據(jù)建設(shè)中發(fā)揮的作用與高校內(nèi)部、學(xué)者進(jìn)行的數(shù)據(jù)收集同等重要。從大數(shù)據(jù)的特征和類型來說,共享數(shù)據(jù)可以大幅度增加數(shù)據(jù)的種類,提升數(shù)據(jù)的量和價值,可以拓展持續(xù)性數(shù)據(jù)的時間跨度和數(shù)據(jù)變量維度,有利于增強(qiáng)高等教育大數(shù)據(jù)的完整性。以學(xué)生發(fā)展數(shù)據(jù)為例,我們需要學(xué)生就讀大學(xué)前的學(xué)業(yè)與成長環(huán)境相關(guān)數(shù)據(jù)、學(xué)生入學(xué)后的學(xué)習(xí)過程數(shù)據(jù)以及學(xué)生離校后的繼續(xù)深造和職業(yè)行為數(shù)據(jù),才能夠全面展示學(xué)生接受本科教育的成就,也就是增值結(jié)果。更重要的是,這樣的具有持續(xù)性、連貫性的大數(shù)據(jù)也有利于探索和研究學(xué)生的成長規(guī)律,為改進(jìn)教學(xué)提供依據(jù)。要獲得完整的數(shù)據(jù),單純地依靠自己收集永遠(yuǎn)也無法達(dá)到要求,必須依靠數(shù)據(jù)共享。目前,加州大學(xué)共享數(shù)據(jù)的部門除了高校外還包括教育行政部門、勞動部門、稅務(wù)部門、出版集團(tuán)、社交媒體、高等教育協(xié)會、高校聯(lián)盟和考試機(jī)構(gòu)等。
美國高校共享數(shù)據(jù)最為典型的方法是通過政府投資建立數(shù)據(jù)共享平臺、大學(xué)聯(lián)盟以及非營利機(jī)構(gòu)。表1展示了5個較為普遍的數(shù)據(jù)共享案例。
表1 美國政府以及高校聯(lián)盟教育數(shù)據(jù)共享系統(tǒng)
美國教育統(tǒng)計中心建立的“整合型高等教育數(shù)據(jù)系統(tǒng)”(Integrated Postsecondary Education Data System, IPEDS)是高校分享學(xué)校層面數(shù)據(jù)的主要平臺。這個平臺除了在線公開數(shù)據(jù)外,也為高校提供網(wǎng)絡(luò)下載全部數(shù)據(jù)的工具,高??梢詫⑾螺d數(shù)據(jù)與內(nèi)部數(shù)據(jù)整合,是標(biāo)桿研究數(shù)據(jù)的主要來源。加州正在開發(fā)包括全州學(xué)生從入讀幼兒園到就業(yè)的“搖籃到職場”學(xué)生發(fā)展數(shù)據(jù)跟蹤系統(tǒng)。這個系統(tǒng)將包括加州各級公立學(xué)校入學(xué)、大學(xué)招生、就業(yè)、學(xué)校背景、社區(qū)背景、學(xué)生學(xué)業(yè)成績以及學(xué)生家庭背景等領(lǐng)域的數(shù)據(jù)。系統(tǒng)通過統(tǒng)一的識別信息跟蹤記錄學(xué)生成長的全過程,數(shù)據(jù)系統(tǒng)建成后對提升教育決策績效、推進(jìn)教育改革會有實(shí)質(zhì)性的作用。事實(shí)上,包括美國俄勒岡和康涅狄格等在內(nèi)的十多個州也已經(jīng)啟動了類似的教育數(shù)據(jù)共享系統(tǒng)建設(shè)項(xiàng)目。美國大學(xué)協(xié)會數(shù)據(jù)交換聯(lián)盟(American Association of University Data Exchange,AAUDE)是該協(xié)會成員大學(xué)數(shù)據(jù)交換和共享的平臺。AAU包括65所北美頂尖大學(xué),其中6所大學(xué)是加州大學(xué)的分校。筆者所在的院校研究部門也經(jīng)常使用這個平臺開展各項(xiàng)研究,為學(xué)校提供決策支持。研究型大學(xué)本科生就讀經(jīng)歷(Student Experience at the Research University,SERU)調(diào)研聯(lián)盟是由加州大學(xué)伯克利分校倡議并創(chuàng)建的,先后有近50所大學(xué)參與,并利用統(tǒng)一的調(diào)查問卷每兩年收集一次數(shù)據(jù),同時共享學(xué)生層面的調(diào)研數(shù)據(jù),幫助聯(lián)盟大學(xué)進(jìn)行本科生就讀經(jīng)歷的參照比較研究,為學(xué)校制定本科生教育政策提供有效依據(jù)。全國學(xué)生數(shù)據(jù)中心(National Student Clearinghouse,NSC)是一個非營利機(jī)構(gòu),是高校追蹤了解學(xué)生入學(xué)去向的數(shù)據(jù)平臺。這個機(jī)構(gòu)的運(yùn)行模式是高校作為會員加入組織,并分享在校生的有關(guān)數(shù)據(jù),數(shù)據(jù)需求大學(xué)提交學(xué)生姓名等可以識別的學(xué)生信息,中心從其數(shù)據(jù)平臺將搜索到的信息反饋給需求大學(xué)。例如,加州大學(xué)每年匯報的被錄取學(xué)生入讀其他高校的數(shù)據(jù)、從加州大學(xué)轉(zhuǎn)入其他高校的學(xué)生學(xué)業(yè)完成動態(tài)數(shù)據(jù)以及加州大學(xué)本科畢業(yè)生攻讀其他高校研究生學(xué)位的學(xué)業(yè)動態(tài)數(shù)據(jù)都來自這個平臺。
除了上面闡述的數(shù)據(jù)共享和交換行動,美國高校之間也通過合同形式互相交換學(xué)校層面的數(shù)據(jù)。筆者工作的院校研究部門開展了很多類似的數(shù)據(jù)交換工作。例如,我們通過合約不定期地從加州教育局獲取中學(xué)生參加加州課程教育評價考試的數(shù)據(jù),每年從大學(xué)董事會(college board)獲取加州所有參加類似于中國高考的SAT考試和先修課程(advanced placement courses)考試成績的數(shù)據(jù),從加州社區(qū)學(xué)院獲取就讀加州社區(qū)學(xué)院學(xué)生的修課和學(xué)業(yè)成績的數(shù)據(jù),通過合約從加州勞動局定期獲取所有在加州工作的加州大學(xué)畢業(yè)生的就業(yè)數(shù)據(jù)等。這些數(shù)據(jù)包括學(xué)生個人的識別信息,我們可以與大學(xué)內(nèi)部收集的其他數(shù)據(jù)整合,有效實(shí)現(xiàn)推動大數(shù)據(jù)建設(shè)和數(shù)據(jù)賦能的目的。
整合數(shù)據(jù)(integrating data)是將技術(shù)和組織運(yùn)行規(guī)則(business rules)相結(jié)合,清理、合并從不同渠道收集到的數(shù)據(jù),通過統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)、提升數(shù)據(jù)質(zhì)量、增加數(shù)據(jù)價值,為開展有意義的數(shù)據(jù)挖掘、產(chǎn)生有價值的信息奠定基礎(chǔ)。數(shù)據(jù)清理較為容易理解,即對原始數(shù)據(jù)中存在的問題進(jìn)行處理,確保數(shù)據(jù)的準(zhǔn)確性和真實(shí)性。但如前所述,大數(shù)據(jù)是否具有真實(shí)性是一個復(fù)雜的問題,主要取決于數(shù)據(jù)收集設(shè)計的合理與否。在數(shù)據(jù)整合過程中很難完全確定和解決數(shù)據(jù)的真實(shí)性問題,但至少可以核實(shí)數(shù)據(jù)變量的界定是否符合高校的事務(wù)運(yùn)行原則。整合數(shù)據(jù)是一項(xiàng)非常重要且花費(fèi)時間的工作。根據(jù)筆者從事院校研究的經(jīng)驗(yàn),如果我們需要從整合數(shù)據(jù)開始來開展一項(xiàng)研究工作,那么花費(fèi)在數(shù)據(jù)整合方面的時間遠(yuǎn)遠(yuǎn)超過花費(fèi)在數(shù)據(jù)分析上的時間。但其好處是,整合好的數(shù)據(jù)可以重復(fù)使用,這也是在建立大數(shù)據(jù)系統(tǒng)時必須對數(shù)據(jù)進(jìn)行整合的原因。
整合數(shù)據(jù)通常包括3個基本步驟。一是將從不同渠道獲得的原始數(shù)據(jù)(包括從運(yùn)行系統(tǒng)導(dǎo)入的數(shù)據(jù)、外部數(shù)據(jù)等)裝入大數(shù)據(jù)倉儲的暫存數(shù)據(jù)(staging data)空間。通常情況下,從原始數(shù)據(jù)到暫存空間之間不進(jìn)行任何數(shù)據(jù)清理和整合工作,而是保留原始數(shù)據(jù),以備后面開展數(shù)據(jù)清理和整合出現(xiàn)錯誤需要重新裝載原始數(shù)據(jù)時使用。二是按照數(shù)據(jù)設(shè)計結(jié)構(gòu)以及組織商業(yè)運(yùn)行規(guī)則,清理儲存在暫存空間的數(shù)據(jù),合并數(shù)據(jù),建立數(shù)據(jù)表格之間的關(guān)聯(lián),然后將數(shù)據(jù)導(dǎo)入基本數(shù)據(jù)(base data)空間。這時就可以讓數(shù)據(jù)用戶測試數(shù)據(jù)。三是在基本數(shù)據(jù)的基礎(chǔ)上進(jìn)一步清理和整合,以供數(shù)據(jù)報告和分析使用。整合好的數(shù)據(jù)通常被稱為數(shù)據(jù)產(chǎn)品(data production)或商業(yè)智能數(shù)據(jù),也叫終端數(shù)據(jù)。
上面闡述的從暫存數(shù)據(jù)到基本數(shù)據(jù)再到終端數(shù)據(jù)之間都要經(jīng)過抽取、轉(zhuǎn)換和加載(extract,transform and load,ETL)3個清理和整合的過程,抽取是把收集到的或者由運(yùn)行系統(tǒng)導(dǎo)入的數(shù)據(jù)進(jìn)行篩選,清除垃圾,保留有用的東西。轉(zhuǎn)換過程是數(shù)據(jù)糾錯和規(guī)范化的過程,常見的轉(zhuǎn)換包括統(tǒng)一變量格式,如統(tǒng)一不同表格中出生年月、性別、日期等的格式,在原始數(shù)據(jù)的基礎(chǔ)上建立新的能夠反映學(xué)校運(yùn)行規(guī)則的變量,如根據(jù)專業(yè)信息建立用于數(shù)據(jù)分析和報告的學(xué)科類別變量等。
圖1展示了加州大學(xué)整合型數(shù)據(jù)系統(tǒng)中的學(xué)生大數(shù)據(jù)建設(shè)路徑。每一個方框代表了大數(shù)據(jù)中的一個維度,每個維度可能包含眾多數(shù)據(jù)變量,如“大學(xué)申請”數(shù)據(jù)維度含有超過3 000個數(shù)據(jù)變量,分布在學(xué)生背景、家庭背景、高中學(xué)業(yè)完成情況、大學(xué)入學(xué)考試成績和課外活動參與情況等10多個領(lǐng)域。橫向維度展示了學(xué)生從大學(xué)準(zhǔn)備(學(xué)前情況)、申請大學(xué)、進(jìn)入大學(xué)(入學(xué)、修習(xí)課程)一直到畢業(yè)、就業(yè)的發(fā)展路徑。這些數(shù)據(jù)來源于州教育部門、考試機(jī)構(gòu)、大學(xué)申請系統(tǒng)、學(xué)生注冊系統(tǒng)、調(diào)研數(shù)據(jù)、學(xué)習(xí)管理系統(tǒng)、非營利性機(jī)構(gòu)、校友調(diào)查數(shù)據(jù)、州勞動局、稅務(wù)部門以及社交媒體。所有這些數(shù)據(jù)維度和變量都通過學(xué)號、學(xué)校等識別變量鏈接成一張網(wǎng),構(gòu)成上萬個數(shù)據(jù)變量和上百萬個數(shù)據(jù)變量組合(如學(xué)習(xí)成績與性別就是一個組合)。顯然,任何單項(xiàng)數(shù)據(jù)的價值都無法與整合后的大數(shù)據(jù)價值相比。整合后的平臺實(shí)際上已經(jīng)形成了集基礎(chǔ)教育、加州大學(xué)教育、就業(yè)以及加州經(jīng)濟(jì)、人口特征、社會貢獻(xiàn)為一體的學(xué)生發(fā)展路徑大數(shù)據(jù)平臺。利用這個平臺,我們不僅可以全面系統(tǒng)研究和總結(jié)加州大學(xué)本科生的成長特征和規(guī)律,探究加州大學(xué)本科教育的優(yōu)劣勢,也可以研究整個加州高等教育的公平性和對社會經(jīng)濟(jì)發(fā)展的影響,以及加州大學(xué)學(xué)士學(xué)位的價值和畢業(yè)生對社會的貢獻(xiàn)力。所以研究結(jié)果既可以為州政府制定基礎(chǔ)教育和高等教育政策提供依據(jù),也是加州大學(xué)制定本科教育政策、大學(xué)預(yù)算的主要依據(jù)之一。
綜上,美國高等教育數(shù)據(jù)類型眾多,既有事實(shí)數(shù)據(jù),也有反映大學(xué)教育、科研和服務(wù)的行為數(shù)據(jù);既有反映大學(xué)運(yùn)行的客觀數(shù)據(jù),也有反映大學(xué)不同群體聲音的主觀數(shù)據(jù);既有展示大學(xué)某一個階段的片段性數(shù)據(jù),也有展示大學(xué)一個世紀(jì)以來開展的教育活動的持續(xù)性數(shù)據(jù)。雖然美國高等教育大數(shù)據(jù)仍然無法與眾多商業(yè)領(lǐng)域的大數(shù)據(jù)相比,但其數(shù)量、種類、變化的速度以及包含的數(shù)據(jù)價值等都已今非昔比,能夠滿足高等教育眾多領(lǐng)域的數(shù)據(jù)研究需求,所以稱之為大數(shù)據(jù)不應(yīng)該有任何異議。當(dāng)然,美國高等教育大數(shù)據(jù)的建設(shè)經(jīng)過了多年的努力,在投入了大量的人力和財力的基礎(chǔ)上才取得這樣的成就。其建設(shè)路徑可以概括為4個相輔相成、同步發(fā)展的過程:大數(shù)據(jù)治理制度和文化氛圍的建設(shè)過程,持續(xù)性收集和積累數(shù)據(jù)的過程,大學(xué)以及考試機(jī)構(gòu)、州勞動局、非營利性組織積極分享數(shù)據(jù)的行動過程以及賦能數(shù)據(jù)的整合過程。美國經(jīng)驗(yàn)證明,缺少這4個過程中的任何一個都難以建設(shè)高等教育大數(shù)據(jù),也難以實(shí)現(xiàn)高等教育循證決策以及提升教育質(zhì)量、消除教育不公平的戰(zhàn)略目標(biāo)。當(dāng)然,美國高等教育大數(shù)據(jù)建設(shè)仍然存在很多需要改進(jìn)的地方,如數(shù)據(jù)安全、學(xué)生和教師隱私保護(hù)措施不到位、教學(xué)過程中的個性化學(xué)習(xí)和線上教學(xué)數(shù)據(jù)短缺以及教師教學(xué)質(zhì)量評價數(shù)據(jù)缺乏可靠性等問題。但其長期以來總結(jié)的經(jīng)驗(yàn)仍然對中國高等教育大數(shù)據(jù)建設(shè)有一定的啟示,對利用大數(shù)據(jù)提升教育治理能力有借鑒價值。
第一,要加強(qiáng)和完善高等教育大數(shù)據(jù)治理體系建設(shè),尤其是與大數(shù)據(jù)相關(guān)的立法、制度和組織建設(shè)。中國高等教育大數(shù)據(jù)的建設(shè)在很大程度上仍然沿用傳統(tǒng)的管理模式,還沒有從法律、制度層面形成國家、高校層面大數(shù)據(jù)治理的完整體系。因此,還沒有形成濃厚的大數(shù)據(jù)建設(shè)和應(yīng)用氛圍。另外,目前高校的大數(shù)據(jù)建設(shè)基本上依靠信息部門,而職能部門尤其是類似于高教研究所等數(shù)據(jù)使用部門的參與程度很低。這樣的模式非常不利于技術(shù)與大學(xué)運(yùn)行規(guī)則的整合。當(dāng)然,沒有明確的院校研究組織機(jī)構(gòu)也始終是推動數(shù)字化轉(zhuǎn)型、大數(shù)據(jù)建設(shè)和應(yīng)用的主要障礙。沒有院校研究就難以形成大數(shù)據(jù)應(yīng)用的文化氛圍,沒有大數(shù)據(jù)應(yīng)用的文化氛圍,自然很難樹立全校范圍內(nèi)的大數(shù)據(jù)建設(shè)觀念,更談不上樹立大數(shù)據(jù)治理理念。所以,加強(qiáng)和完善高等教育大數(shù)據(jù)治理體系建設(shè)是解決“數(shù)據(jù)分散”和“數(shù)據(jù)孤島”問題的關(guān)鍵措施。
第二,要制定長遠(yuǎn)的高等教育大數(shù)據(jù)發(fā)展戰(zhàn)略規(guī)劃,確保數(shù)據(jù)收集和整合的持續(xù)性。如前所述,與其他很多領(lǐng)域的大數(shù)據(jù)建設(shè)相比,高等教育大數(shù)據(jù)建設(shè)周期更長,所以更需要持續(xù)性建設(shè)。也就是說,高校必須從數(shù)據(jù)收集和整合、系統(tǒng)開發(fā)、技術(shù)和人財物配置等方面制定長遠(yuǎn)的發(fā)展戰(zhàn)略規(guī)劃,確保各方面工作的持續(xù)性。中國教育行政部門和高校習(xí)慣于通過短期科研立項(xiàng)、項(xiàng)目開發(fā)外包等方式來建設(shè)大數(shù)據(jù)平臺。這樣的平臺雖能解決短期數(shù)據(jù)需求問題,但從長遠(yuǎn)的大數(shù)據(jù)建設(shè)來說,弊大于利。所以,中國高等教育大數(shù)據(jù)建設(shè)的當(dāng)務(wù)之急是行政部門、高校以及高等教育相關(guān)機(jī)構(gòu)共同制定長遠(yuǎn)的高等教育大數(shù)據(jù)建設(shè)戰(zhàn)略規(guī)劃,提升高校內(nèi)部的大數(shù)據(jù)建設(shè)能力,確保數(shù)據(jù)收集和整合的持續(xù)性。這其實(shí)也是大數(shù)據(jù)治理的重要內(nèi)容。
第三,加強(qiáng)高校內(nèi)部數(shù)據(jù)運(yùn)行系統(tǒng)的建設(shè),提升數(shù)據(jù)收集能力,徹底改變數(shù)據(jù)“孤島”現(xiàn)象。如前所述,高校的數(shù)據(jù)運(yùn)行系統(tǒng)是高等教育大數(shù)據(jù)建設(shè)的基礎(chǔ),如果沒有強(qiáng)大的數(shù)據(jù)運(yùn)行系統(tǒng),高等教育大數(shù)據(jù)建設(shè)就是一句空話。前面闡述的美國大數(shù)據(jù)建設(shè)中存在的問題也主要是由個性化和線上教學(xué)運(yùn)行系統(tǒng)(學(xué)習(xí)管理系統(tǒng))、教師教學(xué)質(zhì)量評價運(yùn)行系統(tǒng)還不夠完善導(dǎo)致的。要提升運(yùn)行系統(tǒng)的數(shù)據(jù)收集能力,就必須將運(yùn)行系統(tǒng)的設(shè)計與學(xué)校的運(yùn)行規(guī)則和決策需求緊密結(jié)合起來,使運(yùn)行系統(tǒng)不僅能滿足大學(xué)日常運(yùn)行的需要,也能夠?yàn)楦叩冉逃髷?shù)據(jù)研究打好基礎(chǔ)。同樣重要的是,要通過數(shù)據(jù)整合和大學(xué)層面的數(shù)據(jù)倉儲平臺建設(shè),打通各部門運(yùn)行系統(tǒng)之間的鏈接渠道。否則,即使有了強(qiáng)大的運(yùn)行系統(tǒng),也難以建成整合型的數(shù)據(jù)平臺,也就不可能形成大數(shù)據(jù)。從技術(shù)上來說,這項(xiàng)工作已經(jīng)非常容易,但關(guān)鍵是要有高等教育的數(shù)據(jù)建設(shè)頂層設(shè)計,包括教育行政部門和高校兩個層面的設(shè)計。
第四,采取有力措施,加大數(shù)據(jù)共享力度,建立由政府、高等教育學(xué)會和高校聯(lián)盟等組織協(xié)調(diào)的、集基礎(chǔ)教育和高等教育以及社會和經(jīng)濟(jì)為一體的、多層面的高等教育大數(shù)據(jù)共享平臺。如果沒有數(shù)據(jù)共享,高等教育也許能夠滿足大數(shù)據(jù)的量大和變化速度快的特征,也許能夠積累足夠的反映本校的事實(shí)數(shù)據(jù),但很難達(dá)到大數(shù)據(jù)種類多元、齊全的要求,當(dāng)然也必然導(dǎo)致數(shù)據(jù)價值的局限性問題。促進(jìn)數(shù)據(jù)分享的另一個好處是,學(xué)者也可以從各級高等教育機(jī)構(gòu)獲取高等教育數(shù)據(jù)來開展大數(shù)據(jù)研究,從而增強(qiáng)大數(shù)據(jù)的使用價值,實(shí)現(xiàn)真正意義上的大數(shù)據(jù)賦能。