林松月,劉 進
(1.香港中文大學 教育學院, 香港 999077; 2.北京理工大學 人文與社會科學學院, 北京 100081)
進入第四次工業(yè)革命后,大數(shù)據(jù)和人工智能正在徹底改變社會科學研究方式,教育大數(shù)據(jù)研究結果直接應用于教育教學改革前景更為廣闊。院校研究應搶抓大數(shù)據(jù)發(fā)展機遇,形成各類院校大數(shù)據(jù)庫資源[1],提升院校研究科學化水平,進一步完善院校研究的理論、方法和公共知識體系。近年來,院校研究領域進入瓶頸期,在其他學科(如管理學、經(jīng)濟學、圖書情報學、新聞學)和教育學其他領域迅速引入大數(shù)據(jù)方法的同時,旨在指導教育改革實踐的院校研究仍處于“方法沉睡”階段[2],尚未面向大數(shù)據(jù)時代實現(xiàn)研究意識、研究方法、研究技術轉向,尚未激活各類大數(shù)據(jù)資源,部分大數(shù)據(jù)庫仍處于“數(shù)據(jù)封閉”和“數(shù)據(jù)孤島”狀態(tài)[3]。而這些問題的背后,是院校研究者尚未清晰了解教育大數(shù)據(jù)資源的現(xiàn)實分布、可能應用和廣闊前景,一些研究文獻雖然“鼓吹”在院校研究領域引入大數(shù)據(jù)資源,但大多為紙上談兵,沒有形成良好的研究示范。為進一步闡明院校研究領域的教育大數(shù)據(jù)生成、存儲、采集、使用等流程,分析院校研究領域教育大數(shù)據(jù)的各類基礎特征,展現(xiàn)教育大數(shù)據(jù)在院校研究領域的廣闊應用前景,本研究將在理論分析的基礎上引入部分研究實例展開闡述。
相比于傳統(tǒng)的各類研究方法,大數(shù)據(jù)在院校研究中的應用至少具有3個方面的顛覆性特征。
1.對院校研究范式的顛覆性:基于證據(jù)的科學化、動態(tài)性研究范式
傳統(tǒng)的院校研究大多基于已有的理論框架、研究假設或案例經(jīng)驗,展開研究設計、證據(jù)采集與結果分析。由于理論創(chuàng)新的難度較大,大多數(shù)研究沿用已有理論基礎,或在已有理論基礎上進行遷移、整合、嵌套或延伸,還有一些研究沒有理論基礎,只依據(jù)部分文獻資料或實踐案例整合形成各類研究假設。這種“理論/文獻/案例—假設—驗證”的基本研究范式,過度強化了已有理論、研究框架或實踐案例的合法性,在一定程度上降低了院校研究理論創(chuàng)新的動機和可能性,很多院校發(fā)展規(guī)律受到理論束縛無法得以揭示。還有一些研究為理論而理論,為假設而假設,案例遷移使用牽強附會,存在研究理論的方便性使用、研究證據(jù)的選擇性使用、研究工具的復雜化使用、研究結果的牽強性使用以及數(shù)學公式濫用、結構模型亂用等問題,進一步降低了院校研究的科學性。大數(shù)據(jù)研究則突破了這一傳統(tǒng)研究范式,更多地基于科學證據(jù)本身做出研究判斷,開展因果式研究而非相關性研究,進行各類院校規(guī)律預測并動態(tài)調整預測模型與預測結果(不斷提高預測精度以逼近真實發(fā)生值),這將有望使院校研究逐步進入不必過于依賴理論、過于依賴假設、過于依賴傳統(tǒng)案例或者決策經(jīng)驗的新階段。這不僅大大提升了院校研究的科學化水平,通過公布數(shù)據(jù)源、研究代碼等方法,推動院校研究過程透明化和結果公開化,重塑基于證據(jù)的院校研究共同體,而且可以降低院校研究難度,從各類理論研究、思辨研究、案例研究等逐步轉向規(guī)范的大數(shù)據(jù)研究[4-5],提高研究的趣味性水平,探討院校活動中的各類有趣現(xiàn)象。
2.對院校研究過程的顛覆性:基于事實的全樣本、客觀性研究過程
一方面,傳統(tǒng)的院校研究以問卷調查、訪談調查、質性研究、案例研究等方法為核心,研究過程只能實現(xiàn)對有限數(shù)據(jù)、有限資料的占有和分析,較容易導致研究結論的偏差。雖然一些研究試圖通過借鑒統(tǒng)計學等方法降低抽樣誤差和選擇性偏誤,但研究者本人的研究方向偏好、個人研究習慣、院校研究經(jīng)歷、方法使用、數(shù)據(jù)獲取、分析解釋能力上的差異等,仍可能影響研究過程,降低研究成果質量。尤其是院校管理中很多問題本身就非常復雜[6],研究過程如果只采用少量資料容易導致“盲人摸象”,致使院校研究方案和決策出現(xiàn)偏差。另一方面,大多數(shù)已有的院校研究活動以探求各要素間相關關系為主要研究過程,但各類相關分析很容易遮蔽真實的教育問題發(fā)生機理。根據(jù)簡單模型所形成的各類教育推導,也可能存在較大誤差。大數(shù)據(jù)方法的引入,有可能為上述院校研究的過程缺陷帶來彌補的轉機。第一,大數(shù)據(jù)將使得院校研究過程數(shù)據(jù)化,基于事實數(shù)據(jù)開展研究,降低研究者個人偏好等對研究過程的影響;第二,大數(shù)據(jù)將盡可能呈現(xiàn)完全樣本[7],有望回避或大幅降低因抽樣等帶來的研究誤差;第三,大數(shù)據(jù)將可能使得研究過程透明化、動態(tài)化、可回溯,降低研究者主觀學術不端或客觀研究失誤的可能性。
3.對院校研究結果的顛覆性:基于大數(shù)據(jù)的理論體系重構與研究結論重塑
一是大數(shù)據(jù)研究對于院校研究理論體系的顛覆性。傳統(tǒng)院校研究的理論體系,一部分來自對教育哲學等反思性建構,另一部分來自各類傳統(tǒng)教育研究的結論。同一教育問題往往存在多種理論解釋,甚至存在多種研究結果,往往導致院校決策活動在實踐層面無所適從。進入大數(shù)據(jù)時代,院校研究初步具備了對各種教育理論體系進行檢驗和重構的數(shù)據(jù)庫基礎,將可能逐一檢驗傳統(tǒng)院校研究理論的科學性與有效性,發(fā)現(xiàn)大量新的院校運行規(guī)律并凝練出全新的理論成果,新的經(jīng)過大數(shù)據(jù)檢驗的理論成果將不僅更能指導教育實踐,而且可能成為教育理論體系更新的主要合法性基礎。二是大數(shù)據(jù)研究對于具體院校研究結論的顛覆性。院校研究活動內容繁復,涉及大量游離在教育理論體系之外的各領域研究要點,傳統(tǒng)研究活動由于方法受限而在這些教育領域或要點中往往存在結論模糊、科學化水平不足等問題,導致院校決策無法直接采納教育研究結論。而進入大數(shù)據(jù)時代,將有可能通過各類專項院校研究數(shù)據(jù)庫建設,以及跨數(shù)據(jù)庫的數(shù)據(jù)挖掘、碰撞、運算等,對院校研究中出現(xiàn)的新問題及時做出更加科學化的研判[8],還有望通過大數(shù)據(jù)仿真,模擬不同院校決策路徑的可能后果,大大提高院校研究結論采信的可能性,提高院校管理水平,降低院校改革成本。
以上分析的主要目的在于凸顯大數(shù)據(jù)研究方法與院校研究結合可能產(chǎn)生的各類新趨勢,無意于否定傳統(tǒng)各類院校研究方法。事實上,除具有上述顛覆性特征之外,大數(shù)據(jù)方法與傳統(tǒng)院校研究方法還具有融合性特征。比如,大數(shù)據(jù)方法與傳統(tǒng)“小數(shù)據(jù)”院校研究方法如果充分融合,既可以從整體、宏觀、全貌視角考察院校治理問題,也可以從細節(jié)、微觀、案例視角分析問題成因,尋求對策,檢驗對策的現(xiàn)實有效性。一些傳統(tǒng)的“小數(shù)據(jù)”方法,如統(tǒng)計方法等,也是大數(shù)據(jù)研究的基礎工具。大數(shù)據(jù)方法與傳統(tǒng)“非數(shù)據(jù)化”院校研究方法的融合可以取長補短,平衡量化研究與非量化研究,得到更有解釋力的各類結論。
院校研究如能真正用好大數(shù)據(jù)方法,實現(xiàn)從傳統(tǒng)方法向大數(shù)據(jù)方法的轉向,則可迅速改善傳統(tǒng)院校研究科學性不足等問題。通過大數(shù)據(jù)研究真正得到各類科學發(fā)現(xiàn),逐步凝練而形成理論體系,有利于實現(xiàn)院校研究學者進行理論體系構建的“歷史夙愿”。從技術原理的視角來看,大數(shù)據(jù)方法相比于傳統(tǒng)研究方法,至少具有3個方面的技術特點。
1.用大數(shù)據(jù)思維替代傳統(tǒng)研究思維
院校研究的大數(shù)據(jù)思維,通常而言就是直接面向院校教育問題,運用大數(shù)據(jù)方法探尋問題內在規(guī)律和解決辦法的思維方式。與傳統(tǒng)院校研究思維不同,大數(shù)據(jù)思維有望擺脫傳統(tǒng)院校研究思維慣性、理論預設和路徑依賴,用數(shù)據(jù)說話思維取代思辨思維[7],大數(shù)據(jù)思維取代普通數(shù)據(jù)思維,全樣本思維取代小樣本思維,數(shù)據(jù)因果推斷思維取代相關分析思維。
2.用大數(shù)據(jù)替代傳統(tǒng)研究的有限數(shù)據(jù)
一些觀點認為,教育大數(shù)據(jù)通常掌握在少數(shù)大的數(shù)據(jù)供應商或數(shù)據(jù)平臺手中。本文認為,對于院校研究而言,其大數(shù)據(jù)目前絕大多數(shù)由院校內部掌握,無法通過公開渠道獲得[9]。當前高等學校決策者和部分院校研究者尚未清晰認知大數(shù)據(jù)對于院校研究的重要價值,尚未打破院校內部的“數(shù)據(jù)孤島”[10],也尚未激活“沉睡”中的院校大數(shù)據(jù)。因此,應根據(jù)院校研究進行大數(shù)據(jù)的概念界定和數(shù)據(jù)采集,深化對于教育大數(shù)據(jù)來源和使用的認知[11],充分挖掘存在于日常教育活動之中的各類大數(shù)據(jù)資源。
第一,全樣本、小樣本的連續(xù)追蹤數(shù)據(jù)。雖然樣本數(shù)不多,但構成長期、連續(xù)、多方位的數(shù)據(jù)追蹤,涉及全體樣本信息,完全可以成為院校研究的大數(shù)據(jù)資源。比如,本課題組對于北京市某“雙一流”高校榮譽學院數(shù)百名學生展開大數(shù)據(jù)追蹤,采集了學生的基礎類數(shù)據(jù),包括人口統(tǒng)計學指標、入校前各類檔案信息、家庭信息、高考成績信息等。在此基礎上,從大一入學開始,對學生學習全過程進行追蹤,定期進行問卷調查和訪談調查,采集所有學生學習結果類信息、校園卡刷卡信息、圖書館出入和借閱信息、學生專業(yè)選擇和分流信息、攻讀研究生或就業(yè)信息等,形成學生大數(shù)據(jù)閉環(huán),據(jù)此可以對全體學生和個體學生的學習規(guī)律進行深入分析。例如,可以對學生高考表現(xiàn)、學習習慣、伙伴關系等與學業(yè)表現(xiàn)的關系展開深入分析,發(fā)現(xiàn)各類有利于改善學生學習的規(guī)律。
第二,特定教育研究互聯(lián)網(wǎng)數(shù)據(jù)的連續(xù)抓取。對于一些院校專題研究領域,傳統(tǒng)大數(shù)據(jù)公司或互聯(lián)網(wǎng)平臺無暇進行專門整理,院校研究者可以根據(jù)研究需求對之進行專題數(shù)據(jù)抓取和分析,并進行數(shù)據(jù)挖掘匹配和大數(shù)據(jù)運算,最終形成教育研究專題大數(shù)據(jù)庫。例如,本課題組長期致力于高校自主招生研究,曾對2014—2019年教育部陽光信息平臺自主招生公示學生名單進行數(shù)據(jù)抓取,并對樣本進行“中學層次”(省級示范性中學、市級示范性中學、普通中學)等各類數(shù)據(jù)匹配,形成了包含十多萬條學生信息的大數(shù)據(jù)庫。對于該數(shù)據(jù)庫的分析,可以客觀呈現(xiàn)近年來自主招生的基本情況,甚至可以對各地自主招生名額投放中的“地方保護主義”等問題展開細致分析[12-13],為深入開展自主招生研究提供大數(shù)據(jù)支撐。
第三,根據(jù)特定研究需求形成的定制式數(shù)據(jù)。院校研究者還可以根據(jù)特定的研究理論、研究方法或研究問題,創(chuàng)新形成各類數(shù)據(jù)庫框架,通過數(shù)據(jù)采集和更新形成大數(shù)據(jù)庫[14]。本課題組2015年根據(jù)研究需要,系統(tǒng)采集了109所“211工程”高校所有中國科學院研究所和所有中國社會科學院研究所的教師(專業(yè)研究人員)簡歷,形成了包括14萬余條學者簡歷信息的大數(shù)據(jù)庫,分析了學術人才的學業(yè)流動、職業(yè)流動等各類規(guī)律。在此基礎上,根據(jù)研究需要部分匹配了學者的學術產(chǎn)出等新數(shù)據(jù)指標,以此分析學術流動與學術產(chǎn)出的關系等各類研究問題,取得了良好效果[15-16]。課題組還根據(jù)特定院校需求,分析了該校師資力量現(xiàn)狀、學科建設人才需求、人才引進方向、人才引進成效以及與同類型競爭大學的師資力量對比等。
3.用大數(shù)據(jù)算法替代傳統(tǒng)統(tǒng)計學算法
傳統(tǒng)統(tǒng)計學算法廣泛應用于院校研究領域,其基本原理在于構建統(tǒng)計模型、降低抽樣誤差、形成相關性研究結論。而進入大數(shù)據(jù)研究時代,院校研究將有望用大數(shù)據(jù)算法替代傳統(tǒng)統(tǒng)計學算法,進行全樣本計算而不是樣本估算,進行精確計算而不是模糊推算,進行因果關系計算甚至超級計算而不是相關關系演算。例如,本課題組2019年運用北京市車輛交通信息數(shù)據(jù),測算教育是否為造成北京市交通擁堵的關鍵因素,涉及對幾十萬臺汽車的大數(shù)據(jù)分析。該數(shù)據(jù)庫每15秒更新一次車輛經(jīng)緯度、速度等近百項數(shù)據(jù),數(shù)百天的數(shù)據(jù)觀測便形成包含數(shù)億條數(shù)據(jù)的大數(shù)據(jù)資源庫,通過超級計算可以還原北京市交通擁堵全過程,對教育因素的影響進行精準分析。再比如,本課題組基于上文提及的某榮譽學院全樣本數(shù)據(jù),通過識別學生整個學期內在食堂的刷卡記錄,對每名學生整個學期早起行為進行全方位、持續(xù)性監(jiān)測,共涉及幾十萬條刷卡記錄。用更為客觀、持續(xù)的事實大數(shù)據(jù)展開大數(shù)據(jù)算法,取代基于問卷調查等傳統(tǒng)方法獲取的主觀性較強、小樣本的橫截面數(shù)據(jù),可以展開更為科學、有效的研究設計,獲取更為客觀、精準的研究結論。將大數(shù)據(jù)思維運用到院校研究中,不僅可以大幅提升院校研究各項結論的有效性與科學性,而且將進一步拓寬院校研究的研究視角與分析思維。
為更清晰地呈現(xiàn)大數(shù)據(jù)方法在院校研究中的使用,更好地展現(xiàn)大數(shù)據(jù)在院校研究中的各類優(yōu)缺點,本文以某高校開展的“學生學習行為與學習效果評價”這一院校委托任務為案例,以高等學校最為常見的教育大數(shù)據(jù)來源——校園一卡通數(shù)據(jù)為例,對具體研究過程進行實證展示。
大數(shù)據(jù)與院校研究的結合涉及幾個關鍵問題:一是數(shù)據(jù)庫的構建;二是數(shù)據(jù)挖掘與匹配;三是大數(shù)據(jù)運算以及研究結論的形成。具體到本項委托研究任務,在大數(shù)據(jù)庫建設過程中,分別存在學生基本信息數(shù)據(jù)、學生成績數(shù)據(jù)和校園一卡通數(shù)據(jù)。除前兩類傳統(tǒng)技術數(shù)據(jù)外,校園一卡通數(shù)據(jù)包括學生消費金額、時間、地點(例如食堂、超市)等數(shù)據(jù),轉賬充值數(shù)據(jù),圖書館進出與借閱記錄數(shù)據(jù),寢室進出記錄,浴室使用時間與頻次數(shù)據(jù),體育館運動項目數(shù)據(jù),乘坐校車出行時間與頻率數(shù)據(jù)等。三類數(shù)據(jù)共同形成新的研究大數(shù)據(jù)庫,可以對大學生的學習、消費、飲食、讀書、健康、衛(wèi)生、就寢、運動、出行等進行全方位分析,以此探討學生學業(yè)表現(xiàn)與學習行為之間的關聯(lián)。
本研究的研究對象為北京某“雙一流”高校某榮譽學院學生,收集了該學院4個年級共499名學生一學期產(chǎn)生的一卡通數(shù)據(jù),共計93萬余條。主要包括:(1)學生基礎信息,包括姓名、性別、學號、班級、宿舍樓、宿舍號、校園卡號等;(2)一卡通消費及相關信息,包括一卡通使用時間、金額、流水類別、卡機編號、站點編號、充值記錄等;(3)圖書借閱信息,包括學生證件號、書籍信息(題名、出版社、ISBN號、索書號)、借書日期、應還和還書日期、借閱登記、累計借書等。在一卡通數(shù)據(jù)基礎上,進一步調取了研究對象的其他各類數(shù)據(jù)資源并進行了數(shù)據(jù)匹配,主要包括:(1)學生家庭背景信息,包括民族、生源地、政治面貌、家庭住址、父母工作性質等;(2)學生高考相關信息,包括學生高考總成績、各科目成績、生源地、畢業(yè)中學、入學類型(高考、保送)等;(3)大學學業(yè)表現(xiàn)信息,包括各學科成績、總學分績點、大學四六級成績,出國情況、出國交流項目、出國交流時間、國外學校名稱、最終是否出國深造等信息,學生獲獎情況、論文發(fā)表等;(4)學習困難學生具體信息,包括學生掛科次數(shù)、掛科科目及具體分數(shù),輔導員談話次數(shù)、談話記錄,心理咨詢情況,分流后學業(yè)發(fā)展等;(5)學生畢業(yè)信息,主要涉及學生畢業(yè)去向,如保研、出國、工作等。數(shù)據(jù)采集、清洗與匹配過程如圖1。
圖1 教育大數(shù)據(jù)采集、清洗與匹配過程
本研究數(shù)據(jù)采集涉及校內多個部門,主要包括學生工作處、招生就業(yè)處、教務部、學生事務中心、圖書館等。數(shù)據(jù)采集的遺憾之處在于,缺乏來自校醫(yī)院的數(shù)據(jù)(以此考察學生的健康狀況)和來自校車管理中心的數(shù)據(jù)(以此考查學生跨校區(qū)流動情況)。雖然如此,各類數(shù)據(jù)匯總已超過100萬條,綜合使用這些數(shù)據(jù),可以分析學生的日常行為,可以對學生學業(yè)表現(xiàn)等展開綜合研究,甚至可以進行有效的學生行為畫像。
高校通常鼓勵學生早起進行學習活動,例如以早操、升旗、早讀等方式鼓勵學生早起。但學術界已有研究尚未發(fā)現(xiàn)早起與學業(yè)表現(xiàn)之間的直接關聯(lián),即早起行為是否真的能夠提升學業(yè)表現(xiàn)。為此,本文以上述教育大數(shù)據(jù)庫為依托,對學生早起行為進行大數(shù)據(jù)刻畫。具體步驟是:(1)基于一卡通數(shù)據(jù)構建早起值概念,根據(jù)學生校園卡早餐消費時間和地點,倒推學生的起床時間。首先定義上午 6∶00~10∶00 為早飯時間范圍(10∶00之后可能為學生午飯時間),進一步確定6∶00~7∶00、7∶01~8∶00、8∶01~9∶00、9∶01~10∶00為4個早起的時間界定范圍,并分別賦值為4、3、2、1(即起床時間越早,分值越高)。(2)在此基礎上,構建早起值公式Y=X1+X2+…+Xn。其中,X為學生當天在早飯時間范圍內在食堂最早一條刷卡信息的賦值(由于早飯時間范圍內可能出現(xiàn)多次刷卡信息,例如去不同窗口購買不同類別的食物。因此,提取同一人同一天早飯時間范圍第一條刷卡記錄作為衡量其早起時間的數(shù)據(jù),剔除早飯時間范圍內其他刷卡記錄),n代表學生本學期在早飯時間范圍內進入食堂刷卡的天數(shù),將n個X值的總和定義為該生的早起值。(3)剔除部分“早起極低值”(可能跟個人生活習慣有關)后,對學生的早起值與其專業(yè)學分績點進行相關性分析,結果顯示,學生早起值越高,其專業(yè)學分績點也越高。這在一定程度上表明,早起行為與學業(yè)表現(xiàn)具有正相關關系,即具有早起習慣的學生有更好的學業(yè)表現(xiàn)傾向。
此外,在此基礎上,通過分析各年級學生早起情況差異進行學生早起行為劃分。結果可以歸納為4類,按照早起值從高到低分別為:大二年級為“早起勤奮年級”,大一年級為“早起良好年級”,大四年級為“早起一般年級”,大三年級為“早起不佳年級”(見表1)。即大一、大二年級的學生早起表現(xiàn)良好,而大三、大四年級的學生早起表現(xiàn)不佳,反映出不同年級生活習慣與學習習慣的差異。此案例中“學生年級越高,早起習慣相對越差”的問題應引起重視,其原因可能為低年級學生在一定程度上仍保持高中勤奮學習習慣,而隨著年級增長該習慣逐漸消磨。據(jù)此結果,院校應引導學生形成長期的良好的生活和學習習慣。教育大數(shù)據(jù)在學生早起行為中的應用流程如圖2。
表1 各年級早起行為的教育大數(shù)據(jù)特質推斷
圖2 教育大數(shù)據(jù)在學生早起行為中的應用流程圖
同伴關系對于大學生個體發(fā)展以及高校人才培養(yǎng)與教育管理具有重要意義[17]。然而由于同伴關系較難測量的固有特點,關于大學生同伴關系的已有研究或進行理論性評述,或通過各類問卷調查進行測量,在大學生自主式填答“受歡迎程度”“肯定與欣賞”“親密與交流”等測量同伴關系的相關問題時,會由于個人評判標準不同而在一定程度上導致主觀性過強等問題,不利于研究結論的客觀性呈現(xiàn)。以校園卡為依托的院校研究大數(shù)據(jù)恰好可為此類研究帶來全新的求證機會與分析視角。
以本研究開展的對學生獨立行為分析的研究為例,基于學生在食堂刷卡信息模擬學生獨立行為,通過分析是否與室友一起進餐進行獨立性評價,并據(jù)此分析學生獨立行為與學業(yè)表現(xiàn)等方面的關系。基于研究需要,從校園卡大數(shù)據(jù)信息中篩選出563 683條食堂刷卡記錄作為研究大學生獨立行為與同伴關系的數(shù)據(jù)樣本。首先,運用Python語言完成以下預處理過程:第一,抓取同一校區(qū)、同一寢室學生在每天三餐時間內的消費記錄(該校為四人寢規(guī)格,每個寢室共4人;定義早飯時間為6∶00~10∶00,午飯時間為11∶00~14∶00,晚飯時間為16∶00~19∶00);第二,以寢室為單位,分別篩選同一天三餐時間范圍內每人的第一條刷卡信息(同上,由于在同一進餐時間范圍內同一人可能會在不同窗口產(chǎn)生多次刷卡記錄,因此剔除同一進餐時間范圍內其他刷卡記錄);第三,觀測每位學生該條刷卡信息時間前后10分鐘內是否有其他3位室友在同一食堂的消費記錄,每有一位室友在同一地點進行過消費則計分為1(共3個室友,因此同一進餐時間范圍內每人最低得分為0,最高得分為3)。據(jù)此,得到每人每餐的獨立性評價,按照此流程對每位學生進行整個學期的獨立得分計算。分數(shù)越低,說明其獨立性越強,即與室友親密關系越弱;分數(shù)越高,獨立性越弱,即與室友親密關系越強。
研究結論表明,總體來看,獨立性較強即與同伴關系較疏遠的學生占比較大。據(jù)此,根據(jù)每位學生的獨立得分可以對寢室進行歸類。其中,“單人獨立-三人抱團”型的寢室占比最高,占比接近一半;其次為“兩人獨立-雙人抱團”型,占比為36.61%;再次為“三人獨立-單人親密”型(即三人相對獨立,另外一人與三人關系相對都較為親密),占比為12.24%;“四人分別獨立”型寢室占比最小,僅為1.61%。同時,通過分析學生獨立得分與學業(yè)成績的關系發(fā)現(xiàn),對于男生而言,獨立性評價與學業(yè)表現(xiàn)、學業(yè)失敗顯著相關,獨立性越弱、親密關系越強,其成績均分越高,掛科次數(shù)、掛科率越低,而對于女生而言則無顯著相關關系。此外,通過分析不同類別學生獨立得分還發(fā)現(xiàn),女生獨立性較男生更高;社會經(jīng)濟地位越高,獨立性越強;漢族學生獨立性比少數(shù)民族學生強;單親家庭、非教師家庭學生獨立性較強;大四學生獨立性最強,大一新生親密性最強。研究分析部分舉例見圖3。據(jù)此可以深入探究大學生同伴關系與學業(yè)表現(xiàn)之間的內在聯(lián)系,以一卡通大數(shù)據(jù)為依托可以大幅提升各類院校研究結論的科學性與客觀性。
圖3 大學生獨立行為與親密關系研究分析部分舉例
受既有認知與以往研究結論的束縛,西部生源學生家庭收入水平相對較低因而消費水平也較低往往成為固有認知,大數(shù)據(jù)研究或將顛覆以往的慣有結論和認知。在上述教育大數(shù)據(jù)庫的基礎之上,本文以某年級生源信息為例,研究不同地域生源的消費水平是否存在差異。具體步驟為:(1)按照國家統(tǒng)計局的相關標準,將生源地域劃分為東部、中部、西部(分別標為1、2、3)3個地理區(qū)域。(2)通過教育大數(shù)據(jù)庫對每位學生的家庭年收入與一學期校園一卡通消費情況(包括該學期內該生在不同卡機如食堂、超市、浴室、校車等各站點的所有消費記錄)進行精準匹配,并統(tǒng)計每位學生該學期的總消費值。在此基礎上,剔除部分極低特殊值(可能與個人付款習慣有關),對該學期所有學生校園一卡通消費情況的地域差異進行分析。各數(shù)據(jù)之間的精準匹配樣例見表2。(3)通過對整學期學生一卡通消費大數(shù)據(jù)的匹配與分析發(fā)現(xiàn),學生家庭年收入具有明顯地域差異,西部生源家庭年收入整體水平較東、中部生源低,但學生在校整體消費水平并無明顯地域差異,且家庭收入較低的學生消費水平高于家庭收入較高的學生等情況也并不罕見。雖然學生的消費面較為廣泛,一卡通消費只是其中一類,但作為學生校園生活的最主要消費表現(xiàn),其在一定程度上反映的學生消費水平具有較高代表性。通過跟蹤一學期學生消費情況,得到西部生源并非消費水平較低的結論,顛覆了以往對西部生源的部分刻板印象。
表2 學生地域、家庭年收入、消費信息的精準匹配舉例
借助大數(shù)據(jù)庫,還可在學困生的研究上發(fā)揮大數(shù)據(jù)的特色優(yōu)勢,全方位考察學困生的行為表現(xiàn),進一步為學困生精準畫像[18]。具體步驟是:(1)借助教務處學生歷年各科目考試成績數(shù)據(jù),分析其學業(yè)成績,整理其優(yōu)秀科目、良好科目、不及格科目;(2)匹配該學生一學期的校園一卡通在食堂的刷卡信息,分析其每日用餐特征,并歸納總結其一學期內在食堂就餐的規(guī)律;(3)通過學生一卡通數(shù)據(jù)監(jiān)測其作息規(guī)律,推測該生作息習慣;(4)通過圖書借閱數(shù)據(jù),監(jiān)測分析該生的閱讀偏好和習慣。通過對多個端口的教育大數(shù)據(jù)進行整體歸納和總結,對個人的學習行為和學業(yè)表現(xiàn)進行精確的個性化分析。
以某學困生為例,依托其校園一卡通數(shù)據(jù)對其學業(yè)表現(xiàn)行為進行分析。分析結果如圖4。該學困生基礎學業(yè)成績信息為:一學期中,3門課程不及格,為表現(xiàn)不佳科目;3門課程為70~80分,為表現(xiàn)一般科目;4門課程為80~85分,為表現(xiàn)良好科目;1門課程在90分以上,為表現(xiàn)優(yōu)秀科目。匹配該學生一個月的校園一卡通數(shù)據(jù)可知,該學生一日就餐中,具有“早餐頻次略少、時間較早,午餐頻次較多、時間較早,晚餐很少”的特征。此外,根據(jù)其就餐時間也可發(fā)現(xiàn)其作息規(guī)律。例如,根據(jù)其早餐時間可推測該生習慣早起,屬于“勤奮早鳥型”,午餐大多分布在11~12點,屬于較早的午餐時間,可推測其具有午休習慣,或可判斷其傾向于避開用餐高峰期。分析該學困生一周內在食堂就餐情況,可歸納該生為“周初少吃、周中規(guī)律、周五加餐、周末回落”的類型(可能原因為,作為每周工作日第一天,周一時學生尚未回歸至正常作息,而周末在食堂就餐頻次回落可能與學生外出或以外賣形式就餐有關)。分析該學生整個學期每月刷卡就餐情況,可知其12月份在食堂就餐頻次最高,可歸納該生為“期末多吃食堂型”或“期末飲食規(guī)律型”(這可能與期末臨近,學生需要認真?zhèn)淇?,從而飲食作息趨于?guī)律有一定關系)。未來可進一步對學生進出寢室的一卡通刷卡數(shù)據(jù)進行研究,分析和推測其是否存在晚睡行為等。此外,通過該學困生校園一卡通在圖書館終端的數(shù)據(jù)分析,可得知其借閱習慣,該生該學期只借閱了兩本圖書,均與學習相關(第一本為“如何高效學習”,反映該生有意提升學習效率;第二本為專業(yè)工具書,反映該生有意提高專業(yè)知識水平),借書行為發(fā)生在上半學期末與下半學期初,在一定程度上反映出該生在學期初與學期末抱有“認真學習”的心態(tài),但學期中并無借閱行為,且借閱時間均較短(或可推測該生在學期初與學期末更易激發(fā)學習斗志,但并未養(yǎng)成長期的良好學習習慣)。由此總結該生借閱的個性特征為“學期初/末借書”“借書少”“借閱時間短”以及“借書偏好為工具書”,同時在具體時間上還可發(fā)現(xiàn)該生偏好下午進出圖書館的特點。
圖4 某學困生校園一卡通數(shù)據(jù)反映學業(yè)表現(xiàn)行為分析圖舉例
再以另一學困生為例,通過數(shù)據(jù)整合刻畫其精準畫像(如圖5)?;A信息為:保同學,女,2018級,漢族,青海人;家庭年收入10萬元;高考成績577分,其中數(shù)學133分,理綜212分?;诖丝汕逦弥鋪碜晕鞑渴》?,數(shù)學基礎尚可,理科基礎較差。一學期學業(yè)行為表現(xiàn)為:早起得分231分(2018級學生平均早起值為165分),早起次數(shù)85次;借閱圖書2本,借閱類型為工具書。一學期生活習慣表現(xiàn)為:校園卡刷卡消費約3 500元,屬于中等偏低水平;日常飲食習慣較為規(guī)律。據(jù)此可推測該生“勤奮早起”“消費偏低”“借閱量少”“飲食規(guī)律”等各項學習與生活特征。基于此,通過分析其入學前基本信息和入學后行為表現(xiàn),可以部分解釋造成該生學習困難的因素大致為:學業(yè)基礎較為薄弱、家庭環(huán)境優(yōu)勢欠缺、努力程度相對不足、不同地域固有差異(例如,大數(shù)據(jù)表明,西部地區(qū)學生在英語、計算機等科目上與東中部學生存在顯著差異,且本課題組前期研究表明,西部學生存在學習心理壓力較大、自我效能感較低等問題[19])。
圖5 某學困生畫像舉例
當前,人類社會已經(jīng)逐步進入大數(shù)據(jù)和人工智能時代,院校研究活動應適時更新研究方法,這對于提高院校研究的科學化水平、更深層次推動院校研究與教育實踐融合乃至重塑院校研究的合法性地位等都具有重要意義。本文對教育大數(shù)據(jù)研究方法的基本原理進行了初步探討,選取了院校辦學活動中最為常見的校園一卡通數(shù)據(jù)和最為常見的院校委托任務學生學習評價進行的大數(shù)據(jù)研究案例展示,研究顯示教育大數(shù)據(jù)分布廣泛,教育大數(shù)據(jù)研究潛力巨大,基于教育大數(shù)據(jù)方法的院校研究轉向前景非常廣闊。
通過本項研究,至少可以對大數(shù)據(jù)與院校研究的結合作如下總結:
第一,院校研究的大數(shù)據(jù)資源來自哪里。本研究顯示,院校研究的大數(shù)據(jù)資源并非神秘莫測,而是廣泛分布在教育教學活動中。校園一卡通是教育機構最為常見的大數(shù)據(jù)載體,在一卡通數(shù)據(jù)基礎上,本文采集了學生家庭信息數(shù)據(jù)、入校前與入校后學業(yè)表現(xiàn)數(shù)據(jù)、各類行為習慣數(shù)據(jù)等,形成了有效的教育研究大數(shù)據(jù)庫資源。本課題組擁有多份院校研究大數(shù)據(jù)資源,之所以用“一卡通”數(shù)據(jù)舉例,是為了說明即使是校園里最為常見的數(shù)據(jù),也可廣泛用于院校大數(shù)據(jù)研究活動。事實上,除“一卡通”數(shù)據(jù)外,高等學校還包含文字、語音、視頻等各類大數(shù)據(jù)資源,當前大量可用于院校研究的大數(shù)據(jù)資源呈現(xiàn)零星、散亂、沉睡狀態(tài),需要院校研究者構建大數(shù)據(jù)框架,進行收集、加工、整理、計算,形成各類院校研究大數(shù)據(jù)庫[20-21]。這些院校研究的大數(shù)據(jù)資源像“老中醫(yī)”,不僅不會過時,而且積累時間越久,數(shù)據(jù)維度越豐富,數(shù)據(jù)挖掘越充分,越可能更科學地指導院校研究和具體實踐。
第二,院校研究如何使用各類大數(shù)據(jù)資源。研究顯示,和普通問卷、訪談、質性研究素材不同,院校研究的大數(shù)據(jù)資源使用具有多目的性和多功能性特征,但仍然主要遵循院校研究以問題為導向的數(shù)據(jù)使用基本原則,仍然按照“研究問題/委托任務—數(shù)據(jù)收集—數(shù)據(jù)分析與結論提出”的基本流程展開研究活動。所不同的是,一旦數(shù)據(jù)庫生成,則可能形成大量研究目標之外的“副產(chǎn)品”,這將有利于新的理論創(chuàng)新與實踐創(chuàng)新。以本文為例,本文最早的研究任務是分析大學生學業(yè)失敗的影響因素,但研究活動結束后,還大量呈現(xiàn)了其他各類研究結論。大數(shù)據(jù)庫通常具有海量性、多樣性、高塑性和異變性等特征,一項研究任務完成后,隨著大數(shù)據(jù)庫的持續(xù)更新,以及新的數(shù)據(jù)變量加入,或者對傳統(tǒng)數(shù)據(jù)變量的再賦權、再加工、再計算,也可能滿足更多的研究需求。事實上,除校園一卡通數(shù)據(jù)之外,本項目團隊還幫助某校建立了包含教師教學信息、學生選課信息、學生評教信息、學生運動表現(xiàn)信息(體能測試結果)等在內的更大的院校研究大數(shù)據(jù)庫,這將有利于更全面、更深入、更系統(tǒng)地推進院校研究與大數(shù)據(jù)的融合。比如,傳統(tǒng)的學生對教師評教數(shù)據(jù)通常并不準確,無法真實判斷教師教學質量。通過上述大數(shù)據(jù)庫,則可以進行新的大數(shù)據(jù)評教。以“大學物理”為例,對于A教師的“大學物理”授課水平評價,除傳統(tǒng)學生評教分數(shù)等觀測點外,還可以分析參加A教師課程學習的學生進入后續(xù)與大學物理應用相關的其他課程學習的大數(shù)據(jù)表現(xiàn),反向倒推A教師“大學物理”的授課質量。
第三,院校研究如何科學呈現(xiàn)大數(shù)據(jù)研究結果。相比于傳統(tǒng)的研究方法,大數(shù)據(jù)方法在院校研究中的使用重點在于數(shù)據(jù)本身,數(shù)據(jù)庫建設與研究目標的一致性決定了研究的有效性,數(shù)據(jù)質量則決定了研究質量。在此過程中,核心工作是數(shù)據(jù)資源的探尋、收集、加工和運算,但傳統(tǒng)SPSS等封閉式數(shù)據(jù)統(tǒng)計類研究工具存在局限,需要引入Python,MATLAB等研究工具,甚至在一項研究活動中需要運用多種工具。也因為各種統(tǒng)計類、繪圖類研究工具的加入,基于大數(shù)據(jù)的院校研究結果呈現(xiàn)出可視化程度更高、直觀性更強、美觀度更好、更能直接指導教育改革等特點[22]。以本文校園一卡通數(shù)據(jù)為例,研究首次發(fā)現(xiàn)的西部學生因學業(yè)基礎不佳、入校后學業(yè)困難的問題已經(jīng)引起項目委托單位的注意,并采取相應舉措加強對該部分學生的學業(yè)指導和學習幫扶。這顯示出,基于大數(shù)據(jù)方法的院校研究活動,研究設計科學性更強,數(shù)據(jù)占有量更大,研究結論可靠性更高,研究發(fā)現(xiàn)更多為因果式推斷,研究結論的呈現(xiàn)將更可能推動教育實踐改革,并加快從學術成果到實踐成果轉換的速度。
第四,院校研究用好大數(shù)據(jù)方法的難點。和傳統(tǒng)研究方法一樣,教育大數(shù)據(jù)研究方法也存在自身的缺陷和不足,教育大數(shù)據(jù)研究的難點在于保證數(shù)據(jù)庫構建的過程和最終研究結果的有效性。從本文所舉例的校園一卡通大數(shù)據(jù)研究活動來看,基于大數(shù)據(jù)方法推進院校研究的思路相對簡單。難點一在于數(shù)據(jù)收集、數(shù)據(jù)清洗整理等環(huán)節(jié)。相比于傳統(tǒng)研究,本研究的數(shù)據(jù)收集過程復雜度更高,涉及在學校不同部門之間進行溝通協(xié)調(這也反映出學校層面的數(shù)據(jù)庫建設滯后[23]),有些教育管理部門缺乏大數(shù)據(jù)思維和能力,甚至因保管不力導致部分數(shù)據(jù)丟失,因此需要加強推進院校研究資源的共享與信息采集的規(guī)范化[24]。與此同時,大數(shù)據(jù)庫建設過程中的數(shù)據(jù)加工整理是工作量最大的環(huán)節(jié),看起來簡單的研究結論,背后卻牽涉不同數(shù)據(jù)庫資源的整合、對無效數(shù)據(jù)的剔除、對數(shù)據(jù)畫像的標準設定以及海量的數(shù)據(jù)運算。難點二在于與傳統(tǒng)理論與研究的對話。大數(shù)據(jù)研究方法直接切入研究問題本身,并未遵循“理論(文獻)—假設—數(shù)據(jù)—發(fā)現(xiàn)”這一基本邏輯,研究結論往往“就事論事”,容易引發(fā)研究活動理論性不強等質疑。本文認為,大數(shù)據(jù)研究有可能將院校研究帶入碎片化階段,如何通過一個個小的教育問題的發(fā)現(xiàn)和解決、重構院校理論體系,是大數(shù)據(jù)時代院校研究需要深入思考的問題。
第五,在院校研究活動中推廣大數(shù)據(jù)方法的建議。本文認為,院校研究應盡快轉向大數(shù)據(jù)方法,應更加強調院校研究的科學化目標、實踐導向和問題解決能力[25-26],應更好地營造證據(jù)導向、數(shù)據(jù)導向的院校研究場域,加強教育大數(shù)據(jù)相關立法以降低數(shù)據(jù)獲得門檻,形成新的以大數(shù)據(jù)方法為準則的院校研究學術共同體,引導院校決策規(guī)劃、相關學術論文發(fā)表、院校調查報告、教育教學改革等院校研究活動不斷向大數(shù)據(jù)方法靠攏,提高院校研究的問題針對性、過程透明性、研究趣味性和結論可用性。與此同時,應注意大數(shù)據(jù)使用規(guī)范,用數(shù)據(jù)說話的同時避免唯數(shù)據(jù)等問題的出現(xiàn)。
本文撰寫的初衷是拋磚引玉,通過對某項院校研究大數(shù)據(jù)研究活動的剖析,深化院校研究者對于大數(shù)據(jù)研究方法的認知,幫助一些院校研究者克服對于大數(shù)據(jù)研究神秘化、技術化、困難化的畏懼,推動營造“處處皆有大數(shù)據(jù)、人人用好大數(shù)據(jù)”的新院校研究場域,帶動院校研究大數(shù)據(jù)方法的推廣和使用。但本文研究過程中涉及的數(shù)據(jù)樣本仍然有限,相關研究發(fā)現(xiàn)仍停留在早期階段,大數(shù)據(jù)方法運用仍然存在不規(guī)范、不深入、不系統(tǒng)等問題,院校研究大數(shù)據(jù)方法論的系統(tǒng)構建,需要海量的類似于本文的案例支撐[27],亟待院校研究理論與實踐界行動起來,共同推動本項研究改革。