文/本刊記者 王左利
讓沉睡的數(shù)據(jù)說話
文/本刊記者 王左利
“從沉淀的數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,深入挖掘、綜合利用、轉(zhuǎn)化為知識,才是信息系統(tǒng)真正價值的體現(xiàn),而這方面可拓展的空間幾乎是不可限量的。”
2012年,美國發(fā)起的“大數(shù)據(jù)”研究吸引了全球的目光。奧巴馬稱:“通過提高我們從大型復(fù)雜的數(shù)字數(shù)據(jù)集中提取知識和觀點的能力,承諾幫助加快在科學(xué)與工程中的步伐,加強國家安全并改變教學(xué)研究?!蓖嘎冻雒绹M行大數(shù)據(jù)研究的重要目標(biāo)之一——教育。
為了推動大數(shù)據(jù)的研究,美國聯(lián)邦政府的部門和機構(gòu)宣布新的2億美元的投資,“提高從大量數(shù)字數(shù)據(jù)中訪問、組織、收集發(fā)現(xiàn)信息的工具和技術(shù)水平?!?/p>
“大數(shù)據(jù)”時代的腳步悄然而至,高校也身在其中。在高教學(xué)會信息化分會青委會日前舉行的一次技術(shù)論壇上,一直專注于數(shù)據(jù)分析與挖掘工作的清華大學(xué)信息化技術(shù)中心袁芳做的一個報告引起了與會者的共鳴:《如何在大數(shù)據(jù)時代掘?qū)??》她認為,高校也正面臨著大數(shù)據(jù)所帶來的挑戰(zhàn)與機遇。“隨著互聯(lián)網(wǎng)應(yīng)用的豐富,每個學(xué)生和老師每天都在生產(chǎn)著各種各樣的數(shù)據(jù),當(dāng)數(shù)據(jù)量達到一定級別后,就可以進行很有意義的分析挖掘工作?!彼J為,海量數(shù)據(jù)的分析將對教育信息化產(chǎn)生深刻的影響和沖擊。她覺得,“高校也要關(guān)注大數(shù)據(jù)技術(shù)的研究和應(yīng)用,智謀未來。”
大數(shù)據(jù)時代勢不可擋。相關(guān)人士表示,未來的十年將是一個“大數(shù)據(jù)”引領(lǐng)的智慧科技時代。隨著社交網(wǎng)絡(luò)的逐漸成熟,移動帶寬迅速提升,云計算、物聯(lián)網(wǎng)應(yīng)用更加豐富。更多的傳感設(shè)備、移動終端接入到網(wǎng)絡(luò),由此產(chǎn)生的數(shù)據(jù)及增長速度將比歷史上的任何時期都要多,都要快。
目前,幾乎所有的高校都在進行數(shù)據(jù)中心的擴建,因為這兩年數(shù)據(jù)的發(fā)展與前幾年比較已經(jīng)不是一個數(shù)量級,以往數(shù)據(jù)中心的空間已經(jīng)無法適應(yīng)當(dāng)前快速發(fā)展的要求?!澳壳拔倚?shù)據(jù)資源正以每年30%到50%的速度在增長?!敝醒胴斀?jīng)大學(xué)信息網(wǎng)絡(luò)中心主任葉新恩說。
在北京師范大學(xué),校務(wù)管理信息系統(tǒng)數(shù)據(jù)有500~600G,校園卡系統(tǒng)日記1TB~2TB,校園網(wǎng)日記數(shù)據(jù)大約有1TB。“從存儲購買量的增長來看,2011年學(xué)校大約增加存儲400TB,尤其是一些理科科研單位,如氣候氣象數(shù)據(jù),遙感影像數(shù)據(jù)等存儲量很大,其他教學(xué)類資源存儲量也非常大?!北睅煷缶W(wǎng)絡(luò)與信息中心主任劉臻說。
在清華大學(xué),目前電子校務(wù)系統(tǒng)的運行業(yè)務(wù)數(shù)據(jù)大致有1.5億條,這還并不包括系統(tǒng)日志、校園卡交易等流水?dāng)?shù)據(jù),換算到存儲量的話,大致是7~8T的樣子,其中并不包括視頻等流媒體數(shù)據(jù)。
另外,非常關(guān)鍵的是,高校當(dāng)今數(shù)據(jù)庫里的內(nèi)容不僅是多,而且結(jié)構(gòu)已發(fā)生了極大改變,大量的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)。據(jù)統(tǒng)計,全球結(jié)構(gòu)化數(shù)據(jù)增長速度約為32%,而非結(jié)構(gòu)化數(shù)據(jù)增速高達63%。這個趨勢在高校亦然。
袁芳認為,對于傳統(tǒng)的結(jié)構(gòu)化的數(shù)據(jù),由于已經(jīng)達到一定數(shù)量,以關(guān)注其應(yīng)用為主,而對于正在生長的海量的非結(jié)構(gòu)化數(shù)據(jù),則要關(guān)注怎么收集、用什么方式有效管理。“學(xué)校正在掌握著越來越多活的數(shù)據(jù),這為我們提供了新的方向——尋找某個規(guī)律背后的原因?!彼f。
數(shù)據(jù)挖掘,也稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從數(shù)據(jù)庫中的數(shù)據(jù)抽取隱含的、未知的和潛在有用的信息(如知識規(guī)則、約束和規(guī)律等) 的非平凡的過程。確切地講,數(shù)據(jù)挖掘是一種決策支持過程,它主要基于AI、機器學(xué)習(xí)、統(tǒng)計學(xué)等技術(shù),高度自動化地分析各組織原有的數(shù)據(jù),做出歸納的推理,從中挖掘出潛在的模式,為管理人員決策提供支持。
國外高校教學(xué)管理中, 數(shù)據(jù)挖掘已成為提高教學(xué)管理質(zhì)量與水平的一種有力工具。如美國學(xué)校能夠以85%的精確度去預(yù)測學(xué)生的升學(xué)率, 從而把注意力集中在輟學(xué)風(fēng)險比較大的學(xué)生身上。而在國內(nèi), 數(shù)據(jù)挖掘在各領(lǐng)域的運用與實踐尚不普遍, 不少的企業(yè)或部門仍處于觀望與考慮之中, 在高校教學(xué)管理中的應(yīng)用更是有待于人們?nèi)ド钊氲匮芯俊?/p>
從海量數(shù)據(jù)中尋找出有意義的規(guī)律,并為高校未來的發(fā)展提供決策上的支撐,使高校邁入“智慧”的校園,是信息化數(shù)據(jù)挖掘的最終目標(biāo)。
“要實現(xiàn)很好的數(shù)據(jù)分析,需要有兩個前提條件:一是足夠的數(shù)據(jù)量;二是數(shù)據(jù)必須是可用的、真實的,這就需要數(shù)據(jù)質(zhì)量的保證?!痹颊f。
但是目前普遍存在的問題是數(shù)據(jù)質(zhì)量不高。許多高校的數(shù)據(jù)分析、利用仍停留在初級水平,數(shù)據(jù)很難被發(fā)掘利用也反映了在系統(tǒng)建設(shè)和使用過程中的數(shù)據(jù)不準確、不精確、不一致等諸多質(zhì)量問題。
第一,數(shù)據(jù)整合做得不深入?,F(xiàn)在,整合是大勢所趨,是高校信息化建設(shè)必須面對的挑戰(zhàn)。一方面,隨著信息化應(yīng)用的深入和普及,各業(yè)務(wù)間出現(xiàn)了大量的數(shù)據(jù)交換需求;由于時間積累、建設(shè)方式多樣和系統(tǒng)耦合度因素,數(shù)據(jù)交換呈網(wǎng)狀結(jié)構(gòu),隨著需求的增加,授權(quán)越來越復(fù)雜,亟需對現(xiàn)有信息或數(shù)據(jù)進行整合,提高信息資源的利用率。另一方面,隨著非結(jié)構(gòu)化數(shù)據(jù)的增多,需要對業(yè)務(wù)類的結(jié)構(gòu)化信息和資源辦公類的非結(jié)構(gòu)化數(shù)據(jù)整合。
第二,標(biāo)準化的挑戰(zhàn)。目前,信息系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)定義不清、概念混淆,程序設(shè)計時控制和校驗不嚴,系統(tǒng)使用時數(shù)據(jù)輸入偏差等原因,導(dǎo)致數(shù)據(jù)質(zhì)量問題很多。業(yè)務(wù)數(shù)據(jù)標(biāo)準化程度低,不僅導(dǎo)致數(shù)據(jù)質(zhì)量問題,也給數(shù)據(jù)集成帶來了很多麻煩。
第三,數(shù)據(jù)的利用率很低?!皵?shù)據(jù)如果僅僅是保存并沉睡在系統(tǒng)中,那么其質(zhì)量問題很難暴露出來,只有被使用時,問題才會逐漸顯現(xiàn)。”
他表示,要想提高數(shù)據(jù)質(zhì)量,首先需要把好數(shù)據(jù)輸入的源頭、保證輸入的數(shù)據(jù)符合要求,其次通過技術(shù)手段控制數(shù)據(jù)輸入的格式、標(biāo)準和要求。
此外,需要指出的是,數(shù)據(jù)質(zhì)量并非單純的技術(shù)問題。很多時候,數(shù)據(jù)的真實性有待商榷。比如,同一所高校不同部門針對同一項目給出的數(shù)據(jù)不一致。
事實上,數(shù)據(jù)質(zhì)量不僅是一個技術(shù)問題,更是一個管理問題。業(yè)務(wù)部門需要利用數(shù)據(jù)來處理業(yè)務(wù)工作,意味著要為數(shù)據(jù)完整性、完備性、準確性給出定義和語義層次上的解釋。解決數(shù)據(jù)質(zhì)量問題往往要耗費較多資源及增加管理成本,因此還需要管理層在數(shù)據(jù)質(zhì)量和所花費的代價兩方面進行平衡??傊瑪?shù)據(jù)質(zhì)量問題不單單是一個技術(shù)問題,更需要來自管理和技術(shù)兩方面的協(xié)同努力。
數(shù)據(jù)挖掘被信息產(chǎn)業(yè)界視為數(shù)據(jù)庫技術(shù)的前沿,數(shù)據(jù)庫技術(shù)的新應(yīng)用領(lǐng)域。它在數(shù)據(jù)倉庫、決策支持、市場策略和金融預(yù)測等領(lǐng)域具有廣泛的應(yīng)用前景。全世界排名前列的大型和超大型公司95 %以上都建立了數(shù)據(jù)倉庫和應(yīng)用了數(shù)據(jù)挖掘技術(shù)。
袁芳表示,要進行數(shù)據(jù)分析,首先必須有充足的有質(zhì)量的數(shù)據(jù)。之所以說現(xiàn)在做數(shù)據(jù)挖掘的時機是成熟的,是因為高校尤其是一些大型高校擁有大量的教學(xué)、管理、科研等數(shù)據(jù),這為從各個層面進行數(shù)據(jù)分析提供了信息基礎(chǔ)。此外,最近幾年移動互聯(lián)網(wǎng)技術(shù)、微博等SNS網(wǎng)站的推出,使學(xué)校擁有了很多可用的、有價值的海量數(shù)據(jù)。這也意味著,要進行信息挖掘,必須充分擴展應(yīng)用,才有可能掌握更多的數(shù)據(jù)。
目前,進行數(shù)據(jù)挖掘的高校基本都是信息化做得很好、規(guī)模較大的學(xué)校,其主要原因是他們有充足的數(shù)據(jù)量。此外,也有人力來做這部分的工作。
在數(shù)據(jù)分析中,去年非常著名的是,通過對最近幾年清華和北大本科生的所屬地域?qū)Ρ确治霭l(fā)現(xiàn),來自農(nóng)村的學(xué)生所占比例相比10年前大大落后。這些數(shù)據(jù)從一定層面上反映出深刻的社會問題,值得全民關(guān)注。
總體來看,目前高校對信息數(shù)據(jù)的挖掘主要集中在幾個方面:一、針對網(wǎng)絡(luò)系統(tǒng)運行所做的數(shù)據(jù)分析;二、針對教學(xué)教務(wù)管理所做的支持;三、針對特定學(xué)生的分析;四、針對科研所做的數(shù)據(jù)分析支持。
比如,華東師范大學(xué)對校園網(wǎng)站數(shù)據(jù)進行分析,從而改善用戶體驗。他們在數(shù)據(jù)分析后發(fā)現(xiàn),“Chrome、Firefox、Safari等瀏覽器一直被認為是冷門。但從華東師范大學(xué)的訪問數(shù)據(jù)可以看到,這些瀏覽器仍然占有10%以上的瀏覽份額。我們根據(jù)這些瀏覽器一一進行兼容性測試,確保頁面在以上占比較高的環(huán)境下能夠正常顯示?!?/p>
浙江大學(xué)通過對資產(chǎn)的歸納、整理,最終形成權(quán)威、全面的資產(chǎn)數(shù)據(jù),并基于資產(chǎn)數(shù)據(jù)提供數(shù)據(jù)查詢和分析服務(wù)。這些數(shù)據(jù)分析的成果已經(jīng)被真正地應(yīng)用起來,能夠幫助教務(wù)處更好地利用教室、實驗室等資源。
復(fù)旦大學(xué)則對特定的學(xué)生進行數(shù)據(jù)分析,并且得到一些非常有價值的數(shù)據(jù)。比如,他們對來自不同區(qū)域的學(xué)生進行分析,分析結(jié)果認為,學(xué)生成績受不同地區(qū)基礎(chǔ)教育發(fā)展?fàn)顩r的影響較大。從平均績點看,來自東部地區(qū)、中部地區(qū)、西部地區(qū)學(xué)生的成績呈遞減趨勢。在中部和西部地區(qū),城鎮(zhèn)學(xué)生成績優(yōu)于農(nóng)村學(xué)生,東部地區(qū)則相反。分析認為,出現(xiàn)這種情況或與學(xué)生所受基礎(chǔ)教育相關(guān):在中、西部地區(qū),城鎮(zhèn)的基礎(chǔ)教育資源和水平明顯高于農(nóng)村;而在東部地區(qū),農(nóng)村和城鎮(zhèn)教育資源和水平相對均衡,不少農(nóng)村學(xué)生在基礎(chǔ)教育階段反而可能學(xué)得更深。
此外,他們對保送生的教學(xué)情況進行了分析。 分析得出,自主選拔錄取學(xué)生的平均績點總體高于保送生,內(nèi)地新疆班、內(nèi)地西藏班、預(yù)科生、留學(xué)生、港澳臺學(xué)生學(xué)習(xí)成績較差。根據(jù)現(xiàn)有保送生政策,除少數(shù)省級優(yōu)秀學(xué)生外,大多數(shù)保送生是學(xué)科競賽獲獎?wù)?,他們在基礎(chǔ)教育階段偏科較嚴重,還有個別保送生為退役優(yōu)秀運動員,基礎(chǔ)也較為薄弱,因此不少保送生在入校后出現(xiàn)學(xué)習(xí)困難的情況。而經(jīng)歷過“復(fù)旦水平測試”和高考雙重選拔的自主招生錄取學(xué)生,各項基礎(chǔ)都比較扎實,總體成績相對穩(wěn)定。
“在數(shù)據(jù)分析中,目標(biāo)要很明確?!鼻迦A大學(xué)袁芳說。清華正在做一些學(xué)生成長類的數(shù)據(jù)分析。比如,針對進校時成績很優(yōu)秀的一批學(xué)生,追蹤其在大學(xué)四年的各種數(shù)據(jù),觀察其成長路徑,或者對畢業(yè)時表現(xiàn)很優(yōu)秀的學(xué)生進行追溯?!皵?shù)據(jù)分析是一項非常系統(tǒng)的工作,涉及到很多社會學(xué)的內(nèi)容?!?/p>
清華大學(xué)對數(shù)據(jù)分析做了四個境界的界定:一是基于一個統(tǒng)一、權(quán)威的數(shù)據(jù),提供綜合查詢;二是做一些固定的統(tǒng)計分析,固定報表;三是做一些靈活的統(tǒng)計分析,針對熱點情況進行分析;四從大量數(shù)據(jù)中找出規(guī)律,發(fā)現(xiàn)出一些可以幫助大學(xué)未來發(fā)展的戰(zhàn)略。
?
對于數(shù)據(jù)分析的前景,大部分認為:前景非常好,但挑戰(zhàn)很多。袁芳認為,數(shù)據(jù)分析存在兩個方面的關(guān)鍵因素。首先,業(yè)務(wù)和技術(shù)的緊密結(jié)合非常重要。業(yè)務(wù)需求是所有數(shù)據(jù)分析的目的,做數(shù)據(jù)分析要先挖掘出分析什么,擁有了需求,高校才能有針對性地對數(shù)據(jù)進行分析,把數(shù)據(jù)深層次的價值挖掘出來,讓它們?yōu)闆Q策服務(wù)。
在微博上一些人討論,在數(shù)據(jù)分析中“明確目的、收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù)、數(shù)據(jù)可視化、數(shù)據(jù)報告”這幾個步驟最重要的部分是什么?袁芳回復(fù)說,前四個步驟缺一不可,要有需求,需求決定了素材和路徑。她打了一個比方:“好比做菜,得知道吃什么,才去買原材料,拿回來清理干凈,再加工,才有得吃。最苦的是清理,費力不討好;最有價值的是加工?!?/p>
然而,數(shù)據(jù)挖掘的“需求”在高校一直是個很困惑的問題。香港中文大學(xué)資訊科技服務(wù)處處長梁光漢就說:“我們都說做數(shù)據(jù)挖掘是為了給領(lǐng)導(dǎo)做決策使用,但是領(lǐng)導(dǎo)的需求是什么?我們不知道。但由于我們沒有一種好的形式展現(xiàn)給領(lǐng)導(dǎo)看,原來數(shù)據(jù)挖掘可以幫助我們做這個,所以領(lǐng)導(dǎo)也就看不到數(shù)據(jù)挖掘的前景了?!?/p>
這是一種很被動的情形。“我們一樣也面臨這個問題,也無法突破這樣的怪圈。只好先假設(shè)一些目標(biāo),做一些我們認為有意義的分析,然后把結(jié)果給業(yè)務(wù)部門看,期待著他們會發(fā)現(xiàn),原來數(shù)據(jù)挖掘可以幫助他們實現(xiàn)這樣的功能。那么,也許可以啟發(fā)出他有別的需求。反正就是盡自己可能變被動為主動?!痹颊f。
其次,數(shù)據(jù)分析對于技術(shù)人員的要求很高,要求他們不僅精通技術(shù),也要熟悉校園網(wǎng)業(yè)務(wù)。
在技術(shù)方面,基于數(shù)據(jù)挖掘的未來前景,挖掘工具也越來越多。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。通用工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應(yīng)用來選擇。
此外,還有一個非常重要的是:高校對數(shù)據(jù)挖掘機制方面的理順。華東師范大學(xué)信息化辦公室主任沈富可說:“關(guān)于數(shù)據(jù)挖掘,國內(nèi)的院校研究也已起步,但尚停留在學(xué)術(shù)研究層面,高校內(nèi)鮮有帶有行政管理職能的院校研究機構(gòu)成立,其功能定位、研究范疇和研究方法與國外院校研究相比,尚有較大差距。其研究人員多是高等教育學(xué)專業(yè)背景的人員,雖從美國引進、傳播了院校研究的概念,并嘗試推動了院校研究的實踐,但數(shù)據(jù)分析作為現(xiàn)代院校研究的基礎(chǔ)和重要內(nèi)容,尚未引起我國大多數(shù)致力于院校研究的學(xué)者的重視。
他認為,數(shù)據(jù)分析作為推動高校未來發(fā)展的一項很有戰(zhàn)略眼光的事業(yè),應(yīng)當(dāng)從整個管理體制中完善。這一點,我們可以從國外大學(xué)中得到一些借鑒。以美國紐約大學(xué)為例,其數(shù)據(jù)管理體制中有兩個重要角色:數(shù)據(jù)管理員(Data Steward)和院校研究辦公室。他們的數(shù)據(jù)分析是由院校研究辦公室自上而下地開展工作,院校研究辦公室直接從學(xué)校數(shù)據(jù)倉庫獲取數(shù)據(jù),信息化部門密切與之配合,雙方協(xié)同確保學(xué)校數(shù)據(jù)的準確性和完整性。他認為我國高校在數(shù)據(jù)挖掘方面也可以參考這一機制。
“數(shù)據(jù)分析也需要不斷地迭代升級,不斷地實戰(zhàn)試錯,才能留下寶貴的財富?!毕嚓P(guān)人士說。