[摘 要] 在大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為基礎(chǔ)性資源,文章分析了大數(shù)據(jù)的基本概念及對決策支持系統(tǒng)的影響,在明確自學(xué)考試管理的決策需求基礎(chǔ)上,提出了大數(shù)據(jù)背景下的自學(xué)考試決策支持過程模型,描述了大數(shù)據(jù)與決策行為的對應(yīng)關(guān)系,設(shè)計(jì)了自學(xué)考試決策支持系統(tǒng)功能,包含數(shù)據(jù)管理子系統(tǒng)、分析模型管理子系統(tǒng)、用戶交互環(huán)境子系統(tǒng)、數(shù)據(jù)安全管理子系統(tǒng)等。
[關(guān)鍵詞] 大數(shù)據(jù); 自學(xué)考試; 決策支持
[中圖分類號] G434 [文獻(xiàn)標(biāo)志碼] A
[作者簡介] 馬尚瑋(1966—),男,甘肅天水人。副教授,碩士,主要從事教育考試?yán)碚撆c管理方面的研究。
人、機(jī)、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復(fù)雜化,世界已進(jìn)入網(wǎng)絡(luò)化的大數(shù)據(jù)(Big Data)時代。[1][2]由于大數(shù)據(jù)隱含著巨大的社會、經(jīng)濟(jì)、科研價值,已引起了各行各業(yè)的高度重視。[3][4][5]當(dāng)前對大數(shù)據(jù)的研究以與國計(jì)民生密切相關(guān)的科學(xué)決策、環(huán)境與社會管理、金融工程、應(yīng)急管理、電子商務(wù)以及知識經(jīng)濟(jì)為主要應(yīng)用領(lǐng)域。決策支持系統(tǒng)結(jié)構(gòu)化、非結(jié)構(gòu)化混合的基礎(chǔ)數(shù)據(jù)特征與“大數(shù)據(jù)”特征高度吻合,不斷深入的大數(shù)據(jù)研究和應(yīng)用,必將為決策支持系統(tǒng)的建設(shè)和應(yīng)用帶來更大的發(fā)展空間。
一、大數(shù)據(jù)的特點(diǎn)及對決策支持系統(tǒng)的影響
目前對大數(shù)據(jù)尚未有一個公認(rèn)的定義,維基百科對大數(shù)據(jù)的定義是:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。[6]還有研究者從大數(shù)據(jù)的特征出發(fā),通過這些特征的闡述和歸納試圖給出其定義,在這些定義中,比較有代表性的是3V定義,[7]即大數(shù)據(jù)的特點(diǎn)可以總結(jié)為三個V:規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。(1)規(guī)模性:當(dāng)前數(shù)據(jù)集的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB 級,甚至開始以EB 和ZB來計(jì)數(shù)。(2)多樣性:大數(shù)據(jù)的數(shù)據(jù)類型,從結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫中保存的數(shù)據(jù)),拓展到文本、音頻、視頻、圖片、地理位置、Web 頁面、微博、即時通訊等其他半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。(3)高速性:大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時效性,用戶只有把握好對數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù)。另外,數(shù)據(jù)自身的狀態(tài)與價值也往往隨時空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。
大數(shù)據(jù)的3V特征使得數(shù)據(jù)已從傳統(tǒng)意義上的簡單處理對象變?yōu)橐环N基礎(chǔ)性的資源,這些資源可以用來輔助解決其他領(lǐng)域的問題。在決策支持領(lǐng)域,獲取了規(guī)模性、多樣性和高速性的數(shù)據(jù),決策支持系統(tǒng)可以立足于更大、更完整的數(shù)據(jù)集,通過數(shù)據(jù)分析,為決策者提供全局性的決策支持。隨著“大數(shù)據(jù)”處理相關(guān)的人工智能、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、數(shù)據(jù)分析等技術(shù)的進(jìn)步,決策者可以從中挖掘出更多支持決策的有價值的信息。但同時也應(yīng)看到,“大數(shù)據(jù)”時代,由于提供給決策支持系統(tǒng)的數(shù)據(jù)是全面的,所以要求高度重視決策支持系統(tǒng)的數(shù)據(jù)安全問題,否則數(shù)據(jù)泄漏,對決策者可能產(chǎn)生不可估量的損失。
二、自學(xué)考試管理對決策支持的需求
自學(xué)考試管理包括專業(yè)計(jì)劃、報考、助學(xué)、命題、考務(wù)考籍等方面。在整個工作流程中,涉及的數(shù)據(jù)多、結(jié)構(gòu)復(fù)雜、來源廣泛,部分?jǐn)?shù)據(jù)具有很強(qiáng)的時效性,具有典型的大數(shù)據(jù)特征。正是由于這些數(shù)據(jù)中蘊(yùn)含的大量有價值的知識和信息使得支持自學(xué)考試決策成為可能,在自學(xué)考試各個環(huán)節(jié)中產(chǎn)生了大量決策支持需求。隨著大數(shù)據(jù)的規(guī)模、種類、真實(shí)性等的變化還會產(chǎn)生更多的需求。
1. 專業(yè)計(jì)劃管理
專業(yè)計(jì)劃管理指對已開設(shè)的專業(yè)和準(zhǔn)備開設(shè)專業(yè)的管理。在新開設(shè)和停、并、轉(zhuǎn)某專業(yè)時,需要分析目前國家自考管理部門已同意開設(shè)專業(yè)基本情況及其發(fā)展趨勢,未開設(shè)專業(yè)基本情況及其發(fā)展趨勢,不同專業(yè)計(jì)劃的課程之間是否存在課程頂替的可能性,專業(yè)是否符合社會需求等。
2. 考生報考管理
需要分析各專業(yè)的報考情況、報考考生基本特征、考生報考趨勢等。
3. 助學(xué)組織管理
目前自學(xué)考試助學(xué)組織有高等院校和社會助學(xué)組織。管理部門需要及時了解助學(xué)組織的招生情況和教學(xué)效果,并采取相應(yīng)的監(jiān)督、激勵措施。助學(xué)組織需要及時了解自身的境遇,及時調(diào)整辦學(xué)方向和思路。助學(xué)組織還需要為其學(xué)生提供個性化的學(xué)習(xí)策略指導(dǎo)和學(xué)習(xí)資源支持。
4. 命題管理
在命題時,需要分析歷年命題難易度、風(fēng)格、形式,分析本次命題與歷年命題的相似度、關(guān)聯(lián)度,分析命題人員的特征,分析命題的潛在風(fēng)險等。
5. 考務(wù)考籍管理
在編排考場、印制試卷、實(shí)施考試、網(wǎng)上閱卷、登錄成績等過程中,考務(wù)部門需要分析考區(qū)監(jiān)考質(zhì)量,分析監(jiān)考人員、考生、閱卷人員、成績登錄人員、考區(qū)、考場之間的關(guān)聯(lián)度及各自的特征等。
三、 自學(xué)考試決策支持系統(tǒng)研究
(一)自學(xué)考試決策過程模型
自學(xué)考試決策過程模型獨(dú)立于具體的決策分析模型和決策系統(tǒng),從方法論的角度明確形成決策支持的流程和步驟。如圖1所示。
圖1 自學(xué)考試決策過程模型
1. 提出需求
自學(xué)考試管理人員從自身業(yè)務(wù)工作實(shí)際出發(fā),提出決策支持的具體需求。
2. 評價需求
評價需求指行業(yè)專家和數(shù)據(jù)專家共同分析自學(xué)考試管理人員提出的需求,共同參與溝通,最終明確需求并將之轉(zhuǎn)化為決策系統(tǒng)易于理解的描述方式。
3. 構(gòu)造數(shù)據(jù)集
明確自學(xué)考試決策需求后,通過數(shù)據(jù)抽樣,檢驗(yàn)數(shù)據(jù)質(zhì)量,根據(jù)業(yè)務(wù)需求精選樣本數(shù)據(jù)子集,必要時進(jìn)行凈化和數(shù)據(jù)轉(zhuǎn)換,構(gòu)造最終的數(shù)據(jù)集合。大數(shù)據(jù)來源廣泛,類型復(fù)雜,這些大數(shù)據(jù)中往往包含很多數(shù)據(jù)噪音,需要在分析前進(jìn)行數(shù)據(jù)的清洗和整理,甚至還需要人為補(bǔ)充相關(guān)內(nèi)容。這一階段的工作,主要由數(shù)據(jù)操作人員、數(shù)據(jù)管理人員、數(shù)據(jù)專家共同完成。
4. 構(gòu)建模型
依據(jù)數(shù)據(jù)特征和需求目標(biāo),選擇相關(guān)技術(shù)手段和方法,建立模型,并不斷校正和優(yōu)化各種模型參數(shù)。模型的構(gòu)建和完善是整個決策支持過程中最重要的環(huán)節(jié)。在具體實(shí)施中,需要自學(xué)考試管理人員、數(shù)據(jù)管理人員、數(shù)據(jù)專家、數(shù)據(jù)分析人員共同參與模型構(gòu)建。
表1 自學(xué)考試中的大數(shù)據(jù)及其決策支持
5. 評價模型
對模型分析結(jié)果進(jìn)行綜合評價,找出效果最優(yōu)化的模型。模型的優(yōu)劣直接關(guān)系到分析結(jié)果的準(zhǔn)確性,在模型正式發(fā)布之前一定要反復(fù)進(jìn)行評價和調(diào)整,確保建立最優(yōu)化的模型。在模型評價階段,除技術(shù)專家在架構(gòu)、算法上進(jìn)行綜合評價外,還需要自學(xué)考試管理人員對模型進(jìn)行適用性評價,避免技術(shù)人員的理解偏差導(dǎo)致分析結(jié)果的失誤。
6. 發(fā)布并實(shí)施模型
通過提供易于使用、方便快捷的原型演示及圖表演示軟件,全面并快速顯示數(shù)據(jù)分析結(jié)果,便于有效決策。
7. 支持決策
自學(xué)考試管理人員依據(jù)系統(tǒng)提供的結(jié)構(gòu)化、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的分析結(jié)果進(jìn)行決策。
(二)決策過程中的大數(shù)據(jù)支持
從決策過程模型可以看到,自學(xué)考試決策的每個環(huán)節(jié)都需要大數(shù)據(jù)的支持,這些數(shù)據(jù)包括已有的歷史數(shù)據(jù)、產(chǎn)生的過程性數(shù)據(jù)和結(jié)論性數(shù)據(jù),它們都直接或間接地支持著決策分析。數(shù)據(jù)描述及對決策的支持見表1。需要說明的是,在進(jìn)行數(shù)據(jù)分析時,各決策模型還需要不斷調(diào)整,對數(shù)據(jù)進(jìn)行分解或合并,甚至要對已有的數(shù)據(jù)按照新規(guī)則進(jìn)行重組。
(三)自學(xué)考試決策系統(tǒng)功能設(shè)計(jì)
依據(jù)自學(xué)考試對決策的需求和大數(shù)據(jù)背景下的決策支持流程,構(gòu)建了自學(xué)考試決策支持系統(tǒng)。主要包含四個子系統(tǒng):數(shù)據(jù)管理子系統(tǒng)、分析模型管理子系統(tǒng)、用戶交互環(huán)境子系統(tǒng)和數(shù)據(jù)安全子系統(tǒng)。如圖2所示。
圖2 自學(xué)考試決策系統(tǒng)功能模型
1. 數(shù)據(jù)管理子系統(tǒng)
自學(xué)考試的各類數(shù)據(jù),包括結(jié)構(gòu)性的數(shù)據(jù)(如數(shù)據(jù)庫數(shù)據(jù))、半結(jié)構(gòu)化的數(shù)據(jù)(如HTML網(wǎng)頁數(shù)據(jù))和非結(jié)構(gòu)化的數(shù)據(jù)(如考場視頻監(jiān)控存檔文件),這些數(shù)據(jù)構(gòu)成了開展數(shù)據(jù)挖掘的全集,但大數(shù)據(jù)并不代表著高價值,對這些數(shù)據(jù)必須要進(jìn)行清洗,保證數(shù)據(jù)可靠的前提下,進(jìn)行數(shù)據(jù)的抽取和集成,構(gòu)成數(shù)據(jù)樣本集合。
2. 分析模型管理子系統(tǒng)
分析模型管理子系統(tǒng)主要在構(gòu)建的數(shù)據(jù)樣本集合上建立分析模型,對數(shù)據(jù)進(jìn)行分類、聚合、關(guān)聯(lián)和預(yù)測。該子系統(tǒng)的主要功能包含兩部分:一是對各類分析模型的管理,二是依據(jù)模型對數(shù)據(jù)進(jìn)行分析。分類是依據(jù)歷史數(shù)據(jù)形成刻畫用戶特征的類標(biāo)志,繼而可以預(yù)測未來數(shù)據(jù)的歸類情況。聚類是一種無指導(dǎo)的學(xué)習(xí),在事先不知道數(shù)據(jù)分類的情況下,根據(jù)數(shù)據(jù)之間的相似程度進(jìn)行劃分,目的是使得同類別的數(shù)據(jù)對象之間的差別盡可能地小,不同類別的數(shù)據(jù)對象之間的差別盡可能地大。預(yù)測基于輸入的用戶信息,通過模型的訓(xùn)練學(xué)習(xí)找出數(shù)據(jù)中的規(guī)律和趨勢,以確定未來目標(biāo)數(shù)據(jù)的預(yù)測值。關(guān)聯(lián)是從數(shù)據(jù)子集合找出數(shù)據(jù)之間的聯(lián)系。自學(xué)考試系統(tǒng)中主要需要建立的分析模型有專業(yè)報考趨勢分析、助學(xué)組織招生人數(shù)趨勢分析、考試合格率關(guān)聯(lián)因素分析、助學(xué)組織教學(xué)質(zhì)量分析、考生特征分析、命題難易度分析、考區(qū)監(jiān)考質(zhì)量分析、試題泄露風(fēng)險預(yù)測、自學(xué)考試對社會貢獻(xiàn)的分析等。
3. 用戶交互環(huán)境子系統(tǒng)
用戶向系統(tǒng)提出分析請求及系統(tǒng)反饋分析結(jié)果都通過此子系統(tǒng)進(jìn)行交互。數(shù)據(jù)分析產(chǎn)生的結(jié)果必須采用適當(dāng)?shù)娘@示方式展示給最終決策用戶,良好的數(shù)據(jù)解釋可以幫助用戶更好地理解分析結(jié)果并支持決策行為。數(shù)據(jù)的可視化是目前常采用的數(shù)據(jù)解釋方式。數(shù)據(jù)可視化的內(nèi)容至少包含三個方面:數(shù)據(jù)來源簡述、數(shù)據(jù)圖標(biāo)或?qū)I(yè)報表、數(shù)據(jù)參考結(jié)論。數(shù)據(jù)來源幫助用戶更好地理解分析結(jié)果的由來,數(shù)據(jù)圖標(biāo)或?qū)I(yè)報表可視化展示數(shù)據(jù)及數(shù)據(jù)之間的聯(lián)系,數(shù)據(jù)參考總結(jié)了分析模型管理子系統(tǒng)的分析結(jié)果,該結(jié)果為用戶提供結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的決策支持。在自學(xué)考試管理過程中,常常需要通過在各個工作環(huán)節(jié)向系統(tǒng)提出決策需求,如報考人數(shù)分析、專業(yè)發(fā)展趨勢分析、試題難易度分析等。這些分析結(jié)果都需要以專業(yè)圖表的形式顯示出來,并給出與圖標(biāo)相關(guān)聯(lián)的解釋信息,便于管理者快速作出考場編排、專業(yè)計(jì)劃調(diào)整、命題修改等決策。
4. 數(shù)據(jù)安全管理子系統(tǒng)
大數(shù)據(jù)環(huán)境下,由于決策支持所抽取的數(shù)據(jù)均為自學(xué)考試的重要信息,要保證數(shù)據(jù)在存儲、抽取、集成、分析、展示時的絕對安全,防止非法用戶竊取或篡改考試信息。同時大數(shù)據(jù)分析過程中還會產(chǎn)生一些隱私數(shù)據(jù),對這類數(shù)據(jù)的保護(hù)也非常重要。數(shù)據(jù)安全管理子系統(tǒng)貫穿于上述三個子系統(tǒng)中,為整個決策系統(tǒng)提供安全保障。
四、小 結(jié)
大數(shù)據(jù)時代的到來,使得人們開始面對更多大規(guī)模、種類繁雜的數(shù)據(jù)。對自學(xué)考試管理者而言,如何在大數(shù)據(jù)中獲得有價值的信息,從而支持管理決策顯得尤為重要。本文對自學(xué)考試主要工作對決策支持的需求作了分析,給出了自學(xué)考試管理決策支持的過程模型,描述了大數(shù)據(jù)對具體決策行為的支持關(guān)系,同時著重設(shè)計(jì)了自學(xué)考試管理決策支持系統(tǒng)功能。本文只是從需求出發(fā)設(shè)計(jì)了系統(tǒng)功能模型,要真正去實(shí)現(xiàn)這樣一個系統(tǒng),還需要依賴于數(shù)據(jù)抽取和集成關(guān)鍵技術(shù)、數(shù)據(jù)挖掘技術(shù)、人工智能等各類研究的成果。同時,期望本研究能給同行研究者的相關(guān)研究提供一定的參考。
[參考文獻(xiàn)]
[1] 李國杰.大數(shù)據(jù)研究的科學(xué)價值[J].中國計(jì)算機(jī)學(xué)會通訊, 2012,8(9):8~15.
[2] [3] James Manyika,Michael Chui,Brad Brown et al. Big Data:The Next Frontier for Innovation,Competition,and Productivity[Z]. McKinsey Global Institute, 2011.
[4] Divyakant Agrawal,Philip Bernstein, Elisa Bertino et al. Challenges and Opportunities with Big Data[EB/OL]. Cyber Center Technical Reports, February 2012. http://docs.lib.purdue.edu/cctech/1.
[5] Pattern-Based Strategy: Getting Value from Big Data[Z]. Gartner Group Press Release, 2011.
[6] Big Data[EB/OL].[2012-10-02].http://en.wikipedia.org/wiki/Big_data.
[7] Grobelnik, M.. Big-data Computing:Creating Revolutionary Breakthroughs in Commerce,Science,and Society[R/OL].[2012-1-02].http://videolectures.net/eswc2012_grobelnik_big_data/.