樂潔玉,羅超洋,丁靜姝,李卿
1. 華中師范大學(xué)國家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心,湖北 武漢 430079;2. 華中師范大學(xué)教育大數(shù)據(jù)應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室,湖北 武漢 430079;3. 華中師范大學(xué)法學(xué)院,湖北 武漢 430079
作為教育領(lǐng)域的基礎(chǔ)性戰(zhàn)略資源,教育大數(shù)據(jù)為教育管理者制定教育決策提供了科學(xué)依據(jù),為教育創(chuàng)新和變革提供了巨大推動(dòng)力。與此同時(shí),在教育大數(shù)據(jù)的共享和挖掘過程中,數(shù)據(jù)的敏感性不可避免地給教育數(shù)據(jù)的應(yīng)用發(fā)展帶來了諸多障礙。教育部印發(fā)的《教育信息化2.0行動(dòng)計(jì)劃》指出,要深入應(yīng)用教育大數(shù)據(jù)助力教育教學(xué),同時(shí)需要重點(diǎn)保障師生數(shù)據(jù)安全,加強(qiáng)隱私保護(hù)。
國外學(xué)者較早關(guān)注教育數(shù)據(jù)的道德隱私問題,Slade S等人[1]關(guān)注數(shù)據(jù)主體的知情同意權(quán),提出6項(xiàng)原則指導(dǎo)教育數(shù)據(jù)的采集和使用過程;Daniel BK[2]認(rèn)為需建立使用教育數(shù)據(jù)的全球倫理和道德義務(wù),學(xué)習(xí)分析研究中必須獲得學(xué)生的“知情同意”,并考慮數(shù)據(jù)所有權(quán)和訪問權(quán)。在教育數(shù)據(jù)治理上,李青等人[3]認(rèn)為應(yīng)從組織架構(gòu)、業(yè)務(wù)領(lǐng)域、技術(shù)和平臺3個(gè)方向推進(jìn)教育大數(shù)據(jù)的治理框架;彭雪濤[4]也針對美國圣母大學(xué)、麻省理工學(xué)院和紐約大學(xué)數(shù)據(jù)治理的實(shí)例,提出應(yīng)正確識別數(shù)據(jù)的利益相關(guān)方,從頂層設(shè)計(jì)規(guī)劃,全面落實(shí)各方的權(quán)責(zé)機(jī)制,確保信息安全技術(shù)的支撐,推進(jìn)教育數(shù)據(jù)的有效治理。而在技術(shù)層面上,學(xué)者們更加關(guān)注隱私保護(hù)機(jī)制改進(jìn),Gursoy ME等人[5]提出學(xué)習(xí)分析過程中的隱私保護(hù)機(jī)制,將匿名和差異隱私兩種大數(shù)據(jù)隱私保護(hù)技術(shù)運(yùn)用到教育領(lǐng)域,解決教育數(shù)據(jù)發(fā)布和挖掘中的隱私泄露問題;Askinadze A等人[6]則針對教育領(lǐng)域內(nèi)數(shù)據(jù)挖掘算法的透明度進(jìn)行了優(yōu)化,讓學(xué)生可自由選擇數(shù)據(jù)存儲及與第三方共享時(shí)的信息內(nèi)容,從而尊重學(xué)生的數(shù)據(jù)隱私。可見,國內(nèi)外學(xué)者主要從技術(shù)支撐、組織管理、倫理法律三大部分探討教育大數(shù)據(jù)的安全與隱私保護(hù)問題,他們普遍認(rèn)為結(jié)合管理和技術(shù)手段對教育大數(shù)據(jù)進(jìn)行隱私保護(hù)十分必要。因此,亟須研究教育大數(shù)據(jù)隱私保護(hù)機(jī)制,以防止學(xué)生隱私信息泄露和學(xué)習(xí)分析技術(shù)濫用等事件的發(fā)生,規(guī)范教育大數(shù)據(jù)的應(yīng)用過程和邊界。
本文重點(diǎn)圍繞教育大數(shù)據(jù)的隱私保護(hù)內(nèi)涵、框架以及技術(shù)展開研究,旨在為教育大數(shù)據(jù)的有效應(yīng)用提供隱私保護(hù)機(jī)制支撐和技術(shù)支持。
教育大數(shù)據(jù)涉及龐大規(guī)模的受教育者與教育者群體,對于這些人群,尤其是對于大量的未成年學(xué)生而言,隱私保護(hù)至關(guān)重要。明確教育大數(shù)據(jù)不同于一般大數(shù)據(jù)的獨(dú)特性,厘清其隱私內(nèi)涵,是推進(jìn)教育大數(shù)據(jù)隱私保護(hù)的基礎(chǔ)。
作為大數(shù)據(jù)的一個(gè)子集,教育大數(shù)據(jù)廣義上泛指一切與教育活動(dòng)相關(guān)的行為數(shù)據(jù),而狹義上指學(xué)習(xí)者的行為數(shù)據(jù)[7]。根據(jù)教育數(shù)據(jù)的來源,一般可將教育大數(shù)據(jù)分為教學(xué)數(shù)據(jù)、數(shù)字資源、管理數(shù)據(jù)、生活數(shù)據(jù)、其他領(lǐng)域數(shù)據(jù)5個(gè)類型。教學(xué)數(shù)據(jù)來源于不同的教學(xué)活動(dòng),如教研活動(dòng)、戶外活動(dòng)、課程教學(xué)、戶外教學(xué)等;數(shù)字資源包括多媒體素材、在線課程、學(xué)科工具等;管理數(shù)據(jù)涉及學(xué)生、家長、學(xué)校、其他機(jī)構(gòu)等不同數(shù)據(jù)主體的數(shù)據(jù);生活數(shù)據(jù)涵蓋圖書借閱、健康運(yùn)動(dòng)、社交、娛樂等數(shù)據(jù);而其他領(lǐng)域數(shù)據(jù)滲透到醫(yī)療、經(jīng)濟(jì)、就業(yè)、市政等生活的各個(gè)方面??梢钥闯觯逃髷?shù)據(jù)來源多樣,其采集和存儲階段匯聚了各種不同類型和信息源的數(shù)據(jù),包括非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)??傮w而言,教育大數(shù)據(jù)具有層級多、維度高、跨度長等特性。
(1)層級多
教育大數(shù)據(jù)范圍寬廣,可分為教育管理五層級(即國家、區(qū)域、學(xué)校、班級、個(gè)體)、學(xué)習(xí)結(jié)果六層次(即識記、理解、應(yīng)用、分析、綜合和評價(jià))、學(xué)習(xí)資源多粒度(如選項(xiàng)、題目、試卷、知識單元、課程等)、數(shù)據(jù)敏感度分級(即高、中、低),數(shù)據(jù)層級從上至下、從高到低逐步匯聚。
(2)維度高
教育涉及教學(xué)、管理、生活、服務(wù)等方面,包含學(xué)校、家庭和社會多個(gè)場景,以培養(yǎng)全面發(fā)展的人為核心。因此,教育大數(shù)據(jù)是數(shù)據(jù)類型多樣、教育場景復(fù)雜、核心素養(yǎng)繁多的高維度數(shù)據(jù)集合。
(3)跨度長
教育大數(shù)據(jù)跨越學(xué)前教育、初等教育、高等教育、成人教育、終身學(xué)習(xí)5個(gè)階段,是面向所有人、學(xué)習(xí)全過程的數(shù)據(jù)。
(1)教育大數(shù)據(jù)中的隱私和安全問題
個(gè)人數(shù)據(jù)隱私與個(gè)人數(shù)據(jù)保護(hù)密切相關(guān),無論在何時(shí)何地采集、存儲或使用數(shù)據(jù),都可能出現(xiàn)隱私問題。大數(shù)據(jù)環(huán)境下,隱私的存在空間從現(xiàn)實(shí)擴(kuò)展到數(shù)據(jù),但內(nèi)容上仍是個(gè)人的、私人的、不愿被公開知曉的活動(dòng)、信息及空間。
教育大數(shù)據(jù)的隱私保護(hù)問題可被認(rèn)為是保護(hù)學(xué)習(xí)者可識別行為、內(nèi)容等個(gè)人敏感信息安全。強(qiáng)調(diào)合理適當(dāng)?shù)厥褂煤凸芾韺W(xué)習(xí)者的數(shù)據(jù),在未經(jīng)數(shù)據(jù)主體同意時(shí),數(shù)據(jù)擁有者不得將學(xué)生信息出售或共享給第三方,并且需保證以正確的方式采集、共享和使用學(xué)生個(gè)人信息,使學(xué)習(xí)者的隱私權(quán)免受其他方侵害[8]。
(2)教育大數(shù)據(jù)下的學(xué)習(xí)者隱私特征
Rao PR M等人[9]認(rèn)為大數(shù)據(jù)分析行為存在監(jiān)視(通過技術(shù)手段持續(xù)收集用戶行為)、披露(不可信的第三方識別用戶敏感信息)、歧視(對私人信息產(chǎn)生偏見)和濫用(信息推送)隱私的威脅。而學(xué)習(xí)者個(gè)人的敏感信息涉及學(xué)習(xí)記錄、考試測評等與教學(xué)活動(dòng)直接相關(guān)的信息,也包含健康狀況、家庭信息等學(xué)生管理數(shù)據(jù),還包括餐飲消費(fèi)、上網(wǎng)情況等學(xué)生在校園生活中產(chǎn)生的其他敏感數(shù)據(jù)。教育大數(shù)據(jù)的分析和挖掘也存在隱私泄露和濫用的風(fēng)險(xiǎn)。
一方面,教育大數(shù)據(jù)處理技術(shù)的應(yīng)用可為學(xué)習(xí)者提供個(gè)性化服務(wù),但在分析和挖掘海量、零碎教育大數(shù)據(jù)的過程中,學(xué)生個(gè)人隱私存在泄露風(fēng)險(xiǎn)。尤其是傳感器等智能設(shè)備采集到的學(xué)習(xí)者人臉、體征等可識別學(xué)習(xí)者個(gè)人行為的敏感信息,具有獨(dú)特性和不變性,一旦出現(xiàn)數(shù)據(jù)泄露和濫用的行為,將可能影響學(xué)習(xí)者的人身安全和權(quán)益。值得注意的是,當(dāng)學(xué)習(xí)者的零碎數(shù)據(jù)被非法竊取,并進(jìn)行二次重組關(guān)聯(lián)應(yīng)用時(shí),會產(chǎn)生具有新價(jià)值的學(xué)習(xí)者數(shù)據(jù)鏈,讓學(xué)習(xí)者無時(shí)無刻不被“監(jiān)視”,從而出現(xiàn)學(xué)習(xí)者隱私披露風(fēng)險(xiǎn)。
另一方面,學(xué)習(xí)分析技術(shù)可增強(qiáng)對學(xué)生學(xué)習(xí)方式和學(xué)習(xí)目標(biāo)的理解,表征學(xué)生當(dāng)前的課堂表現(xiàn),預(yù)測學(xué)生未來完成課程的成功率,可用的學(xué)生數(shù)據(jù)越多,數(shù)據(jù)可視化結(jié)果越好,學(xué)習(xí)反饋越及時(shí)。但是,機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)在分布上存在一定偏差,若僅僅使用學(xué)習(xí)者的歷史數(shù)據(jù),忽視學(xué)習(xí)者動(dòng)態(tài)的成長過程,很可能為學(xué)習(xí)者提供固化標(biāo)簽,產(chǎn)生數(shù)據(jù)偏見,有礙于發(fā)掘?qū)W習(xí)者的發(fā)展?jié)摿σ约皠?chuàng)造力。
盡管教育領(lǐng)域在數(shù)據(jù)采集、傳輸、存儲和應(yīng)用階段有規(guī)范的處理措施,但教育行業(yè)仍是非常容易受到公開披露的行業(yè)之一。然而,實(shí)施教育數(shù)據(jù)的隱私保護(hù)措施仍然是一個(gè)非常龐大繁雜的過程,隨著大數(shù)據(jù)技術(shù)的不斷提升,隱私泄露風(fēng)險(xiǎn)也在不斷增加,亟須采取可靠的安全防范措施和隱私保護(hù)技術(shù)。因此,必須建立一套完整的隱私保護(hù)方案,從源頭上遏制學(xué)生數(shù)據(jù)隱私泄露的問題,形成隱私保護(hù)管理機(jī)制,滿足對學(xué)習(xí)者敏感信息使用的合規(guī)性要求。
數(shù)據(jù)隱私性、真實(shí)性、完整性和訪問控制是解決大數(shù)據(jù)安全保護(hù)的首要問題[10]。DONGX H等人[11]強(qiáng)調(diào)應(yīng)基于現(xiàn)有的大數(shù)據(jù)技術(shù),圍繞整個(gè)數(shù)據(jù)生命周期考慮解決數(shù)據(jù)共享和隱私保護(hù)之間的問題,否則會危害大數(shù)據(jù)的應(yīng)用環(huán)境。Salleh KA等人[12]認(rèn)為在數(shù)據(jù)的傳輸、創(chuàng)建和處理過程中數(shù)據(jù)需被聚合或者匿名,以保證大數(shù)據(jù)技術(shù)應(yīng)用環(huán)境中的隱私安全,而現(xiàn)有數(shù)據(jù)存儲缺乏安全保障能力,必須引起重視。Xu L等人[13]提出了大數(shù)據(jù)安全模型,綜合考慮了數(shù)據(jù)挖掘過程中不同角色類型(即數(shù)據(jù)提供者、數(shù)據(jù)采集者、數(shù)據(jù)處理者和數(shù)據(jù)決策者)的隱私保護(hù)需求;而Khaloufi H等人[14]提出大數(shù)據(jù)安全生命周期模型,包括大數(shù)據(jù)采集、存儲、分析處理、知識創(chuàng)造4個(gè)階段,旨在識別大數(shù)據(jù)各個(gè)生命階段的隱私安全威脅和攻擊,保證大數(shù)據(jù)的生命安全。本文結(jié)合教育大數(shù)據(jù)各利益相關(guān)方的隱私保護(hù)需求,識別數(shù)據(jù)的采集、存儲、處理和可視化階段的隱私風(fēng)險(xiǎn),并提出教育大數(shù)據(jù)的隱私保護(hù)框架,以解決學(xué)習(xí)者的數(shù)據(jù)安全和隱私保護(hù)問題。教育大數(shù)據(jù)的隱私保護(hù)框架如圖1所示。
教育數(shù)據(jù)的質(zhì)量是學(xué)習(xí)分析與數(shù)據(jù)挖掘發(fā)揮最大價(jià)值的基本前提。了解面向教育大數(shù)據(jù)應(yīng)用過程中利益相關(guān)方的隱私保護(hù)訴求,是保證數(shù)據(jù)質(zhì)量完整性和價(jià)值性的基本保障。一般認(rèn)為,學(xué)生、教育工作者、研究人員、教育機(jī)構(gòu)和政府機(jī)構(gòu)是面向?qū)W習(xí)分析過程的利益相關(guān)方[15]。實(shí)際中,利益相關(guān)方可能因目標(biāo)需求不同而出現(xiàn)矛盾、沖突。在教育大數(shù)據(jù)的應(yīng)用過程中,圍繞數(shù)據(jù)循環(huán)周期,主要參與的利益相關(guān)方可被分為數(shù)據(jù)主體/數(shù)據(jù)提供者、數(shù)據(jù)擁有者、數(shù)據(jù)處理者和數(shù)據(jù)應(yīng)用者/決策者。
數(shù)據(jù)主體/數(shù)據(jù)提供者指被采集和分析數(shù)據(jù)的個(gè)體(存在潛在的敏感信息)。在教育領(lǐng)域中,學(xué)習(xí)者是主要的數(shù)據(jù)主體,而家長、教師和學(xué)校的敏感信息也應(yīng)受到關(guān)注和保護(hù),他們的數(shù)據(jù)一旦被濫用,則難以保證其敏感數(shù)據(jù)的隱私性,因此,數(shù)據(jù)主體/數(shù)據(jù)提供者主要關(guān)注所提供數(shù)據(jù)的敏感程度。
數(shù)據(jù)擁有者是與數(shù)據(jù)采集和存儲相關(guān)的利益主體,包括政府、學(xué)校和相關(guān)的教育機(jī)構(gòu),其有責(zé)任確保學(xué)生數(shù)據(jù)的隱私性。如果直接公布采集到的原始數(shù)據(jù)或在數(shù)據(jù)挖掘之前不采取足夠的隱私預(yù)防措施,學(xué)習(xí)者的敏感信息可能會被披露,因此,有必要對采集到的原始數(shù)據(jù)信息進(jìn)行修改轉(zhuǎn)換等隱私保護(hù)操作,防止其被惡意推斷和修改。
數(shù)據(jù)處理者是有權(quán)訪問學(xué)習(xí)者數(shù)據(jù)的系統(tǒng)設(shè)計(jì)人員、分析人員,也包括教育數(shù)據(jù)的管理人員。數(shù)據(jù)處理的目的是向數(shù)據(jù)應(yīng)用人員提供有用的信息,需要采用強(qiáng)大的隱私保護(hù)挖掘和隱私保護(hù)學(xué)習(xí)分析算法來提取學(xué)習(xí)者的敏感信息,防止學(xué)習(xí)者敏感信息未經(jīng)批準(zhǔn)而被使用產(chǎn)生的披露行為,同時(shí)保留原始數(shù)據(jù)的客觀性。
數(shù)據(jù)應(yīng)用者/決策者包括教育管理人員、教師等所有有權(quán)使用數(shù)據(jù)的人員。
在教育領(lǐng)域中,學(xué)習(xí)者是整個(gè)教育系統(tǒng)中個(gè)人數(shù)據(jù)產(chǎn)生的主體和源頭,如果個(gè)人缺乏對數(shù)據(jù)進(jìn)行直接控制的意識,會導(dǎo)致數(shù)據(jù)過度濫用的潛在危險(xiǎn)。教師、相關(guān)教育機(jī)構(gòu)等其他面向教育大數(shù)據(jù)應(yīng)用過程的利益相關(guān)方兼具數(shù)據(jù)擁有者、數(shù)據(jù)處理者、數(shù)據(jù)應(yīng)用者/決策者多個(gè)角色。因此,對于隱私保護(hù)措施的制定來說,應(yīng)考慮各個(gè)角色的隱私保護(hù)訴求,同時(shí)權(quán)衡各方的利益沖突,以實(shí)現(xiàn)教育大數(shù)據(jù)效用最大化。
(1)教育數(shù)據(jù)采集階段
數(shù)據(jù)采集是控制師生敏感信息泄露的源頭。課堂、校園等線下學(xué)習(xí)環(huán)境仍然是師生數(shù)據(jù)采集的主要場景,從結(jié)構(gòu)化學(xué)習(xí)環(huán)境(如智能導(dǎo)師系統(tǒng))到越來越開放式的在線學(xué)習(xí)平臺(如慕課網(wǎng)站),再到泛在學(xué)習(xí)空間,教育數(shù)據(jù)的采集內(nèi)容和采集方式更加多樣、實(shí)時(shí)和全面,教育數(shù)據(jù)多源異構(gòu),非結(jié)構(gòu)化的教育數(shù)據(jù)越來越占據(jù)主導(dǎo)地位。從隱私安全的角度來看,可靠的數(shù)據(jù)源是數(shù)據(jù)采集的關(guān)鍵。因此,數(shù)據(jù)采集必須加強(qiáng)數(shù)據(jù)主體的隱私匿名意識,數(shù)據(jù)主體在合法受用教育信息化便利的同時(shí),也要防止他人非法訪問和竊取自己的敏感信息,確保數(shù)據(jù)隱私安全。
(2)教育數(shù)據(jù)存儲階段
數(shù)據(jù)存儲階段的授權(quán)訪問應(yīng)在不識別個(gè)人身份的敏感信息的前提下進(jìn)行,并保證數(shù)據(jù)不被泄露和篡改。數(shù)據(jù)擁有者采集到數(shù)據(jù)后,需保證數(shù)據(jù)的完整性和客觀性,利用相關(guān)隱私保護(hù)技術(shù),對敏感數(shù)據(jù)進(jìn)行脫敏、清洗、轉(zhuǎn)換等預(yù)處理。除了高校和教育機(jī)構(gòu)自有的服務(wù)器外,第三方教育云平臺也是數(shù)據(jù)存儲的另一選擇方式。這一階段中,未經(jīng)授權(quán)的數(shù)據(jù)訪問行為和基于數(shù)據(jù)挖掘的攻擊行為是常見的挑戰(zhàn),需采取數(shù)據(jù)加密、訪問控制等必要的隱私保護(hù)手段,并且數(shù)據(jù)擁有者應(yīng)承擔(dān)隱私信息泄露的主要責(zé)任,確保數(shù)據(jù)不被攻擊篡改。
(3)教育數(shù)據(jù)處理階段
數(shù)據(jù)處理階段是教育大數(shù)據(jù)應(yīng)用的中心環(huán)節(jié),目標(biāo)是及時(shí)識別并剔除異常數(shù)據(jù)。在此階段,數(shù)據(jù)挖掘技術(shù)和學(xué)習(xí)分析技術(shù)不僅能對學(xué)習(xí)者的數(shù)據(jù)進(jìn)行分析和處理,而且經(jīng)過分類、預(yù)測、聚合關(guān)聯(lián)規(guī)則等操作,還能預(yù)測學(xué)習(xí)趨勢,生成學(xué)習(xí)行為模型,有效檢測到異常數(shù)據(jù),并及時(shí)剔除。要防止數(shù)據(jù)處理過程中個(gè)人信息被識別和惡意提取敏感信息的行為,必須保證只有獲得授權(quán)的數(shù)據(jù)處理者才可以從數(shù)據(jù)庫中提取信息,將數(shù)據(jù)泄露與篡改的風(fēng)險(xiǎn)降到最低。另外,k-匿名(k-anonymity)、l-多樣化(l-diversity)、t-貼近性(t-closeness)等匿名技術(shù)可隱藏識別數(shù)據(jù)主體的敏感信息,增強(qiáng)教育數(shù)據(jù)的隱私性。
(4)教育數(shù)據(jù)可視化階段
數(shù)據(jù)可視化階段的目的是更好地應(yīng)用數(shù)據(jù)分析的結(jié)果,為數(shù)據(jù)決策者的行為提供科學(xué)依據(jù),以便對學(xué)習(xí)者的行為活動(dòng)進(jìn)行有效干預(yù)和規(guī)劃。如教育機(jī)構(gòu)根據(jù)分析結(jié)果進(jìn)行教學(xué)評價(jià)和決策,構(gòu)建學(xué)生感興趣的學(xué)習(xí)環(huán)境;教師可根據(jù)學(xué)習(xí)者數(shù)據(jù)增強(qiáng)教學(xué)實(shí)踐,實(shí)時(shí)調(diào)整教學(xué)內(nèi)容。但數(shù)據(jù)分析的結(jié)果(如學(xué)習(xí)者的教學(xué)評價(jià)、社交軌跡)可被認(rèn)為是敏感信息,在教育數(shù)據(jù)的實(shí)際使用過程中,不透明的數(shù)據(jù)會導(dǎo)致數(shù)據(jù)濫用和歧視現(xiàn)象,影響學(xué)生身心發(fā)展,敏感數(shù)據(jù)并不會對外公布。差分隱私、安全檢索及訪問控制技術(shù)可保障學(xué)習(xí)資源的開放和共享。
現(xiàn)有的隱私保護(hù)技術(shù)以數(shù)據(jù)的匿名化為主,加密、差分隱私、安全檢索等是常用的關(guān)鍵技術(shù)[16],數(shù)據(jù)生命周期的不同階段涵蓋許多隱私保護(hù)技術(shù),每一種方法都各有優(yōu)缺點(diǎn),見表1。隨著教育數(shù)據(jù)的應(yīng)用場景和結(jié)構(gòu)類型越來越復(fù)雜,隱私保護(hù)技術(shù)的開發(fā)成為新的研究熱點(diǎn)。
數(shù)據(jù)存儲安全技術(shù)主要有數(shù)據(jù)加密和安全多方計(jì)算等,其中,數(shù)據(jù)加密包括靜態(tài)數(shù)據(jù)加密和動(dòng)態(tài)數(shù)據(jù)加密兩種。
靜態(tài)數(shù)據(jù)加密技術(shù)有對稱加密、非對稱加密(公鑰加密)和混合加密3類[17]。對稱加密算法適用于數(shù)據(jù)量小的數(shù)據(jù)加密,其安全性與密鑰長度、算法輪次有關(guān),算法效率高但安全性較低,且不具有可認(rèn)證性和不可抵賴性,現(xiàn)用的算法主要有高級加密標(biāo)準(zhǔn)(advanced encryption standard,AES)、數(shù)據(jù)加密標(biāo)準(zhǔn)(data encryption standard,DES)等。公鑰加密能夠適應(yīng)交互式環(huán)境,其安全性與其所基于的數(shù)學(xué)難題有關(guān),主要算法包括RSA(基于大整數(shù)因子分解問題)、ECC(基于橢圓曲線離散對數(shù)問題)[18]。混合加密是對稱加密和公鑰加密兩種方法的結(jié)合,先快速對數(shù)據(jù)進(jìn)行對稱加密,再進(jìn)行公鑰加密。
動(dòng)態(tài)數(shù)據(jù)加密主要采用同態(tài)加密(homomorphic encryption,HE),關(guān)鍵技術(shù)是全同態(tài)加密(fully-homomorphic encryption,F(xiàn)HE)。同態(tài)加密技術(shù)能夠在加密的環(huán)境下處理數(shù)據(jù),但其計(jì)算復(fù)雜度較高,導(dǎo)致效率較低。目前的全同態(tài)加密技術(shù)主要基于R-LWE問題進(jìn)行研究[19]。
安全多方計(jì)算是指多名參與者共同安全計(jì)算某個(gè)約定函數(shù),每名參與者除了自己的輸入和輸出及可推斷的信息,無法得到任何額外的信息。常用的安全多方計(jì)算協(xié)議有4類:基于健忘傳輸(oblivious transfer,OT)的安全多方計(jì)算協(xié)議、使用可驗(yàn)證秘密分享(verifiable secret sharing,VSS)的安全多方計(jì)算協(xié)議、基于同態(tài)加密的安全多方計(jì)算協(xié)議、基于Mix-Match的安全多方計(jì)算協(xié)議。但這些協(xié)議還需更細(xì)致的研究和應(yīng)用實(shí)現(xiàn)[20]。
表1 基于數(shù)據(jù)生命周期的隱私保護(hù)技術(shù)對比
上述技術(shù)的應(yīng)用場景有教育信息業(yè)務(wù)系統(tǒng)數(shù)據(jù)管理、教育信息系統(tǒng)文件安全保障,以及交互式環(huán)境下的共享安全[21]。
數(shù)據(jù)匿名化是數(shù)據(jù)處理的關(guān)鍵安全技術(shù),主要用于數(shù)據(jù)脫敏。
經(jīng)典的數(shù)據(jù)匿名化技術(shù)[22]有:k-匿名、l-多樣化、t-貼近性。k-匿名模型在發(fā)布關(guān)系型數(shù)據(jù)時(shí),要求每一個(gè)泛化后等價(jià)類最少包含k條相互難分辨的數(shù)據(jù),它未對等價(jià)類中的敏感屬性進(jìn)行約束,可被兩種手段攻擊(同質(zhì)攻擊和背景知識攻擊);l-多樣化在對關(guān)系型數(shù)據(jù)進(jìn)行匿名處理時(shí),會確保每個(gè)等價(jià)類至少包含l個(gè)不同的敏感數(shù)據(jù)值,這可以防止同質(zhì)攻擊,但忽視了敏感屬性的全局分布,可能遭受類群攻擊;t-貼近性模型要求所有等價(jià)類中敏感數(shù)據(jù)值的分布與該屬性的全局分布保持一致,t-貼近性通過敏感屬性計(jì)算得出,該方法可以保證數(shù)據(jù)的公開,但是不能保證每次數(shù)據(jù)的合理分布,算法時(shí)間復(fù)雜度高,不適用于高實(shí)時(shí)性場景,且對數(shù)據(jù)價(jià)值有一定的破壞。
此外,m-i nva r ia nc e[23]和HD-composition[24]算法彌補(bǔ)了上述方法僅適用于靜態(tài)數(shù)據(jù)的不足,其他數(shù)據(jù)匿名化技術(shù)還有隨機(jī)化技術(shù)[25]、p-敏感匿名等。
教育數(shù)據(jù)內(nèi)含有大量的敏感數(shù)據(jù)和隱私數(shù)據(jù),數(shù)據(jù)匿名化技術(shù)能很好地解決教育數(shù)據(jù)脫敏問題。
教育數(shù)據(jù)的應(yīng)用層面廣泛,主要的安全保障技術(shù)有差分隱私技術(shù)、區(qū)塊鏈(blockchain)技術(shù)、安全檢索技術(shù)、授權(quán)與訪問控制技術(shù)等。
差分隱私技術(shù)是通過隨機(jī)化處理,根據(jù)用戶自行指定的參數(shù)ε在數(shù)據(jù)中加入噪聲,從而決定隱私保護(hù)程度及數(shù)據(jù)失真損失程度的技術(shù)。差分隱私技術(shù)改善了數(shù)據(jù)匿名的不足,不局限于對抗性的背景知識,可保證大部分?jǐn)?shù)據(jù)不會被攻擊者看到,而且公開的信息在理論上是有限的,故而差分隱私技術(shù)比數(shù)據(jù)匿名化技術(shù)更能防止數(shù)據(jù)隱私的泄露。但是在該技術(shù)的實(shí)現(xiàn)過程中,控制隱私保護(hù)與數(shù)據(jù)失真程度的關(guān)鍵參數(shù)ε難以人為控制[25]。
區(qū)塊鏈?zhǔn)且环N將區(qū)塊以鏈的形式聚集在一起的數(shù)據(jù)結(jié)構(gòu),具有去中心化、按時(shí)序記錄數(shù)據(jù)、集體維護(hù)、可編程和安全可信等優(yōu)勢[26]。它能夠防止網(wǎng)絡(luò)竊聽,同時(shí)能夠?qū)崿F(xiàn)匿名交易,而且基于去中心化的特點(diǎn),其對網(wǎng)絡(luò)攻擊有較好的應(yīng)對。但是區(qū)塊鏈也面臨許多安全威脅,如其節(jié)點(diǎn)容易遭受攻擊,同時(shí)由于其具有關(guān)聯(lián)性,在算力足夠大的情況下,其安全性難以保障[27]。盡管有所不足,但是區(qū)塊鏈在教育中的應(yīng)用范圍仍很廣泛,如在線學(xué)習(xí)系統(tǒng)中,利用區(qū)塊鏈可以對學(xué)習(xí)記錄進(jìn)行分布式存儲,提供具有可信性高、計(jì)算成本低的學(xué)習(xí)證書系統(tǒng),或者進(jìn)行去中心化知識庫的搭建等[28]。
近年來,安全檢索技術(shù)聚焦于探索密文檢索技術(shù),以實(shí)現(xiàn)在密文數(shù)據(jù)上的直接檢索操作。密文檢索技術(shù)可被分成對稱密文檢索和非對稱密文檢索。對稱密文檢索技術(shù)中只有數(shù)據(jù)擁有者擁有密鑰,并提交敏感數(shù)據(jù),故而數(shù)據(jù)擁有者就是數(shù)據(jù)檢索者,這使得該技術(shù)更適用于單用戶的情形,具有安全性高、加密、搜索運(yùn)算效率高的特點(diǎn)。具體的實(shí)例有基于全文掃描的方法、基于文檔-關(guān)鍵詞索引的方法、基于關(guān)鍵詞-文檔索引的方法等[28]。而非對稱密文檢索主要采取非對稱密文關(guān)鍵詞檢索(public key encryption with keyword search,PEKS)方案,任何可以獲得數(shù)據(jù)檢索者公鑰的用戶都可以提交敏感數(shù)據(jù),但是只有擁有數(shù)據(jù)檢索者私鑰的用戶才可以生成陷門,因此更適用于多用戶的情形,算法功能強(qiáng),但與哈希函數(shù)和分組密碼運(yùn)算相比,效率較低。經(jīng)典實(shí)例有BDOPPEKS方案[29]、KR-PEKS方案[30]、DSPEKS方案等。在教育應(yīng)用方面,該技術(shù)主要用于教育信息系統(tǒng)文件安全保障。
授權(quán)與訪問控制技術(shù)各有優(yōu)劣?;趯傩缘氖跈?quán)與訪問控制能夠?qū)崿F(xiàn)細(xì)粒度的授權(quán)與訪問控制,但以非常細(xì)的粒度為每個(gè)用戶定義授權(quán)規(guī)則是困難和煩瑣的,且難以同時(shí)保證系統(tǒng)的訪問效率和可用性?;诮巧氖跈?quán)與訪問控制具有較高的集成效率,但是安全管理員一般不具有足夠豐富的多領(lǐng)域知識來精確定義和授權(quán)管理角色。密碼訪問控制可分為基于密鑰管理的訪問控制和基于屬性加密的訪問控制,而該技術(shù)目前的主要問題是不同用戶的密鑰分發(fā)與管理問題。自主訪問控制在大數(shù)據(jù)背景下也面臨權(quán)限管理復(fù)雜的挑戰(zhàn),相關(guān)訪問控制模型的選擇與構(gòu)建亦應(yīng)聯(lián)系實(shí)際場景,而在教育領(lǐng)域的應(yīng)用則主要是保障在線學(xué)習(xí)和在線考試系統(tǒng)的數(shù)據(jù)安全隱私。
教育大數(shù)據(jù)的創(chuàng)新應(yīng)用推動(dòng)著教學(xué)模式、教學(xué)評價(jià)和教學(xué)管理等的全方位變革。然而,在教育領(lǐng)域的開發(fā)利用過程中,教育大數(shù)據(jù)的隱私保護(hù)策略尚處于探索階段。當(dāng)前,教育大數(shù)據(jù)的發(fā)展應(yīng)用仍面臨隱私保護(hù)機(jī)制不完善、數(shù)據(jù)開放共享機(jī)制未形成、大數(shù)據(jù)安全技術(shù)和平臺發(fā)展支撐技術(shù)待突破等挑戰(zhàn)。
圍繞隱私保護(hù)機(jī)制問題,當(dāng)前僅僅基于整個(gè)數(shù)據(jù)生命周期的隱私安全引入,或根據(jù)不同利益角色的保護(hù)訴求展開。相較于傳統(tǒng)的教育數(shù)據(jù),教育大數(shù)據(jù)覆蓋的時(shí)間跨度更廣、匯聚的結(jié)構(gòu)類型更雜、涉及的教育主體更多,原有的單一保護(hù)機(jī)制已無法滿足教育大數(shù)據(jù)的動(dòng)態(tài)性需求。因此,本文基于教育大數(shù)據(jù)的生命循環(huán),平衡利益相關(guān)方的價(jià)值沖突,增加了教育大數(shù)據(jù)應(yīng)用的合規(guī)性、透明性和可靠性。
針對隱私保護(hù)技術(shù)問題,由于教育數(shù)據(jù)的應(yīng)用場景更紛繁復(fù)雜,教育信息系統(tǒng)對數(shù)據(jù)的隱私性要求更嚴(yán)格,大數(shù)據(jù)隱私保護(hù)技術(shù)雖已有一定的發(fā)展,但解決教育數(shù)據(jù)安全與隱私問題的研究較為零散,針對性不強(qiáng)。本文根據(jù)不同教育應(yīng)用場景的安全需求,使用相應(yīng)的隱私保護(hù)技術(shù),降低了教育數(shù)據(jù)應(yīng)用過程中的風(fēng)險(xiǎn),從而保障了教育數(shù)據(jù)質(zhì)量的完整性、安全性和私密性。
總體來說,針對教育大數(shù)據(jù)的多源異構(gòu)特征和數(shù)據(jù)應(yīng)用服務(wù)的隱私倫理問題,為加強(qiáng)學(xué)習(xí)者的隱私安全,仍需從以下方面推進(jìn)教育大數(shù)據(jù)的有效應(yīng)用。首先,完善法律法規(guī),從法律上界定、規(guī)范公開數(shù)據(jù)與私有數(shù)據(jù)的邊界,落實(shí)教育數(shù)據(jù)使用主體的責(zé)任和權(quán)利歸屬,構(gòu)建面向教育大數(shù)據(jù)研究應(yīng)用的倫理準(zhǔn)則,從而為各項(xiàng)數(shù)據(jù)業(yè)務(wù)提供依據(jù),以推進(jìn)所有利益相關(guān)方的道德自律;第二,加強(qiáng)技術(shù)攻關(guān),通過對用戶隱私信息的隱藏或混淆,構(gòu)建有效的教育數(shù)據(jù)隱私保護(hù)技術(shù)體系和平臺,以降低數(shù)據(jù)精確性和數(shù)據(jù)披露風(fēng)險(xiǎn),在確保用戶隱私信息不可還原和追蹤的前提下,滿足教育數(shù)據(jù)研究和應(yīng)用的要求;第三,制定標(biāo)準(zhǔn)規(guī)范,圍繞教育大數(shù)據(jù)采集、分析、應(yīng)用過程,分層、分類進(jìn)行規(guī)范的頂層設(shè)計(jì),秉承相關(guān)性、唯一性、清晰性、有效性和易用性等原則[31],規(guī)范教育數(shù)據(jù)的應(yīng)用流程;最后,提升利益相關(guān)方、數(shù)據(jù)主體等人的數(shù)據(jù)素養(yǎng),通過加大相關(guān)宣傳力度,強(qiáng)化利益相關(guān)方的隱私保護(hù)意識與專業(yè)知識,提高各責(zé)任主體對數(shù)據(jù)安全的敏感性,增強(qiáng)其辨識能力,以保障數(shù)據(jù)主體的權(quán)利。