文/方丹丹 王海濤 李穎 張燁青
對外經(jīng)濟貿(mào)易大學用大數(shù)據(jù)描繪“教師畫像”
文/方丹丹 王海濤 李穎 張燁青
隨著互聯(lián)網(wǎng)和大數(shù)據(jù)技術的發(fā)展,人們可以通過網(wǎng)絡獲取到用戶的海量數(shù)據(jù),通過對海量數(shù)據(jù)進行多維度的數(shù)據(jù)分析,能夠?qū)崿F(xiàn)精準快速地分析用戶的特征和行為習慣。用戶畫像(User Profile)的概念應運而生,它完美地抽象出一個用戶的信息全貌。用戶畫像應用到學校的信息化環(huán)境中,催生出了“教師畫像”的概念?!敖處煯嬒瘛笔峭ㄟ^對學校信息化系統(tǒng)和校園網(wǎng)數(shù)據(jù)分析教師的數(shù)據(jù)信息,將教師“數(shù)據(jù)化”,本研究中的“教師畫像”均基于此概念。
職業(yè)發(fā)展是個人在自我認知的基礎上,對決定個人職業(yè)發(fā)展的主客觀因素進行分析,并結合個人發(fā)展和組織發(fā)展的雙重需要,確定職業(yè)發(fā)展目標、規(guī)劃職業(yè)發(fā)展的各個方面,根據(jù)目標的實現(xiàn)程度,不斷反饋和調(diào)整,最終實現(xiàn)既定目標的過程。合理的職業(yè)發(fā)展規(guī)劃對教師的發(fā)展尤其重要,其職業(yè)發(fā)展發(fā)展如何,決定了教師的生命質(zhì)量和教育質(zhì)量。“教師畫像”通過分析挖掘教師個人信息中的知識與規(guī)律,創(chuàng)新研究教師職業(yè)發(fā)展的路徑,教師在自我認知的數(shù)據(jù)分析基礎之上,制定個人的職業(yè)發(fā)展規(guī)劃。
特征工程是機器學習領域的一個重要概念,目前并沒有普遍接受的定義,一般可以認為是為機器學習應用而設計特征集的相關工作。在機器學習領域,特征是用于預測的一種獨立的、可描述的、可測量的屬性,在結構化的數(shù)據(jù)表中,數(shù)據(jù)由不同的變量或者屬性構成,這里的屬性其實就是特征,但與屬性一詞不同的是,特征是對于分析解決問題有用的、有價值的、有意義的屬性。選擇合理的、全面的、信息量足夠大的、有差別性的特征是機器學習的關鍵步驟。
特征工程的本質(zhì)是一項工程活動,其目的是用目標問題所在的特定領域知識或者自動化的方法從原始數(shù)據(jù)中提取或生成特征,以供機器學習所使用。
構建教師畫像的核心工作是為教師打標簽,打標簽的目的是為了用數(shù)據(jù)描述人物,方便人們理解,并且能夠讓計算機進行處理。標簽可以看做特征的一種表現(xiàn)方式,因此,教師畫像比其他的機器學習更加依賴特征工程,利用特征工程來提取教師這些“標簽化”的特征。在提取“標簽化”特征的過程中,模型和算法的選擇非常重要,合適的模型和算法更能夠逼近真實的特征。
教師畫像的特征提取和預處理
1.數(shù)據(jù)采集
本研究的原始數(shù)據(jù)提取主要來自業(yè)務數(shù)據(jù)、用戶日志數(shù)據(jù)、網(wǎng)頁公開數(shù)據(jù)爬取等方式。來自學校業(yè)務系統(tǒng)的數(shù)據(jù)一般都是存在MySQL、Oracle、SQlserver等數(shù)據(jù)庫中,比如教師的基本屬性、專業(yè)技能、獎勵榮譽、培訓進修等數(shù)據(jù)來自學校人力資源管理系統(tǒng),科研成果來自科研管理系統(tǒng),教學成果來自教務管理系統(tǒng);上網(wǎng)行為來自校內(nèi)網(wǎng)絡日志數(shù)據(jù),記錄用戶的瀏覽搜索等行為;消費數(shù)據(jù)、閱讀偏好數(shù)據(jù)來自對主流互聯(lián)網(wǎng)平臺的公開數(shù)據(jù)的爬取。
2. 數(shù)據(jù)清洗
數(shù)據(jù)清洗主要解決原始數(shù)據(jù)的異常數(shù)據(jù)、重復數(shù)據(jù)、缺失數(shù)據(jù)和不規(guī)范數(shù)據(jù)。
(1)數(shù)據(jù)類型檢查
原始數(shù)據(jù)里的數(shù)據(jù)類型可能有很多不一致的,比如出生日期,有的是字符串類型,有的是日期類型,需要轉換成同一類型或者從身份證號里截取。比如年齡,有的是數(shù)值類型,有的是字符串類型,可以根據(jù)身份證號來計算,并設置成同一類型。
圖1 數(shù)據(jù)采集和預處理流程
(2)缺失值處理
原始數(shù)據(jù)存在大量缺失值,有很多重要屬性數(shù)據(jù)的缺失,改變了原始數(shù)據(jù)的真實有效性,對數(shù)據(jù)模型的效果存在很大的影響,因此,需要對缺失值進行處理,本研究采用了人工干預的方法和機器學習的插補方法,人工干預主要應用在業(yè)務系統(tǒng)數(shù)據(jù)上,教師的基本屬性、科研成果、教學成果、獎勵榮譽等信息存在缺失值時,進行人工補錄;機器學習的插補方法主要應用在無法進行人工補錄的業(yè)務系統(tǒng)數(shù)據(jù)、用戶日志數(shù)據(jù)和網(wǎng)頁公開爬取的數(shù)據(jù)上,插補方法多數(shù)采用均值插補或多重插補。
(3)異常值分析過濾
異常值分析過濾是分析檢查原始數(shù)據(jù)中是否有錯誤數(shù)據(jù)或者不合理數(shù)據(jù),如果有,需要對這些數(shù)據(jù)進行處理,不重要的屬性可以刪除,重要的屬性要進行修改。常見的異常值分析過濾的方法有簡單統(tǒng)計量分析法,設定數(shù)據(jù)值的范圍,如果超過了最大值和最小值的范圍,即判定為異常值,例如在職教師的年齡,設定最大值為65,最小值為20,超過這一數(shù)值范圍的即判定為異常,篩選出來后進行相應的處理。
還有一種異常值分析過濾方法為正態(tài)分布3σ原則,正態(tài)分布又名高斯分布,曲線以x=μ為對稱軸,σ代表標準差,μ代表均值,3σ原則為:數(shù)值分布在(μ-σ,μ+σ)中的概率為0.6826,數(shù)值分布在(μ-2σ,μ+2σ)中的概率為0.9544,數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9974,分布在(μ-3σ,μ+3σ)區(qū)間外的取值概率不到0.3%??梢哉J為凡分布在(μ-3σ,μ+3σ)區(qū)間外的數(shù)值,就屬于異常值,應予以剔除。該方法僅局限于對正態(tài)或近似正態(tài)分布的樣本數(shù)據(jù)處理。
(4) 特殊字符處理
原始數(shù)據(jù)的某些字段中包含空格、換行符、制表符等特殊字符,這些特殊字符會影響到數(shù)據(jù)統(tǒng)計分析,因此有必要清洗掉這些字符。
3. 數(shù)據(jù)預處理
數(shù)據(jù)預處理是對原始數(shù)據(jù)里面的臟數(shù)據(jù)進行處理,這些臟數(shù)據(jù)會極大地影響最后模型的效果,所以數(shù)據(jù)預處理是非常重要的一個步驟。數(shù)據(jù)預處理包括數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。
教師畫像特征選擇
標簽是特征空間中的維度,是特征的一種呈現(xiàn)方式,因此,我們利用特征工程來提取這些“標簽化”的特征。
特征分為直接特征和間接特征,直接特征是一些顯而易見的,能夠直接從信息系統(tǒng)獲取到,比如教師的性別、年齡、民族、政治面貌、籍貫、學歷、學位、研究方向、科研成果等。而間接特征是從直接特征或者各種數(shù)據(jù)組合里計算推導出來的,可能需要復雜的模型計算,比如閱讀偏好、科研偏好、消費偏好、運動偏好等。
以閱讀偏好特征的生成為例,根據(jù)圖書分類可將閱讀偏好類型分為經(jīng)濟類、文化類、藝術類、語言文學類、歷史地理類、科學類、教育類、工業(yè)技術類等,值處理為1、2、3、4、5、6、7、8,樣本數(shù)據(jù)選擇性別、年齡、研究方向、講授課程、研究成果、借閱圖書類別、購買圖書類別等7個內(nèi)容,每個樣本用一個多維向量來描述,x=[x1,x2,x3,x4,x5,x6,x7],其中x1=性別,x2=年齡,x3=研究方向,x4=講授課程,x5=研究成果,x6=借閱圖書類別,x7=購買圖書類別。采樣足夠多的樣本數(shù)據(jù)構造訓練集,樣本數(shù)據(jù)集規(guī)模要足夠大,一般情況下,數(shù)據(jù)集規(guī)摸越大,機器學習的效果越好, 通過監(jiān)督式學習(Supervised learning)對訓練集進行學習,學習出“閱讀偏好”的相關變量,得出閱讀偏好特征,并把該特征作為標簽輸出。
教師畫像特征構建
教師畫像的特征構建需要對實際樣本數(shù)據(jù)進行處理,思考數(shù)據(jù)的結構,并需要依靠知識經(jīng)驗,以教師職業(yè)發(fā)展規(guī)劃為目標,結合教師的個人特征、職業(yè)特征和社會特征來構建,一般包括教師的基本屬性、專業(yè)技能、科研成果、獎勵榮譽、培訓進修、性格特征、興趣愛好、行為偏好等幾個方面,本研究中特征構建以標簽的形式展現(xiàn)。
標簽是人為規(guī)定的高度精煉的特征標識,呈現(xiàn)出兩個重要特征:語義化,人們能夠很方便地理解每個標簽的含義,這也使得教師畫像模型具備實際意義;短文本,每個標簽通常只是表示一種含義,標簽本身無需再做過多文本分析等預處理工作,這為利用機器提取標準化信息提供了便利。以這兩個特征為依據(jù),歸納出上表中的教師畫像標簽。
模型與算法
不同的特征需要選擇不同的機器學習算法,選擇模型和算法的因素包括訓練集的大小、問題是否線性可分、特征維度大小、特征獨立性等,本研究的特征工程多采用樸素貝葉斯(Naive Bayes, NB)或Logistic回歸(Logistic Regression, LR)模型,如果條件獨立假設成立的話,樸素貝葉斯模型比Logistic回歸模型收斂的更快,只需要少量的訓練數(shù)據(jù)即可得到有效的結果,即使條件獨立假設不成立,NB在實際中仍然表現(xiàn)出驚人的好處。比起NB的條件獨立性假設,LR不需要考慮樣本是否是相關的,LR有很多方法來對模型正則化。
變量之間很多情況下存在非線性關系,采用線性模型可能會帶來結果的偏差,因此可選擇人工神經(jīng)網(wǎng)絡或者決策樹來完成非線性的模型設計,采樣足夠多的樣本數(shù)據(jù)作為訓練數(shù)據(jù),建立神經(jīng)網(wǎng)絡模型,結合樣本的變量,對神經(jīng)網(wǎng)絡模型進行有監(jiān)督的訓練,直到模型的損失函數(shù)值達到規(guī)定的閾值或者損失函數(shù)的值不再變化,表示該模型訓練完成。
嘗試多種分類器,根據(jù)交叉驗證的結果來挑選性能最好的算法,并為模型和算法設置評價標準,不斷調(diào)整模型的各種參數(shù),最后根據(jù)評價標準訓練出最優(yōu)模型。
教師在進行職業(yè)發(fā)展規(guī)劃時,最重要的前提就是了解自己,而教師畫像就是一個很好的工具,能夠讓教師很客觀地了解自己。它用抽象的數(shù)據(jù)來描述人物,通過分析挖掘用戶盡可能多的數(shù)據(jù)信息得到的一個虛擬的人物形象,以此來代表個人的背景、需求、喜好等。教師畫像在教師職業(yè)發(fā)展規(guī)劃中的具體作用如圖2所示。
自我認知
明晰準確的自我認知是個人制訂職業(yè)發(fā)展規(guī)劃的前提和關鍵,只有認真分析自己的實際情況,充分認識和了解自己,才能對自己的職業(yè)方向做出正確的選擇,制訂出適合自己的職業(yè)發(fā)展之路。教師的自我認知包括對自己的性格特征、興趣愛好、專業(yè)技能水平、科研成果、教學成果、獲獎與榮譽、個人需求等各方面的認識和了解,傳統(tǒng)的自我認知建立在自己感知的基礎上,是感性的認知,不是量化的,而教師畫像可以將“人”數(shù)據(jù)化,通過標簽的方式來描述,標簽是某一種特征的符號,如“男”、“45歲”、“黨員”、“院長”、“博士生導師”等都是典型的教師畫像標簽。當然,這種基本屬性類的標簽是能夠被個人很容易感知和記憶的,似乎對自我認知并沒有多大幫助,但打標簽的重要目的是讓人容易理解并且方便計算機進行處理,比如分類統(tǒng)計:全校博士生導師有多少?45歲以下的博士生導師有多少?這些數(shù)據(jù)建立了多維度的自我認知。此外,用戶偏好類的標簽是通過數(shù)據(jù)挖掘得到的,例如“喜歡閱讀經(jīng)濟類書籍”、“學生評價和藹可親”等這些數(shù)據(jù)并不能夠被感知,必須以具體的數(shù)據(jù)來描述,以支撐教師進一步認識自己。
以教師畫像為基礎,構建教師個人信息中心,全面地展示與教師相關的各類信息,如基本信息、學習工作經(jīng)歷、教學信息、科研成果、個人資產(chǎn)、工資信息、消費信息等。教師可以隨時查看到個人的實時信息,了解自己,輔助決策,以期進行正確的職業(yè)方向選擇。
圍繞個人信息中心構建自助表格系統(tǒng),根據(jù)教師的身份(ID),從標簽數(shù)據(jù)庫中獲取相應信息,自動填充到表格中,大大減輕了高校各項申報、填表的重復工作,也保證了數(shù)據(jù)的一致性、真實性和實時性,是為教師減輕行政工作負擔的有效工具之一。
個性化推薦
教師畫像的標簽化的描述方法為個性化推薦提供了可能,標簽是個性化推薦的基礎,因為標簽是描述教師特征的數(shù)據(jù)符號,而只有了解用戶特征才能實現(xiàn)個性化推薦。此外,運用機器學習模型對教師進行相關性分析,并根據(jù)相關性特征進行相應的推薦。
以教師畫像的標簽為基礎,圍繞教師職業(yè)發(fā)展相關特性,構建精準推薦系統(tǒng),實現(xiàn)教學、科研、圖書、進修培訓等個性化推薦,并結合移動終端,實現(xiàn)移動化推送。
教學的推送,包括任課課程的時間、地點、學生人數(shù)、學生院系分布、學生成績分布、特殊學生提示、學生預警詳情、教學評價指標、教學評價結果;相關推薦包括平行課程推薦、課程資料推薦、相關課程推薦、相關科研成果推薦。圍繞教學內(nèi)容,實行全方位的推送,為教師教學提供更精準的教學數(shù)據(jù)服務。
科研的推送包括個人科研成果的及時推送、院系科研成果數(shù)據(jù)匯總、學??蒲谐晒麛?shù)據(jù)匯總,智能推薦以教師的研究方向、教學內(nèi)容、科研成果關鍵字、圖書閱讀偏好關鍵字為特征,分析出科研偏好,進而推薦科研成果、科研項目團隊、科研資料、相關圖書、相關課程等,以期最大化地提升科研環(huán)境,立足服務于教師科研工作。
圖書推送包括應還圖書、逾期圖書、進館人數(shù)、個人借閱年度統(tǒng)計、館藏慨況、近期熱門圖書、新書推薦、周圍的人在看、只有男生讀的書、只有女生讀的書等。
目標預測
分析和預測是大數(shù)據(jù)挖掘的重要方向,基于教師畫像的數(shù)據(jù)挖掘主要是以標簽為基礎,挖掘和發(fā)現(xiàn)教師發(fā)展過程中的知識和規(guī)律,對特定目標進行預測,例如:職稱評定預測、崗位評定預測、考核評價預測等。
階段性成果報告
以教師畫像的標簽為基礎,可形成教師的階段性成果報告,在教師職業(yè)規(guī)劃的過程中,最后一個環(huán)節(jié)就是根據(jù)目標的實現(xiàn)程度,不斷反饋和調(diào)整,最終實現(xiàn)既定目標。報告對教師各方面的數(shù)據(jù)進行總結和分析,隨時生成的報告可以讓教師隨時了解和掌握目標實現(xiàn)的情況,對于產(chǎn)生的偏差進行不斷修正和調(diào)整。
隨著大數(shù)據(jù)技術的蓬勃發(fā)展,特征工程技術在用戶畫像、推薦系統(tǒng)等領域被廣泛應用,本文把特征工程理論和技術引入到教師職業(yè)發(fā)展領域,以技術為支撐,為教師職業(yè)發(fā)展規(guī)劃提供新方法和新思路,但在具體的應用過程中,數(shù)據(jù)的完整收集、數(shù)據(jù)質(zhì)量的保證是非常關鍵的因素,也是必須要解決的難點,需結合各學校的具體情況,采取機制建設、業(yè)務推動等多方面的手段,整合高校數(shù)據(jù)資源,并利用大數(shù)據(jù)技術,為教師職業(yè)發(fā)展提供數(shù)據(jù)支撐,是一個漫長的探索和實踐過程,也是管理與技術高度結合的產(chǎn)物。
圖2 教師畫像的作用
(責編:楊燕婷)
(作者單位為對外經(jīng)濟貿(mào)易大學信息化管理處)