黃宇彤
(上海海關(guān)學(xué)院 海關(guān)法律系, 上海 201204)
大數(shù)據(jù)、云計(jì)算的出現(xiàn)引領(lǐng)人工智能進(jìn)入了一個(gè)突飛猛進(jìn)的發(fā)展階段,人工智能正在無線通信、氣象監(jiān)測、教育、醫(yī)療、金融和社會(huì)決策等領(lǐng)域加速滲透[1]。在高等教育領(lǐng)域,學(xué)校里存在大量的日常重復(fù)性教學(xué)與管理任務(wù),人工智能可以幫助自動(dòng)化處理這些任務(wù)。當(dāng)前,對(duì)人工智能在重塑高等教育生態(tài)、促進(jìn)師生互動(dòng)和個(gè)性化學(xué)習(xí)體驗(yàn)、簡化管理流程、推動(dòng)高等教育智能化發(fā)展等方面的作用和前景的研究比較豐富,但是大多在理論層面進(jìn)行探討,缺少在具體教育教學(xué)場景中解決實(shí)際問題的人工智能系統(tǒng)建設(shè)方案。遠(yuǎn)程教育已成為高等教育的熱點(diǎn)研究方向,然而在此方面的人工智能應(yīng)用文獻(xiàn)乏善可陳。
20世紀(jì)70年代中期,人工智能進(jìn)入“知識(shí)期”,人們將大量邏輯與知識(shí)通過編程寫入計(jì)算機(jī)中,這種實(shí)現(xiàn)人工智能的方式被稱為專家系統(tǒng)。隨著應(yīng)用場景越來越復(fù)雜,人們發(fā)現(xiàn)專家系統(tǒng)面臨“知識(shí)工程瓶頸”,隨即產(chǎn)生了基于歷史數(shù)據(jù)推斷結(jié)果的機(jī)器學(xué)習(xí),即計(jì)算機(jī)從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律進(jìn)行推斷和決策,這是當(dāng)前人工智能的主要研究方向[2]。本文將從專家系統(tǒng)和機(jī)器學(xué)習(xí)這2個(gè)方向?qū)θ斯ぶ悄茉诟叩冉逃械膱鼍皯?yīng)用進(jìn)行技術(shù)分析。
用戶畫像是指根據(jù)用戶的屬性、用戶偏好、生活習(xí)慣、用戶行為等信息而抽象出來的標(biāo)簽化用戶模型。標(biāo)簽是通過對(duì)用戶信息分析而來的高度精煉的特征標(biāo)識(shí),并且可以方便計(jì)算機(jī)處理。用戶畫像目前最典型的應(yīng)用場景是精準(zhǔn)營銷,即根據(jù)用戶的歷史消費(fèi)數(shù)據(jù)將用戶標(biāo)簽化,分析此標(biāo)簽用戶群的主要需求、潛在需求等,進(jìn)而精準(zhǔn)推薦產(chǎn)品和服務(wù)。受此啟發(fā),本文將學(xué)生用戶畫像應(yīng)用在高等教育中實(shí)現(xiàn)精準(zhǔn)教學(xué)。用戶畫像的形成可以通過專家系統(tǒng)的內(nèi)置算法或機(jī)器學(xué)習(xí)的分類算法來實(shí)現(xiàn)。機(jī)器學(xué)習(xí)內(nèi)部邏輯是通過訓(xùn)練數(shù)據(jù)形成的,屬于黑盒系統(tǒng),輸入和輸出之間的邏輯關(guān)系可解釋性相對(duì)較差。而專家系統(tǒng)中內(nèi)置了解釋器,用于解釋推理過程。在本文場景中,由于數(shù)據(jù)采集渠道的局限性,可能對(duì)最終用戶畫像產(chǎn)生影響,進(jìn)而影響最終預(yù)測判斷。在此局限性下,一旦預(yù)測有偏差,學(xué)生需要看到基于用戶畫像的推理路徑,所以專家系統(tǒng)是更好的選擇。
專家系統(tǒng)按照應(yīng)用方向的分類有很多種,在本文的教育場景應(yīng)用中主要采用以下3種:1)預(yù)測專家系統(tǒng):通過對(duì)過去和現(xiàn)在的已知狀況分析預(yù)測未來的結(jié)果,本文基于此設(shè)計(jì)了就業(yè)輔導(dǎo)網(wǎng)站;2)規(guī)劃專家系統(tǒng):尋找出某個(gè)能夠達(dá)到給定目標(biāo)的動(dòng)作序列或?qū)ふ也襟E,本文基于此設(shè)計(jì)了選課網(wǎng)站;3)監(jiān)控專家系統(tǒng):對(duì)系統(tǒng)、對(duì)象或過程進(jìn)行不斷觀察,并把觀察到的行為與其應(yīng)當(dāng)有的行為進(jìn)行比較,以發(fā)現(xiàn)異常情況并作出警報(bào)。本文基于此設(shè)計(jì)了教育辦公網(wǎng)。
1.1.1 總體設(shè)計(jì)
學(xué)生用戶畫像是基于學(xué)習(xí)能力、性格和消費(fèi)習(xí)慣等方向上的多維向量。本文采用考試成績、平時(shí)成績、文體活動(dòng)和消費(fèi)數(shù)據(jù)等勾勒形成學(xué)生用戶畫像。
專家系統(tǒng)會(huì)通過用戶畫像與職業(yè)的映射關(guān)系預(yù)測哪一類職業(yè)更適合學(xué)生。例如大三學(xué)生修完課程后可以通過學(xué)生就業(yè)輔導(dǎo)網(wǎng)站查看職業(yè)預(yù)測,并通過解釋器查看推理過程,所以這是一個(gè)預(yù)測專家系統(tǒng)。并且專家系統(tǒng)會(huì)根據(jù)學(xué)生的目標(biāo)職業(yè)(用戶主動(dòng)選擇或者系統(tǒng)預(yù)測)的用戶畫像與當(dāng)前用戶畫像進(jìn)行比對(duì),規(guī)劃出學(xué)生未來需要在哪些方向做出行動(dòng)。例如法律系學(xué)生想要從事投行工作,可以通過選課網(wǎng)站查詢到未來幾年需要在哪些階段補(bǔ)充哪些課程,所以這也是一個(gè)規(guī)劃專家系統(tǒng)。當(dāng)學(xué)生的用戶畫像發(fā)生突變,尤其是消極方向的突變時(shí),系統(tǒng)會(huì)發(fā)出監(jiān)控預(yù)警到對(duì)應(yīng)輔導(dǎo)教師,并伴隨相關(guān)概要診斷信息,例如是群體異常還是個(gè)體異常,進(jìn)而輔導(dǎo)教師可以登錄教育辦公網(wǎng)查看學(xué)生狀態(tài)異動(dòng)詳情并對(duì)學(xué)生提供幫助,所以這是一個(gè)監(jiān)控專家系統(tǒng)。圖1給出了集預(yù)測、規(guī)劃、監(jiān)控為一體的專家系統(tǒng)總體設(shè)計(jì)。
圖1 預(yù)測規(guī)劃監(jiān)控三合一專家系統(tǒng)總體設(shè)計(jì)Fig.1 Three-in-one expert system for forecasting, monitoring and planning design
1.1.2 具體設(shè)計(jì)
1)各科考試成績?nèi)霂臁?/p>
學(xué)生的各科成績絕對(duì)值、相對(duì)空間位置、各科的偏離度等指標(biāo)是預(yù)測職業(yè)發(fā)展的重要考量因素。各科考試成績也反映已修課程及掌握情況,為規(guī)劃專家系統(tǒng)提供數(shù)據(jù)支持。而考試成績的異常波動(dòng),是監(jiān)控專家系統(tǒng)的主要數(shù)據(jù)來源。
2)各科平時(shí)成績?nèi)霂臁?/p>
平時(shí)成績與考試成績的差異是反映學(xué)生心理素質(zhì)的一個(gè)重要參考,是預(yù)測專家系統(tǒng)的重要指標(biāo)。同時(shí),跟蹤平時(shí)成績可以讓輔導(dǎo)教師對(duì)學(xué)生狀態(tài)變化早發(fā)現(xiàn)、早介入,符合監(jiān)控專家系統(tǒng)的設(shè)計(jì)原則。
3)制定文化體育活動(dòng)量化標(biāo)準(zhǔn),并將考核成績?nèi)霂臁?/p>
藝術(shù)節(jié)、運(yùn)動(dòng)會(huì)等文化體育活動(dòng)是反映學(xué)生性格的參考活動(dòng),是預(yù)測專家系統(tǒng)的重要指標(biāo)。各項(xiàng)文體活動(dòng)需要一套平衡的打分機(jī)制來量化考核學(xué)生的表現(xiàn)。與考試成績不同,文體活動(dòng)中很多團(tuán)體項(xiàng)目。例如某15人學(xué)生合唱團(tuán)中包括主唱、和聲等若干角色,不同角色在分享活動(dòng)打分時(shí)的權(quán)重應(yīng)有區(qū)分度。在此,需要制定一系列規(guī)則真實(shí)反映每個(gè)成員在團(tuán)隊(duì)中的貢獻(xiàn)占比。
4)對(duì)校園內(nèi)消費(fèi)場所進(jìn)行分類,并將消費(fèi)行為入庫。
消費(fèi)習(xí)慣也是考量學(xué)生的重要因素,尤其當(dāng)學(xué)生有意向投身于金融領(lǐng)域,要判斷學(xué)生的投資/消費(fèi)類型屬于激進(jìn)型或穩(wěn)健型等,是預(yù)測專家系統(tǒng)的重要指標(biāo)。校園內(nèi)消費(fèi)可以被定義為基礎(chǔ)類消費(fèi)、改善型消費(fèi)、享樂型消費(fèi)和投資型消費(fèi)等。但是存在數(shù)據(jù)采集局限性的問題:現(xiàn)金消費(fèi)數(shù)據(jù)無法有效采集;在校園內(nèi)消費(fèi)校園外的消費(fèi)數(shù)據(jù)比例偏差大,而對(duì)校園外的消費(fèi)數(shù)據(jù)采集是受限的;代人采購也會(huì)導(dǎo)致數(shù)據(jù)采集失準(zhǔn)。所以這個(gè)特征維度的數(shù)據(jù)僅具有指導(dǎo)意見,并不權(quán)威。同時(shí),解釋器需要對(duì)推理機(jī)推斷出的異常結(jié)論提供解釋。
5)綜合數(shù)據(jù)庫數(shù)據(jù)每日計(jì)算。
每日日終,各科考試數(shù)據(jù)庫、平時(shí)成績數(shù)據(jù)庫、文體活動(dòng)數(shù)據(jù)庫和校園消費(fèi)數(shù)據(jù)庫將數(shù)據(jù)同步到綜合數(shù)據(jù)庫。綜合數(shù)據(jù)庫需要對(duì)同步的數(shù)據(jù)進(jìn)行二次加工,通過一系列聚合拆解操作,最終將用戶畫像數(shù)據(jù)落實(shí)到每個(gè)學(xué)生個(gè)體上。
6)專家知識(shí)錄入。
該環(huán)節(jié)也稱知識(shí)獲取。預(yù)測專家提供各種用戶畫像與職業(yè)發(fā)展預(yù)測的映射,規(guī)劃專家則提供用戶畫像與最終職業(yè)目標(biāo)的補(bǔ)齊路徑,監(jiān)控專家提供用戶畫像變動(dòng)告警的邏輯與閾值。在錄入過程中,首先需要對(duì)具體的知識(shí)做計(jì)算機(jī)抽象,將每個(gè)知識(shí)點(diǎn)抽象成可量化輸入的指標(biāo)與計(jì)算公式。各領(lǐng)域的專家將知識(shí)錄入并沉淀到知識(shí)庫中。
隨著信息化發(fā)展,遠(yuǎn)程教育的受歡迎程度越來越高。特別是2020年突發(fā)新冠疫情,更促進(jìn)了一場全球范圍內(nèi)的信息技術(shù)支撐的教學(xué)方式革命,各高校網(wǎng)課逐漸成為一種主要的授課方式。
知識(shí)付費(fèi)是當(dāng)前互聯(lián)網(wǎng)領(lǐng)域的熱門話題,其本質(zhì)就是把知識(shí)變成產(chǎn)品或服務(wù)以實(shí)現(xiàn)商業(yè)價(jià)值。網(wǎng)課是一種典型的知識(shí)產(chǎn)品,可以通過視頻網(wǎng)站付費(fèi)播放的方式實(shí)現(xiàn)盈利。但是網(wǎng)課的受眾面相比影視劇狹窄,宣傳體系不成熟。用戶在網(wǎng)課視頻網(wǎng)站上付費(fèi)前只能通過宣傳頁看到每一門網(wǎng)課的授課學(xué)校、授課教師、教學(xué)目錄等靜態(tài)信息。而真正重要的信息如教師的表現(xiàn)力、授課節(jié)奏等動(dòng)態(tài)信息很難獲得。一線城市的名校網(wǎng)課認(rèn)可度較高,強(qiáng)者恒強(qiáng)。但是大量其他學(xué)校的優(yōu)秀網(wǎng)課作品由于缺乏有效的獲客手段而被湮沒。如何在大量同質(zhì)化網(wǎng)課產(chǎn)品中使優(yōu)秀的網(wǎng)課脫穎而出,快速獲得用戶認(rèn)可并付費(fèi)購買是亟需解決的問題。
受到近年來抖音、快手等自媒體短視頻網(wǎng)站驟火的啟發(fā),短視頻可以成為網(wǎng)課視頻的營銷手段。具體方式是:從完整網(wǎng)課視頻中截取1 min以內(nèi)短視頻,將短視頻設(shè)置為免費(fèi)播放,并開放點(diǎn)贊、收藏、評(píng)論等功能。網(wǎng)課視頻網(wǎng)站根據(jù)短視頻的播放、點(diǎn)贊、收藏的累計(jì)數(shù)目和日增長率等指標(biāo),對(duì)短視頻綜合排序并推薦,通過數(shù)據(jù)讓用戶認(rèn)可的網(wǎng)課脫穎而出。用戶在瀏覽了短視頻后如果覺得有興趣則可付費(fèi)購買完整網(wǎng)課視頻。網(wǎng)課營銷人員需要做的是從完整視頻中截取合適的短視頻以達(dá)到最高的獲客率。如果采用人工截取,面對(duì)批量視頻時(shí)存在產(chǎn)量低,主觀性強(qiáng)的缺點(diǎn);如果采用自動(dòng)截取,首部截取、尾部截取或者隨機(jī)截取都不是最佳方案。本文設(shè)計(jì)了根據(jù)播放熱度來截取的方案,將完整視頻視為時(shí)間長度均等的片段序列,將完整網(wǎng)課視頻開放給測試用戶免費(fèi)播放,收集用戶播放數(shù)據(jù),通過統(tǒng)計(jì)得到測試期每個(gè)片段的播放熱度。再通過營銷專家系統(tǒng),將播放熱度恰好合適的若干片段整合輸出成短視頻。
從營銷角度講,并不是最熱門的片段是最適合用于營銷展示。這里有心理博弈的考量,如果視頻最精華的片段已經(jīng)被免費(fèi)播放,用戶未必有意愿購買完整視頻。本文選擇營銷專家系統(tǒng),由領(lǐng)域?qū)<遗渲煤侠淼臓I銷方案(知識(shí)庫)以提高免費(fèi)用戶轉(zhuǎn)付費(fèi)用戶的轉(zhuǎn)化率。
1.2.1 總體設(shè)計(jì)
網(wǎng)課營銷專家系統(tǒng)的整體架構(gòu)由前端頁面和后端服務(wù)器構(gòu)成。其中前端頁面內(nèi)置web視頻播放器,此播放器支持視頻埋點(diǎn)和彈幕,用以播放視頻和記錄用戶行為。前端頁面內(nèi)置的JavaScript代碼用于將播放器數(shù)據(jù)報(bào)送到服務(wù)端。服務(wù)端按照功能分為3大部分:數(shù)據(jù)收據(jù)收集服務(wù)器、視頻服務(wù)器和營銷專家系統(tǒng)。數(shù)據(jù)收集服務(wù)器用于提供面向公網(wǎng)的web服務(wù),對(duì)接前端的數(shù)據(jù)報(bào)送請(qǐng)求。視頻服務(wù)器用于存儲(chǔ)影音資源和面向網(wǎng)課HTML頁面提供流媒體服務(wù)。營銷專家系統(tǒng)通過在知識(shí)庫配置規(guī)則識(shí)別分析最佳短視頻并導(dǎo)出到視頻服務(wù)器。圖2給出了網(wǎng)課營銷專家系統(tǒng)總體設(shè)計(jì)。
圖2 網(wǎng)課營銷專家系統(tǒng)總體設(shè)計(jì)Fig.2 Online class marketing expert system design
1.2.2 詳細(xì)設(shè)計(jì)與關(guān)鍵技術(shù)論證
1)視頻埋點(diǎn)。
視頻埋點(diǎn)是整個(gè)設(shè)計(jì)中的關(guān)鍵技術(shù)環(huán)節(jié)。其設(shè)計(jì)思路為:對(duì)視頻按定長時(shí)間劃分片段,每個(gè)片段插入1個(gè)埋點(diǎn),在視頻播放過程中伴隨進(jìn)度條移動(dòng),埋點(diǎn)將被觸發(fā),視為對(duì)應(yīng)的視頻片段被播放。通過統(tǒng)計(jì)測試期間每個(gè)片段的埋點(diǎn)觸發(fā)次數(shù),可得到播放次數(shù)用于反映“播放熱度”。為實(shí)現(xiàn)此功能,需要視頻播放器、前端JavaScript與后端數(shù)據(jù)收集服務(wù)器三者協(xié)同完成。目前主流的互聯(lián)網(wǎng)播放器均支持視頻埋點(diǎn)。以阿里云播放器為例,其視頻埋點(diǎn)功能已實(shí)現(xiàn)商業(yè)化應(yīng)用,以便應(yīng)用開發(fā)者進(jìn)行二次開發(fā)。此播放器的埋點(diǎn)密度是4個(gè)/s,即每播放0.25 s都會(huì)觸發(fā)一次JavaScript函數(shù)回調(diào)。本文在回調(diào)函數(shù)中向數(shù)據(jù)收集服務(wù)器報(bào)送數(shù)據(jù),通知此片段已被播放。由于在本場景中,視頻片段的長度設(shè)計(jì)為10 s,遠(yuǎn)大于播放器默認(rèn)埋點(diǎn)周期0.25 s,前端開發(fā)者可以在JavaScript回調(diào)函數(shù)中增加計(jì)數(shù)器來進(jìn)行優(yōu)化,調(diào)整成每40次回調(diào)(相當(dāng)于10 s)報(bào)送1次,以此降低用戶寬帶流量耗損和數(shù)據(jù)收集服務(wù)器的并發(fā)壓力。數(shù)據(jù)收集服務(wù)器的作用在于提供面向公網(wǎng)的web服務(wù),然后將收集到的數(shù)據(jù)同步到營銷專家系統(tǒng)的綜合數(shù)據(jù)庫。
2)開放彈幕。
與埋點(diǎn)的思想近似,彈幕也可以反映某一個(gè)視頻片段的“播放熱度”,每一條彈幕都具有時(shí)間屬性,或者說它屬于某個(gè)視頻片段。通過統(tǒng)計(jì)測試期間每個(gè)視頻片段上的彈幕數(shù)量來判斷播放熱度。彈幕的技術(shù)方案與埋點(diǎn)類似,互聯(lián)網(wǎng)播放器提供基礎(chǔ)接口服務(wù),網(wǎng)頁開發(fā)人員在此基礎(chǔ)上進(jìn)行二次開發(fā),把彈幕數(shù)據(jù)報(bào)送到收據(jù)收集服務(wù)器,進(jìn)而同步到營銷專家系統(tǒng)的綜合數(shù)據(jù)庫。
3)測試用戶。
測試用戶的選擇原則是盡可能接近真實(shí)用戶,只有這樣測試階段的播放次數(shù)與彈幕數(shù)量才具有參考價(jià)值。一種手段是通過征集志愿者做內(nèi)測,另一種手段是對(duì)真實(shí)用戶開放限時(shí)免費(fèi),直接將生產(chǎn)用戶當(dāng)做測試用戶。前者對(duì)參與內(nèi)測的志愿者的篩選要求很高,要求年齡比例、性別比例、所在地比例、受教育程度比例等盡可能模仿真實(shí)用戶,后者則是犧牲部分付費(fèi)周期換取真實(shí)用戶數(shù)據(jù)。在實(shí)踐中,本文選擇后者。在系統(tǒng)投產(chǎn)后,生產(chǎn)用戶的數(shù)據(jù)依然被收集,持續(xù)更新視頻片段播放熱度。
4)綜合數(shù)據(jù)庫。
最終每個(gè)視頻都會(huì)轉(zhuǎn)化成一張時(shí)間序列、播放次數(shù)、彈幕數(shù)量的數(shù)據(jù)表,存放在專家系統(tǒng)的綜合數(shù)據(jù)庫內(nèi)。數(shù)據(jù)表結(jié)構(gòu)設(shè)計(jì)與數(shù)據(jù)如表1所示。
表1 視頻片段表結(jié)構(gòu)Table 1 Video clip table structure
5)知識(shí)庫建設(shè)。
營銷專家配置營銷知識(shí),即選出最佳視頻片段所需重要參數(shù)。例如:熱度排名第3位的視頻片段為最佳,或者熱度排名第1位視頻片段的時(shí)間前序片段為最佳,或者邏輯更加復(fù)雜的組合參數(shù)等。這些知識(shí)參數(shù)來自于過往營銷案例的統(tǒng)計(jì),最終形成營銷知識(shí)庫。
6)專家系統(tǒng)工作流程。
通過運(yùn)營網(wǎng)站頁面,網(wǎng)課運(yùn)營人員選擇想要截轉(zhuǎn)的長視頻,并配置目標(biāo)短視頻的時(shí)長參數(shù),按“開始”。推理機(jī)通過邏輯代碼讀取知識(shí)庫內(nèi)的營銷參數(shù),形成完整的數(shù)據(jù)庫查詢語句SQL,進(jìn)而從綜合數(shù)據(jù)庫中尋找目標(biāo)視頻的最合適時(shí)間片段,然后將對(duì)應(yīng)時(shí)間片段的短視頻截取并導(dǎo)出。
目前機(jī)器學(xué)習(xí)主要應(yīng)用在語音識(shí)別、語音合成、圖像識(shí)別、自然語言處理等基礎(chǔ)場景及其衍生場景。本文在語音識(shí)別、圖像識(shí)別方面結(jié)合教育場景做了探索。
語音識(shí)別目前已應(yīng)用在生活的各個(gè)方面,如手機(jī)端的聲紋解鎖技術(shù)、阿里的的天貓精靈智能音箱等。近年,語音識(shí)別理論研究取得了很多進(jìn)展。計(jì)算機(jī)將一段語音聲波按幀切開,識(shí)別每一幀對(duì)應(yīng)的音素,將音素合成單詞,再將單詞組合成句子,就是一個(gè)完整的語音識(shí)別過程。識(shí)別每幀對(duì)應(yīng)的音素需要通過聲學(xué)特征提取和聲學(xué)模型這2個(gè)步驟。在聲學(xué)特征提取研究方向,線性預(yù)測倒譜系數(shù)(linear prediction cepstral coefficient,LPCC)和梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficient,MFCC)被廣泛應(yīng)用[3]。語音特征提取后,根據(jù)音頻特征判斷這幀語音對(duì)應(yīng)的音素。計(jì)算機(jī)實(shí)際計(jì)算得到的是這幀語音特征與各音素的匹配概率。這種通過語音特征找概率的模型稱為聲學(xué)模型。經(jīng)典有效的聲學(xué)模型為高斯混合模型(Gaussian mixture model,GMM)。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)興起以后,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)、長短期記憶(long short-term memory,LSTM)等基于深度學(xué)習(xí)的聲學(xué)模型被廣泛使用[4]。在發(fā)音字典和語言模型的幫助下,音素被組裝成單詞,進(jìn)而組裝成句子。發(fā)音字典標(biāo)明了計(jì)算機(jī)所能處理的單詞與音素的映射關(guān)系。語言模型利用語言中單詞之間的組合概率分布組裝句子。語言模型研究主要集中在N元模型(N-Gram)、馬爾可夫N元模型(MarkovN-gram)、指數(shù)模型(exponential models)、決策樹模型(decision tree models)等[5]。解碼搜索階段會(huì)對(duì)聲學(xué)模型得分和語言模型得分綜合評(píng)估,將得分最高的文本序列作為最后的識(shí)別結(jié)果輸出。
語音識(shí)別領(lǐng)域的相關(guān)研究工作可按層級(jí)拆分為基礎(chǔ)研究和應(yīng)用研究?;A(chǔ)研究開發(fā)者關(guān)心如何高效精準(zhǔn)地完成不同語種及方言的語音識(shí)別,并為應(yīng)用研究開發(fā)者提供應(yīng)用程序接口(application programming interface,API)調(diào)用。應(yīng)用研究開發(fā)者基于API開發(fā),關(guān)心如何將基礎(chǔ)服務(wù)嵌入到具體業(yè)務(wù)場景中,進(jìn)而實(shí)現(xiàn)技術(shù)為業(yè)務(wù)賦能。一般來說,訓(xùn)練過程也由基礎(chǔ)研究開發(fā)者完成,但也保留了二次訓(xùn)練的接口,供應(yīng)用研究開發(fā)者針對(duì)特定場景特別訓(xùn)練,進(jìn)而提供定制化服務(wù)。
2.1.1 總體設(shè)計(jì)
在大學(xué)課堂中,每節(jié)課有大量的知識(shí)點(diǎn)需要記憶和理解,課后還需要應(yīng)用理論解決實(shí)際問題。目前學(xué)生聽課多用手記錄,老師講課節(jié)奏加快或者自己還在思考理解知識(shí)點(diǎn)時(shí)筆記容易遺漏。所以在教室里搭建基于語音識(shí)別的系統(tǒng),將課上老師的語音直接轉(zhuǎn)化為文字形成課堂筆記,可以大大提高學(xué)習(xí)效率,幫助學(xué)生高質(zhì)量聽課和課后復(fù)習(xí)鞏固。圖3給出了智能課程筆記系統(tǒng)的總體設(shè)計(jì)。
圖3 智能課堂筆記系統(tǒng)總體設(shè)計(jì)Fig.3 Smart note system design
1)錄音設(shè)備在上課時(shí)采集聲音(可自動(dòng)或者手動(dòng)模式)并將錄音文件傳輸至NAS服務(wù)器,標(biāo)記錄音時(shí)間、錄音場所。
2)觸發(fā)語音識(shí)別服務(wù)對(duì)錄音文件進(jìn)行分析,轉(zhuǎn)成文本信息并儲(chǔ)存在數(shù)據(jù)庫中。錄音時(shí)間、錄音場所也保存在數(shù)據(jù)庫中。
3)學(xué)生、教職工通過訪問筆記查詢網(wǎng)站,輸入課程名稱,服務(wù)器通過聯(lián)合查詢即可得到對(duì)應(yīng)的課堂筆記。
2.1.2 詳細(xì)設(shè)計(jì)與關(guān)鍵技術(shù)論證
1)在教室與會(huì)議室配置聲音采集設(shè)備。
2)搭建語音文件存儲(chǔ)服務(wù)器、文本存儲(chǔ)數(shù)據(jù)庫服務(wù)器。語音文件服務(wù)器用于存儲(chǔ)課堂錄音文件,用于語音轉(zhuǎn)寫并追溯。文本存儲(chǔ)數(shù)據(jù)庫服務(wù)器用于保存識(shí)別完成的文本序列,并包含錄制時(shí)間、錄制場所、轉(zhuǎn)寫時(shí)間等信息。
3)搭建語音識(shí)別服務(wù)。語音識(shí)別服務(wù)是整個(gè)系統(tǒng)中最關(guān)鍵的技術(shù)環(huán)節(jié),建議采用商用語音識(shí)別基礎(chǔ)服務(wù)。目前比較成熟的語音識(shí)別廠商包括科大訊飛、百度等。以科大訊飛為例,其產(chǎn)品包括語音聽寫、語音轉(zhuǎn)寫等。除中文普通話和英文外,支持51個(gè)語種、24種方言和1個(gè)民族語言,實(shí)時(shí)返回結(jié)果,達(dá)到邊說邊返回的效果,可提供公有云接口及私有化部署方案??拼笥嶏w的語音聽寫自訓(xùn)練平臺(tái)支持用戶自行上傳語言文本數(shù)據(jù)集,對(duì)語音聽寫引擎模型進(jìn)行深度定制。目前華為、字節(jié)跳動(dòng)和美團(tuán)等一線廠商都采用了科大訊飛的語音識(shí)別服務(wù)。
4)搭建教室、會(huì)議室使用記錄網(wǎng)站及數(shù)據(jù)庫,用于與筆記文本數(shù)據(jù)庫實(shí)現(xiàn)聯(lián)合查詢服務(wù)。這樣每份筆記都會(huì)關(guān)聯(lián)到若干個(gè)課程或者項(xiàng)目,用戶可以通過不同維度實(shí)現(xiàn)檢索。
5)搭建課堂筆記查詢服務(wù)網(wǎng)站,并設(shè)定登錄用戶的不同角色(教師、學(xué)生、管理員等)。不同角色具有網(wǎng)站的不同權(quán)限。學(xué)生僅可以查詢和評(píng)論課堂筆記,教師可以查詢、評(píng)論、修改,管理員可以給不同的登陸者配置不同的空間訪問權(quán)限。開發(fā)版本控制功能,當(dāng)筆記被修改后可以追溯和回滾到歷史版本。開發(fā)分支管理功能,每個(gè)學(xué)生都可以基于主分支的某個(gè)時(shí)點(diǎn)快照創(chuàng)建個(gè)人分支,并在個(gè)人分支上修改筆記文本,各分支之間互不干擾。學(xué)生可以申請(qǐng)將個(gè)人分支的文本改動(dòng)合并到主分支,教師審批通過則合并成功。
圖像識(shí)別是指利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別各種不同模式的目標(biāo)和對(duì)象的技術(shù),是機(jī)器學(xué)習(xí)的一種應(yīng)用場景[6]。目前,圖像識(shí)別已被廣泛應(yīng)用于各領(lǐng)域,如高速公路的車牌識(shí)別、自動(dòng)駕駛所用的交通標(biāo)志識(shí)別、軍事領(lǐng)域的飛行物識(shí)別、地形勘察、消費(fèi)電子領(lǐng)域的指紋識(shí)別、人臉識(shí)別等[7]。
圖像識(shí)別以圖像特征為基礎(chǔ),如輪廓特征等。圖像識(shí)別的第1步是要得到圖像的特征,這個(gè)步驟稱為特征提取。第2步通過分類算法將特征映射成圖像識(shí)別的對(duì)象結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)是一類已被證明在圖像識(shí)別領(lǐng)域非常有效的算法模型[8-9]。卷積神經(jīng)網(wǎng)絡(luò)包含2個(gè)主要步驟:特征提取與分類。
在CNN模型中,特征提取分為2個(gè)主要步驟:卷積和池化[10]。卷積操作是指計(jì)算機(jī)通過卷積核(也稱過濾器)對(duì)輸入圖像矩陣進(jìn)行滑動(dòng)窗口的卷積運(yùn)算,得到輸出矩陣。卷積核通常為3×3或5×5的數(shù)字矩陣。輸出矩陣被稱為“特征圖”或“特征矩陣”。實(shí)際情況下會(huì)使用多個(gè)卷積核,卷積核數(shù)量越多,提取的特征矩陣就越多,在后續(xù)的分類步驟中更有效,但運(yùn)算量也越大。卷積操作后,原圖像矩陣轉(zhuǎn)換成特征矩陣,盡管特征矩陣尺寸比原圖像矩陣小很多,但由于卷積核數(shù)目或訓(xùn)練集數(shù)目大,整體運(yùn)算量還是過于龐大,需要通過池化操作降低后期運(yùn)算量[11]。池化是將特征矩陣的尺寸減小,但保留特征的最重要信息。
特征提取后,根據(jù)圖像特征將圖像識(shí)別為目標(biāo)物體,這個(gè)過程在數(shù)學(xué)中被稱為分類。分類是通過分類算法實(shí)現(xiàn)的,在CNN模型中較典型的分類算法是Softmax函數(shù)[12],此函數(shù)的輸出是每個(gè)類別的概率值,概率值最高且高出閾值的分類被視為識(shí)別結(jié)果輸出。
CNN模型僅是圖像識(shí)別的框架,未經(jīng)訓(xùn)練的CNN模型是無法對(duì)圖像作出判斷的。未訓(xùn)練模型中存在大量初始參數(shù),通過訓(xùn)練參數(shù)實(shí)現(xiàn)調(diào)優(yōu),模型才可以工作。
圖像識(shí)別領(lǐng)域的相關(guān)研究工作可分為基礎(chǔ)研究和應(yīng)用研究。基礎(chǔ)研究開發(fā)者關(guān)心如何將圖像識(shí)別抽象成數(shù)學(xué)問題,并在數(shù)學(xué)模型的基礎(chǔ)上進(jìn)行參數(shù)調(diào)優(yōu),以提高識(shí)別的精準(zhǔn)度和效率。應(yīng)用研究開發(fā)者面向最終用戶開發(fā),關(guān)心如何通過對(duì)API合理編排,以滿足具體業(yè)務(wù)場景需求。
2.2.1 總體設(shè)計(jì)
在上課過程中,學(xué)生的出勤率(通過空座比例計(jì)算)、學(xué)生的面部表情(睜眼或閉眼)等,可以間接反映課堂教學(xué)質(zhì)量?!翱兆鵙S有人”、“睜眼VS閉眼”是典型的圖像識(shí)別二分類問題?!翱兆鵙S有人”可以通過通用圖像識(shí)別服務(wù)來獲取結(jié)果,“睜眼VS閉眼”可以通過人臉識(shí)別服務(wù)獲取結(jié)果。人臉識(shí)別屬于圖像識(shí)別子領(lǐng)域,除了檢測人臉外,還提供人臉關(guān)鍵點(diǎn)、五官狀態(tài)、年齡、性別、顏值評(píng)分、情緒識(shí)別等人臉屬性分析數(shù)據(jù)。圖像識(shí)別的結(jié)果并不能直接反映課程質(zhì)量,如空座比例要結(jié)合課程的實(shí)際報(bào)名人數(shù)來判斷出勤率;學(xué)生面部表情和身體姿態(tài)要結(jié)合課堂類型(普通講課、自由討論課、自習(xí)課、活動(dòng)課等)來判斷聽課狀態(tài)。所以在核心圖像識(shí)別服務(wù)基礎(chǔ)上,還需要專家系統(tǒng)或者機(jī)器學(xué)習(xí)分類模型來輔助分析,實(shí)現(xiàn)評(píng)估課堂質(zhì)量的目的。圖4給出了圍繞圖像識(shí)別服務(wù)器與課堂教學(xué)質(zhì)量分析邏輯核心服務(wù)器搭建的課堂教學(xué)質(zhì)量動(dòng)態(tài)評(píng)估系統(tǒng)的總體設(shè)計(jì)。
圖4 課堂教學(xué)質(zhì)量動(dòng)態(tài)評(píng)估系統(tǒng)總體設(shè)計(jì)Fig.4 Class teaching quality dynamic assessment system design
1)在教室上課時(shí)間中,拍攝設(shè)備按固定頻率拍照獲得教室學(xué)生的整體圖像,并將圖像存入NAS服務(wù)器。
2)觸發(fā)圖像識(shí)別服務(wù),將教室空座比例、學(xué)生的眼睛狀態(tài)、頭部姿態(tài)、身體姿態(tài)等信息提取出來,存入識(shí)別結(jié)果數(shù)據(jù)庫。
3)在日終,課堂教學(xué)質(zhì)量分析服務(wù)器開始計(jì)算,得到每個(gè)課堂的教學(xué)質(zhì)量分?jǐn)?shù)。通過查詢排課數(shù)據(jù)庫,服務(wù)器利用聚合算法,將課堂教學(xué)質(zhì)量評(píng)分通過課程維度、教師維度、班級(jí)維度匯總,并將結(jié)果輸出到評(píng)估結(jié)果數(shù)據(jù)庫。
4)高校行政人員通過訪問課堂質(zhì)量評(píng)估網(wǎng)站,查詢?cè)u(píng)估結(jié)果。
2.2.2 詳細(xì)設(shè)計(jì)與關(guān)鍵技術(shù)論證
1)在教室內(nèi)安裝高清拍攝設(shè)備,以獲得上課期間教室圖像。圖像的尺寸和分辨率取決于圖像識(shí)別服務(wù)器的技術(shù)要求。以曠視科技的人臉識(shí)別API為例,對(duì)圖像要求如下:整張教室圖像像素不能超過 4 096×4 096;人臉框近似為正方形,正方形邊長不得小于教室圖像短邊長度的1/48,同時(shí)像素不小于48。當(dāng)場景為大階梯教室,學(xué)生人臉框邊長占比無法滿足要求時(shí),可以采用分而治之的思路,架設(shè)多拍攝設(shè)備協(xié)同工作,然后歸集結(jié)果并去重。由于學(xué)生是非靜止?fàn)顟B(tài),拍攝需要設(shè)置成動(dòng)態(tài)模式,快門時(shí)間應(yīng)盡可能縮短以保證照片清晰度。實(shí)測當(dāng)快門時(shí)間小于1/60 s時(shí),拍攝的教室照片接近靜態(tài)照片,這對(duì)拍攝設(shè)備的光圈和感光度有一定要求。
2)搭建NAS服務(wù)器,用于存儲(chǔ)圖像文件。NAS服務(wù)器的容量取決于每張照片的大小、拍照頻率和存儲(chǔ)周期。
3)搭建圖像識(shí)別服務(wù)器,圖像識(shí)別服務(wù)是整個(gè)系統(tǒng)中最關(guān)鍵的技術(shù)環(huán)節(jié),建議采用商用圖像識(shí)別服務(wù)。目前比較成熟的圖像識(shí)別廠商包括依圖科技、商湯科技和曠視科技等,他們的圖像識(shí)別服務(wù)在東方證券等主流的金融類APP和上海交大附屬瑞金醫(yī)院相關(guān)診療設(shè)備上被采用。在本文中,課堂照片識(shí)別的技術(shù)難點(diǎn)在于單張圖像的多人臉識(shí)別。目前主流廠商已經(jīng)將多人臉識(shí)別商業(yè)化,并提供了開發(fā)者接口供二次開發(fā)。以曠視科技為例,目前免費(fèi)版的API可以支持50張人臉,商業(yè)版API無限制,但是在實(shí)際使用中要考慮服務(wù)器性能與實(shí)際場景需要來合理評(píng)估。其人臉識(shí)別服務(wù)可支持的人臉特征有16個(gè),其中與課堂質(zhì)量具有相關(guān)性的包括笑容檢測、情緒識(shí)別、眼睛狀態(tài)識(shí)別和頭部姿態(tài)檢測等。圖5給出了4人合影照片在曠視科技人臉識(shí)別API上的實(shí)際測試結(jié)果。實(shí)際在20 000張靜態(tài)人臉圖像的測試中,眼睛狀態(tài)識(shí)別正確的概率高達(dá)99.985%,在教室環(huán)境下的實(shí)際識(shí)別正確率會(huì)比靜態(tài)照片略低。
4)每節(jié)課將分類成場景,如正常講課、自由討論課、自習(xí)課、考試課、活動(dòng)課等場景類型。這些類型將參與到后面的課堂質(zhì)量評(píng)估分類算法中。
5)為實(shí)現(xiàn)課堂教學(xué)質(zhì)量識(shí)別結(jié)果與課程掛鉤,每個(gè)教室的排課將電子化。教室排課與教師的映射關(guān)系,教室排課與科目的映射關(guān)系,都要在數(shù)據(jù)庫中落地,并提供查詢服務(wù)。如有教師串課,需要在排課網(wǎng)站更新數(shù)據(jù),將課堂質(zhì)量識(shí)別結(jié)果貢獻(xiàn)到正確的目標(biāo)。
圖5 基于曠視科技API的多人臉識(shí)別測試Fig.5 Multi-face recognition demo based on Megvii API
6)搭建課堂教學(xué)質(zhì)量分析核心服務(wù)器,將圖像識(shí)別的結(jié)果結(jié)合課堂類型綜合判斷給出課堂教學(xué)質(zhì)量判斷。這里可以采用專家系統(tǒng)或機(jī)器學(xué)習(xí)分類模型來實(shí)現(xiàn),若采用機(jī)器學(xué)習(xí),需要提前對(duì)模型進(jìn)行訓(xùn)練。
1)針對(duì)高等教育內(nèi)學(xué)生職業(yè)發(fā)展預(yù)測、學(xué)生課程規(guī)劃、學(xué)生狀態(tài)監(jiān)控這3個(gè)場景,本文提出了基于用戶畫像的專家系統(tǒng)解決方案,預(yù)期可以為學(xué)生提供更精準(zhǔn)、更及時(shí)的教育支持。
2)針對(duì)網(wǎng)課營銷場景,本文提出了基于視頻埋點(diǎn)和彈幕的專家系統(tǒng)解決方案,預(yù)期可以降低營銷的人工成本并解決人工參與的主觀性痛點(diǎn)。
3)針對(duì)課堂筆記記錄、教學(xué)質(zhì)量動(dòng)態(tài)評(píng)估2個(gè)場景,本文提出了基于語音識(shí)別與圖像識(shí)別的解決方案,預(yù)期可為學(xué)生、教師節(jié)約大量時(shí)間成本,減少高校行政事務(wù)支出。
目前受制于給定場景下數(shù)據(jù)采集的局限性,專家系統(tǒng)綜合數(shù)據(jù)庫的數(shù)據(jù)收集或者機(jī)器學(xué)習(xí)的訓(xùn)練過程不夠完善,進(jìn)而造成人工智能在一定程度上失準(zhǔn)。但隨著數(shù)字化基礎(chǔ)設(shè)施的持續(xù)建設(shè),預(yù)期數(shù)據(jù)采集的渠道會(huì)更豐富,多維的數(shù)據(jù)將能更清晰地反映主體特征,人工智能將能提供更高質(zhì)量的服務(wù)。隨著教育大數(shù)據(jù)的積累,智能化新教育模式下高階需求的不斷產(chǎn)生,這些數(shù)據(jù)與需求結(jié)合將會(huì)衍生更多的場景,人工智能將在此獲得更多的表現(xiàn)機(jī)會(huì)。