張宜軒 王永芳
摘 ?要:通過對臨沂大學(xué)研究生推薦免試選拔過程的調(diào)查研究,基于其線下選拔耗時長、工作量大的現(xiàn)狀,依托百度OCR識別技術(shù)設(shè)計了一種研究生智能推免選拔平臺。在平臺設(shè)計中提出可行的最優(yōu)推薦匹配算法:利用OCR識別技術(shù)和KMP算法進(jìn)行關(guān)鍵字匹配、智能評分。平臺還能夠?qū)崟r共享推免信息,在學(xué)生端和教師端之間建立隨機(jī)關(guān)系,實現(xiàn)教師端材料盲審,有效降低時間成本、提高選拔公平程度,對當(dāng)下推薦免試生選拔有突出的借鑒意義。
關(guān)鍵詞:推薦免試選拔;KMP算法;最優(yōu)推薦匹配;OCR識別
中圖分類號:TP391.41;TP18 ? ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)13-0085-04
Abstract:Through the investigation and research on the process of recommendation exemption of Linyi University postgraduate students in recent years,based on the current situation of long time-consuming and heavy workload in offline selection,designed an intelligent recommendation and examination free selection platform for graduate students relying on Baidu OCR recognition technology. Proposed a feasible optimal recommendation matching algorithm in the platform design:OCR recognition technology and KMP algorithm are used for keyword matching and intelligent scoring. The platform can also share the promotion and exemption information in real time,establish a random relationship between the student side and the teacher side,realize the blind review of the teacher side materials,effectively reduce the time cost and improve the fairness of the selection,which has a prominent reference significance for the current selection of candidates without examination.
Keywords:recommendation and examination free selection;KMP algorithm;optimal recommendation match;OCR recognition
0 ?引 ?言
隨著研究生招生規(guī)模的逐步擴(kuò)大以及考研人數(shù)的日趨增加,推薦免試攻讀研究生成為熱議話題。但根據(jù)前期調(diào)查結(jié)果,研究生推免工作的重心依然是在線下遴選優(yōu)秀應(yīng)屆畢業(yè)生。這種方式不但耗時長且選擇標(biāo)準(zhǔn)單一、有失公允,而且根據(jù)教育部有關(guān)文件精神,真正“有意義”的選拔應(yīng)當(dāng)更加注重學(xué)生綜合能力[1],例如畢業(yè)生在本科階段的項目經(jīng)歷、學(xué)科競賽經(jīng)歷等,只有確立雙重標(biāo)準(zhǔn)、嚴(yán)格考核,才能體現(xiàn)“選拔、推薦”的真實含義。如何將這部分閱歷豐富、綜合素質(zhì)強(qiáng)的學(xué)生群體列入選拔的備選庫中,是本平臺設(shè)計的核心問題。
本平臺通過建立學(xué)生待審核記錄與審核教師的隨機(jī)關(guān)系,提高了線下校內(nèi)推免生審核過程的透明度、公平度,有效降低了傳統(tǒng)審核的工作量;同時,為了提高審核評分的準(zhǔn)確度和考察學(xué)生的綜合素質(zhì)能力,本平臺調(diào)用OCR識別(Optical Character Recognition,光學(xué)字符識別)[2]技術(shù)對學(xué)生上傳的圖文資料進(jìn)行關(guān)鍵字識別,根據(jù)識別結(jié)果進(jìn)行最優(yōu)推薦匹配[3],最后審核教師根據(jù)推薦結(jié)果設(shè)置賦分比例。在用戶端平臺將用戶已有成績在各專業(yè)中進(jìn)行實時比對和排名,幫助用戶了解最新選拔狀態(tài)。
1 ?平臺功能與編程
本平臺采用C/S架構(gòu)的交互方式,以微信開發(fā)者工具(版本號v1.02.1911180)作為主要開發(fā)平臺[4],并通過Spring Boot框架與數(shù)據(jù)庫進(jìn)行間接連接。本平臺的主要功能有上傳成果材料、排名匯總、動態(tài)信息共享、最優(yōu)推薦匹配、賦分比例設(shè)置等。
數(shù)據(jù)庫方面,平臺選用MySQL進(jìn)行數(shù)據(jù)存儲,平臺的學(xué)生用戶表、用戶排名信息表結(jié)構(gòu)如表1、2所示,平臺功能結(jié)構(gòu)圖如圖1所示。
2 ?平臺功能實現(xiàn)
本文主要從快速注冊模型、最優(yōu)推薦匹配、專業(yè)排名以及信息動態(tài)共享四個方面對平臺的功能進(jìn)行詳盡的描述。
2.1 ?快速注冊模型
該模型由登錄、注冊兩部分組成,登錄部分以臨沂大學(xué)校徽為界面主題,以用戶名和密碼作為憑證進(jìn)行登錄;在注冊部分引入搜索框注冊機(jī)制,相當(dāng)于在用戶注冊之前對重復(fù)學(xué)號的數(shù)據(jù)進(jìn)行攔截處理,其具體實現(xiàn)情景如圖2所示。
如果出現(xiàn)學(xué)號重復(fù)的情況,平臺提示“禁止重復(fù)注冊”;通過學(xué)號驗證后的用戶方可輸入用戶名、手機(jī)號碼等完成全部注冊過程。平臺通過引入快速注冊模型,成功地解決了重復(fù)注入信息造成的平臺異常。其核心策略解釋如下:
算法模糊搜索下實現(xiàn)的布爾判重函數(shù)
輸入有關(guān)學(xué)號的模糊文本
輸出判重提示
bool IfExists(String number){
if(數(shù)據(jù)庫中數(shù)據(jù)equals(number))
return true;
else return false;
}
2.2 ?最優(yōu)推薦匹配
OCR識別技術(shù)[5]是百度AI開放平臺的一項重要功能,OCR作為一種AI智能產(chǎn)品,可以將用戶上傳的圖片提交給百度AI服務(wù),在微信小程序中調(diào)用此API,不需要服務(wù)器的參與,適合初學(xué)者的學(xué)習(xí)和使用。平臺利用OCR識別技術(shù)實現(xiàn)的功能主要有:
(1)用圖像數(shù)據(jù)字段實現(xiàn)圖片存儲,并在后續(xù)教師查閱學(xué)生材料時將圖片存儲字段轉(zhuǎn)換成可顯示的圖片類型進(jìn)行展示[6];
(2)在微信小程序端設(shè)置了人工智能識圖功能;
(3)對轉(zhuǎn)換后的圖片文字進(jìn)行關(guān)鍵字匹配。
平臺設(shè)置的關(guān)鍵字ki(i=1,2,3)和對應(yīng)的分值范圍主要分為3類(以計算機(jī)學(xué)科為例,材料未涉及論文),其中比賽項目關(guān)鍵字k1?{ACM-ICPC(50分),CCF(50分),CCSP(50分),藍(lán)橋杯(45分),程序設(shè)計(45分),數(shù)學(xué)建模(45分),國家獎學(xué)金(60分)},比賽級別關(guān)鍵字k2?{省賽(25分),國賽(30分),區(qū)域賽(35分)},獲獎級別關(guān)鍵字k3?{一等獎(10分),二等獎(6分),三等獎(3分),Gold(10分),Silver(6分),Bronze(3分)}。由于單項材料獲取的文字內(nèi)容較少,匹配過程采用Knuth-Morris-Pratt字符串匹配算法[7](KMP算法),匹配成果材料評分結(jié)果[8]分為3類yj(j=1,2,3),分別為優(yōu)秀(90~100]、良好(80~90]和合格(其他分?jǐn)?shù)段),具體過程用公式表達(dá):
該項功能對用戶提交的圖片內(nèi)容進(jìn)行最優(yōu)分?jǐn)?shù)匹配,教師具有審核和根據(jù)學(xué)校相關(guān)政策修改分?jǐn)?shù)的權(quán)限。此功能的實現(xiàn)有效提高了整個審核環(huán)節(jié)的效率,而且能夠智能化審核流程、量化賦分標(biāo)準(zhǔn)。平臺上交成果材料功能的具體實現(xiàn)如圖3所示。
2.3 ?專業(yè)排名
管理員在平臺確定選拔比例后,依次點擊“生成排名”“檢錄信息”就可以分專業(yè)登記選拔狀態(tài)。這一部分實現(xiàn)的關(guān)鍵在于編寫SQL排序語句[9],關(guān)鍵語句如下:
算法分專業(yè)排序算法
輸入專業(yè)名稱、設(shè)定推免比例
輸出各專業(yè)排序名次
SELECT 學(xué)號,(@排名序號:= @排名序號+1) AS 排名 FROM (SELECT * FROM 用戶排序表) 用戶排序表,
(SELECT @排名序號 :=0) b ORDER BY 用戶排序表總成績 DESC;
該部分主要解決兩大問題:
(1)插入、更新大批量數(shù)據(jù)時盡量采用耗時相對較低的算法,否則易造成下標(biāo)出界;
(2)在重新指定選拔比例時,應(yīng)當(dāng)在現(xiàn)有記錄刪除后再插入該專業(yè)所有記錄,否則易導(dǎo)致專業(yè)混合排序,不利于統(tǒng)計。
2.4 ?信息動態(tài)共享
平臺將動態(tài)報考信息進(jìn)行共享,既可以幫助學(xué)生掌握報考專業(yè)的競爭激烈程度,又可以給學(xué)生智能化推薦報考專業(yè)。其具體的實現(xiàn)過程如圖4所示。
在用戶點擊不同專業(yè)時,平臺會將該用戶當(dāng)前的學(xué)業(yè)成績與數(shù)據(jù)庫中該專業(yè)已有的最終成績作差比較。根據(jù)差值不同的范圍,平臺解析范圍大小并做出動態(tài)反饋?,F(xiàn)在把上述過程總結(jié)為模擬排位算法模型,該模型可以幫助考生快速知悉報考專業(yè)的大體情況,在一定程度上緩解了盲目報考產(chǎn)生的“扎堆”現(xiàn)象、提升報考成功率。
下面給出模擬排位算法的偽代碼:
算法模擬排位算法
輸入用戶當(dāng)前既有學(xué)業(yè)成績、點選專業(yè)
輸出提示內(nèi)容(具體的分差提示內(nèi)容如表3所示)
public Map cmpWithTotal(score, career){
do dif ← score-total;
Map map = new HashMap<>();
put(“提示信息”)
}
3 ?結(jié) ?論
針對當(dāng)前優(yōu)秀畢業(yè)生推免工作中存在的問題,為了更好地推動無紙化辦公、提高推免過程的智能化,本文設(shè)計了研究生智能推免選拔平臺。平臺通過百度OCR技術(shù),共享AI領(lǐng)域的應(yīng)用場景和解決方案,對用戶提交的材料進(jìn)行關(guān)鍵字匹配和賦分分類,綜合定性分析學(xué)生素質(zhì)和能力;通過設(shè)置模糊查詢,改變以往表單注冊的固有形式,有效地降低了重復(fù)率;通過信息動態(tài)共享功能,可以幫助報考學(xué)生避免“扎堆”報考的現(xiàn)象,指導(dǎo)不同分?jǐn)?shù)段的學(xué)生科學(xué)報考;通過分專業(yè)排名功能,可以幫助管理員掌握各個專業(yè)的具體選拔情況。本平臺將OCR識別技術(shù)與微信小程序深度結(jié)合,有效提高了選拔過程的效率,加強(qiáng)了對學(xué)生綜合素質(zhì)能力的考察,提高選拔過程的智能化程度。
參考文獻(xiàn):
[1] 張學(xué)謙,李金龍,裴旭,等.我國一流大學(xué)建設(shè)高校碩士研究生入學(xué)機(jī)會平等性測度及表現(xiàn) [J].學(xué)位與研究生教育,2019(6):38-44.
[2] 王志豪,朱浩宇,翁子揚(yáng),等.基于百度AI開放平臺的廣告匹配度方案 [J].電腦知識與技術(shù),2019,15(36):195-197.
[3] 陳超祥,丁健龍,陳友榮.智能短信就業(yè)服務(wù)平臺的設(shè)計與實現(xiàn) [J].計算機(jī)工程,2009,35(7):191-194.
[4] 李哲,周靈.微信小程序的架構(gòu)與開發(fā)淺析 [J].福建電腦,2019,35(12):66-69.
[5] 何文琦.基于OCR技術(shù)的高校財務(wù)報銷新探索 [J].商業(yè)會計,2020(10):79-81.
[6] 程海峰.基于微信小程序的圖片分享系統(tǒng)的設(shè)計與實現(xiàn) [J].工業(yè)控制計算機(jī),2019,32(2):97-98.
[7] 李莉.基于字符比較的單模式匹配算法的研究與分析 [D].福州:福建師范大學(xué),2016.
[8] 李薇,肖仰華,汪衛(wèi).基于中文知識圖譜的人物實體識別 [J].計算機(jī)工程,2017,43(3):225-231+240.
[9] 滕剛.關(guān)系數(shù)據(jù)庫排名運(yùn)算方法的研究 [J].電腦開發(fā)與應(yīng)用,2009,22(12):36-38.
作者簡介:張宜軒(1996—),男,漢族,山東泰安人,本科,研究方向:算法設(shè)計與分析;通訊作者:王永芳(1987—),女,漢族,山東臨沂人,講師,博士研究生,研究方向:人工智能、模式識別。