摘要:新高考模式下,按照國(guó)標(biāo)專業(yè)名稱檢索專業(yè)以及基于國(guó)標(biāo)專業(yè)的高考大數(shù)據(jù)分析等都需要將高校招生專業(yè)名稱轉(zhuǎn)換為國(guó)標(biāo)專業(yè)構(gòu)成的集合。針對(duì)國(guó)標(biāo)專業(yè)名稱分解過程中遇到的專業(yè)名稱多重包含、包含關(guān)系不明確、專業(yè)與專業(yè)類混合包含等問題,文章設(shè)計(jì)了基于多重集合匹配的國(guó)標(biāo)專業(yè)名稱分解算法。實(shí)驗(yàn)結(jié)果表明,該算法有效解決了以上問題,為后續(xù)專業(yè)間錄取分?jǐn)?shù)相似性規(guī)則挖掘、歷史數(shù)據(jù)缺失情況下專業(yè)錄取分?jǐn)?shù)預(yù)測(cè)等奠定了基礎(chǔ)。
關(guān)鍵詞:普通高等學(xué)校本科專業(yè)目錄;集合匹配;新高考;分解算法
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)35-0010-03開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
0引言
自國(guó)務(wù)院發(fā)布《關(guān)于深化考試招生制度改革的實(shí)施意見》[1]以來,新高考模式在國(guó)內(nèi)迅速推廣,高考志愿填報(bào)從原有的按院校填報(bào)逐步轉(zhuǎn)換為按專業(yè)填報(bào),這也導(dǎo)致了考生和家長(zhǎng)按專業(yè)對(duì)高考招生計(jì)劃進(jìn)行檢索的需求日益提升。近年來高考改革,新高考模式下考生按照專業(yè)去填報(bào)志愿,不用再擔(dān)心被調(diào)劑,隨著國(guó)內(nèi)新高考模式的推廣,志愿填報(bào)從報(bào)考院校變成報(bào)考專業(yè)?,F(xiàn)有高考志愿推薦填報(bào)都建立在對(duì)當(dāng)年高校或?qū)I(yè)錄取分?jǐn)?shù)預(yù)測(cè)的基礎(chǔ)上,根據(jù)預(yù)測(cè)算法的不同,可分為等位次法[2]、線上百分位回歸法[3]、加權(quán)平均回歸法[4]、長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)算法[5]等。2024年,教育部印發(fā)《進(jìn)一步做好普通高等學(xué)校本科專業(yè)設(shè)置工作的通知》,明確每年更新《普通高等學(xué)校本科專業(yè)目錄》(以下簡(jiǎn)稱“國(guó)標(biāo)專業(yè)目錄”),規(guī)范了各高校的專業(yè)設(shè)置。然而,由于按類招生、取消按類招生、試驗(yàn)班等情況的存在,各高校招生專業(yè)名稱與國(guó)標(biāo)專業(yè)目錄中的名稱并不完全相同,給考生檢索專業(yè)帶來諸多不便。
針對(duì)各高校招生專業(yè)名稱不規(guī)范且經(jīng)常變化的問題,現(xiàn)有學(xué)者從專業(yè)名稱匹配、歷史數(shù)據(jù)追蹤與預(yù)測(cè)的角度進(jìn)行了研究,給出了相應(yīng)解決方案[6],也有從關(guān)鍵詞檢索[7]的角度進(jìn)行目標(biāo)專業(yè)的匹配,但都未能解決考生按照國(guó)標(biāo)專業(yè)名稱檢索非標(biāo)準(zhǔn)的高考招生計(jì)劃專業(yè)名稱的問題。此外,日益增長(zhǎng)的高考招生大數(shù)據(jù)分析需求也需要將非標(biāo)準(zhǔn)的專業(yè)名稱統(tǒng)一清洗轉(zhuǎn)換為國(guó)標(biāo)專業(yè)名稱。因此,如何將非標(biāo)準(zhǔn)專業(yè)名稱轉(zhuǎn)換為國(guó)標(biāo)專業(yè)構(gòu)成的集合成為新高考模式下迫切需要解決的問題。
1國(guó)標(biāo)專業(yè)名稱分解所面臨的困難
針對(duì)將專業(yè)名稱分解為國(guó)標(biāo)專業(yè)集合的問題,一種實(shí)現(xiàn)手段是通過字符串間的包含運(yùn)算完成[8]。例如“材料類|含材料科學(xué)與工程、焊接技術(shù)與工程專業(yè)”,通過字符串包含運(yùn)算,可以將專業(yè)分解為“材料科學(xué)與工程”與“焊接技術(shù)與工程”兩個(gè)專業(yè)構(gòu)成的集合。然而在實(shí)際分解過程中,往往存在專業(yè)名稱多重包含、包含關(guān)系不明確、專業(yè)與專業(yè)類混合包含等問題,需要精心設(shè)計(jì)分解算法才能有效解決。
1)專業(yè)名稱多重包含:如果A專業(yè)名稱內(nèi)包含B專業(yè)名稱,就會(huì)導(dǎo)致專業(yè)名稱多重包含問題發(fā)生。例如按照字符串包含算法,“機(jī)械設(shè)計(jì)制造及其自動(dòng)化”會(huì)被分解為{機(jī)械設(shè)計(jì)制造及其自動(dòng)化,自動(dòng)化}國(guó)標(biāo)專業(yè)集合。
2)包含關(guān)系不明確:部分招生簡(jiǎn)章只提供了按類招生的專業(yè)類名稱,沒有明確指出該專業(yè)類具體包含哪些專業(yè),導(dǎo)致對(duì)其進(jìn)行國(guó)標(biāo)專業(yè)分解時(shí)缺乏足夠依據(jù)。
3)專業(yè)與專業(yè)類混合包含:是指一個(gè)專業(yè)名稱中既包括專業(yè)類的名稱,也包括具體的專業(yè)名稱,并且專業(yè)類和專業(yè)之間又存在復(fù)雜的包含關(guān)系。在國(guó)標(biāo)專業(yè)分解時(shí),需要詳細(xì)分析專業(yè)類和專業(yè)間的關(guān)系,確保國(guó)標(biāo)專業(yè)分解不出現(xiàn)任何遺漏。
2國(guó)標(biāo)專業(yè)名稱分解算法設(shè)計(jì)
為了解決上述問題,一方面需要確保長(zhǎng)專業(yè)名稱優(yōu)先匹配,一旦匹配上就從原始字符串中移除,進(jìn)而避免專業(yè)名稱多重包含問題;另一方面,需要構(gòu)造兩個(gè)集合,分別記錄拆分得到的專業(yè)類集合以及被拆分專業(yè)覆蓋的專業(yè)類集合,并且根據(jù)這些集合間的覆蓋關(guān)系,找出最大匹配集,實(shí)現(xiàn)完整的國(guó)標(biāo)專業(yè)名稱分解。
具體算法分兩步進(jìn)行:
第一步:如果專業(yè)名稱和某國(guó)標(biāo)專業(yè)名稱完全相同,則直接映射為國(guó)標(biāo)專業(yè)名稱。
第二步:對(duì)于第一步無法處理的專業(yè)名稱,采用如圖1所示算法將專業(yè)名稱映射為國(guó)標(biāo)專業(yè)集合。
該算法的核心思想是:
1)將專業(yè)大類和專業(yè)名稱合并后按照字符串長(zhǎng)度排序,優(yōu)先匹配字符串長(zhǎng)度長(zhǎng)的匹配項(xiàng),一旦匹配成功,則將匹配串從原始專業(yè)名稱中剔除,進(jìn)而解決專業(yè)名稱多重包含的問題。
2)維護(hù)兩個(gè)集合,一個(gè)集合是拆解出來的專業(yè)所對(duì)應(yīng)的專業(yè)大類集合DisciplineOfMatchedMajor,另外一個(gè)是從專業(yè)名稱中解離出來的專業(yè)大類集合MatchedDiscipline,如果存在某專業(yè)大類D屬于MatchedDiscipline集合但不屬于DisciplineOfMatched?Major集合,則將專業(yè)大類D下面的所有專業(yè)加入國(guó)標(biāo)專業(yè)分解結(jié)果集中,目的是解決包含關(guān)系不明確、專業(yè)與專業(yè)類混合包含等問題。
3實(shí)驗(yàn)與結(jié)果分析
3.1實(shí)驗(yàn)方案構(gòu)造
3.1.1專業(yè)名稱多重包含實(shí)驗(yàn)
構(gòu)造專業(yè)名稱“機(jī)械類|[含機(jī)械工程、機(jī)械設(shè)計(jì)制造及其自動(dòng)化]”,用于檢測(cè)算法是否會(huì)錯(cuò)誤地將“自動(dòng)化”專業(yè)判別為“機(jī)械類”專業(yè)的組成部分。
3.1.2包含關(guān)系不明確實(shí)驗(yàn)
構(gòu)造專業(yè)名稱“機(jī)械類”,檢驗(yàn)在專業(yè)名稱未明確指出具體機(jī)械類專業(yè)包含哪些具體專業(yè)的情況下,算法能否將機(jī)械類下的所有專業(yè)加入國(guó)標(biāo)專業(yè)分解結(jié)果集。之所以采取此策略,主要考慮到該算法將來應(yīng)用至志愿填報(bào)系統(tǒng),要確??忌诎磭?guó)標(biāo)專業(yè)檢索時(shí),不出現(xiàn)任何潛在的遺漏情況。
3.1.3專業(yè)與專業(yè)類混合包含實(shí)驗(yàn)
構(gòu)造專業(yè)名稱“經(jīng)管試驗(yàn)班|[含工商管理類、管理科學(xué)與工程類、信息管理與信息系統(tǒng)、國(guó)際經(jīng)濟(jì)與貿(mào)易專業(yè)]”,該專業(yè)名稱中包含兩個(gè)國(guó)標(biāo)專業(yè)大類名稱{工商管理類,管理科學(xué)與工程類}和兩個(gè)國(guó)標(biāo)專業(yè)名稱{信息管理與信息系統(tǒng),國(guó)際經(jīng)濟(jì)與貿(mào)易},并且“信息管理與信息系統(tǒng)”是“管理科學(xué)與工程類”下的專業(yè)。該實(shí)驗(yàn)重點(diǎn)檢驗(yàn)算法在對(duì)該專業(yè)名稱進(jìn)行分解時(shí),是否考慮了以下因素:
1)國(guó)標(biāo)專業(yè){信息管理與信息系統(tǒng),國(guó)際經(jīng)濟(jì)與貿(mào)易}直接列入分解結(jié)果;
2)由于“管理科學(xué)與工程類”包含“信息管理與信息系統(tǒng)”,因此可以認(rèn)為該專業(yè)名稱中的“管理科學(xué)與工程類”已經(jīng)有了明確所指,因此不再對(duì)該專業(yè)大類進(jìn)行分解處理;
3)國(guó)標(biāo)專業(yè){信息管理與信息系統(tǒng),國(guó)際經(jīng)濟(jì)與貿(mào)易}集合中沒有一個(gè)專業(yè)屬于“工商管理類”,因此有必要將“工商管理類”下的所有專業(yè)納入拆分結(jié)果集。
3.2實(shí)驗(yàn)結(jié)果分析
3.2.1實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)1至實(shí)驗(yàn)3的國(guó)標(biāo)專業(yè)分解結(jié)果分別為:
實(shí)驗(yàn)1:機(jī)械類|[含機(jī)械工程、機(jī)械設(shè)計(jì)制造及其自動(dòng)化]?{機(jī)械設(shè)計(jì)制造及其自動(dòng)化,機(jī)械工程}
實(shí)驗(yàn)2:機(jī)械類?{機(jī)械工程,機(jī)械設(shè)計(jì)制造及其自動(dòng)化,材料成型及控制工程,機(jī)械電子工程,工業(yè)設(shè)計(jì),過程裝備與控制工程,車輛工程,汽車服務(wù)工程,機(jī)械工藝技術(shù),微機(jī)電系統(tǒng)工程,機(jī)電技術(shù)教育,汽車維修工程教育,智能制造工程,智能車輛工程,仿生科學(xué)與工程,新能源汽車工程,增材制造工程,智能交互設(shè)計(jì),應(yīng)急裝備技術(shù)與工程}
實(shí)驗(yàn)3:經(jīng)管試驗(yàn)班|[含工商管理類、管理科學(xué)與工程類、信息管理與信息系統(tǒng)、國(guó)際經(jīng)濟(jì)與貿(mào)易專業(yè)]?{信息管理與信息系統(tǒng),國(guó)際經(jīng)濟(jì)與貿(mào)易,工商管理,市場(chǎng)營(yíng)銷,會(huì)計(jì)學(xué),財(cái)務(wù)管理,國(guó)際商務(wù),人力資源管理,審計(jì)學(xué),資產(chǎn)評(píng)估,物業(yè)管理,文化產(chǎn)業(yè)管理,勞動(dòng)關(guān)系,體育經(jīng)濟(jì)與管理,財(cái)務(wù)會(huì)計(jì)教育,市場(chǎng)營(yíng)銷教育,零售業(yè)管理,創(chuàng)業(yè)管理,海關(guān)稽查}
上述實(shí)驗(yàn)結(jié)果達(dá)到了國(guó)標(biāo)專業(yè)名稱分解算法的預(yù)期目標(biāo),有效解決了專業(yè)名稱多重包含、包含關(guān)系不明確、專業(yè)與專業(yè)類混合包含的問題。盡管分解結(jié)果不能完全體現(xiàn)高校招生專業(yè)的實(shí)際情況,但從志愿推薦填報(bào)的角度上講,該算法能夠給用戶提供更多的選擇,避免遺漏關(guān)鍵的專業(yè)信息。
3.2.2現(xiàn)有算法無法分解的專業(yè)名稱
盡管算法能夠有效地將專業(yè)名稱分解為國(guó)標(biāo)專業(yè)集合,但仍然存在部分專業(yè)名稱無法有效分解的情況。表1展示了河北2023年本科批物理組無法分解國(guó)標(biāo)專業(yè)集合的專業(yè)。這些專業(yè)數(shù)量較少,多為預(yù)科班或無特殊說明的試驗(yàn)班,無法從專業(yè)名稱中找到任何包含的國(guó)標(biāo)專業(yè)線索。
4結(jié)束語(yǔ)
本文針對(duì)將高考招生計(jì)劃中的專業(yè)名稱轉(zhuǎn)換為國(guó)標(biāo)專業(yè)集合的問題,梳理了國(guó)標(biāo)專業(yè)名稱分解過程中存在的專業(yè)名稱多重包含、包含關(guān)系不明確、專業(yè)與專業(yè)類混合包含等問題,有針對(duì)性地設(shè)計(jì)了國(guó)標(biāo)專業(yè)名稱分解算法。實(shí)驗(yàn)結(jié)果表明,該算法能夠有效解決上述問題,為高考志愿填報(bào)按國(guó)標(biāo)專業(yè)名稱檢索專業(yè)、專業(yè)間錄取分?jǐn)?shù)相似性規(guī)則挖掘以及在歷史數(shù)據(jù)缺失情況下對(duì)專業(yè)錄取分?jǐn)?shù)進(jìn)行預(yù)測(cè)提供了依據(jù),也為后續(xù)基于專業(yè)的高考大數(shù)據(jù)挖掘奠定了基礎(chǔ)。
參考文獻(xiàn):
[1]中華人民共和國(guó)國(guó)務(wù)院.國(guó)務(wù)院關(guān)于深化考試招生制度改革的實(shí)施意見[N].人民日?qǐng)?bào),2014-09-05(006).
[2]周凱,鄔學(xué)軍,沈守楓.新高考模式下志愿填報(bào)數(shù)學(xué)模型的研究[J].電腦知識(shí)與技術(shù),2018,14(19):18-19.
[3]邊帥.線上百分位回歸模型在高校錄取分?jǐn)?shù)預(yù)測(cè)工程中的應(yīng)用[D].唐山:華北理工大學(xué),2020.
[4]魏然.新高考6選3模式下高校錄取分?jǐn)?shù)預(yù)測(cè)方案設(shè)計(jì)[D].唐山:華北理工大學(xué),2021.
[5]王宏利.深度學(xué)習(xí)模型在高校錄取分?jǐn)?shù)預(yù)測(cè)工程中的應(yīng)用研究[D].唐山:華北理工大學(xué),2020.
[6]孫全亮,呂震宇.基于二部圖匹配算法的新高考專業(yè)歷史數(shù)據(jù)追蹤研究[J].電腦與信息技術(shù),2024,32(1):109-112,140.
[7]徐欣彤.基于機(jī)器學(xué)習(xí)的個(gè)性化高考志愿填報(bào)推薦[D].蘇州:蘇州大學(xué),2023.
[8]劉鳳霞.利用C語(yǔ)言庫(kù)函數(shù)實(shí)現(xiàn)常見的字符串操作[J].電腦編程技巧與維護(hù),2009(6):32-33.
【通聯(lián)編輯:代影】
基金項(xiàng)目:河北省研究生專業(yè)學(xué)位教學(xué)案例庫(kù)建設(shè)項(xiàng)目(項(xiàng)目編號(hào):KCJSZ2024056)