林 鑫 ,黃雅蓮 ,楊 建 ,唐 平 △
1.成都醫(yī)學(xué)院 心理學(xué)院(成都 610500);2.成都醫(yī)學(xué)院四川應(yīng)用心理學(xué)研究中心(成都 610500);3.成都醫(yī)學(xué)院第一附屬醫(yī)院 臨床醫(yī)學(xué)院(成都 610500)
2022年全國高校畢業(yè)生人數(shù)將再創(chuàng)歷史新高,達(dá)1 076萬人,較上年凈增167萬人,這是我國高等學(xué)校畢業(yè)生規(guī)模首次突破1 000萬人,同時(shí)也是近年來增長人數(shù)最多的一年。與此同時(shí),受新型冠狀病毒肺炎疫情的影響,就業(yè)市場加劇了對(duì)大學(xué)畢業(yè)生的擠壓效應(yīng),就業(yè)渠道被迫從線下轉(zhuǎn)向線上[1]。有研究[2]表明,疫情下的不確定性導(dǎo)致個(gè)人易產(chǎn)生就業(yè)焦慮危機(jī)。受這些不確定性因素的影響,嚴(yán)峻的就業(yè)形勢(shì)加上畢業(yè)壓力導(dǎo)致近半數(shù)的學(xué)生在求職和等待中感到焦慮[3]。而醫(yī)學(xué)生因?yàn)閷I(yè)性強(qiáng)、培養(yǎng)周期長、臨床實(shí)踐技能要求高以及就業(yè)面窄等特點(diǎn),其就業(yè)焦慮問題更加突出[4]。
就業(yè)焦慮是在就業(yè)情境下,對(duì)求職過程與結(jié)果的負(fù)面預(yù)期形成的消極情緒體驗(yàn),以及帶來的生理心理變化。長期焦慮還會(huì)降低工作效率,引發(fā)身心疾病[1]。研究[5]表明,在大學(xué)生群體中,醫(yī)學(xué)生的就業(yè)焦慮程度相較于非醫(yī)學(xué)生有明顯差異,性別、學(xué)歷、經(jīng)濟(jì)條件、社會(huì)支持、自我效能感等均是就業(yè)焦慮的影響因素[5-7]。但目前的研究多以單一因素與就業(yè)焦慮的相關(guān)性為主要研究對(duì)象,或以傳統(tǒng)的統(tǒng)計(jì)方法為主[8]。傳統(tǒng)的統(tǒng)計(jì)方法對(duì)原始數(shù)據(jù)要求高,比如數(shù)據(jù)要正態(tài)分布、方差齊性等。然而,就業(yè)焦慮的構(gòu)成是多因素共同作用的結(jié)果,相關(guān)性研究無法為實(shí)際應(yīng)用提供有力的參考,且多種影響因素的數(shù)據(jù)類型不同,分布情況未知,使用傳統(tǒng)的統(tǒng)計(jì)方法很難進(jìn)行多因素的綜合分析和預(yù)測。機(jī)器學(xué)習(xí)可較好地解決這一困境。機(jī)器學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型,并運(yùn)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測與分析的一門學(xué)科[9];它可以捕獲相關(guān)預(yù)測因子的同時(shí)效應(yīng),還可以根據(jù)包含多種變量和小樣本量的數(shù)據(jù)實(shí)現(xiàn)可靠因果關(guān)系推斷[10],且大多數(shù)算法對(duì)數(shù)據(jù)分類和分布沒有苛刻的要求。隨機(jī)森林算法是當(dāng)下機(jī)器學(xué)習(xí)中較熱門的集成算法里具有代表性的一類,這類算法是通過數(shù)據(jù)構(gòu)建多個(gè)模型,繼承所有模型的建模結(jié)果,因此這類算法應(yīng)用面很廣。
本研究從就業(yè)焦慮的影響因素入手調(diào)查,采用高校畢業(yè)生就業(yè)焦慮診斷問卷測量就業(yè)焦慮,通過機(jī)器學(xué)習(xí)中的隨機(jī)森林算法構(gòu)建預(yù)測模型,以期高效篩選高就業(yè)焦慮的學(xué)生,及時(shí)開展精準(zhǔn)預(yù)防與干預(yù)。
根據(jù)當(dāng)前新型冠狀病毒肺炎疫情防控的要求,于2020年12月至2021年3月采用方便取樣的方法,用問卷星對(duì)某醫(yī)學(xué)院校臨床專業(yè)的1 025名學(xué)生進(jìn)行線上問卷調(diào)查。線上問卷開始前,調(diào)查對(duì)象需填寫一份知情同意書,同意后開始問卷調(diào)查,完成任務(wù)后給予一定的報(bào)酬。本次調(diào)研共回收問卷1 025份,根據(jù)問卷最后1題“你是否有認(rèn)真答卷”以及答題時(shí)間<180 s為依據(jù),對(duì)問卷進(jìn)行篩選,最終篩選出有效問卷753份,有效回收率為73.46%。
1.2.1 一般人口學(xué)信息 主要收集性別、學(xué)歷、經(jīng)濟(jì)條件、就業(yè)意向、每月生活費(fèi)等基本信息。
1.2.2 高校畢業(yè)生就業(yè)焦慮診斷問卷 使用由張曉琴[11]在2005年編制的《高校畢業(yè)生就業(yè)焦慮診斷問卷》測定醫(yī)學(xué)生就業(yè)焦慮現(xiàn)狀。該量表共包括30個(gè)條目,采用5級(jí)評(píng)分。量表得分越高,則表示就業(yè)焦慮越嚴(yán)重。本研究中該問卷的Cronbach's α系數(shù)為 0.77,Bartlett球形檢驗(yàn)P值顯著,KMO為0.84。
1.2.3 就業(yè)認(rèn)知評(píng)價(jià)量表 該量表由Caska[12]編制。采用5級(jí)評(píng)分,共包含2個(gè)條目,分別是測量挑戰(zhàn)認(rèn)知評(píng)價(jià)和威脅認(rèn)知評(píng)價(jià)。本研究中該問卷的Cronbach's α系數(shù)為 0.65,Bartlett球形檢驗(yàn)P值顯著,KMO為 0.77。
1.2.4 心理資本問卷 該問卷由張闊等[13]研究編制,包括自我效能感、韌性、樂觀、希望4個(gè)維度,共 26個(gè)題項(xiàng)。各條目按7級(jí)記分法,分?jǐn)?shù)越接近 7 表明符合程度越高,分?jǐn)?shù)越接近 1 表明符合程度越低。本研究中該問卷的Cronbach's α系數(shù)為 0.70,Bartlett球形檢驗(yàn)P值顯著,KMO為 0.83。
1.2.5 領(lǐng)悟社會(huì)支持量表 該量表共有12 個(gè)自評(píng)項(xiàng)目,包括家庭支持、朋友支持和其他支持3個(gè)維度,采用7級(jí)評(píng)分法[14-15]。以總分反映個(gè)人領(lǐng)悟社會(huì)支持的特質(zhì),得分越高表明領(lǐng)悟到的社會(huì)支持越高。本研究中該問卷的Cronbach's α系數(shù)為 0.74,Bartlett球形檢驗(yàn)P值顯著,KMO為0.80。
1.2.6 簡易應(yīng)對(duì)方式問卷 該問卷由王端衛(wèi)[16]編制,共包括20個(gè)條目,分為積極應(yīng)對(duì)(1~12條)和消極應(yīng)對(duì)(13~20條)兩個(gè)維度,采用4級(jí)評(píng)分法。維度計(jì)分越高表示越傾向采取某一方式。本研究中該問卷的Cronbach's α系數(shù)為 0.65,Bartlett球形檢驗(yàn)P值顯著,KMO為 0.77。
1.2.7 抑郁自評(píng)量表 該問卷共20個(gè)條目,采用4級(jí)評(píng)分法評(píng)定抑郁主觀感受的嚴(yán)重程度[17]。本研究中該問卷的Cronbach's α系數(shù)為 0.61,Bartlett球形檢驗(yàn)P值顯著,KMO為 0.82。
1.2.8 焦慮自評(píng)量表 該問卷共20個(gè)條目,采用4級(jí)評(píng)分法評(píng)定抑郁主觀感受的嚴(yán)重程度[18]。本研究中該問卷的Cronbach's α系數(shù)為 0.81,Bartlett球形檢驗(yàn)P值顯著,KMO為 0.90。
使用 SPSS 21.0對(duì)收集數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì),分析樣本的基本人口學(xué)變量以及就業(yè)焦慮、心理資本、就業(yè)認(rèn)知評(píng)級(jí)、領(lǐng)悟社會(huì)支持和焦慮抑郁等狀況。為了提高模型的可解釋性,對(duì)名義變量進(jìn)行獨(dú)熱編碼,對(duì)有序變量不進(jìn)行處理。以基于研究目的預(yù)測高焦慮人群為準(zhǔn),將就業(yè)焦慮得分先轉(zhuǎn)化為Z分?jǐn)?shù),再以Z>1、Z≤1為標(biāo)準(zhǔn),將被試者分為高和中低兩個(gè)焦慮水平組。由此得出的兩個(gè)組既可以達(dá)到篩選高就業(yè)焦慮人群的目標(biāo),又能減輕模型計(jì)算的負(fù)荷。
使用Python(3.8版本)軟件,基于scikit.learn 1.1.0版本構(gòu)建模型。根據(jù)機(jī)器學(xué)習(xí)的隨機(jī)化原則,將原數(shù)據(jù)按7∶3比例分成訓(xùn)練集和測試集,訓(xùn)練集用于構(gòu)建模型,測試集用于驗(yàn)證模型效能。再根據(jù)數(shù)據(jù)類型,對(duì)名義變量進(jìn)行獨(dú)熱編碼。且考慮到最終模型的可解釋性,對(duì)數(shù)據(jù)不進(jìn)行標(biāo)準(zhǔn)化處理。根據(jù)數(shù)據(jù)標(biāo)簽,也就是就業(yè)焦慮人群的比例,發(fā)現(xiàn)樣本呈現(xiàn)不均衡現(xiàn)象。因此,按照過采樣算法中的SMOTE算法[19],處理數(shù)據(jù)不平衡問題。經(jīng)過數(shù)據(jù)預(yù)處理后,進(jìn)行特征選擇中的包裝法,選擇重要性前10的特征構(gòu)建模型。所謂包裝法[20]是指通過不斷修剪當(dāng)前特征中最不重要的特征,并不斷在修剪的集合上遞歸地重復(fù)該過程,直到最終到達(dá)所需數(shù)量的特征。再運(yùn)用隨機(jī)森林算法對(duì)這前10的特征,通過調(diào)整參數(shù)構(gòu)建模型。最后,用精確度即模型預(yù)測正確的比例、敏感度即能準(zhǔn)確找出高就業(yè)焦慮群體的能力、特異度即找出中低焦慮群體的能力以及受試者工作特征曲線(receiver operating characteristic curve,ROC)下的面積(area under curve,AUC)作為評(píng)價(jià)模型的指標(biāo),查看預(yù)測模型的效能。
本研究中,高焦慮82名(10.9%),而中低焦慮671名(89.1%)。其中女450名(59.8%),男 303名(40.2%);本科生 476名(63.2%),??粕?277名(36.8%);戶籍所在地為城鎮(zhèn)264名(35.1%),農(nóng)村489名(64.9%);在就業(yè)意向中,未來就業(yè)與專業(yè)相同578名(76.2%),與自身專業(yè)不同的有175名(23.2%)(表1)。
表1 研究對(duì)象基本信息描述性統(tǒng)計(jì)
為構(gòu)建模型和檢驗(yàn)?zāi)P托芩褂玫臄?shù)據(jù)集不重復(fù),本研究利用機(jī)器學(xué)習(xí)的隨機(jī)化原則,將原數(shù)據(jù)按7∶3比例拆分為訓(xùn)練集和測試集(表2)。
表2 數(shù)據(jù)集拆分后焦慮水平分布情況
將性別、戶籍、培養(yǎng)層次、每個(gè)月生活費(fèi)、就業(yè)意向和就業(yè)認(rèn)知評(píng)價(jià)量表、心理資本問卷、領(lǐng)悟社會(huì)支持量表、簡易應(yīng)對(duì)方式問卷、抑郁自評(píng)量表、焦慮自評(píng)量表6個(gè)量表中的每1項(xiàng)條目作為輸入特征,共計(jì)109個(gè)特征。其中性別、戶籍、培養(yǎng)層次和就業(yè)意向數(shù)據(jù)名義變量,需要進(jìn)行獨(dú)熱編碼。使用特征選擇中的包裝法,將109個(gè)特征納入隨機(jī)森林算法進(jìn)行特征選擇。篩選出重要性排名前10的特征,分別是??茖W(xué)歷、戶籍所在地為城鎮(zhèn)、每月生活費(fèi)、《就業(yè)認(rèn)知評(píng)價(jià)》中的“一想到不得不要去找工作,我就感覺恐懼和害怕”、《心理資本問卷》中“生活中的不愉快,我很少在意”“不順心的時(shí)候,我容易垂頭喪氣”“壓力大的時(shí)候,我會(huì)吃不好,睡不香”、《抑郁自評(píng)量表》中的“我覺得做出決定是容易的”以及《焦慮自評(píng)量表》中的“我因?yàn)槲竿春拖涣级鄲馈薄拔易鲐瑝?mèng)”(圖1)。
圖1 就業(yè)焦慮重要性前10的特征
通過隨機(jī)森林分類算法,構(gòu)建模型判斷測試集是否為高就業(yè)焦慮。該模型的預(yù)測準(zhǔn)確率為86.37%,敏感度為70.42%,特異度為81.85%,AUC為95.56%(圖2)。
圖2 預(yù)測模型下的ROC曲線
目前,在中國縣級(jí)以上醫(yī)院醫(yī)生基本需要碩士或以上學(xué)歷,有的甚至規(guī)定醫(yī)生要有工作經(jīng)歷并具備副高級(jí)職稱以上[21]。本研究所得的模型顯示,預(yù)測就業(yè)焦慮所占的比例最大的是??茖W(xué)歷,說明??茖W(xué)歷更易產(chǎn)生就業(yè)焦慮。究其原因,可能是大多??茖W(xué)生意識(shí)到在當(dāng)前社會(huì)背景下,學(xué)歷是求職的門檻。對(duì)于醫(yī)學(xué)專業(yè)來說,就業(yè)選擇面小,用人單位對(duì)學(xué)歷的要求越來越高。因此,??茖W(xué)歷在求職中并不占優(yōu)勢(shì),從而容易產(chǎn)生就業(yè)焦慮。
本研究顯示,預(yù)測就業(yè)焦慮占比第二位的是每月生活費(fèi),從每月生活費(fèi)可以在一定程度上推測家庭經(jīng)濟(jì)狀況。與多數(shù)探究就業(yè)焦慮影響因素的研究[22]結(jié)論相同。個(gè)體或家庭的經(jīng)濟(jì)水平可以影響未來的求職預(yù)期[23-24],如果經(jīng)濟(jì)有一定的保障,個(gè)體即便延緩就業(yè)也不需要對(duì)自己生活產(chǎn)生擔(dān)憂。因此,在讀期間也不容易出現(xiàn)就業(yè)焦慮。
此外,若戶籍所在地為城鎮(zhèn)也會(huì)對(duì)就業(yè)焦慮的預(yù)測產(chǎn)生一定的影響。新冠疫情爆發(fā)后,對(duì)不同戶籍的大學(xué)生就業(yè)焦慮研究出現(xiàn)了不同的結(jié)果。有研究[6,25]表明,農(nóng)村生源與城市生源在就業(yè)焦慮水平上有明顯差異,戶籍所在地為農(nóng)村的大學(xué)生更容易產(chǎn)生就業(yè)焦慮。也有研究[26]表明,兩者之間沒有明顯差異。而本研究預(yù)測模型顯示,對(duì)城市戶籍個(gè)體的甄別更易篩選出高就業(yè)焦慮特質(zhì),表明城市生源更易有就業(yè)焦慮,與之前的研究都不相同。因此,戶籍所在地這一特征是否為篩選高就業(yè)焦慮的指標(biāo),還需要擴(kuò)大樣本量繼續(xù)進(jìn)行探索。
而在被選出的10個(gè)特征中,各問卷?xiàng)l目占比最多的是心理資本問卷,占3條。這3個(gè)條目都屬于該問卷中的韌性維度。韌性是指個(gè)體能從逆境、挫折和失敗中快速恢復(fù)過來,甚至積極轉(zhuǎn)變和成長的能力[13]。已有研究[7,25]論證了心理韌性與就業(yè)焦慮的相關(guān)性。韌性作為個(gè)體的一種人格特質(zhì),面對(duì)難就業(yè)的特定逆境下,高韌性的個(gè)體擁有可以從中快速轉(zhuǎn)變、積極應(yīng)對(duì)的能力,從而能夠緩解就業(yè)焦慮[13]。因此,心理資本中的韌性維度可用來預(yù)測就業(yè)焦慮。
一項(xiàng)關(guān)于特質(zhì)焦慮和工作焦慮關(guān)系的研究[13]顯示,兩者有一定的相關(guān)性,不過就業(yè)焦慮不能完全由特質(zhì)焦慮代替,兩者并不完全相同。與一般的特質(zhì)焦慮相比,就業(yè)焦慮的本質(zhì)與求職和工作有關(guān),僅在特定情景下才會(huì)產(chǎn)生[27]。本研究結(jié)果顯示,焦慮自評(píng)量表有兩個(gè)條目納入模型的預(yù)測特征中,分別是“我因?yàn)槲竿春拖涣级鄲馈焙汀拔易鲐瑝?mèng)”。這兩個(gè)特征直接反應(yīng)個(gè)體的生理特征,可以更加客觀預(yù)測就業(yè)焦慮。因此,不僅可以從個(gè)體主觀報(bào)告上得知個(gè)體心理變化,還可以根據(jù)一些客觀的生理現(xiàn)象篩選出特定的心理狀態(tài)。
抑郁自評(píng)量表中“我覺得做出決定是容易的”條目得分對(duì)預(yù)測就業(yè)焦慮起著一定的影響。有研究[1]顯示,就業(yè)焦慮與所處的環(huán)境不確定性有高度的正相關(guān),特別是當(dāng)下疫情常態(tài)化和經(jīng)濟(jì)形式下行的環(huán)境下。因此,面對(duì)目前不確定的就業(yè)環(huán)境,個(gè)體如果擁有容易做決定的特質(zhì),對(duì)待擇業(yè)時(shí)就會(huì)及時(shí)擺脫不確定的情景,從而對(duì)就業(yè)焦慮具有緩沖作用。
《就業(yè)認(rèn)知評(píng)價(jià)》中“一想到不得不要去找工作,我就感覺恐懼和害怕”也對(duì)預(yù)測焦慮起著一定的影響。有研究[12]顯示,就業(yè)認(rèn)知能夠影響求職者的行動(dòng)能力。此外,有研究[28]對(duì)有就業(yè)焦慮的大學(xué)生進(jìn)行認(rèn)知重評(píng)訓(xùn)練和團(tuán)體訓(xùn)練,最后得到認(rèn)知重評(píng)訓(xùn)練在減少就業(yè)焦慮方面好于傳統(tǒng)的團(tuán)體咨詢。因此,可以通過積極的就業(yè)認(rèn)知干預(yù)個(gè)體的情緒體驗(yàn),減少焦慮等消極的情緒反應(yīng)。
在本研究的預(yù)測模型特征重要性中,自我效能感沒有排到前10位。有研究[7]顯示,自我效能感在一定程度上可以預(yù)測就業(yè)焦慮。面對(duì)不同的環(huán)境,自我效能感高的學(xué)生可以做出合理的選擇,自我效能感低的學(xué)生由于缺乏自信,容易產(chǎn)生焦慮。本研究所選取的特征中并沒有涵蓋自我效能感這一維度,可能是在眾多條目共同對(duì)就業(yè)焦慮的預(yù)測之下,削弱了自我效能感的影響力。
本研究利用機(jī)器學(xué)習(xí)中隨機(jī)森林分類算法,對(duì)臨床醫(yī)學(xué)專業(yè)學(xué)生就業(yè)焦慮的因素分析構(gòu)建了預(yù)測模型。在整個(gè)過程中,名義變量通過獨(dú)熱編碼后,使得模型最后生成有較好的可解釋性,且通過上采樣中的SMOTE算法對(duì)樣本不均衡問題進(jìn)行了處理,提高了預(yù)測模型效能的表現(xiàn)。在特征過程中的包裝法與隨機(jī)森林的結(jié)合使用下,將特征重要性數(shù)量化,簡潔直觀地反映了特征對(duì)就業(yè)焦慮的影響。
從預(yù)測模型評(píng)價(jià)指標(biāo)可以看出,本研究最終建立的就業(yè)焦慮模型在群體中有效分類的能力較高(占86.37%)。而篩選少數(shù)類,也就是高就業(yè)焦慮的人群能力的表現(xiàn)也較好(占70.42%)。由于高校對(duì)中低焦慮的群體篩選失誤需要付出一定的成本,所以在模型構(gòu)建中并沒有一味去追求篩選高焦慮的群體。因此,為了提高群體焦慮程度分類的準(zhǔn)確性,本研究納入了ROC曲線和AUC評(píng)價(jià)指標(biāo),95.56%的AUC表現(xiàn),說明預(yù)測模型在平衡篩選兩類群體的能力上表現(xiàn)優(yōu)異。但本研究的研究對(duì)象均來自同一所高校,可能存在取樣偏倚,且搜集到的影響就業(yè)焦慮的因素并不全面。未來可以依托大數(shù)據(jù)技術(shù),應(yīng)用機(jī)器學(xué)習(xí)方法對(duì)影響醫(yī)學(xué)生就業(yè)焦慮的因素進(jìn)行更深層次的挖掘與分析,建立更科學(xué)的預(yù)測模型。
構(gòu)建高就業(yè)焦慮人群的預(yù)測模型,為高校及時(shí)開展有針對(duì)性的就業(yè)前心理健康教育、職業(yè)生涯規(guī)劃指導(dǎo)與就業(yè)幫扶提供了參考依據(jù),有助于高效引導(dǎo)大學(xué)生樹立正確的就業(yè)認(rèn)知、降低就業(yè)焦慮風(fēng)險(xiǎn)、緩解大學(xué)生就業(yè)壓力、解決大學(xué)生就業(yè)矛盾,為促進(jìn)高校大學(xué)生就業(yè)工作高質(zhì)量發(fā)展提供了一定幫助。此外,本研究預(yù)測模型的特征均來源于個(gè)體基本信息和自評(píng)問卷得分,這提示個(gè)體可以通過這一模型預(yù)測自己未來的心理狀態(tài),一旦發(fā)現(xiàn)自己存在心理困擾,及時(shí)開展心理自助,形成客觀科學(xué)的自我認(rèn)知和求職意識(shí),正確面對(duì)就業(yè)。
綜上所述,本研究是基于問卷調(diào)查、機(jī)器學(xué)習(xí)中的隨森林算法,對(duì)臨床醫(yī)學(xué)生就業(yè)因素開展調(diào)查以及模型構(gòu)建。結(jié)果顯示,除學(xué)歷、戶籍、生活費(fèi)因素外,心理韌性、抑郁自評(píng)量表、焦慮自評(píng)量表、就業(yè)認(rèn)知評(píng)價(jià)量表中相關(guān)條目都對(duì)就業(yè)焦慮有著重要的影響;并且構(gòu)建的醫(yī)學(xué)生就業(yè)焦慮預(yù)測模型在各項(xiàng)指標(biāo)上都有良好的表現(xiàn),可以為篩選在校醫(yī)學(xué)生就業(yè)焦慮和心理健康輔導(dǎo)提供科學(xué)依據(jù)。