范彥勤 覃楊森 史旭明 袁媛
[摘 要] 《機(jī)器學(xué)習(xí)》教學(xué)內(nèi)容理論深、算法多、難度大,難以理解,造成學(xué)習(xí)興趣難以維持和提高,采用案例化的教學(xué)方法是改善這一困境的有益嘗試。該過程可讓學(xué)生從實(shí)際場(chǎng)景入手,由淺入深,逐步引導(dǎo)學(xué)生解決問題,既鞏固已學(xué)理論知識(shí),又讓學(xué)生掌握新課程內(nèi)容,激發(fā)學(xué)生的積極性和參與度。給出一個(gè)貝葉斯分類器案例教學(xué)過程,實(shí)踐證明,該方法能夠有效地幫助學(xué)生掌握貝葉斯分類器的分類過程及實(shí)際應(yīng)用現(xiàn)狀,并為他們以后的工作打下基礎(chǔ)。
[關(guān)鍵詞] 機(jī)器學(xué)習(xí);案例教學(xué);貝葉斯分類器
[基金項(xiàng)目] 2019年度桂林航天工業(yè)學(xué)院教改項(xiàng)目“大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)課程建設(shè)研究”(2019JB28)
[作者簡(jiǎn)介] 范彥勤(1988—),女,河南駐馬店人,碩士,桂林航天工業(yè)學(xué)院理學(xué)院助教,研究方向?yàn)樨惾~斯網(wǎng)絡(luò)及概率圖模型;覃楊森(1986—),男(壯族),廣西來賓人,碩士,桂林航天工業(yè)學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院工程師,研究方向?yàn)橛?jì)算機(jī)軟件技術(shù)。
[中圖分類號(hào)] G642 ? ?[文獻(xiàn)標(biāo)識(shí)碼] A ? ?[文章編號(hào)] 1674-9324(2020)43-0109-02 ? ?[收稿日期] 2020-03-23
機(jī)器學(xué)習(xí)作為人工智能發(fā)展最快的分支之一,其理論和方法已被廣泛應(yīng)用于各領(lǐng)域。它是一門多領(lǐng)域交叉學(xué)科,學(xué)習(xí)算法多而抽象,不易理解掌握,容易導(dǎo)致教學(xué)理論與實(shí)踐脫節(jié)[1-2]。同時(shí)大部分教材及參考書,包括很多的教學(xué)過程,重在抽象概念和課程理論的講解,缺乏結(jié)合案例。
一、原理教學(xué)設(shè)計(jì)
(一)貝葉斯分類器的信用評(píng)估原理
貝葉斯分類器[3-4]的信用評(píng)估原理是在個(gè)人信用的先驗(yàn)概率基礎(chǔ)上,利用貝葉斯公式計(jì)算出類別的后驗(yàn)概率,將后驗(yàn)概率最大的類作為信用評(píng)估所屬的類。
(二)構(gòu)造樸素貝葉斯分類器(NB)
樸素貝葉斯分類器是最簡(jiǎn)單的貝葉斯分類器,具有高效率和良好分類精度的優(yōu)點(diǎn)。該分類器將類變量作為父節(jié)點(diǎn),屬性變量作為子節(jié)點(diǎn),并假定子節(jié)點(diǎn)之間相互獨(dú)立。
(三)結(jié)合案例建立個(gè)人信用評(píng)估模型
1.采集獲取個(gè)人信用評(píng)估數(shù)據(jù),對(duì)其預(yù)處理。
2.利用訓(xùn)練樣本在NB分類器上構(gòu)建模型,具體如下:(1)根據(jù)貝葉斯分類器結(jié)構(gòu)學(xué)習(xí)算法,得到最優(yōu)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu);(2)學(xué)習(xí)貝葉斯分類器的條件概率分布。
對(duì)于樸素貝葉斯分類器(NB),由于該分類器的網(wǎng)絡(luò)圖中各指標(biāo)變量間是相互獨(dú)立的,則彼此之間不再需要進(jìn)一步的結(jié)構(gòu)學(xué)習(xí),只需要估計(jì)出指標(biāo)變量的條件概率即可。一般采用頻率估計(jì)的方法對(duì)離散型指標(biāo)變量進(jìn)行估計(jì);對(duì)于連續(xù)屬性變量一般把正態(tài)分布設(shè)定為其分布函數(shù)。
3.分類測(cè)試集?;谝延?xùn)練好的貝葉斯分類模型進(jìn)行分類。
4.輸出分類結(jié)果。
二、案例應(yīng)用
(一)樣本數(shù)據(jù)收集
給定數(shù)據(jù)為UCI[5]上德國(guó)標(biāo)準(zhǔn)個(gè)人信貸數(shù)據(jù),該數(shù)據(jù)庫主要用于評(píng)估個(gè)人信用的研究。該樣本數(shù)據(jù)共1000條,信用結(jié)果分好和壞兩種,其中評(píng)估結(jié)果為好客戶700條,壞客戶300條。同時(shí)每個(gè)樣本中有21個(gè)變量,20個(gè)為屬性指標(biāo)變量,1個(gè)為類變量。
(二)數(shù)據(jù)預(yù)處理
樣本數(shù)據(jù)20個(gè)屬性變量中2-5-8-11-13-16-18為連續(xù)屬性,其余為離散屬性。屬性變量類型不統(tǒng)一,使用前需將數(shù)據(jù)全部轉(zhuǎn)化為離散型。處理方法:對(duì)于離散型數(shù)據(jù),保留其實(shí)際數(shù)值;對(duì)于連續(xù)型數(shù)據(jù),需將其轉(zhuǎn)化成離散型數(shù)據(jù)。此外,需對(duì)各指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
三、應(yīng)用分析與總結(jié)
模型實(shí)現(xiàn)方法比較多,大家可以使用Python,C,MATLAB等編程語言,下面我們提供具體算法如下:
1.輸入訓(xùn)練樣本,定義類變量和屬性變量。
3.分類測(cè)試。
我們采用五折交叉驗(yàn)證方法進(jìn)行計(jì)算,用Matlab編制并運(yùn)行了NB的分類程序,各類的先驗(yàn)概率按訓(xùn)練樣本中的各類占訓(xùn)練樣本總數(shù)的比例計(jì)算。其中定義第一類錯(cuò)誤為將壞客戶錯(cuò)判為好客戶的比率;第二類錯(cuò)誤為將好客戶錯(cuò)判為壞客戶的比率,總分類錯(cuò)誤為總分類錯(cuò)判人數(shù)占樣本總?cè)藬?shù)的比率。最終實(shí)現(xiàn)分類結(jié)果為:第一類錯(cuò)判比率0.1357;第二類錯(cuò)判比率0.4833;總錯(cuò)判比率0.2400。通過引入信用評(píng)估案例,學(xué)生學(xué)習(xí)主動(dòng)性高,結(jié)合之前所學(xué)的編程及建模思想,較好的掌握了貝葉斯分類器的分類應(yīng)用,可有效推廣至其他應(yīng)用領(lǐng)域中。
四、結(jié)束語
機(jī)器學(xué)習(xí)作為一門數(shù)學(xué)理論深且實(shí)踐操作難的課程,如何將抽象、枯燥的理論知識(shí)簡(jiǎn)單有效地傳授給學(xué)生,顯得尤為重要。本文以教學(xué)目標(biāo)為出發(fā)點(diǎn),將實(shí)際應(yīng)用案例引入機(jī)器學(xué)習(xí)教學(xué)中,可以讓學(xué)生解決實(shí)際問題的過程中。
參考文獻(xiàn)
[1]李勇.本科機(jī)器學(xué)習(xí)課程教改實(shí)踐與探索[J].計(jì)算機(jī)教育,2015(13):63-66.
[2]閔鋒,魯統(tǒng)偉.《機(jī)器學(xué)習(xí)》課程教學(xué)探索與實(shí)踐[J].教育教學(xué)論壇,2014(53):158-159.
[3]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2018:13-16.
[4]張連文,郭海鵬.貝葉斯網(wǎng)引論[M].北京:科技出版社,2006:80-85.
[5]Asuncion A,Newman D J.UCI Repository of Machine Learning Databases[DB/OL][http://www.ics.uci.edu/~mlearn/MLRepository.html].Irvine,CA:University of California,Department of Information and Computer Science,2007.