書名:《人工智能與大數(shù)據(jù)技術(shù)導(dǎo)論》
作者:楊正洪 郭良越 劉瑋
出版社:清華大學(xué)出版社
ISBN:978-7-3025-1798-6
出版時(shí)間:2018年12月
定價(jià):98 元
2017年由于人工智能技術(shù)的應(yīng)用范圍迅速拓展而被稱為人工智能元年。但在教育領(lǐng)域,因?yàn)橄嚓P(guān)數(shù)據(jù)收集難度較高,人工智能技術(shù)驅(qū)動(dòng)下的智能/智慧教育領(lǐng)域發(fā)展的速度一直差強(qiáng)人意。直到2020年,大數(shù)據(jù)技術(shù)支撐下的人工智能才真正以奇點(diǎn)模式迅速覆蓋教育領(lǐng)域,徹底改變了人們的學(xué)習(xí)和教學(xué)工作方式。由楊正洪、郭良越和劉瑋編著、清華大學(xué)出版社于2019年出版的《人工智能與大數(shù)據(jù)技術(shù)導(dǎo)論》一書,深入淺出地闡述了人工智能與大數(shù)據(jù)涉及的技術(shù)邏輯與理論基礎(chǔ),進(jìn)而幫助讀者全面理解人工智能技術(shù)的知識(shí)構(gòu)架。
《人工智能與大數(shù)據(jù)技術(shù)導(dǎo)論》全書共包括十六章,主要內(nèi)容包括人工智能的整體概述,AI 產(chǎn)業(yè)、數(shù)據(jù)、機(jī)器學(xué)習(xí)概述,模型、機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)、TensorFlow、神經(jīng)網(wǎng)絡(luò)、知識(shí)圖譜、數(shù)據(jù)挖掘以及銀行業(yè)、醫(yī)療、工農(nóng)業(yè)等行業(yè)人工智能的應(yīng)用情況。同時(shí),該書附錄部分還給出了極富參考價(jià)值的大數(shù)據(jù)與人工智能產(chǎn)業(yè)參考資料。
數(shù)據(jù)作為推動(dòng)AI 智能發(fā)展的三大動(dòng)力之一,是驅(qū)動(dòng)AI 智能發(fā)展最核心的生產(chǎn)要素。2020年以前一直是智能教育發(fā)展的瓶頸。主要原因有兩點(diǎn),一方面,教育數(shù)據(jù)的增長(zhǎng)與金融、廣告、影視等行業(yè)的大數(shù)據(jù)形成鮮明對(duì)比,教育數(shù)據(jù)的豐富與否制約著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)在智慧教育中的應(yīng)用。另一方面,數(shù)據(jù)產(chǎn)生價(jià)值的難度大、鏈條長(zhǎng),涉及數(shù)據(jù)的采集、整合與分析等多個(gè)平臺(tái)的協(xié)作,只有運(yùn)用合理的數(shù)據(jù)平臺(tái)才能有效縮短這一鏈條。
大數(shù)據(jù)實(shí)現(xiàn)圖像識(shí)別、語音識(shí)別等AI 技術(shù),需要依靠機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)基于概率、統(tǒng)計(jì)、優(yōu)化等數(shù)學(xué)理論,其是基于一系列算法的解決問題的一種方法,能夠使機(jī)器從大量樣本數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)中暗藏的規(guī)律并自動(dòng)學(xué)習(xí)規(guī)則,最終實(shí)現(xiàn)預(yù)測(cè)未知數(shù)據(jù)。機(jī)器學(xué)習(xí)的本質(zhì)即通過大量樣本的訓(xùn)練獲得經(jīng)驗(yàn)?zāi)P?,最終產(chǎn)生預(yù)測(cè)新事物的能力,是對(duì)輸入到輸出的映射。
機(jī)器學(xué)習(xí)的任務(wù)流程一般包括數(shù)據(jù)導(dǎo)入、探索性分析、數(shù)據(jù)清洗、特征工程、算法選擇和優(yōu)化、模型訓(xùn)練和評(píng)估等六個(gè)步驟,并針對(duì)不同的具體任務(wù)會(huì)存在差異和側(cè)重。在數(shù)據(jù)導(dǎo)入環(huán)節(jié),以圖片或音頻等形式呈現(xiàn)的原始數(shù)據(jù),需先轉(zhuǎn)化成機(jī)器學(xué)習(xí)算法能夠讀入的結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)的特征是以列的形式展開。在探索性分析環(huán)節(jié),往往通過可視化工具對(duì)原始數(shù)據(jù)進(jìn)行初步分析,挖掘數(shù)據(jù)集中有價(jià)值的信息并為數(shù)據(jù)清洗和特征工程(特征提?。┨峁┓较?,而特征提取是進(jìn)行機(jī)器學(xué)習(xí)建模前的最為重要且極為耗時(shí)的一個(gè)環(huán)節(jié)。模型的訓(xùn)練即參數(shù)的求解,需通過算法來求解參數(shù),以盡可能找到誤差最小的參數(shù)為目標(biāo),誤差函數(shù)的大小成為評(píng)估參數(shù)優(yōu)劣的標(biāo)準(zhǔn),可見參數(shù)的確定非常關(guān)鍵。
以海量數(shù)據(jù)積累為基礎(chǔ)的大數(shù)據(jù)、算法和并行計(jì)算能力是構(gòu)成人工智能發(fā)展的三要素。開源的機(jī)器學(xué)習(xí)平臺(tái)能大大縮短開發(fā)時(shí)間,有效提升訓(xùn)練結(jié)果。機(jī)器學(xué)習(xí)首選的常用編程語言Python,內(nèi)置許多預(yù)先寫好的實(shí)用代碼Iibrary,這便于直接用來解決機(jī)器學(xué)習(xí)遇到的實(shí)際問題。Python 具有完備的機(jī)器學(xué)習(xí)庫,能夠整合大量機(jī)器學(xué)習(xí)模型,使用者即使不懂模型的算法和原理,只需調(diào)動(dòng)程序包,即可獲得需要的結(jié)果。當(dāng)然,受數(shù)據(jù)集、結(jié)構(gòu)等多種因素的制約,沒有一種算法能夠解決所有問題,研究者需針對(duì)不同問題嘗試不同的算法,然后通過保留的測(cè)試集對(duì)性能進(jìn)行評(píng)估,進(jìn)而選出最佳的算法。
隨著訓(xùn)練深度的加深及神經(jīng)網(wǎng)絡(luò)新思路的出現(xiàn),深度學(xué)習(xí)算法取得了顛覆性突破。它改變了傳統(tǒng)機(jī)器學(xué)習(xí)通過算法對(duì)數(shù)據(jù)處理、分類、選取特征的路徑,其模仿生物學(xué)神經(jīng)元傳遞的過程,運(yùn)用復(fù)雜模型建構(gòu)多層神經(jīng)網(wǎng)絡(luò),這種近似人腦工作原理的“特征學(xué)習(xí)器”使其能自主學(xué)習(xí)如何抓取特征,并通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)中的參數(shù),使神經(jīng)網(wǎng)絡(luò)模型具有預(yù)測(cè)能力。
數(shù)據(jù)智能技術(shù)驅(qū)動(dòng)下的人工智能技術(shù)雖然與最初人們對(duì)生物智能技術(shù)的期待存在一定差異,但其越來越多地應(yīng)用于人們?nèi)粘I畹母鞣矫?。同時(shí)人工智能也正在改變著教育領(lǐng)域的發(fā)展,尤其是2020年大規(guī)模的線上教學(xué)必然產(chǎn)生大量的教育教學(xué)數(shù)據(jù),海量的教育教學(xué)數(shù)據(jù)正加速驅(qū)動(dòng)智能教育時(shí)代的來臨。