趙 莉
(上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201620)
隨著數(shù)據(jù)井噴、算法算力的突破,人工智能已然成為全球新一輪科技革命與產(chǎn)業(yè)革新的核心驅(qū)動(dòng)力。目前,人工智能技術(shù)已被廣泛應(yīng)用于石油勘探、醫(yī)療衛(wèi)生、智能制造等領(lǐng)域,取得了較好的應(yīng)用成效?!俺笠?guī)模智力模型”時(shí)代的來(lái)臨,人工智能專業(yè)的創(chuàng)新型、應(yīng)用型人才培養(yǎng)成為實(shí)現(xiàn)我國(guó)2030年總體戰(zhàn)略目標(biāo)的重中之重。
人工智能的應(yīng)用與發(fā)展方興未艾,為人工智能專業(yè)的建設(shè)提供了前所未有的機(jī)遇。截止到去年,根據(jù)教育部網(wǎng)站公布的普通高等學(xué)校本科專業(yè)備案和審批結(jié)果公布,在三年來(lái)公布的高校新增本科專業(yè)名單中,人工智能專業(yè)排行第一,成為新增備案專業(yè)數(shù)量最多的學(xué)科[1-5]。各大高校紛紛利用學(xué)校學(xué)術(shù)資源,開(kāi)設(shè)了具有學(xué)校特色的培養(yǎng)項(xiàng)目,致力于培養(yǎng)創(chuàng)新性人才。
早在2017年,Python語(yǔ)言就取代C#,Java,C與C++,成為世界腳本語(yǔ)言排行第一的通用型語(yǔ)言[6-10]。在人工智能所覆蓋的六大核心領(lǐng)域──視覺(jué)、語(yǔ)言、認(rèn)知、機(jī)器人、機(jī)器學(xué)習(xí)、多智能體,Python幾乎無(wú)處不在。
該課程建設(shè),通過(guò)對(duì)Python語(yǔ)言“膠水”融合能力的發(fā)掘,及軟件自身“開(kāi)源”基因的運(yùn)用,快速、有效地彌補(bǔ)數(shù)字鴻溝,為全面提升人工智能專業(yè)本科生的實(shí)踐能力與科學(xué)素養(yǎng),培養(yǎng)人工智能應(yīng)用工程師探索有效途徑。本文對(duì)Python語(yǔ)言課程建設(shè)的優(yōu)點(diǎn)、痛點(diǎn)、難點(diǎn)等工作進(jìn)行了一一探討。
如前所述,Python語(yǔ)言是一門(mén)免費(fèi)、開(kāi)源、跨平臺(tái)的“膠水語(yǔ)言”,被譽(yù)為世界上最簡(jiǎn)單的語(yǔ)言[11]。其簡(jiǎn)潔、易讀、可擴(kuò)展成為Python語(yǔ)言最顯著的優(yōu)勢(shì)。無(wú)論是計(jì)算機(jī)或非計(jì)算機(jī)專業(yè),Python語(yǔ)言已然走向了本??圃盒5恼n堂。國(guó)內(nèi)外高校,諸如清華北大、斯坦福大學(xué)等世界一流大學(xué),紛紛將其列入非計(jì)算機(jī)專業(yè)學(xué)生的必修名單。
此外,Python功能強(qiáng)大、數(shù)量眾多的擴(kuò)展庫(kù),形成了豐富多彩的Python生態(tài)圈,其官網(wǎng)的衍生品數(shù)量達(dá)到了一百多萬(wàn)[12],簡(jiǎn)化了開(kāi)發(fā)的復(fù)雜度,使得人們不必反復(fù)糾結(jié)于一些基礎(chǔ)的“造輪子”問(wèn)題,而將注意力集中在系統(tǒng)開(kāi)發(fā)與算法優(yōu)化本身,從而在功能多樣性與開(kāi)發(fā)周期之間達(dá)到動(dòng)態(tài)平衡。
基于以上現(xiàn)狀,使用Python語(yǔ)言成為一種大勢(shì)所趨,為人工智能的后續(xù)課程建立了天然優(yōu)勢(shì)。功能強(qiáng)大的標(biāo)準(zhǔn)庫(kù),與日新月異的第三方庫(kù)奠定了Python未來(lái)發(fā)展的基石[13],是Python發(fā)展壯大的基礎(chǔ),官網(wǎng)提供的第三方庫(kù)主要基于以下四個(gè)方面:
2.2.1 文本處理
文本處理是一種各行各業(yè)的常規(guī)功能,一般需要使用Office辦公軟件。文本處理過(guò)程一般涉及關(guān)鍵詞提取、排序、錯(cuò)別字糾正、句法分析等內(nèi)容。以人工為主,功能鍵與快捷鍵為輔,錯(cuò)誤率高,耗時(shí)較長(zhǎng)。10行代碼便創(chuàng)建了一個(gè)可以自動(dòng)生成10000個(gè)文檔的答辯決議書(shū),5分鐘內(nèi)統(tǒng)計(jì)平均分、投票表決數(shù)的技能,在過(guò)去屬于高級(jí)辦公技能,門(mén)檻很高。擁有了Python語(yǔ)言之后,通過(guò)requests庫(kù)抓取網(wǎng)頁(yè)數(shù)據(jù),使用BeautifulSoup解析網(wǎng)頁(yè)并清晰和組織數(shù)據(jù)就可以快速精準(zhǔn)獲取數(shù)據(jù),稍許查詢網(wǎng)絡(luò)資源與官方文檔,即可讓人們從煩瑣的統(tǒng)計(jì)工作中解脫出來(lái)。
2.2.2 網(wǎng)絡(luò)爬蟲(chóng)
大數(shù)據(jù)是Python語(yǔ)言處理的主要對(duì)象。正如《娛樂(lè)至死》一書(shū)坦言[14],無(wú)用信息或噪音信息,正在吞噬著人類。大數(shù)據(jù)時(shí)代,根據(jù)思科白皮書(shū)統(tǒng)計(jì),人類每天產(chǎn)生2.5萬(wàn)億字節(jié)的數(shù)據(jù)量[15]。小視頻正帶給人們極大的享受,而大量有用的信息,正湮沒(méi)在浩如煙海的無(wú)關(guān)數(shù)據(jù)之中。面向蕓蕓眾生,利用Python語(yǔ)言的網(wǎng)絡(luò)爬蟲(chóng)功能,僅用20行語(yǔ)句,采用正則表達(dá)式,即可完成5000條網(wǎng)頁(yè)搜索,快速、準(zhǔn)確提取信息的能力。實(shí)現(xiàn)大數(shù)據(jù)為我所用,而不受大數(shù)據(jù)所驅(qū)使,是人們適應(yīng)人工智能時(shí)代發(fā)展的基本生存技能。
2.2.3 深度學(xué)習(xí)
深度學(xué)習(xí)是大數(shù)據(jù)的典型算法,其核心是算法與模型。本質(zhì)上,深度學(xué)習(xí)是遍歷層到層全部函數(shù)組合,找到定義從輸入到輸出的映射函數(shù)。然而,因?yàn)閿?shù)據(jù)量龐大、技術(shù)門(mén)檻高,對(duì)很多企業(yè)與開(kāi)發(fā)者而言,深度學(xué)習(xí)技術(shù)似乎高不可攀??紤]到開(kāi)發(fā)者迫切希望找到深度學(xué)習(xí)模型在產(chǎn)業(yè)中落地的支點(diǎn)。目前主流的兩款深度學(xué)習(xí)框架Tensor-Flow和Pytorch均由Python程序開(kāi)發(fā)[16],是推動(dòng)人工智能時(shí)代發(fā)展的強(qiáng)大引擎。面向廣大的Python從業(yè)人員,泛化能力較強(qiáng)的深度學(xué)習(xí)框架,淡化了專業(yè)性較強(qiáng)的內(nèi)容,針對(duì)數(shù)據(jù)實(shí)現(xiàn)自動(dòng)標(biāo)注,結(jié)合可擴(kuò)展處理器,總能給出令產(chǎn)業(yè)開(kāi)發(fā)者滿意的解決方案,為語(yǔ)音識(shí)別、人臉識(shí)別等方面發(fā)揮了強(qiáng)有力的作用。即便是一些相對(duì)復(fù)雜的情況,例如光譜分析,石油勘探,也能為專家預(yù)測(cè)提供輔助預(yù)測(cè)。
2.2.4 大模型
所謂“大模型”,是從弱人工智能到強(qiáng)人工智能的必然產(chǎn)物。它是繼深度學(xué)習(xí)之后的基礎(chǔ)性共性模型,被稱為新一代人工智能的核心。總的來(lái)說(shuō),是從海量大數(shù)據(jù)中學(xué)到蘊(yùn)含在數(shù)據(jù)中的知識(shí)、邏輯,凝練到神經(jīng)網(wǎng)絡(luò)上變成大模型,旨在訓(xùn)練一套算法,為各種通用智能任務(wù),建立提供服務(wù)的基礎(chǔ)性平臺(tái)。開(kāi)發(fā)者的個(gè)性化需求,通過(guò)大模型采集后,針對(duì)特定任務(wù),啟動(dòng)個(gè)性化參數(shù)和智能轉(zhuǎn)化接口得以實(shí)現(xiàn)。在“大模型”領(lǐng)域,人工智能負(fù)責(zé)“全能”,知識(shí)圖譜負(fù)責(zé)“全知”,“全知全能”相結(jié)合,為實(shí)際場(chǎng)景應(yīng)用落地提供了有力支撐。
基于上述理由,Python語(yǔ)言課程建設(shè)是一項(xiàng)比較復(fù)雜的系統(tǒng)工程,是彌補(bǔ)數(shù)字鴻溝,促進(jìn)智能化轉(zhuǎn)型,促進(jìn)社會(huì)發(fā)展的必由之路。該課程理論教學(xué)內(nèi)容跨度較大,橫貫文本處理、語(yǔ)音識(shí)別、人臉識(shí)別、網(wǎng)絡(luò)爬蟲(chóng)、深度學(xué)習(xí)與人工智能的方方面面。此外,Python版本更新?lián)Q代很快,即便是實(shí)踐部分,舊的語(yǔ)句語(yǔ)法也經(jīng)常停用,語(yǔ)句內(nèi)容必須時(shí)常更新。理論與實(shí)踐的快速迭代,是Python語(yǔ)言學(xué)習(xí)的主要障礙。
最后,清晰的課程目標(biāo),“一萬(wàn)小時(shí)定律”是學(xué)習(xí)Python語(yǔ)言的良好基礎(chǔ)。而發(fā)揮集體智慧,凝聚團(tuán)隊(duì)合力,精準(zhǔn)課程定位,更新教學(xué)內(nèi)容,優(yōu)化教學(xué)手段,是上好該課程的先決條件。本文在人工智能專業(yè)本科生中開(kāi)設(shè),年均授課120人,通過(guò)線上與線下相結(jié)合,提供了高質(zhì)量的課堂體驗(yàn)。考慮到本課程建設(shè)尚在起步階段,后續(xù)本項(xiàng)研究將于本地企業(yè)相結(jié)合,為學(xué)生創(chuàng)造更多真實(shí)應(yīng)用場(chǎng)景與實(shí)習(xí)途徑,為全面提升人工智能專業(yè)本科生的實(shí)踐能力與科學(xué)素養(yǎng),培養(yǎng)人工智能應(yīng)用工程師探索有效途徑。