陳根方
(浙江音樂學(xué)院 音樂工程系,浙江 杭州 310024)
人工智能(Arti fi cial Intelligence)是近半個世紀(jì)以來人類科技史上發(fā)展最快的重大技術(shù)之一,在機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等領(lǐng)域取得了令人矚目的成就[1]。2017年,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,明確指出在中小學(xué)階段設(shè)置人工智能相關(guān)課程、逐步推廣編程教育、建設(shè)人工智能學(xué)科,以培養(yǎng)復(fù)合型人才,形成我國人工智能人才高地。2018年4月,由華東師范大學(xué)慕課中心、商湯科技、上海知名高中優(yōu)秀教師共同編著的《人工智能基礎(chǔ)(高中版)》[2]教材出版,此書是面向高中學(xué)生的教材,講授人工智能的發(fā)展歷史、基本概念以及實(shí)際應(yīng)用,將在上海多所首批“人工智能教育實(shí)驗(yàn)基地學(xué)?!痹圏c(diǎn)人工智能課程。
算法作曲是人工智能在音樂藝術(shù)領(lǐng)域的較早應(yīng)用之一,早在1956 年,Lejaren Hiller出版了算法作曲作品——弦樂四重奏《Illiac 組曲》,從而揭開了人工智能在音樂藝術(shù)領(lǐng)域的應(yīng)用前景。利用深度學(xué)習(xí)技術(shù)進(jìn)行音樂創(chuàng)作的探索研究正在展開,2017年,多倫多大學(xué)的儲航(音)等利用深度學(xué)習(xí)(Recurrent Neural Networks)的方法,從100小時的midi音樂格式里面進(jìn)行學(xué)習(xí),然后采樣訓(xùn)練好的模型來生成音樂[3]。
由于人類腦科學(xué)研究的滯后性,對音樂創(chuàng)作這一理性與感性起雙重作用的人類活動的研究尚處于開拓期,人工智能創(chuàng)作的音樂作品,面臨著諸多亟待解決的問題,如音樂信息的評估問題,很顯然,不同的人聆聽人工智能創(chuàng)作的音樂會有不同的評估結(jié)果。這些問題還需要多學(xué)科、多領(lǐng)域協(xié)同研究,付出更大的努力。
傳統(tǒng)音樂藝術(shù)院校研究生的培養(yǎng)內(nèi)容主要集中于音樂藝術(shù)領(lǐng)域,藝術(shù)性突出,缺乏對科技領(lǐng)域知識的有效傳授。研究生一般已學(xué)習(xí)了大量的音樂專業(yè)知識,具有一定的學(xué)習(xí)能力,也需要拓展自身的知識面,了解社會熱點(diǎn)。人工智能科普課程主要介紹人工智能的基本思想和方法,向?qū)W生提供最基本的人工智能技術(shù)和相關(guān)問題的入門知識,重點(diǎn)學(xué)習(xí)人工智能在音樂藝術(shù)領(lǐng)域的研究成果和應(yīng)用場景,為進(jìn)一步利用人工智能打下良好的基礎(chǔ)。
(1)可以讓學(xué)生了解信息技術(shù)的當(dāng)前熱點(diǎn),激發(fā)其對音樂與科技交叉學(xué)習(xí)的熱情。相對于較為成熟的中西方音樂理論,音樂與人工智能的融合研究尚處于開拓期,很多技術(shù)都有待進(jìn)一步完善和更新,不同的研究內(nèi)容將為學(xué)生提供廣闊的發(fā)展空間,探索出多樣化的理論和應(yīng)用成果。
(2)能使音樂藝術(shù)院校的研究生具有初步的求解問題的能力。音樂專業(yè)使得學(xué)生塑造出特定的音樂思維,利用這些思維方式能很好處理經(jīng)典的音樂問題,而音樂領(lǐng)域的很多問題是非線性、非結(jié)構(gòu)化的,這些問題通常無法用簡單的數(shù)學(xué)方法或音樂理論進(jìn)行解答,需要培養(yǎng)學(xué)生人工智能式“面向問題”的思維方式,提高工作效率,優(yōu)化知識結(jié)構(gòu)。
(3)能使學(xué)生了解人工智能在音樂藝術(shù)領(lǐng)域的應(yīng)用前景。人工智能技術(shù)已經(jīng)在音樂領(lǐng)域有半個多世紀(jì)的應(yīng)用研究,取得了豐富的研究成果,開發(fā)了許多實(shí)用的音樂系統(tǒng),如音樂推薦系統(tǒng)、樂譜識別系統(tǒng)、自動伴奏系統(tǒng)等,這些都是多學(xué)科交叉研究的成果,音樂藝術(shù)院校的研究生應(yīng)該了解這些具有代表性的研究成果,積累人工智能的相關(guān)知識,為日后的科學(xué)研究打下廣闊的知識結(jié)構(gòu)。
“音樂與人工智能”科普課程的教學(xué)方法必須從音樂出發(fā),經(jīng)過技術(shù)處理,回到音樂??梢圆捎脝栴}驅(qū)動的方式,如通過講解“圖靈測試”問題,提出“如果你無法區(qū)分一首樂曲是算法作曲還是人工作曲的時候,怎么辦”來引出算法作曲的評估問題?!耙魳放c人工智能”科普課程的內(nèi)容見表1所示。
表1中包含有人工智能在音樂領(lǐng)域的研究內(nèi)容,其中有些內(nèi)容針對的是特定的音樂媒體,這些音樂媒體包括文本、樂譜、音頻、音序4類,如算法作曲是文本信息到樂譜或音序信息的轉(zhuǎn)換,文字信息到音頻信息是音樂檢索的研究對象,在數(shù)字音樂媒體的基礎(chǔ)上,人工智能在音樂領(lǐng)域的研究內(nèi)容包括音樂作品的不同數(shù)字音樂媒體之間的自動轉(zhuǎn)換,音樂媒體在轉(zhuǎn)換前和轉(zhuǎn)換后有不同的表示形態(tài),不同的轉(zhuǎn)換過程采用了不同的實(shí)現(xiàn)方法,分別隸屬于不同的研究范疇。
“音樂與人工智能”科普課程以音樂理論為基礎(chǔ),以音樂的表示媒體為對象,利用人工智能理論研究音樂媒體之間的轉(zhuǎn)換方法,涉及樂譜識別、音頻識別、情感感知、音樂檢索、自動作曲、自動標(biāo)注和音樂挖掘等相關(guān)研究領(lǐng)域。相關(guān)的教材可采用文獻(xiàn)[1]。
(1)人工智能概述:在科普內(nèi)容中,人工智能的歷史、內(nèi)容、應(yīng)用需要讓學(xué)生進(jìn)行簡單的了解,特別是三起三落的發(fā)展歷史,每個階段的主要技術(shù)和應(yīng)用場景,這些主要技術(shù)與音樂領(lǐng)域交叉研究成果。人工智能與大數(shù)據(jù)、云計算的關(guān)系,音樂與大數(shù)據(jù)、音樂與云計算的關(guān)系等內(nèi)容的介紹,讓學(xué)生對“音樂與人工智能”有總體的概念和了解。
(2)音樂檢索:音樂檢索是利用有限的音樂信息獲取更多相關(guān)音樂信息的過程,通過提供文本、情感、片段或?qū)嵗扔邢薜囊魳沸畔ⅲ@取更多與提供的音樂信息相同或相似的音樂信息,常見的音樂檢索有基于文本關(guān)鍵詞檢索、基于音樂情感分類檢索、基于哼唱的音樂檢索和基于實(shí)例的音樂檢索,檢索的結(jié)果有文本、樂譜、音頻或音序等形式。
表1 “音樂與人工智能”科普課程的內(nèi)容
(3)樂譜識別:樂譜音樂信息的自動識別研究,它是利用計算機(jī)進(jìn)行數(shù)字樂譜圖像處理與識別的技術(shù)。它利用掃描儀等數(shù)字化設(shè)備,將紙質(zhì)樂譜以圖像的形式輸入到計算機(jī),經(jīng)過圖像處理與識別,把樂譜圖像自動轉(zhuǎn)化為標(biāo)準(zhǔn)的音樂格式文件。它綜合利用了人工智能、圖像工程、模式識別、MIDI技術(shù)、數(shù)學(xué)形態(tài)學(xué)、音樂理論等方面的知識。
計算機(jī)光學(xué)樂譜識別技術(shù)能較好地完成從紙質(zhì)樂譜向數(shù)字音樂的轉(zhuǎn)化,提高了手工輸入數(shù)字樂譜的速度,使基本的音樂音符輸入由人工完成為計算機(jī)外設(shè)來完成。OMR技術(shù)為紙質(zhì)樂譜數(shù)字化提供了一個的新途徑,有著極為廣泛的應(yīng)用前景,其中在計算機(jī)輔助音樂教學(xué)、音樂統(tǒng)計學(xué)和數(shù)字音樂圖書館建設(shè)等方面得到或?qū)⒌玫捷^好的應(yīng)用。
樂譜識別研究起源于1966年MIT的研究人員對五線譜樂譜進(jìn)行的音樂信息識別[4],經(jīng)過半個多世紀(jì)的研究,取得了大量的研究成果,其中在OMR研究中使用的理論方法有神經(jīng)網(wǎng)絡(luò)、模糊理論、遺傳算法、高層領(lǐng)域知識、圖文法、數(shù)學(xué)形態(tài)學(xué)、投影法等,研究對象也從五線譜樂譜逐步擴(kuò)展到medieval music、white mensural notation、early music prints、orthodox Hellenic Byzantine music notation、Greek traditional music、昆曲樂譜[5]等。并產(chǎn)生了大量的實(shí)用軟件,如Capella-scan、Optical Music Easy Reader、Photo Score、Sharp Eye、Smart Score、Vivaldi Scan,這些軟件都是針對印刷的五線譜樂譜進(jìn)行識別的,正確識別率可達(dá)到90%以上。
(4)音頻識別:音頻是信息的重要載體,是音樂傳播的主要方式之一。數(shù)字音頻中攜帶的音樂信息,可以轉(zhuǎn)換為其他音樂媒體。音頻識別研究有30多年的研究歷史,主要針對音樂音頻和語音音頻進(jìn)行識別和分類,音頻轉(zhuǎn)換為文本的研究對象有樂器音頻識別、中國民歌分類識別、中國戲曲唱腔分類識別、音樂流派分類識別等;轉(zhuǎn)換為樂譜(或音序)的研究對象有音高分類識別、節(jié)奏識別等。
(5)情感感知:音樂是情感的藝術(shù),基于內(nèi)容的情感感知和識別是智能音樂學(xué)的一個重要方向,也是從數(shù)字音頻到“情感表示”模型的轉(zhuǎn)換過程。常見的音樂“情感表示”模型有Thayer的二維情感模型、Dorai 和 Venkatesh的節(jié)拍和清晰度二維模型、Hevner的情感環(huán)模型等。情感感知與分類的常見技術(shù)有多模型分類器、模糊法、個性特征、感知模型、GMM模型、HMM模型、SVM模型等。
(6)算法作曲:算法作曲利用從音樂作曲理論或某個音樂家的作品、某種音樂風(fēng)格、某種音樂流派等中提煉出來的形式化生成規(guī)則,通過提供一些必要的參數(shù),創(chuàng)作出音樂動機(jī)、音樂作品、音樂伴奏等音樂信息的過程。
音頻作曲主要以傅立葉變換為理論基礎(chǔ),常見的算法作曲的方法有風(fēng)格模型、分層結(jié)構(gòu)控制、遺傳算法、全面控制、馬爾可夫鏈、音樂樣式、HMM模型、調(diào)式和弦字典庫、人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等。這些研究有些是模仿作曲家的音樂風(fēng)格,有些針對自動伴奏或配器,大多數(shù)的研究成果圍繞音樂旋律或動機(jī)展開,從而產(chǎn)生完整的樂曲。
(7)音樂智能分析與音樂推薦:音樂智能分析是從大量的音樂數(shù)據(jù)中通過算法搜索隱藏于其中有用信息的過程。分析過程通常通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。音樂資料浩如煙海,大量資料可以在信息時代被利用,在音樂大數(shù)據(jù)中進(jìn)行信息挖掘,特別是從大量的樂曲中提煉出個性化、適合特定用戶的樂曲,是音樂推薦的主要研究目的。根據(jù)不同的分析目的有多個不同的研究方向。如梳理音樂信息鏈屬于音樂考古學(xué),獲取音樂家的影響力可統(tǒng)計作品或名字的出現(xiàn)頻率,對用圖像格式存儲的樂譜圖像進(jìn)行文本標(biāo)注,自動分析音樂數(shù)據(jù)中的音樂風(fēng)格和作曲家的創(chuàng)作習(xí)慣等。這些研究都需要有音樂大數(shù)據(jù)的支撐。
(8)水印技術(shù)與音樂版權(quán):數(shù)字水印技術(shù)是將一些標(biāo)識信息(數(shù)字水?。┲苯忧度霐?shù)字載體(包括多媒體、文檔、軟件等)中,并不影響原載體的使用價值。版權(quán)保護(hù)是水印技術(shù)重要應(yīng)用場景,可利用版權(quán)認(rèn)證來保護(hù)原數(shù)字載體的權(quán)益。在研究音樂作品版權(quán)保護(hù)的問題時,音頻、樂譜、文本等不同媒體是常用的數(shù)字載體,針對不同的媒體格式,開發(fā)出大量不同的水印技術(shù),一些技術(shù)已應(yīng)用于MP3音頻的版權(quán)保護(hù)。
(9)樂器3D打印與智能音箱:3D打印是一種累積制造技術(shù),即擁有快速成形技術(shù)的機(jī)器。它是以數(shù)字模型文件為基礎(chǔ),運(yùn)用特殊蠟材、粉末狀金屬或塑料等可粘合材料,通過打印一層層的粘合材料來制造三維的物體。有別于傳統(tǒng)的減材制造技術(shù)。3D打印在綠色環(huán)保方面有巨大的經(jīng)濟(jì)效益,在生物醫(yī)療、藝術(shù)設(shè)計、航天工程、建筑行業(yè)、汽車行業(yè)和電子行業(yè)等具有廣闊的應(yīng)用前景。利用3D打印技術(shù)打印的樂器有電聲吉他、鼓、長笛、鋼琴、黃鐘笛、電簫等,其中我國學(xué)者在黃鐘笛、電簫的3D打印上進(jìn)行了有益的嘗試。
智能音箱是利用人機(jī)語音交互技術(shù),面向家居場景提供搜索、聽歌、購物、社交等服務(wù)的智能硬件[6]。2014年11月,Amazon公司公布了全球首款智能音箱Echo,迄今其全球銷量超過1 000萬臺。5年來,大量的智能音箱先后出現(xiàn),如Rokid Alien、天貓精靈X1、蘋果Home Pad、Google Home、聯(lián)想智能音箱、叮當(dāng)智能音箱A1等產(chǎn)品上市。
(10)機(jī)器演奏與虛擬演奏。音樂機(jī)器人(Musical Robot)是通過程序輸入(數(shù)字或機(jī)械)而實(shí)現(xiàn)自動演奏音樂的仿真機(jī)器[7]。音樂機(jī)器人具有悠久的歷史,從最早的八音盒到豐田公司的小提琴演奏手經(jīng)歷了200多年的發(fā)展歷史,在世界上有影響力的有鋼琴機(jī)器人、小提琴機(jī)器人、長笛機(jī)器人、風(fēng)笛機(jī)器人、馬林巴機(jī)器人等,我國科研工作者在葫蘆絲演奏機(jī)器人、揚(yáng)琴演奏機(jī)器人、豎笛演奏機(jī)器人、鋼琴演奏機(jī)器人、鼓樂演奏機(jī)器人和民族樂隊演奏機(jī)器人[8]等方面進(jìn)行了探索研究和實(shí)踐嘗試。
虛擬演奏是綜合利用人機(jī)交互、虛擬現(xiàn)實(shí)、手勢識別、模式識別和圖像處理等技術(shù),通過建立特定樂器的演奏模型,把采集的演奏動作信息轉(zhuǎn)換為實(shí)時音樂信息的過程。比較著名的有芬蘭赫爾辛基工程大學(xué)計算機(jī)科學(xué)專業(yè)系的學(xué)生設(shè)計發(fā)明的一套虛擬空氣吉他系統(tǒng)——對著空氣模擬吉他演奏并能聽到樂音。
我們探討了音樂藝術(shù)院校研究生開設(shè)“音樂與人工智能”科普課程的必要性,重點(diǎn)對“音樂與人工智能”科普課程的內(nèi)容進(jìn)行了詳細(xì)說明,為進(jìn)一步開設(shè)課程提供了方便。下一步有必要通過預(yù)講座和問卷調(diào)查等形式了解學(xué)生的需求和接受能力,調(diào)整和充實(shí)相關(guān)課程內(nèi)容。