黃宗權(quán)
“人工智能”(Artificial Intelligence,AI)這一概念誕生于1956年在美國(guó)達(dá)特茅斯召開(kāi)的“人工智能夏季研討會(huì)”(Summer Research Project on Artificial Intelligence)。不過(guò),當(dāng)時(shí)的參會(huì)者并沒(méi)有就該術(shù)語(yǔ)的界定達(dá)成共識(shí),與會(huì)者更多是關(guān)注如何用機(jī)器來(lái)模擬人的智能?,F(xiàn)在學(xué)界普遍認(rèn)可的界定是科學(xué)家帕特里克·溫斯頓(Patrick Winston)的抽象定義:“人工智能是對(duì)計(jì)算的研究,以實(shí)現(xiàn)感知、推理和行動(dòng)?!?1)Patrick Henry Winston,Artificial Intelligence,Boston:Addison-Wesley Publishing Company,1992,p.5.
在音樂(lè)人工智能領(lǐng)域,被譽(yù)為人工智能之父的麻省理工學(xué)院教授馬文·明斯基(Marvin Minsky,1927-2016)(他也是達(dá)特茅斯會(huì)議的發(fā)起者之一),早年寫(xiě)過(guò)一本重要著作《音樂(lè)·意識(shí)·意義》(Music,Mind,andMeaning),在書(shū)中探討了“我們?yōu)槭裁磿?huì)喜歡音樂(lè),以及這種‘喜歡’自身的本質(zhì)是什么?”(2)Marvin Minsky,“Music,Mind,and Meaning”,Computer Music Journal,vol.5,No.3,1981,pp.28-44.等問(wèn)題。
隨著計(jì)算機(jī)的算力以及數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng),人工智能在音樂(lè)領(lǐng)域取得了重大進(jìn)展,它正迅速成為音樂(lè)創(chuàng)作、音樂(lè)分析、音樂(lè)推薦、音樂(lè)信息檢索的重要工具,并以驚人的速度改變我們的創(chuàng)作和欣賞音樂(lè)的方式。在音樂(lè)表演領(lǐng)域,一些“自動(dòng)”演奏的系統(tǒng)被不斷開(kāi)發(fā)出來(lái),另一些研究開(kāi)始利用人工智能的機(jī)器學(xué)習(xí)來(lái)進(jìn)行音樂(lè)和舞蹈的交互式表演。(3)Baptiste Caramiaux,Marco Donnarumma,Artificial Intelligence in Music and Performance:A Subjective Art-Research Inquiry,arXiv 15843,2007.
人工智能技術(shù)的潛力及在音樂(lè)領(lǐng)域一日千里的快速發(fā)展,讓人們開(kāi)始思考:音樂(lè)人工智能有真正的音樂(lè)智慧、音樂(lè)理解力、音樂(lè)創(chuàng)作力和音樂(lè)表演能力嗎?它們是否會(huì)有美感經(jīng)驗(yàn)、情感理解和審美表達(dá)?人的音樂(lè)實(shí)踐有哪些是可以被人工智能取代,哪些不能被取代?這些問(wèn)題顯然不僅是科學(xué)或技術(shù)問(wèn)題,更是哲學(xué)和美學(xué)問(wèn)題。人工智能對(duì)人類感性經(jīng)驗(yàn)領(lǐng)域的“挑戰(zhàn)”,切中了人類主體性的核心要旨,對(duì)這些問(wèn)題進(jìn)行探究,就必須從哲學(xué)、美學(xué)的維度對(duì)音樂(lè)創(chuàng)作和表演行為中的意識(shí)、主體性、情感、審美認(rèn)知等問(wèn)題進(jìn)行審思。
音樂(lè)人工智能的發(fā)展建基在人工智能技術(shù)的整體發(fā)展之上。人工智能技術(shù)的發(fā)展,從20世紀(jì)50年代起,大致經(jīng)歷了三個(gè)階段:第一個(gè)階段為推理期(Logic Reasoning,1956-1960),其實(shí)質(zhì)是定理自動(dòng)證明系統(tǒng),功能以做數(shù)學(xué)運(yùn)算和推理、證明數(shù)學(xué)公式為主,如西蒙(Herbert A.Simon)和紐厄爾(A.Newell)等人創(chuàng)建的“邏輯理論家”系統(tǒng)(Logic Theorist)。到了20世紀(jì)80年代末,以數(shù)理邏輯為基礎(chǔ)的人工智能走到了盡頭。第二階段為知識(shí)期(Knowledge Egineering,1970-1980),這一階段的主要研究方向是把人類掌握的知識(shí)總結(jié)起來(lái)以編碼的方式“教會(huì)”機(jī)器,即所謂的“專家系統(tǒng)”,如菲根鮑姆(Feigenbaum)等人創(chuàng)建的DENDRAL系統(tǒng)。在這個(gè)階段,研究人員最終發(fā)現(xiàn),把知識(shí)總結(jié)出來(lái),教給機(jī)器其實(shí)非常困難。這不僅是因?yàn)槿祟惖闹R(shí)不太容易被總結(jié)和編碼,更因?yàn)槿祟愑写罅康摹澳瑫?huì)知識(shí)”(Tacit Knowledge,也譯為“隱性知識(shí)”)無(wú)法被總結(jié)和編碼。第三階段為學(xué)習(xí)期(20世紀(jì)90年代至今),這一時(shí)期研究的出發(fā)點(diǎn)是讓計(jì)算機(jī)系統(tǒng)“自我”學(xué)習(xí)。顯然,由于音樂(lè)藝術(shù)的特殊性和復(fù)雜性,在前兩個(gè)階段,音樂(lè)人工智能是無(wú)法取得實(shí)質(zhì)性突破的。
在第三個(gè)階段學(xué)習(xí)期,機(jī)器學(xué)習(xí)(Machine Learning,ML)或深度學(xué)習(xí)(Deep Learning,DL)成為了人工智能發(fā)展的主流。所謂的“機(jī)器學(xué)習(xí)”,就是“通過(guò)算法,使得機(jī)器能從大量既有數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而對(duì)新的樣本做智能識(shí)別或?qū)ξ磥?lái)做出預(yù)測(cè)”(4)余凱等:《深度學(xué)習(xí)的昨天、今天和明天》,《計(jì)算機(jī)研究與發(fā)展》,2013年,第9期,第1799—1804頁(yè)。?!吧疃葘W(xué)習(xí)”是一種基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù),人工神經(jīng)網(wǎng)絡(luò)仿照生物神經(jīng)系統(tǒng)工作原理的計(jì)算模型,通過(guò)多個(gè)人工神經(jīng)元之間的連接和信息傳遞,模擬人類大腦的感知、思維和決策等過(guò)程。(5)孫志軍、薛磊等:《深度學(xué)習(xí)研究綜述》,《計(jì)算機(jī)應(yīng)用研究》,2012年,第29(08)卷,第2806—2810頁(yè)。深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的一個(gè)分支,二者的主要區(qū)別在于數(shù)據(jù)的分析方法。前者依賴算法和大量的數(shù)據(jù),后者則是以人腦為模型的人工神經(jīng)網(wǎng)絡(luò)。
基于不同的技術(shù)路線,機(jī)器學(xué)習(xí)大致可以分為五大“流派”:符號(hào)主義(Symbolists)、聯(lián)結(jié)主義(Connectionist)、貝葉斯派(Bayesians)、進(jìn)化主義(Evolutionaries)、行為類比主義(Analogizer),這些流派采用不同的算法來(lái)模仿人類思維、人體“硬件”(神經(jīng)系統(tǒng))和人類行為,使機(jī)器從數(shù)據(jù)中自動(dòng)學(xué)習(xí),做出預(yù)測(cè)和決策。
機(jī)器學(xué)習(xí)的興起使得廣義上的聲音創(chuàng)造面臨一場(chǎng)革命。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)為音樂(lè)人工智能帶來(lái)了各種新技術(shù)。這些新技術(shù)被應(yīng)用于從作曲、表演到音樂(lè)研究等不同的場(chǎng)景中。
現(xiàn)有人工智能不論采用何種技術(shù)模式,讓機(jī)器學(xué)習(xí)的過(guò)程實(shí)質(zhì)都可以分為三步:訓(xùn)練、預(yù)測(cè)和反饋?!坝?xùn)練”是向人工智能輸入大量的數(shù)據(jù)(訓(xùn)練集),并給出希望它做什么的指示,以使人工智能從大量的數(shù)據(jù)中提煉出特定的模式。“預(yù)測(cè)”是人工智能根據(jù)不同的模式,在不同的場(chǎng)景下,預(yù)測(cè)可能會(huì)發(fā)生何種狀況,以及如何采取應(yīng)對(duì)措施,以產(chǎn)生一定的結(jié)果?!胺答仭笔菍?duì)人工智能產(chǎn)生的結(jié)果提供評(píng)價(jià),讓人工智能不斷修正、提升,然后進(jìn)入下一個(gè)新的循環(huán)。相對(duì)應(yīng)的音樂(lè)創(chuàng)作過(guò)程也大致分為三個(gè)步驟:(1)分析音樂(lè)(把大量的既有作品作為數(shù)據(jù)加以分析,分解成“模式-部件”)。(2)把分解的“模式-部件”進(jìn)行相似性的計(jì)算、歸類。(3)根據(jù)設(shè)定的算法,把“模式-部件”重組,以生成新的音樂(lè)作品。
在人工智能技術(shù)的基礎(chǔ)上,在音樂(lè)創(chuàng)作領(lǐng)域產(chǎn)生了各類算法作曲(Algorithmic Composition),也即,采用計(jì)算機(jī)算法來(lái)生成音樂(lè)的技術(shù)。其主要的技術(shù)類型有:(1)音樂(lè)規(guī)則系統(tǒng)(Rule-Based Systems),根據(jù)預(yù)先定義的音樂(lè)理論規(guī)則(如,根據(jù)已有作品的和聲規(guī)則、旋律規(guī)則和節(jié)奏規(guī)則)等來(lái)生成新的音樂(lè)作品。(2)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN),使用人工搭建神經(jīng)網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)音樂(lè)數(shù)據(jù)的特征,并根據(jù)學(xué)到的特征生成新的音樂(lè)。常見(jiàn)的神經(jīng)網(wǎng)絡(luò)類型包括循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)和變分自編碼器(VAE)等。(3)遺傳算法(Genetic Algorithms,GA),模擬自然界中的進(jìn)化過(guò)程,通過(guò)對(duì)音樂(lè)片段進(jìn)行變異、交叉和選擇等操作,以生成新的音樂(lè)作品。(4)馬爾可夫鏈(Markov Chains),基于概率模型,通過(guò)分析音樂(lè)數(shù)據(jù)中的狀態(tài)轉(zhuǎn)移概率來(lái)生成新的音樂(lè)序列。(5)交互式作曲(Interactive Composition),將人類音樂(lè)家的創(chuàng)作過(guò)程與計(jì)算機(jī)算法相結(jié)合,實(shí)現(xiàn)人機(jī)協(xié)作的音樂(lè)創(chuàng)作方式。此外,還有隨機(jī)生成(Random Generation)等算法,不再一一贅述。
不同的算法和音樂(lè)結(jié)合開(kāi)辟了音樂(lè)人工智能的新型應(yīng)用。音樂(lè)人工智能可以分析特定的音樂(lè)流派、節(jié)奏、模式和旋律,并利用這些信息創(chuàng)作新的音樂(lè)作品。比如,音樂(lè)形式語(yǔ)法使分析和編寫(xiě)音樂(lè)過(guò)程的規(guī)則形式化,它能通過(guò)研究巴赫作品的和聲規(guī)則,進(jìn)而輔助創(chuàng)作新的作品。(6)Salim Perchy,Gerardo Sarria,“Musical Composition with Stochastic Context-Free Grammar”,in Proceedings of 8th Mexican International Conference on Artificial Intelligence (MICAI),November,2009,pp.1-12.音樂(lè)人工智能還能模擬民間傳統(tǒng)音樂(lè)的創(chuàng)作。比如,希普拉·舒克拉(Shipra Shukla)、海德?tīng)枴ぐ嗫?Haider Banka)基于馬爾可夫的遺傳算法,探索模擬印度古典音樂(lè)的創(chuàng)作。(7)Shipra Shukla,Haider Banka,“Markov-Based Genetic Algorithm with ∈-Greedy Exploration for Indian Classical Music Composition”,Expert Systems with Applications,vol.211,No.118561,2023.
一些音樂(lè)家與工程師合作采用組合系統(tǒng),語(yǔ)法,概率和分形(Fractals)來(lái)創(chuàng)作一些不再是模仿經(jīng)典名作的新音樂(lè)作品。比如,遵循進(jìn)化算法(Evolutionary Algorithm)程序來(lái)使音樂(lè)各種要素(旋律、節(jié)奏、和聲等)“進(jìn)化”。通過(guò)各種要素的交叉、組合、突變等一系列操作來(lái)讓音樂(lè)“進(jìn)化”成特定的作品。法籍作曲澤納基斯(Iannis Xenakis)的幾部代表作(Metaux,Anaktoria和Terretektorh)等就是根據(jù)數(shù)學(xué)模型來(lái)創(chuàng)作的。
此外,研究者們還采用概率語(yǔ)法(Probabilistic Grammars)來(lái)分析音樂(lè)作品的模型化結(jié)構(gòu)(8)S.Abdallah,N.Gold,A.Marsden,“Analysing Symbolic Music with Probabilistic Grammar”,in D.Meredith(eds)Computational Music Analysis,Springer:Basel,2016,pp.157-189;Donya Quick,“Learning Production Probabilities for Musical Grammars”,Journal of New Music Research,45(4),2016,pp.295-313.、基于馬爾可夫鏈通過(guò)在線的“語(yǔ)法歸納生成器”(Grammatical Induction Generator)來(lái)即興創(chuàng)作音樂(lè)等(9)K.M.Kitani,H.Koike,“Improve Generator:Online Grammatical Induction for on-the-Fly Improvisation Accompaniment”,in Proceedings of 10th Conference on New Interfaces for Musical Expression (NIME),Sydney,Australia,15-18 June 2010,pp.469-472.。
這些通過(guò)算法作曲產(chǎn)生的音樂(lè)作品的藝術(shù)品質(zhì)如何?2023年,一項(xiàng)基于評(píng)估比較的研究得出的結(jié)論認(rèn)為:“任何算法方法與人類創(chuàng)作的音樂(lè)之間仍然存在顯著差距。”(10)Z.Yin,F(xiàn).Reuben,S.Stepney,et al,“Deep Learning’s Shallow Gains:A Comparative Evaluation of Algorithms for Automatic Music Generation”,Machine Learning,2023,pp.1785-1822.不過(guò),突飛猛進(jìn)的音樂(lè)人工智能所顯示出的令人震驚的音樂(lè)“創(chuàng)作”能力,還是讓人們禁不住思考,音樂(lè)人工智能是否可以創(chuàng)作出“全新”的音樂(lè)作品來(lái)?這里所謂的“全新”,指的是計(jì)算系統(tǒng)不是采用某種一開(kāi)始就嵌入的特定作曲模型,也不是在選定的幾個(gè)作品中進(jìn)行分析、重組基礎(chǔ)上生成新的音樂(lè)作品,而是像人類一樣“無(wú)中生有”,創(chuàng)作出與既有作品沒(méi)有關(guān)聯(lián)的獨(dú)立的音樂(lè)作品。人們開(kāi)始思考,音樂(lè)人工智能是否可以不依賴“人工”,而獨(dú)立具有“智能”,從而創(chuàng)造新的風(fēng)格或音樂(lè)樣式?能否通過(guò)音樂(lè)表達(dá)特定的情感?
之所以圍繞這些問(wèn)題會(huì)產(chǎn)生一些爭(zhēng)論,是因?yàn)椋阂环矫?,人工智能表現(xiàn)出了令人驚詫的“音樂(lè)才能”;而另一方面,現(xiàn)有人工智能在音樂(lè)實(shí)踐中的局限又是顯而易見(jiàn)的。這種局限表現(xiàn)在其所有訓(xùn)練集的來(lái)源均來(lái)自既有的數(shù)字化信息(音樂(lè)數(shù)據(jù)),而與真實(shí)的人類生活世界沒(méi)有直接交集。它依賴于特定的算法或數(shù)理邏輯。人們可以理解現(xiàn)有音樂(lè)人工智能的不足,將其視為新事物的初始發(fā)展階段,但音樂(lè)人工智能在將來(lái)是否能突破臨界點(diǎn)而具有獨(dú)立創(chuàng)作的能力?音樂(lè)人工智能可以取代藝術(shù)家嗎?這些問(wèn)題并不容易給出簡(jiǎn)單的答案。
筆者認(rèn)為,基于音樂(lè)在創(chuàng)作、表演方面的特殊性,在現(xiàn)有技術(shù)條件下,音樂(lè)人工智能要實(shí)現(xiàn)獨(dú)立創(chuàng)作或取代藝術(shù)家,所面臨的挑戰(zhàn)是巨大的。從哲學(xué)(美學(xué))的角度看,音樂(lè)人工智能至少要面臨下文所論述的幾方面的問(wèn)題。這并不是說(shuō),人工智能只要解決了這些問(wèn)題,就能實(shí)現(xiàn)對(duì)人類的取代,而是說(shuō),這些問(wèn)題如果無(wú)法得到根本性的突破,音樂(lè)人工智能將有極大可能在經(jīng)過(guò)一個(gè)階段的快速發(fā)展之后,陷入平臺(tái)期。
麥卡錫(J.McCarthy)是當(dāng)年達(dá)特茅斯人工智能“會(huì)議宣言”的主筆,這位著名的人工智能先驅(qū),在會(huì)議倡議書(shū)的開(kāi)篇,寫(xiě)下了一句著名的論斷:“本研究基于這樣一種推測(cè),即,學(xué)習(xí)的每一個(gè)方面或智能的任何其他特征,原則上都可以如此精確地被描述,以至于可以制造一臺(tái)機(jī)器來(lái)模擬它。”(11)Minsky Marvin,Rochester Nathaniel,Claude E.Shannon and McCarthy John,“A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence,August 31,1955”,AI Magazine,27(4),2006,p.12.當(dāng)時(shí)與會(huì)的人工智能的先行者們都樂(lè)觀地認(rèn)為,人腦的思維是有可能在人腦以外產(chǎn)生的。在他們看來(lái),只要揭開(kāi)大腦神經(jīng)網(wǎng)絡(luò)背后的秘密,人類就可以構(gòu)建出一個(gè)類似于人腦的電子大腦。
然而,現(xiàn)在看來(lái),麥卡錫們當(dāng)年的假設(shè)更像一個(gè)美好的愿望。迄今為止,人的智能活動(dòng)尚未被“精確地描述出來(lái)”也未能實(shí)現(xiàn)“以一部機(jī)器來(lái)模擬它”。其困難在于,人類的智能活動(dòng)還有許多謎題未被解開(kāi)。在哲學(xué)上,人類的思維過(guò)程至今存在許多“難以理解的事情”。比如,“意識(shí)難題”(The Hard Problem of Consciousness),也即,我們很難搞清楚人類意識(shí)究竟是什么,它是怎么產(chǎn)生的,又是如何起作用的。因此,也就難以把它清楚地描述出來(lái),并讓機(jī)器模擬這一過(guò)程。
如前文所提及的,在人類的思維過(guò)程和日常經(jīng)驗(yàn)中,存在大量的“默會(huì)知識(shí)”。這個(gè)概念由匈牙利哲學(xué)家邁克爾·波拉尼(Michael Polanyi)首先提出,所以也被后世稱為“波拉尼悖論”(Polanyi’s Paradox)(12)M.Polanyi,“Tacit Knowing:Its Bearing on Some Problems of Philosophy”,Reviews of Modern Physics,34 (4),1962,pp.601-616.。其表達(dá)的核心命題是:人類所知遠(yuǎn)勝于其所能言傳。這一理念深刻地指出了有很多知識(shí)是我們無(wú)法借用語(yǔ)言等符號(hào)表意系統(tǒng)來(lái)闡釋清楚的,也自然無(wú)法傳授給人工智能。
具體說(shuō)來(lái),默會(huì)知識(shí)通常是指體現(xiàn)在人類的行為、經(jīng)驗(yàn)和直覺(jué)中,難以用語(yǔ)言或符號(hào)表達(dá)的知識(shí)或技能。它與潛意識(shí)和非語(yǔ)言的感知、理解密切相關(guān)。它在人的文化和社交環(huán)境中發(fā)揮著關(guān)鍵作用。波拉尼還認(rèn)為,默會(huì)知識(shí)是人類理解世界的基礎(chǔ),是大多數(shù)經(jīng)驗(yàn)(例如技能、直覺(jué)、經(jīng)驗(yàn)和經(jīng)常性的常識(shí)(13)同注②。)的本質(zhì),“技術(shù)規(guī)則可以是有用的,但它們并不能決定藝術(shù)實(shí)踐;它們只是可以作為藝術(shù)實(shí)踐中的一種指導(dǎo)原則,前提是它們能夠被融合到藝術(shù)實(shí)踐的實(shí)際知識(shí)中。它們無(wú)法取代這種知識(shí)”(14)M.Polanyi,Personal knowledge:Towards a Post-Critical Philosophy,Chicago:University of Chicago Press,1958,p.52.。
從現(xiàn)有技術(shù)條件來(lái)看,人工智能(機(jī)器)建立的機(jī)械化和自動(dòng)化過(guò)程,是一種將知識(shí)顯性化、符號(hào)化的過(guò)程。以外顯符號(hào)表征的方式使之成為人工智能可識(shí)別的數(shù)據(jù)結(jié)構(gòu)。比如,要讓一臺(tái)機(jī)器完成圖像識(shí)別的任務(wù),必須將圖像掃描、認(rèn)讀、對(duì)照、識(shí)別等過(guò)程的每個(gè)步驟都設(shè)定清楚,才能編寫(xiě)程序讓機(jī)器來(lái)執(zhí)行。可以說(shuō),使知識(shí)顯性化(可表述化)是機(jī)器計(jì)算的重要前提。然而,音樂(lè)的創(chuàng)作和表演卻是一種典型的內(nèi)隱(implicit)知識(shí)(技能),它極其難以被顯性化,也因此難以真正地傳授給人工智能。
而且音樂(lè)的一個(gè)重要特點(diǎn)是,它不具有統(tǒng)一普遍的“規(guī)范”。音樂(lè)的邊界往往取決于文化傳統(tǒng)中的“習(xí)俗慣例”或“慣例實(shí)踐”(Customary Practice)。音樂(lè)藝術(shù)總是會(huì)呈現(xiàn)出某一種特定的文化結(jié)構(gòu)要素,體現(xiàn)出某種文化傳統(tǒng)和文化實(shí)踐的特征。也即,音樂(lè)是一個(gè)具有廣闊外延的能指,它囊括了不同文化語(yǔ)境下的音樂(lè)形態(tài),而不可能只有一種單一的特征。
包括音樂(lè)在內(nèi)的藝術(shù)領(lǐng)域存在的這種一個(gè)能指對(duì)應(yīng)多個(gè)所指的現(xiàn)象,不僅存在于不同的文化傳統(tǒng)當(dāng)中,也存在于不同時(shí)代的藝術(shù)作品中。哲學(xué)家丹托所說(shuō)的“藝術(shù)界”(Art World)就試圖解釋藝術(shù)外延的邊界問(wèn)題:“把某件物品看作是藝術(shù)作品,需要某種眼睛無(wú)法看到的東西——一種藝術(shù)理論的氛圍,一種藝術(shù)史知識(shí):這就是藝術(shù)界?!?15)Arthur C.Danto,“Art World”,in Carolyn Korsmeyer ed.,Aesthetics:The Big Questions,Cambridge:Wiley-Blackwell,1998,p.40.也就是說(shuō),在現(xiàn)實(shí)生活中,一個(gè)“物件”是否成為“藝術(shù)作品”,在一定程度上不是取決于這個(gè)物件本身,而是取決于以什么樣的眼光來(lái)看待它,或人們賦予了它什么樣的意味。
哲學(xué)家波普爾也指出,藝術(shù)屬于“世界3”的范疇。即,藝術(shù)屬于知識(shí)和信息世界,具有非客觀世界的一些屬性(比如價(jià)值觀、信仰等),它區(qū)別于物理世界(客觀世界)、精神世界(主觀世界),藝術(shù)是人類對(duì)客觀世界和主觀世界的理解和解釋?!笆澜?”屬于“人類心靈產(chǎn)物的世界。例如語(yǔ)言、傳說(shuō)、故事與宗教神話;科學(xué)猜想或理論以及數(shù)學(xué)建構(gòu);歌曲和交響曲;繪畫(huà)和雕塑?!覀兛梢詤^(qū)分科學(xué)世界和虛構(gòu)世界、音樂(lè)世界和美術(shù)世界以及工程的世界,……人類心靈產(chǎn)物的世界”(16)〔英〕卡爾·波普爾:《通過(guò)知識(shí)獲得解放》,范景中、李本正譯,杭州:中國(guó)美術(shù)學(xué)院出版社,1996 年,第 365—366頁(yè)。?!笆澜?”是人類創(chuàng)造的而非虛構(gòu)之物,它們具有實(shí)在性、自主性。波普爾的這一理念,是強(qiáng)調(diào)“從關(guān)注藝術(shù)作品的審美相關(guān)屬性,轉(zhuǎn)而去關(guān)注藝術(shù)作品的社會(huì)語(yǔ)境;沒(méi)有這一社會(huì)語(yǔ)境,藝術(shù)作品就不可能擁有和呈現(xiàn)出那些與審美相關(guān)的屬性”(17)〔新西蘭〕史蒂芬·戴維斯:《藝術(shù)諸定義》,韓振華、趙娟譯,南京:南京大學(xué)出版社,2014年,第161頁(yè)。。
這些哲學(xué)思考實(shí)質(zhì)是厘清藝術(shù)品的重要特質(zhì),即,在人類社會(huì)生活中,包括音樂(lè)在內(nèi)的藝術(shù)不僅是一個(gè)物理意義上的“物件”,而是具有特定的精神意味和意義指向。比如,一首音樂(lè)作品,絕不只是一些聲音的組合,而是蘊(yùn)含了人的情感訴求和價(jià)值追求。這些音響之外的“意義”屬于難以被顯性化的默會(huì)知識(shí)。
然而,與人類在社會(huì)生活中逐步積累的知識(shí)經(jīng)驗(yàn)不同,人工智能的很多“知識(shí)”是從數(shù)據(jù)獲取的。人工智能既無(wú)法理解默會(huì)知識(shí),也不是發(fā)自“內(nèi)心”感受(或意識(shí))到這些默會(huì)知識(shí)。人工智能并沒(méi)有內(nèi)在的情感模型和價(jià)值體系,也沒(méi)有社會(huì)屬性。由此,藝術(shù)品具有的“世界3”的特性,在人工智能這里就消失了。從現(xiàn)狀來(lái)看,人工智能的數(shù)理邏輯無(wú)法完成如同人類的那樣的思維過(guò)程(諸如意識(shí)等),人工智能對(duì)音樂(lè)藝術(shù)的“理解”,也無(wú)法像人類那樣導(dǎo)向獨(dú)立的精神性。
《樂(lè)記》的開(kāi)篇這樣說(shuō)道:“凡音之起,由人心生也。人心之動(dòng),物使之然也。感于物而動(dòng),故形于聲。聲相應(yīng),故生變,變成方,謂之音?!?18)蔡仲德:《中國(guó)音樂(lè)美學(xué)史資料譯注(上)》,北京:人民音樂(lè)出版社,1990年,第225頁(yè)。中國(guó)的古人很早就意識(shí)到,音樂(lè)是情感的藝術(shù),情感是音樂(lè)的第一源動(dòng)力。在西方文化中,藝術(shù)家的藝術(shù)創(chuàng)作很大程度上是為了表達(dá)自我情感和對(duì)外在世界產(chǎn)生的情感。如巴迪歐(Alain Badiou)在《當(dāng)代藝術(shù)十五論》(FifteenThesesonContemporaryArt)之三所說(shuō)的:“藝術(shù)是真理的過(guò)程,這個(gè)真理總是感性或感官的真理?!?19)Alain Badiou,“Fifteen Theses on Contemporary”,Art Performance Research,9(4),2004,p.86.這里的“感性”指的是對(duì)現(xiàn)實(shí)的形式美的感知和理解,其重要部分是人與世界之間的情感聯(lián)系。
由于情感的重要性和獨(dú)特性,情感識(shí)別與表達(dá)也成為人工智能領(lǐng)域的重要問(wèn)題。由此產(chǎn)生了“情感計(jì)算”(Affective Computing)這一新興領(lǐng)域。其主要的研究路徑是開(kāi)發(fā)可靠的算法,采用多模態(tài)(Multi-Modal)的識(shí)別方式,即,采用視頻、音頻、圖像、語(yǔ)音、生理信號(hào)等多種數(shù)據(jù),來(lái)進(jìn)行面部表情識(shí)別、語(yǔ)音識(shí)別、心率監(jiān)測(cè)等等,試圖解決人工智能識(shí)別、解釋和表達(dá)情感的問(wèn)題,并在此基礎(chǔ)上讓人工智能理解人類的行為和心理狀態(tài)。
情感計(jì)算的產(chǎn)生和這樣一種理論觀點(diǎn)有關(guān),即,認(rèn)為人類的情感可以被認(rèn)為是由主觀體驗(yàn)(Subjective Experience)(20)L.Leahu,S.Schwenk,P.Sengers,“Subjective Objectivity:Negotiating Emotional Meaning”,in Johann,G.Marsden ed.,Designing Interactive Systems,New York:ACM Press,2008,pp.425-434.、外部表現(xiàn)(Emotion)(21)H.Binali,V.Potdar,“Emotion Detection State of the Art”,in V.Potdar ed.,Proc.of the Cube Int’l Information Technology Conf,New York:ACM Press,2012,pp.501-507.、以及生理喚醒(Physical Arousal)(22)L.Ashbarry,B.Geelan,K.D.Salas,L.Lewis,“Blood and Violence:Exploring the Impact of Gore in Violent Video Games”,in Proc.of the Symp.on Computer-Human Interaction in Play,New York:ACM Press,2016,pp.44-52.三個(gè)核心要素組成的,分別對(duì)應(yīng)三個(gè)方面:(1)個(gè)體對(duì)不同情感狀態(tài)的自我感受;(2)表情狀態(tài),即面部表情、姿態(tài)表情、語(yǔ)調(diào)表情、音樂(lè)表情(音調(diào)、節(jié)奏、速度等)的變化;(3)情感產(chǎn)生的生理反應(yīng),是一種生理的激活水平,具有不同的反應(yīng)模式。
情感的識(shí)別和表達(dá)對(duì)于信息的交流和理解是必不可少的,這也是人類最大的心理需求之一。人類的認(rèn)知、行為均受到情感的驅(qū)動(dòng),并影響著人際互動(dòng)以及群體活動(dòng)。人工智能最早的先行者們,也意識(shí)到了人工智能研究必須進(jìn)行情感問(wèn)題的探求。馬文·明斯基始終認(rèn)為情感是機(jī)器實(shí)現(xiàn)智能不可或缺的能力。在《心智會(huì)社》(TheSocietyofMind)中提出智能機(jī)器的情感問(wèn)題之后,(23)M.Minsky,The Society of Mind,New York:Simon &Schuster,1986.他在《音樂(lè)·意識(shí)·意義》一書(shū)里,也探究了音樂(lè)的情感認(rèn)知問(wèn)題,思考了規(guī)則性韻律和主題重復(fù)是如何影響情感表征框架(Representation Frames)和記憶結(jié)構(gòu)的,樂(lè)句及音樂(lè)表達(dá)又是如何喚起情感反應(yīng)的。(24)M.Minsky,“Music,Mind,and Meaning” (1981),Reprinted in S.M.Schwanauer and D.A.Levitt ed.,Machine Models of Music,Massachusetts:The MIT Press,1993,pp.327-354.
與其他藝術(shù)形式不同,音樂(lè)的情感在創(chuàng)作和欣賞中占據(jù)著重要地位,音樂(lè)也是所有藝術(shù)中,最善于傳達(dá)情感的。音樂(lè)作品傳遞的并不是簡(jiǎn)單的聲音信息,而是包括了音樂(lè)家凝結(jié)在其中的情感。在音樂(lè)的表演實(shí)踐中,音樂(lè)則承載著表演者的情感經(jīng)驗(yàn)。如果人工智能無(wú)法具有情感、無(wú)法表達(dá)情感,那就無(wú)法像人類那樣創(chuàng)作真正的足以表達(dá)內(nèi)在情感的音樂(lè)作品。如果一個(gè)智能體沒(méi)有主觀的價(jià)值、沒(méi)有主觀的情感感知,它就只能停留在表面的聲音處理,也就不可能達(dá)到與觀者(聽(tīng)眾)產(chǎn)生深層的情感共鳴,也就無(wú)法通過(guò)音樂(lè)表演行為對(duì)音樂(lè)作品賦予可理解的意義。
那么,是否可以通過(guò)算法的改進(jìn)、算力的提升和海量的數(shù)據(jù)來(lái)解決情感計(jì)算的問(wèn)題,以使音樂(lè)人工智能可以識(shí)別、表達(dá)情感呢?從理論上來(lái)說(shuō)并非不可能。其難點(diǎn)在于情感表現(xiàn)出來(lái)的可感特征與情感的真實(shí)狀態(tài)之間具有模糊性和不確定性。
從主觀方面看,情感屬于主觀意識(shí)的范疇。情感的表現(xiàn)形式具有高度的主觀隨意性、變化的隨機(jī)性、特征模糊性以及個(gè)體差異性,所以很難確定某種表情或聲音狀態(tài)與特定的情感狀態(tài)具有一成不變的對(duì)應(yīng)關(guān)系。某人表現(xiàn)出泣不成聲的情感狀態(tài),有可能是痛哭流涕,也有可能是喜極而泣,還有可能是悲欣交集。
從客觀方面看,在音樂(lè)的音響中,情感和音樂(lè)的聲響之間并非簡(jiǎn)單絕對(duì)的一一對(duì)應(yīng)關(guān)系。即,很難說(shuō)某一(類)特定的音符(或音符組合)與復(fù)雜的、微妙的、不可言傳的情緒(情感)之間具有確定的、必然的對(duì)應(yīng)關(guān)系。因此,也就很難用數(shù)學(xué)的方法來(lái)對(duì)情感進(jìn)行賦值,或建立數(shù)據(jù)化的模式。也正因?yàn)榇?,人工智能領(lǐng)域?qū)η楦杏?jì)算存在一些爭(zhēng)議,有些研究者甚至認(rèn)為“情感計(jì)算”是一個(gè)錯(cuò)誤的研究方向,因?yàn)椤八鼪](méi)有揭示情感的本質(zhì)及內(nèi)在邏輯程序,并且把情感的外部表現(xiàn)方式當(dāng)作情感本身”(25)仇德輝:《情感機(jī)器人:人工情感的邏輯框圖與深度算法》,北京:臺(tái)海出版社,2018年,第47頁(yè)。。
在音樂(lè)人工智能與情感表達(dá)的問(wèn)題上,阿迪亞沙·達(dá)什(Adyasha Dash)等人的最新研究表明,“基于人工智能的情感音樂(lè)生成系統(tǒng)”(AI-based Affective Music Generation Systems,AI-AMG)在情感的表達(dá)上面臨兩大挑戰(zhàn):一是,情感“控制”(Control),它指的是允許創(chuàng)作者生成的音樂(lè)具有所需要的情感內(nèi)容,同時(shí),又能精確地控制音樂(lè)特征,讓這些音樂(lè)展示特定的情感信息。二是,“敘述適應(yīng)性”(Narrative Adaptability),它指的是系統(tǒng)能生成連貫的音樂(lè)段落,且這些音樂(lè)段落可以根據(jù)給定的情感要求,準(zhǔn)確可靠地傳達(dá)不同情感之間的過(guò)渡,以及處理不同情緒特征之間的相互作用。(26)Adyasha Dash,Kat R.Agres.,AI-Based Affective Music Generation Systems:A Review of Methods,and Challenges,arXiv:2301.06890,2023.
音樂(lè)情感的復(fù)雜性還在于,“在音樂(lè)中感知情感的能力也受文化影響,在跨文化研究中觀察到情感感知的異同”(27)M.Susino,S.Schubert,“Cross-Cultural Anger Communication in Music:Towards a Stereotype Theory of Emotion in Music”,Musicae Scientiae,21,2017,pp.60-74.。同時(shí),由于人的情感的變化很大一部分來(lái)源于社會(huì)交往活動(dòng),音樂(lè)作品和其他藝術(shù)品一樣,常常充當(dāng)了人際交往的媒介物,具有社會(huì)情感性。音樂(lè)表演其實(shí)是演奏者和觀者(聽(tīng)眾)基于某一文化傳統(tǒng),在共同的價(jià)值觀、社會(huì)規(guī)范、文化常識(shí)基礎(chǔ)上的一種交流。人們“從一段音樂(lè)中體驗(yàn)到的情感是結(jié)構(gòu)特征、表演特征、聽(tīng)眾特征、語(yǔ)境特征和樂(lè)曲外特征的綜合效應(yīng)”(28)Susino Marco,Emery Schubert,“Musical Emotions in the Absence of Music:A Cross-Cultural Investigation of Emotion Communication in Music by Extra-Musical Cues”,PLOS ONE,15(11),2020,pp.1-21.。
人工智能沒(méi)有類似人類的人際交往或者社會(huì)情感方面的認(rèn)知。這就使得當(dāng)前的“情感計(jì)算”最多能讓人工智能看起來(lái)“具有”情緒特征,但這只是讓其“表現(xiàn)出有情感”的樣子,與真正有意識(shí)的由內(nèi)而外的情緒是兩回事。由此,很難說(shuō)人工智能具有了人類擁有的一般意義上的情感或情緒。人工智能是根據(jù)特定的程序和訓(xùn)練來(lái)“運(yùn)算”及處理信息,它沒(méi)有人類那樣的感知、意識(shí),也不體驗(yàn)情感。雖然它可能會(huì)生成描述或模擬情緒的文本和音響,但并不意味著它自身具有情緒。
在音樂(lè)創(chuàng)作和表演中,個(gè)體的情感狀態(tài)和作品表現(xiàn)出來(lái)的情感特征也并不是總是一致的。聽(tīng)起來(lái)悲傷的作品,完全可能是在快樂(lè)的心境下創(chuàng)作。在音樂(lè)創(chuàng)作之外,音樂(lè)表演也需要情感,音樂(lè)表演的重要目的是使人產(chǎn)生共鳴。每個(gè)表演者對(duì)音樂(lè)表情符號(hào)的情感表達(dá)方式有不同的理解,如果這種理解是基于某種規(guī)則的標(biāo)準(zhǔn)化演奏,則對(duì)音樂(lè)作品的闡釋會(huì)導(dǎo)致僵化。如波蘭鋼琴家和作曲家帕德瑞夫斯基(Ignacy Jan Paderewski,1860-1941)所說(shuō)的:“當(dāng)使用espressivo、con molto、sentimento、con passione等詞時(shí),都要求(……)一定量的情緒,而情緒排除了規(guī)律性……演奏肖邦的G大調(diào)夜曲,要有節(jié)奏的僵硬和對(duì)所指示的運(yùn)動(dòng)速度的虔誠(chéng)尊重,那就是(……)令人難以忍受的單調(diào)(……),肖邦發(fā)自內(nèi)心的演奏。他的演奏不是理性的,而是情緒化的”。(29)E.Coutinho,M.Gimenes,J.M.Martins &E.R.Miranda,“Computational Musicology:An Artificial Life Approach”,2005 Portuguese Conference on Artificial Intelligence,2005,pp.85-93.這種個(gè)性化的演奏,顯然是人工智能所無(wú)法達(dá)到的。人工智能對(duì)待音樂(lè)作品所“表現(xiàn)”的對(duì)象或音樂(lè)“傳達(dá)”出的意味,與人類的處理方式是完全不同的。由于數(shù)理邏輯的程序化和標(biāo)準(zhǔn)化,人工智能的音樂(lè)呈現(xiàn)或許在技術(shù)上是精準(zhǔn)無(wú)誤,但是在審美價(jià)值方面卻極有可能陷入平庸的境況。
傳統(tǒng)的認(rèn)知理論將人的大腦類比于計(jì)算機(jī),能處理大量復(fù)雜的信息,這些信息由感覺(jué)、知覺(jué)系統(tǒng)輸入,經(jīng)過(guò)一系列加工、處理最終完成認(rèn)知過(guò)程。這種“身心二元論”(Mind-Body Dualism)或者“實(shí)體二元論”(Substance Dualism)的主張受到了笛卡爾主義(Cartesianism)的影響。該哲學(xué)觀點(diǎn)認(rèn)為,意識(shí)和身體是兩個(gè)不同的實(shí)體或物質(zhì),由不同的物質(zhì)或要素組成,它們之間存在著互動(dòng)關(guān)系。但意識(shí)是能夠獨(dú)立于身體存在的,身體是意識(shí)的物理容器。
而現(xiàn)代的具身認(rèn)知(Embodied Cognition)理論則認(rèn)為:“首先,認(rèn)知取決于具有各種感覺(jué)運(yùn)動(dòng)能力的身體所產(chǎn)生的經(jīng)驗(yàn)類型;其次,這些個(gè)體的感覺(jué)運(yùn)動(dòng)能力本身嵌入了更廣泛的生物、心理和文化背景中?!?30)F.J.Varela,E.Thompson,&E.Rosch,The Embodied Mind:Cognitive Science and Human Experience,Massachusetts:The MIT Press,1991,pp.172-173.也即,主張“大腦-身體-環(huán)境”在認(rèn)知發(fā)生過(guò)程中構(gòu)成一個(gè)動(dòng)態(tài)的統(tǒng)一體。其中,身體是認(rèn)知過(guò)程發(fā)生的核心;認(rèn)知是在身體與環(huán)境接觸所獲得經(jīng)驗(yàn)的基礎(chǔ)上形成的;認(rèn)知取決于個(gè)體的具身行為所產(chǎn)生全部經(jīng)驗(yàn)。認(rèn)知由身體的感知、意欲、動(dòng)作和響應(yīng)過(guò)程構(gòu)成。
具身認(rèn)知理論不支持身心二元論觀點(diǎn),而是認(rèn)為,“符號(hào)信息加工認(rèn)知理論和聯(lián)結(jié)主義心理學(xué)等將人類的認(rèn)知過(guò)程定義為對(duì)符號(hào)、信息的加工和操作,忽視了身體、活動(dòng)與經(jīng)驗(yàn)在認(rèn)知中的作用”(31)葉浩生:《西方心理學(xué)中的具身認(rèn)知研究思潮》,《華中師范大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版)》,2011年,第4期,第153—160頁(yè)。。并認(rèn)為這種認(rèn)識(shí)忽視了身體的感官系統(tǒng)存在的差異,會(huì)導(dǎo)致認(rèn)知存在偏差。
行為與環(huán)境的“耦合”模型與大腦的內(nèi)部獨(dú)立“計(jì)算”模型,哪一種更接近人的認(rèn)知真相?身體情況和環(huán)境對(duì)認(rèn)知過(guò)程是否具有重要影響?不同的哲學(xué)立場(chǎng)決定了對(duì)此的不同看法。與傳統(tǒng)身心二元論的類計(jì)算機(jī)模型相反,具身認(rèn)識(shí)觀強(qiáng)調(diào)作為主體的身體在認(rèn)知能力中的重要性。強(qiáng)調(diào)感(知)覺(jué)經(jīng)驗(yàn)、人的身體,以及外部環(huán)境共同構(gòu)成人的認(rèn)知系統(tǒng),三者不可分。這種觀點(diǎn)進(jìn)而主張感(知)覺(jué)經(jīng)驗(yàn)和身體的感(知)覺(jué)高度相關(guān)。具身認(rèn)知支持者的觀點(diǎn)是,身體或身體與環(huán)境的互動(dòng)構(gòu)成(或促進(jìn))了認(rèn)知。因?yàn)?,心理過(guò)程不是簡(jiǎn)單計(jì)算過(guò)程,“知識(shí)沒(méi)有單獨(dú)存在的實(shí)體,而是嵌入、分布在實(shí)時(shí)的感知、記憶、注意和行動(dòng)過(guò)程中,并與這些心理和行為的過(guò)程密不可分”(32)J.Kevin O’Regan,Alva No?,“A Sensorimotor Account of Vision and Visual Consciousness”,Behavioral and Brain Sciences,24,2001,pp.939-1031.。
具身認(rèn)知理論對(duì)我們看待音樂(lè)表演實(shí)踐是有啟發(fā)的,按照這種觀點(diǎn),在音樂(lè)表演中,無(wú)論是表演者的呈現(xiàn)還是聽(tīng)眾的感知,都不是被動(dòng)地接收聲音,身體和環(huán)境影響了音樂(lè)表演行為和聆聽(tīng)欣賞。音樂(lè)表演的本質(zhì),實(shí)際上是在一個(gè)特定的“美學(xué)空間”里,演奏者將作曲家創(chuàng)作的“聲音藍(lán)圖”,轉(zhuǎn)化成聽(tīng)眾可感知的聲音結(jié)構(gòu),并清楚地展示給聽(tīng)眾。每一次的演繹,都有著獨(dú)特的聲音存在樣式,這個(gè)樣式有著獨(dú)一無(wú)二的結(jié)構(gòu)和奧秘,有經(jīng)驗(yàn)的聽(tīng)眾是可以感受和認(rèn)知這一奧秘的。而計(jì)算機(jī)的智能只是機(jī)械的智能,它的本質(zhì)還是按照人的指令進(jìn)行精密、快速的計(jì)算,或者按照某種規(guī)則呈現(xiàn)某種聲音,它無(wú)法真正代替人類觀賞同類的表演行為。
與身心認(rèn)知相關(guān)的另一個(gè)核心問(wèn)題是意識(shí)。簡(jiǎn)單地說(shuō),所謂“意識(shí)”就是體驗(yàn)和感知自身和他者存在的一種狀態(tài)及其產(chǎn)生的感受,其重要體現(xiàn)是能夠區(qū)分自我意識(shí)(自身的想法)和他我意識(shí)(他人的想法),這是心智理論(Theory of Mind)的重要內(nèi)容。
意識(shí)能夠把一切經(jīng)驗(yàn)之物納入思考范圍,這使無(wú)限思想成為可能。另一方面,意識(shí)能夠?qū)σ庾R(shí)本身進(jìn)行反思,即,把意識(shí)自身作為一個(gè)思考對(duì)象。這是人類和人工智能一個(gè)很大的不同。人類并不是只對(duì)輸入的信息做出固定的、程序化的反應(yīng),人類會(huì)不斷追問(wèn)諸如“我是誰(shuí)?”“我的種種主觀的想法、念頭和感受是怎么來(lái)的”這類問(wèn)題,針對(duì)意識(shí)的意識(shí)就具有了“元意識(shí)”(Meta Mind)的性質(zhì),這種元意識(shí)能夠?qū)λ囆g(shù)的創(chuàng)作、演出行為進(jìn)行反思。創(chuàng)作者和表演者能夠清楚地意識(shí)到自身的行為將會(huì)給他者帶來(lái)什么,并調(diào)整自身的行為。
這種反思能力是形成自我意識(shí)的關(guān)鍵,人類不僅能產(chǎn)生符號(hào)化的知覺(jué)表征,還能對(duì)知覺(jué)行為本身進(jìn)行表征。比如,人類的演奏者,不僅能識(shí)別出某個(gè)樂(lè)譜的符號(hào)(一階知覺(jué));還會(huì)說(shuō)(或者在頭腦中默想):我剛才認(rèn)出了那個(gè)音符,或者我剛才演奏了那個(gè)音符(二階知覺(jué));可能還會(huì)對(duì)自己的知覺(jué)結(jié)果提出疑問(wèn):我剛才看的那個(gè)音符是某個(gè)音,我會(huì)不會(huì)看錯(cuò)(演奏錯(cuò)了)了?(三階知覺(jué))。這種三階知覺(jué)能力,能夠讓人類產(chǎn)生一種非常新穎高級(jí)的意識(shí)活動(dòng),不斷地提升、調(diào)整音樂(lè)實(shí)踐行為,進(jìn)而影響聽(tīng)眾的觀賞體驗(yàn)。
然而,人工智能并不理解其工作的意義(至少現(xiàn)在和可以預(yù)見(jiàn)的將來(lái)是如此)。無(wú)論是創(chuàng)作還是表演,人工智能所做的工作實(shí)際上是計(jì)算出既有作品的特征。從數(shù)學(xué)的角度看,它其實(shí)是將一些音樂(lè)的特征進(jìn)行賦值,并依據(jù)特定的算法,用這些賦值產(chǎn)生另外一個(gè)作品,但它本身沒(méi)有自我意識(shí),也就更談不上即時(shí)的互動(dòng)和反思了。自我意識(shí)的缺位,導(dǎo)致人工智能在音樂(lè)的創(chuàng)作和表演行為中,并非像人類一樣是發(fā)自內(nèi)心的“自我”驅(qū)動(dòng),而是執(zhí)行特定的算法和受到數(shù)據(jù)的驅(qū)動(dòng),這一區(qū)別顯然也導(dǎo)致人類和人工智能創(chuàng)作(或通過(guò)表演呈現(xiàn))的作品,具有本質(zhì)的不同。
2021年,音樂(lè)人工智能界一件備受矚目的事是德國(guó)卡拉揚(yáng)研究所羅德(M.Roder)組織了上百人的一個(gè)AI音樂(lè)團(tuán)隊(duì),根據(jù)貝多芬殘存的音樂(lè)手稿和其他線索,完成了人工智能版的《貝多芬第十交響曲》的創(chuàng)作和演出。
該項(xiàng)目的主要研究者有:美國(guó)羅格斯大學(xué)的艾爾格莫(A.Elgammal),主要負(fù)責(zé)用貝多芬的音樂(lè)來(lái)訓(xùn)練并構(gòu)建AI神經(jīng)網(wǎng)絡(luò)系統(tǒng),再?gòu)闹猩伤璧呢惗喾乙魳?lè)片段;奧地利作曲家沃爾佐瓦(Werzowa),負(fù)責(zé)從AI生成的音樂(lè)素材中選擇最合適的片段來(lái)合成最終的作品;康奈爾大學(xué)計(jì)算音樂(lè)學(xué)專家高特姆(M.Gotham),負(fù)責(zé)貝多芬的樂(lè)譜手稿的識(shí)別工作,以及AI生成的樂(lè)譜編輯合成工作;古譜研究專家(鋼琴演奏家)萊文(R.D.Levin),負(fù)責(zé)校訂貝多芬樂(lè)譜手稿,擔(dān)任鋼琴視奏,通過(guò)視奏AI生成的樂(lè)譜,并讓深諳貝多芬風(fēng)格的專家審定AI生成的音樂(lè)是否符合貝多芬音樂(lè)風(fēng)格。
經(jīng)過(guò)手稿研究、數(shù)據(jù)學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)構(gòu)建、算法調(diào)試、MIDI樂(lè)譜輸出、試奏視聽(tīng)、生成樂(lè)隊(duì)總譜等復(fù)雜工作,最終使作品得以搬上舞臺(tái)。不得不說(shuō),這部作品具有濃郁的“貝多芬風(fēng)格”,比如,長(zhǎng)大的尾聲和貝多芬特有的力度對(duì)比、和聲進(jìn)行、動(dòng)機(jī)展開(kāi)和終止式等等。熟悉貝多芬作品的人,完全能毫不費(fèi)力地感受到這首作品與貝多芬本人創(chuàng)作的作品有清晰可辨的“似曾相識(shí)”之處。
但是,這是一種還原還是一種創(chuàng)造呢?貝多芬自己創(chuàng)作的九首交響作品每一首的風(fēng)格特點(diǎn)都不盡相同,何以“第十”會(huì)是前面九首的“概括式總結(jié)”呢?一位評(píng)論家(Henk Douwes)的話也許代表了很多人的困惑:(作品)“聽(tīng)起來(lái)絕對(duì)是‘貝多芬式的’。單就音樂(lè)而言,聽(tīng)起來(lái)很像對(duì)貝多芬之前作品的低級(jí)翻版,其中明顯有《第五交響曲》諧謔樂(lè)章的痕跡,聽(tīng)起來(lái)很刺耳。其實(shí)完全可以學(xué)習(xí)第七、第八或第九《交響曲》的諧謔樂(lè)章。即使留存的樂(lè)譜草稿確實(shí)有貝多芬之前音樂(lè)的影子,也不意味著作品就應(yīng)發(fā)展成目前的樣子。天才的貝多芬能容忍這種平庸的‘翻唱’嗎?”(33)韓寶強(qiáng):《人工智能續(xù)創(chuàng)貝多芬〈第十交響曲〉帶給我們的啟示》,《音樂(lè)與表演》(南京藝術(shù)學(xué)院學(xué)報(bào)),2022年,第1期,第118—121頁(yè)。
其實(shí),早在1981年,美國(guó)作曲家、人工智能研究者戴維·庫(kù)伯(David Cope)就創(chuàng)立了音樂(lè)智能實(shí)驗(yàn)(Experiments in Musical Intelligence),通過(guò)人工智能來(lái)創(chuàng)作音樂(lè)。庫(kù)伯分別采用了“通過(guò)規(guī)則創(chuàng)作”與“重組匹配”兩種方法來(lái)創(chuàng)作音樂(lè),前者要求每次為新作品編寫(xiě)新的規(guī)則,后者采用重組方法將現(xiàn)有音樂(lè)重新組合,以新的邏輯創(chuàng)作新作品。1997年,在一次演講中,他播放了一首以重組方法創(chuàng)作的巴赫作品,聽(tīng)眾無(wú)法分辨到底是計(jì)算機(jī)創(chuàng)作的還是巴赫本人創(chuàng)作的。(34)見(jiàn)戴維·庫(kù)伯的個(gè)人網(wǎng)站http://artsites.ucsc.edu/faculty/cope/biography.htm(最后登錄時(shí)間2023.4.9)。
在風(fēng)格模仿方面,音樂(lè)人工智能的創(chuàng)作早已到了足以“以假亂真”的地步。通過(guò)算法和分析,可以輕易地對(duì)已有作品的特點(diǎn)進(jìn)行提煉,并基于提煉的特質(zhì)創(chuàng)作出新作品。但是,在獨(dú)立創(chuàng)作方面,目前音樂(lè)人工智能的創(chuàng)作尚乏善可陳。這一現(xiàn)象背后的原因并不復(fù)雜,主要?dú)w結(jié)于兩點(diǎn):一是,音樂(lè)人工智能無(wú)法實(shí)現(xiàn)基于審美經(jīng)驗(yàn)的藝術(shù)創(chuàng)作;二是,音樂(lè)創(chuàng)作中,創(chuàng)造思維的復(fù)雜度遠(yuǎn)超過(guò)現(xiàn)有人工智能的計(jì)算能力。
就藝術(shù)經(jīng)驗(yàn)而言,以休謨(David Hume,1711-1776)為代表的經(jīng)驗(yàn)主義者認(rèn)為,人類的知識(shí)和思想都來(lái)源于感性經(jīng)驗(yàn),即,通過(guò)感覺(jué)、體驗(yàn)、經(jīng)歷而獲得經(jīng)驗(yàn)。所有的概念和原則,是通過(guò)感性經(jīng)驗(yàn)建立的,只有通過(guò)經(jīng)驗(yàn)才能知道世界真相和現(xiàn)實(shí)的本質(zhì)。休謨認(rèn)為:“一切科學(xué)牢固的基礎(chǔ)是人性,而人性的牢固基礎(chǔ)則是經(jīng)驗(yàn),即我們要理解人性,只有通過(guò)經(jīng)驗(yàn)以及與之相關(guān)的觀察,在觀察的基礎(chǔ)上得到經(jīng)驗(yàn)。”(35)文聘元編著:《西方哲學(xué)通史》,南昌:江西美術(shù)出版社,2019年,第157頁(yè)。
也許休謨的經(jīng)驗(yàn)論或多或少有些偏激,但就藝術(shù)創(chuàng)作而言,感性經(jīng)驗(yàn)而非理性的計(jì)算起到了更為重要的作用,這在人類的創(chuàng)作中已經(jīng)無(wú)數(shù)次被證明了。經(jīng)歷豐富、情感豐厚的藝術(shù)家總比情感貧乏的人更能創(chuàng)作出打動(dòng)人心的作品。腦科學(xué)家格林菲爾德(S.Greenfield)的研究也一定程度支持了休謨的觀點(diǎn):“客觀可觀察的事件如何轉(zhuǎn)變?yōu)楠?dú)特個(gè)人經(jīng)驗(yàn)的第一手感覺(jué),無(wú)法通過(guò)數(shù)學(xué)公式而得到。”(36)〔英〕蘇珊·格林菲爾德:《大腦的一天》,韓萌、范穹宇譯,上海:上海文藝出版社,2020年,第4頁(yè)。
與藝術(shù)經(jīng)驗(yàn)密切相關(guān)的是藝術(shù)創(chuàng)造問(wèn)題。斯滕伯格(Robert Sternberg)曾提出一個(gè) “三元智能理論”,他把智能劃分為分析問(wèn)題的能力(Analytical Intelligence)、實(shí)際解決問(wèn)題的能力(Practical Intelligence)、創(chuàng)造力(Creative Intelligence)。(37)Robert J.Sternberg,Beyond IQ:A Triarchic Theory of Human Intelligence,New York:Cambridge University Press,1985.
在《現(xiàn)代漢語(yǔ)大詞典》中,“創(chuàng)造”的意思是“發(fā)明;制造前所未有的事物”?!皠?chuàng)造力”是指“人們創(chuàng)造新事物的才能和力量”(38)阮智富、郭忠新編著:《現(xiàn)代漢語(yǔ)大辭典》(上),上海辭書(shū)出版社,2009年,第233頁(yè)。?!皠?chuàng)造”的本質(zhì)特征其實(shí)是“無(wú)中生有”。藝術(shù)創(chuàng)造的本質(zhì)是產(chǎn)生新穎的、異乎尋常的觀念,并創(chuàng)制有藝術(shù)價(jià)值的藝術(shù)作品。這是人類最高智慧的體現(xiàn),問(wèn)題在于,人類自身是如何產(chǎn)生新穎的想法,又是如何產(chǎn)生藝術(shù)靈感的?這些問(wèn)題至今仍然沒(méi)有明確的答案。
現(xiàn)有研究還沒(méi)有解開(kāi)人類創(chuàng)造行為的密碼。但是人們已經(jīng)意識(shí)到,人類的“創(chuàng)造性”是一個(gè)復(fù)雜綜合的身心過(guò)程,它無(wú)法單獨(dú)通過(guò)心理學(xué)、神經(jīng)學(xué)、生理學(xué)來(lái)解釋,更難以通過(guò)函數(shù)和程序來(lái)表示。人工智能的本質(zhì)是數(shù)理邏輯,而創(chuàng)造性有著邏輯或者數(shù)學(xué)難以表達(dá)的特質(zhì)。
現(xiàn)有人工智能在音樂(lè)領(lǐng)域體現(xiàn)出來(lái)的“創(chuàng)作”,其實(shí)很難稱得上是真正的“創(chuàng)造”,其實(shí)只是特定程序在輸入?yún)?shù)或數(shù)據(jù)之后所做的“組合”。當(dāng)然,對(duì)于什么是“真正的創(chuàng)造”的理解本身也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),但顯然,僅僅用“新”(即,與既有的存在物具有不同特征)來(lái)定義“創(chuàng)造性”是不夠的。如趙汀陽(yáng)所說(shuō):”創(chuàng)造性在于改變力,在于能夠改變世界或歷史,改變生活或經(jīng)驗(yàn),改變思想或事物,或者說(shuō),創(chuàng)造性在于為存在增加一個(gè)變量。”(39)趙汀陽(yáng):《人工智能提出了什么哲學(xué)問(wèn)題》,《文化縱橫》,2020年,第1期,第43—57頁(yè)。建立一個(gè)與人類大腦認(rèn)知水平相當(dāng)?shù)模哂袆?chuàng)造性的人工大腦,在理論上即使具有可能性,在實(shí)踐中也是極為困難的,在音樂(lè)領(lǐng)域尤其如此。
本文對(duì)音樂(lè)人工智能的幾點(diǎn)哲學(xué)審思,絕非要否定人工智能已經(jīng)取得的成績(jī),更非低估人工智能巨大無(wú)比的潛力,而是認(rèn)為,音樂(lè)人工智能如果不能解決本文所論及的幾個(gè)問(wèn)題,將難以實(shí)現(xiàn)取代有真正創(chuàng)造力的作曲家的目標(biāo)。
如果從人類漫長(zhǎng)的歷史來(lái)看,人工智能的本質(zhì)不過(guò)是人類創(chuàng)造的諸多工具之一,與所有人類創(chuàng)造工具一樣,它們?cè)诤芏喾矫鎰龠^(guò)了人類的能力。工具的作用是將人類的某一能力給予延伸,并在某一方面代替人類。人工智能與既往人類的工具相比,是人類腦力的延伸,但仍沒(méi)有改變其工具的本質(zhì)。
正是基于此,本文認(rèn)為,在藝術(shù)(尤其是音樂(lè)領(lǐng)域),能真正代替音樂(lè)家的強(qiáng)人工智能(Artificial General Intelligence)在可見(jiàn)的未來(lái)還無(wú)法實(shí)現(xiàn)。不過(guò),鑒于人工智能驚人的迭代速度,伴隨著人工智能的三駕馬車算法、算力、數(shù)據(jù)一日千里的發(fā)展,我們也有理由對(duì)它的廣闊前景報(bào)以審慎的樂(lè)觀。當(dāng)然,我們?nèi)祟愐灿凶銐虻睦碛杀3诌@樣一種尊嚴(yán)和自信:只要我們還會(huì)不斷“自我反思”,還會(huì)不斷地拓展我們的審美經(jīng)驗(yàn),還會(huì)不斷增進(jìn)對(duì)同類的理解,還會(huì)不斷地探索、拓展我們的藝術(shù)表達(dá)手段,人類就一定會(huì)持續(xù)創(chuàng)作不朽的音樂(lè),用以充實(shí)我們永恒的精神世界。
機(jī)器的歸機(jī)器,人類的歸人類。
中央音樂(lè)學(xué)院學(xué)報(bào)2023年3期