摘 要:為了有效地生成結構化的旋律,提出了一種基于主題條件CNN-BiLSTM的旋律自動生成方法.將旋律表示為鋼琴卷簾窗的形式,使用定長、變長相結合的方法分割鋼琴卷簾窗;通過Ward聚類算法對鋼琴卷簾窗片段進行聚類分析,將獲取的最大簇作為歌曲的旋律主題;以旋律主題作為條件使用基于CNN-BiLSTM結構的模型進行旋律生成,其上半部分CNN可以有效地提取鋼琴卷簾窗中所包含時間和音高之間的信息,下半部分利用LSTM和BiLSTM更好地捕捉到序列中的時序信息.結果表明,相較于現(xiàn)有的MidiNet模型,使用的旋律主題條件CNN-BiLSTM模型在準確率、歸一化KL散度方面分別高出23%和0.17,生成的樂曲在連貫性和情感表達方面也優(yōu)于傳統(tǒng)的模型.
關鍵詞:音樂生成;自動作曲;CNN-BiLSTM;旋律主題提取;聚類
中圖分類號:TP391.9 文獻標志碼:A文章編號:1000-2367(2025)03-0135-08
隨著人工智能技術的不斷發(fā)展,AI音樂生成技術逐漸成為人們關注的熱點之一.AI音樂生成技術是通過計算機算法和模型生成優(yōu)美的音樂,減少人工干預對音樂生成帶來的主觀性.其中,基于深度學習的音樂生成模型已經(jīng)取得了一定的進展,但仍然存在許多問題和挑戰(zhàn).
在現(xiàn)有的研究中,SHI等[1]使用基于隱馬爾可夫(hidden markov model,HMM)的方法來對鋼琴音樂進行分析和分類;YANG等[2]提出了MidiNet一種基于卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)的方法來生成音樂,特別是以鋼琴曲為例,設計了一個卷積神經(jīng)網(wǎng)絡來對音樂的節(jié)奏、和弦、旋律等特征進行建模,并在這個基礎上進行樂曲生成;MINU等[3]提出了一種基于長短時記憶網(wǎng)絡(long short-term memory,LSTM)和循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)的方法來生成多軌鋼琴曲;WANG等[4]提出一種使用RNN模型來生成中國風格的音樂;JAYATHARAN等[5]提出了一種使用CNN的對抗神經(jīng)網(wǎng)絡(generative adversarial network,GAN)來生成符號領域音樂的方法.以往的研究中,存在著音符序列長時依賴,局部和全局特征難以捕捉[6],難以生成表達特定情感的音樂這3個問題.
針對以往研究中的不足,提出了一種使用旋律主題作為條件、混合CNN和雙向長短時記憶網(wǎng)絡(bi-directional long short-term memory,BiLSTM)的CNN-BiLSTM模型來生成音樂.首先,將轉換成鋼琴卷簾窗的樂器數(shù)字化接口(musical instrument digital interface,MIDI)文件,按照章節(jié)分割為大段落之后,對每個大段落使用定長分割的方法分割為定長片段.其次,使用Ward聚類對旋律片段進行聚類,將其中最大中心對應樂譜片段作為旋律主題;將旋律主題和旋律片段拼接起來,并將其輸入到CNN-BiLSTM模型中.最后,模型將會輸出接下來時間片的對應音高.與LSTM-RNN模型[3]和CNN-GAN模型[5]不同,在本文提出的模型中采用了Bi-LSTM,使其能夠同時考慮到音符序列的過去和未來信息,從而更全面地理解音樂上下文,這種雙向分析有助于提高音樂生成的連貫性和表現(xiàn)力.與LI等[6]提出的情感條件模型中的情感標簽相比,使用主題旋律作為生成音樂的條件,解決了手動標注標簽所帶來的主觀性和可擴展性方面的問題.
1 數(shù)據(jù)處理
1.1 鋼琴卷簾窗分割
鋼琴卷簾窗如圖1所示,是一種將音符序列[7]映射到二維空間音樂表示方法,行表示時間,列表示音高,每個元素表示該時刻該音高是否被觸發(fā),這樣的表示方式直觀地反映了音樂信息的時間和音高維度.
使用鋼琴卷簾窗的原因有以下2點:分片后看作二維圖像,使得模型可以利用卷積神經(jīng)網(wǎng)絡來提取和學習音樂信息的時空特征;方便進行翻轉、隨機裁剪等數(shù)據(jù)增強操作,增加訓練數(shù)據(jù)的多樣性和模型的泛化能力.
在鋼琴卷簾窗分割中,SHI等[1]使用了定長分割方法;YANG等[2]使用了可變長分割方法保留時序信息.另外,ZHANG[8]闡述了一些音樂分割和編碼方法,例如小節(jié)、樂句等,以解決符號音樂的生成問題.
鑒于現(xiàn)有的分割方法中存在的不足之處,本文使用了定、變長相結合的分割方法.具體地,將鋼琴卷簾窗按樂譜章節(jié)分割大段落,然后在大段落中使用定長分割的方法分割成定長片段.使用此種分割方法,避免定長片段分割中樂譜缺失章節(jié)結構完整性,同時將章節(jié)內的旋律分割成易于訓練的定長音符.
1.2 使用Ward聚類方法獲取主題片段
在已有的條件音樂生成模型[9]中,往往使用樂譜和人工情感信息作為模型的輸入,然而人工情感信息的標記缺乏客觀性,這使得生成效果受到一定的限制.
為了解決這個問題,對鋼琴卷簾窗π(其中片段記作π1,…,π2)使用Ward聚類算法[10].選取其中的最大聚類中心作為歌曲的旋律主題,將其作為一個新的輸入特征一起輸入到CNN-BiLSTM模型中,減少人工情感標記的主觀性的影響.
選擇聚類獲取主題片段的優(yōu)勢,無監(jiān)督學習[10],不需要預先標注的數(shù)據(jù)進行訓練;聚類分析可以幫助發(fā)現(xiàn)音樂數(shù)據(jù)中的隱含結構和模式;聚類分析可以生成多個不同的旋律主題.相比之下,使用卷積模塊則需要數(shù)據(jù)量和標注,而帶有主題標注的音樂數(shù)據(jù)相對缺乏.具體來說,使用Ward聚類[11]對樂譜的鋼琴卷簾窗片段進行聚類,將其中最大的聚類中心作為整首歌曲的旋律主題.使用聚類算法能夠有效地提取出樂譜中多次出現(xiàn)的旋律,而這個旋律往往代表樂譜風格和情感.
2 旋律主題條件CNN-LSTM模型
旋律主題是指在一首樂譜中反復出現(xiàn)的片段[12],帶有充分的情感信息的片段,因此利用旋律主題作為CNN-BiLSTM模型[11]的條件[6],使得模型能夠更好控制生成樂譜的情感特征.
模型如圖2所示,由樂譜特征提取網(wǎng)絡、旋律主題特征提取網(wǎng)絡和樂譜生成網(wǎng)絡3個子網(wǎng)絡組成,每個子網(wǎng)絡完成不同的工作.通過這3個子網(wǎng)絡,旋律主題條件CNN-BiLSTM模型可以學習到音樂片段的模式,并生成新的音樂片段,從而實現(xiàn)音樂創(chuàng)作的自動化.
使用CNN作為模型的前半部分[6],有效地提取出鋼琴卷簾窗中關于旋律之間的時間和音高對應特征[13],從而使得BiLSTM在后半部分[14]更好地捕捉到序列中的時序信息,提高模型的性能和表現(xiàn).
具體而言,樂譜特征提取網(wǎng)絡將輸入的樂譜映射為特征向量fx[15],即fx=CNNx(x);旋律主題特征提取網(wǎng)絡將輸入的旋律主題m映射[16]為特征向量fm,即fm=CNNm(m);樂譜生成網(wǎng)絡根據(jù)當前時刻t的輸入ft,前一時刻生成的旋律yi-1和整合后的特征向量(fx,fm)來生成下一個旋律yt的概率分布,即p(yt|x,y<t,m)=BiLSTM(ft,yt-1,(fx,fm)).
模型的總體概率
p(y|x,m)=∏T/t=1p(yi|x,y<t,m),
其中,y是模型輸出的旋律序列,x是輸入的樂譜,m是輸入的旋律主題,y<t表示生成的序列中第t個時刻之前的旋律片段,T是總序列時刻數(shù).整個模型的學習目標是最大化訓練集上的對數(shù)似然:
L=(1/N)∑N/i=1∑Ti/t=1log2 p(yi,t|xi,yi<t,mi),
其中,N是訓練集中旋律序列的數(shù)量,Ti是第i個序列的長度.
將旋律主題m作為條件[16]使得模型可以控制生成特定情感和樂譜結構的音樂,同時也避免了需要通過人工標記來獲取感情標簽的主觀性缺陷.相比于傳統(tǒng)的生成模型,旋律主題條件CNN-BiLSTM模型更具針對性,更加準確地生成符合旋律主題和情感的音樂作品.
2.1 CNN特征提取網(wǎng)絡提取樂譜與旋律主題特征
由于樂譜鋼琴卷簾窗片段特征提取網(wǎng)絡和旋律主題鋼琴卷簾窗特征提取網(wǎng)絡所處理的數(shù)據(jù)具有相似性,因此對這2個子網(wǎng)絡使用相同的構架方式.
特征提取網(wǎng)絡結構如圖3所示,由4層卷積層和全連接特征輸出層組成,使用混合構架能更好地利用不同結構網(wǎng)絡的優(yōu)勢,提高樂譜生成的效果.其中,帶殘差的網(wǎng)絡結構[17],在保持網(wǎng)絡深度和復雜度的同時,增加網(wǎng)絡的非線性表示能力;最大池和平均池交替使用,在同時提取局部和全局特征的基礎上,提高特征的多樣性和豐富度;串并聯(lián)相結合的CNN構架兼顧網(wǎng)絡的深度和寬度,并聯(lián)結構增加了網(wǎng)絡的非線性表示能力和泛化性能,串聯(lián)結構實現(xiàn)了特征的分層提取和加工.
2.2 整合旋律主題特征的生成樂譜子網(wǎng)絡
樂譜生成子網(wǎng)絡結構如圖4所示,通過LSTM和BiLSTM[18]混合結構,2組LSTM的設計分別對樂譜片段和旋律主題進行建模.
子網(wǎng)絡結構采用了LSTM和BiLSTM相結合的結構,更好地學習和捕捉樂譜的整體和局部特征,樂譜片段和旋律主題之間的關系[19],從而生成符合旋律主題的新樂譜片段.
3 結果與評價分析
對于音樂生成模型的評價一般從客觀和主觀[20]2個角度進行.客觀評價通?;谝恍┮魳穼W上的規(guī)則和統(tǒng)計指標,如音高、節(jié)奏、和弦等.主觀評價[21]則基于人的感受和情感[22],主觀評價往往會涉及更多的審美和情感因素,因此比較主觀和難以量化[23].本文提出的基于旋律主題條件CNN-BiLSTM模型分別從主觀和客觀2個方面進行評價分析.
3.1 數(shù)據(jù)集與客觀評價指標
使用的LMD(Lakh MIDI Dataset)[19]和GiantMIDI-Piano[18]這2個數(shù)據(jù)集,LMD是一個用于音樂信息檢索和音樂信息提取的公共數(shù)據(jù)集,它包含了超過10萬個來自不同的音樂時期、風格和文化背景的音樂作品.針對同一首歌曲,往往LMD數(shù)據(jù)集中會存在有多個不同版本.鑒于LMD存在的問題,使用的數(shù)據(jù)集在LMD數(shù)據(jù)集挑選出Pop,Classical,Jazz3種風格的MIDI格式的歌曲作為本文模型的訓練數(shù)據(jù).GiantMIDI-Piano數(shù)據(jù)集的標注信息非常詳細,包括每個音符的音高,起始時間,持續(xù)時間,音量,可以準確地分析和處理數(shù)據(jù),并用于訓練和評估音樂生成模型.
在音樂生成任務中,常用的模型評價指標有準確率、KL散度、Empty Bar(EB)、Pitch Range(PR)和Number of Unique Note Pitch(NUP).它們反映模型生成的音樂的多樣性與真實音樂的相似度[18].因此,采用歸一化后的KL散度、準確率、Empty Bar(EB)、Pitch Range(PR)和 Number of Unique Note Pitch(NUP)作為客觀評價指標,評估模型生成的音樂與輸入旋律主題的匹配程度.
歸一化KL散度
K歸一化=(Li/max/i{Ki}),
其中,Ki為模型i的KL散度.
模型準確率
A=(∑θ/i∈θwiNTP,i/∑θ/i∈θ(wpop+wclassical+wjazz)(NTP,i+NFN,i)),(θ∈(Pop,Classical,Jazz)),
其中,wpop、wclassical、wjazz分別表示3類數(shù)據(jù)在數(shù)據(jù)集中的比例,NTP,i表示生成與真實一致的音符數(shù),NFN,i表示生成的音符與實際音符不一致的數(shù)目.
Empty Bar(EB)表示生成音樂中的空拍率;Pitch Range(PR)表示音高的范圍,用最高音高和最低音高之間的音程來衡量;Number of Unique Note Pitch(NUP)表示音高的種類數(shù)量,用于評估音樂的多樣性.
3.2 消融實驗與客觀評價分析
使用模型生成30首旋律,其中一首生成的旋律如圖5所示,藍色部分為輸入的旋律片段,之后是模型對給定片段生成的旋律.從圖5中,可以看出輸入旋律與生成旋律部分的結構具有明顯的關系性.
為了驗證子網(wǎng)絡的有效性,設計一個消融實驗[24]比較完整模型,去除樂譜特征提取網(wǎng)絡和去除旋律主題特征提取網(wǎng)絡的效果,使用模型在LMD和GiantMIDI-Piano[18]這2個數(shù)據(jù)集上的準確率和歸一化KL散度作為衡量指標,實驗結果如表1所示.
通過表1和表2分析得出,基準模型與去除子網(wǎng)絡的消融模型在LMD(L)和GiantMIDI-Piano(G)[18]這2個數(shù)據(jù)集上的準確率相比于去除樂譜特征提取網(wǎng)絡模型分別高出約9%和7%,相比于去除旋律主題特征提取網(wǎng)絡模型分別高出約7%和9%.同時消融實驗表明,基準模型的歸一化KL散度值相比于消融模型高出約0.13,EB、PR和NUP相比高出約0.03、3.15和9.15.上述實驗結果說明子網(wǎng)絡可以有效地提升模型的效果.
本文提出的旋律主題CNN-BiLSTM模型,在LMD數(shù)據(jù)集中的準確率和歸一化KL散度如下表3所示,其中Pop,Classical,Jazz準確率是模型對數(shù)據(jù)集中3種不同類型音樂的準確率.
通過表3和表4分析得出,相較于MidiNet模型[2]、LSTM-RNN模型[3]和CNN-GAN模型[5],旋律主題條件CNN-BiLSTM模型的準確率分別高出約23%、13%、7%.在歸一化后的KL散度方面,相比于已有模型,本文提出的模型高出約0.17,在EB、PR、NUP方面,相比提高約8%、8%、14%.說明旋律主題條件CNN-BiLSTM模型可以更好地捕捉旋律主題和音符之間的關系,生成更加符合音樂規(guī)律的音樂片段.
3.3 模型主觀評價及分析
在計算機生成音樂領域,客觀指標僅能反映生成音樂與目標音樂的相似度,而不能充分評價生成音樂的音樂性和美感[14],因此需要使用人類聽感評價[25]對模型進行主觀評價.
本文采用音樂研究中主要使用的用戶調查[2]作為模型的主觀評價[22]方法.為了使得實驗結果的評價更具有公平性,因此采用多樣化的評價者群體,明確和統(tǒng)一評價指標,結合客觀指標這幾種手段提高評價結果的公平性.具體地,從有不同經(jīng)驗的人群選取的20人作為音樂的評價者,其中10名男性,10名女性.對于音樂歌曲評價指標分為情感表達和連貫性2個方面.每個方面均分為3個檔次,分別是優(yōu)秀、中等、較差.
首先,使用旋律主題條件CNN-BiLSTM模型、MidiNet模型[2]、LSTM-RNN模型[3]和CNN-GAN模型[5]4種不同的算法生成20首音樂作品(每個模型5首).將這些音樂作品隨機編號,形成20個序號,用于測試和評價.其次,對于每個模型生成的作品,20名評價者隨機抽取一首音樂進行評價,并在包括歌曲編號、評價者編號、評價的情感表達和連貫性的評價表上進行標記.
分析圖6中的評價者的主觀評價,旋律主題條件CNN-BiLSTM生成的音樂,在連貫性上,音符之間更為自然流暢,聽起來接近于一首完整的曲子;在情緒表達方面,更加準確地表現(xiàn)出音樂中包含的情感、氣氛和情緒.由上述分析可知,旋律主題條件CNN-BiLSTM在連貫性和情緒表達方面相較于其他3個模型有明顯的優(yōu)勢.
4 總 結
本文提出旋律主題條件CNN-BiLSTM模型,在主觀評價和客觀評價2個方面,均優(yōu)于對比的3種樂譜生成模型,且生成的音樂在連貫和情緒2個方面都具有較為不錯的表現(xiàn).CNN-BiLSTM結構,通過結合CNN對鋼琴卷簾窗的特征提取和LSTM、BiLSTM對序列具有長短時記憶2個優(yōu)勢,使得模型可以更好地提取音樂時序和音高的關系.引入旋律主題條件機制,即可以控制生成音樂的情緒表達,又避免了人工標記情感的主觀性,使得生成的音樂具有可控性和準確性.數(shù)據(jù)集中使用的多是鋼琴,對于鼓樂器的數(shù)據(jù)相對不足,下一步可以增加鼓樂器的數(shù)據(jù)進行訓練.模型僅使用旋律主題作為條件,未來可以增加樂器、流派、演奏標記等作為模型條件,以提升模型的性能.本文相關的成果已經(jīng)開發(fā)為軟件,以后將逐步完善、更新,讀者可以到本創(chuàng)業(yè)團隊官網(wǎng)https://sdzqj.com查看、下載.
參 考 文 獻
[1] SHI W J,LI Y H,GUAN Y S,et al.et al.Optimized fingering planning for automatic piano playing using dual-arm robot system[C]//2022 IEEE International Conference on Robotics and Biomimetics(ROBIO).Piscataway:IEEE Press,2022:933-938.
[2]YANG L C,CHOU S Y,YANG Y H.MidiNet:A convolutional generative adversarial network for symbolic-domain music generation[EB/OL].[2023-05-26].https://arxiv.org/pdf/1703.10847v2.
[3]MINU R I,Nagarajan G,Borah S,et al.LSTM-RNN-Based Automatic Music Generation Algorithm[C]// Intelligent and Cloud Computing:Proceedings of ICICC 2021.Singapore:Springer,2022:327-339.
[4]WANG J X,LI C Q.Chinese style pop music generation based on recurrent neural network[C]//2022 IEEE 5th Advanced Information Management,Communicates,Electronic and Automation Control Conference.Piscataway:IEEE Press,2022:513-516.
[5]JAYATHARAN V,ALWIS D.Alapana Generation using Finite State Machines and Generative Adversarial Networks[C]//2023 International Research Conference on Smart Computing and Systems Engineering.Piscataway:IEEE Press,2023,6:1-6.
[6]LI S Y,SUNG Y.INCO-GAN:variable-length music generation method based on inception model-based conditional GAN[J].Mathematics,2021,9(4):387.
[7]MIYAMOTO K,TANAKA H,NAKAMURA S.Online EEG-based emotion prediction and music generation for inducing affective states[J].IEICE Transactions on Information and Systems,2022,E105.D(5):1050-1063.
[8]ZHANG N.Learning adversarial transformer for symbolic music generation[J].IEEE Transactions on Neural Networks and Learning Systems,2023,34(4):1754-1763.
[9]DE BERARDINIS J,VAMVAKARIS M,CANGELOSI A,et al.Unveiling the hierarchical structure of music by multi-resolution community detection[J].Transactions of the International Society for Music Information Retrieval,2020,3(1):82-97.
[10]GOVENDER P,SIVAKUMAR V.Application of k-means and hierarchical clustering techniques for analysis of air pollution:a review(1980-2019)[J].Atmospheric Pollution Research,2020,11(1):40-56.
[11]YU Y,HARSCO?T F,CANALES S,et al.Lyrics-conditioned neural melody generation[C]//MultiMedia Modeling:26th International Conference.[S.l.]:Springer,2020:709-714.
[12]DUNGAN B M,F(xiàn)ERNANDEZ P L.Next bar predictor:an architecture in automated music generation[C]//2020 International Conference on Communication and Signal Processing.Piscataway:IEEE Press,2020:109-113.
[13]CHEN Y H,LERCH A.Melody-conditioned lyrics generation with SeqGANs[C]//2020 IEEE International Symposium on Multimedia.Piscataway:IEEE Press,2020:189-196.
[14]DUA M,YADAV R,MAMGAI D,et al.An Improved RNN-LSTM based Novel Approach for Sheet Music Generation[J].Procedia Computer Science,2020,171:465-474.
[15]LIM Y Q,CHAN C S,LOO F Y.Style-conditioned music generation[C]//2020 IEEE International Conference on Multimedia and Expo.Piscataway:IEEE Press,2020:1-6.
[16]BANERJEE S,RATH M,SWAIN T,et al.Music Generation using Time Distributed Dense Stateful Char-RNNs[C]//2022 IEEE 7th International conference for Convergence in Technology.Piscataway:IEEE Press,2022:1-5.
[17]BANAR B,COLTON S.A systematic evaluation of GPT-2-based music generation[C]//Artificial Intelligence in Music,Sound,Art and Design:11th International Conference.Cham:Springer,2022:19-35.
[18]WU J,LIU X G,HU X L,et al.PopMNet:generating structured pop music melodies using neural networks[J].Artificial Intelligence,2020,286:103303.
[19]陳吉尚,哈里旦木·阿布都克里木,梁蘊澤,等.深度學習在符號音樂生成中的應用研究綜述[J].計算機工程與應用,2023,59(9):27-45.
CHEN J S,ABUDUKELIMU H,LIANG Y Z,et al.Review of the application of deep learning in symbolic music generation[J].Computer Engineering and Applications:2023,59(9):27-45.
[20]汪濤,靳聰,李小兵,等.基于Transformer的多軌音樂生成對抗網(wǎng)絡[J].計算機應用,2021,41(12):3585-3589.
WANG T,JIN C,LI X B,et al.Multi-track music generative adversarial network based on Transformer[J].Journal of Computer Applications,2021,41(12):3585-3589.
[21]嚴丹,何軍,劉紅巖,等.考慮評級信息的音樂評論文本自動生成[J].計算機科學與探索,2020,14(8):1389-1396.
YAN D,HE J,LIU H Y,et al.Considering grade information for music comment text automatic generation[J].Journal of Frontiers of Computer Science and Technology,2020,14(8):1389-1396.
[22]賈寧,鄭純軍.基于注意力LSTM的音樂主題推薦模型[J].計算機科學,2019,46(S2):230-235.
JIA N,ZHENG C J.Model of Music Theme Recommendation Based on Attention LSTM[J].Computer Science.,2019,46(S2):230-235.
[23]JIANG F Z,ZHANG L M,WANG K X,et al.BoYaTCN:research on music generation of traditional Chinese pentatonic scale based on bidirectional octave your attention temporal convolutional network[J].Applied Sciences,2022,12(18):9309.
[24]WU G W,LIU S P,F(xiàn)AN X Y.The power of fragmentation:a hierarchical transformer model for structural segmentation in symbolic music generation[J].ACM Transactions on Audio,Speech,and Language Processing,2023,31:1409-1420.
[25]曹西征,牛靖雯,秦杰,等.面向抒情歌曲旋律的鋼琴自動伴奏算法[J].河南師范大學學報(自然科學版),2016,44(4):137-142.
CAO X Z,NIU J W,QIN J,et al.Automatic piano accompaniment algorithm for the melodies of lyric songs[J].Journal of Henan Normal University(Natural Science Edition),2016,44(4):137-142.
Automatic melody generation method based on conditional CNN-BiLSTM
Cao Xizheng, Zhang Hang, Li Wei
(College of Computer and Information Engineering; Engineering Lab of Intelligence Business amp; Internet of Things; Key Laboratory of
Artificial Intelligence and Personalized Learning in Education of Henan Province, Henan Normal University, Xinxiang 453007, China)
Abstract: To effectively generate structured melodies, a melody auto-generation method based on theme-conditioned CNN-BiLSTM is proposed. Melodies are represented in the form of piano roll windows, and the piano roll windows are segmented using a combination of fixed-length and variable-length methods. The Ward clustering algorithm is used to perform cluster analysis on the piano roll window segments, and the largest cluster obtained is taken as the melody theme of the song. The melody theme is used as a condition to generate melodies using a model based on the CNN-BiLSTM structure. The upper part of the CNN can effectively extract the information between time and pitch contained in the piano roll window, and the lower part uses LSTM and BiLSTM to capture the temporal information better in the sequence. The results show that, compared to the existing MidiNet model, the melody theme-conditioned CNN-BiLSTM model achieves improvements of 23% in accuracy and 0.17 in normalized KL divergence. The generated music is also superior to traditional models in terms of coherence and emotional expression.
Keywords: music generation; automatic composition; CNN-BiLSTM; main melody extraction; clustering
[責任編校 楊浦 劉洋]