■曹軍軍 姜 紅
(中國文聯(lián)出版社,北京,100125)
結構化文本格式MusicXML對音樂編輯出版思維的影響
■曹軍軍 姜 紅
(中國文聯(lián)出版社,北京,100125)
大數(shù)據(jù)和互聯(lián)網時代,給音樂編輯出版人員提出了一些新的要求。掌握好數(shù)據(jù)庫技術與思維,善用結構化數(shù)據(jù)和結構化文本的相關理論與實踐工具,有望改進傳統(tǒng)的編審工序,提升工作效率,擴展效益空間,同時更好地服務于音樂文化受眾。XML標記語言作為編輯和處理結構化文本的一種重要工具,在音樂領域擁有MusicXML這一既嚴謹又帶有開放性的專門規(guī)范,它無論是作為記譜媒介還是用于輔助音樂結構分析,都有一定價值。若能用好MusicXML和與之直接相關的一系列知識,則策劃編輯、內容編輯的業(yè)務思維和專業(yè)素養(yǎng)體系都會有所演進,朝融合編輯、創(chuàng)新跨界的方向發(fā)展。
結構化文本 信息系統(tǒng) XML MusicXML 音樂編輯 音樂出版
數(shù)據(jù)科學的興起和發(fā)展,讓數(shù)據(jù)庫技術與思維的意義在各個領域開始凸顯,人文學科亦莫能全然置身事外。其中,藝術類學科與數(shù)據(jù)思維聯(lián)姻的案例更是值得關注,這類的案例,在諸多“互聯(lián)網+藝術”的研究與產業(yè)建設中都可以找到,比如筆者供職的中國文聯(lián)出版社開展的“中國藝術(出版)資源素材庫”項目。從事這類工作的音樂編輯人員,若能積極掌握相關的新思路和新概念,無疑將事半功倍;而這些新的工作方式在融入音樂出版物的傳統(tǒng)編審工序之后,也會為其基本理論體系補充一些新的命題。音樂文化的傳播是多么倚重音樂出版事業(yè),自不待言,因此筆者試在適度介紹相關技術概念的基礎上,就未來音樂類出版專業(yè)技術人員的理想的能力結構,以及相應人才隊伍的建設與培養(yǎng)提出幾點自己的看法,以期拋磚引玉。
數(shù)字時代的出版業(yè)已經不能再將“文本”簡單理解為文字內容,而是應從語言學和符號學的角度,將其看作一個相對封閉、自足的符號系統(tǒng)。各種向讀者傳達信息的形態(tài),都可以看成由符號構成的一個文本。而早在結構主義和符號學的研究中,文本已是結構化的對象。結構對應于內在的符號關系,具有重要的世界觀意義,這正如結構主義者的基本觀點所說,“事物的真正本質不在于事物本身,而在于我們在各種事物之間構造,然后又在它們之間感覺到的那種關系……世界是由各種關系而不是由事物構成的觀念”①[英]特倫斯·霍克斯著《結構主義和符號學》,瞿鐵鵬譯,劉峰校,上海譯文出版社1977年版,第8頁。。對人文學科中的藝術資源,我們可稱其為結構化文本,它直達事物內容和語義的根本。
大數(shù)據(jù)理論認為,不僅數(shù)據(jù)是可以結構化的,文本也是可以結構化的,②參見周寶曜、劉偉、范承工主編《大數(shù)據(jù):戰(zhàn)略·技術·實踐》,電子工業(yè)出版社2013年版,第7頁。而且可被稱為“半結構化數(shù)據(jù)”。一般說來,可以被二維模式(或說二維結構)表現(xiàn)的數(shù)據(jù),即為結構化數(shù)據(jù);而半結構化數(shù)據(jù)并沒有嚴格的模式,以下文要涉及的XML為例,它的模式、結構,與它的數(shù)據(jù)值、內容是混合在一起的,或者說,它的結構是通過可“自描述”的“標記”,與內容結合在一起的。①參見孟小峰《XML數(shù)據(jù)管理:概念與技術》,清華大學出版社2009年版。筆者認為,結合結構主義的視角看,后者之所以被表述為“半結構”,在于文本的一部分符碼的能指可以成為標記,或者可以組成標記,而還有相當一部分符碼在文本規(guī)模有限的情況下很難被納入縝密的結構關系中,其語義信息很難在結構關系中得到體現(xiàn)。所以我們應該認為,結構化與非結構化之間沒有絕對的界限。
傳統(tǒng)數(shù)據(jù)庫中的是典型的結構化數(shù)據(jù),對應的技術范疇是數(shù)據(jù)庫系統(tǒng);而文本是半結構化的,所以它對應的技術范疇是信息系統(tǒng)。檢索數(shù)據(jù)庫系統(tǒng)已有成熟的技術,如SQL;而查詢半結構化的文本被稱為信息檢索,②參見[美]西爾伯沙茨等著《數(shù)據(jù)庫系統(tǒng)概念》,楊冬青等譯,機械工業(yè)出版社2012年版。筆者使用該文獻時用詞有改動,原文稱文本為“非結構化的”,實際上指的就是筆者改動后的“半結構化”。如“音樂信息檢索”(Music Information Retrieval)等。
這里必須明確,作為文本的藝術出版資源,它所對應的信息系統(tǒng)領域的技術,在很大程度上和數(shù)據(jù)庫系統(tǒng)的技術相同——特別是資源存儲和檢索方面。因為只要對半結構化數(shù)據(jù)稍加處理,就能將其在一定程度上轉換成格式化的、結構化的數(shù)據(jù),從而應用于數(shù)據(jù)庫系統(tǒng)。③參見陳建紅等主編《Web數(shù)據(jù)庫與XML應用》,高等教育出版社2004年版,“前言”。但是,信息系統(tǒng)領域和數(shù)據(jù)庫系統(tǒng)領域強調的重點又不盡相同——藝術(出版)資源素材庫的技術重點,是基于關鍵詞的查詢,文檔與查詢的相似度分析,以及文檔的分析、分類和索引等。④參見《數(shù)據(jù)庫系統(tǒng)概念》。而對這類數(shù)據(jù)資源的檢索以至各種整合來說,XML技術的支撐尤有意義。⑤推薦深入閱讀潘有能著《XML挖掘:聚類、分類與信息提取》,浙江大學出版社2012年版。
XML(eXtensible Markup Language)意為“可擴展標記語言”。XML文檔其實也是一個文本文件,但它是由標記及其所標記的內容構成的文本文件(最初設計它,就是為了讓它成為給正文文檔添加標注信息的一種途徑),這些標記可以自由定義(自描述),所以它有“可擴展”之稱。它的核心是(使用標記)描述數(shù)據(jù)的組織結構,從而從中體現(xiàn)含義。通過將文本與子標記嵌套在父標記之下,再層層嵌套直到根標記,形成“樹形結構”,可以很好地揭示文本內容與它們之間的結構關系。(形象地說,圖書的目錄即是典型的樹形結構,它可以很好地概括書的內容編排情況,也利于讀者查找。)XML通過文檔類型定義(Document Type Definition,DTD)和XML綱要定義(XML Schema Definition,XSD)模式對數(shù)據(jù)結構(內容)進行定義與約束,通過層疊樣式表(CSS)和可擴展樣式語言(XSL)對顯示方式(形式)進行規(guī)定。
XML既可以使用在結構化數(shù)據(jù)上,也可以使用在半結構化數(shù)據(jù)上,且可以用來處理“結構化文本”。它不是編程語言,而是一組語法規(guī)則,可在諸多領域創(chuàng)建語義豐富的標記語言(比如下文提及的音樂),也可以作為數(shù)據(jù)交換的標準格式。應該說,它對出版資源的存儲、檢索、分析、加工和處理都可以有重要作用。
樂譜作為音樂語言的符號表達方式,是一種很典型的結構化文本。所以,XML對音樂記譜領域的滲入是有其自然趨勢的。
目前通用的一種使專業(yè)音樂和互聯(lián)網、數(shù)字出版無縫對接的XML制式是MusicXML,它由Recordare公司開發(fā),至2011年已發(fā)布3.0版本,該公司也在公共領域發(fā)布了名為“MusicXML 3.0 Tutorial”的官方使用教程。Music XML基于XML,是一種開放的、用于電子樂譜發(fā)布與信息交換的文件格式,適用于各種記譜軟件、音序軟件、音頻軟件(如Steinberg系列等)。相對于MIDI,Music XML可以在傳遞音樂文件時讓更多的信息完好保存,并很容易用來在網上發(fā)布交互式樂譜,⑥參見楊萬鈞《從MIDI到MusicXML——計算機樂譜信息交換格式的發(fā)展》,載《演藝科技》2014年第7期。這是因為它傳遞的信息中有相當一部分是在傳達音樂的結構和語義信息,這是MIDI所不具備的。舉一個最簡單的例子:關于“等音”概念,MIDI無法表現(xiàn)升F音和降G音在符號意義上的區(qū)別(顯然這一區(qū)別在樂理和作曲技術理論領域是非常重要的),但MusicXML可以做到。
MusicXML設計理念的核心,就是描述音樂文本的組織結構。其各層標記形成的樹狀結構如下頁圖1所示。⑦金玉《基于MUSICXML的音樂個性化推薦系統(tǒng)》,吉林大學2015屆碩士學位論文。圖經過重制,中文釋義是重制時加的,僅供參考。圖中的每個方框代表MusicXML中定義的一種標記,方框之間的從屬關系代表標記之間的嵌套關系。MusicXML中定義的標記非常多,此圖僅列舉了主要的一些,具體可參見MusicXML 3.0的官方教程。MusicXML的意義可以具體地從以下兩個方面得到詮釋。
MusiiccXXMMLL作為記譜媒介的意義我們知道,五線譜作為一種記譜法,其重要意義不僅在于從作曲技法層面記錄音樂,還在于從表演層面做記錄,二者緊密結合,才能盡量給音樂語義信息“保真”。類似地,在描述信息特征時,MusicXML也顯著地把信息的標記分為“可視的”和“可聽的”兩個層面:聽覺層面信息的標記和MIDI基本相同,如對音高、時值等的記錄;視覺層面的信息標記則主要有對譜面上的基本音型的選定,對聲部劃分、樂句劃分,以及拍子、調號、歌詞、速度、表情記號等的記錄。這一劃分對應到XML文件中,通常表現(xiàn)為
當然,圖1所示的結構如果以XML標記(用尖括號包圍的關鍵字)的形式寫出來,樣貌應基本如下(為節(jié)約篇幅,這里僅列出開頭,而且,每個標記其實還有一個對應的結束標記,以加斜杠來表示,這里也不再贅列):
除了基本的樂譜元數(shù)據(jù)信息(如上述標簽中的樂章及其編號、名稱等)之外,這個文件的主體是結構化文本信息。但是這里有一個必須說明的問題:樂譜的結構是由“橫向的組合”與“縱向的聚合”兩個維度構成的——音符按照節(jié)拍、小節(jié)與時值橫向組合,也按照對位線條、樂器聲部與和聲縱向聚合,但XML本身是通過標記逐級嵌套來形成結構的。所以,我們要么選擇將縱向的聚合嵌套在橫向的組合之內,要么反過來將橫向組合嵌套在縱向聚合之內。前文給出的示例是常用的方式,即讓縱向嵌套在橫向之內,其根標記為“聲部序列”即
圖1 MusicXML的各種標記形成的樹狀結構舉例
MusiiccXXMMLL對音樂文本結構分析的意義既然對音樂文本的建構可以從橫向的聲部出發(fā),也可以從縱向的節(jié)律出發(fā),那么從音樂分析的角度來看,對側重于用復調思維建構起來的音樂和對側重于用和聲思維建構起來的音樂,MusicXML的描述可以有所區(qū)別。因為XML的結構如同數(shù)據(jù)庫,在構建文本信息的層次關系時,也需要考慮如何更有效地去構建,即如何盡量避免信息冗余、信息缺失。我們可以合理地設想:對側重于復調結構的音樂,將小節(jié)標記嵌套于聲部標記之內為宜;對側重于和聲結構的音樂,將聲部標記嵌套于小節(jié)標記之內為宜。更加幸運的是,對同樣的音樂文本,MusciXML能夠靈活地在這兩種類型之間轉換。
在這種區(qū)別化的描述之間進行抉擇與設計,對音樂結構的認知、音樂的語義分析,都別具意義。就像普通XML有檢索優(yōu)勢那樣,MusicXML可以實現(xiàn)音樂結構信息的索引功能。我們可以設計出特定的算法,給音樂分析方面的問題提供幫助,比如對四部和聲的規(guī)范性進行校驗、對曲式進行基本歸類與聚合、對對位法的類型進行識別、對和聲進行與和聲節(jié)奏進行辨認、對配器布局進行分析等。這意味著未來在信息系統(tǒng)平臺上工作的音樂編輯從業(yè)者,可以給音樂家和音樂學者提供更為科學、有效的專業(yè)支持。
在簡單討論了關于音樂資源文本的結構化問題之后,就可以回到數(shù)字出版的話題上來了。數(shù)字出版的技術平臺,以數(shù)字資源的管理為核心,以傳統(tǒng)出版資源和新興資源的數(shù)字化轉型和構建為關鍵,而基于XML的結構化文本處理技術正好對應著這個關鍵。面對文本和數(shù)據(jù)以及二者交融的信息資源,出版社的編輯團隊該如何定位自己的職能呢?筆者認為,從傳統(tǒng)的專業(yè)門類編輯逐步過渡到基于信息系統(tǒng)的數(shù)字化管理編輯是比較合適的。下文謹按傳統(tǒng)的對編輯職能的分類,嘗試申說這一潮流對音樂類編輯人員職能的影響。
(一)策劃編輯
策劃編輯的重要職能包括進行選題策劃與營銷,以及管理涉及讀者、作者等的客戶關系。未來,若要使其職能在新的技術條件下得到更好的發(fā)揮,至少應考慮強化以下幾項有益的技能:建立用戶數(shù)據(jù)庫、作者與受眾數(shù)據(jù)庫;建立出版物的元數(shù)據(jù)①元數(shù)據(jù)的定義,參見《XML挖掘:聚類、分類與信息提取》,第99頁。亦可參見國家新聞出版廣電總局出版專業(yè)資格考試辦公室編《數(shù)字出版基礎》,電子工業(yè)出版社2015年版。標引規(guī)范,使之指向基礎的、元數(shù)據(jù)層面的信息資源整合;熟悉關系數(shù)據(jù)庫的構建和SQL查詢語言②關系數(shù)據(jù)庫是指建立在關系模型基礎上的數(shù)據(jù)庫,其存儲的數(shù)據(jù)對格式的要求非常嚴謹,是高度結構化的。正因如此,關系數(shù)據(jù)庫允許用戶使用符合特定語法的查詢語言對其進行條件非常復雜的查詢。的使用,使之最終指向基于用戶信息需求的數(shù)字出版模式。
(二)內容編輯
對文本內容的處理,主要包括校、編、審。傳統(tǒng)的內容編輯從業(yè)者主要是從版式、語言文字規(guī)范和學科專業(yè)視角來把關的,而數(shù)字出版的內容編輯應該還可以結合結構化文本的處理思想,優(yōu)化這些工作環(huán)節(jié)。概括地說,對文本的結構化描述和基于它的信息檢索,無疑是內容編輯的有效工具,所以面對結構化的文本,應該結合信息系統(tǒng)的觀念來認知并處理。下面就校、編、審三個環(huán)節(jié)分別做具體論述。
“?!钡沫h(huán)節(jié)首先,文本作為一種半結構化數(shù)據(jù),可以用類似于關系模式的“模式信息”(即通過DTD或XSD)在一定程度上規(guī)定文本的結構。
其二,之所以有“校異同比校對錯要難”的公認看法,是因為由異同而致的“差錯”是一個相對而非絕對的問題。但就結構化的文本而言,破除異同障礙的齊、清、定原則履行起來就容易得多。而正如概念的本質在于結構中的關系那樣,概念的正謬也應該根據(jù)結構關系來判斷。對被納入結構關系中的文字文本來說,校異同更為重要,而在何種程度上將“異”化為“同”,又要參考其結構模式。對于未被納入結構關系中的文本,依然以校是非為主要任務。
具體到樂譜的校對方面更是如此。從記譜法的角度看,可以通過對MusicXML數(shù)據(jù)結構的特定限制(使用DTD或XSD)避免記譜方面出現(xiàn)基本邏輯錯誤。當然,許多打譜軟件已經通過特定的算法基本滿足了這個訴求,但仍存有一些模棱兩可的問題,比如“西貝柳斯”軟件在一行五線譜記錄兩個聲部(符桿分別向上和向下)的情況下,對那些在一個小節(jié)內時值不完整的聲部,究竟允許省略其休止符還是必須通過休止符填滿那個小節(jié),其實并不明確,這常常給校對造成棘手的問題。而通過DTD和XSD進行限制,就可以很容易地統(tǒng)一規(guī)范并鑒別錯誤。
當然,有些音樂流派,比如結構主義,其作曲家及編輯可能會有意識地在聲部的處理方式、連音線對樂句的劃分方式等方面突出結構上的呼應。將來MusicXML通過標記的深度擴展與算法的開發(fā),也可以去實現(xiàn)一定程度上的校異同功效。
“編”的環(huán)節(jié)這個環(huán)節(jié)就MusicXML的特點來說,重點會集中在標引的問題上——標注出哪些屬于結構的范圍,哪些屬于非結構化的內容范圍,這也是半結構化文本XML之所長。而且,XML及圍繞其周邊的技術可以對文本從內容到形式進行由內到外的統(tǒng)一整合,比如,利用XML的樣式表即CSS或XSL對版式進行規(guī)定,或將XML和HTML有效對接,可以更好地實現(xiàn)網絡上的交互與內容結構的可視化。
圖2 使用Excel軟件分析結構化的音樂文本的一個例子
對高度結構化的音樂作品文本,可以另從關系數(shù)據(jù)庫的“數(shù)據(jù)透視表”模式著眼。這里舉一個關于僅憑數(shù)據(jù)內容就能將音樂結構可視化的簡單例子:在一本關于“曲式與作品分析”的圖書中,加進MusicXML的作品數(shù)據(jù)庫,甚至將XML格式化為關系數(shù)據(jù)表,就能在Excel軟件上通過類似于數(shù)據(jù)透視表的工具進行交叉分析,如圖2。
鑒于作品的音樂結構特點和分析訴求,圖2的根標記是小節(jié)(即
若還原它的XML數(shù)據(jù)面貌,無論對大多數(shù)傳統(tǒng)音樂編輯還是對音樂學師生而言,可能都不夠“友好”:
當然,XML也有豐富的對版式進行定義和表現(xiàn)的功能,即樣式表。通過樣式表,再將其展示為音樂學師生熟悉的曲式分析圖是不難的。限于篇幅,在此不作詳述。
總之,從編輯學中“編”這個環(huán)節(jié)的視角看,結構化文本帶來了很重要的一個概念,可以寫作“匯·編”:它的要點在于對已有資源——對音樂資源而言,是音樂文本的“語料庫”——進行重新整合。如果擁有像上例這樣的音樂資源庫,那么很多彼此相似的樂譜類出版物在加工中就省去了不少重復勞動。
“審”的環(huán)節(jié)這個環(huán)節(jié)主要牽扯到對信息的認知的問題。編輯業(yè)務中的審稿過程,實際上是審稿者對文本的語義信息的定性過程,從信息論的角度看,這種性質實際上是信息的規(guī)律性與變化性之間的對立與統(tǒng)一。筆者認為,文本既然可以被XML充分描述,那么它的這種規(guī)律性與變化性也是可以在XML的結構中自然體現(xiàn)出來的:有序的結構關系是規(guī)律性的體現(xiàn),而除了標記之外,其他內容以及標記的屬性(這個屬性是非結構化的)是不斷變化的信息,它們具有不確定性,缺乏模式的約束,是趨于非結構化的,以前文的思路來看是“很難被納入縝密的結構關系中”的。所以,XML的“自描述”結構,本身就可以很好地揭示這樣一種思維:一部稿件,既作為信息系統(tǒng)中的文本,又作為音樂藝術領域中的文本,可以因為混亂而復雜(指非結構化信息過多,這里的復雜是貶義),也可以因為縝密而復雜(指以結構化信息為主導,這里的復雜是褒義),亦可以因為松散而簡單(指以非結構化信息為主導,這里的簡單是貶義),還可以因為冗余而簡單(指結構化信息充足,這里的簡單是褒義)。
這種思想,是結構化文本與XML的描述技術給關于“審”的理論的重要啟發(fā)。為了便于體會其間的辯證關系,筆者擬下頁圖3以示意之。
圖3 從結構化的視角看音樂文本稿件的質量①這個編審方陣模式圖系本文作者之一曹軍軍設計,力圖結合XML結構化數(shù)據(jù)描述的實際。例如,通常所見的“流水清單”是非常適于用XML文檔描述的,而對這個文檔的判定,恰可以結合此方陣的思路——該文檔應當處于右下部,因為用XML描述的流水清單恰恰是結構化程度非常高且有大量冗余的。
進一步說,對音樂藝術作品類的出版資源的審讀也是一個審美的問題,所以圖3的理念也可以在審美領域得到引用:從形式主義藝術觀的視角來看,方陣的右列對應于自律性和結構化的資源,方陣的左列對應于有更多現(xiàn)代主義②王宏建在其《藝術概論》(文化藝術出版社2010年版)中論及現(xiàn)代主義思潮時,有意地用了“結構趨于松散而復雜”這兩個看似相悖的概念。筆者認為這一用法是很有道理的,而且可以通過圖3所示的方陣“可視化”地展現(xiàn)出來——非結構化恰對應于兩種樣態(tài),即松散且復雜。方陣的左側趨于“貶義”,和文藝界對現(xiàn)代主義“反傳統(tǒng)”的價值評判也是不無關聯(lián)的。特性以致趨于解構的、漸受詬病的后現(xiàn)代主義。
因此,藝術類出版物的編輯對文本質量的評審與審美,是相通的且彼此融合的。具體到音樂領域,也早已有如上所述的“信息論”式的,將質化、量化融合的評述。樂譜編輯面對讓人眼花繚亂的樂譜資源,做最基本的審閱時,是可以嘗試結合圖3的思路的:冗余而簡單的信息特征應該對應古典主義音樂風格,趨于“縝密而復雜”的可能就對應著傳統(tǒng)和聲學歷史的復雜化演進但又不失一個“(調性)中心”的風格發(fā)展歷程,而無調性的序列音樂則大致對應著方陣的左側。
(三)融合編輯——編輯人才建設的方向
我們知道,在策劃編輯業(yè)務范圍內獲得的基礎的元數(shù)據(jù)等一系列信息資源,本身就容易成為完全結構化的數(shù)據(jù)——XML標記的可擴展特征,讓它很利于元數(shù)據(jù)標引。而且從數(shù)字出版技術的角度看,“描述信息資源的粒度既要能夠描述一個資源集合,也要能夠描述一個單一資源或者資源的內部組成部分”③參見《數(shù)字出版基礎》,第166頁。關于這個論題,從實用層面來看,Jing.fm創(chuàng)始人施凱文曾談及:“我們能獲取的信息只有名稱、歌手、作曲等,而里面更豐富的信息,比如包含的樂器、使用的語言、包含的情感、適合的場景等信息,則處于隱藏狀態(tài),無從而知?!保ㄘ短剿鞯谒拇诰€音樂——深度揭秘Jing.fm》,載“豆瓣網”,2012年6月26日。https://site.douban.com/133015/wi-dget/ notes/5649776/note/222027481/)這自然地牽引著我們將數(shù)據(jù)量化的目標由元數(shù)據(jù)轉向結構化的文本內部,即音樂作品文本內部。,因此,XML與文本內容信息的有機對接,合乎數(shù)字出版技術的發(fā)展趨勢。
策劃與編、審、校這些業(yè)務,是可以在結構化數(shù)據(jù)層面彼此接通的。策劃工作中如果善用XML和它的檢索與挖掘技術(如XQuery),就相當于具體編校工作中善用元數(shù)據(jù)層面的關系數(shù)據(jù)庫和SQL查詢語言。這種接通的意義,在數(shù)字出版的一些目前略顯尷尬的微觀領域可以有所體現(xiàn),比如編輯結合對專業(yè)內容的“前理解”、對作者與讀者需求的調查,自主地對出版資源進行標引工作,定義自己的XML擴展標記,從而形成信息數(shù)據(jù)化的管理架構。當然具體來說還有一些需要注意的事情,比如像西方古典音樂這樣的嚴肅音樂出版內容,其資源的整合就不會像流行音樂中“單曲和專輯”那樣簡單明了。如果將某部組曲,或者規(guī)范的四樂章交響曲,又或古典主義奏鳴曲定義為獨立的標記,那么標記之內嵌套的子標記就要是完整作品之下的某個單曲小品或某個樂章,再往下才可能是對作品的內部結構的標記。而從曲式與音樂作品分析的視角來看,單曲小品和樂章的劃分與排序,本身就有著很重要的結構意義。若出版人員將這類單樂章、單曲小品視同于流行歌中的“單曲”并純粹地將其作為元數(shù)據(jù)加以標引和處理,就顯得缺乏一定的音樂專業(yè)的意識。這也從另一個角度說明,策劃編輯的元數(shù)據(jù)處理和內容編輯的文本結構數(shù)據(jù)處理,本應當無縫對接、有機融合。所以,恰是XML這樣的文本和數(shù)據(jù)處理工具在思想上啟發(fā)我們:未來應當有一種“融合編輯”的角色,這種角色應當具有數(shù)據(jù)庫的管理思想并能使之滲入宏觀的策劃與微觀的內容編校工作。
簡單概括來說,出版技術發(fā)展的趨勢是趨于實現(xiàn)更加有效的查詢與匹配?;赬ML的挖掘——聚類、分類與信息提取——為我們提供了多種出版效益模式的可能性。數(shù)字出版人才既要人文學科式地從質化的角度縱深認識每項專業(yè)內容的信息層面,做好數(shù)字內容的標引工作(如對XML標記的擴展描述),又要自然科學式地敢于接納量化的工具與思想。后一方面是本文尤其想強調的,例如:“分類”挖掘是基于門類專業(yè)縱深的預定義(如參照已經標準化的MusicXML的標記)去對文本進行分類與匹配,“聚類”挖掘是在海量資源的基礎上更客觀地實現(xiàn)自動化分類,“發(fā)現(xiàn)XML文檔間隱含的知識,確定XML文檔內標記的真實語義信息,為語義網的發(fā)展奠定堅實基礎”。①《XML挖掘:聚類、分類與信息提取》,第26頁。
曹軍軍,中國文聯(lián)出版社音樂分社及中國文聯(lián)音像出版公司編輯,主要研究方向為傳播學。
姜紅,中國文聯(lián)出版社數(shù)字出版中心信息中心業(yè)務主管,主要研究方向為計算機應用科學。