朱會鑫
隨著科技的不斷進步,A I已經(jīng)可以給文學作品做“親子鑒定”,進而判定其作者是誰了。
下面,我們就以利用A I判定英國著名戲劇文學《亨利八世》的作者是誰為例。與《紅樓夢》究竟是誰寫的一樣,《亨利八世》也存在同樣的問題??梢哉f,在長達一個世紀里,關(guān)于《亨利八世》作者是誰的爭論一直沒有停息,直到最近的一項研究才使這個問題的答案變得明朗起來。
布拉格捷克科學院的研究員普列查奇最近使用了機器學習技術(shù)來識別《亨利八世》的作者,并取得了具有說服力的結(jié)果。那么,究竟是如何利用AI判定《亨利八世》的作者呢?
簡單地說,就是從詞匯和節(jié)奏入手,辨別文本的來源。在了解作者的風格和常用的字詞與樣式后,再去辨別新作品中的文本習慣樣式,以判定它是不是出自同一個作者。即通過算法模型對文本常用詞、常用語句和節(jié)奏模式進行分析,使算法學會辨別相關(guān)作者的寫作特征。
具體來說,就是先將劇本《亨利八世》細化到多個小場景,再使用支持向量機對《亨利八世》的各個場景進行歸因分析和分類。其中,以500種最常見的節(jié)奏類型的頻率,以及500個最常見單詞的頻率作為分類器的功能集。鑒于作者在不同時期可能出現(xiàn)的風格差異,普列查奇采用了同時期其他戲劇的場景(如《暴風雨》《科里奧拉納斯》)作為訓練樣本,對于可能的作者也同樣收集了訓練樣本。
最終,普列查奇收集了53個莎士比亞訓練樣本、90個弗萊徹訓練樣本和46個馬辛格訓練樣本。為了估計模型的準確性,還通過交叉驗證的方式進行了檢驗。完成訓練學習后,在《亨利八世》的文本上運行該模型,最后結(jié)合詞匯和多功能化的綜合分析,確定哪些作者參與了劇本的寫作,以及他們的具體貢獻。
最后的結(jié)果證明,這是區(qū)分莎士比亞、弗萊徹和馬辛格風格非??煽康呐袚?jù)。尤其是使用常用詞和常用節(jié)奏的組合模型,在三位作者的風格鑒定上,準確率高于96%。當模型應(yīng)用于《亨利八世》的分析時,結(jié)果清楚地表明,莎士比亞和弗萊徹都參與其中,另一位傳聞的劇作家馬辛格在算法的層面上表明和劇本無關(guān)。
對于文學研究者和愛好者來說,利用A I對文學作品進行“親子鑒定”,以破解名著的作者之謎,是一件很有價值的事情,同時也提供了一個數(shù)據(jù)維度的視角,去解決此類問題。
//摘自《知識窗》2020年第2期/