在中國(guó)著名文學(xué)雜志《收獲》工作了14年后的2017年底,我辭職創(chuàng)業(yè),至今一年半,開發(fā)了兩款軟件:一是專業(yè)分析小說的工具“故事眼”,解析文本的主題、人物、地點(diǎn)、場(chǎng)景、人設(shè)、對(duì)話、情感的積極消極、主要情節(jié)的識(shí)別,幫助讀者快速理解文本內(nèi)各要素之間的關(guān)系;二是“谷臻小簡(jiǎn)”,世界首個(gè)人工智能濃縮書軟件,主要面向知識(shí)類非小說文本。我們的軟件工具只萃取一個(gè)文本中,最重要的、那些只占其中一小部分,20%~30%的知識(shí)。(谷臻是公司簡(jiǎn)稱,類似微軟;小簡(jiǎn)類似小冰。簡(jiǎn),意指大道至簡(jiǎn)?;驹?、方法和規(guī)律是極其簡(jiǎn)單的,簡(jiǎn)單到一兩句話就能說明白。所謂“真?zhèn)饕痪湓挘賯魅f卷書”。簡(jiǎn),意味著“少而精”,去粗取精,抓住要害和根本,揮動(dòng)奧卡姆剃刀,剔除那些無效的、可有可無的、非本質(zhì)的東西,融合成少而精的東西。)
下面我以345053字的《繁花》為例,看看AI如何從不同的角度解讀這部第九屆茅盾文學(xué)獎(jiǎng)獲獎(jiǎng)作品。將文本復(fù)制、粘貼進(jìn)軟件,1秒鐘內(nèi)首先得到的是全局詞云:
看一下實(shí)際數(shù)據(jù):阿寶0.25;小毛0.16;滬生0.12;陶陶0.1?!斗被ā饭适乱?0歲的阿寶開始,以中年的小毛去世結(jié)束,滬生則是另一個(gè)與他們不同階級(jí)的主人公之一,小說也花了大量筆墨來勾勒“上海浪子”陶陶是如何真心陷入與小琴的愛情之中,但卻隨著小琴的意外墜樓和日記的浮現(xiàn),實(shí)現(xiàn)了全面解構(gòu)。
當(dāng)年關(guān)于《繁花》的報(bào)道,有一個(gè)詞往往成為標(biāo)題元素,那就是用上海話念來,更有多種情緒面孔的“不響”。[金宇澄:現(xiàn)在讀者很聰明《繁花》可以“一聲不響”(騰訊網(wǎng));金宇澄|一個(gè)“不響”的作家“叫響”王家衛(wèi)下一部經(jīng)典大作(鳳凰衛(wèi)視);[繁花]金宇澄:上帝不響,像一切由我決定。(搜狐網(wǎng))……]“不響”的數(shù)據(jù)是0.1,和陶陶并列全書第四重要詞語(yǔ)。和“不響”有異曲同工之妙的笑笑,數(shù)據(jù)是0.02;小說中描寫了諸多上海老弄堂的細(xì)節(jié)和故事,因此“弄堂”也有0.01的數(shù)據(jù)比。
仔細(xì)觀察上面的詞云,即使一字不讀,也能大致猜出,這是一部和上海有關(guān)的地域小說,小說主題是男人女人,世情煙火。
在全書重要的前十五處地點(diǎn)中,上海最多,其次是香港。金宇澄骨子里應(yīng)該是喜歡香港文化的,開頭即提到《阿飛正傳》,和王家衛(wèi)做節(jié)目還不忘問他上海和香港的區(qū)別。不過最引起我注意的是排在第十的“朝南”,小說中的人物“朝南面逃”,“朝南跑幾站路”,“朝南走”,這大概和作者心中的上海重要地標(biāo)都在自己老宅的南面有關(guān):朝南,蘇州河;朝南,南京路。小說中房間的朝向也主要朝南,作者巧妙地用這樣兩個(gè)字厘清了階層與身份之間的差異。
再來看主要人物之間對(duì)手戲份的輕重。構(gòu)成主要三角關(guān)系的顯然是阿寶、小毛、滬生,至于其他人物成雙作對(duì),看過小說的完全可知準(zhǔn)確程度。
《繁花》這小說,底色究竟溫暖還是悲涼?讓我們來看看其情緒走向。
結(jié)尾向下的趨勢(shì)在在表明:傳奇的底色是悲劇,物哀得舒緩,悲而不傷、哀而不喪。再來看具體情節(jié),小說中最后一次明確的沉郁,是小毛臨終前。
用這樣的人工智能輔助讀小說,是不是會(huì)在帶來效率的同時(shí)(比如可以在三分鐘內(nèi)處理一千萬字網(wǎng)文),給做學(xué)問的批評(píng)家們帶來不一樣的闡釋角度呢?
此前,我們?cè)么塑浖治隽恕妒斋@》復(fù)刊以來四十年(1979—2018)所刊載的680位作者的長(zhǎng)、中、短篇小說1618篇(截至2018年第6期,包含2000年以后的長(zhǎng)篇專號(hào)。其中短篇小說601部,中篇小說711部,長(zhǎng)篇小說306部)。
我們可以看出《收獲》小說與時(shí)代情緒有著相當(dāng)程度的一致性,比如1979年、2001年、1991年這三個(gè)年份。而將這一曲線與相應(yīng)的歷史事件與時(shí)代情緒相結(jié)合,我們就不難發(fā)現(xiàn)其中的一些原因與可能……(要知道,小說反映時(shí)代情緒往往存在有1—2年的滯后期)
《收獲》小說明快-沉郁作品比例變化圖(1979—2018)
為了更便于觀察《收獲》40年的發(fā)展變化狀態(tài)與過程,我們選擇以每10年為一個(gè)階段,將其分為四個(gè)時(shí)間段進(jìn)行詞頻統(tǒng)計(jì)。
《收獲》(1979—1989)小說高頻詞統(tǒng)計(jì)結(jié)果
《收獲》(1990—1999)小說高頻詞統(tǒng)計(jì)結(jié)果
《收獲》(2000—2009)小說高頻詞統(tǒng)計(jì)結(jié)果
《收獲》(2010—2018)小說高頻詞統(tǒng)計(jì)結(jié)果
觀察這樣的詞云圖,相信不同的觀察者會(huì)得出各自不同的結(jié)論。我們的結(jié)論作為一篇完整論文,已經(jīng)發(fā)表在2019年第2期的《中國(guó)現(xiàn)代文學(xué)叢刊》上,有興趣的讀者可以自行搜索。
我們還用這一軟件對(duì)2018年67家網(wǎng)絡(luò)文學(xué)平臺(tái)或相關(guān)單位申報(bào)、推薦給中國(guó)作協(xié)網(wǎng)絡(luò)文學(xué)中心,及網(wǎng)文中心為舉辦“2018年中國(guó)網(wǎng)絡(luò)文學(xué)排行榜”初選出來的749部網(wǎng)絡(luò)小說進(jìn)行全樣本考察,試圖探求出這些不同類型小說各自的書寫規(guī)律和文學(xué)特征,以期能從整體上形成對(duì)2018年中國(guó)網(wǎng)絡(luò)小說的一點(diǎn)認(rèn)識(shí)。
這749部網(wǎng)絡(luò)小說,平均字?jǐn)?shù)為97.59萬字,最長(zhǎng)的作品為一葉青天的《蓋世帝尊》,總字?jǐn)?shù)為1092.2萬字,超過百萬字的作品有214部。7個(gè)億的文字體量,相信也只有人工智能可以單個(gè)體完成“閱讀”。(完整論文將首先發(fā)表在臺(tái)灣《中國(guó)現(xiàn)代文學(xué)》“數(shù)碼人文專號(hào)”上)
接下來介紹一下我們開發(fā)的第二款軟件:“谷臻小簡(jiǎn)”。當(dāng)時(shí)設(shè)計(jì)它的LOGO時(shí),我和設(shè)計(jì)師溝通的結(jié)果是,希望它既像一個(gè)小機(jī)器人,又能代表知識(shí)的金字塔結(jié)構(gòu)(這個(gè)結(jié)構(gòu)符合二八定律,又名關(guān)鍵少數(shù)法則、不重要多數(shù)法則)。最終它有了今天的樣貌,書脊和書頁(yè)構(gòu)成它的雙肩,而它的頭部,則是一支金筆的筆尖。
我對(duì)通識(shí)教育一直有執(zhí)念,身為作家、編輯,總覺得在知識(shí)學(xué)習(xí)上,應(yīng)該深度及廣度兼?zhèn)洹R粋€(gè)作家如果沒有廣泛的涉獵,又如何能了解社會(huì)和人類本身呢?我最喜歡的作家納博科夫有一句名言:“我認(rèn)為,藝術(shù)品是兩種東西的融合:詩(shī)歌之精確性和純粹科學(xué)之激情。”我總是覺得,知識(shí)廣博的人,他的文學(xué)作品才能達(dá)到一種自然科學(xué)般的精確性。
這是一個(gè)信息爆炸的時(shí)代,人類每一分鐘創(chuàng)造的信息都比過去四百萬年間創(chuàng)造的更多;這是一個(gè)知識(shí)焦慮的時(shí)代,有限的時(shí)間內(nèi)無法通覽無限的內(nèi)容,選擇、閱讀、掌握,每一個(gè)環(huán)節(jié)都在加重焦慮。
如何精準(zhǔn)篩選出合適書籍?如何迅速瀏覽完全書內(nèi)容?如何清晰把握住脈絡(luò)要點(diǎn)?
這是我集結(jié)頂尖算法工程師,開發(fā)世界首個(gè)人工智能濃縮書軟件“谷臻小簡(jiǎn)”的初衷。
它運(yùn)用NLP(自然語(yǔ)言處理)、句法分析、語(yǔ)義依賴分析、無監(jiān)督學(xué)習(xí)算法等技術(shù)對(duì)中文文本進(jìn)行壓縮,快速高效,幾十萬字出版物壓縮僅需4秒;客觀公正,無任何人為解讀,人工智能按比例濃縮提取全書精華,不增加、不修改原文;完整清晰,保留全書知識(shí)結(jié)構(gòu)框架,形成脈絡(luò)清晰的知識(shí)導(dǎo)讀;靈活彈性,可調(diào)整模型中各項(xiàng)的權(quán)重,實(shí)現(xiàn)在不同粒度、不同壓縮比下對(duì)文本的壓縮,適應(yīng)各類場(chǎng)景的不同需要。
以下面這篇10371字的論文《延安作家轉(zhuǎn)型對(duì)網(wǎng)絡(luò)作家的啟示——〈在延安文藝座談會(huì)上的講話〉研究》為例,計(jì)算機(jī)能在幾秒鐘內(nèi)讀取出全文核心思想,便于論文寫作者博采眾長(zhǎng)。
當(dāng)然,工具只是工具,永遠(yuǎn)不要讓工具限制你的想象力。我自己喜歡詩(shī)歌,我用它來“剪句”,剪出另一首新詩(shī)。為此聯(lián)手了《青春》雜志舉辦AI小簡(jiǎn)公益讀詩(shī)活動(dòng)。人工智能,未嘗不可帶來詩(shī)歌陌生化的新美學(xué)。從某種意義上講,AI濃縮出的“剪句”,填補(bǔ)了當(dāng)代中國(guó)短句詩(shī)歌寫作的空白。
剪句是詩(shī)歌嗎?它很有可能是仍然氣韻貫通的詩(shī)歌,但又不是傳統(tǒng)意義上的詩(shī)歌形式,剪句是一種詩(shī)非詩(shī)的文體。剪句有可能是獨(dú)立的文體嗎?它帶來驚喜,也帶來失落,它更具有現(xiàn)代精神和開放姿態(tài),也許與我們碎片化的生活距離更近。剪句的奇特,也許帶來超凡、空靈、多元融貫的新靈感、新意境。人工智能,改變的不是詩(shī)人,而是詩(shī)歌本身。詩(shī)歌,是從符號(hào)世界被召喚來的存在。為什么不讓字符回歸字符呢?也許,誰都能讀懂;也許,誰都不能讀懂。(注:下圖左邊為剪句,右邊為原詩(shī))
為什么,我愿意相信人工智能對(duì)人類的幫助?
歸根結(jié)底,它與虛構(gòu)和想象有關(guān)。人類如何習(xí)得知識(shí)并表示出來?人類如何理解語(yǔ)言(要知道,編碼也是一種語(yǔ)言)?記憶如何關(guān)聯(lián)起來?知識(shí)的系統(tǒng)如何搭建?
在開發(fā)小說閱讀軟件“故事眼”時(shí),我自己體驗(yàn)了國(guó)外的Face Reader面部表情分析系統(tǒng),它可以結(jié)合視線方向、頭部朝向、個(gè)人的性別與年齡特征,自動(dòng)分析面部表情(愉快、悲傷、害怕、厭惡、驚訝、憤怒、自然和輕蔑),還能測(cè)量感興趣、無聊和困惑三種情感態(tài)度。既然能讀取,應(yīng)該就能控制吧。在電影播放時(shí)插入幾幀能明確引起情感波動(dòng)的畫面,是否就能影響觀眾的情感走向與好感度?據(jù)說美國(guó)有一家電影院在電影中插入可樂和爆米花廣告,每個(gè)畫面只有1~2幀,肉眼是無法分別的,但是最后經(jīng)過一個(gè)月統(tǒng)計(jì),發(fā)現(xiàn)看完電影繼續(xù)購(gòu)買爆米花和可樂的量出現(xiàn)明顯增加。肉眼和我們的意識(shí)無法分別的圖像,潛意識(shí)會(huì)接收?!叭魏卫硇缘臎Q定都可以被認(rèn)為是在一些假設(shè)和前提下的結(jié)論……因此,如果定義了一個(gè)人用以作出決定的相關(guān)條件和前提,那么他的行為是可以被操控的。”
這也啟發(fā)了我建立我們自己軟件的語(yǔ)料庫(kù)。名詞動(dòng)詞形容詞,副詞代詞介詞,量詞連詞助詞,數(shù)詞嘆詞擬聲詞,什么詞能表現(xiàn)出我們的情緒?什么詞又構(gòu)成事件?大家想必一目了然吧。
所以其實(shí),人工智能就是完成想象、可能性、實(shí)證和希望的過程。當(dāng)然,人都有自己認(rèn)知的舒適區(qū)域,做了那么多年文學(xué)編輯和寫作者,文字就是我不變的追求。從荷馬寫下機(jī)械“三足鼎”等候眾神晚餐開始,人們就在想象利用機(jī)械來協(xié)助生活,而我想的只是,如何利用人工智能更高效、更有趣地處理文本。
它給過我很多驚喜,也給過我不少迷惑。比如,為何它能從近千篇小說中準(zhǔn)確識(shí)別出另一篇包含人工智能寫作段落的小說,并給了它年度最高分?為什么在我重復(fù)向客戶展示時(shí)突然罷工,拒絕“閱讀”同一篇已經(jīng)“閱讀”過的文本?(當(dāng)然,想騙它繼續(xù)工作也很容易,多打一個(gè)空格或按回車鍵都行,只要對(duì)文本作出改變)它對(duì)人類的意義究竟是什么?它是否能建立起純粹的邏輯?對(duì)我們?cè)噲D理解和模擬的人工智能,我始終懷有虔誠(chéng)的敬意。
也許,人工智能的算法結(jié)果,比人類的文學(xué)積累更有資格召喚那個(gè)純粹的世界,那個(gè)遠(yuǎn)比人類更為古老和奧妙的,在文明誕生的剎那間綻放出的世界。接下來,是真正屬于探索者的時(shí)代,而后,新的神圣王國(guó)才得以展開。
法國(guó)哲學(xué)家康底拉克曾在隱喻中提到一座雕像,人們往它的腦中倒入各種有價(jià)值的知識(shí)碎塊,最后作者提問,到什么程度這座雕像會(huì)擁有足夠多的知識(shí)而使它看起來就像人一樣富有智慧。對(duì)今天已經(jīng)被驗(yàn)證可以寫作的人工智能而言,上述隱喻已經(jīng)成為現(xiàn)實(shí)。不過我想強(qiáng)調(diào)一點(diǎn),從本質(zhì)上說,它只能有中生有,不能純粹地?zé)o中生有。它一定大于單個(gè)個(gè)體的知識(shí)量,卻不會(huì)超出人類整體的知識(shí)總和。
非人類與人類。讓我們思考自己作為人類本身的特質(zhì)。萊曼·弗蘭克·鮑姆在1907年出版的《綠野仙蹤》里,把機(jī)器人“鐵皮人”(Tiktok)形容為一個(gè)“非常有責(zé)任感,能想出各種點(diǎn)子,并能完美會(huì)話的機(jī)器人。它能思考、說話、行動(dòng),以及做一切事情,除了活著”。
是的,除了活著。
(走走,上海谷臻信息科技有限公司。希望將文中提到的兩款軟件應(yīng)用于文學(xué)研究領(lǐng)域的讀者,請(qǐng)聯(lián)系我微信號(hào):shouhuozouzou)