黃珊 李亞山
你在鍵盤上輸入開頭:“這是一個(gè)關(guān)于小狗Boo的故事?!逼讨?,AI為你返回一個(gè)完整的敘事:“這是一個(gè)關(guān)于小狗Boo的故事。Boo是一只拉布拉多犬,它愛人類勝過一切。一年多前,弗吉尼亞州阿靈頓市的狗狗救援行動(dòng)救助了Boo,它是一只被遺棄的小狗(現(xiàn)在兩歲)。Boo的故事令人動(dòng)容?!?/p>
這不是假新聞,而是OpenAI開發(fā)出來的最新語言模型所能實(shí)現(xiàn)的效果。在此前的DOTA2 AI慘敗后,這家馬斯克倡導(dǎo)成立(現(xiàn)已退出董事會(huì))的AI機(jī)構(gòu)在今天發(fā)布了其自然語言處理(NLP)模型——GFF-2。GFF-2最大的亮點(diǎn)是可以生成給定單詞或句子的連貫文本,而且在一系列NLP測(cè)試中實(shí)現(xiàn)最佳(或接近最佳)性能。我們可以簡(jiǎn)單地將其理解為一款“洋蔥新聞AI”,但它的價(jià)值遠(yuǎn)不止于此。
自然語言處理專家、Salesforce首席科學(xué)家Richard Socher對(duì)《麻省理工科技評(píng)論》表示,OpenAI這次的工作展示了一個(gè)更通用的語言學(xué)習(xí)系統(tǒng),這些通用學(xué)習(xí)系統(tǒng)代表著未來。
人類語言的力量已經(jīng)不必多說,但也正是因?yàn)槠鋸?qiáng)大,構(gòu)建真正理解人類語言的AI的過程也異常艱辛。目前,我們已經(jīng)迎來幾項(xiàng)標(biāo)志性成果,例如谷歌的BERT,它利用預(yù)訓(xùn)練好的模型,可以在幾個(gè)小時(shí)內(nèi)在單個(gè)顯卡上訓(xùn)練最先進(jìn)NLP模型,而Facebook的PyText,則可以每天為社交網(wǎng)絡(luò)的應(yīng)用程序和服務(wù)生成超過10億個(gè)預(yù)測(cè)。這些成果已經(jīng)推動(dòng)了NLP相關(guān)的研究。但是,在沒有人工制作的語法規(guī)則和精心標(biāo)記的數(shù)據(jù)集輔助的情況下,AI目前還難以實(shí)現(xiàn)自然“說話”。這也是為什么OpenAI這次的研究非常值得關(guān)注的原因。
先前的研究表明,無監(jiān)督學(xué)習(xí)從非分類、無注釋的數(shù)據(jù)中學(xué)習(xí)可以用于從通用模型到特定的語言任務(wù)。OpenAI認(rèn)為,GFF-2的誕生表明,足夠大的語言模型可以在不需要特定領(lǐng)域數(shù)據(jù)集或修改的情況下學(xué)習(xí)NLP任務(wù)。
這些模型核心的神經(jīng)網(wǎng)絡(luò)由神經(jīng)元組成,這些神經(jīng)元仿照生物神經(jīng)元松散建模實(shí)現(xiàn)數(shù)學(xué)功能。這些神經(jīng)元與層層排列的能傳遞信號(hào)給其他神經(jīng)元的“突觸”相連。數(shù)據(jù)信號(hào)從一層傳遞到另一層,然后通過調(diào)整每個(gè)連接的突觸強(qiáng)度(權(quán)重)來緩慢地“調(diào)整”神經(jīng)網(wǎng)絡(luò)。隨著時(shí)間的推移,神經(jīng)網(wǎng)絡(luò)就能從數(shù)據(jù)集中提取特征并識(shí)別樣本之間的趨勢(shì),最終學(xué)會(huì)做出預(yù)測(cè)。
GFF-2基于OpenAI先前的研究成果GPT。有意思的是,2018年轟動(dòng)NLP領(lǐng)域的谷歌BERT模型,其很多思想也與GPT這個(gè)“前輩”有關(guān)系。GPT-2繼承了GPT的一些特性,在一定程度上同樣依賴Transformers實(shí)現(xiàn)其效果Transformers是一種相對(duì)新穎的神經(jīng)結(jié)構(gòu),于2017年由Google Brain團(tuán)隊(duì)在論文《Attention Is All You Need》中引入。
Transformers為這一復(fù)雜過程增添了“自注意力機(jī)制”。神經(jīng)元群以不同的速率傳遞信號(hào),并將信號(hào)以某種智能的方式傳送到下一層。這種結(jié)合40GB、800萬條網(wǎng)絡(luò)評(píng)論、帖子和文章相當(dāng)于100億個(gè)單詞的架構(gòu)調(diào)整,可以讓OpenAI模型查詢之前經(jīng)驗(yàn)的相關(guān)信息,而且十分簡(jiǎn)單快速。OpenAI數(shù)據(jù)解決方案和語言研究主管Alec Radford在一次電話簡(jiǎn)報(bào)中告訴表示:“一些人工智能模型強(qiáng)行將上下文的所有信息匯總或壓縮成一個(gè)固定長(zhǎng)度,這是一項(xiàng)非常困難的任務(wù)。這與以自我關(guān)注為基礎(chǔ)的模型截然相反,自我關(guān)注模型將所有不同的單詞放在上下文中,并學(xué)習(xí)如何查詢之前信息的功能。如果模型看到像‘先生或‘太太這樣的單詞,就可以學(xué)習(xí)如何查看文檔和前面所有的單詞,并判斷出哪一個(gè)名字可能跟在這一稱謂后面?!?/p>
已有的測(cè)試顯示,輸入“敏捷的棕色狐貍躍過了一只狗”,模型處理后寫到:“敏捷的棕色狐貍躍過了一只狗。這只狗真懶!這有什么了不起的?我問到,棕色狐貍笑了,狗也舔了舔嘴唇。我不知道。但你不必知道,因?yàn)橐坏┠愣恕叶?,我說。輸入“John今天早上醒來感覺很餓”,模型返回“John今天早上醒來感覺很餓。這是因?yàn)檫@家餐廳一般會(huì)營(yíng)業(yè)到7月份,但由于感恩節(jié)假期,餐廳有些窗口關(guān)門了。John的晚飯只有一份拌上奶酪和調(diào)味品的新鮮蔬菜沙拉。土豆是棕色的,沙拉很有味道?!?/p>
而在另一類Amazon模型的測(cè)試中(用于指定產(chǎn)品類別、產(chǎn)品名稱、評(píng)論得分和評(píng)論摘要),輸入“一個(gè)很棒的手機(jī)”,隨后,產(chǎn)品切換設(shè)置為“手機(jī)及配件”,評(píng)論等級(jí)設(shè)置為“5”。它生成的是:“這款手機(jī)太棒了!我是2013年7月買的。我還會(huì)購(gòu)買第二部的。它能通過麥克風(fēng)發(fā)短信、播放音樂和與他人交談,而且音質(zhì)很好。不過耳塞戴上幾個(gè)小時(shí)后,耳朵有點(diǎn)不舒服。我遇到的唯一問題是電池的壽命。這只是技術(shù)上的問題,手機(jī)使用一段時(shí)間后就會(huì)耗電嚴(yán)重。除此之外,我喜歡這款手機(jī)。這是我用過的最好的手機(jī)。這是一款很棒的手機(jī)。機(jī)殼的觸感很好,但是很容易變臟。如果你的手機(jī)上有攝像頭,你可以用它拍照。我上傳了自從我有了手機(jī)后的照片。不得不說上面這個(gè)評(píng)論已經(jīng)和人類用戶給出的評(píng)論非常接近了,無論是表達(dá)還是信息組織的邏輯。
對(duì)此,OpenAI表示,模型在第一次運(yùn)行時(shí),大約有一半的時(shí)間會(huì)生成“有趣的”和“連貫的”文本。Radford說:“它試圖在盡可能少的信息下預(yù)測(cè)下一個(gè)單詞。你能給出的上下文越多,它就會(huì)表現(xiàn)得越好?!倍趜ero-shot任務(wù)遷移的實(shí)驗(yàn)中,模型沒有事先在任何特定于測(cè)試的數(shù)據(jù)集上進(jìn)行訓(xùn)練,OpenAI表示,該模型的四種語言系統(tǒng)中最大的語言系統(tǒng)OpenAI gps-2在八個(gè)基準(zhǔn)測(cè)試中,成功地在七個(gè)測(cè)試中獲得了最佳分?jǐn)?shù),包括LAMBADA測(cè)試(模型在文本中建模長(zhǎng)期依賴關(guān)系能力的測(cè)試)、Winograd模式挑戰(zhàn)(解決文本中歧義的能力的測(cè)試)和Penn Treebank(包含數(shù)百萬個(gè)標(biāo)記了部分的文本的演講集合)。
它還顯示出無監(jiān)督學(xué)習(xí)任務(wù)的執(zhí)行能力。在回答問題的測(cè)試中,它在獲得上下文的情況下的準(zhǔn)確率達(dá)到83.4%?!八軌蚶酶蟮哪P秃透嗟臄?shù)據(jù)成為一個(gè)‘多面手,一般的語言預(yù)測(cè)任務(wù)都能執(zhí)行得很好。在一些非常有針對(duì)性的任務(wù)中,如匯總或翻譯,它也展示了初步的潛力。這太令人興奮了,因?yàn)槲覀儧]有明確針對(duì)這些任務(wù)進(jìn)行訓(xùn)練。”Radford說。盡管如此,Radford和OpenAI技術(shù)人員杰弗里·吳(Jeffrey Wu)也承認(rèn),這還遠(yuǎn)遠(yuǎn)不是自然語言處理的終點(diǎn):這些模型一次只能看到一頁(yè)以下的數(shù)據(jù),而且在推理時(shí)邏輯并不完全一致——有時(shí)會(huì)有很夸張的數(shù)字,或者以一種荒謬的方式跑題了。OpenAI團(tuán)隊(duì)未來將繼續(xù)改進(jìn)這些問題。
與以往的做法不同的是,這一次,OpenAI既不發(fā)布用于培訓(xùn)NLP模型的數(shù)據(jù)集,也不發(fā)布相關(guān)的語言模型或培訓(xùn)代碼。它認(rèn)為,發(fā)布這些信息可能會(huì)為濫用打開大門。OpenAI在博客中寫道:“同樣的工具,一個(gè)藝術(shù)家可以利用來幫助他們寫一個(gè)短篇小說的故事,可以用來制作關(guān)于某個(gè)公司的財(cái)務(wù)新聞,也可以在知名網(wǎng)站上創(chuàng)建虛假評(píng)論,甚至是強(qiáng)化政治性輿論影響……基于這些考慮,我們本著負(fù)責(zé)任的態(tài)度發(fā)布這個(gè)模型,希望貢獻(xiàn)或者得到溝負(fù)責(zé)任的討論,從而使記者、決策者等其他重要利益相關(guān)者也能夠理解和驗(yàn)證我們所做的事情?!?/p>
OpenAI所做的這項(xiàng)工作,其實(shí)也呼應(yīng)了當(dāng)下全球信息傳播中的一個(gè)重要議題——可以用來生成誤導(dǎo)性內(nèi)容的AI系統(tǒng)正受到越來越多的審查。2018年9月,美國(guó)國(guó)會(huì)議員就要求情報(bào)機(jī)構(gòu)就deepfake(AI視頻造假)對(duì)國(guó)家安全的潛在影響提交報(bào)告。在2018年末的一次國(guó)會(huì)聽證會(huì)上,國(guó)會(huì)議員們?cè)谂cFacebook首席運(yùn)營(yíng)官謝麗爾-桑德伯格和推特首席執(zhí)行官杰克-多爾西交談時(shí),也表達(dá)了對(duì)操縱deepfake的潛在影響的擔(dān)憂。
我們不排除,甚至可以肯定的說,未來OpenAI最新的這款語言模型或者其他類似的模型一定會(huì)被用來生成不真實(shí)或誤導(dǎo)性的故事。數(shù)據(jù)顯示,2018年3月,半數(shù)美國(guó)人表示在新聞網(wǎng)站上看到了故意誤導(dǎo)的文章。有機(jī)構(gòu)預(yù)測(cè),如果目前的趨勢(shì)持續(xù)下去,到2022年,大多數(shù)發(fā)達(dá)國(guó)家的人每天將看到更多的虛假信息,而非真實(shí)信息。因此,OpenAI的顧慮是完全合理的。
現(xiàn)在也有不少團(tuán)隊(duì)正在開發(fā)能夠與假新聞AT對(duì)抗的AI。例如,麻省理工學(xué)院的研究人員就在試圖用自動(dòng)化工具來對(duì)抗人工和AI編寫的假新聞,這些工具可以判斷消息來源的準(zhǔn)確性或政治偏見。但是,一些專家不相信這樣的做法能取得多顯著的效果。
卡內(nèi)基梅隆大學(xué)機(jī)器人研究所的科學(xué)家迪安·波默洛參與組織了“假新聞挑戰(zhàn)賽”,這是一項(xiàng)眾包偏見檢測(cè)算法的競(jìng)賽。他在一次采訪中透露,AI缺乏對(duì)語言的細(xì)微理解,而這些理解是研究不真實(shí)和虛假陳述所必需的?!皩?shí)際上,我們一開始就有一個(gè)更宏偉的目標(biāo),那就是創(chuàng)建一個(gè)能夠回答‘這是假新聞嗎,是還是不是?這個(gè)問題的系統(tǒng)?!薄八f。“但我們很快意識(shí)到機(jī)器學(xué)習(xí)無法勝任這項(xiàng)任務(wù)。”但也不用如此消極。很明顯,各國(guó)在政策領(lǐng)域還有很多改善的空間。OpenAI也希望通過這次研究,不僅能展示它在NLP領(lǐng)域取得的成果,還能在研究人員和監(jiān)管機(jī)構(gòu)之間引發(fā)辯論。
除了對(duì)假新聞的擔(dān)憂以外,這次的研究還繼續(xù)佐證了目前深度學(xué)習(xí)研究領(lǐng)域的一個(gè)“法則”(甚至可以認(rèn)為是“詛咒”):數(shù)據(jù)、計(jì)算資源和人才三大關(guān)鍵因素缺一不可,突破性成果越來越可能只有大機(jī)構(gòu)大企業(yè)才能支撐完成。無論是去年3億參數(shù)的BERT,還是現(xiàn)在動(dòng)用了15億參數(shù)、每小時(shí)訓(xùn)練價(jià)格高達(dá)2048美元的GVF-2,都沒有避開。(摘自美《深科技》)(編輯/多洛米)