• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大型語(yǔ)言模型“看”世界

    2020-04-14 07:55:18
    海外星云 2020年18期
    關(guān)鍵詞:維基百科變形金剛單詞

    GPT-3自動(dòng)生成的語(yǔ)言竟然能和人類差不多,堪稱奇跡。但在很大程度上,GPT-3也不過是個(gè)噱頭。判斷方法也很簡(jiǎn)單。若提問GPT-3:羊是什么顏色?它會(huì)說“白色”,還會(huì)說“黑色”,頻次一樣高。因?yàn)橛⒄Z(yǔ)里有“black sheep”(黑羊,引申意為害群之馬)。

    這就是語(yǔ)言模型的問題。只用文本訓(xùn)練語(yǔ)言模型,會(huì)導(dǎo)致模型缺乏常識(shí)。不過,為了改變這種狀況,北卡羅來(lái)納大學(xué)教堂山分校(下文簡(jiǎn)稱UNC)的學(xué)者莫希特班薩爾和其博士生譚昊研發(fā)了一種新技術(shù),研究人員稱其為為“視覺監(jiān)督”,如此,GPT-3等語(yǔ)言模型便能具備“看”的功能。

    將語(yǔ)言模型與計(jì)算機(jī)視覺結(jié)合起來(lái)并不新鮮,該人工智能研究領(lǐng)域其實(shí)正在快速發(fā)展。出發(fā)點(diǎn)是這兩種類型都有不同的優(yōu)勢(shì)。GPT-3等語(yǔ)言模型通過無(wú)監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練,不需要人工進(jìn)行數(shù)據(jù)標(biāo)注,因此很容易開發(fā)出大型模型。而物體識(shí)別系統(tǒng)等圖像模型更多是在現(xiàn)實(shí)世界中學(xué)習(xí)。換句話說,圖像模型并不依賴文本所提供的抽象世界來(lái)理解世界。比如,圖像模型可以從羊的圖片中“看到”,羊其實(shí)是白色的。

    能夠同時(shí)解析語(yǔ)言和視覺輸入的人工智能模型用處很大。例如,機(jī)器人需要計(jì)算機(jī)視覺來(lái)導(dǎo)航,也需要語(yǔ)言來(lái)與人類交流,因此該模型能用于開發(fā)機(jī)器人。

    但要結(jié)合這兩種類型,是說起來(lái)容易做起來(lái)難。并非把現(xiàn)有的語(yǔ)言模型與物體識(shí)別系統(tǒng)拼接在一起便大功告成,而是需要從頭開始訓(xùn)練新模型。所用數(shù)據(jù)集要包括文本和圖像,也就是所謂的視覺語(yǔ)言數(shù)據(jù)集。

    要獲得這樣一個(gè)數(shù)據(jù)集,最常見的方法是做帶有描述性標(biāo)題的圖片集。例如,下面這張圖片的標(biāo)題設(shè)為“一只橘貓臥在空行李箱里”。這樣的圖片集便和傳統(tǒng)圖片數(shù)據(jù)集不同。后者只用名詞來(lái)標(biāo)注圖片,比如給下面這張圖片只簡(jiǎn)單地命名為“貓”。因此,視覺語(yǔ)言數(shù)據(jù)集不僅可以教人工智能模型如何識(shí)別對(duì)象,還可以教人工智能模型如何根據(jù)動(dòng)詞和介詞識(shí)別不同對(duì)象之間的相互關(guān)系。

    但如此也意味著,創(chuàng)建數(shù)據(jù)集會(huì)耗費(fèi)很長(zhǎng)時(shí)間。因此,現(xiàn)有的視覺語(yǔ)言數(shù)據(jù)集太單薄了。而常用的純文本數(shù)據(jù)集則不同。如英語(yǔ)維基百科,包括了幾乎所有英語(yǔ)維基百科條目,有近30億個(gè)單詞。而視覺語(yǔ)言數(shù)據(jù)集 Microsoft Common Objects in Context(下文簡(jiǎn)稱MS COCO)只包含700萬(wàn)個(gè),根本不足以訓(xùn)練一個(gè)有用的AI模型。

    有了視覺監(jiān)督,問題迎刃而解。視覺監(jiān)督使用無(wú)監(jiān)督學(xué)習(xí)方法,將MS COCO的數(shù)據(jù)規(guī)模擴(kuò)展到與英語(yǔ)維基百科相當(dāng)。視覺語(yǔ)言模型用規(guī)?;蟮臄?shù)據(jù)集訓(xùn)練后,研究人員使用了一些最難的AI語(yǔ)言理解能力測(cè)試對(duì)其進(jìn)行檢驗(yàn)。結(jié)果模型的表現(xiàn)甚至優(yōu)于當(dāng)今最先進(jìn)的模型。

    自然語(yǔ)言處理初創(chuàng)公司Hugging Face的聯(lián)合創(chuàng)始人兼首席科學(xué)官托馬斯沃爾夫說:“要在這些測(cè)試中擊敗最先進(jìn)的模型,得下大力氣。這些測(cè)試可不是兒戲。能有這樣的結(jié)果,真的讓人非常激動(dòng)?!?/p>

    我們先理清一些術(shù)語(yǔ)。到底什么是“voken”?

    在人工智能領(lǐng)域,用來(lái)訓(xùn)練語(yǔ)言模型的詞稱為token。UNC研究人員便以“voken”,來(lái)指代所用視覺語(yǔ)言模型中與任一token相關(guān)聯(lián)的圖像。用來(lái)匹配token和voken的算法稱為vokenizer,整個(gè)匹配過程稱為“視覺監(jiān)督”。

    說了這么多,主要是為了幫助大家理解視覺監(jiān)督的基本理念。UNC研究人員沒有拿著圖像數(shù)據(jù)集來(lái)手動(dòng)編寫標(biāo)題,這耗時(shí)過長(zhǎng);他們選擇了使用語(yǔ)言數(shù)據(jù)集以及無(wú)監(jiān)督學(xué)習(xí)法,匹配每個(gè)單詞與相關(guān)圖像。如此便很容易規(guī)?;?。

    此處的無(wú)監(jiān)督學(xué)習(xí)技術(shù)正是此項(xiàng)研究的貢獻(xiàn)。那么,究竟如何為每個(gè)單詞找到關(guān)聯(lián)圖像呢?

    視覺監(jiān)督

    先回到GPT-3。GPT-3所屬語(yǔ)言模型家族有“變形金剛”之稱。2017年,該類模型首次面世,便是將無(wú)監(jiān)督學(xué)習(xí)應(yīng)用于自然語(yǔ)言處理取得的重大突破。變形金剛可以觀察單詞在上下文中的使用,再根據(jù)上下文創(chuàng)建每個(gè)單詞的數(shù)學(xué)表達(dá)式,即“單詞嵌入”,以此來(lái)學(xué)習(xí)人類語(yǔ)言模式。例如,代表“貓”的嵌入可能會(huì)顯示,“喵”和“橙”兩字周圍,“貓”出現(xiàn)頻率高,但在“吠”或“藍(lán)色”周圍出現(xiàn)的頻率便較低。

    因此,變形金剛猜單詞含義的準(zhǔn)確度較高,GPT-3也因此能寫出仿佛由人所作的句子。變形金剛一定程度上依靠這些嵌入,學(xué)習(xí)如何將單詞組成句子、句子組成段落。

    還有一種類似技術(shù)也可以用于處理圖像。這種技術(shù)不是通過掃描文本來(lái)尋找單詞使用規(guī)律,而是通過掃描圖像來(lái)尋找視覺規(guī)律。比如,該技術(shù)將貓出現(xiàn)在床上與出現(xiàn)在樹上的頻率制成表格,并利用這些上下文信息創(chuàng)建“貓”的嵌入。

    UNC研究人員認(rèn)為,處理MSCOCO要同時(shí)使用這兩種嵌入技術(shù)。研究人員將圖像處理為視覺嵌入,將標(biāo)題處理為文字嵌入。而這些嵌入妙就妙在能在三維空間中繪制出來(lái),完全可以看到嵌入之間的關(guān)系。如果某一視覺嵌入與某一單詞嵌入密切相關(guān),繪制出來(lái)后位置很接近。換句話說,理論上,代表貓的視覺嵌入應(yīng)該與代表貓的文字嵌入重合。

    之后的工作也就水到渠成。一旦嵌入都繪制完畢、并相互比較和關(guān)聯(lián),就很容易開始匹配圖像(voken)與文字(token)。而且,由于圖像和單詞基于原嵌入進(jìn)行匹配,那么實(shí)際也在基于上下文進(jìn)行匹配。這樣,即便一個(gè)詞可能有多個(gè)不同含義也不必?fù)?dān)心,該技術(shù)能為單詞的每個(gè)含義找到對(duì)應(yīng)voken。

    這兩個(gè)例子中的token都是“contact”一詞。但在第一個(gè)句子中,上下文表明“contact”是聯(lián)系的意思,所以voken是聯(lián)系圖標(biāo)。在第二個(gè)句子中,上下文表明這個(gè)詞有觸摸的意思,所以voken顯示的是一只被撫摸的貓。

    這些利用MSCOCO創(chuàng)建的視覺和單詞嵌入,便用來(lái)訓(xùn)練算法vokenizer。

    一旦經(jīng)過訓(xùn)練,vokenizer就能夠在英語(yǔ)維基百科中找token的對(duì)應(yīng)voken。雖然該算法只為大約40%的token找到了voken,并不完美,但英語(yǔ)維基百科可是有接近30億字。

    有了新的數(shù)據(jù)集后,研究人員重新訓(xùn)練了BERT語(yǔ)言模型。BERT是谷歌開發(fā)的開源變形金剛,比GPT-3還要早。然后,研究人員使用六個(gè)語(yǔ)言理解測(cè)試,測(cè)試改進(jìn)的BERT。語(yǔ)言理解測(cè)試中有SQuAD斯坦?;卮饠?shù)據(jù)集,該測(cè)試要求模型回答基于文章的閱讀理解題;還有SWAG測(cè)試,該測(cè)試?yán)糜⒄Z(yǔ)語(yǔ)言的精妙處,檢測(cè)模型是否只是單純模仿和記憶。改進(jìn)的BERT在所有測(cè)試?yán)锉憩F(xiàn)都比原來(lái)更突出。沃爾夫說,這并不奇怪。

    雖然研究還處于早期階段,但沃爾夫認(rèn)為,從在視覺語(yǔ)言模型中利用無(wú)監(jiān)督學(xué)習(xí)方面看,這項(xiàng)工作是一項(xiàng)重要觀念突破。當(dāng)年,正是類似突破極大推動(dòng)了自然語(yǔ)言處理的發(fā)展。

    沃爾夫說:“在自然語(yǔ)言處理領(lǐng)域,兩年多前便有了這一巨大突破,然后突然間自然語(yǔ)言處理領(lǐng)域有了很大發(fā)展,開始走在其他AI領(lǐng)域前面。但是把文字和其他事物聯(lián)系起來(lái)還是有很大障礙。就像機(jī)器人只能說話,但不會(huì)看、不會(huì)聽。”

    “這篇論文則做到了將文字與另一種模式連接起來(lái),而且效果更好,樹立了典范??梢韵胂螅绻堰@種非常強(qiáng)大的語(yǔ)言模型用到機(jī)器人上,也許能用到部分新技術(shù)。比如,用同樣的技術(shù)將機(jī)器人的感官和文本聯(lián)系起來(lái)?!?/p>

    (綜合整理報(bào)道)(編輯/多洛米)

    猜你喜歡
    維基百科變形金剛單詞
    維基百科影響司法
    維基百科青年
    LY-70:防空領(lǐng)域的“變形金剛”
    單詞連一連
    可愛的“變形金剛”
    看圖填單詞
    看完這些單詞的翻譯,整個(gè)人都不好了
    變形金剛
    衣柜界的“變形金剛”所有收納難題都不是問題
    Coco薇(2015年11期)2015-11-09 13:24:17
    APP
    宝清县| 太保市| 溆浦县| 泰宁县| 临江市| 湛江市| 元阳县| 剑河县| 彭泽县| 嵩明县| 蒙自县| 泰宁县| 广西| 梅河口市| 汝城县| 宜章县| 黄冈市| 塔城市| 阳信县| 土默特左旗| 孙吴县| 岑巩县| 全椒县| 定兴县| 麻栗坡县| 洱源县| 广平县| 鹿邑县| 嘉兴市| 康定县| 菏泽市| 新沂市| 阳朔县| 柳江县| 滁州市| 武穴市| 商水县| 澎湖县| 兖州市| 益阳市| 广水市|