近日,一道小學(xué)數(shù)學(xué)題讓AI大模型集體“失智”了。9.11和9.9兩個(gè)數(shù)字哪個(gè)更大?就此問題,國內(nèi)外12個(gè)大模型之中只有4個(gè)答對(duì)了,剩下8個(gè)全都回答錯(cuò)誤。一道小學(xué)數(shù)學(xué)題難倒了一眾海內(nèi)外AI大模型,這在輿論場(chǎng)激起了不小漣漪。有人“驚掉下巴”,調(diào)侃“大模型集體翻車”;也有人質(zhì)疑AI的能力邊界,甚至上手測(cè)試了一番,結(jié)果發(fā)現(xiàn)答案對(duì)錯(cuò)都有,有些大模型能迅速“承認(rèn)錯(cuò)誤”,而有的則“一錯(cuò)到底”。
原因總結(jié)起來有二:一是技術(shù)。大模型在分析文本時(shí),通常會(huì)使用特定機(jī)制將文本拆分成更小的單元,然后再進(jìn)行處理。這就類似于將一句話拆成一個(gè)個(gè)詞匯去理解。我們都知道,很多詞語脫離特定語境,意思可能就變了,所以會(huì)有“斷章取義”的誤解。同理,大模型的這種拆分處理,顯然不夠嚴(yán)謹(jǐn)。二是訓(xùn)練數(shù)據(jù)?,F(xiàn)如今,大模型更多是以文本模型進(jìn)行訓(xùn)練分析,在數(shù)理分析、邏輯推理上還有待優(yōu)化。
素材解讀
我們要學(xué)會(huì)對(duì)技術(shù)“祛魅”,不論是大模型,還是其他人工智能技術(shù),雖然產(chǎn)品琳瑯滿目,但大部分尚處在測(cè)試探索期,距離真正成熟、好用還有一定距離。所謂“祛魅”,就是保持“人間清醒”,既不過分迷信技術(shù)特質(zhì),也不盲目夸大技術(shù)功用,而是在客觀判斷和合理運(yùn)用中,讓技術(shù)應(yīng)用成為我們的最佳“搭檔”。
適用話題
人工智能、理性思維、客觀判斷、合理運(yùn)用