向治霖
因?yàn)橐黄鸪u事件,面壁智能意外出圈。
5月末,斯坦福大學(xué)的一個(gè)研究團(tuán)隊(duì)發(fā)布模型“Llama3V”,號(hào)稱只花了500美元,卻做了一個(gè)“SOTA多模態(tài)模型”。在AI行業(yè),SOTA(State Of The Art)的意思是“最先進(jìn)的”“最優(yōu)的”,指“在某一特定任務(wù)、領(lǐng)域或指標(biāo)上,當(dāng)前已知的最佳性能或最先進(jìn)的技術(shù)”。
模型的受關(guān)注度,或許佐證了“實(shí)力”。Llama3V發(fā)布不久,即在上萬(wàn)個(gè)模型的社區(qū)Hugging Face上名列前茅,排名最高時(shí),位列模型“周排行”的第四位。
只是很快,用戶指出Llama3V“套殼”了中國(guó)AI公司面壁智能發(fā)布的開(kāi)源模型MiniCPMLlama3-V 2.5。
斯坦福團(tuán)隊(duì)試圖抵賴,沒(méi)撐多久。6月初,兩位作者公開(kāi)道歉,只是“甩鍋”之意明顯,“責(zé)任全在(已跑路的)編程人員”,“殺個(gè)程序員祭天”的傳統(tǒng)得到延續(xù)。
為此,“真大佬”也坐不住了。斯坦福人工智能實(shí)驗(yàn)室主任Christopher Manning發(fā)問(wèn)抨擊:“為什么不敢承認(rèn)錯(cuò)誤!”(How not to own your mistakes?。┎贿^(guò)他也強(qiáng)調(diào),自己對(duì)此一無(wú)所知,“似乎是幾個(gè)本科生做的,有一些來(lái)自斯坦?!?,言語(yǔ)間滿滿邊界感。
單論抄襲事件,事實(shí)清楚,證據(jù)確鑿。但因此事,AI圈子里掀起一場(chǎng)討論:AI開(kāi)源社區(qū)中的中國(guó)勢(shì)力,其能力以及對(duì)生態(tài)的貢獻(xiàn),長(zhǎng)久以來(lái)是否一直被忽視?
大抄一通的斯坦福團(tuán)隊(duì),其實(shí)“膽挺肥”——被抄襲的MiniCPMLlama3-V 2.5,在開(kāi)源社區(qū)可不是什么“無(wú)名之輩”。
5月20日,MiniCPM-Llama3-V 2.5正式發(fā)布,僅僅3天后,其熱度登上開(kāi)源社區(qū)Hugging Face和代碼托管平臺(tái)GitHub趨勢(shì)榜的“雙榜首”,在GitHub的星標(biāo)數(shù)(可以理解為收藏?cái)?shù))超過(guò)3000。面壁智能當(dāng)時(shí)稱,MiniCPM-V系列下載總量已超13萬(wàn)。
5月29日,抄襲之作Llama3V發(fā)布。也就是說(shuō),距離“正主”發(fā)布僅9天,且還在“熱搜”時(shí)期,斯坦福團(tuán)隊(duì)就直接實(shí)踐拿來(lái)主義了。
抄襲事件給原創(chuàng)項(xiàng)目又添了一把熱度。6月9日,面壁智能團(tuán)隊(duì)告訴南風(fēng)窗,當(dāng)前MiniCPM-V 系列下載總量已超24萬(wàn),GitHub星標(biāo)數(shù)超過(guò)6900。
回到事件本身,從手法上看,抄襲者也顯然是“膽大心不細(xì)”,就連模型名“Llama3V”,在“正主”處也能找到對(duì)應(yīng)的字符。赤裸裸的程度令人咋舌。
因此,Llama3V發(fā)布不久就被抓住小辮子。最初是有用戶在項(xiàng)目下方留言:“你們是不是在MiniCPMLlama3-V 2.5基礎(chǔ)上進(jìn)行訓(xùn)練,并且完全沒(méi)有提到這一點(diǎn)?”
Llama3V項(xiàng)目的作者先是否認(rèn),并稱只是使用了MiniCPMLlama3-V 2.5的tokenizer(分詞器)。
6月2日,更多的證據(jù)浮現(xiàn)。有網(wǎng)友在項(xiàng)目下方列舉了四大證據(jù),結(jié)果慘遭項(xiàng)目團(tuán)隊(duì)刪文。質(zhì)疑者氣不過(guò),將截圖發(fā)到了面壁智能開(kāi)源項(xiàng)目的評(píng)論區(qū),提醒原創(chuàng)團(tuán)隊(duì)關(guān)注此事。
該網(wǎng)友列舉的四大證據(jù)中,最令人錯(cuò)愕的,是斯坦福團(tuán)隊(duì)在項(xiàng)目頁(yè)上直接導(dǎo)入過(guò)“正主”MiniCPM-V的代碼,“重命名”為L(zhǎng)lama3V。
面壁智能團(tuán)隊(duì)告訴南風(fēng)窗,6月2日深夜,團(tuán)隊(duì)正式確定了斯坦福大模型是對(duì)其的“套殼抄襲”。團(tuán)隊(duì)負(fù)責(zé)人解釋?zhuān)@般肯定是因?yàn)椋姹诖竽P酮?dú)有的“彩蛋”功能,Llama3V居然也有。
這項(xiàng)功能是對(duì)“清華簡(jiǎn)”戰(zhàn)國(guó)古文字的識(shí)別。
“清華簡(jiǎn)”是清華大學(xué)在2008年收藏的一批戰(zhàn)國(guó)竹簡(jiǎn)。一參與者回憶,面壁團(tuán)隊(duì)的同學(xué)們花費(fèi)數(shù)個(gè)月,從清華簡(jiǎn)上掃描得到訓(xùn)練數(shù)據(jù),層層工作后將對(duì)清華簡(jiǎn)的“識(shí)別能力”融入MiniCPM-Llama3-V 2.5模型?!斑@個(gè)能力這次沒(méi)有進(jìn)行宣傳展示,沒(méi)想到最后成為揭露真相的關(guān)鍵證據(jù)之一?!?blockquote>距離“正主”發(fā)布僅9天,且還在“熱搜”時(shí)期,斯坦福團(tuán)隊(duì)就直接實(shí)踐拿來(lái)主義了。
訓(xùn)練數(shù)據(jù)對(duì)于大模型,就像是書(shū)本對(duì)于學(xué)生,學(xué)生的天資(對(duì)應(yīng)模型的參數(shù)量)再高,如果沒(méi)有書(shū)本,也不能掌握特定的能力。但面壁團(tuán)隊(duì)的測(cè)試發(fā)現(xiàn),斯坦福團(tuán)隊(duì)大模型對(duì)清華簡(jiǎn)的識(shí)別,“不僅對(duì)得一模一樣,連錯(cuò)都錯(cuò)得一模一樣”。
又過(guò)2天,斯坦福團(tuán)隊(duì)三人中的兩人,Siddharth Sharma和Aksh Garg公開(kāi)道歉,但同時(shí)稱他們只負(fù)責(zé)其中項(xiàng)目推廣的工作,唯一“技術(shù)骨干”Mustafa Aljadery則無(wú)法聯(lián)系上,其社交媒體賬號(hào)也已設(shè)置為私密。
鬧劇告一段落,6月5日,面壁又有大動(dòng)作,在官微上宣布,對(duì)面壁的性能“小鋼炮”MiniCPM系列大模型開(kāi)放免費(fèi)商用。
面壁智能對(duì)南風(fēng)窗解釋?zhuān)衲晔瞧溟_(kāi)源社區(qū)OpenBMB三周年,MiniCPM-Llama3-V 2.5是“我們?cè)?月20日送給每位的節(jié)日禮物,很高興現(xiàn)在能夠讓更多人知道我們的節(jié)日禮物”。
回顧抄襲事件的始末,面壁團(tuán)隊(duì)的應(yīng)對(duì)低調(diào)、周全。面壁聯(lián)合創(chuàng)始人、清華大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)還在回應(yīng)時(shí)提到,“(兩位本科生)未來(lái)還有很長(zhǎng)的路,如果知錯(cuò)能改,善莫大焉”。
不過(guò),無(wú)論是劉知遠(yuǎn)、面壁CEO李大海,還是面壁團(tuán)隊(duì)給出的回應(yīng)里,都嚴(yán)肅強(qiáng)調(diào)了“對(duì)開(kāi)源協(xié)議的遵守”。
事實(shí)上,被抄襲的MiniCPMLlama3-V 2.5也不是完全自研,其建立在開(kāi)源模型Llama3 8B(80億參數(shù))的基礎(chǔ)上,后者是美國(guó)公司Meta今年4月開(kāi)源的大模型之一。
開(kāi)源社區(qū)支持和鼓勵(lì)復(fù)用前人成果,由此“站在巨人的肩膀上”,聚集智慧、共享協(xié)作。相應(yīng)地,開(kāi)源共享的底層邏輯,是對(duì)開(kāi)源協(xié)議的遵守,對(duì)其他貢獻(xiàn)者的信任,對(duì)前人成果的尊重和致敬。
比較之下,MiniCPM-Llama3-V 2.5在名稱上仍保留“前作”Llama3的痕跡,“致敬”并沒(méi)有藏著掖著,而斯坦福團(tuán)隊(duì)的“Llama3V”則在臺(tái)前臺(tái)后都抹掉了MiniCPM。此處順便一提,CPM的全稱是“中國(guó)的預(yù)訓(xùn)練模型”(Chinese Pretrained Model)。
澄清開(kāi)源的邏輯,也就破除了“開(kāi)源就是方便抄襲”的偏見(jiàn)。“國(guó)外一開(kāi)源,國(guó)內(nèi)就自研”一句譏諷意味的話,始終是國(guó)內(nèi)開(kāi)源項(xiàng)目廠商頭上揮不去的一片烏云。斯坦福團(tuán)隊(duì)抄襲事件發(fā)生后,仍然有聲音質(zhì)疑說(shuō),面壁MiniCPMLlama3-V 2.5也是抄的Llama3,與斯坦福團(tuán)隊(duì)不過(guò)是“先抄”“后抄”的區(qū)別。
然而兩者絕不等同。前文清華簡(jiǎn)的例子說(shuō)明,新的訓(xùn)練數(shù)據(jù),可以給大模型加上此前未有的功能??蚣軆?yōu)化、參數(shù)微調(diào)等,也都有同樣功效。
基于開(kāi)源項(xiàng)目的項(xiàng)目開(kāi)發(fā),好比一個(gè)游戲,基礎(chǔ)大模型如Llama,就是玩家進(jìn)入游戲時(shí)拿到的“布衣”角色,通過(guò)升級(jí)打怪氪裝備,玩家號(hào)從“布衣”升級(jí)到“黃金圣斗士”。而抄襲呢,就是直接盜號(hào)了。
由此一窺事件中真正的主角MiniCPM-Llama3-V 2.5,在以語(yǔ)言模型Llama3 8B為基礎(chǔ)的前提下,主打的卻是多模態(tài)能力,即能夠處理不同類(lèi)型的數(shù)據(jù),如圖片、文字等。
在開(kāi)源社區(qū)上,面壁提供的Demo相當(dāng)簡(jiǎn)單:模型啟動(dòng)后,用戶可以在界面上傳圖片,而后模型將對(duì)圖片進(jìn)行分析,輸出相應(yīng)的文字信息。
這涉及模型的對(duì)圖片識(shí)別理解能力和OCR(光學(xué)字符識(shí)別)能力。前者是模型對(duì)各類(lèi)復(fù)雜圖片,如票根、營(yíng)養(yǎng)食譜等的準(zhǔn)確識(shí)別和理解,后者是指將印刷或手寫(xiě)文本轉(zhuǎn)換為機(jī)器可讀數(shù)據(jù)的能力,常用于文檔數(shù)字化等。
各項(xiàng)指標(biāo)中,MiniCPMLlama3-V 2.5的OCR能力尤為突出。面壁團(tuán)隊(duì)表示,該模型OCR能力達(dá)到SOTA;在端側(cè)多模態(tài)綜合性能方面超過(guò)了Gemini Pro、GPT-4V等千億參數(shù)級(jí)的大模型。
如此也就不難理解,MiniCPMLlama3-V 2.5,乃至“抄襲之作”Llama3V,為何能在短時(shí)間內(nèi)登上開(kāi)源社區(qū)的“熱搜”。
6月11日凌晨,蘋(píng)果在全球開(kāi)發(fā)者大會(huì)上官宣“蘋(píng)果智能”,新的Siri成為蘋(píng)果版人工智能的入口??梢韵胍?jiàn),新的一輪應(yīng)用AI化即將到來(lái)。
發(fā)布會(huì)上,蘋(píng)果的“in-app Action”令人印象深刻。演示中,用戶只需要對(duì)Siri發(fā)出指令,如“整理女兒學(xué)習(xí)游泳的照片”“安排下午去機(jī)場(chǎng)的行程”,蘋(píng)果智能即可自行整理不同時(shí)間拍攝的 “從學(xué)習(xí)到學(xué)會(huì)”的照片時(shí)間線,以及自動(dòng)記錄行程、設(shè)計(jì)路線、預(yù)測(cè)交通狀況等。
用蘋(píng)果的話說(shuō),新的Siri是一個(gè)強(qiáng)大的、懂得手機(jī)的具體使用者個(gè)性偏好的個(gè)人助理。
目前,蘋(píng)果尚未披露上述功能是手機(jī)端模型還是云端模型、抑或兩者協(xié)同來(lái)實(shí)現(xiàn)的,但從演示效果來(lái)看,新的Siri能夠?qū)崟r(shí)地理解手機(jī)界面的信息,據(jù)此推理和生成內(nèi)容,其表現(xiàn)與OpenAI演示GPT4o的人機(jī)互動(dòng)功能時(shí)所展現(xiàn)的“同根同源”。
面壁聯(lián)合創(chuàng)始人、清華大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)還在回應(yīng)時(shí)提到,“(兩位本科生)未來(lái)還有很長(zhǎng)的路,如果知錯(cuò)能改,善莫大焉”。
千億參數(shù)決定了,GPT4o不可能在手機(jī)端運(yùn)行。如前文所說(shuō),上述功能涉及的圖片識(shí)別、理解能力,以及OCR能力,是面壁MiniCPMLlama3-V 2.5的主打功能。
但MiniCPM-Llama3-V 2.5的一大優(yōu)勢(shì)是,它本就是面向類(lèi)似手機(jī)等小型終端設(shè)備設(shè)計(jì)的。
官方文檔中,面壁演示了該模型在小米14pro上“絲滑”運(yùn)行。在“最強(qiáng)端側(cè)多模態(tài)綜合性能”表現(xiàn)下,MiniCPM-Llama3-V 2.5量化后為8G顯存,在手機(jī)端推理無(wú)壓力,每秒6—8個(gè)令牌的推理速度相當(dāng)可用。作為對(duì)比,基礎(chǔ)模型Llama3 8B在手機(jī)端的推理速度每秒僅0.5個(gè)令牌(一般一個(gè)漢字為2—3個(gè)令牌)。
當(dāng)然,必須說(shuō)明,模型的能力與蘋(píng)果展示的系統(tǒng)級(jí)AI完全不是一回事。但是技術(shù)有了,產(chǎn)品化也只是時(shí)間問(wèn)題。以蘋(píng)果的體量所帶來(lái)的影響,端側(cè)模型的部署力度和市場(chǎng)前景是值得樂(lè)觀的。
端側(cè)模型也可以成為“小模型”,入局者同樣眾多,但面壁智能對(duì)小模型格外專(zhuān)注。在言AI必提大模型的過(guò)去一年多時(shí)間里,這讓面壁顯得有些特別。
面壁團(tuán)隊(duì)告訴南風(fēng)窗,押注小模型的關(guān)鍵,是發(fā)現(xiàn)小模型的能力未必弱于大模型,如MiniCPM-Llama3-V 2.5在“讀圖”方面展示的,是“用規(guī)模1/100的模型,達(dá)到了國(guó)外知名大模型的同等性能,訓(xùn)練成本也極低”。
另一方面,小模型對(duì)應(yīng)的手機(jī)終端,是“離用戶最近的地方”。中國(guó)電信的統(tǒng)計(jì)顯示,2023年中國(guó)存量手機(jī)上的算力總量,是全國(guó)的數(shù)據(jù)中心算力總量的12倍。面壁認(rèn)為,“未來(lái)的端側(cè)算力的總量,一定是要超越我們?cè)谠苽?cè)的這些算力總量,這些算力一定要充分利用”。
同時(shí),訓(xùn)練小模型不僅僅是沖著端側(cè)市場(chǎng),它也對(duì)訓(xùn)練出更強(qiáng)的大模型有幫助。
“做端側(cè)的模型比做云側(cè)的模型要求更高?!泵姹趫F(tuán)隊(duì)認(rèn)為,原因在于設(shè)備本地端的算力和內(nèi)存部署大模型,相比云側(cè)的大規(guī)模服務(wù)器集群,要求會(huì)更苛刻。
面壁把更多的知識(shí)壓到一個(gè)更小的模型里面去,在設(shè)備本地端就可以運(yùn)行,并取得非常好的效果?!叭绻覀円欢ㄒビ?xùn)練一個(gè)好的云側(cè)模型,那我們用類(lèi)似的技術(shù),一定可以做到這個(gè)世界上最好的云側(cè)模型?!?/p>
當(dāng)然,真正打通這條路徑,會(huì)是一個(gè)漫長(zhǎng)的過(guò)程。