榮智慧
把ChatGPT放進口袋需要幾步?
在手機上運行生成式人工智能,而不是靠巨頭的服務(wù)器,是最熱門的科技潮流之一。
安卓手機率先搶占潮頭。
2023年年初,高通展示了第一款運行Stable Diffusion“文生圖”模型的安卓手機,該模型具有約10億個參數(shù)。當(dāng)年年底,谷歌公布Gemini的Nano版本可以直接嵌入安卓系統(tǒng)。據(jù)稱,三星Galaxy手機將于2024年具備AI功能,運行大模型LLM2的微縮版。
中國手機商小米、榮耀、vivo和OPPO,先后宣布新一代旗艦機型包含“生成式人工智能”功能。
熱潮之下,蘋果公司顯得分外沉默。
無論是手機制造商,還是芯片制造商,都希望AI重振智能手機市場。智能手機剛剛經(jīng)歷了十年來最糟糕的一年,出貨量下降5%。
高通先亮出了“無損”運行Stable Diffusion的配置。
Stable Diffusion是利用生成式人工智能來完成“文生圖”的火爆應(yīng)用之一,和Dall-E 2、Midjourney齊名。
Stable Diffusion屬于深度學(xué)習(xí)家族,工作人員會逐步給圖像添加“噪點”,通過模型記錄添加噪點的過程,再進行逆轉(zhuǎn),供AI學(xué)習(xí)。
噪點,也叫噪聲,是指數(shù)碼攝影器材拍攝的圖像中,存在的粗糙點,一般受電子干擾產(chǎn)生。
從AI的角度,先看到的是一幅布滿噪點的畫面,再看到畫面一點點變清晰,最后成為畫作。AI學(xué)的是整個去噪點的過程,特別是如何處理高斯噪聲(概率密度函數(shù)服從正態(tài)分布的噪聲),最后生成畫作。
Stable Diffusion的功能是,可以在幾秒內(nèi)將文本轉(zhuǎn)換為512x512像素的圖像;圖像可以轉(zhuǎn)換、放大、修改和替換;使用GFP-GAN建模,允許用戶上傳模糊的面部圖像,進行放大或恢復(fù)原貌。
用手機玩這類應(yīng)用,人人都能隨時當(dāng)畢加索。
其實,“AI手機”具體能運行哪些模型和應(yīng)用,目前評估為時過早。今年上市的第一批AI手機中,可能會包含一些“相對基礎(chǔ)”的應(yīng)用,比如語音控制照片編輯、簡單問答等,模型參數(shù)在10億到100億之間。
像榮耀展示的下一代旗艦機Magic,用戶通過自然語言發(fā)出指令,能讓AI自動查詢相冊里的拍攝素材,并尋找合適的部分整合成一段視頻。
號稱“超越GPT-4”的谷歌Gemini的Nano版,也將落戶谷歌自家手機Pixle。
Gemini為“原生”多模態(tài)大模型,可以泛化理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。屆時用戶可以在手機感受“具有Bard體驗的高質(zhì)量智能助手能力”。Bard是谷歌的對話式人工智能工具。
AI進入智能手機不是新鮮事,2017年就開始了。
那一年,工程師開始在片上系統(tǒng)(SoC)添加新的AI組件,以提高“智能”或AI助手任務(wù)的性能,并使其具有成本效益、功耗和尺寸效率—因此也相當(dāng)依賴更快、更新的系統(tǒng)內(nèi)存。
不過,之前的想法,還是集成云和終端設(shè)備來擴展應(yīng)用。
比如加州大學(xué)伯克利分校有一款名為MyShake的地震預(yù)警應(yīng)用程序,它使用手機中的加速度計傳感器和GPS,來測量局部發(fā)生的震動程度,并結(jié)合附近其他用戶的數(shù)據(jù),在云中進行綜合分析。這款應(yīng)用程序想打造的,是個人地震儀或個人地震預(yù)警系統(tǒng)。
而當(dāng)下的主流思路是實現(xiàn)端側(cè)大模型推理:一方面能獲得實時響應(yīng),一方面也避免個人數(shù)據(jù)上傳到云端、泄露隱私。
安卓手機兩款最新旗艦芯片都主打“人工智能”功能。
聯(lián)發(fā)科的天璣9300,采用臺積電4納米工藝,擁有227億個晶體管。據(jù)悉使用“全大核”CPU架構(gòu),包含4個Cortex-X4超大核,最高頻率可達3.25GHz,以及4個主頻為2.0GHz的Cortex-A720大核,其峰值性能相較上一代提升40%,同性能情況下功耗節(jié)省33%。
針對AI功能,天璣9300集成了MediaTek第七代AI處理器APU 790,整數(shù)運算和浮點運算的性能是前一代的兩倍,功耗降低了45%。
其內(nèi)存硬件壓縮技術(shù),通過量化和壓縮,把大模型的內(nèi)存占用降低到了5GB,讓大多數(shù)用戶(手機內(nèi)存16GB)日常跑得動大模型應(yīng)用。
高通的驍龍 8 Gen 3,為Qualcomm Kryo 64位架構(gòu),同樣采用4納米工藝制程。CPU部分為1+5+2的8核架構(gòu)組合,相比上一代處理器8 Gen 2的1+4+3布局多了一個性能核心。
具體為1顆3.3GHz主頻Arm Cortex-X4超大核心、5顆最高主頻3.2GHz大核心,以及2顆2.3GHz主頻能效核心。
驍龍8 Gen 3支持100億參數(shù)的大語言模型。據(jù)報道,跑Llama2-7B時,每秒能生成20個Token。與此同時,8 Gen 3 跑大模型時,以往要占用10G內(nèi)存,經(jīng)量化后不到2G。性能相對前代提升了9.5萬億次/秒,實現(xiàn)30%的運算速度提升。
驍龍系有三星、華碩、榮耀、iQOO、魅族、蔚來、努比亞、一加、OPPO、真我、紅米、紅魔、vivo、小米和中興等客戶,天璣系歷來為OPPO、摩托羅拉、vivo、小米和傳音提供服務(wù)。二者有部分客戶交叉。
另外,針對個人電腦的人工智能芯片也將面世。驍龍 X Elite目前已支持在端側(cè)運行超過130億參數(shù)的生成式AI模型,面向70億參數(shù)大模型每秒生成30個Token,預(yù)計從2024年中期開始,就會有廠商會推出該芯片的PC版。
可以說,2022年年底誕生的對話式人工智能ChatGPT,正在加速進入C端—在PC和手機上針對個人用戶提供新的互動方式,從而改變消費者的學(xué)習(xí)、工作和生活習(xí)慣。
當(dāng)用戶輸入任何文字、聲音、圖像信息時,端側(cè)的人工智能助手將即時對相關(guān)內(nèi)容進行響應(yīng)、調(diào)取和加工。
比如,當(dāng)作者寫作一篇文章時,AI助手可以隨時根據(jù)關(guān)鍵詞的輸入提供相關(guān)數(shù)據(jù)和信息。
當(dāng)用戶在聊天對話框打出“我們約個時間吃飯”時,AI助手立刻給出日程表、地點附近的餐廳和最優(yōu)路線。如果有一天AI能判斷這句話是不是客套話,那就真的“神作”了。
這些場景,可能在未來的幾年內(nèi)實現(xiàn)。
生成式AI助手將成為人和所有應(yīng)用之間的強大接口。由此,以應(yīng)用為中心的用戶界面也將被顛覆,個人和企業(yè)的生產(chǎn)力和生產(chǎn)效率也有更大的想象空間。
蘋果看似沉默,其實也沒閑著。它有“Apple GPT”。
2023年12月12日,蘋果研究人員于arXiv發(fā)布了一篇名為“LLM in a Flash”的論文,提供了“解決當(dāng)前計算瓶頸的解決方案”。
論文表示,可以利用“閃存使用”技術(shù)來解決容量限制問題;使用容量較大的閃存來存儲AI模型的數(shù)據(jù),在需要時在將數(shù)據(jù)調(diào)入內(nèi)存中處理,從而“為在內(nèi)存有限的設(shè)備上有效運行LLM鋪平了道路”。
基于LLM的聊天機器人,比如ChatGPT、Claude等,同時處理的數(shù)據(jù)量非常龐大,往往需要調(diào)用大量內(nèi)存才能運行。通常,運算數(shù)據(jù)標準方法是將閃存中的數(shù)據(jù)加載到內(nèi)存中,再在內(nèi)存中進行數(shù)據(jù)推理。
手機的內(nèi)存相當(dāng)有限,嚴重限制了可以運行的大模型的大小。
上文提到的安卓手機芯片,采取的都是內(nèi)存硬件壓縮技術(shù)—量化和壓縮,通過減少數(shù)字表示位數(shù),來減少模型的存儲量和計算量。比如,深度學(xué)習(xí)一般使用32位浮點數(shù)來表示權(quán)重和激活值,用上量化,使用更短的整數(shù)表示權(quán)重和激活值,就能減少內(nèi)存和計算開銷。
量化和壓縮肯定會導(dǎo)致模型準確度下降。
蘋果研究人員的辦法是發(fā)明了兩種新技術(shù)—“窗口”和“行列捆綁”,利用大硬盤的容量承接和整理數(shù)據(jù),而不是大力壓縮模型。
據(jù)說,這方面的嘗試會整合在語音助手Siri上,目標是推出與人工智能深度集成的智能版Siri。
還有傳言稱蘋果要在盡可能多的應(yīng)用程序中添加人工智能。
而且,蘋果也開發(fā)了生成式人工智能模型“Ajax”—內(nèi)部叫它“Apple GPT”,在2000億個參數(shù)上運行,可能比ChatGPT 3.5強大,但應(yīng)該打不過GPT-4。
有分析師表示,蘋果將在2024年底左右在iPhone和iPad上推出某種生成式人工智能功能,屆時iOS 18會包含此功能。幾百臺人工智能服務(wù)器將于這兩年建成。
借生成式人工智能的東風(fēng),智能手機將迎來一輪新周期。