人工智能時代對移動終端的計(jì)算能力提出了更高要求,高通、蘋果、華為等廠商引入AI芯片為手機(jī)賦能。2017年AI芯片在手機(jī)終端開始商用[1],這些芯片的實(shí)際表現(xiàn)和能力對比引起業(yè)界廣泛關(guān)注,一些評測工具從多個維度對AI芯片能力進(jìn)行評估,給產(chǎn)業(yè)鏈廠商和消費(fèi)者帶來便利。同時,這些評測工具尚不成熟,市場上對如何全面反映AI芯片能力未形成一致意見,基于此,本文研究了幾款國內(nèi)外的AI芯片評測工具,分析發(fā)展趨勢,為規(guī)范手機(jī)AI芯片評測方法提供參考,助力行業(yè)發(fā)展。
目前,移動終端集成AI能力,如人臉識別和語音識別等,滿足大規(guī)模的用戶需求,為消費(fèi)者提供一對一的個性化體驗(yàn)服務(wù)。AI應(yīng)用的運(yùn)算量高達(dá)億每秒數(shù)量級,傳統(tǒng)的處理器解決方案已不適用,由此產(chǎn)生了AI芯片。AI芯片能夠以更快的速度、更低的功耗完成機(jī)器學(xué)習(xí)運(yùn)算,成為手機(jī)的重要賣點(diǎn)和核心競爭力。
用于手機(jī)的AI芯片解決方案大致分兩類[2],一類是內(nèi)置獨(dú)立AI運(yùn)算單元,在芯片中集成專門用于執(zhí)行AI算法的處理核心,另一類是通過SDK調(diào)度傳統(tǒng)硬件單元為芯片提供AI計(jì)算能力。兩種技術(shù)路線在功耗效率和研發(fā)成本上存在差異,集成專用AI模塊雖然成本略高,但是便于發(fā)揮平臺優(yōu)勢,減少硬件單元間切換頻率,提升功耗效率,成為眾多芯片廠商的解決方案。
在專用AI模塊出現(xiàn)之前,高通憑借加強(qiáng)的GPU和DSP在Android平臺的AI芯片中占據(jù)有利地位,2017年海思發(fā)布全球首款內(nèi)置獨(dú)立NPU的麒麟970,隨后出現(xiàn)多種用于處理AI算法的移動SoC,手機(jī)AI芯片市場呈現(xiàn)百花齊放的繁榮景象[3]。目前,蘋果A13支持在設(shè)備端訓(xùn)練機(jī)器學(xué)習(xí)模型,麒麟990集成晶體管數(shù)量達(dá)到百億級別,虎賁T7520實(shí)現(xiàn)6 nm制程,手機(jī)AI芯片得到“跨越式”發(fā)展。
AI芯片的功能日益多樣化、復(fù)雜化,各方都對衡量芯片的能力有著迫切的需求[4],芯片廠商依據(jù)不同的衡量標(biāo)準(zhǔn),聲稱其產(chǎn)品在計(jì)算性能、單位能耗等方面處于行業(yè)領(lǐng)先水平;需求方則關(guān)心如何能從廠商給出的信息中判斷出芯片是否能滿足其應(yīng)用場景的計(jì)算需求。因此,迫切需要建立一個與應(yīng)用場景緊密相關(guān)、可跨產(chǎn)品對比的測試評估方案,以降低芯片廠商、需求方的溝通成本,規(guī)范AI芯片市場競爭,同時,我國龐大的消費(fèi)市場對底層芯片需求巨大,本土AI芯片產(chǎn)業(yè)尚處于起步階段,衡量AI芯片能力的評測方案也將為我國芯片產(chǎn)業(yè)發(fā)展指明前進(jìn)的方向。
AI芯片在工業(yè)界的應(yīng)用包括訓(xùn)練和推斷兩部分,訓(xùn)練階段對存儲和算力要求較高,主要在云端實(shí)現(xiàn),推斷階段計(jì)算量較小,手機(jī)端主要執(zhí)行推斷任務(wù)。AI芯片評測工具模擬手機(jī)應(yīng)用場景,輸入測試數(shù)據(jù)到機(jī)器學(xué)習(xí)模型執(zhí)行推斷任務(wù),根據(jù)推斷速度、功耗和推斷結(jié)果等指標(biāo)量化芯片的AI能力。
各家芯片廠商的底層軟硬件AI加速方案存在差異[5],iOS開發(fā)者可以使用Core ML框架調(diào)用機(jī)器學(xué)習(xí)模型,但在Android平臺,開發(fā)者面臨AI能力開放平臺“碎片化”困局,如高通的SNPE平臺、聯(lián)發(fā)科的NeuroPilot平臺、華為的HiAI平臺等,給芯片評測帶來困難。評測工具需要適配各家廠商提供的AI能力開放平臺,以便發(fā)揮出芯片的實(shí)際能力,另外,也可以使用第三方開源的平臺,如谷歌發(fā)布的移動AI架構(gòu)TensorFlow Lite,調(diào)用手機(jī)硬件單元。目前,TensorFlow Lite與各芯片平臺未完全兼容,不能充分發(fā)揮出芯片的AI能力。
國產(chǎn)手機(jī)在全球的市場占有率逐年提高,手機(jī)評測企業(yè)、軟件聯(lián)盟、中國電信也在跟進(jìn)相關(guān)評測工作。
(1)安兔兔AI評測
安兔兔于2019年1月上線芯片評測軟件“安兔兔AI評測”[6],與高通、聯(lián)發(fā)科、海思、NVIDIA、三星開展合作,在統(tǒng)一標(biāo)準(zhǔn)下進(jìn)行AI芯片能力測試,測試項(xiàng)目包括圖像分類和目標(biāo)檢測,測試結(jié)果與推斷速度和準(zhǔn)確率相關(guān),并設(shè)置防作弊機(jī)制,當(dāng)速度和準(zhǔn)確率不匹配時會有罰分措施。
安兔兔官網(wǎng)推出Android SoC AI性能榜,涵蓋市面上的多款手機(jī)芯片,榜單分?jǐn)?shù)為SoC當(dāng)月的跑分平均分。安兔兔AI評測軟件的最新版本是V1.2.3,它的軟件版本更新頻繁,主要是更換合作廠商的AI芯片SDK版本和修復(fù)舊版本的遺留問題,網(wǎng)絡(luò)模型和芯片評測細(xì)則基本沒有變化,因此,能夠?qū)Ω鲝S商的AI能力開放平臺提供較好支持,但該軟件的評測場景較少,無法滿足當(dāng)前AI應(yīng)用的需求,需要拓展指標(biāo)維度。
(2)魯大師AImark
2018年5月魯大師推出“AImark”軟件[7]用于評測手機(jī)的AI性能,支持對ARM、高通、海思、聯(lián)發(fā)科和三星等供應(yīng)商的芯片進(jìn)行測試。相比較安兔兔AI評測軟件,AImark在圖像分類任務(wù)中增加Resnet34模型,測試場景中增加圖像分割任務(wù),并強(qiáng)化了準(zhǔn)確率與最終成績的關(guān)聯(lián)度,若準(zhǔn)確率過低,成績會相對降低,即速度再快,準(zhǔn)確率較低,得分仍會大幅下降。
AImark可以評測安卓和蘋果手機(jī)的AI芯片,Android平臺的版本更新較快,最新版本是V2.11。AImark的評測榜單中包含了蘋果平臺的數(shù)據(jù),另外,它豐富了評測模型和場景,在反作弊方面,重視推斷結(jié)果的準(zhǔn)確性。
(3)AIIA DNN Benchmark
AIIA(中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟)下設(shè)的AI計(jì)算架構(gòu)及芯片推進(jìn)組聯(lián)合多家芯片廠商和互聯(lián)網(wǎng)企業(yè)發(fā)起DNN Benchmark項(xiàng)目[8],該項(xiàng)目測試具有AI能力的加速器在云端和終端的推斷情況,提供選型參考和第三方評測結(jié)果。
DNN Benchmark是一個開源基準(zhǔn)測試平臺,該平臺制定AI芯片評測標(biāo)準(zhǔn),企業(yè)可以運(yùn)行平臺指定的模型、測試數(shù)據(jù)集、預(yù)處理方式和單線程推理任務(wù)參與刷榜,也可以自主增加測試場景,提交原始FP32模型文件、前處理、精度數(shù)據(jù)集和后處理腳本。平臺審核企業(yè)提交的測試數(shù)據(jù),發(fā)布芯片在端側(cè)推斷的性能和精度Top1榜單。工作組于2019年3月和6月分別發(fā)布了兩輪端側(cè)推斷任務(wù)基準(zhǔn)測試報(bào)告,適用于手機(jī)終端的基準(zhǔn)測試含有圖像分類、目標(biāo)檢測、圖像超分、圖像分割,共四類場景的10種機(jī)器學(xué)習(xí)模型,模型區(qū)分整型和浮點(diǎn)型,主要關(guān)注推斷速度和推斷結(jié)果準(zhǔn)確率。
DNN Benchmark的評測場景和模型更加豐富,為企業(yè)貢獻(xiàn)自測數(shù)據(jù)和增加測試場景提供了一套完整的標(biāo)準(zhǔn)。從已發(fā)布的測試報(bào)告來看,參與評測的手機(jī)芯片有海思麒麟980、紫光虎賁T710和高通驍龍855,還需要芯片廠家提供更多的數(shù)據(jù)支持,評測結(jié)果以單一指標(biāo)Top1榜單的形式呈現(xiàn),便于客觀反應(yīng)具有AI能力的加速器現(xiàn)狀,缺少單款芯片的綜合成績,無法直觀比較芯片間的AI能力。
(4)中國電信AIT
中國電信研究院智能終端研究所關(guān)注終端領(lǐng)域前沿科技趨勢,于2018年在GSMA牽頭立項(xiàng)一份AI手機(jī)國際標(biāo)準(zhǔn),作為這項(xiàng)標(biāo)準(zhǔn)的支撐項(xiàng)目,啟動手機(jī)AI芯片評測工作,推出自主研發(fā)評測工具AIT(AI Chip Testing),探索手機(jī)AI芯片能力評估方案。
截至目前,AIT獲得海思、高通、聯(lián)發(fā)科的認(rèn)可和支持,評測工作已經(jīng)開展三輪,測試芯片有海思麒麟810、980、990等,高通驍龍845、855等,聯(lián)發(fā)科P70、P90等,同時自主開發(fā)蘋果平臺的芯片評測軟件,完成A12、A13芯片的測試,評測結(jié)果在“中國電信2019年終端洞察報(bào)告”[9]中發(fā)布。AIT 3.0版本的評測場景包括圖像分類、目標(biāo)檢測、圖像超分和圖像分割,針對網(wǎng)絡(luò)的性能、能效和耐久模式進(jìn)行多模式調(diào)校,重點(diǎn)關(guān)注浮點(diǎn)性能和硬件算力。中國電信AIT覆蓋主流網(wǎng)絡(luò)模型,結(jié)合多模式調(diào)校,能夠客觀反映手機(jī)芯片的綜合AI能力。當(dāng)前,中國電信正在與紫光展銳和三星進(jìn)行溝通,希望在AIT中加入這兩家的芯片測試。
國外芯片測試工作大多是從單個硬件單元或機(jī)器學(xué)習(xí)算子的性能出發(fā),本文主要研究手機(jī)AI芯片整體能力的評估,因此將介紹AI芯片評測軟件AI Benchmark[10]和AI系統(tǒng)評測基準(zhǔn)MLPerf[11]。
(1)AI Benchmark
AI Benchmark是由蘇黎世聯(lián)邦理工學(xué)院開發(fā)的一款A(yù)PP,用來評測不同Android設(shè)備和芯片的AI能力,最新軟件版本V3.0.2的測試項(xiàng)目拓展到11個部分,包含對圖像、視頻、游戲、內(nèi)存的處理,按模型數(shù)據(jù)類型和調(diào)用的硬件單元細(xì)分為21個測試內(nèi)容,測試元組包括機(jī)器學(xué)習(xí)模型、模型精度、底層硬件3個維度。該款軟件的打分系統(tǒng)是對AI加速單元整型和浮點(diǎn)型性能、CPU單線程和多線程性能、單次和吞吐量推斷時間、內(nèi)存和RAM性能、初始化時間、推斷結(jié)果準(zhǔn)確率的綜合考量,測試成績與推斷速度成正比。
AI Benchmark官網(wǎng)發(fā)布的跑分排行榜單,包含高通、海思、聯(lián)發(fā)科、三星、NVIDIA等芯片商的多款產(chǎn)品以及這些產(chǎn)品在不同手機(jī)上的得分情況,受到產(chǎn)業(yè)界和消費(fèi)者的廣泛關(guān)注。AI Benchmark涵蓋的評測場景最為廣泛,打分細(xì)則中更關(guān)注手機(jī)處理浮點(diǎn)型數(shù)據(jù)的能力,這與當(dāng)前手機(jī)AI芯片多在浮點(diǎn)運(yùn)算發(fā)力是相適應(yīng)的。
(2)MLPerf
MLPerf源自哈佛大學(xué)、斯坦福的研究項(xiàng)目,作為一套通用的基準(zhǔn)測試規(guī)范受到業(yè)界的廣泛關(guān)注。Mlperf分為訓(xùn)練和推斷兩個部分,推斷測試適用于從移動設(shè)備到服務(wù)器的各種系統(tǒng),對衡量手機(jī)芯片AI能力也具有指導(dǎo)作用?;鶞?zhǔn)測試包含四種方案,單路、多路、服務(wù)器和離線方案,手機(jī)專注于一次從一個流中讀取數(shù)據(jù),強(qiáng)調(diào)低延遲,適用于單路推斷基準(zhǔn)測試,可使用基準(zhǔn)中的圖像分類和目標(biāo)檢測模型評測手機(jī)芯片。MLPerf論壇分為封閉組和開放組,封閉組對評測的模型參數(shù)和數(shù)據(jù)集有嚴(yán)格規(guī)定,開放組允許更多創(chuàng)新,參與者可以提交自定義測試用例。
MLPerf論壇于2019年6月公布推斷結(jié)果V0.5,包括了麒麟960、麒麟970和高通855在傳統(tǒng)加速單元上的測試數(shù)據(jù),沒有在AI加速單元的測試數(shù)據(jù),另外,工作組的數(shù)據(jù)貢獻(xiàn)者大多是云側(cè)廠商,終端芯片廠商不多,測試結(jié)果發(fā)布周期較長,手機(jī)芯片商用周期縮短,基準(zhǔn)測試數(shù)據(jù)滯后。
表1 手機(jī)AI芯片能力評測工具
基于上文各評測工具的基本情況,通過表1開展對手機(jī)AI芯片評測工具的分析(數(shù)據(jù)統(tǒng)計(jì)截至2020年5月24日)。
評測工具組織方多為業(yè)界有影響力的企業(yè)和評測機(jī)構(gòu),其憑借自身的號召力和技術(shù)水平,與芯片廠商協(xié)作發(fā)布相關(guān)芯片評測結(jié)果。從市場來看,是一種雙贏的合作。不過由于芯片廠商與部分機(jī)構(gòu)對接不完全,相應(yīng)的測試結(jié)果只是在CPU或GPU的跑分?jǐn)?shù)據(jù),尚不能充分體現(xiàn)各家獨(dú)有的AI硬件單元的真實(shí)水平。
當(dāng)前的評測工具多以推斷速度和結(jié)果準(zhǔn)確率作為基準(zhǔn)評測指標(biāo),并給出相應(yīng)的跑分榜單。也有如中國電信AIT,針對芯片的上市時間和品牌,給出對應(yīng)的橫向和縱向比較,不僅讓消費(fèi)者更好的感知芯片性能的提升,同時對市場不同品牌的芯片性能競爭起到良性的促進(jìn)作用。
手機(jī)AI芯片評測工具從評測場景出發(fā),選擇相應(yīng)的模型執(zhí)行推斷任務(wù),根據(jù)推斷過程和結(jié)果的指標(biāo)數(shù)據(jù)評估芯片的能力,因此評測思路與應(yīng)用相關(guān),能夠反映手機(jī)的實(shí)際使用情況。各芯片平臺可支持的模型種類和數(shù)量越來越多,不再局限于圖像分類、目標(biāo)檢測,評測工具的測試場景也愈加豐富,逐漸向圖像分割、超分等新領(lǐng)域拓展。從表1可以看到中國電信AIT和AI Benchmark在測試場景、模型數(shù)量和測試的手機(jī)芯片數(shù)量上的綜合表現(xiàn)最佳。
對AI芯片能力的測試,關(guān)鍵在于選擇評測場景和評測指標(biāo)。本章從場景和指標(biāo)出發(fā),分析當(dāng)前AI芯片評測工具的發(fā)展情況,并給出評測建議。
手機(jī)上的應(yīng)用程序越來越多,諸如拍照、人臉識別、語音交互等是必然要支持的功能,這些應(yīng)用程序的使用效果會影響用戶體驗(yàn)。手機(jī)AI芯片評測工具模擬手機(jī)的使用場景進(jìn)行推斷,具體分為以下幾類。
①圖像處理:評測場景包括圖像分類、圖像去模糊、圖像超分、背景虛化、圖像分割、圖像增強(qiáng)和目標(biāo)檢測,其中分類、檢測、分割和超分是測試的重點(diǎn),這與卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程是相符合的。值得注意的是,通常會在一個場景中測試多個主流模型,如用于圖像分類的重量級模型VGG16和更適合移動設(shè)備的輕量級模型Resnet50。
②人臉識別:輸入要識別人物的面部照片,模型比對已知人臉數(shù)據(jù)庫,輸出與給定照片中最相似的人臉信息。
③玩游戲:AI Benchmark通過集成DeepMind訓(xùn)練的LSTM RNN模型玩Atari游戲,目前,該模型只用于測試CPU性能。
④內(nèi)存測試:不斷增加輸入圖像分辨率,直到內(nèi)存溢出,芯片評測得分與內(nèi)存溢出時的圖像分辨率成正比。
手機(jī)的使用場景、芯片的硬件加速方案各異,單一的評測指標(biāo)無法全面反映芯片的AI能力,因此手機(jī)AI芯片評測工具從多個維度給出一個整體評分,評測維度包含以下幾個方面。
①推斷速度:集成AI芯片很重要的一點(diǎn)就是為了提升手機(jī)的運(yùn)算速度,給用戶帶來更快的使用體驗(yàn),因此,芯片評測的首要關(guān)注點(diǎn)也是運(yùn)算時間,有兩種統(tǒng)計(jì)方法,一種只取模型的推斷時間作為運(yùn)算時間,又可分為單次推斷時間和吞吐量推斷時間,另一種是將運(yùn)算時間細(xì)化為模型加載時間和模型推斷時間,如中國電信AIT和AI Benchmark。
②結(jié)果校驗(yàn):如果只將推斷速度作為評估依據(jù),不對推斷結(jié)果進(jìn)行校驗(yàn),芯片廠商可能會針對評測模型做特定優(yōu)化,以犧牲推斷準(zhǔn)確率為代價換取芯片速度的提升,這種做法顯然違背了評測的初衷,不能真實(shí)反映芯片的AI能力。不同場景的推斷結(jié)果準(zhǔn)確率評估指標(biāo)也不相同,這與模型輸出結(jié)果的展現(xiàn)形式有關(guān),如圖像分類以Top1和Top5表示、而圖像分割則是計(jì)算mIoU。
③模型精度:模型精度影響評測結(jié)果數(shù)據(jù),浮點(diǎn)型性能低,推斷結(jié)果準(zhǔn)確率高,整型性能高,推斷結(jié)果準(zhǔn)確率低,各廠家的AI芯片解決方案對不同精度機(jī)器學(xué)習(xí)模型的支持情況也存在差異,高通的SNPE平臺目前只支持整型運(yùn)算,華為的HiAI平臺對整型和浮點(diǎn)型運(yùn)算都能提供較好支持,因此應(yīng)該注明用于評測的模型精度。AI Benchmark分別評估了Float32、Float16和Int8的性能,在計(jì)算綜合得分時對3種精度的性能賦予不同的權(quán)重。
④硬件單元:手機(jī)芯片加速單元種類繁多,傳統(tǒng)的有CPU和GPU,提升AI算力的有NPU、APU、DSP等,芯片廠家推出的AI能力開放平臺提供了調(diào)用不同硬件單元的函數(shù),因此可以對比芯片在不同硬件單元的性能。
經(jīng)過兩年多時間的發(fā)展,各方積累了一些測試數(shù)據(jù)和評測經(jīng)驗(yàn),但芯片評測仍處于探索階段,市場上對于如何才能真實(shí)反映AI芯片能力尚未達(dá)成一致意見,現(xiàn)有的評測工具也還有需要完善的地方,對此本文提出以下優(yōu)化建議。
①規(guī)范測試場景:當(dāng)前用于測試的場景還不統(tǒng)一,圖像分類、圖像檢測、圖像分割和圖像超分被使用的頻率最高,建議將這四種場景作為基準(zhǔn)評測場景,評測工具需對這四類場景進(jìn)行測試,后續(xù)的場景可以在此基礎(chǔ)上增加。
②拓展測試場景:圖像、視頻和游戲,本質(zhì)上都是對圖像的處理,因此,當(dāng)前的芯片評測工具事實(shí)上也都是基于圖像的能力測試。語音通話、語音轉(zhuǎn)文字、文字識別等是手機(jī)的基礎(chǔ)功能,現(xiàn)在與語音、文字處理相關(guān)的機(jī)器學(xué)習(xí)模型發(fā)展比較成熟,因此建議增加針對語音和文字的測試任務(wù),拓展RNN模型的測試用例。
③規(guī)范測試模型:在圖像分類中,使用了不同重量級的模型進(jìn)行測試,模型大小可能會影響測試結(jié)果,因此建議每一種測試場景選擇兩個存在明顯區(qū)別的主流模型進(jìn)行評測,如不同重量級的模型等,使得評測結(jié)果更加有說服力。
④完善打分體系:芯片廠商對各款評測工具的支持力度不同,評測工具的打分權(quán)重各有偏重,這些都會影響芯片的得分和排名,因此建議在跑分榜單和評測報(bào)告中說明對芯片廠商的AI能力開放平臺的支持情況,并均衡賦分規(guī)則,避免有所側(cè)重,確保公平、合理地反應(yīng)芯片的真實(shí)能力。
AI芯片已成為手機(jī)行業(yè)的關(guān)注點(diǎn)和賣點(diǎn),評估芯片能力的方案仍在探索之中,評測企業(yè)、研究機(jī)構(gòu)等推出了幾款手機(jī)AI芯片評測工具,使用這些工具可以定量評估手機(jī)芯片的AI能力,并與其他款芯片進(jìn)行對比。本文研究了幾款國內(nèi)外的芯片評測工具,分析評測場景和評測指標(biāo),給出評測建議。
當(dāng)前手機(jī)AI芯片能力的評測方案還不統(tǒng)一,評測工具的打分體系也存在較大差異,規(guī)范測評方案,完善打分系統(tǒng),還需要社會各界的共同努力。2020年上半年,5G手機(jī)相繼發(fā)布,新一輪換機(jī)潮來臨,國際半導(dǎo)體市場競爭激烈,對于相關(guān)領(lǐng)域從業(yè)者而言,評測手機(jī)AI芯片能力將有助于增強(qiáng)“新基建”帶動性,釋放經(jīng)濟(jì)發(fā)展新動能。