文/孫凌云,周志斌,張于揚(yáng),李卓書(阿里巴巴-浙江大學(xué)前沿技術(shù)聯(lián)合研究中心;計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室)
隨著智能計(jì)算芯片與系統(tǒng)、新型多元智能傳感器件與集成平臺(tái)等新一代人工智能 (Artificial intelligence,AI)基礎(chǔ)支撐平臺(tái)的迅速建設(shè),以AI芯片、智能計(jì)算前移的新型傳感器件等為代表的AI硬件將迅速發(fā)展。而隨著軟件算法的成熟和學(xué)習(xí)數(shù)據(jù)日益豐富,新一代的智能新產(chǎn)品設(shè)計(jì)開發(fā)的基礎(chǔ)技術(shù)條件逐漸成熟。以AI硬件為基礎(chǔ),在“端+云+芯片”的協(xié)同支持下,產(chǎn)品的感知、理解、推理和決策能力將實(shí)現(xiàn)突破。基于AI硬件的智能產(chǎn)品(以下簡(jiǎn)稱“AI硬件智能產(chǎn)品”)面臨全新的發(fā)展機(jī)遇,而人工智能作為一種前所未有的設(shè)計(jì)要素,也為智能產(chǎn)品設(shè)計(jì)及其平臺(tái)帶來了挑戰(zhàn)[1,2]。以AI芯片、新型傳感器件為代表的AI硬件發(fā)展迅速,催生了一大批基于AI硬件的新智能產(chǎn)品。
人工智能解決方案正從“軟件”向“軟件+芯片”轉(zhuǎn)變,國(guó)內(nèi)外眾多科技巨頭和初創(chuàng)公司紛紛進(jìn)入AI芯片領(lǐng) 域, 如Nvidia、 Google、 Intel、AMD、IBM等國(guó)外知名企業(yè),以及我國(guó)寒武紀(jì)科技、中星微電子、華為等公司。與此同時(shí),面向智能應(yīng)用的生物、運(yùn)動(dòng)、醫(yī)學(xué)、健康、環(huán)境類智能傳感器,以及面向智能制造、工業(yè)互聯(lián)網(wǎng)應(yīng)用的微機(jī)電器件等發(fā)展迅速。人工智能發(fā)展重心呈現(xiàn)向硬件底層快速滲透的趨勢(shì)。
AI芯片的發(fā)展直接推動(dòng)智能計(jì)算前移的新型傳感器件的研發(fā)。當(dāng)前AI芯片產(chǎn)業(yè)生態(tài)及競(jìng)爭(zhēng)格局已經(jīng)初步形成。在研發(fā)和模型訓(xùn)練階段,這些AI芯片以及相應(yīng)的AI硬件已經(jīng)被廣泛用于各大人工智能企業(yè)及實(shí)驗(yàn)室。在應(yīng)用階段,AI芯片及相應(yīng)AI硬件的應(yīng)用場(chǎng)景可分為云端推斷 (inference on cloud) 及 終 端 推 斷 (inference on device)兩類。
(1)云端推斷,即在服務(wù)器端進(jìn)行人工智能計(jì)算的云端智能。其主要模式是:產(chǎn)品終端的各種傳感器采集各類數(shù)據(jù),經(jīng)由網(wǎng)絡(luò)將數(shù)據(jù)傳輸至云端數(shù)據(jù)中心,在云端數(shù)據(jù)中心進(jìn)行人工智能的感知、理解、推理和決策等計(jì)算,通過網(wǎng)絡(luò)將結(jié)果反饋至產(chǎn)品終端;用戶從終端產(chǎn)品獲得智能服務(wù)的輸出。這一模式中的AI芯片以高計(jì)算能力、高能耗為主要特征。在這一領(lǐng)域,具有眾多計(jì)算單元和超長(zhǎng)流水線、具備強(qiáng)大并行計(jì)算能力與浮點(diǎn)計(jì)算能力的GPU,可以大幅度加快深度學(xué)習(xí)模型的訓(xùn)練速度,是深度學(xué)習(xí)模型訓(xùn)練領(lǐng)域的主流選擇。雖然云端推斷的單次推斷計(jì)算量遠(yuǎn)遠(yuǎn)無法和訓(xùn)練相比,但隨著人工智能應(yīng)用的普及,云端推斷的計(jì)算量總和將為服務(wù)器帶來巨大壓力。由于海量的推斷請(qǐng)求仍然是計(jì)算密集型任務(wù),阿里云、Amazon、微軟Azure等公司正探索云服務(wù)器+FPGA芯片模式替代傳統(tǒng)CPU以支撐推斷環(huán)節(jié)在云端的技術(shù)密集型任務(wù)。
(2)終端推斷,即用于以消費(fèi)級(jí)電子產(chǎn)品為代表的設(shè)備端智能。隨著低功耗、高靈活性的AI芯片及相應(yīng)解決方案的發(fā)展,本地終端計(jì)算能力不斷提高,以往需要云端計(jì)算的人工智能應(yīng)用可以在本地終端運(yùn)行,減少或者不依賴云端推斷。以智能安防攝像頭為例,其視頻分析、人臉識(shí)別等功能必須在終端完成,以減輕網(wǎng)絡(luò)傳輸壓力;機(jī)器人、無人機(jī)、自動(dòng)駕駛等設(shè)備的推斷也必須在本地完成,以避免網(wǎng)絡(luò)延時(shí)引發(fā)災(zāi)難性后果;AR、VR等設(shè)備及應(yīng)用,也對(duì)時(shí)間延遲非常敏感。這類設(shè)備端智能需要高度定制化、低功耗的AI芯片產(chǎn)品支持。在這一領(lǐng)域,CPU、GPU、FPGA(可編程門陣列,F(xiàn)ield Programmable Gate Array)、 ASIC(專 用 集 成 電 路,Application Specific Integrated Circuit)等解決方案正發(fā)展迅速。
AI硬件支持的智能產(chǎn)品發(fā)展為智能產(chǎn)品設(shè)計(jì),特別是電子信息產(chǎn)品設(shè)計(jì)帶來了全新的發(fā)展機(jī)會(huì)[3]。通過云端智能模式、終端智能模式,或者二者融合的模式,可以有效提升產(chǎn)品的感知、思考和反饋能力。如在手機(jī)中嵌入深度神經(jīng)網(wǎng)絡(luò)加速芯片,二者結(jié)合,以支持基于深度學(xué)習(xí)的攝影、圖像處理、語音識(shí)別、增強(qiáng)現(xiàn)實(shí)等應(yīng)用,從而為用戶提供更加豐富的體驗(yàn)。高級(jí)輔助駕駛系統(tǒng)(ADAS),在終端處理由激光雷達(dá)、毫米波雷達(dá)、攝像頭等傳感器采集海量實(shí)時(shí)數(shù)據(jù),并作出決策。虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)設(shè)備在終端AI芯片的支持下處理多個(gè)攝像頭、深度傳感器以及運(yùn)動(dòng)傳感器數(shù)據(jù),并支持計(jì)算機(jī)視覺矩陣運(yùn)算的加速功能。
與此同時(shí),大量前所未有的智能產(chǎn)品正迅速問世。作為信息產(chǎn)品設(shè)計(jì)研發(fā)和產(chǎn)業(yè)發(fā)展的風(fēng)向標(biāo),全球消費(fèi)電子產(chǎn)品展 (The International Consumer Electronics Show,CES)已經(jīng)出現(xiàn)大量全新的AI硬件驅(qū)動(dòng)的智能產(chǎn)品。如機(jī)器人保姆Kuri,包括揚(yáng)聲器、麥克風(fēng)、攝像頭和多個(gè)傳感器,可以自動(dòng)采集家庭的數(shù)據(jù)、學(xué)習(xí)房間的布局、識(shí)別樓梯位置和各個(gè)房間的主人,協(xié)助照顧兒童和寵物。歐萊雅Hair Coach智能梳可以通過聲音、壓力、陀螺儀等傳感器分析發(fā)質(zhì)、發(fā)型等數(shù)據(jù),進(jìn)而檢測(cè)頭發(fā)質(zhì)量,推薦護(hù)發(fā)產(chǎn)品。FridgeCam是用于冰箱的無線攝像機(jī),可以跟蹤食品的保質(zhì)期,自動(dòng)補(bǔ)充食品,并根據(jù)冰箱中的食材推薦食譜;用戶還可以通過移動(dòng)應(yīng)用從任何地方看到冰箱里的存儲(chǔ)情況。
認(rèn)知計(jì)算是目前AI硬件驅(qū)動(dòng)的產(chǎn)品智能化的關(guān)鍵,也是當(dāng)前智能硬件的競(jìng)爭(zhēng)熱點(diǎn)。IBM Watson、蘋果Siri、谷歌Assistant、三星Viv、亞馬遜Alexa等都致力于開發(fā)支持智能產(chǎn)品的認(rèn)知計(jì)算平臺(tái)[4],其中典型代表為亞馬遜的人工智能語音助手Alexa[5]。截至2017年1月,已經(jīng)有6 000家企業(yè)接入Alexa平臺(tái),搭載Alexa的硬件品類已經(jīng)超過7 000種。最新數(shù)據(jù)顯示,其技能總量已經(jīng)達(dá)到1.6萬項(xiàng),涵蓋查詢天氣、約車、訂房、導(dǎo)航、查詢菜譜、采購(gòu)?fù)赓u、控制家用電器等,支持的產(chǎn)品包括電器、手機(jī)、機(jī)器人、汽車和娛樂系統(tǒng)等。
通信技術(shù)是智能產(chǎn)品實(shí)現(xiàn)網(wǎng)絡(luò)化、協(xié)同化智能模式的基礎(chǔ)。如5G的發(fā)展將支持更高效的移動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)并降低數(shù)據(jù)傳輸成本,從而使得增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)等數(shù)據(jù)密集型產(chǎn)品和交互模式的大范圍推廣應(yīng)用成為可能;同時(shí),5G對(duì)低時(shí)延高可靠、低功耗大連接等應(yīng)用場(chǎng)景的解決方案,也是AI硬件智能產(chǎn)品的支撐技術(shù)。[6]此外,在某些具體的應(yīng)用領(lǐng)域,也有相應(yīng)的解決方案大量涌現(xiàn)。如在穿戴式計(jì)算領(lǐng)域,作為傳感網(wǎng)絡(luò)技術(shù)和生物醫(yī)學(xué)工程、新材料相結(jié)合的產(chǎn)物,體域網(wǎng)BAN(Body Area Network)正廣受關(guān)注[6,7]。體域網(wǎng)利用新材料的特性,結(jié)合人體工程學(xué)的特征,構(gòu)建一個(gè)局部的網(wǎng)絡(luò)世界,具備感知、連接、計(jì)算和與人體互動(dòng)的能力;可以與智能手機(jī)或智能終端連接,進(jìn)行醫(yī)療診斷中的即時(shí)檢測(cè)等任務(wù)。
AI硬件智能產(chǎn)品設(shè)計(jì)面臨全新的交互設(shè)計(jì)挑戰(zhàn)。當(dāng)用戶面對(duì)大量的智能設(shè)備時(shí),很難通過手動(dòng)方式有效管理和使用這些設(shè)備;智能產(chǎn)品日益增長(zhǎng)的復(fù)雜性和可用性難題,正在制約著智能家居的發(fā)展。隨著語音搜索準(zhǔn)確率的大幅度提升,語音驅(qū)動(dòng)的用戶界面正成為新一代人工智能產(chǎn)品的重要交互模式[8]。根據(jù)Gartner預(yù)測(cè),到2018年,30%的人機(jī)交互將是人與智能設(shè)備的對(duì)話[4]。 目前亞馬遜(Echo)、 蘋 果 (HomePod)、 谷 歌(Home)、阿里巴巴(天貓精靈)、騰訊(耳朵)等公司紛紛推出智能音箱產(chǎn)品,這些產(chǎn)品被視為家庭智能應(yīng)用場(chǎng)景的中樞,也是切入以家庭為主要應(yīng)用場(chǎng)景的智能家居領(lǐng)域的通道[8]。但是,對(duì)于語音產(chǎn)品的設(shè)計(jì)方法、用戶體驗(yàn)研究等仍然處于起步階段。
人工智能已經(jīng)成為一種新的設(shè)計(jì)要素,這對(duì)新產(chǎn)品設(shè)計(jì),特別是智能產(chǎn)品的設(shè)計(jì)過程提出了挑戰(zhàn)。正如視覺設(shè)計(jì)師需要理解紙張尺寸、涂層類型、物理屬性、印刷工藝等特性;產(chǎn)品設(shè)計(jì)師需要理解產(chǎn)品的材料(如塑料、木材、金屬)、加工方法和表面工藝,智能產(chǎn)品的設(shè)計(jì)師則需要對(duì)人工智能這一新的設(shè)計(jì)要素,對(duì)AI的技術(shù)潛力和邊界、條件和基本原則有明確的理解,并建立相應(yīng)的設(shè)計(jì)方法和工具體系。
圍繞人工智能技術(shù)的概念設(shè)計(jì)方法與工具正成為AI硬件智能產(chǎn)品設(shè)計(jì)的研究重點(diǎn)。例如,Denis Parra從以人為本的角度提出AI硬件智能產(chǎn)品的體驗(yàn)設(shè)計(jì)原則——HUMAN[9]。該理論強(qiáng)調(diào)了整體性 (Holistic),即AI硬件智能產(chǎn)品應(yīng)該提供跨越時(shí)間和空間的、整體的交互;易用性(Useful),即AI硬件智能產(chǎn)品應(yīng)該提供有用、易用和好用的交互;可測(cè)量(Measurable),即衡量AI硬件智能產(chǎn)品的體驗(yàn)時(shí),應(yīng)該使用與業(yè)務(wù)目標(biāo)和消費(fèi)者目標(biāo)一致的考核指標(biāo);真實(shí)性(Authentic),即AI硬件智能產(chǎn)品的設(shè)計(jì)應(yīng)該基于真實(shí)的使命,并直接服務(wù)于客戶的需求;靈活性(Nimble),即AI硬件智能產(chǎn)品的體驗(yàn)應(yīng)該是靈活的,允許進(jìn)行緊急調(diào)整并適應(yīng)新的客戶期望。
谷歌的PAIR(People+AI Research)團(tuán)隊(duì)發(fā)布了交互設(shè)計(jì)手冊(cè),幫助體驗(yàn)設(shè)計(jì)師和產(chǎn)品經(jīng)理在產(chǎn)品團(tuán)隊(duì)中構(gòu)建以人為本的AI交互設(shè)計(jì)[10]。該手冊(cè)提供了詳盡的自查表,關(guān)注用戶需求、數(shù)據(jù)收集與評(píng)估、心理模型、可解釋性與信任、反饋與控制等議題;包含設(shè)計(jì)方法的推薦,如將傳統(tǒng)的IDEO設(shè)計(jì)方法用于人工智能產(chǎn)品設(shè)計(jì),或采用自查表細(xì)則對(duì)設(shè)計(jì)方案進(jìn)行評(píng)估。
微軟研究院提出了普適的人工智能交互指南,并針對(duì)每條指南羅列了案例以及適用情況[11]。該指南提出了4個(gè)設(shè)計(jì)階段,包括交互初始階段、交互過程中、系統(tǒng)出錯(cuò)時(shí)、隨時(shí)間推移,對(duì)各個(gè)階段AI系統(tǒng)應(yīng)該如何表現(xiàn)給出指導(dǎo),提出了18項(xiàng)具體原則。研究者對(duì)最初收集到的168條建議進(jìn)行總結(jié)凝練,進(jìn)行多輪評(píng)估,并招募49名設(shè)計(jì)師參與該指南的用戶研究,最終驗(yàn)證了其中18條指南在設(shè)計(jì)實(shí)踐中的價(jià)值。
然而,設(shè)計(jì)師在進(jìn)行AI硬件智能產(chǎn)品的概念設(shè)計(jì)時(shí),仍依賴服務(wù)設(shè)計(jì)等傳統(tǒng)設(shè)計(jì)思維及其相關(guān)工具(如用戶畫像、用戶旅程圖等)。例如,服務(wù)設(shè)計(jì)思維鼓勵(lì)設(shè)計(jì)師考慮所有的利益相關(guān)者,對(duì)設(shè)計(jì)相關(guān)要素進(jìn)行系統(tǒng)性考量[12];商業(yè)畫布則幫助設(shè)計(jì)師考慮成本架構(gòu)、收益流、引客渠道等商業(yè)要素;移情圖可用于理解用戶需求;頭腦風(fēng)暴可用于快速產(chǎn)出大量解決方案等。但是,這類傳統(tǒng)設(shè)計(jì)方法并沒有將AI對(duì)數(shù)據(jù)的依賴以及訓(xùn)練過程中的迭代納入考量。由于AI具有迭代頻繁、不確定性高等特性,各設(shè)計(jì)要素與商業(yè)要素的特征以及利益相關(guān)者的訴求可能會(huì)不斷變化。設(shè)計(jì)師難以對(duì)處在動(dòng)態(tài)變化中的用戶、AI技術(shù)與應(yīng)用場(chǎng)景進(jìn)行統(tǒng)籌規(guī)劃和管理[13]。
當(dāng)前,相關(guān)研究開始嘗試將AI的相關(guān)特性融入到傳統(tǒng)的設(shè)計(jì)過程中,幫助設(shè)計(jì)師了解復(fù)雜多變的AI技術(shù),完成從技術(shù)到概念設(shè)計(jì)方案的轉(zhuǎn)化。與傳統(tǒng)產(chǎn)品的設(shè)計(jì)工具類似,AI硬件智能產(chǎn)品的概念設(shè)計(jì)工具也通常采用可視化的方式,幫助設(shè)計(jì)師梳理收集到的大量信息,從而進(jìn)行設(shè)計(jì)洞察、挖掘設(shè)計(jì)機(jī)會(huì)。智能產(chǎn)品的概念設(shè)計(jì)畫布(見圖1)就是一個(gè)以可視化方式幫助設(shè)計(jì)師從AI全生命周期視角分析相關(guān)要素的概念設(shè)計(jì)工具[13,14]。這一工具以機(jī)器學(xué)習(xí)這一典型的AI技術(shù)為例,將用戶、技術(shù)、場(chǎng)景3方面涉及的問題映射到機(jī)器學(xué)習(xí)的6個(gè)步驟中,并設(shè)置了6種挑戰(zhàn)卡片引導(dǎo)設(shè)計(jì)師思考智能產(chǎn)品的體驗(yàn)問題及其解決方案。智能產(chǎn)品的概念設(shè)計(jì)畫布以可視化的方式,幫助設(shè)計(jì)師記錄并分析與機(jī)器學(xué)習(xí)生命周期各個(gè)環(huán)節(jié)相關(guān)的信息,從全生命周期視角分析與權(quán)衡相關(guān)要素,激發(fā)設(shè)計(jì)洞見、規(guī)劃設(shè)計(jì)方案。該工具包括體驗(yàn)挑戰(zhàn)卡片、用戶畫像、畫布、提問板4部分內(nèi)容。
圖1 人工智能概念設(shè)計(jì)畫布組成部分
體驗(yàn)挑戰(zhàn)卡片將AI硬件產(chǎn)品化過程中的用戶體驗(yàn)挑戰(zhàn)具像化。其中包括:不可預(yù)測(cè)性挑戰(zhàn)、透明度挑戰(zhàn)、擬人化挑戰(zhàn)、交互性挑戰(zhàn)、共同控制挑戰(zhàn)等。實(shí)際使用中,可以根據(jù)智能產(chǎn)品的設(shè)計(jì)需要增刪卡片的數(shù)量。卡片分為多種類型,每種類型對(duì)應(yīng)一種用戶體驗(yàn)挑戰(zhàn)。卡片中可填寫應(yīng)對(duì)相關(guān)挑戰(zhàn)所需采取的策略。體驗(yàn)挑戰(zhàn)卡片可以幫助設(shè)定最初的設(shè)計(jì)目標(biāo)、描繪最終的解決方案。
AI硬件背景下的用戶畫像包括用戶的年齡、愛好等基本信息,以及用戶對(duì)AI硬件智能產(chǎn)品的偏好與痛點(diǎn),包括對(duì)產(chǎn)品擬人化程度、不透明度等特性的需求。用戶畫像可以幫助設(shè)計(jì)團(tuán)隊(duì)了解用戶的真正需求以及對(duì)產(chǎn)品的接受程度,進(jìn)而幫助設(shè)計(jì)團(tuán)隊(duì)在尊重用戶的前提下,鼓勵(lì)用戶參與到產(chǎn)品的持續(xù)訓(xùn)練與迭代階段中來。用戶畫像并非簡(jiǎn)單地描述單一的需求或者某一刻板印象,而是通過生動(dòng)、細(xì)致的需求描述,協(xié)助設(shè)計(jì)團(tuán)隊(duì)共情,以提升用戶體驗(yàn)。
畫布主體由6個(gè)扇形部分組成,每個(gè)部分都代表了一個(gè)典型的機(jī)器學(xué)習(xí)步驟,分別是數(shù)據(jù)收集、模型建立、模型訓(xùn)練、預(yù)測(cè)、執(zhí)行操作和模型更新。每一個(gè)扇形區(qū)域都有3個(gè)不同顏色的區(qū)域,其中淡黃色區(qū)域用于放置體驗(yàn)挑戰(zhàn)卡片,深黃色區(qū)域用于填寫場(chǎng)景相關(guān)的信息,而藍(lán)色區(qū)域則用于填寫關(guān)于機(jī)器學(xué)習(xí)技術(shù)的信息。借助這種可視化方式,設(shè)計(jì)團(tuán)隊(duì)可以組織相關(guān)創(chuàng)意與設(shè)計(jì)洞見,開展討論,評(píng)估備選方案,提出概念設(shè)計(jì)方案。
提問板中的問題按照機(jī)器學(xué)習(xí)生命周期的6個(gè)階段進(jìn)行分類(見表1)。在每個(gè)階段,提問板通過與情景和系統(tǒng)相關(guān)的問題提供相應(yīng)的注意事項(xiàng)。提問板中的詳細(xì)信息如表1所示,用戶可根據(jù)設(shè)計(jì)任務(wù)需求增刪和修改問題。提問板可以幫助設(shè)計(jì)團(tuán)隊(duì)迅速了解需要考慮的核心問題,建立對(duì)AI技術(shù)與場(chǎng)景的理解。
表1 提問板內(nèi)容
搭建原型并進(jìn)行測(cè)試是驗(yàn)證設(shè)計(jì)方案的重要一環(huán),因此AI硬件智能產(chǎn)品的原型設(shè)計(jì)工具也是設(shè)計(jì)師在開展設(shè)計(jì)活動(dòng)時(shí)的必要工具。原型設(shè)計(jì)工具主要可以分為:人工智能服務(wù)平臺(tái)、開源編程軟件庫、非編程工具、硬件工具套件。
2.2.1 人工智能服務(wù)平臺(tái)人工智能服務(wù)平臺(tái)是近年新興的概念,與SaaS(軟件即服務(wù))、PaaS(平臺(tái)即服務(wù))等對(duì)應(yīng)。人工智能服務(wù)平臺(tái)可以被理解為:服務(wù)提供商將AI作為云端計(jì)算服務(wù)的一部分提供給客戶,旨在為缺乏技術(shù)能力的客戶(主要是企業(yè)或組織機(jī)構(gòu))提供更便捷的方式來搭建AI系統(tǒng)[15]。例如,某企業(yè)想要定制自己的AI系統(tǒng)時(shí),無需在公司內(nèi)部組建一支技術(shù)團(tuán)隊(duì),只需要購(gòu)買相應(yīng)的AI服務(wù)。實(shí)際的運(yùn)算過程在服務(wù)提供者的云端服務(wù)器上進(jìn)行,客戶不需要花費(fèi)高昂的成本在本地部署運(yùn)算設(shè)備,也可以節(jié)省數(shù)據(jù)預(yù)處理、模型訓(xùn)練等步驟耗費(fèi)的人力成本。
目前人工智能服務(wù)平臺(tái)的主流提供者包括百度AI開放平臺(tái)、IBM的Watson和AutoAI,以及谷歌的Cloud ML等。百度AI開放平臺(tái)提供了圖像識(shí)別API(見圖2)。支持通用物體和場(chǎng)景識(shí)別、主體檢測(cè)、菜品識(shí)別、商標(biāo)識(shí)別、動(dòng)物識(shí)別、植物識(shí)別、花卉識(shí)別、果蔬食材識(shí)別、車型識(shí)別等功能。以花卉識(shí)別為例,根據(jù)拍攝照片,識(shí)別圖片中植物的名稱,配合其它識(shí)圖能力對(duì)識(shí)別的結(jié)果進(jìn)一步細(xì)化等。截至2019年6月,已經(jīng)支持識(shí)別20 000多種通用植物和近8 000種花卉,接口返回植物名稱;支持獲取識(shí)別結(jié)果的百科信息,接口返回百科詞條URL、圖片和描述,支持自定義返回詞條數(shù)。
圖2 百度大腦AI開放平臺(tái)中的植物識(shí)別API
人工智能服務(wù)平臺(tái)有以下優(yōu)點(diǎn):(1)自動(dòng)構(gòu)建AI系統(tǒng),降低操作難度;(2)借助云端服務(wù)器的強(qiáng)大算力進(jìn)行運(yùn)算,降低硬件成本。然而,在某些場(chǎng)景下(數(shù)據(jù)涉及隱私、網(wǎng)絡(luò)狀況不佳等),數(shù)據(jù)不宜在云端進(jìn)行處理。其次,人工智能服務(wù)平臺(tái)往往需要設(shè)計(jì)師自行完成硬件部署和網(wǎng)絡(luò)配置等操作,仍然要求一定的技術(shù)基礎(chǔ)。
2.2.2 開源編程軟件庫AI框架與軟件庫/工具包通常是開源的。這類開源工具包提供的功能比較豐富,幾乎可以幫助使用者完成AI技術(shù)的各個(gè)環(huán)節(jié),能夠滿足不同的原型設(shè)計(jì)需求,用戶可以使用該工具自由定制AI原型。但是這類工具需要使用者具備較強(qiáng)的編程能力,且缺乏配套硬件的支持,對(duì)于設(shè)計(jì)師而言使用成本較高。開源編程軟件庫以谷歌的TensorFlow為代表,它是一種可在多種平臺(tái)和設(shè)備(包括多核CPU、通用GPU和定制設(shè)計(jì)的TPU)中運(yùn)行的AI系統(tǒng)。TensorFlow的開發(fā)者社區(qū)提供了各種相關(guān)工具、庫和使用教程,TensorFlow還提供了豐富的API接口,使用者可以調(diào)用各種API在桌面設(shè)備、移動(dòng)設(shè)備,甚至云端實(shí)現(xiàn)AI的不同功能[16]。
2.2.3 非編程工具非編程工具常采用圖形化的操作界面,對(duì)缺乏編程基礎(chǔ)的用戶比較友好,便于制作實(shí)體原型。然而,非編程工具的圖形化通常不會(huì)展示AI的內(nèi)部機(jī)制,不利于設(shè)計(jì)師了解AI的技術(shù)特性。Delft AI Toolkit是一款針對(duì)無編程基礎(chǔ)人員的AI原型設(shè)計(jì)工具(見圖3)[17]。用戶可以通過圖形化的界面構(gòu)建原型,并進(jìn)行3D仿真模擬。圖形化界面上部是編輯區(qū)域,所用形式類似參數(shù)化設(shè)計(jì)的編輯環(huán)境,以節(jié)點(diǎn)來表示行為樹和數(shù)據(jù)流模型。用戶可以通過拖拽調(diào)用常用的AI功能,包括語音轉(zhuǎn)文字、物體識(shí)別等。此外,該工具支持對(duì)AI原型的遠(yuǎn)程實(shí)時(shí)控制,例如通過手機(jī)或者平板電腦,向?qū)嶓w原型發(fā)送指令,從而在原型測(cè)試中及時(shí)調(diào)整和迭代。
圖3 Delft AIToolkit工作界面
2.2.4 硬件工具套件硬件工具套件,如Google AIY、樹莓派等,可用于搭建實(shí)體原型。此類工具操作簡(jiǎn)單,同時(shí)提供了配套的硬件,使用者無需自行選配零部件。然而,現(xiàn)有的套件所能提供的硬件較少,能夠?qū)崿F(xiàn)的功能比較有限。AIY是Google公司面向?qū)W生和創(chuàng)客推出的AI套件,可用于制作個(gè)性化AI原型(見圖4)。AIY包含一套視覺套件和一套語音套件。2種套件的外殼均由硬紙板制成,適用于低保真的原型制作。視覺套件包含樹莓派主板、攝像頭等。利用視覺套件的圖像識(shí)別功能,可以進(jìn)行臉部、情緒的檢測(cè)或者常見物體識(shí)別。語音套件包含樹莓派主板、揚(yáng)聲器等,可以進(jìn)行語音識(shí)別,用于制作智能音箱或用語音控制其他部件。
圖4 Google AIY套件
除了上述4種原型設(shè)計(jì)工具外,設(shè)計(jì)團(tuán)隊(duì)還可以選擇更方便、更低成本的方式——綠野仙蹤法(Wizard of Oz)。該方法利用人工操作模擬系統(tǒng)動(dòng)作,針對(duì)用戶的操作做出反饋。綠野仙蹤實(shí)驗(yàn)在不泄露評(píng)估者與執(zhí)行者存在的前提下,通過觀察潛在用戶與對(duì)象的交互來測(cè)試產(chǎn)品或服務(wù)。在實(shí)驗(yàn)過程中,機(jī)器的功能不必完全被實(shí)現(xiàn),而是由實(shí)驗(yàn)組織者來模擬智能系統(tǒng)的判斷或輸出。智能音響Echo在研發(fā)過程中也使用到了這種方式。研發(fā)團(tuán)隊(duì)想要了解用戶會(huì)問Echo什么問題,以及用戶期望的回應(yīng)速度。在實(shí)驗(yàn)過程中,當(dāng)用戶向Echo詢問一個(gè)問題時(shí),在另一個(gè)房間的設(shè)計(jì)師就會(huì)在谷歌上搜索出相應(yīng)的答案,并以不同的速度發(fā)送給用戶。整個(gè)過程中,用戶以為他們是在與Echo進(jìn)行真實(shí)的互動(dòng)。
從AI硬件智能產(chǎn)品設(shè)計(jì)的現(xiàn)狀及其相關(guān)探索可見,當(dāng)前該領(lǐng)域主要存在以下挑戰(zhàn): (1)智能下移挑戰(zhàn),即AI硬件的發(fā)展推動(dòng)了云端智能、終端智能甚至傳感器的器件智能等多種智能模式共存; (2)產(chǎn)品轉(zhuǎn)化挑戰(zhàn),即AI算法研究成果難以轉(zhuǎn)化為產(chǎn)品,智能產(chǎn)品設(shè)計(jì)開發(fā)的效率低、難度大; (3)認(rèn)知匯聚挑戰(zhàn),即支持智能產(chǎn)品的認(rèn)知計(jì)算難度大,產(chǎn)品間難以實(shí)現(xiàn)認(rèn)知共享,用戶學(xué)習(xí)成本高;(4)人機(jī)交互挑戰(zhàn),多通道、對(duì)話式、沉浸式交互成為智能產(chǎn)品交互的主要模式,面向智能產(chǎn)品的用戶心智模型發(fā)生變化。建議開展如圖5的研究?jī)?nèi)容。
圖5 AI硬件智能產(chǎn)品設(shè)計(jì)及其平臺(tái)的主要挑戰(zhàn)和擬進(jìn)行的研究?jī)?nèi)容
AI的持續(xù)學(xué)習(xí)、進(jìn)化發(fā)展、不可預(yù)測(cè)等特性是智能產(chǎn)品設(shè)計(jì)的主要挑戰(zhàn)。傳統(tǒng)電子產(chǎn)品的功能實(shí)現(xiàn)是確定和可預(yù)期的,例如按下開關(guān)即可開啟風(fēng)扇。由新一代人工智能支持的產(chǎn)品,往往需要在對(duì)所處的物理環(huán)境、業(yè)務(wù)場(chǎng)景和用戶意圖理解等內(nèi)容的綜合認(rèn)知基礎(chǔ)上,進(jìn)行決策和行為。換而言之,當(dāng)設(shè)計(jì)一款新型AI硬件智能產(chǎn)品時(shí),其實(shí)是在設(shè)計(jì)一個(gè)具有主動(dòng)學(xué)習(xí)、成長(zhǎng)、預(yù)測(cè)能力的系統(tǒng);隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的發(fā)展以及數(shù)據(jù)的積累,產(chǎn)品對(duì)于用戶行為與偏好、業(yè)務(wù)場(chǎng)景、物理環(huán)境的理解將持續(xù)提升。產(chǎn)品不再是一成不變的,它們?cè)谠O(shè)計(jì)之初就預(yù)留了足夠的成長(zhǎng)和變化空間。這意味著在產(chǎn)品設(shè)計(jì)階段往往難以明確構(gòu)建用戶行為與產(chǎn)品反饋的映射關(guān)系。這將導(dǎo)致產(chǎn)品設(shè)計(jì)、測(cè)試、部署、運(yùn)行和維護(hù)都超出現(xiàn)有設(shè)計(jì)方法、技術(shù)和平臺(tái)的能力范圍。研究產(chǎn)品與用戶之間的新型關(guān)系;研究面向智能產(chǎn)品全生命周期的新設(shè)計(jì)模式;支持非預(yù)期方式運(yùn)行系統(tǒng)的設(shè)計(jì)方法。
AI硬件智能產(chǎn)品的開發(fā)需要綜合智能的感知和傳感系統(tǒng)、智能的處理硬件、智能的信息處理算法、海量的學(xué)習(xí)數(shù)據(jù)等技術(shù)要素;面臨計(jì)算(computing)、連接(connectivity)、認(rèn)知(cognition)與匯聚(convergence)的4C問題,這使得AI硬件智能產(chǎn)品的門檻高、效率低、難度大。需要建立以AI硬件為基礎(chǔ)的智能產(chǎn)品快速設(shè)計(jì)解決方案。針對(duì)AI硬件智能產(chǎn)品,實(shí)現(xiàn)其研發(fā)所需的感知、理解、推理和決策等底層服務(wù),開發(fā)基于AI硬件、面向智能產(chǎn)品開發(fā)的低成本、低能耗、可擴(kuò)展、高智能的嵌入式快速原型平臺(tái)。建立豐富的支持工具、軟硬件、數(shù)據(jù)集、測(cè)試和部署環(huán)境,支持云端智能、終端智能和混合智能等多種智能模式的快速部署和調(diào)試;在保證計(jì)算能力的同時(shí),具備較高的設(shè)計(jì)和開發(fā)的靈活性,有效降低智能產(chǎn)品原型設(shè)計(jì)開發(fā)的門檻,提高原型設(shè)計(jì)開發(fā)和測(cè)試的質(zhì)量和速度。
智能產(chǎn)品的人機(jī)交互將突破現(xiàn)有以觸摸屏為代表的傳統(tǒng)模式,語音、體感、增強(qiáng)現(xiàn)實(shí)等交互模式將與傳統(tǒng)模式并存;聽覺、觸覺、嗅覺甚至味覺將與視覺感官系統(tǒng)共同構(gòu)建智能產(chǎn)品的人機(jī)交互通道。智能產(chǎn)品的交互設(shè)計(jì)需要在綜合應(yīng)用場(chǎng)景、用戶需求的基礎(chǔ)上,采用相應(yīng)的交互技術(shù)、建立相應(yīng)的交互范式。研究智能產(chǎn)品的人機(jī)交互設(shè)計(jì)方法,研究用戶與產(chǎn)品在交互過程中的互相激發(fā)與博弈模式,構(gòu)建系統(tǒng)反饋與用戶預(yù)期的映射關(guān)系,建立面向智能產(chǎn)品的用戶心智模型,設(shè)計(jì)實(shí)現(xiàn)相應(yīng)的人機(jī)交互基本組件。重點(diǎn)針對(duì)在多通道交互中的對(duì)話式交互模式,建立相應(yīng)的人機(jī)交互解決方案,解決用戶意圖理解、業(yè)務(wù)分析、情感計(jì)算等問題。研究輕量級(jí)和高分辨率的腦機(jī)交互、肌電交互等交互模式;探索基于增強(qiáng)現(xiàn)實(shí)的沉浸式交互模式在智能產(chǎn)品中的應(yīng)用。
認(rèn)知是實(shí)現(xiàn)智能服務(wù)的基礎(chǔ),研究支持智能產(chǎn)品的認(rèn)知計(jì)算技術(shù)和服務(wù)平臺(tái),研發(fā)具備通用性(面向多個(gè)領(lǐng)域)和具備專業(yè)性(面向垂直領(lǐng)域)的認(rèn)知計(jì)算引擎。內(nèi)容包括:研究基于多源、異構(gòu)、跨媒體的數(shù)據(jù),構(gòu)建動(dòng)態(tài)、多模態(tài)、個(gè)性化的知識(shí)圖譜技術(shù)和方法。針對(duì)對(duì)話式、多通道交互模式下的智能化需求,建立知識(shí)圖譜及相應(yīng)的維護(hù)和更新技術(shù)。針對(duì)典型產(chǎn)品和業(yè)務(wù)領(lǐng)域構(gòu)建認(rèn)知計(jì)算引擎與匯聚平臺(tái),實(shí)現(xiàn)對(duì)物理世界、業(yè)務(wù)屬性和邏輯、用戶意圖和偏好等信息的建模、理解、學(xué)習(xí)和推理。針對(duì)具體領(lǐng)域,建構(gòu)多個(gè)不同種類的智能產(chǎn)品間的統(tǒng)一認(rèn)知模型,實(shí)現(xiàn)智能產(chǎn)品之間的認(rèn)知共享與匯聚,從而支持多產(chǎn)品之間的協(xié)作支撐,構(gòu)建面向用戶感知、思考、行動(dòng)的智能服務(wù)閉環(huán)。
針對(duì)具體領(lǐng)域需求,建立AI硬件智能產(chǎn)品解決方案;解決當(dāng)前人工智能算法難以產(chǎn)品化、AI硬件難以產(chǎn)業(yè)化、智能產(chǎn)品實(shí)用性差、不同智能產(chǎn)品之間難以集成等問題。實(shí)現(xiàn)以云端智能、終端智能,或二者融合智能模式支持的智能產(chǎn)品。內(nèi)容包括:建立智能計(jì)算前移的新型傳感器件以及傳感構(gòu)件集;建立可定制、易定制的AI芯片及驅(qū)動(dòng)構(gòu)件集;針對(duì)產(chǎn)品應(yīng)用場(chǎng)景、業(yè)務(wù)需求和用戶屬性,構(gòu)建具備靈活性、適應(yīng)性和學(xué)習(xí)能力的領(lǐng)域知識(shí)引擎;支持對(duì)多個(gè)智能產(chǎn)品之間的統(tǒng)一認(rèn)知和協(xié)同智能;構(gòu)建基于初始訓(xùn)練數(shù)據(jù)和初始功能邏輯,以及在基于產(chǎn)品使用過程的增量數(shù)據(jù)和增量邏輯的AI訓(xùn)練模型和增量學(xué)習(xí)模型;建立面向云計(jì)算、分布式計(jì)算和終端輕量計(jì)算的操作系統(tǒng)或智能驅(qū)動(dòng)構(gòu)件;建立融合AI芯片智能和產(chǎn)品、場(chǎng)景、業(yè)務(wù)和用戶的自身認(rèn)知的混合智能;建立智能產(chǎn)品的智能運(yùn)行和學(xué)習(xí)更新技術(shù)體系。
開展AI硬件智能產(chǎn)品設(shè)計(jì)應(yīng)用示范,提升人工智能驅(qū)動(dòng)的集群式創(chuàng)新創(chuàng)業(yè)能力。針對(duì)具體領(lǐng)域,建立智能產(chǎn)品的用戶研究和需求挖掘方法;建立相應(yīng)的全生命周期設(shè)計(jì)技術(shù)、設(shè)計(jì)管理技術(shù);建立具有靈活性、開放性的智能軟硬件、數(shù)據(jù)集、算法集和操作系統(tǒng);建立智能產(chǎn)品的測(cè)試、運(yùn)行及維護(hù)標(biāo)準(zhǔn);實(shí)現(xiàn)從云端到終端的人工智能模式,支持各層次資源的聯(lián)動(dòng)。利用AI硬件擴(kuò)展產(chǎn)品的感知、理解、推理和決策能力,面向科學(xué)、工業(yè)、軍事、教育、環(huán)境、交通、商業(yè)、健康醫(yī)療、網(wǎng)絡(luò)安全、社會(huì)治理等領(lǐng)域,建立相應(yīng)設(shè)計(jì)知識(shí)庫、方法庫,構(gòu)建領(lǐng)域認(rèn)知計(jì)算引擎,研發(fā)相應(yīng)的交互和對(duì)話技術(shù),設(shè)計(jì)和開發(fā)一批智能程度高、功能完善、種類豐富、市場(chǎng)競(jìng)爭(zhēng)力強(qiáng),具有示范性、創(chuàng)造性和引領(lǐng)性的智能新產(chǎn)品,培育一批智能產(chǎn)品生態(tài)群。