摘要:傳統(tǒng)的機器人以演示為主,功能單一,智能化程度較低。文章設(shè)計了一款面向科普基地的智慧講解機器人,主要具有主動迎賓、智能帶路、智慧講解功能。該講解機器人能夠在科普基地識別到訪客并向訪客致歡迎詞,為訪客帶路,與訪客進(jìn)行人機交互并為訪客提供問詢服務(wù)和講解服務(wù),是一種更加豐富綜合的智慧講解機器人。
關(guān)鍵詞:機器人;人機交互;主動迎賓;智能帶路;智慧講解
中圖分類號:TP242.6" 文獻(xiàn)標(biāo)志碼:A
基金項目:承德醫(yī)學(xué)院2022年國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目;項目編號:2022013。
作者簡介:王雪倩(2002— ),女,本科生;研究方向:生物信息與人工智能。
*通信作者:董現(xiàn)玲(1982— ),男,副教授,博士;研究方向:醫(yī)學(xué)影像與人工智能。
0" 引言
隨著科技的發(fā)展、社會的進(jìn)步,人工智能技術(shù)的研究和應(yīng)用不斷蔓延。人工智能技術(shù)的發(fā)展極其迅速,已經(jīng)滲透到各行各業(yè)和社會生活的各個領(lǐng)域。機器人依托云服務(wù)和大數(shù)據(jù)挖掘進(jìn)行自主學(xué)習(xí),不斷完善智能交互能力和對環(huán)境的感知能力。例如:跳舞機器人能夠根據(jù)不同的音樂起舞[1]。在一些售票大廳里,也可以看到各種自助服務(wù)的售票機器人[2],它們?yōu)橘徠狈?wù)帶來了極大的便利。當(dāng)前,無人機的發(fā)展也十分迅速,如國內(nèi)的大疆無人機[3]。在一些地震事故中,無人機可以很方便地進(jìn)入災(zāi)區(qū),為搶救行動提供重要信息。但目前服務(wù)機器人仍存在一些不足,如我國市面上出現(xiàn)的一款輪式移動送餐機器人[4],其僅可行走在固定的路線上,以地面的引導(dǎo)軌跡為輔助,靈活度比較低,無語音功能,僅提供送餐服務(wù),給客戶提供新鮮感的體驗。此外,由北京某大學(xué)研制的一款雙足服務(wù)機器人“匯童”M1能夠直立行走,其平衡能力雖然良好[2],但仍不足以讓“匯童”更好地執(zhí)行任務(wù)。目前,“匯童”的工作重心仍然聚焦于平衡力的進(jìn)一步研發(fā)上,這也限制了其工作重心難以向服務(wù)方向轉(zhuǎn)移。
隨著數(shù)字科普基地的建設(shè),打造沉浸式服務(wù)路徑,為用戶營造濃厚、積極的閱讀氛圍和環(huán)境是至關(guān)重要的。目前,科普基地都有大量的迎賓人員或者解說員,他們都在從事著重復(fù)性工作,既耗費了人力資源,又增加了高校的人力成本。另外,服務(wù)人員長時間從事重復(fù)性的工作,會造成工作熱情銳減,從而影響服務(wù)質(zhì)量。因此,設(shè)計一款面向科普基地且實用、可靠、功能豐富、綜合性強的機器人具有重要的應(yīng)用價值。
本文以高??破栈亟庹f員為原型,旨在為高??破栈卦O(shè)計出一款智慧講解機器人,服務(wù)于高校科普基地。機器人主要有迎賓、帶路、語音交互、智慧講解等功能,人性化、智能化較高,可以在降低高校人力成本的同時,提高高??破栈氐姆?wù)水平。本文通過對機器人整體的設(shè)計與實現(xiàn),將先進(jìn)的技術(shù)應(yīng)用于機器人,使得機器人具有很高的人工智能特性[5]。
1" 智慧講解機器人設(shè)計與實現(xiàn)
1.1" 硬件設(shè)計
機器人的整體設(shè)計為類人型機器人,本體由深度相機、麥克風(fēng)、顯示器、急停開關(guān)、機械臂、音響、激光雷達(dá)及底盤等硬件組成。機器人硬件如圖1所示。
1.2" 硬件功能
1.2.1" 麥克風(fēng)
麥克風(fēng)可進(jìn)行聲源定位,抑制背景噪聲、干擾等;進(jìn)行信號的提取與分離,將聲音信號轉(zhuǎn)為電信號,以實現(xiàn)語音識別,是實現(xiàn)人機交互功能的關(guān)鍵硬件。
1.2.2" 急停開關(guān)
在急須停止機器運行的情況下,急停開關(guān)能夠使機器人立即停止動作,防止危害或者損失擴大。
1.2.3nbsp; 機械臂
機械臂可實現(xiàn)機械擺臂,表示對訪客的歡迎,可實現(xiàn)4/6自由度的機械臂視覺抓取。
1.2.4" 深度相機
深度相機作為機器人的“眼睛”,既可幫助機器人高效完成人臉識別,又可檢測出拍攝空間和景深距離,便于機器人避障、導(dǎo)航。
1.2.5" 激光雷達(dá)
激光雷達(dá)作為機器人的第二雙“眼睛”,通過不停掃描來獲取二維空間的點陣數(shù)據(jù),配合即時定位與地圖構(gòu)建(Simultaneous Localization and Mapping,SLAM)技術(shù),可幫助機器人實現(xiàn)自主定位、地圖構(gòu)建及路徑規(guī)劃等功能。
1.2.6" 底盤
底盤作為機器人的“小腦”,承載了機器人本身" 的定位、導(dǎo)航及避障等基本功能,可幫助機器人實現(xiàn)智能行走。
1.3" 功能實現(xiàn)
當(dāng)講解員進(jìn)行科普基地解說時,其講述內(nèi)容通常具有一定的重復(fù)性。鑒于此,本文提出采用機器人替代講解員,為游客提供服務(wù),在減少人力的同時增加科普基地的科技感,在游客感受歷史文化的同時,體驗高科技的新時代感[2]。
2" 主動迎賓功能的設(shè)計與實現(xiàn)
機器人具備人體識別感應(yīng)功能,當(dāng)訪客靠近機器人時,機器人自動感應(yīng)程序被喚醒,在LCD屏幕中顯示笑臉并主動與客人打招呼,致歡迎詞。針對陌生訪客,當(dāng)其喚醒機器人后,機器人致歡迎詞,如:歡迎您來到XX科普基地。針對后臺有身份標(biāo)記的特殊訪客,機器人可以播報后臺設(shè)置的個性化歡迎語,如:尊敬的X老師,您好,歡迎前來指導(dǎo)工作。
要做好主動迎賓服務(wù),則須要進(jìn)行控制系統(tǒng)的設(shè)計。按照人機交互系統(tǒng)設(shè)計要求,智慧機器人控制系統(tǒng)如圖2所示。采用控制算法能夠達(dá)到有效驅(qū)動的目的,以此實現(xiàn)智慧機器人與用戶之間的積極互動,實現(xiàn)對環(huán)境信息的反饋,提升智慧機器人迎賓服務(wù)的水平和能力。
主動迎賓功能建立在ROS平臺上,通過話題進(jìn)行節(jié)點之間的通信,完成人臉識別功能與語音合成功能之間的連接。智慧機器人主動迎賓功能服務(wù)的設(shè)計可以減少傳統(tǒng)意義上的人力投入,提升數(shù)字科普基地服務(wù)水平,切實構(gòu)建全新的服務(wù)體系,拉近用戶與數(shù)字科普基地之間的距離,將數(shù)字科普基地完整、系統(tǒng)地展示出來,真正利用智慧機器人為數(shù)字科普基地的提質(zhì)增效運行注入源源不斷的活力[4]。
2.1" 人臉識別功能的實現(xiàn)
人臉識別功能基于臉部特征信息進(jìn)行身份識別:通過攝像機采集含有人臉的圖像并自動在圖像中跟蹤和檢測人臉;對檢測到的人臉進(jìn)行一系列的相關(guān)操作;與數(shù)據(jù)庫人臉特征底片進(jìn)行匹配并對人臉身份信息進(jìn)行判斷[6]。具體流程如圖3所示,具體步驟如下。
(1)系統(tǒng)對科普基地人臉圖像進(jìn)行采集,以實現(xiàn)不同人臉圖像的收集,建立人臉特征底片數(shù)據(jù)庫。
(2)數(shù)據(jù)采集后對人臉進(jìn)行檢測,在圖像中準(zhǔn)確地定位人臉的位置和大小。
(3)對采集的人臉圖像進(jìn)行預(yù)處理,過程中主要包括對原始圖像的灰度矯正、噪聲過濾以及光線處理等。
(4)對處理后的圖像進(jìn)行人臉特征提取,通常采用視覺特征以及像素計算特征等,實際上是對人臉表征信息進(jìn)行特征建模的過程。
(5)系統(tǒng)對處理后的圖像與數(shù)據(jù)庫中存有的人臉特征底片進(jìn)行匹配,根據(jù)對比結(jié)果判斷人臉的身份信息,區(qū)分普通訪客與特殊訪客。
當(dāng)機器人對已存儲在數(shù)據(jù)庫中人員的人臉信息進(jìn)行識別時,能識別出人員的名字,且具有一定的置信度,置信度越高,表示識別越準(zhǔn)確。
2.2" 語音生成功能的實現(xiàn)
語音生成又被稱為文語轉(zhuǎn)換、語音合成。語音生成是語音識別的逆過程,其基本原理為:在不考慮韻律的情況下,語音生成可將文本信息分解為基本的音節(jié),在語音語料庫查詢后,按照一定的規(guī)則拼接在一起,合成語音波形;在考慮韻律的情況下,語音生成對文本進(jìn)行語法分析,將分析后的文本信息傳入神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)會直接將語音波形輸出。本文基于科大訊飛平臺語音識別包,利用機器人操作系統(tǒng)(Robot Operating System,ROS)語言實現(xiàn)語音合成的功能。
ROS運行在Ubuntu中是一個開源的次級操作系統(tǒng),提供了與操作系統(tǒng)類似的功能,如硬件的抽象、驅(qū)動程序的管理、消息傳遞等。ROS也是一個分布式處理架構(gòu),可使不同模塊或執(zhí)行節(jié)點分開,使其既可獨自處理,又可相互通信[2]。
3" 智能帶路功能的設(shè)計與實現(xiàn)
科普基地智能機器人帶路服務(wù)是一項基于人工智能技術(shù)的服務(wù),旨在為訪客提供更加便捷的科普基地體驗。
機器人擁有強大的SLAM室內(nèi)建圖能力,訪客可通過語音命令實現(xiàn)機器人導(dǎo)航帶路。針對導(dǎo)航帶路功能,若訪客對機器人說“我要去看XXX”,則機器人接收指令后將親自帶領(lǐng)訪客前往目的地,甚至在途中還會提醒訪客注意安全、避免碰撞等。因此,在講解過程中,導(dǎo)航系統(tǒng)的實現(xiàn)能夠促進(jìn)訪客有序化觀看[7],帶領(lǐng)訪客到達(dá)目的地。針對自主返回功能,當(dāng)機器人到達(dá)目的地后,若訪客無其他要求或不被其他訪客召喚,則機器人將自動返回出發(fā)點等待為下一個客人服務(wù)。
智慧機器人帶路服務(wù)是在用戶、機器人之間構(gòu)建相應(yīng)的運行系統(tǒng),如圖4所示,將“任務(wù)級”“指令級”與機器人“場景顯示”“任務(wù)解析”“自主推理”“指令解析”“自主研判”“執(zhí)行”有效串聯(lián),促進(jìn)系統(tǒng)有序運行。科普基地智能機器人帶路服務(wù)是一種高效、便捷的服務(wù)方式,不僅可以幫助訪客更快地找到他們需要的科普作品,還可以提高科普基地的工作效率,為訪客提供更優(yōu)質(zhì)的服務(wù)[8]。
3.1" 語音識別功能的實現(xiàn)
語音識別是將機器人收到的語音符號轉(zhuǎn)換為文字并在終端顯示,本文基于科大訊飛平臺語音識別包,利用ROS語言實現(xiàn)語音識別的功能。其基本流程如圖5所示,具體如下。
特征提?。簭恼Z音波形中提取隨時間變化的特征語音序列,從而得到特征向量。
聲學(xué)模型:輸入特征向量,利用聲學(xué)特性計算出特征向量在聲學(xué)特征上的得分并輸出音素信息。
字典:將音素與字或者詞相匹配,中文為拼音與漢字的匹配,英文為音標(biāo)與單詞的匹配。
語言模型:通過卷積神經(jīng)網(wǎng)絡(luò)對大量文本信息進(jìn)行訓(xùn)練,從而得到字或者詞相匹配的概率。
解碼:通過聲學(xué)模型、字典與語言模型對音頻數(shù)據(jù)進(jìn)行文字性的輸出。
通過對麥克風(fēng)設(shè)置輸入音量后,對準(zhǔn)麥克風(fēng)說“你好,智慧講解機器人”,機器人LCD屏幕隨后便會展示其識別效果。
3.2" 自主導(dǎo)航功能的實現(xiàn)
3.2.1" 利用激光SLAM實現(xiàn)對科普基地的物理構(gòu)圖
用戶將機器人置于科普基地,利用其傳感器測量機器人和周圍環(huán)境的距離信息,通過此信息完成地圖的構(gòu)建。與此同時,用戶進(jìn)行一致性檢查,利用自主定位,檢查機器人是否運動到已構(gòu)建過地圖的地方,最終輸出定位結(jié)果與地圖。
以實驗室工作空間為例,本文構(gòu)建的物理地圖如圖6所示。
3.2.2" 利用AMCL實現(xiàn)自主定位與導(dǎo)航
機器人在清楚目標(biāo)點的位置后,通過自適應(yīng)蒙特卡羅定位(Adaptive Monte Carlo Localization,AMCL)進(jìn)行自我定位,明確自身位置,通過始發(fā)點與目標(biāo)點進(jìn)行全局路徑規(guī)劃,找到最優(yōu)路徑。在運動的過程中,機器人難免會遇到障礙物,此時,通過本地路徑規(guī)劃,規(guī)劃好路徑后驅(qū)電機驅(qū)動,完成最終的運動。
用戶標(biāo)定初始點與目標(biāo)點,機器人自主導(dǎo)航的效果如圖7所示。
4" 智慧講解功能的設(shè)計與實現(xiàn)
智慧講解功能為機器人的核心功能,以科大訊飛開放平臺作為開放的智能交互技術(shù)服務(wù)平臺,其主要功能為語音識別與合成功能,能與訪客進(jìn)行語音交互,為訪客提供問詢服務(wù)和講解服務(wù)。如訪客對機器人說:“您能為我簡單講解一下科普基地XXX嗎?”機器人收到指令后便會回復(fù):“好的,很高興為您服務(wù)。下面我將為您進(jìn)行講解。科普基地XXX……。我的講解結(jié)束了,請問您還有別的需求嗎?”若訪客還有其他需求,則機器人將會根據(jù)不同需求來執(zhí)行不同的命令為訪客服務(wù)。若訪客無其他需求,則機器人將回復(fù):“好的,期待下次為您服務(wù)?!苯Y(jié)束這次講解服務(wù)。
智慧機器人的智慧講解是一項前沿而富有潛力的技術(shù),將極大地改變?nèi)藗儷@取信息和解決問題的方式。因此,在數(shù)字科普基地的建設(shè)中,應(yīng)結(jié)合智慧講解方面的要求和標(biāo)準(zhǔn),進(jìn)行深入設(shè)計,以此為用戶的服務(wù)提供積極支持,使用戶結(jié)合科普基地知識學(xué)習(xí)需求,積極參與數(shù)字科普基地系列的服務(wù)[9]。
4.1" 人機交互功能的實現(xiàn)
當(dāng)機器人被喚醒時,會對訪客的需求進(jìn)行語音識別,在嘈雜的情況下定向拾音,進(jìn)行回聲消除與遠(yuǎn)場消噪,之后會對語音轉(zhuǎn)換所得文本進(jìn)行語義理解。該過程包括內(nèi)容管理、糾錯、上下文信息以及對話管理,最后通過揚聲器發(fā)出聲音,完成人類與機器人的對話。功能實現(xiàn)的總體流程如圖8所示。
4.2" 智能迎賓機器人功能的實現(xiàn)過程
本文設(shè)計的機器人具有如下功能:主動迎賓功能,可識別到訪客并向訪客致歡迎詞;智能帶路功能,根據(jù)訪客需求為訪客帶路;智慧講解功能,可與訪客進(jìn)行人機交互,為訪客提供問詢服務(wù)和講解服務(wù)。具體的實現(xiàn)過程如下。
當(dāng)智能機器人檢測到有參觀者進(jìn)入時,會主動播放歡迎語并提供基礎(chǔ)的導(dǎo)覽服務(wù);系統(tǒng)可以根據(jù)參觀者的位置,自動調(diào)整機器人的朝向和行走路線,確保與參觀者保持適當(dāng)?shù)木嚯x和角度;參觀者可以通過語音交流向智能機器人提出目的地需求;智能機器人根據(jù)需求規(guī)劃最優(yōu)路徑,引領(lǐng)參觀者前往指定地點,在引領(lǐng)過程中,智能機器人可以通過語音提供導(dǎo)航信息和相關(guān)介紹;智能機器人內(nèi)置科普知識庫,能夠回答參觀者關(guān)于科普展覽、展品等方面的常見問題。
智能機器人可以與參觀者進(jìn)行互動問答,延伸介紹展品的歷史背景、科學(xué)原理等相關(guān)知識;通過語音交互方式,參觀者可以自主選擇感興趣的話題進(jìn)行深入了解;智能機器人可以在科普基地內(nèi)自由移動,為不同區(qū)域的參觀者提供講解服務(wù)[10];對于重點展品" 或展覽區(qū)域,智能機器人可以提供更加詳細(xì)和深入的講解內(nèi)容,支持單獨引領(lǐng)參觀者進(jìn)行觀看和學(xué)習(xí)。
4.3" 中醫(yī)文化長廊機器人功能的實現(xiàn)過程
中醫(yī)文化長廊的設(shè)計以中醫(yī)藥起源為前景,運用典型人物特征表現(xiàn)精神氣質(zhì),結(jié)合背景陪襯和相關(guān)文字說明,虛實有致之中濃縮概括出中醫(yī)的文化特色,利用創(chuàng)新科技的機器人對公眾進(jìn)行講解,吸引了大量的來訪嘉賓參觀體驗。具體實現(xiàn)過程如下。
中醫(yī)文化長廊機器通過人臉識別功能被喚醒,主動與客人打招呼,致歡迎詞;對訪客的需求進(jìn)行語音識別,機器人對語音轉(zhuǎn)換所得文本進(jìn)行語義理解;與訪客進(jìn)行語音交互,為訪客提供問詢服務(wù)和講解服務(wù)。例如訪客對中醫(yī)文化長廊機器人說:“您能為我簡單講解一下中醫(yī)文化長廊嗎?”機器人收到指令后便會回復(fù):“好的,很高興為您服務(wù)。下面我將為您進(jìn)行講解。中醫(yī)文化長廊的設(shè)計擷取了中醫(yī)文化精華……。我的講解結(jié)束了,請問您還有別的需求嗎?”若訪客還有其他需求,則機器人將會根據(jù)不同需求來執(zhí)行不同的命令為訪客服務(wù)。若訪客無其他需求,則機器人將回復(fù):“好的,期待下次為您服務(wù)?!辈⒔Y(jié)束這次講解服務(wù)。該過程包括內(nèi)容管理、糾錯、上下文信息以及對話管理,從而通過揚聲器發(fā)出聲音,完成人類與機器人的對話。
長廊按照時間的順序來表現(xiàn)中醫(yī)歷史的成就。整張長卷自左向右分為中醫(yī)藥概述、中醫(yī)藥大事年表、中醫(yī)學(xué)理論體系基本特點、中醫(yī)學(xué)的認(rèn)知與思維方法、中醫(yī)治未病思想、中醫(yī)治法術(shù)要6個篇章,將中醫(yī)的歷史文化加以展示,讓訪客更加直觀地感受和體會中醫(yī)文化。中醫(yī)文化長廊展項如表1所示。
5" 結(jié)語
運用數(shù)字化,借助智能技術(shù),做好智慧機器人的功能設(shè)計,提升智慧機器人服務(wù)水平,有助于數(shù)字科普基地穩(wěn)定有序、并行不悖地運行。本文設(shè)計了高??破栈刂腔壑v解機器人,采用先進(jìn)的語音識別與合成、人臉識別以及物理建圖與自主導(dǎo)航技術(shù),實現(xiàn)了主動迎賓、智能帶路、智慧講解3大功能。本文設(shè)計的智慧機器人是一款靈活、實用、操作方便的交互式智能講解機器人,可為用戶提供全面化的服務(wù),具有低功耗、可靠性好、綜合性高、實時性強、功能豐富等特點;可降低當(dāng)前科普基地人力成本,提升機器人的服務(wù)質(zhì)量;為訪客提供更優(yōu)質(zhì)的服務(wù),助力數(shù)字科普基地積極參與用戶服務(wù),助力數(shù)字科普基地有序參與當(dāng)前社會的運行和發(fā)展。
參考文獻(xiàn)
[1]孫景文.邊唱歌邊跳舞的機器人:CN2011104 57356.4[P].2011-12-31.
[2]陳志威.博物館講解機器人的設(shè)計與實現(xiàn)[D].南京:南京郵電大學(xué),2017.
[3]吉克.大疆創(chuàng)新:全球無人機領(lǐng)航者[J].中國品牌,2015(4):72-74.
[4]袁銀瑤,宋天麟.送餐服務(wù)機器人研究及設(shè)計[J].科技創(chuàng)新與應(yīng)用,2017(4):62.
[5]王義翠,楊愛華.智能機器人在圖書館開架書庫中應(yīng)用研究[J].新世紀(jì)圖書館,2022(6):42-48.
[6]黃敦華,汪雅楠,周寶海.校園內(nèi)導(dǎo)游服務(wù)型自主移動機器人設(shè)計與實現(xiàn)[J].微計算機信息,2011(1):121-123,46.
[7]張靜,褚麗莉,周影.基于OpenCV的ROS平臺人臉識別系統(tǒng)的研究[J].信息系統(tǒng)工程,2020(2):44-45.
[8]李桂英.智能機器人對圖書館服務(wù)效能的影響因素及提升策略研究[J].中文科技期刊數(shù)據(jù)庫(全文版)圖書情報,2022(11):135-140.
[9]李立睿,張嘉程,魏銀珍,等.智能機器人賦能圖書館服務(wù):內(nèi)涵,特征與實施路向[J].圖書館學(xué)研究,2022(11):10-18.
[10]張創(chuàng)軍.“人工智能+圖書館”的應(yīng)用前景分析[J].甘肅科技,2022(1):86-90.
(編輯" 沈" 強)
Design and realization of intelligent explanation robot in
university science popularization base
WANG" Xueqian, SHAO" Zilun, SUN" Yutao, GONG" Wenbin, XU" Jiaxin, SUN" Jialu, DONG" Xianling*
(Biomedical Engineering Department, Chengde Medical College, Chengde 067000, China)
Abstract: Traditional robots are mainly focused on demonstration,with single function and low level of intelligence. This paper designs an intelligent explaining robot for the scientific popularization base, which mainly has the functions of active welcoming, intelligent leading, and intelligent explaining. The robot can recognize the visitors in the science popularization base and make a welcome speech to the visitors, lead the way for the visitors, carry out human-computer interaction with the visitors, and provide inquiry service and explanation service for the visitors, which is a richer and more comprehensive intelligent explanation robot.
Key words: robots; human-computer interaction; active welcoming; intelligent leading; intelligent explanation