• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      虛擬環(huán)境下的智能語音聊天機(jī)器人設(shè)計(jì)?

      2019-11-12 06:39:00
      關(guān)鍵詞:圖靈后臺助手

      張 林

      (商洛學(xué)院數(shù)學(xué)與計(jì)算機(jī)應(yīng)用學(xué)院 商洛 726000)

      1 引言

      隨著人工智能和語音處理技術(shù)的發(fā)展,人與機(jī)器的交互變得越來越智能化,而且應(yīng)用的領(lǐng)域也越來越廣泛,從智能家居、智能電器到無處不在的智能語音提示,都體現(xiàn)了智能機(jī)器人的存在。就目前來看,人工智能的場景化應(yīng)用主要有三類:一類是語音助手,比如我們常見的通用型語音助手;另一類是智能客服,中小型賣家,通過自己的自定義知識庫創(chuàng)建屬于自己的智能客服來回答客戶的一些基本問題;還有一類是虛擬伴侶,比如在虛擬眼鏡里,機(jī)器人可以以虛擬伴侶的形象出現(xiàn),也可以在文字交互的基礎(chǔ)上實(shí)現(xiàn)語音的交互[1~2]。

      目前語音助手的應(yīng)用很普及,各大手機(jī)運(yùn)營商都在自己的手機(jī)平臺上加入語音助手,以實(shí)現(xiàn)讓用戶只動口不動手的目標(biāo)。比較有名的語音助手有蘋果的Siri、三星的bixby以及我國圖靈機(jī)器人創(chuàng)始人俞志晨等推出的蟲洞語音助手,它們?nèi)诤狭耸澜缟献铍y語音識別、語音合成、語義理解等技術(shù)。在2013 年底的時(shí)候,蟲洞語音助手就有了驚人的使用量,用戶數(shù)超過4000 萬,當(dāng)時(shí)這些語音助手還不夠成熟,至少缺少了現(xiàn)在機(jī)器人的智能化功能,無法和用戶在語音交互的時(shí)候?qū)崿F(xiàn)智能化。隨著圖靈機(jī)器人的出現(xiàn),給機(jī)器人裝上了一個(gè)聰明的人工智能大腦,而且是可以理解中文語義的大腦。本文設(shè)計(jì)了一款聊天機(jī)器人,通過圖靈機(jī)器人平臺來搭建,用戶可以通過文本或者語音兩種方式實(shí)現(xiàn)與機(jī)器人的智能交互,聊天的內(nèi)容不再單調(diào)。為了克服語音助手界面單一的缺點(diǎn),采用虛擬現(xiàn)實(shí)技術(shù),打造一個(gè)讓用戶身臨其境的3D 聊天環(huán)境,增強(qiáng)了用戶體驗(yàn)的主動性[3]。

      2 圖靈機(jī)器人

      圖靈機(jī)器人是目前中文語境下智能化程度最高的機(jī)器人大腦,也是全球最為領(lǐng)先的中文語言識別與計(jì)算平臺。圖靈機(jī)器人對中文語義的理解準(zhǔn)確率一直在90%以上,為智能化軟硬件產(chǎn)品提供中文語義分析、自然語言對話、深度問答等人工智能技術(shù)服務(wù)。2014 年11 月,圖靈機(jī)器人第一款產(chǎn)品正式發(fā)布,到目前為止,它已經(jīng)為為超過23 萬家企業(yè)和開發(fā)者提供服務(wù),累計(jì)響應(yīng)請求量超1462 億次。在家用服務(wù)機(jī)器人、商用服務(wù)機(jī)器人、兒童陪伴機(jī)器人、智能客服系統(tǒng)、智能車載系統(tǒng)以及智能家居控制系統(tǒng)等軟硬件領(lǐng)域占有絕對性優(yōu)勢[4]。通過圖靈機(jī)器人的官方網(wǎng)站,企業(yè)及個(gè)人開發(fā)者可輕松為自己的軟硬件產(chǎn)品接入圖靈機(jī)器人,圖靈機(jī)器人的API端口調(diào)用完全免費(fèi),每個(gè)人都可以通過官網(wǎng)創(chuàng)建屬于自己的智能機(jī)器人產(chǎn)品[5~6]。

      其實(shí)圖靈機(jī)器人并不是一款機(jī)器人產(chǎn)品,用CEO俞志晨的話說,他是要做成一套在人工智能領(lǐng)域的操作系統(tǒng),把技術(shù)提供給各個(gè)領(lǐng)域的開發(fā)者,做免費(fèi)平臺,以最大程度地降低個(gè)人開發(fā)者及企業(yè)合作方的成本;另一方面,想以開放的方式與個(gè)人與企業(yè)合作,以推動人工智能技術(shù)在生活場景中的應(yīng)用[7]。

      3 虛擬技術(shù)

      虛擬現(xiàn)實(shí)技術(shù)(Virtual Reality,VR)[8]是一種可以創(chuàng)建和體驗(yàn)虛擬世界的計(jì)算機(jī)仿真系統(tǒng),它利用計(jì)算機(jī)生成一種模擬環(huán)境,是一種多源信息融合的交互式的三維動態(tài)視景和實(shí)體行為的系統(tǒng)仿真,使用戶沉浸到該環(huán)境中。虛擬現(xiàn)實(shí)技術(shù)是仿真技術(shù)的一個(gè)重要方向,是仿真技術(shù)與計(jì)算機(jī)圖形學(xué)、人機(jī)接口技術(shù)、多媒體技術(shù)、傳感技術(shù)、網(wǎng)絡(luò)技術(shù)等多種技術(shù)的集合,是一門富有挑戰(zhàn)性的交叉技術(shù)前沿學(xué)科和研究領(lǐng)域。虛擬現(xiàn)實(shí)技術(shù)(VR)主要包括模擬環(huán)境、感知、自然技能和傳感設(shè)備等方面。模擬環(huán)境是由計(jì)算機(jī)生成的、實(shí)時(shí)動態(tài)的三維立體逼真圖像。感知是指理想的VR應(yīng)該具有一切人所具有的感知。除計(jì)算機(jī)圖形技術(shù)所生成的視覺感知外,還有聽覺、觸覺、力覺、運(yùn)動等感知,甚至還包括嗅覺和味覺等,也稱為多感知。自然技能是指人的頭部轉(zhuǎn)動,眼睛、手勢、或其他人體行為動作,由計(jì)算機(jī)來處理與參與者的動作相適應(yīng)的數(shù)據(jù),并對用戶的輸入作出實(shí)時(shí)響應(yīng),并分別反饋到用戶的五官。傳感設(shè)備是指三維交互設(shè)備[9~10]。

      目前語音交流識別產(chǎn)品在人機(jī)交互應(yīng)用中已經(jīng)占有一定的比例,社會生活中廣泛流傳著移動終端聊天軟硬件——功能完善的語音助手,但大多數(shù)語音助手都過于虛擬化,只有聊天框等UI 設(shè)計(jì),自主智能尚不完善。我們采取整合虛擬與現(xiàn)實(shí)的手法,打造一款虛擬環(huán)境下的語音助手,將結(jié)合新型VR 技術(shù),將原有的大眾體會不到聊天真切感的處境轉(zhuǎn)化為身臨其境的沉浸式3D聊天環(huán)境。

      4 語音識別與語音合成技術(shù)

      語音合成和語音識別技術(shù)是實(shí)現(xiàn)人機(jī)語音通信,建立一個(gè)有聽和講能力的口語系統(tǒng)所必需的兩項(xiàng)關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話能力,是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要競爭市場。和語音識別相比,語音合成的技術(shù)相對說來要成熟一些,并已開始向產(chǎn)業(yè)化方向成功邁進(jìn),大規(guī)模應(yīng)用指日可待。

      與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是人們長期以來夢寐以求的事情。中國物聯(lián)網(wǎng)校企聯(lián)盟形象地把語音識別比做為“機(jī)器的聽覺系統(tǒng)”。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。

      語音合成是通過機(jī)械的、電子的方法產(chǎn)生人造語音的技術(shù)。TTS 技術(shù)(又稱文語轉(zhuǎn)換技術(shù))隸屬于語音合成,它是將計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的漢語口語輸出的技術(shù)[11]。

      語音合成,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,也即讓機(jī)器像人一樣開口說話。我們所說的“讓機(jī)器像人一樣開口說話”與傳統(tǒng)的聲音回放設(shè)備(系統(tǒng))有著本質(zhì)的區(qū)別。傳統(tǒng)的聲音回放設(shè)備(系統(tǒng)),如磁帶錄音機(jī),是通過預(yù)先錄制聲音然后回放來實(shí)現(xiàn)“讓機(jī)器說話”的。這種方式無論是在內(nèi)容、存儲、傳輸或者方便性、及時(shí)性等方面都存在很大的限制。而通過計(jì)算機(jī)語音合成則可以在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音,從而真正實(shí)現(xiàn)讓機(jī)器“像人一樣開口說話”。

      5 系統(tǒng)設(shè)計(jì)

      5.1 系統(tǒng)總體設(shè)計(jì)

      本聊天機(jī)器人是基于科大訊飛語音開放平臺與圖靈機(jī)器人API,并結(jié)合VR 技術(shù)來設(shè)計(jì)的。希望給用戶提供一個(gè)友好的親切的真實(shí)的交互聊天氛圍,讓用戶擁有更好的聊天體驗(yàn)。整體涉及五個(gè)模塊,將各自的功能結(jié)合起來,形成整個(gè)系統(tǒng)的核心技術(shù)。項(xiàng)目流程包括五個(gè)部分,分別是語音合成、語音識別、圖靈后臺交互、虛擬場景搭建、VR顯示功能。整體的流程圖如圖1所示。

      圖1 整體流程圖

      5.2 功能模塊設(shè)計(jì)

      5.2.1 語音識別

      在語音識別模塊中,程序會自動打開手機(jī)的錄音模塊,進(jìn)行錄音,然后調(diào)用科大訊飛SDK 包中的函數(shù)將音頻信息發(fā)送到科大訊飛后臺進(jìn)行處理,經(jīng)過后臺處理,得到回復(fù)的內(nèi)容為文本信息,具體流程圖如圖2所示[12~13]。

      圖2 語音識別

      語音識別技術(shù)的應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。語音識別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。在我們項(xiàng)目中的語言識別技術(shù),就是一個(gè)簡單的聽寫數(shù)據(jù)的錄入,將語音轉(zhuǎn)換成文字的模式,先將語音轉(zhuǎn)換成文本文字存儲在后臺,再由后臺進(jìn)行統(tǒng)一回復(fù)。

      此部分功能主要通過三步來完成:1)錄音;2)C#覆寫科大訊飛語音識別c++dll;3)語音識別。

      其中語音識別部分代碼如下:

      wave.Start();

      wave.Stop();

      string c1 =“server_url=dev.voicecloud.cn,appid=56eada3a,timeout=10000”;

      string c2 =“sub=iat,ssm=1,auf=audio/L16;rate=16000,aue=speex,ent=sms16k,rst=plain”;

      string request;

      try

      SR asr=new SR(c1,c2);

      request = asr.Audio2Txt(AppDomain.Current-Domain.BaseDirectory+“aaa.wav”);

      //識別

      catch(Exception)

      request=“無法識別”;

      5.2.2 語音合成

      在語音合成模塊中,程序會自動調(diào)用科大訊飛SDK的包函數(shù),將文本信息通過科大訊飛的后臺轉(zhuǎn)換成語音信息,經(jīng)過后臺的分析及處理,得到回復(fù)的語音信息,從而達(dá)到語音合成的目的,具體流程圖如圖3所示。

      圖3 語音合成

      此部分功能主要通過兩步來完成:1)C#覆寫科大訊飛離線語音合成c++dll;2)語音合成。其中語音合成部分代碼如下:

      public void tts(string response) //tts

      uint audio_len=0;

      SynthStatus synth_status = SynthStatus.

      MSP_TTS_FLAG_STILL_HAVE_DATA;

      ret = TTSDll.MSPLogin(string.Empty,string.Empty,“appid=56eada3a”);

      string c3 =“ssm=1,ent=sms16k,vcn=xiaoyan,spd=medium,aue=speex-wb;7,vol=x-loud,auf=audio/L16;rate=16000”;

      session_ID = TTSDll.QTTSSessionBegin(c3,ref ret);

      ret = TTSDll.QTTSTextPut(Ptr2Str(session_ID),response,(uint)Encoding.Default.GetByteCount(response),string.Empty);//核心代碼MemoryStream memoryStream = new MemoryStream();

      memoryStream.Write(new byte[44],0,44);

      1.1 臨床資料 選擇江西省婦幼保健院2010年至2018年間130例各級卵巢漿液性腫瘤手術(shù)標(biāo)本蠟塊(包含卵巢漿液性囊腺瘤40例、卵巢交界性漿液性囊腺瘤40例及卵巢漿液性腺癌50例),以同期卵巢漿液性囊腺瘤標(biāo)本作為對照,所選病例手術(shù)前期未進(jìn)行任何放化療,相關(guān)臨床病理資料完善,病理診斷均明確,排除其他組織學(xué)類型。

      while(true)

      IntPtr source = TTSDll.QTTSAudioGet(Ptr2Str(session_ID),ref audio_len,ref synth_status,ref ret);

      byte[]array=new byte[(int)audio_len];

      if(audio_len >0)

      Marshal.Copy(source,array,0,(int)audio_len);

      memoryStream.Write(array,0,array.Length);Thread.Sleep(1000);

      if (synth_status == SynthStatus.MSP_TTS_FLAG_DATA_END||ret!=0)

      break;}

      WAVE_Header wave_Header = getWave_Header((int)memoryStream.Length-44);

      byte[]array2=this.StructToBytes(wave_Header);

      memoryStream.Position=0L;

      memoryStream.Write(array2,0,array2.Length);

      memoryStream.Position=0L;

      //SoundPlayer soundPlayer = new SoundPlayer(memoryStream);

      //soundPlayer.Stop();

      //soundPlayer.Play();

      //if(filename!=null)

      //{

      // FileStream fileStream = new FileStream(filename,F(xiàn)ileMode.Create,F(xiàn)ileAccess.Write);

      // memoryStream.WriteTo(fileStream);

      // memoryStream.Close();

      // fileStream.Close();

      //}

      if(filename!=null)

      FileStream fileStream = new FileStream(filename,F(xiàn)ileMode.Create,F(xiàn)ileAccess.Write);

      memoryStream.WriteTo(fileStream);

      memoryStream.Close();

      fileStream.Close();

      SoundPlayer sound=new SoundPlayer();

      sound.SoundLocation=filename;

      sound.Play();

      if(File.Exists(filename))

      File.Delete(filename);

      //退出登錄ret = TTSDll.QTTSSessionEnd(Ptr2Str(session_ID),“”);

      ret=TTSDll.MSPLogout();

      5.2.3 圖靈后臺交互

      本項(xiàng)目中主要依靠的是圖靈后臺來進(jìn)行數(shù)的處理,項(xiàng)目程序先將文字盡心封裝,然后將封裝好的文字包發(fā)送到圖靈后臺,圖靈后臺對該封裝包進(jìn)行相應(yīng)的解析,并對數(shù)據(jù)進(jìn)行一系列的處理,從而得到所對應(yīng)的文字[14~15],具體的流程圖如圖4所示。

      圖4 圖靈后臺交互

      其核心代碼如下:

      public string ConnectTuLing(string p_strMessage)

      //與圖靈機(jī)器人交互的函數(shù),傳string,return string

      HttpWebResponse response=null;

      string result=null;

      String APIKEY =“99dea6dcb60ee0b0144b4eb175976571”;

      String_strMessage=p_strMessage;

      String INFO = Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(_strMessage)); //把信息通過UTF-8編碼

      String getURL =“http://www.tuling123.com/openapi/api?key=”+APIKEY+“&info=”+INFO;

      HttpWebRequest MyRequest = (HttpWebRequest)HttpWebRequest.Create(getURL);

      HttpWebResponse MyResponse =(HttpWebResponse)MyRequest.GetResponse();

      response=MyResponse;

      using(Stream MyStream = MyResponse.GetResponseStream())

      long ProgMaximum = MyResponse.Content-Length;

      long totalDownloadedByte=0;

      byte[]by=new byte[1024];

      int osize=MyStream.Read(by,0,by.Length);

      Encoding encoding=Encoding.UTF8;

      while(osize >0)

      totalDownloadedByte = osize + totalDownloadedByte;

      result+=encoding.GetString(by,0,osize);

      long ProgValue=totalDownloadedByte;

      osize=MyStream.Read(by,0,by.Length);

      //解析json

      try

      JsonReader reader = new JsonTextReader(new StringReader(result));

      for(int i=0;i <=4;i++)

      reader.Read();

      result=reader.Value.ToString();

      catch(Exception)

      throw;

      return result;

      5.2.4 虛擬場景搭建

      虛擬場景搭建,主要是為了讓用戶有一種3D式的沉浸感,讓人們在聊天的時(shí)候有一種真實(shí)感和親切感,虛擬建模首先是通過Maya 將人物和場景搭建出來,在將搭建的這些人物和場景導(dǎo)入到unity 中,在由unity 進(jìn)行具體的處理,編寫成具體的unity c#的腳本,具體的流程如圖5所示。

      圖5 虛擬場景搭建

      5.2.5 VR顯示

      VR 顯示功能是通過暴風(fēng)魔鏡來實(shí)現(xiàn)的,暴風(fēng)魔鏡能夠?qū)⒋罱ǖ膱鼍巴昝赖恼宫F(xiàn)出來,貼切地將3D 沉浸式這種感覺帶入到聊天中來,增加了用戶在聊天中的親切感以及幽默感,具體的流程圖如圖6所示。

      圖6 VR 顯示功能

      6 結(jié)語

      我們目的在于打造一款虛擬環(huán)境下的智能聊天機(jī)器人,實(shí)現(xiàn)人與機(jī)器人的智能交互,在設(shè)計(jì)的時(shí)候兼容了文本和語音兩種形式的聊天。系統(tǒng)后臺采用了圖靈機(jī)器人平臺,結(jié)合科大訊飛的語音處理和合成技術(shù),采用虛擬技術(shù),搭建了一個(gè)虛擬的場景,通過暴風(fēng)魔鏡將搭建的場景完美的展現(xiàn)出來,貼切地將3D沉侵式感覺帶入到聊天中來,增加了用戶在聊天中的親切感和參與感。下一步我們將會針對不通的用戶和聊天場景,去創(chuàng)建各種不同的專用知識庫,使智能聊天機(jī)器人越來越多融入我們的生活。

      猜你喜歡
      圖靈后臺助手
      艾倫·圖靈: 數(shù)學(xué)與邏輯的奇才
      新英鎊
      后臺暗戀
      前臺、后臺精彩花絮停不了
      人工智能簡史
      語言與圖靈測試
      小助手
      靈感助手表彰大會(二)
      靈感助手表彰大會(一)
      電力調(diào)度中后臺監(jiān)控系統(tǒng)的應(yīng)用
      河南科技(2014年11期)2014-02-27 14:10:03
      呼和浩特市| 海晏县| 大石桥市| 太保市| 临夏县| 揭阳市| 泾阳县| 吴江市| 仙桃市| 金堂县| 林甸县| 独山县| 伊金霍洛旗| 贡嘎县| 阜城县| 泉州市| 石屏县| 长乐市| 柳江县| 鸡泽县| 芦溪县| 万源市| 巫溪县| 宁晋县| 阜平县| 临江市| 乌兰察布市| 廊坊市| 金华市| 嘉荫县| 吴旗县| 峨眉山市| 城市| 长泰县| 临桂县| 萨嘎县| 岳普湖县| 资源县| 万全县| 平乐县| 丹寨县|