比接到騷擾電話更煩人的是什么?是接到了來自AI的騷擾電話,讓你即便想吐槽,想表達(dá)不需要,都沒有機(jī)會(huì),因?yàn)槟銦o論如何表述,對(duì)面的機(jī)器人都異常冷靜,不悲不喜。
不知從何時(shí)起,AI電話外呼已經(jīng)蔓延到了各個(gè)行業(yè)。與傳統(tǒng)電話外呼模式相比,AI電話效率更高且成本更低,因此近年來在國內(nèi)外都發(fā)展迅猛。
在國外,AI電話不僅頻頻被用于詐騙,而且今年恰逢美國大選年,一些別有用心之人會(huì)用AI模擬名人聲音,為候選人“助選”。
AI電話來勢(shì)洶洶,面對(duì)這一監(jiān)管難題,各方都在加速頒布各項(xiàng)法規(guī),以期能規(guī)范以AI電話為代表的AI行業(yè)發(fā)展。今年8月起,歐盟《人工智能法案》正式生效,旨在解決公民健康、安全和基本權(quán)利面臨的潛在風(fēng)險(xiǎn),明確了開發(fā)人員和運(yùn)營者關(guān)于人工智能特定用途的明確需求和義務(wù)。
不久前,美國聯(lián)邦通信委員會(huì)(FCC)也公布了新提案,希望再次擴(kuò)大對(duì)電話相關(guān)的AI技術(shù)監(jiān)管范圍,要求相關(guān)公司必須披露在短信和電話中使用AI的報(bào)告;在此之前,F(xiàn)CC已禁止了在針對(duì)消費(fèi)者的自動(dòng)語音電話中使用語音克隆技術(shù)。
從技術(shù)角度而言,AI電話呼叫并非什么高科技。早在1950年代,美國的泛美航空就已經(jīng)建立起了全世界首個(gè)具有一定規(guī)模的呼叫中心。如今的AI電話呼叫則是在原有呼叫中心的技術(shù)基礎(chǔ)上,搭載了多項(xiàng)人工智能技術(shù)的產(chǎn)物。
從技術(shù)角度來看,在呼叫和篩選層面,AI能力往往體現(xiàn)在從眾多的客戶信息中,篩選出更有觸達(dá)價(jià)值的客戶—但這需要足夠的數(shù)據(jù),相關(guān)算法也并未開源,因此在實(shí)際操作中,不少電話呼叫往往并不篩選,而是選用更為簡單的或按區(qū)域/號(hào)段,或根據(jù)具體名單呼叫的方式。
從使用場(chǎng)景來說,AI電話在國內(nèi)主要應(yīng)用于告知客戶優(yōu)惠信息、回答常見問題、處理投訴等情況,在這過程中會(huì)與客戶產(chǎn)生一定量的對(duì)話,因此就會(huì)用到自動(dòng)語音識(shí)別(ASR)、自然語言處理(NLP)和語音合成(TTS)等多項(xiàng)AI技術(shù)。這些技術(shù)經(jīng)過多年的發(fā)展已經(jīng)相對(duì)更為成熟,市面上也多有低價(jià)甚至免費(fèi)的解決方案。
簡單來說,一次完整的AI通話包括以下幾個(gè)步驟:在電話接通的一瞬間,用戶最先聽到的是TTS技術(shù)制作的AI語音,如果用戶在此時(shí)對(duì)語音做出了回應(yīng),AI就會(huì)調(diào)用ASR和NLP技術(shù),以便能聽懂客戶的回復(fù)并得出回話的文字內(nèi)容,再通過TTS制作成為語音內(nèi)容進(jìn)行回復(fù),從而實(shí)現(xiàn)與人類進(jìn)行語音對(duì)話。
雖然描述比較復(fù)雜,但在實(shí)際應(yīng)用中,這些技術(shù)通常都能在較短時(shí)間內(nèi)響應(yīng),只要用戶回復(fù)不是過于復(fù)雜,AI基本能做到及時(shí)回復(fù),這也是為什么一些初次接到AI電話的用戶,往往并不能識(shí)別出電話那頭是AI而非真人。
不過,以目前的技術(shù)成熟度而言,大部分AI電話并不能完全理解較為復(fù)雜的對(duì)話,這也是為何哪怕有用戶耐心回答完AI的所有提問,AI電話往往也是以“稍后會(huì)有負(fù)責(zé)人與您聯(lián)系”作為結(jié)尾。
與國內(nèi)的AI外呼目前多用于銷售相關(guān)場(chǎng)景不同,歐美的AI外呼往往與詐騙關(guān)聯(lián)度較高,不少名人也是受害者。據(jù)英國《金融時(shí)報(bào)》報(bào)道,全球最大的廣告?zhèn)鞑ゼ瘓F(tuán)WPP首席執(zhí)行官馬克·里德,被使用語音克隆的騙子盯上了,騙子從網(wǎng)上獲取到了馬克詳盡的語音和視頻資料,通過AI進(jìn)行了“克隆”,從而以電話或視頻方式試圖詐騙WPP的合作方。
從技術(shù)層面來說,這些騙子是在AI外呼的基礎(chǔ)上,額外搭載了歌聲合成(SVS)和歌聲轉(zhuǎn)換技術(shù)(SVC),即通過AI將一段人聲音頻轉(zhuǎn)換為另一種聲線。地圖軟件里的明星虛擬導(dǎo)航員、此前異?;鸨腁I翻唱,大多都是應(yīng)用了這類技術(shù)。
AI能力往往體現(xiàn)在從眾多的客戶信息中,篩選出更有觸達(dá)價(jià)值的客戶。
極低的成本,是AI外呼行業(yè)能夠迅速擴(kuò)大規(guī)模的原因之一。以某搜索引擎中搜索結(jié)果排名前列的一家電話呼叫平臺(tái)為例,該平臺(tái)客服表示,其AI外呼平均每天可以撥打800—1200個(gè)電話,不僅相當(dāng)于3—5名員工的工作量,而且365天全年無休,3%左右的獲客率,也略高于人工外呼。
此外,該AI還可以配備多套話術(shù),并提供全程電話錄音,200元即可支持1800分鐘通話時(shí)長,平均算下來每分鐘不過0.11元,價(jià)格遠(yuǎn)低于人工客服。
之所以價(jià)格如此低廉,也與AI行業(yè)的技術(shù)下放有關(guān)。AI外呼電話在通話過程中所需要用到的各項(xiàng)技術(shù),頭部AI廠商均提供了免費(fèi)的接口。
以ASR為例,科大訊飛、OpenAI、網(wǎng)易、騰訊等均有自己的語音識(shí)別系統(tǒng),科大訊飛更是早在2017年就開放了自家語音識(shí)別接口,可供用戶免費(fèi)或者付費(fèi)使用。
GPT-4o平均短至0.32秒的響應(yīng)速度,已與人類反應(yīng)時(shí)間不相上下。
又如NLP,無論是阿里巴巴等互聯(lián)網(wǎng)企業(yè),又或是清華大學(xué)自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室等研究機(jī)構(gòu),都有自己的NLP模型和開源項(xiàng)目;而微軟開源的TTS技術(shù),早就被各類營銷號(hào)和諸如“3分鐘看完一部電影”等自媒體所熟練掌握。
即便是大廠并未提供免費(fèi)使用的技術(shù),網(wǎng)上也有不少技術(shù)大牛熱衷于分享開源代碼,試圖教會(huì)網(wǎng)友。
今年5月,OpenAI發(fā)布了一則視頻,演示了該公司旗艦大模型GPT-4o。在視頻中,GPT-4o能夠像真人一樣和人類進(jìn)行視頻通話,不僅能用語音準(zhǔn)確回答提問,還能通過攝像頭看懂人類究竟在做什么。
GPT-4o平均短至0.32秒的響應(yīng)速度,已與人類反應(yīng)時(shí)間不相上下,應(yīng)答過程中的表現(xiàn),也與真人更為接近,這一技術(shù)顯然是對(duì)現(xiàn)有AI電話能力的全面覆蓋與升級(jí)。
雖然此后OpenAI并未正式上線這一大模型,但其在視頻中展示的功能,卻在今年7月被機(jī)器學(xué)習(xí)工程師出身的科技博主Santiago給成功“仿制”,并將代碼無償分享給了所有人。
Santiago在教學(xué)視頻中表示,他所用到的大模型,均為ChatGPT、谷歌Gemini等企業(yè)現(xiàn)成的AI模塊,無需太多專業(yè)知識(shí)也可掌握。
考慮到AI行業(yè)仍處于高速發(fā)展期,AI技術(shù)也在不斷迭代升級(jí)中,舊有技術(shù)也會(huì)不斷下放,普通人可以輕松掌握的AI技術(shù)只會(huì)越來越多。
某互聯(lián)網(wǎng)頭部企業(yè)AI算法工程師曉晨告訴《看世界》,據(jù)他了解,專注于AI電話領(lǐng)域的大公司不算多,市面上大多數(shù)AI外呼平臺(tái)都是中小型企業(yè),這些企業(yè)用到的技術(shù)是相對(duì)低端的免費(fèi)技術(shù),所以可能會(huì)呈現(xiàn)出答非所問或響應(yīng)時(shí)間過長的情況,這也是消費(fèi)者對(duì)AI電話深惡痛絕的原因之一。
技術(shù)本無罪,熱衷分享的互聯(lián)網(wǎng)精神,也是科技進(jìn)步的動(dòng)力之一。但當(dāng)一些心懷不軌之人盯上了這些技術(shù)利用AI作惡時(shí),合理的監(jiān)管就必須被提上日程。從全球范圍來看,如何監(jiān)管AI電話,無疑是一大難題,往往是按下葫蘆浮起瓢。
去年底,美國新罕布什州發(fā)生了多起利用AI語音克隆技術(shù)誘騙選民投票的案件。為此,今年2月,F(xiàn)CC通過了相關(guān)法案,禁止在AI電話中使用包含語音克隆的內(nèi)容—但這一禁令并未限制AI智能回復(fù)和使用錄音,公司可以通過提前錄制大量錄音,或語音剪輯等方式,來繞過禁令。
為此,F(xiàn)CC在7月公布出了一份新的提案,要求呼叫者必須明確披露自身使用了AI技術(shù),且需在消費(fèi)者知情并同意接收AI電話的情況下方可撥打。而如果呼叫中包含AI語音,則呼叫方必須在每次呼叫開始時(shí),明確告知接聽者該呼叫正在使用AI技術(shù)。目前,這一提案正在審查中,尚未正式實(shí)施。
8月起,歐盟《人工智能法案》正式生效,作為全球首部全面監(jiān)管AI的法規(guī),該法案無疑是歐盟在規(guī)范AI方面的重要舉措,但仍有一定的局限性:美聯(lián)社指出,該法案的限制會(huì)分布推進(jìn),大部分內(nèi)容最晚至2026年8月才開始實(shí)施,相關(guān)企業(yè)有2年左右的緩沖期,企業(yè)在執(zhí)行細(xì)則方面仍有溝通空間。
與歐美情況不同,曉晨認(rèn)為,在國內(nèi),令人煩擾的AI電話與其說是AI技術(shù)作惡,不如說是信息泄露和對(duì)高頻次呼叫限制不足導(dǎo)致,畢竟AI外呼平臺(tái)用到的技術(shù)并不高級(jí),監(jiān)管層面幾乎不可能對(duì)這些最底層技術(shù)一禁了之。
面對(duì)層出不窮的AI電話,他建議消費(fèi)者可以采用手機(jī)自帶或第三方攔截工具進(jìn)行攔截,又或者嘗試開啟手機(jī)里的AI通話助理功能—不過他也坦陳,這些工具并不能完全阻截騷擾電話,只能說是治標(biāo)不治本。
盡管國內(nèi)外消費(fèi)者對(duì)AI電話觀感都不佳,但并不妨礙這一行業(yè)高速發(fā)展。美國市場(chǎng)研究公司Grand View Research發(fā)布的《AI呼叫行業(yè)趨勢(shì)報(bào)告》指出,截至2022年,全球AI呼叫市場(chǎng)規(guī)模為13.8億美元(約合人民幣98.9億元),預(yù)計(jì)2023—2030年,將以23.1%的復(fù)合年增長率增長。
如何監(jiān)管這一龐大的行業(yè),無疑是對(duì)相關(guān)部門智慧的又一次考驗(yàn),畢竟,任何科技進(jìn)步的出發(fā)點(diǎn),都該是更好地造福人類,初心是為人類提供精準(zhǔn)服務(wù)的AI呼叫,不該淪為遭人白眼的代名詞。
(文中曉晨為化名)
責(zé)任編輯 吳陽煜 wyy@nfcmag.com