我從小就不喜歡當(dāng)眾發(fā)言,覺得自己缺少一些“急智”,沒有辦法出口成章,經(jīng)常說到后面就忘了前面—用大語言模型的評(píng)估標(biāo)準(zhǔn)來說,就是上下文窗口太小。寫字就不存在這個(gè)問題,寫出來的東西在要拿給別人讀之前,總是有充分的時(shí)間可以反復(fù)推敲的。所以,我更喜歡寫作而非演講。
“演講”這個(gè)詞聽起來頗為嚴(yán)肅,實(shí)際上在我們的當(dāng)代日常生活中卻有著廣泛的應(yīng)用,其中最常見的就是微信的60秒語音消息。對(duì)我來說,要一口氣說60秒話且說得滴水不漏是一件很可怕的事情,所以除非走投無路,我從來不發(fā)語音消息。偶爾用語音輸入,也要轉(zhuǎn)成文本,仔細(xì)編輯后才發(fā)送出去。
有時(shí)候確實(shí)沒那個(gè)條件。寫東西需要把想法整理清楚,這是寫作的優(yōu)點(diǎn),也是缺點(diǎn)。當(dāng)靈感閃現(xiàn),可能是洗澡、上廁所時(shí),也可能是開車、散步時(shí),又或者是清晨醒來、半夜驚醒的瞬間。先不說這些靈感迸發(fā)的時(shí)刻是不是方便打字,假如每個(gè)想法都必須整理清楚才有資格被記錄,那絕大部分的靈感早就消失無蹤了。
過去也有很好用的語音備忘錄產(chǎn)品,例如“錘科殘黨”們念念不忘的、錘子手機(jī)上的“閃念膠囊”,我以前也經(jīng)常使用,它可以將語音輸入即時(shí)轉(zhuǎn)換為文字筆記。不過,寫作和口述是兩種挺不一樣的表達(dá)方式,寫作需要連貫的思考和邏輯,而我們的思維往往是跳躍和碎片的。因此,雖然語音轉(zhuǎn)文本的技術(shù)在移動(dòng)互聯(lián)網(wǎng)的時(shí)代早已成熟,將語音轉(zhuǎn)換為文字內(nèi)容時(shí)能做到95%的準(zhǔn)確率,記錄下來的內(nèi)容若不經(jīng)處理,往往可讀性很差,保留了所有口頭表達(dá)的缺陷。如果你閱讀過播客音頻轉(zhuǎn)化出來的逐字稿,應(yīng)該會(huì)有類似的感受。有些名人的演講,看視頻、聽錄音都非常引人入勝,一旦印出來變成書卻讀之索然無味,也是這個(gè)道理。
久而久之,我就不用語音記錄了,畢竟我確實(shí)無法做到連續(xù)五分鐘條理清晰地闡述一個(gè)主題。
拜大語言模型所賜,從2023年開始,國(guó)內(nèi)外都出現(xiàn)了AI語音筆記這種新的產(chǎn)品形態(tài)。和傳統(tǒng)的語音備忘錄不同,AI語音筆記不僅可以將語音轉(zhuǎn)為文字,在這個(gè)基礎(chǔ)上往往還會(huì)自動(dòng)整理、潤(rùn)色和提煉要點(diǎn)等。
早期國(guó)外的此類產(chǎn)品多為獨(dú)立開發(fā)者開發(fā),如AudioPen、Voicenotes和Cleft等,可能是為了更好承接用戶的已有需求,也覆蓋了會(huì)議筆記、采訪記錄、課堂講座錄音等長(zhǎng)錄音場(chǎng)景,支持的單次錄音時(shí)間從15分鐘到90分鐘不等,甚至也有支持無限時(shí)長(zhǎng)的??梢岳斫?,對(duì)專業(yè)用戶來說,將動(dòng)輒幾個(gè)小時(shí)的錄音一鍵整理成紀(jì)要,節(jié)約下來的時(shí)間更肉眼可見一些。
然而,我覺得強(qiáng)調(diào)這些場(chǎng)景,反而模糊了AI語音筆記對(duì)普通人的真正魅力:捕捉思維碎片。
想象一下,你一邊洗澡一邊對(duì)著智能手表(注意選購(gòu)防水的)說出一連串零散的想法,AI將其自動(dòng)整理成文,等你洗完澡的時(shí)候就能在手機(jī)上看到一篇邏輯通順、行文簡(jiǎn)潔的文字,這才是“出口成章”的體驗(yàn)。從“說話”到“成文”,這種飛躍帶來的表達(dá)的流暢感,也會(huì)讓你在輸出思維碎片時(shí)更加自如。你會(huì)相信,不管你怎么說話,AI都會(huì)努力將最終呈現(xiàn)出來的文本變得清晰、易讀,自己日后回顧也會(huì)非常方便。
將AI比喻成私人助理反而限制了其中的想象力。正如我以前提到過的,AI的價(jià)值不僅是取代已有人類的工作,更大的想象力是讓這些博士水平的助理來做你以前根本想不到可以雇人來替你完成的事情。過去,即使有助理,我也不好意思讓助理隨時(shí)記錄每天這些零零碎碎的所思所想,更別說上面的某些場(chǎng)合并不方便有其他人在場(chǎng)……
這種表達(dá)的流暢感給我?guī)砹饲八从械淖杂筛?。我自認(rèn)英語還不錯(cuò),但自從發(fā)現(xiàn)和ChatGPT類產(chǎn)品溝通時(shí)可以完全不顧及單詞拼寫、單復(fù)數(shù)、時(shí)態(tài),我享受到了前所未有的英語表達(dá)的順暢感,我管這個(gè)叫“語法自由”。今天,AI語音筆記也讓我至少在AI面前實(shí)現(xiàn)了“說話自由”:不必字斟句酌,想到什么就說什么,可以坦然接受自己口齒不清、前言不搭后語……反正總是可以“出口成章”的。
這樣子一來,至少對(duì)我來說,語音輸入的門檻終于降到比文字記錄更低了—前提是沒有他人在場(chǎng)。
實(shí)際上,作為一個(gè)嘗試,這篇文章的草稿就是由我對(duì)AI口述完成的,錄制素材的時(shí)候我完全是想到哪里說哪里,東一點(diǎn)西一點(diǎn)。AI先把這些片段整理為一條條筆記,我再將這些筆記作為素材全部復(fù)制粘貼給大語言模型,整理成邏輯通順的提綱(經(jīng)過對(duì)比,Claude3.7Sonnet交的作業(yè)勝出),然后我在模型完成的初稿上自己繼續(xù)修改、潤(rùn)色。所有的思考仍然出自我本人,AI更像是一位幫助整理和連接的記者。
說到記者,有一個(gè)叫Autobiographer的App就將這個(gè)體驗(yàn)做到了極致。這是一位做過記者的投資人向我推薦的產(chǎn)品,是一個(gè)AI“傳記記者”,可以幫你寫自傳。開始“采訪”后,屏幕上會(huì)顯示它問你的問題,你用語音回答就可以。大多數(shù)人都沒有被記者采訪的經(jīng)歷,更別說是一個(gè)私人的傳記作者,對(duì)我來說,這個(gè)“記者”問的問題是及格的,至少我愿意花點(diǎn)時(shí)間去回答。當(dāng)然,我和人類記者說話時(shí)可不敢如此“說話自由”。
我斷斷續(xù)續(xù)錄了一個(gè)小時(shí),積累了大概5000個(gè)單詞。這個(gè)App要積累到5萬個(gè)單詞才可以生成完整的“自傳”,但你也可以在這個(gè)過程中翻閱“記者”的筆記本。我看了一下,目前為止它對(duì)我第一段創(chuàng)業(yè)經(jīng)歷的記錄還是挺完整的。
暫且不論有多少人想給自己寫傳記,這個(gè)產(chǎn)品讓我想到,AI語音輸入的體驗(yàn)可能確實(shí)需要一些不同的包裝,才能幫更多像我一樣的用戶克服對(duì)語音記錄、說大段獨(dú)白的恐懼。自傳是將零散的記憶和故事組織成連貫的敘事,接受記者采訪,回答記者的問題,要比“獨(dú)白”更好理解,也更容易。當(dāng)你接受采訪時(shí)、正常情況下也不必?fù)?dān)心回答的每一句話都會(huì)原封不動(dòng)地印出來,一定是會(huì)被經(jīng)過調(diào)整、潤(rùn)色的,這個(gè)體驗(yàn)很相似。
若想用語音來記錄碎片想法,今天市面上確實(shí)還沒有很理想的產(chǎn)品。一方面,前面提到,大部分產(chǎn)品要考慮會(huì)議錄音等時(shí)間更長(zhǎng)的場(chǎng)景,默認(rèn)會(huì)顯示至少5分鐘的進(jìn)度條,需要用戶一氣呵成,即使中間可以暫停,使用壓力還是挺大的。
另一方面,AI潤(rùn)色的力度也不容易平衡。做得太少,用戶不容易感受到產(chǎn)品價(jià)值,但一不小心做得太多,也會(huì)讓你覺得最終呈現(xiàn)的不再是自己的想法,而是AI的。理想狀態(tài)下,AI應(yīng)該在語音轉(zhuǎn)文字的基礎(chǔ)上,自動(dòng)去除“嗯、啊、呃”等語氣詞,將邏輯不通順的地方改得通順,把碎片化內(nèi)容整合成完整敘述,刪除冗余和重復(fù)的語句,就可以了。比如,有時(shí)候AI會(huì)用對(duì)我來說陌生的詞匯來總結(jié)我的想法,或者擅自回答筆記中類似“宇宙的終極意義是什么”這種自問自答的問題,這在我測(cè)試的AI語音筆記產(chǎn)品中很常見。筆記試圖捕捉的是自己的思考,是給未來的自己看的,AI越俎代庖、替用戶進(jìn)行了思考,就是個(gè)不好的使用體驗(yàn)了。
也不需要追求什么“原汁原味”,人會(huì)使用工具,工具也會(huì)塑造人。過去人們確實(shí)習(xí)慣了“深思熟慮再記錄”,但假如完全按照用戶過去的習(xí)慣來設(shè)計(jì)產(chǎn)品,用戶的行為就無法進(jìn)化。舉個(gè)例子,人們開始用數(shù)碼相機(jī)拍照后,不會(huì)再有使用膠卷時(shí)的儀式感;工具換成手機(jī)后,拍照更是一件可以隨手做的事情。廢片是變多了,但記錄下來的生活瞬間也變多了,整體記錄的豐富度大大提升。與之類似,AI語音筆記如果可以讓你更頻繁、更碎片化地記錄想法,即使其中大部分想法都會(huì)被扔掉,能被記錄下來的有趣的想法仍然會(huì)比原來更多。就和如今的計(jì)算攝影技術(shù)已經(jīng)模糊了“原圖”的定義一樣,AI應(yīng)該起的作用是將人的思考提取、整理出來,真正有價(jià)值的是思考本身,而非表達(dá)的原始形態(tài)。
不管是口述還是寫作,人的語言是非常局限的,對(duì)于內(nèi)心豐富的流動(dòng)的想法的表達(dá)更是如此。假如AI語音筆記可以降低自我表達(dá)的門檻,捕捉更多我們的想法,這就是很大的價(jià)值。
當(dāng)然,這不見得是一個(gè)創(chuàng)業(yè)的好想法。