我一直在等待一個時機寫寫“AI瀏覽器”。原因很簡單,還是我常說的:AI最缺的是眼睛和手腳。而在今天,能讓我們放下手機、打開電腦的理由,主要還是工作。若想讓AI成為我們真正的生產(chǎn)力助手,瀏覽器就是那個能為AI提供眼睛和手腳的最佳載體。
明確一下,本文說的都是電腦上的瀏覽器。在電腦上,瀏覽器是我們大多數(shù)公司人每天面對時間最長的窗口。今天,人們除了通過瀏覽器來獲取信息、瀏覽內(nèi)容,還可以在其中完成各種日常辦公任務(wù)、處理文檔,甚至是專業(yè)的設(shè)計工作。根據(jù)Firefox瀏覽器官網(wǎng)上顯示的用戶使用統(tǒng)計實時數(shù)據(jù),目前,其用戶平均每天使用時長高達5.5小時,足以說明瀏覽器的重要性。
過去幾年,我一直在使用Arc瀏覽器,其開發(fā)團隊名字也頗為復(fù)古,就叫“瀏覽器公司”(The Browser Company)。去年年底,這家“瀏覽器公司”宣布將推出新的“AI瀏覽器”Dia。在Arc老用戶的反對聲中,Dia持續(xù)往前推進,今年3月開啟內(nèi)測,6月啟動公測,同時公司正式宣布將停止為Arc開發(fā)新功能。
這段時間中,我身邊不少喜歡使用AI的朋友,都將自己的默認(rèn)瀏覽器切換成了Dia。
那么,“AI瀏覽器”到底能否在我們的工作中發(fā)揮實用價值呢?要回答這個問題,我們還是得先搞清楚“AI瀏覽器”到底指什么。在我看來,目前市面上自稱“AI瀏覽器”的產(chǎn)品,可以分為三類。
第一類,是所謂的agentic browser。這是最激進的一派,它們以“agent”為主要賣點,如國內(nèi)團隊開發(fā)的Fellou。當(dāng)然,agent這個概念本身也被用得亂七八糟,我在5月刊的本專欄介紹Manus時已經(jīng)討論過。簡單概括Fellou和Manus的差異:如果說Manus是一個自帶電腦的遠(yuǎn)程實習(xí)生,F(xiàn)ellou更像是請一個實習(xí)生來直接操作你的電腦。Manus讓許多人第一次看到一臺電腦在自己操作自己,只是這臺電腦身處遠(yuǎn)方;Fellou則讓你看到你的電腦在自己操作自己。
相較于Manus,F(xiàn)ellou的優(yōu)點和缺點都源自于此。由于它可以直接使用你在瀏覽器中已經(jīng)登錄的賬號,像是Gmail、小紅書、豆瓣、微信網(wǎng)頁版等等,它可以觸達一些Manus難以觸及的地方。但也因為它直接使用你的電腦,盡管團隊做了一些創(chuàng)新來避免AI和人類的相互干擾,但我在實際使用中仍然很害怕會“打擾”AI工作。另外,權(quán)力越大責(zé)任也越大,我真的有些害怕Fellou不小心對我這些個人賬號搞了什么破壞。
正如我在之前那期專欄中總結(jié)的,agent這個詞的重點應(yīng)該是“手腳”,但今天市場上的agent能做好的仍然是信息的獲取和處理,而非真正付諸行動。Fellou未能例外。例如,我嘗試讓Fellou通過微信網(wǎng)頁版向我的一位朋友回復(fù)一句“收到了”,它足足花了十多分鐘,消耗了幾美元,才完成了這個任務(wù)。圍觀agent工作的感受是,現(xiàn)在的agent在閱讀和整理信息時都是超人,但在操作那些為人類設(shè)計的電腦界面時,它們又變回了蹣跚學(xué)步的嬰兒。
因此,結(jié)論也沒有變化:這類AI瀏覽器不適合普通用戶日常使用,但對AI愛好者來說是一個值得探索的玩具。
第二類“AI瀏覽器”以Dia為代表,號稱“為AI時代重新設(shè)計”,但仍然將核心放在了瀏覽上。
Dia最受朋友們歡迎的功能,就是直接針對網(wǎng)頁內(nèi)容問答。在Dia的AI側(cè)邊欄中,用戶能針對當(dāng)前顯示的網(wǎng)頁提問,Dia還支持同時針對多個甚至全部已打開的網(wǎng)頁提問,這在日常做研究時還是蠻方便的。相信大家都給AI聊天機器人發(fā)過網(wǎng)頁鏈接,所以我想應(yīng)該不用再舉例說明這個功能的用處了。
好了,Dia目前最主要的特點,其實用這兩句話就說完了??赡芎芏嗳丝戳艘院髸耄翰痪褪蔷W(wǎng)頁問答嗎?很多瀏覽器的側(cè)邊欄現(xiàn)在也有這個功能,我為什么要用Dia?這也是我剛開始參與Dia內(nèi)測時產(chǎn)生的疑問。
這也就引出了第三類“AI瀏覽器”:在老牌瀏覽器上直接增加AI功能,比如Chrome、Edge、Safari等推出的更新,瀏覽器擴展也歸為此類。早在2023年2月,ChatGPT發(fā)布未滿百日,微軟就憑借自己和OpenAI的獨家合作關(guān)系,率先在Edge瀏覽器(也是Windows系統(tǒng)的默認(rèn)瀏覽器)的側(cè)邊欄中加入了“Bing Chat”,背后的技術(shù)是當(dāng)時尚未公布的GPT-4。
和它們相比,Dia最直觀的優(yōu)勢是設(shè)計簡潔、優(yōu)雅。一些國內(nèi)的產(chǎn)品選擇了堆砌功能,設(shè)計臃腫,我數(shù)了一下自己電腦上安裝的這些產(chǎn)品,其中最貪心的一家在側(cè)邊欄中一次性塞了50多個按鈕,要在這里面找到“與網(wǎng)頁聊天”的選項一點兒也不容易。而Dia的使用體驗非常簡單直接,整個工具欄除了“前進”“后退”“刷新”,只有一個“聊天”按鈕,打開就可以直接問答。這樣的界面設(shè)計背后實際上也是一種取舍,舍棄了無法提出問題的用戶的體驗。
這兩年中大語言模型本身的進步也讓問答體驗更成熟。整體而言,如果你經(jīng)常需要將網(wǎng)頁鏈接發(fā)給AI,Dia可以讓你的日常使用體驗變得愉悅,經(jīng)過從內(nèi)測到公測的優(yōu)化,目前的Dia已足夠穩(wěn)定,推薦一試。
說到這里,到底“AI瀏覽器”能否成功呢?我對AI樂觀,對“AI瀏覽器”卻不那么樂觀。前面提到過Edge“搶跑”—兩年多過去了,Edge的市場份額增長很小,沒能撼動Chrome的主導(dǎo)地位。
人的習(xí)慣是很難改變的。即使進入移動互聯(lián)網(wǎng)時代、PC互聯(lián)網(wǎng)時代的巨頭,除了門戶網(wǎng)站外,瀏覽器作為一個成熟市場,要讓用戶放棄一個用了數(shù)年的工具,非常困難。
當(dāng)然,非常困難并不意味著做不到。歷史上,瀏覽器市場多次改朝換代。最近的一次就是Chrome的崛起。2008年Google推出Chrome時,瀏覽器市場也已經(jīng)是一個成熟市場,由微軟的Internet Explorer(IE,也是當(dāng)時Windows系統(tǒng)的默認(rèn)瀏覽器)統(tǒng)治。然而Chrome一騎絕塵,在短短的數(shù)年間,就取得了全球瀏覽器市場的統(tǒng)治地位。
究其原因,要讓人們改變習(xí)慣,不僅需要比原來的產(chǎn)品做得更好,而且得是超出數(shù)量級的好,好上10倍,帶來體驗的質(zhì)變。我的手上還有一本2008年Chrome發(fā)布時的宣傳冊—回到2008年,隨著像Gmail、Google Docs等網(wǎng)頁應(yīng)用的逐步流行,越來越多的工作正遷移到瀏覽器中完成,IE的卡頓和崩潰成了家常便飯,十分影響人們的工作。Chrome可以說是徹底解決了這些問題。對當(dāng)時包括我在內(nèi)的需要在瀏覽器中辦公的用戶來說,Chrome就像是“地獄里的一杯冰水”,是體驗的質(zhì)變。
類似的經(jīng)典例子還有很多,比如iPhone取代功能機,都是提供了用戶體驗的質(zhì)變。當(dāng)然,這只是第一步。反觀今天的“AI瀏覽器”,包括Dia在內(nèi),雖然努力做了很多體驗創(chuàng)新,但還遠(yuǎn)遠(yuǎn)不夠形成質(zhì)變。AI還沒有深度融合到瀏覽器中,沒有真正成為“眼睛和手腳”。例如,既然瀏覽器承載了我在電腦上的大部分信息獲取歷史,我的標(biāo)簽頁、瀏覽記錄、收藏夾其實就是非常自然的“知識庫”,Dia也在測試這方面的功能。Dia也號稱自己是agentic browser,將推出agent功能。
不過,即使Dia能從其中找到帶來“10倍體驗”的亮點,我也看不到什么Chrome無法跟進的理由。就在剛剛過去的5月,Chrome終于在瀏覽器右上角直接增加了一個Gemini按鈕,用戶可以直接和網(wǎng)頁聊天,體驗和Dia相似。
說回來,其實我今天使用的主力瀏覽器依然是Arc。我屬于瀏覽器標(biāo)簽頁泛濫成災(zāi)型用戶,以前用Chrome時一般同時開著上百個標(biāo)簽頁,Arc解決了這個問題。所以,Arc在2022年推出時對我來說也是“地獄里的冰水”,義無反顧地切了過去,這對我來說就是一種“10倍體驗”。當(dāng)然,Arc的操作邏輯和其他瀏覽器完全不同,學(xué)習(xí)成本很高。但另一方面,習(xí)慣了Arc后也很難切換到其他瀏覽器,包括Dia。
因此,這個產(chǎn)品雖然注定小眾,卻擁有許多忠實擁躉。如果能基于這個預(yù)期來設(shè)計商業(yè)模式,一樣可以是一家成功的公司。遺憾的是,這無法承載“瀏覽器公司”的野心,他們?nèi)匀粵Q定另起爐灶。
只是,推廣Dia并沒有那么容易。