作者:Alter
2011年的iPhone 4s發布會上,Siri以智能語音助手的身份初次亮相,成為整場發布會上最大的亮點。
當時許多人還未曾體驗過Siri的服務,但從媒體報道中建立了一個樸實的愿望:就像《鋼鐵俠》中的賈維斯一樣,每個人都將擁有自己的智能助手,可以實時溝通,幫助我們解決各種問題。
即使Siri后來“跌落神壇”,人們對于“賈維斯”的期望始終沒有抹滅。AlphaGo、智能音箱、大模型……每一次現象級的創新背后,總有人在討論:《鋼鐵俠》中的賈維斯,離我們的生活還有多遠?
2024年大概率是愿望成真的一年。
7月末,OpenAI宣布向部分付費用戶開放GPT-4o的視頻通話版本,能夠即時與GPT進行視頻交互問答,通過攝像頭識別畫面,在線解答各種問題,比如實時翻譯、解線性方程題等。
8月29日,智譜AI官宣智譜清言APP上線“視頻通話”功能,成為首個可以通過文本、音頻、圖像和視頻來進行多模態互動和實時推理的AI助手。目前已經向部分用戶開放,并且開放了外部申請權限,將持續迭代并逐步放開規模。
由此產生的一個話題是:為什么頭部的大模型廠商都在死磕“視頻通話”功能,對用戶體驗有什么影響,“人手一個賈維斯”的愿望能否照進現實?
01 解鎖AI新體驗
大模型引發的新一輪技術熱潮已經持續了近兩年時間,市場上出現了形形色色的AI助手,人機交互卻被“束縛”在了對話框中,停留在文本輸入的階段。某些產品推出了語音對話功能,但較高的延遲導致體驗不佳,而且無法理解語調起伏、笑聲等表達的情感信息,僅僅是用語音替代文本輸入。
我們提前一天體驗到了智譜清言APP的“視頻通話”功能,在內測群里和其他進行了簡單交流,發現了一些有趣的應用場景:
第一個場景是作業輔導。
不同于OpenAI發布會上演示的簡單方程組解答,有群友直接將智譜清言用于孩子的作業輔導:
比如小學數學的互余角計算,智譜清言迅速理解了視頻中題目的語義,并將問題進行了拆解,一步步引導孩子去計算,當孩子給出正確的答案后,智譜清言還在第一時間給出了“太棒了”的鼓勵。
而在英語教學的場景中,孩子用筆在紙上圈出了某個單詞,智譜清言精準識別到了圈住的詞匯,并給出了正確的發音,甚至在孩子的朗讀出現錯誤時,“耐心”地進行了讀音矯正,就像是一個坐在孩子身邊的“英語老師”。
第二個場景是產品介紹。
有時買到的商品是英文包裝,可能看不懂使用說明和注意事項,是否可以用“視頻通話”功能填補信息差呢?
我們將攝像頭對準了星巴克買來的一款咖啡豆,因為存在折痕,一些英文字母出現了變形,但智譜清言依然準確識別出了商品信息,包括產品名稱、配料、產地、風味、品牌等基礎內容。
接下來詢問了咖啡豆的制作和儲存建議,即便是遠遠超出視頻畫面中的信息,智譜清言同樣給出了確切的答案:做美式超合適,味道正好;保存咖啡豆要放在陰涼干燥的地方,避免受潮或曬太陽......
第三個場景是廚房助手。
因為每天中午都面臨“吃什么”的煩惱,于是萌生了一個想法:讓智譜清言識別菜品,并給出建議的菜譜和制作方法。
我們同時將白菜、干辣椒、大蒜和生姜放在案板上,然后詢問都要哪些食材,可以用來做什么菜。沒想到的是,智譜清言準確說出了每一種食材的種類,并給出了辣椒炒白菜的建議。
進一步詢問應該怎么做,智譜清言詳細給出了鍋熱加油、姜蒜炒香、加入紅辣椒、香味出來后放切好的白菜等一整套流程。而當我們進一步詢問“做醋溜白菜還需要哪些食材”時,智譜清言的答案再次讓人驚艷:“做醋溜白菜的話,還需要點醋和糖”。
可以看到,上面的幾個“小兒戲”并不能難倒智譜清言,比答案更重要的其實是整個問答的過程:不僅能夠準確識別攝像頭拍攝到的內容,聽懂語音指令并準確執行,即使打斷它也能迅速給出反應。相較于機械式的一問一答,在體驗上越來越接近人與人的自然交流。
02 到底難在哪里
對智譜清言APP的“視頻通話”功能做個總結的話,主要解決了三個痛點:
1、新的信息輸入模式,不再局限于文字和語音,而是文本、圖像、音頻和視頻等多個模態,AI可以自己“看世界”了;
2、新的對話交流模式,過去的對話交流大多是一問一答式的,合理但不符合真實習慣,現在已經可以做到“隨時打斷”;
3、新的人機交互場景,簡單高于一切,視頻和語音帶來了近乎零門檻的用戶教育,意味著人機交互可能迎來革命性更新。
上面提到的情景,曾不只一次出現在科幻電影中。除了前面提到的《鋼鐵俠》,《流浪地球》《Her》《銀翼殺手2047》等電影中都有類似的橋段。因為最符合人類習慣的交互,從來都不是鍵盤,而是對話。
要實現“視頻通話”功能,到底難在哪里呢?就大模型而言,必須要滿足兩個方面的能力要求。
首先是多模態能力。
簡單來說,模態就是信息輸入和輸出的表現形式,包括文字、圖像、語音、視頻等等。為什么多模態能力重要呢?因為人類認識世界的方式本身就是多模態,眼睛、耳朵、嘴巴、手腳等承載了不同的信息感知,AI想要替代人類的工作,幫助人類學習、認識和理解這個世界,前提正是多模態數據處理能力。
其次是模型推理速度。
人類對話的普遍間隔時間是250毫秒,偏離這個間隔越久,交互就越“不自然”,體驗也就越“不爽”。目前大模型存在的問題在于:推理時長往往在3秒以上,直接影響了用戶體驗和業務效率。OpenAI曾公開GPT-4o的語音延遲數據,平均為 320 毫秒,智譜AI尚未公布詳細數字,但實際體驗和GPT-4o相當。
也就是說,大模型的競爭就是一場開卷考試,追求的目標一致,且路徑逐漸清晰,比拼的其實是技術硬實力。
以智譜清言為例,之所以成為國內首個面向C端開放“視頻通話”功能的產品,離不開兩個核心優勢:
一個是時間上的先發優勢。早在2021年3月,智譜AI團隊就推出了GLM系列大模型,2021年5月推出了推出了將中文文字生成圖像的文生圖模型CogView,2022年在CogView2的基礎上研發了視頻生成模型CogVideo……超過國內同行近兩個的時間優勢,讓智譜AI在多模態能力上有著更深的沉淀。
另一個是能力上的領先優勢。比如智譜AI聯合清華KEG潛心打磨的CogVLM-17B,在多個數據集上獲得了SOTA或第二名的成績;新推出的GLM-4V-Plus,在MVBench、LVBench、OCRBench、MMVET等多個基準測試中的表現超過GPT-4o和Gemini 1.5Pro,達到國際先進水平。
03 “盛宴”剛剛開始
也許在一些人眼中,“視頻通話”不過是一項尋常的功能創新,放諸到商業語境里,卻有著不可小覷的作用。和每一次風口出現時一樣,大模型的概念剛走紅時,創業者們一窩蜂地涌入,試圖在新一輪的創業潮中搏一個機會??芍钡浆F在,市場上還沒有跑出一款真正意義上的殺手級產品。
不少人將ChatGPT的走紅視作“AI的iPhone時刻”,可初代iPhone的銷量只有700萬臺,并未改寫諾基亞統治市場的格局;讓無數開發者從中獲利的App Store,則要追溯到2008年發布的iPhone 3G。
初代iPhone的“歷史價值”,其實是電容屏和多點觸控。
諾基亞和摩托羅拉也曾推出多“大屏”手機,但采用的是電阻屏,需要用觸控筆才能操作,導致使用門檻高且場景有限。相比之下,多點觸控的電容屏允許用戶直接用手指操作、輸入和互動,極大地降低了用戶的學習成本,賦予了開發者更大的想象空間,進而才有了移動互聯網的繁榮。
沿循這樣的邏輯,“對話框”就像是電阻屏,“視頻通話”功能讓大模型的人機交互進化到了電容屏時代。
個中差別并不難解釋。
作為一個深度使用大模型能力的普通用戶,之前我們的需求主要集中在文本生成、圖像生成和視頻生成,比如讓AI寫簡單的視頻腳本、生成文章配圖和視頻素材,核心場景并未脫離“工作”的范疇。
體驗了智譜清言的“視頻通話”功能后,我們深切地感受到:多模態能力和毫秒級的推理速度,在生活中有著無處不在的應用場景,比如出國旅游時打開攝像頭將餐廳的菜單翻譯成中文、工作面試前讓AI扮演面試官提前模擬面試、早上出門時打開視頻詢問今天的穿著怎么樣、吃零食前先讓AI識別計算卡路里……對應的生活場景不可計數。
對于開發者而言,“卷模型還是卷應用”的爭論有了確切的答案:大模型打破能力上的枷鎖后,開發者可以在更多場景中開發有價值的應用。
譬如我們曾走訪過一家工業企業,為了解決大型機械設備的維修問題,這家企業采用了AR眼鏡+遠程工程師的模式,即由當地工作人員戴著AR眼鏡采集實時數據,后端的維修工程師進行遠程指導,在一定程度上節約了工程師的差旅和時間成本,但培養一個工程師的時間成本近乎無解。
現在無疑有了新的解法:這家企業可以將工程師的經驗和知識用于訓練專有大模型,然后通過“視頻通話”功能為現場員工賦能,在AI的指導下一步步解決問題,每個人都能擁有資深工程師的能力。
把思維再發散一些的話,幾乎所有的場景,都可以利用“視頻通話”能力重新做一遍,包括但不限于作業輔導、英語家教、景區導覽、數字客服等等,等待開發者的不再是同質化競爭的局面,而是深入一個場景做深做實。
當想象力不再被制約的時候,就是價值加速變現的拐點,也是大模型盛宴開場的積極信號。
04 寫在最后
年初的一場演講上,智譜AI CEO張鵬曾斷言:2024年一定是AGI元年,而多模態是AGI的一個起點。
2024年已經過去三分之二,回頭再來審視張鵬的判斷,正一步步被驗證。同時也意味著,大模型行業的演進正走在一條可預見的道路上,不斷在圖文的基礎上融合聽覺、視覺等模態的認知能力,加速邁向AGI時代。