來源 / Alter
每隔一段時間,大模型行業都會傳出新的消息。
先是在9月中旬,OpenAI在沒有預告的情況下發布了o1模型的預覽版;不到半個月后,國內的智譜發布了若干更新模型,其中就包括新的基座大模型GLM-4-Plus,也是智譜當前最強大的模型。
國外圍繞o1模型的討論和場景探索還在繼續,也讓我們對GLM-4-Plus萌生了興趣:智譜的最強模型到底有多強,能夠解決哪些“懸而未決”的問題,又將帶來什么樣的影響?
01 全球前三的GLM-4-Plus,到底強在哪里
早在9月底的時候,國內人工智能權威機構清華大學基礎模型研究中心就對國內外最具代表性的大模型進行了新一輪的綜合性測評,評測數據集包含語義、對齊、代碼、智能體、安全、數理邏輯、指令遵循等等。
按照清華大學基礎模型研究中心發布的SuperBench九月綜合榜單,GLM-4-Plus的綜合能力排名前三,打破了過去被國外大模型壟斷前三甲的局面,并在多個關鍵能力上保持了國際領先水平。
鑒于GLM-4-Plus在上線前已經內測了一段時間,期間有不少技術博主曾進行評測,我們關注到了三個層面的能力提升。
一是語言理解能力,通過大規模語料庫訓練和優化算法,GLM-4-Plus在處理復雜語義上的表現較其他模型更加出色。
借用測評博主toyama nao的結論:在難度較高的水果熱量計算上(需要合理搭配水果,使總熱量剛好在一個區間),大部分模型并沒有真的懂題目,但GLM-4-Plus完全理解了題意,并采用逐步湊數的方法給出了正確答案,而且回答非常有“人味”,也是第一個在此題拿到滿分的模型。
二是長文本能力,GLM-4-Plus支持128K上下文,憑借創新的記憶機制和分段處理技術,可以高效地處理大量文本信息。
我們之前曾讓支持1M上下文的GLM-4-Long扮演了“書童”的角色,兩分鐘就能“熟讀”50多萬字的《國史大綱》。GLM-4-Plus在上下文長度上沒有過于“激進”,而是基于精準的長短文本數據混合策略,取得了更強的長文本的推理效果,能夠滿足論文閱讀、文章總結等更高頻的應用需求。
三是時序問答和多輪對話能力,從單一的圖像識別進化到對視頻、圖像的理解,并能針對單個視頻進行多輪對話問答。
在智譜的Demo中,輸入長達40秒的視頻后,GLM-4-Plus可以準確理解并感知時間,精準定位到事件發生的時刻,然后在視頻理解的基礎上結合上下文進行對話,比如視頻中的某個物體是在第幾秒出現的、一共出現了幾次,在智能安防、智能檢測等場景中有著不可小覷的應用空間。
當然,以上只是我們比較感興趣的幾個能力,GLM-4-Plus的提升還體現在數學問題與代碼計算、數據分析任務、機器翻譯等方面,作為智譜全模型家族堅實的能力底座,堪稱“六邊形戰士”般的存在。
02 比性能指標有感知的,是解決問題的能力
智譜提供了GLM-4-Plus的API接口,即使不懂技術原理、不會訓練和微調,也可以調用API來解決工作中的實際問題,甚至動手開發出一個“智能體”,相比性能指標上的提升,有著更直接的價值感知。
因為日常工作需要處理大量的文字資料,限于大模型的語言理解和長文本能力,一些需求尚未被滿足。于是我們在智譜的開放平臺bigmodel上調用了GLM-4-Plus,并進行了針對性的場景測試:
第一個是財務報告的閱讀和信息整理。
每次到了財報季,不少企業會公布一份長達幾十頁乃至上百頁的報告,從頭到尾閱讀報告的內容,至少需要兩個小時的時間,而且會習慣性忽略掉一些關鍵信息,所以我們將信息的整理工作交給了GLM-4-Plus。
我們上傳了PDF文件,并輸入“總結報告中的核心信息”的指令后,GLM-4-Plus迅速給出了我們想要的信息:
其中有兩個讓我們眼前一亮的細節處理:原報告中單位是“千美元”,GLM-4-Plus在輸出的總結內容中,自動將單位換算成了“百萬美元”;“晶圓代工”的收入和增長并未體現在圖表中,僅在“管理層討論與分析”的篇末提及,依舊被GLM-4-Plus精準“捕捉”。
第二個是圍繞一些細節信息的對話問答。
文檔閱讀幾乎是所有大模型主打的場景,僅僅是信息總結似乎不能證明GLM-4-Plus的能力有多強。所以我們進一步提升了難度,用一些“隱藏”在表格中的信息詢問GLM-4-Plus,驗證能否在數萬字的報告中準確回答。
比如“目前有多少研發人員,30歲以下年輕人占比”的問題:
這個問題的迷惑性在于,表格中分別列舉了2023年中和2024年中的研發人員數量,如果大模型不能準確理解上下文語義,很可能會給出2023年的數據。GLM-4-Plus的表現無疑可圈可點,不僅準確抓住了2024年的數據,給出了表格中沒有的計算過程,而且將和問題對應的數字進行了加黑處理。
第三個是提煉核心信息并生成視頻腳本。
除了歸納總結和信息檢索,另一個剛需場景在于內容生成。我們嘗試讓GLM-4-Plus在報告的基礎上提煉核心信息并生成視頻腳本,在這個產品高度同質化的賽道上,GLM-4-Plus能否給出不一樣的體驗感呢?
結果再次超出了我們的預期。
原以為GLM-4-Plus會像很多大模型一樣只是對信息進行簡單的總結,最終給到的是一份90分的高分答卷,涵蓋旁白、畫面切換以及對插入圖表、數據動畫、“背景音樂選擇輕快但不喧賓奪主的風格”等貼心建議,也讓我們進一步理解了測評博主toyama nao為何會給GLM-4-Plus“有人味”的評價。
做一個總結的話,在GLM-4-Plus的幫助下,我們的工作效率至少提升了300%,考慮到智譜已經在智譜清言上線了視頻創作智能體清影,30秒即可將任意文字生成視頻,讓我們對GLM-4-Plus的能力有了更多的期待:也許在不久后,只需上傳一份財報,就能自動生成視頻快訊。
03 人機交互的新范式,正被千萬開發者定義
盡管我們的需求主要集中在內容創作上,但在體驗了GLM-4-Plus的能力后,腦海中產生了這樣一個認知:GLM-4-Plus提升的不單單是工作效率,人機交互的習慣正在朝不可逆的方向演變。
就像財報分析的過程,有別于過去逐段閱讀、邊看邊記筆記的方式,GLM-4-Plus的多輪對話能力,讓我們可以對著目錄針對性提問,對整個工作流程和效率幾乎是重塑的,一旦養成了習慣就不愿再重復過去的方式。
在整理素材的過程中,我們看到了GLM-4-Plus更多的應用場景:
有人將整理的大廠面試題庫“喂”給了GLM-4-Plus,然后讓模型生成針對性的面試題目。聯想到智譜清言APP上線的“視頻通話”功能,讓AI扮演面試官的角色,進行一對一針對性訓練并非沒有可能。
也有人在挖掘GLM-4-Plus的數學問題與代碼計算能力,在大模型的幫助下一步步厘清破題思路、給出準確的代碼計算邏輯,進而幫助學生更好地分析和解答數學題,讓GLM-4-Plus充當一對一家教。
更大范圍的用戶習慣,還需要和千萬開發者一起培養。
比如智譜清言APP的“視頻通話”功能,當AI有了“眼睛”后,幫我們解鎖了作業輔導、產品介紹、游戲助手等一系列新體驗。目前智譜已經開始內測GLM-4-Plus-VideoCall,將“視頻通話”的魔法賦予越來越多的開發者。
以智能硬件為例,VR眼鏡、智能音箱、家教學習機等產品都可以集成GLM-4-Plus-VideoCall,實現視頻通話、語音多輪交互等跨模態能力,讓電影《Her》中的場景從科幻走進現實。
同樣的例子還有風頭正勁的具身智能,在工業機器人等場景中,一旦擁有了視頻分析與實時交互能力,將不再局限于程序設置的機械操作,極大提升工業機器人的自主操作能力,進一步解放生產力。
也就是說,GLM-4-Plus不只是“智能體”開發者的機會,還為硬件開發者提供了軟硬協同的合作空間。
把視角再放大一些的話,蘋果已經在iPhone 16系列上搭載了一顆獨立的“相機鍵”,并在官方演示中將其定義為視覺AI的交互入口,在很大程度上預示了硬件創新的方向。
由此可以得出的結論是:智譜等大模型廠商已經向硬件開發者張開了懷抱,而蘋果為首的硬件廠商正在積極迎接AI時代,一場“雙向奔赴”將是可以預見的結局。
04 寫在最后
令人興奮的,遠不止大模型的能力進階和落地場景。
智譜在更新模型的同時,還同步釋放了一波紅利:10月份將贈送每位用戶1億tokens額度,并根據消耗梯度提供最高1折的API折扣。
原因并不難解釋,GLM-4-Plus在能力提升的同時,成本也在大幅下降。大模型落地到千行萬業的最后一道障礙,正在無形中“瓦解”。等待我們的,注定是一個被大模型改寫的星光熠熠的時代。