文/王吉偉
我在今年1月初寫了2025年的AI Agent發展十三大趨勢,其中兩個趨勢是多Agent系統開始流行和GUI Agent產品得到更多應用,沒想到來得這么快。
推薦閱讀:智能體商用元年開啟,2025年AI Agent行業發展十三大趨勢
最近幾天,集多Agent架構、computer use、GUI智能體等技術和概念于一身的Manus,通過一些媒體、科技博主的報道和渲染,在 “比肩DeepSeek” “AI Agent 的GPT時刻” 等一浪強過一浪的聲浪中,Manus一夜出圈。
官方資料顯示,Manus通過多Agent架構(Multiple Agent)將任務拆分為規劃、執行、驗證等子模塊,每個Agent基于獨立的語言模型或強化學習模型,通過API協同工作,最終在虛擬機中調用工具(如編寫代碼、爬取數據)完成任務。這些特性,是多智能體架構的通性。
這樣的項目實現,對于不懂代碼的可能很難。對于懂代碼的來說,好吧,來自知名多Agent架構MetaGPT的3個小伙子僅用了3個小時就把Manus復現了。這個項目叫OpenManus,到這篇文章發布時已經有16.3k stars了。Manus的出圈以及短期內體驗,間接捧紅了這個同類型開源項目,潑天富貴就這樣簡單地轉移了。
項目地址:https://github.com/mannaandpoem/OpenManus
當然快速復現Manus的團隊不只一個,同樣是知名多Agent架構的Camal團隊也僅用了0天就復刻了Manus,這個項目叫作owl,目前也有4K stars了。
項目地址:https://github.com/camel-ai/owl
也就在這幾天之內,已經出現了多個復刻Manus的開源項目。3月這才剛開始,多智能體架構、computer use、GUI智能體的概念就徹底爆發了。
再說回Manus。
在應用場景方面,Manus覆蓋旅行規劃、股票分析、教育內容生成等40余個領域。這么多場景任務都能實現,再加上自主執行的能力,當真是媲美鋼鐵俠的“賈維斯”助手了。這樣的噱頭,想不吸引人都難。
所以,其核心賣點在放在了“自主執行”能力上與場景通用上。
Manus的核心架構與Anthropic的“Computer Use”高度相似,依賴多Agent虛擬機環境完成任務。“自主規劃”能力則基于現有大語言模型(如GPT-4)的調用,很有可能在任務規劃模型上也用了DeepSeek,可以大大降低成本。
因為Manus沒有自研基礎大模型,而是通過整合OpenAI的GPT-4、Anthropic 的Claude等第三方模型實現功能,其核心架構被定義為「虛擬機+多模型協同」的封裝模式。這種做法,也就是業界所謂的“套殼”。
有業內人士直言,Manus的核心能力,如任務拆解其實與Devin、Cursor等現有產品相似,其創新更多體現在工程封裝而非底層技術突破。
Manus號稱全球首款通用AI Agent,對于此只能說智者見智了。通用AI Agent意味著多場景匹配、跨場景應用 多智能體協作乃至跨平臺應用,背后需要強大算力和穩定網絡的支撐,需要多重模型的綜合應用,更需要對高并發支持。
LLM Based Agent,性能和功能取決于LLM的能力,理論上當前的大語言模型可以支撐通用AI Agent實現,但在任務執行時間 任務完成度上對用戶體驗是很大的考驗,一個復雜的任務可能會需要很長時間,一些用戶的體驗記錄也證實了這一點。
更長的任務執行時間,意味著更多token的消耗。面對一個動輒需要數十分鐘才能完成任務,token消耗會是一個無底洞,也就意味著更高的成本,這樣的性價比估計也只有特殊需求的企業能考慮了。至于有些視頻說的提交了任務明天等著任務完成,不怕燒錢的用戶當然也是沒問題的。
性價比與成效比,決定了很多大廠至今也沒有打出通用AI Agent的旗號,還是主要在攻擊垂直智能體,這也是近幾年智能體的主要發展方向。 讓人有些不爽的是,一邊轟轟烈烈的宣傳,一邊卻疑似卻搞起了饑餓營銷?,F在,邀請碼仍一碼難求,當然也給了很多人炒作邀請碼的機會,商機無處不在。
邀請碼一碼難求的原因,或許是申請的人太多,也有可能是根本不想放碼。不放邀請碼的好處是體驗的人少負面評論少挨罵就少,壞處是因為大家體驗不到挨罵也不少。據說,就連一些力捧Mannus的AI大V和公知也有塌房的風險。
當然更有可能是官方目前購買的算力無法支撐這么多人同時體驗,畢竟高并發需要大算力和強網絡。
不過也沒有關系,既然還拿不到邀請碼體驗不了Manus,我們可以體驗幾個同類產品和項目。這里,王吉偉頻道就為大家介紹幾款computer use、GUI的開源項目。除了最后一個,都是開箱即用的。
1、Goole AI Studio
Google AI Studio 是一個集成了多種 AI 功能且易于使用的 AI 開發平臺,專注于簡化 AI 模型的創建、優化和部署流程。它旨在降低 AI 開發的門檻,使開發者無需深厚的機器學習背景也能快速上手,同時為專業開發者提供強大的工具支持,以滿足復雜項目的需求,快速實現 AI 驅動的創新項目。
想要在Google AI Studio體驗與程序互動很簡單,只需要點擊頁面左上角的實時流,右面設置欄模型默認Gemini 2.0 Flash,輸出格式選擇文本或者語音。
選擇想用的工具,再點擊頁面中下部的 共享屏幕 ,選擇與窗口、瀏覽器標簽頁或者整個屏幕活動,就可以進行交互了。
這里我選了一個名為 AI Agent的GPT時刻的瀏覽器標簽頁,并詢問Manus是什么,截圖如下。事實證明,語言交互體驗更好一些。
同樣大家還可以選擇與Gemini實時對話,或者與Gemini交流通過攝像頭觀察到的各種實物,未來應用非常有想象空間。
在入門應用程序中還有一個視頻分析器,怎么使用待大家自行探索。
對于一個相對成熟的網頁端AI應用,應用起來并不難,大家可以自行體驗,這里就不多做介紹了。當然對于開發人員,Google AI Studio 還可以開發出更多功能。
這個產品最大的痛點是需要科學上網,相信聰明如你一定能解決這個問題。實在不方便的朋友,可以選擇體驗后面的幾個項目。
體驗地址:https://aistudio.google.com/prompts/new_chat
2、UI-TARS-desktop
UI-TARS Desktop 是由字節跳動開發的一款基于 UI-TARS(視覺 - 語言模型)的 GUI Agent應用程序,它允許用戶通過自然語言控制計算機。
該應用支持跨平臺(Windows/MacOS)、實時反饋、本地處理等特性,還提供云部署和本地部署指南。用戶可通過自然語言指令完成截圖、鼠標鍵盤操作等任務,其模型有多種大小可供選擇,以適應不同硬件配置。該項目在Github,目前已經有3K star。
項目地址:https://github.com/bytedance/UI-TARS-desktop
這個項目提供了安裝程序,用戶可從項目發布頁面下載最新版本,MacOS系統和Windows系統都適用。
使用起來也很簡單,在下面的頁面根據自己的系統情況下載最新的0.06版本,安裝玩打開軟件程序。軟件長這樣,界面非常簡潔,很難跟智能體聯系到一塊。
下載頁面:https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.0.6
當然,我也為不能下載的小伙伴準備了安裝包,后臺回復 0307 獲取。
想要體驗操控電腦的關鍵,是要調用字節開發的視覺語言模型UI-TARS。部署該模型有兩種方式,云部署和本地部署。
云部署 :推薦使用 HuggingFace 推理端點進行快速部署,提供了英文和中文的部署指南。本地部署 [vLLM] :推薦使用 vLLM 進行快速部署和推理,需安裝 vllm>=0.6.1。項目提供了不同大小的模型供用戶根據硬件配置選擇,并給出了啟動 OpenAI 兼容 API 服務的命令。
本地部署對于沒有代碼基礎的朋友有些麻煩,這里我們選擇云部署。官方在Hugging Face 上提供了三種型號尺寸:2B、7B 和 72B。為了實現最佳性能,建議使用 7B-DPO 或 72B-DPO 型號(根據您的硬件配置)。
對于云部署,官方目前提供了火山引擎部署、魔搭部署和Huggingface Inference Endpoints云部署三種,都需要充點小錢??紤]網絡速度、穩定性以及充值方式,Huggingface被排除。剩下的兩個國內云廠商,因為阿里云早有賬戶就選了阿里云。這里以UI-TARS-7B-DPO為例,教大家怎么通過魔搭進入阿里云PAI入口部署該模型。
通過下面網址,進入魔搭的模型信息界面。目前新用戶注冊,限時贈送100小時免費GPU算力,包含100小時32GB顯存GPU+長期免費CPU計算資源(不是廣告)。
https://www.modelscope.cn/models/bytedance-research/UI-TARS-7B-DPO
鼠標劃到該頁面右上方的 部署 按鈕,點擊彈出的菜單,會進入阿里云PAI平臺的該模型界面,并自動進入UI-TARS-7B-DPO模型的部署頁面,頁面右半部分是部署操作菜單。如果沒有彈出部署菜單,點擊頁面右上角的部署按鈕。記得在頁面左上角,確認是不是要部署的模型。
模型部署頁面都保持默認就行,默認是一臺30G的Nvidia A10顯卡云主機。我們要做的,就是在這臺云主機上部署UI-TARS-7B-DPO模型。最后點擊模型部署頁面左下角的部署按鈕。進入部署頁面,等待幾分鐘。
點擊頁面左側 模型部署 下的 模型在線服務,右面主體部分就會顯示你已經部署好的主機。如果賬戶有錢,主機會處于啟動狀態。
這臺服務器機型,目前的費用是10.5元/小時,體驗完記得停止,不然會一直消費。我充了50元,但體驗完忘了關機,今天已經因為欠費而停機。
阿里云充值頁面,如下:
https://billing-cost.console.aliyun.com/fortune/fund-management/recharge
下面說一下如何在UI-TARS-desktop調用UI-TARS模型。點擊 模型在線服務 頁面的你所部署主機的調用信息,會彈出調用信息的詳細頁面。
打開UI-TARS-desktop軟件程序,點擊右上角的 齒輪 按鈕,彈出模型設置窗口。
語言選中文,VLM Provider選vLLM。VLM Base URL一欄,填云主機的訪問地址。VLM API Key一欄,填寫云主機的Token密碼。VLM Model Namet填寫模型名稱UI-TARS-7B-DPO。其他選項,保持默認。
點擊左下角的 Save 按鈕,保存模型信息。關閉軟件,再次打開(這點很重要),就可以使用了。下面放兩個官方案例視頻,大家可以試著復現一下。
,時長
00:23
使用Web瀏覽器獲取 SF 的當前天氣
,時長
00:28
發送內容為“hello world”的 Twitter
至于更多的玩法,就交給大家去探索了。
3、midscene
Midscene.js是一個Web 自動化開源項目,旨在讓AI成為瀏覽器操作員。用戶只需用自然語言描述需求,AI就能操作網頁、驗證內容和提取數據。它支持多種模型,包括UI-TARS和Qwen2.5-VL等開源模型,適用于UI自動化場景。
項目特點包括自然語言交互、Chrome擴展體驗、與Puppeteer/Playwright集成、支持開源和通用模型、可視化調試報告、緩存支持以及完全開源。Midscene.js提供豐富的資源和社區支持,方便開發者快速上手和深入開發。
項目地址:https://github.com/web-infra-dev/midscene?tab=readme-ov-file
UI-TARS在項目頁推薦用Midscene.js體驗模型的Web自動化,開發者可以用自然語言對網頁進行控制和交互,能夠充分發揮UI-TARS的能力。
Midscene.js目前支持GPT-4o、Qwen-2.5-VL和UI-TARS三種多模態模型。三種模型各有特點:
GPT-4o:平衡模型,使用更多代幣。Qwen-2.5-VL:開源 VL 模型,性能與 GPT-4o 幾乎相同,使用阿里云服務時成本更低。UI-TARS:開源、端到端的 GUI Agent模型,擅長目標驅動任務和糾錯。
Qwen-2.5-VL目前還在優惠期,免費贈送用戶1000000 token,當然體驗要用它了。下面,我來教大家如何使用Midscene.js調用Qwen-2.5-VL體驗大模型的網頁自動化操作。
首先,需要找到模型調用地址。通過下面網址,打開阿里云百煉大模型平臺,如果沒有注冊需要注冊成為阿里云用戶。
https://bailian.console.aliyun.com/
然后在模型廣場,找到通義千問2.5-VL-72B這個模型,點擊查看詳情。
在打開的模型詳情頁,我們可以看到模型介紹、計費詳情、免費額度、模型限流等模型信息。在 模型授權下面的模型調用選項,點擊右面的 授權 按鈕,在彈出的頁面點擊 確定 按鈕,即可完成模型授權。
點擊頁面上方的 API示例 ,在打開的頁面找到 使用SDK調用時需配置的base_url ,記住這個地址,可以臨時粘貼到文本編輯工具中。
在軟件程序中調用大模型,除了 base_url ,還需要知道API KEY。點擊頁面右上角的 查看我的API-KEY ,在彈出的的頁面,如果已經創建了,點 查看 并復制API-KEY。
如果沒有創建,需要點擊 創建API-KEY 按鈕,創建一個新的API-KEY。在創建頁面,描述可以隨便填,點擊確定就好了。然后查看并復制你的API-KEY,也記住這一串密碼。
到這里,大模型調用的準備工作完成。接下來,進行Midscene.js的安裝、配置和使用。
用chrome瀏覽器或者egde瀏覽器覺得打開下面網址,安裝 Midscene.js的Chrome擴展程序。安裝擴展程序,需要科學上網。
https://chromewebstore.google.com/detail/midscenejs/gbldofcpkknbggpkmbdaefngejllnief
安裝好以后,把Midscene.js擴展程序在工具欄中顯示。點擊Midscene.js打開瀏覽器側邊欄,第一次打開需要配置大模型信息。點擊 Click to set up 按鈕,打開模型信息輸入頁面(Env Config)。
還記得剛才讓你記錄的阿里云百煉Qwen-2.5-VL模型的base_url 和API-KEY嗎?這里只需要將下面的API-KEY改成你的就行。
OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
OPENAI_API_KEY="你的API-KEY"
MIDSCENE_MODEL_NAME="qwen2.5-vl-72b-instruct"
MIDSCENE_USE_VLM_UI_TARS=1
如果使用之前在阿里云PAI平臺購買云主機配置的UI-TARS-7B-DPO模型,模型信息按下面配置:
OPENAI_BASE_URL="你的訪問地址/v1"
OPENAI_API_KEY="你的token密碼"
MIDSCENE_MODEL_NAME="UI-TARS-7B-DPO"
MIDSCENE_USE_VLM_UI_TARS=1
這里我們把qwen2.5-vl-72b-instruct的配置信息粘貼到Midscene的Env Config框,點擊 save 按鈕保存。
配置完成后,可以立即體驗 Midscene。擴展中有三個主要選項卡,功能簡介如下:
Action:使用 action 與網頁交互,例如“在搜索框中鍵入“Midscene”或“單擊登錄按鈕”。Query:使用 query 從 Web 頁面中提取 JSON 數據,如 “extract the user id from the page, return in { id: string }”。Assert:使用 assert 驗證網頁,例如“the page title is ”Midscene”。
我們試一下Action功能。打開微博主頁,在Midscene的指令輸入框輸入 ”發一條新微博:大家好,我正在使用 Midscene的Action功能。“
操作過程見下圖,網頁周邊有藍色彩條,就是它在工作了。這個視頻動圖進行了加速,全程實際用時大概1分20秒。每完成一次任務,Midscene都會生成一個任務流程視頻。
我們再體驗一下它的Query數據提取功能。打開小紅書主頁,在Midscene的指令輸入框輸入 ”提取頁面的前10條內容的標題、用戶名和點贊數“。
同樣視頻動圖也加速了,執行這個任務,大概用了1分鐘40秒左右。
關于midscene的網頁自動化操作,大家可以試著解鎖其他技能。此外,Midscene Chrome 擴展還支持一種橋接模式,允許用戶使用本地腳本來控制 Chrome的桌面版本。下面是關于橋接模式的說明文檔,感興趣的小伙伴可以自行探索。
https://midscenejs.com/bridge-mode-by-chrome-extension.html
4、智譜GLM-PC
GLM-PC是智譜公司推出的一款基于多模態大模型CogAgent的電腦智能體。它能夠像人類一樣“觀察”和“操作”計算機,協助用戶高效完成各類電腦任務,如文檔處理、網頁搜索、信息整理、社交互動等。
目前GLM-PC 已經迭代升級到基于智譜多模態大模型 CogAgent的1.1.1版本,推出“深度思考”模式,同時支持 Windows和Mac 系統。
開箱即用,是GLM-PC的主要特點,不需要再做大模型的適配。
大家可以通過以下網址,訪問GLM-PC官網,下載適合自己系統的軟件版本,這里也附上安裝指南。
下載:https://cogagent.aminer.cn/home#/downloads
教學視頻:https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg
需要說明的是,目前該產品還在內測階段,需要申請內測體驗資格。申請一般一天之內通過,被加入白名單后就可以通過手機發送驗證碼登錄了。
申請體驗:https://www.wjx.cn/vm/YtHMOrW.aspx#
這里我用Windows 10來安裝和演示,安裝后打開軟件,軟件界面是這樣的。
下面開啟體驗時間。我們來根據官方的教學視頻,做一個案例復現。
GLM-PC有兩種模式,點擊 新建對話 按鈕后,會讓你選擇使用極速模式還是深度思考模式。
先體驗急速模式,打開小紅書,登錄賬號。在GLM-PC的對話框指派任務,輸入指令:
打開這個網址「11 【2024款小米su7落地價與配置參考 - 漂亮妹妹 | 小紅書 - 你的生活指南】