<wbr id="bijqn"><pre id="bijqn"></pre></wbr>

<wbr id="bijqn"></wbr>

<em id="bijqn"></em>

<sub id="bijqn"><listing id="bijqn"><nobr id="bijqn"></nobr></listing></sub>

<sub id="bijqn"></sub>

拿不到Manus邀請碼？教你體驗幾款開箱即用的computer use智能體

新視界作者王吉偉 / 砍柴網 / 2025-03-11 20:28

"

無需等待Manus邀請碼不用花幾萬，即刻體驗這多款computer use智能體。

文/王吉偉

我在今年1月初寫了2025年的AI Agent發展十三大趨勢，其中兩個趨勢是多Agent系統開始流行和GUI Agent產品得到更多應用，沒想到來得這么快。

推薦閱讀：智能體商用元年開啟，2025年AI Agent行業發展十三大趨勢

最近幾天，集多Agent架構、computer use、GUI智能體等技術和概念于一身的Manus，通過一些媒體、科技博主的報道和渲染，在 “比肩DeepSeek” “AI Agent 的GPT時刻” 等一浪強過一浪的聲浪中，Manus一夜出圈。

官方資料顯示，Manus通過多Agent架構（Multiple Agent）將任務拆分為規劃、執行、驗證等子模塊，每個Agent基于獨立的語言模型或強化學習模型，通過API協同工作，最終在虛擬機中調用工具（如編寫代碼、爬取數據）完成任務。這些特性，是多智能體架構的通性。

這樣的項目實現，對于不懂代碼的可能很難。對于懂代碼的來說，好吧，來自知名多Agent架構MetaGPT的3個小伙子僅用了3個小時就把Manus復現了。這個項目叫OpenManus，到這篇文章發布時已經有16.3k stars了。Manus的出圈以及短期內體驗，間接捧紅了這個同類型開源項目，潑天富貴就這樣簡單地轉移了。

項目地址：https://github.com/mannaandpoem/OpenManus

當然快速復現Manus的團隊不只一個，同樣是知名多Agent架構的Camal團隊也僅用了0天就復刻了Manus，這個項目叫作owl，目前也有4K stars了。

項目地址：https://github.com/camel-ai/owl

也就在這幾天之內，已經出現了多個復刻Manus的開源項目。3月這才剛開始，多智能體架構、computer use、GUI智能體的概念就徹底爆發了。

再說回Manus。

在應用場景方面，Manus覆蓋旅行規劃、股票分析、教育內容生成等40余個領域。這么多場景任務都能實現，再加上自主執行的能力，當真是媲美鋼鐵俠的“賈維斯”助手了。這樣的噱頭，想不吸引人都難。

所以，其核心賣點在放在了“自主執行”能力上與場景通用上。

Manus的核心架構與Anthropic的“Computer Use”高度相似，依賴多Agent虛擬機環境完成任務。“自主規劃”能力則基于現有大語言模型（如GPT-4）的調用，很有可能在任務規劃模型上也用了DeepSeek，可以大大降低成本。

因為Manus沒有自研基礎大模型，而是通過整合OpenAI的GPT-4、Anthropic 的Claude等第三方模型實現功能，其核心架構被定義為「虛擬機+多模型協同」的封裝模式‌。這種做法，也就是業界所謂的“套殼”。

有業內人士直言，Manus的核心能力，如任務拆解其實與Devin、Cursor等現有產品相似，其創新更多體現在工程封裝而非底層技術突破。

Manus號稱全球首款通用AI Agent，對于此只能說智者見智了。通用AI Agent意味著多場景匹配、跨場景應用多智能體協作乃至跨平臺應用，背后需要強大算力和穩定網絡的支撐，需要多重模型的綜合應用，更需要對高并發支持。

LLM Based Agent，性能和功能取決于LLM的能力，理論上當前的大語言模型可以支撐通用AI Agent實現，但在任務執行時間任務完成度上對用戶體驗是很大的考驗，一個復雜的任務可能會需要很長時間，一些用戶的體驗記錄也證實了這一點。

更長的任務執行時間，意味著更多token的消耗。面對一個動輒需要數十分鐘才能完成任務，token消耗會是一個無底洞，也就意味著更高的成本，這樣的性價比估計也只有特殊需求的企業能考慮了。至于有些視頻說的提交了任務明天等著任務完成，不怕燒錢的用戶當然也是沒問題的。

性價比與成效比，決定了很多大廠至今也沒有打出通用AI Agent的旗號，還是主要在攻擊垂直智能體，這也是近幾年智能體的主要發展方向。讓人有些不爽的是，一邊轟轟烈烈的宣傳，一邊卻疑似卻搞起了饑餓營銷?，F在，邀請碼仍一碼難求，當然也給了很多人炒作邀請碼的機會，商機無處不在。

邀請碼一碼難求的原因，或許是申請的人太多，也有可能是根本不想放碼。不放邀請碼的好處是體驗的人少負面評論少挨罵就少，壞處是因為大家體驗不到挨罵也不少。據說，就連一些力捧Mannus的AI大V和公知也有塌房的風險。

當然更有可能是官方目前購買的算力無法支撐這么多人同時體驗，畢竟高并發需要大算力和強網絡。

不過也沒有關系，既然還拿不到邀請碼體驗不了Manus，我們可以體驗幾個同類產品和項目。這里，王吉偉頻道就為大家介紹幾款computer use、GUI的開源項目。除了最后一個，都是開箱即用的。

1、Goole AI Studio

Google AI Studio 是一個集成了多種 AI 功能且易于使用的 AI 開發平臺，專注于簡化 AI 模型的創建、優化和部署流程。它旨在降低 AI 開發的門檻，使開發者無需深厚的機器學習背景也能快速上手，同時為專業開發者提供強大的工具支持，以滿足復雜項目的需求，快速實現 AI 驅動的創新項目。

想要在Google AI Studio體驗與程序互動很簡單，只需要點擊頁面左上角的實時流，右面設置欄模型默認Gemini 2.0 Flash，輸出格式選擇文本或者語音。

選擇想用的工具，再點擊頁面中下部的共享屏幕，選擇與窗口、瀏覽器標簽頁或者整個屏幕活動，就可以進行交互了。

這里我選了一個名為 AI Agent的GPT時刻的瀏覽器標簽頁，并詢問Manus是什么，截圖如下。事實證明，語言交互體驗更好一些。

同樣大家還可以選擇與Gemini實時對話，或者與Gemini交流通過攝像頭觀察到的各種實物，未來應用非常有想象空間。

在入門應用程序中還有一個視頻分析器，怎么使用待大家自行探索。

對于一個相對成熟的網頁端AI應用，應用起來并不難，大家可以自行體驗，這里就不多做介紹了。當然對于開發人員，Google AI Studio 還可以開發出更多功能。

這個產品最大的痛點是需要科學上網，相信聰明如你一定能解決這個問題。實在不方便的朋友，可以選擇體驗后面的幾個項目。

體驗地址：https://aistudio.google.com/prompts/new_chat

2、UI-TARS-desktop

UI-TARS Desktop 是由字節跳動開發的一款基于 UI-TARS（視覺 - 語言模型）的 GUI Agent應用程序，它允許用戶通過自然語言控制計算機。

該應用支持跨平臺（Windows/MacOS）、實時反饋、本地處理等特性，還提供云部署和本地部署指南。用戶可通過自然語言指令完成截圖、鼠標鍵盤操作等任務，其模型有多種大小可供選擇，以適應不同硬件配置。該項目在Github，目前已經有3K star。

項目地址：https://github.com/bytedance/UI-TARS-desktop

這個項目提供了安裝程序，用戶可從項目發布頁面下載最新版本，MacOS系統和Windows系統都適用。

使用起來也很簡單，在下面的頁面根據自己的系統情況下載最新的0.06版本，安裝玩打開軟件程序。軟件長這樣，界面非常簡潔，很難跟智能體聯系到一塊。

下載頁面：https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.0.6

當然，我也為不能下載的小伙伴準備了安裝包，后臺回復 0307 獲取。

想要體驗操控電腦的關鍵，是要調用字節開發的視覺語言模型UI-TARS。部署該模型有兩種方式，云部署和本地部署。

云部署：推薦使用 HuggingFace 推理端點進行快速部署，提供了英文和中文的部署指南。本地部署 [vLLM] ：推薦使用 vLLM 進行快速部署和推理，需安裝 vllm>=0.6.1。項目提供了不同大小的模型供用戶根據硬件配置選擇，并給出了啟動 OpenAI 兼容 API 服務的命令。

本地部署對于沒有代碼基礎的朋友有些麻煩，這里我們選擇云部署。官方在Hugging Face 上提供了三種型號尺寸：2B、7B 和 72B。為了實現最佳性能，建議使用 7B-DPO 或 72B-DPO 型號（根據您的硬件配置）。

對于云部署，官方目前提供了火山引擎部署、魔搭部署和Huggingface Inference Endpoints云部署三種，都需要充點小錢?？紤]網絡速度、穩定性以及充值方式，Huggingface被排除。剩下的兩個國內云廠商，因為阿里云早有賬戶就選了阿里云。這里以UI-TARS-7B-DPO為例，教大家怎么通過魔搭進入阿里云PAI入口部署該模型。

通過下面網址，進入魔搭的模型信息界面。目前新用戶注冊，限時贈送100小時免費GPU算力，包含100小時32GB顯存GPU+長期免費CPU計算資源（不是廣告）。

https://www.modelscope.cn/models/bytedance-research/UI-TARS-7B-DPO

鼠標劃到該頁面右上方的部署按鈕，點擊彈出的菜單，會進入阿里云PAI平臺的該模型界面，并自動進入UI-TARS-7B-DPO模型的部署頁面，頁面右半部分是部署操作菜單。如果沒有彈出部署菜單，點擊頁面右上角的部署按鈕。記得在頁面左上角，確認是不是要部署的模型。

模型部署頁面都保持默認就行，默認是一臺30G的Nvidia A10顯卡云主機。我們要做的，就是在這臺云主機上部署UI-TARS-7B-DPO模型。最后點擊模型部署頁面左下角的部署按鈕。進入部署頁面，等待幾分鐘。

點擊頁面左側模型部署下的模型在線服務，右面主體部分就會顯示你已經部署好的主機。如果賬戶有錢，主機會處于啟動狀態。

這臺服務器機型，目前的費用是10.5元/小時，體驗完記得停止，不然會一直消費。我充了50元，但體驗完忘了關機，今天已經因為欠費而停機。

阿里云充值頁面，如下：

https://billing-cost.console.aliyun.com/fortune/fund-management/recharge

下面說一下如何在UI-TARS-desktop調用UI-TARS模型。點擊模型在線服務頁面的你所部署主機的調用信息，會彈出調用信息的詳細頁面。

打開UI-TARS-desktop軟件程序，點擊右上角的齒輪按鈕，彈出模型設置窗口。

語言選中文，VLM Provider選vLLM。VLM Base URL一欄，填云主機的訪問地址。VLM API Key一欄，填寫云主機的Token密碼。VLM Model Namet填寫模型名稱UI-TARS-7B-DPO。其他選項，保持默認。

點擊左下角的 Save 按鈕，保存模型信息。關閉軟件，再次打開（這點很重要），就可以使用了。下面放兩個官方案例視頻，大家可以試著復現一下。

，時長

00:23

使用Web瀏覽器獲取 SF 的當前天氣

，時長

00:28

發送內容為“hello world”的 Twitter

至于更多的玩法，就交給大家去探索了。

3、midscene

Midscene.js是一個Web 自動化開源項目，旨在讓AI成為瀏覽器操作員。用戶只需用自然語言描述需求，AI就能操作網頁、驗證內容和提取數據。它支持多種模型，包括UI-TARS和Qwen2.5-VL等開源模型，適用于UI自動化場景。

項目特點包括自然語言交互、Chrome擴展體驗、與Puppeteer/Playwright集成、支持開源和通用模型、可視化調試報告、緩存支持以及完全開源。Midscene.js提供豐富的資源和社區支持，方便開發者快速上手和深入開發。

項目地址：https://github.com/web-infra-dev/midscene?tab=readme-ov-file

UI-TARS在項目頁推薦用Midscene.js體驗模型的Web自動化，開發者可以用自然語言對網頁進行控制和交互，能夠充分發揮UI-TARS的能力。

Midscene.js目前支持GPT-4o、Qwen-2.5-VL和UI-TARS三種多模態模型。三種模型各有特點：

GPT-4o：平衡模型，使用更多代幣。Qwen-2.5-VL：開源 VL 模型，性能與 GPT-4o 幾乎相同，使用阿里云服務時成本更低。UI-TARS：開源、端到端的 GUI Agent模型，擅長目標驅動任務和糾錯。

Qwen-2.5-VL目前還在優惠期，免費贈送用戶1000000 token，當然體驗要用它了。下面，我來教大家如何使用Midscene.js調用Qwen-2.5-VL體驗大模型的網頁自動化操作。

首先，需要找到模型調用地址。通過下面網址，打開阿里云百煉大模型平臺，如果沒有注冊需要注冊成為阿里云用戶。

https://bailian.console.aliyun.com/

然后在模型廣場，找到通義千問2.5-VL-72B這個模型，點擊查看詳情。

在打開的模型詳情頁，我們可以看到模型介紹、計費詳情、免費額度、模型限流等模型信息。在模型授權下面的模型調用選項，點擊右面的授權按鈕，在彈出的頁面點擊確定按鈕，即可完成模型授權。

點擊頁面上方的 API示例，在打開的頁面找到使用SDK調用時需配置的base_url ，記住這個地址，可以臨時粘貼到文本編輯工具中。

在軟件程序中調用大模型，除了 base_url ，還需要知道API KEY。點擊頁面右上角的查看我的API-KEY ，在彈出的的頁面，如果已經創建了，點查看并復制API-KEY。

如果沒有創建，需要點擊創建API-KEY 按鈕，創建一個新的API-KEY。在創建頁面，描述可以隨便填，點擊確定就好了。然后查看并復制你的API-KEY，也記住這一串密碼。

到這里，大模型調用的準備工作完成。接下來，進行Midscene.js的安裝、配置和使用。

用chrome瀏覽器或者egde瀏覽器覺得打開下面網址，安裝 Midscene.js的Chrome擴展程序。安裝擴展程序，需要科學上網。

https://chromewebstore.google.com/detail/midscenejs/gbldofcpkknbggpkmbdaefngejllnief

安裝好以后，把Midscene.js擴展程序在工具欄中顯示。點擊Midscene.js打開瀏覽器側邊欄，第一次打開需要配置大模型信息。點擊 Click to set up 按鈕，打開模型信息輸入頁面（Env Config）。

還記得剛才讓你記錄的阿里云百煉Qwen-2.5-VL模型的base_url 和API-KEY嗎？這里只需要將下面的API-KEY改成你的就行。

OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"

OPENAI_API_KEY="你的API-KEY"

MIDSCENE_MODEL_NAME="qwen2.5-vl-72b-instruct"

MIDSCENE_USE_VLM_UI_TARS=1

如果使用之前在阿里云PAI平臺購買云主機配置的UI-TARS-7B-DPO模型，模型信息按下面配置：

OPENAI_BASE_URL="你的訪問地址/v1"

OPENAI_API_KEY="你的token密碼"

MIDSCENE_MODEL_NAME="UI-TARS-7B-DPO"

MIDSCENE_USE_VLM_UI_TARS=1

這里我們把qwen2.5-vl-72b-instruct的配置信息粘貼到Midscene的Env Config框，點擊 save 按鈕保存。

配置完成后，可以立即體驗 Midscene。擴展中有三個主要選項卡，功能簡介如下：

Action：使用 action 與網頁交互，例如“在搜索框中鍵入“Midscene”或“單擊登錄按鈕”。Query：使用 query 從 Web 頁面中提取 JSON 數據，如 “extract the user id from the page， return in { id： string }”。Assert：使用 assert 驗證網頁，例如“the page title is ”Midscene”。

我們試一下Action功能。打開微博主頁，在Midscene的指令輸入框輸入 ”發一條新微博：大家好，我正在使用 Midscene的Action功能。“

操作過程見下圖，網頁周邊有藍色彩條，就是它在工作了。這個視頻動圖進行了加速，全程實際用時大概1分20秒。每完成一次任務，Midscene都會生成一個任務流程視頻。

我們再體驗一下它的Query數據提取功能。打開小紅書主頁，在Midscene的指令輸入框輸入 ”提取頁面的前10條內容的標題、用戶名和點贊數“。

同樣視頻動圖也加速了，執行這個任務，大概用了1分鐘40秒左右。

關于midscene的網頁自動化操作，大家可以試著解鎖其他技能。此外，Midscene Chrome 擴展還支持一種橋接模式，允許用戶使用本地腳本來控制 Chrome的桌面版本。下面是關于橋接模式的說明文檔，感興趣的小伙伴可以自行探索。

https://midscenejs.com/bridge-mode-by-chrome-extension.html

4、智譜GLM-PC

GLM-PC是智譜公司推出的一款基于多模態大模型CogAgent的電腦智能體。它能夠像人類一樣“觀察”和“操作”計算機，協助用戶高效完成各類電腦任務，如文檔處理、網頁搜索、信息整理、社交互動等。

目前GLM-PC 已經迭代升級到基于智譜多模態大模型 CogAgent的1.1.1版本，推出“深度思考”模式，同時支持 Windows和Mac 系統。

開箱即用，是GLM-PC的主要特點，不需要再做大模型的適配。

大家可以通過以下網址，訪問GLM-PC官網，下載適合自己系統的軟件版本，這里也附上安裝指南。

下載：https://cogagent.aminer.cn/home#/downloads

教學視頻：https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg

需要說明的是，目前該產品還在內測階段，需要申請內測體驗資格。申請一般一天之內通過，被加入白名單后就可以通過手機發送驗證碼登錄了。

申請體驗：https://www.wjx.cn/vm/YtHMOrW.aspx#

這里我用Windows 10來安裝和演示，安裝后打開軟件，軟件界面是這樣的。

下面開啟體驗時間。我們來根據官方的教學視頻，做一個案例復現。

GLM-PC有兩種模式，點擊新建對話按鈕后，會讓你選擇使用極速模式還是深度思考模式。

先體驗急速模式，打開小紅書，登錄賬號。在GLM-PC的對話框指派任務，輸入指令：

打開這個網址「11 【2024款小米su7落地價與配置參考 - 漂亮妹妹 | 小紅書 - 你的生活指南】

分享到

AI Agent 智能體 Manus

聲明：砍柴網尊重行業規范，任何轉載稿件皆標注作者和來源；砍柴網的原創文章，請轉載時務必注明文章作者和"來源：砍柴網"，不尊重原創的行為將受到砍柴網的追責；轉載稿件或作者投稿可能會經編輯修改或者補充，有異議可投訴至：post@ikanchai.com

您想第一時間獲取互聯網領域的資訊和商業分析，請在微信公眾號中搜索"砍柴網"或者"ikanchai"，或用微信掃描左邊二維碼，即可添加關注，從此和砍柴網建立直接聯系。

相關推薦

王吉偉，關注電商、傳統行業轉型、新媒體、大數據、智能家居、物聯網等前沿行業的最新動態，歡迎朋友們與我探討。

最新文章

魅族沿用小米粉絲經濟模式能否成功
互聯網已從行業混戰升級為資本大戰
由客房預訂想到“客戶是條狗，怎么牽怎
讓市場和用戶去檢驗微博的價值
當當網的未來只能走被收購這條路嗎?

熱文導讀

“特斯拉又割了我 7 萬塊”

用 eSIM 取代手機卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級新功能”？網友：炒華為冷飯！

谷歌Pixel 6真機曝光：最美安卓屏幕沒跑了！

iPhone 13機模曝光：值得等！

蘋果計劃在美國生產 Apple Car 汽車電池

砍柴網（ikanchai.com）創立于2013年，始終秉承觀點獨到、全面深入、有料有趣的宗旨，在科技與人文之間尋找商業新價值。

關于我們 | 聯系我們 | 商務合作 | 尋求報道 | 投稿須知

意見反饋：kefu@ikanchai.com

稿件投訴：post@ikanchai.com

內容合作QQ：1587015870

商務合作：bd@ikanchai.com

關注我們

關注砍柴網官方微博
每日獲取最新科技動態

關注砍柴網微信公眾號
探索科技與商業的邏輯

商務合作、媒體邀約
趕緊聯系我們

Copyright ? 2013-2020 砍柴網 / 京ICP備15042874號-1 / 京公網安備 11010502032797號 / 本站由CMSTOP、阿里云、億速云、騰訊云提供驅動力

免费观看性行为的视频网站