<wbr id="bijqn"><pre id="bijqn"></pre></wbr>

      1. <wbr id="bijqn"></wbr>
        <em id="bijqn"></em>

        <sub id="bijqn"><listing id="bijqn"><nobr id="bijqn"></nobr></listing></sub>
        <sub id="bijqn"></sub>

        拿不到Manus邀請碼?教你體驗幾款開箱即用的computer use智能體

        新視界作者 王吉偉 / 砍柴網 / 2025-03-11 20:28
        "
        無需等待Manus邀請碼不用花幾萬,即刻體驗這多款computer use智能體。

        文/王吉偉

        我在今年1月初寫了2025年的AI Agent發展十三大趨勢,其中兩個趨勢是多Agent系統開始流行和GUI Agent產品得到更多應用,沒想到來得這么快。

        推薦閱讀:智能體商用元年開啟,2025年AI Agent行業發展十三大趨勢

        最近幾天,集多Agent架構、computer use、GUI智能體等技術和概念于一身的Manus,通過一些媒體、科技博主的報道和渲染,在 “比肩DeepSeek” “AI Agent 的GPT時刻” 等一浪強過一浪的聲浪中,Manus一夜出圈。

        官方資料顯示,Manus通過多Agent架構(Multiple Agent)將任務拆分為規劃、執行、驗證等子模塊,每個Agent基于獨立的語言模型或強化學習模型,通過API協同工作,最終在虛擬機中調用工具(如編寫代碼、爬取數據)完成任務。這些特性,是多智能體架構的通性。

        這樣的項目實現,對于不懂代碼的可能很難。對于懂代碼的來說,好吧,來自知名多Agent架構MetaGPT的3個小伙子僅用了3個小時就把Manus復現了。這個項目叫OpenManus,到這篇文章發布時已經有16.3k stars了。Manus的出圈以及短期內體驗,間接捧紅了這個同類型開源項目,潑天富貴就這樣簡單地轉移了。

        項目地址:https://github.com/mannaandpoem/OpenManus

        當然快速復現Manus的團隊不只一個,同樣是知名多Agent架構的Camal團隊也僅用了0天就復刻了Manus,這個項目叫作owl,目前也有4K stars了。

        項目地址:https://github.com/camel-ai/owl

        也就在這幾天之內,已經出現了多個復刻Manus的開源項目。3月這才剛開始,多智能體架構、computer use、GUI智能體的概念就徹底爆發了。

        再說回Manus。

        在應用場景方面,Manus覆蓋旅行規劃、股票分析、教育內容生成等40余個領域。這么多場景任務都能實現,再加上自主執行的能力,當真是媲美鋼鐵俠的“賈維斯”助手了。這樣的噱頭,想不吸引人都難。

        所以,其核心賣點在放在了“自主執行”能力上與場景通用上。

        Manus的核心架構與Anthropic的“Computer Use”高度相似,依賴多Agent虛擬機環境完成任務。“自主規劃”能力則基于現有大語言模型(如GPT-4)的調用,很有可能在任務規劃模型上也用了DeepSeek,可以大大降低成本。

        因為Manus沒有自研基礎大模型,而是通過整合OpenAI的GPT-4、Anthropic 的Claude等第三方模型實現功能,其核心架構被定義為「虛擬機+多模型協同」的封裝模式‌。這種做法,也就是業界所謂的“套殼”。

        有業內人士直言,Manus的核心能力,如任務拆解其實與Devin、Cursor等現有產品相似,其創新更多體現在工程封裝而非底層技術突破。

        Manus號稱全球首款通用AI Agent,對于此只能說智者見智了。通用AI Agent意味著多場景匹配、跨場景應用 多智能體協作乃至跨平臺應用,背后需要強大算力和穩定網絡的支撐,需要多重模型的綜合應用,更需要對高并發支持。

        LLM Based Agent,性能和功能取決于LLM的能力,理論上當前的大語言模型可以支撐通用AI Agent實現,但在任務執行時間 任務完成度上對用戶體驗是很大的考驗,一個復雜的任務可能會需要很長時間,一些用戶的體驗記錄也證實了這一點。

        更長的任務執行時間,意味著更多token的消耗。面對一個動輒需要數十分鐘才能完成任務,token消耗會是一個無底洞,也就意味著更高的成本,這樣的性價比估計也只有特殊需求的企業能考慮了。至于有些視頻說的提交了任務明天等著任務完成,不怕燒錢的用戶當然也是沒問題的。

        性價比與成效比,決定了很多大廠至今也沒有打出通用AI Agent的旗號,還是主要在攻擊垂直智能體,這也是近幾年智能體的主要發展方向。 讓人有些不爽的是,一邊轟轟烈烈的宣傳,一邊卻疑似卻搞起了饑餓營銷?,F在,邀請碼仍一碼難求,當然也給了很多人炒作邀請碼的機會,商機無處不在。

        邀請碼一碼難求的原因,或許是申請的人太多,也有可能是根本不想放碼。不放邀請碼的好處是體驗的人少負面評論少挨罵就少,壞處是因為大家體驗不到挨罵也不少。據說,就連一些力捧Mannus的AI大V和公知也有塌房的風險。

        當然更有可能是官方目前購買的算力無法支撐這么多人同時體驗,畢竟高并發需要大算力和強網絡。

        不過也沒有關系,既然還拿不到邀請碼體驗不了Manus,我們可以體驗幾個同類產品和項目。這里,王吉偉頻道就為大家介紹幾款computer use、GUI的開源項目。除了最后一個,都是開箱即用的。

        1、Goole AI Studio

        Google AI Studio 是一個集成了多種 AI 功能且易于使用的 AI 開發平臺,專注于簡化 AI 模型的創建、優化和部署流程。它旨在降低 AI 開發的門檻,使開發者無需深厚的機器學習背景也能快速上手,同時為專業開發者提供強大的工具支持,以滿足復雜項目的需求,快速實現 AI 驅動的創新項目。

        想要在Google AI Studio體驗與程序互動很簡單,只需要點擊頁面左上角的實時流,右面設置欄模型默認Gemini 2.0 Flash,輸出格式選擇文本或者語音。

        選擇想用的工具,再點擊頁面中下部的 共享屏幕 ,選擇與窗口、瀏覽器標簽頁或者整個屏幕活動,就可以進行交互了。

        這里我選了一個名為 AI Agent的GPT時刻的瀏覽器標簽頁,并詢問Manus是什么,截圖如下。事實證明,語言交互體驗更好一些。

        同樣大家還可以選擇與Gemini實時對話,或者與Gemini交流通過攝像頭觀察到的各種實物,未來應用非常有想象空間。

        在入門應用程序中還有一個視頻分析器,怎么使用待大家自行探索。

        對于一個相對成熟的網頁端AI應用,應用起來并不難,大家可以自行體驗,這里就不多做介紹了。當然對于開發人員,Google AI Studio 還可以開發出更多功能。

        這個產品最大的痛點是需要科學上網,相信聰明如你一定能解決這個問題。實在不方便的朋友,可以選擇體驗后面的幾個項目。

        體驗地址:https://aistudio.google.com/prompts/new_chat

        2、UI-TARS-desktop

        UI-TARS Desktop 是由字節跳動開發的一款基于 UI-TARS(視覺 - 語言模型)的 GUI Agent應用程序,它允許用戶通過自然語言控制計算機。

        該應用支持跨平臺(Windows/MacOS)、實時反饋、本地處理等特性,還提供云部署和本地部署指南。用戶可通過自然語言指令完成截圖、鼠標鍵盤操作等任務,其模型有多種大小可供選擇,以適應不同硬件配置。該項目在Github,目前已經有3K star。

        項目地址:https://github.com/bytedance/UI-TARS-desktop

        這個項目提供了安裝程序,用戶可從項目發布頁面下載最新版本,MacOS系統和Windows系統都適用。

        使用起來也很簡單,在下面的頁面根據自己的系統情況下載最新的0.06版本,安裝玩打開軟件程序。軟件長這樣,界面非常簡潔,很難跟智能體聯系到一塊。

        下載頁面:https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.0.6

        當然,我也為不能下載的小伙伴準備了安裝包,后臺回復 0307 獲取。

        想要體驗操控電腦的關鍵,是要調用字節開發的視覺語言模型UI-TARS。部署該模型有兩種方式,云部署和本地部署。

        云部署 :推薦使用 HuggingFace 推理端點進行快速部署,提供了英文和中文的部署指南。本地部署 [vLLM] :推薦使用 vLLM 進行快速部署和推理,需安裝 vllm>=0.6.1。項目提供了不同大小的模型供用戶根據硬件配置選擇,并給出了啟動 OpenAI 兼容 API 服務的命令。

        本地部署對于沒有代碼基礎的朋友有些麻煩,這里我們選擇云部署。官方在Hugging Face 上提供了三種型號尺寸:2B、7B 和 72B。為了實現最佳性能,建議使用 7B-DPO 或 72B-DPO 型號(根據您的硬件配置)。

        對于云部署,官方目前提供了火山引擎部署、魔搭部署和Huggingface Inference Endpoints云部署三種,都需要充點小錢??紤]網絡速度、穩定性以及充值方式,Huggingface被排除。剩下的兩個國內云廠商,因為阿里云早有賬戶就選了阿里云。這里以UI-TARS-7B-DPO為例,教大家怎么通過魔搭進入阿里云PAI入口部署該模型。

        通過下面網址,進入魔搭的模型信息界面。目前新用戶注冊,限時贈送100小時免費GPU算力,包含100小時32GB顯存GPU+長期免費CPU計算資源(不是廣告)。

        https://www.modelscope.cn/models/bytedance-research/UI-TARS-7B-DPO

        鼠標劃到該頁面右上方的 部署 按鈕,點擊彈出的菜單,會進入阿里云PAI平臺的該模型界面,并自動進入UI-TARS-7B-DPO模型的部署頁面,頁面右半部分是部署操作菜單。如果沒有彈出部署菜單,點擊頁面右上角的部署按鈕。記得在頁面左上角,確認是不是要部署的模型。

        模型部署頁面都保持默認就行,默認是一臺30G的Nvidia A10顯卡云主機。我們要做的,就是在這臺云主機上部署UI-TARS-7B-DPO模型。最后點擊模型部署頁面左下角的部署按鈕。進入部署頁面,等待幾分鐘。

        點擊頁面左側 模型部署 下的 模型在線服務,右面主體部分就會顯示你已經部署好的主機。如果賬戶有錢,主機會處于啟動狀態。

        這臺服務器機型,目前的費用是10.5元/小時,體驗完記得停止,不然會一直消費。我充了50元,但體驗完忘了關機,今天已經因為欠費而停機。

        阿里云充值頁面,如下:

        https://billing-cost.console.aliyun.com/fortune/fund-management/recharge

        下面說一下如何在UI-TARS-desktop調用UI-TARS模型。點擊 模型在線服務 頁面的你所部署主機的調用信息,會彈出調用信息的詳細頁面。

        打開UI-TARS-desktop軟件程序,點擊右上角的 齒輪 按鈕,彈出模型設置窗口。

        語言選中文,VLM Provider選vLLM。VLM Base URL一欄,填云主機的訪問地址。VLM API Key一欄,填寫云主機的Token密碼。VLM Model Namet填寫模型名稱UI-TARS-7B-DPO。其他選項,保持默認。

        點擊左下角的 Save 按鈕,保存模型信息。關閉軟件,再次打開(這點很重要),就可以使用了。下面放兩個官方案例視頻,大家可以試著復現一下。

        ,時長

        00:23

        使用Web瀏覽器獲取 SF 的當前天氣

        ,時長

        00:28

        發送內容為“hello world”的 Twitter

        至于更多的玩法,就交給大家去探索了。

        3、midscene

        Midscene.js是一個Web 自動化開源項目,旨在讓AI成為瀏覽器操作員。用戶只需用自然語言描述需求,AI就能操作網頁、驗證內容和提取數據。它支持多種模型,包括UI-TARS和Qwen2.5-VL等開源模型,適用于UI自動化場景。

        項目特點包括自然語言交互、Chrome擴展體驗、與Puppeteer/Playwright集成、支持開源和通用模型、可視化調試報告、緩存支持以及完全開源。Midscene.js提供豐富的資源和社區支持,方便開發者快速上手和深入開發。

        項目地址:https://github.com/web-infra-dev/midscene?tab=readme-ov-file

        UI-TARS在項目頁推薦用Midscene.js體驗模型的Web自動化,開發者可以用自然語言對網頁進行控制和交互,能夠充分發揮UI-TARS的能力。

        Midscene.js目前支持GPT-4o、Qwen-2.5-VL和UI-TARS三種多模態模型。三種模型各有特點:

        GPT-4o:平衡模型,使用更多代幣。Qwen-2.5-VL:開源 VL 模型,性能與 GPT-4o 幾乎相同,使用阿里云服務時成本更低。UI-TARS:開源、端到端的 GUI Agent模型,擅長目標驅動任務和糾錯。

        Qwen-2.5-VL目前還在優惠期,免費贈送用戶1000000 token,當然體驗要用它了。下面,我來教大家如何使用Midscene.js調用Qwen-2.5-VL體驗大模型的網頁自動化操作。

        首先,需要找到模型調用地址。通過下面網址,打開阿里云百煉大模型平臺,如果沒有注冊需要注冊成為阿里云用戶。

        https://bailian.console.aliyun.com/

        然后在模型廣場,找到通義千問2.5-VL-72B這個模型,點擊查看詳情。

        在打開的模型詳情頁,我們可以看到模型介紹、計費詳情、免費額度、模型限流等模型信息。在 模型授權下面的模型調用選項,點擊右面的 授權 按鈕,在彈出的頁面點擊 確定 按鈕,即可完成模型授權。

        點擊頁面上方的 API示例 ,在打開的頁面找到 使用SDK調用時需配置的base_url ,記住這個地址,可以臨時粘貼到文本編輯工具中。

        在軟件程序中調用大模型,除了 base_url ,還需要知道API KEY。點擊頁面右上角的 查看我的API-KEY ,在彈出的的頁面,如果已經創建了,點 查看 并復制API-KEY。

        如果沒有創建,需要點擊 創建API-KEY 按鈕,創建一個新的API-KEY。在創建頁面,描述可以隨便填,點擊確定就好了。然后查看并復制你的API-KEY,也記住這一串密碼。

        到這里,大模型調用的準備工作完成。接下來,進行Midscene.js的安裝、配置和使用。

        用chrome瀏覽器或者egde瀏覽器覺得打開下面網址,安裝 Midscene.js的Chrome擴展程序。安裝擴展程序,需要科學上網。

        https://chromewebstore.google.com/detail/midscenejs/gbldofcpkknbggpkmbdaefngejllnief

        安裝好以后,把Midscene.js擴展程序在工具欄中顯示。點擊Midscene.js打開瀏覽器側邊欄,第一次打開需要配置大模型信息。點擊 Click to set up 按鈕,打開模型信息輸入頁面(Env Config)。

        還記得剛才讓你記錄的阿里云百煉Qwen-2.5-VL模型的base_url 和API-KEY嗎?這里只需要將下面的API-KEY改成你的就行。

        OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"

        OPENAI_API_KEY="你的API-KEY"

        MIDSCENE_MODEL_NAME="qwen2.5-vl-72b-instruct"

        MIDSCENE_USE_VLM_UI_TARS=1

        如果使用之前在阿里云PAI平臺購買云主機配置的UI-TARS-7B-DPO模型,模型信息按下面配置:

        OPENAI_BASE_URL="你的訪問地址/v1"

        OPENAI_API_KEY="你的token密碼"

        MIDSCENE_MODEL_NAME="UI-TARS-7B-DPO"

        MIDSCENE_USE_VLM_UI_TARS=1

        這里我們把qwen2.5-vl-72b-instruct的配置信息粘貼到Midscene的Env Config框,點擊 save 按鈕保存。

        配置完成后,可以立即體驗 Midscene。擴展中有三個主要選項卡,功能簡介如下:

        Action:使用 action 與網頁交互,例如“在搜索框中鍵入“Midscene”或“單擊登錄按鈕”。Query:使用 query 從 Web 頁面中提取 JSON 數據,如 “extract the user id from the page, return in { id: string }”。Assert:使用 assert 驗證網頁,例如“the page title is ”Midscene”。

        我們試一下Action功能。打開微博主頁,在Midscene的指令輸入框輸入 ”發一條新微博:大家好,我正在使用 Midscene的Action功能。“

        操作過程見下圖,網頁周邊有藍色彩條,就是它在工作了。這個視頻動圖進行了加速,全程實際用時大概1分20秒。每完成一次任務,Midscene都會生成一個任務流程視頻。

        我們再體驗一下它的Query數據提取功能。打開小紅書主頁,在Midscene的指令輸入框輸入 ”提取頁面的前10條內容的標題、用戶名和點贊數“。

        同樣視頻動圖也加速了,執行這個任務,大概用了1分鐘40秒左右。

        關于midscene的網頁自動化操作,大家可以試著解鎖其他技能。此外,Midscene Chrome 擴展還支持一種橋接模式,允許用戶使用本地腳本來控制 Chrome的桌面版本。下面是關于橋接模式的說明文檔,感興趣的小伙伴可以自行探索。

        https://midscenejs.com/bridge-mode-by-chrome-extension.html

        4、智譜GLM-PC

        GLM-PC是智譜公司推出的一款基于多模態大模型CogAgent的電腦智能體。它能夠像人類一樣“觀察”和“操作”計算機,協助用戶高效完成各類電腦任務,如文檔處理、網頁搜索、信息整理、社交互動等。

        目前GLM-PC 已經迭代升級到基于智譜多模態大模型 CogAgent的1.1.1版本,推出“深度思考”模式,同時支持 Windows和Mac 系統。

        開箱即用,是GLM-PC的主要特點,不需要再做大模型的適配。

        大家可以通過以下網址,訪問GLM-PC官網,下載適合自己系統的軟件版本,這里也附上安裝指南。

        下載:https://cogagent.aminer.cn/home#/downloads

        教學視頻:https://zhipu-ai.feishu.cn/docx/PVEdd0C6yoZJl5xevsRcupYtnvg

        需要說明的是,目前該產品還在內測階段,需要申請內測體驗資格。申請一般一天之內通過,被加入白名單后就可以通過手機發送驗證碼登錄了。

        申請體驗:https://www.wjx.cn/vm/YtHMOrW.aspx#

        這里我用Windows 10來安裝和演示,安裝后打開軟件,軟件界面是這樣的。

        下面開啟體驗時間。我們來根據官方的教學視頻,做一個案例復現。

        GLM-PC有兩種模式,點擊 新建對話 按鈕后,會讓你選擇使用極速模式還是深度思考模式。

        先體驗急速模式,打開小紅書,登錄賬號。在GLM-PC的對話框指派任務,輸入指令:

        打開這個網址「11 【2024款小米su7落地價與配置參考 - 漂亮妹妹 | 小紅書 - 你的生活指南】

        聲明:砍柴網尊重行業規范,任何轉載稿件皆標注作者和來源;砍柴網的原創文章,請轉載時務必注明文章作者和"來源:砍柴網",不尊重原創的行為將受到砍柴網的追責;轉載稿件或作者投稿可能會經編輯修改或者補充,有異議可投訴至:post@ikanchai.com
        您想第一時間獲取互聯網領域的資訊和商業分析,請在微信公眾號中搜索"砍柴網"或者"ikanchai",或用微信掃描左邊二維碼,即可添加關注,從此和砍柴網建立直接聯系。

        相關推薦

        最新文章

        熱文導讀

        1
        3
        免费观看性行为的视频网站