消息稱小米單周鎖單超1.9萬臺:30%都是Ultra版三折疊敞開賣!華為Mate XT部分版本開啟現(xiàn)貨供應(yīng)iPhone17系列將搭載硅碳負(fù)極大電池 容量提升至5000mAh以上百公里電耗12.5度 新款小鵬G6核心信息公布:能跑725km宇樹Go 1機器狗成功掌握滑板技巧 未來有望用于外賣配送孚能科技推出大軟包6C超快充電池系統(tǒng)解決方案仁寶Infinite卷軸屏筆記本榮獲iF設(shè)計大獎聯(lián)想宣布三年內(nèi)實現(xiàn)印度市場PC全本土制造,聯(lián)手Krutrim建設(shè)超級計算機OPPO Find X8 Ultra 4月發(fā)布 1TB衛(wèi)星版本同步上市三星Galaxy S25 Edge現(xiàn)身認(rèn)證數(shù)據(jù)庫,電池容量曝光博主爆料:第二代驍龍8至尊版新機測試eSIM,iPhone 17 Air或取消實體卡槽閃迪宣布4月1日起存儲產(chǎn)品漲價超10%摩托羅拉razr 50和 Edge 50 Ultra支持谷歌圈選即搜功能臺積電2025年2月營收同比增長43.1%,2nm制程進展順利微信終于解除限制!朋友圈可以發(fā)5分鐘長視頻了蘋果版小米11 Ultra!iPhone 17 Pro機,F(xiàn)身神雲(yún)科技尖端 AI 及 HPC 服務(wù)器,將於2025年亞洲超級計算展亮相洲際航天六年磨一劍,百星耀香江「玄瞳」X乳業(yè)巨擘「越秀乳業(yè)」:一場“溫度”與“效率”的雙向奔赴智診科技“好伴AI”助力患者成功脫險,AI健康咨詢技術(shù)獲醫(yī)療界關(guān)注
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    AI玩手機越玩越6!西湖大學(xué)發(fā)布新智能體:會自我進化的AppAgentX

    2025年03月10日 10:32:05   來源:量子位公眾號

      人工智能正迎來前所未有的變革,其中,大語言模型(LLM)的崛起推動了智能系統(tǒng)從信息處理向自主交互邁進。

      以DeepSeek為代表的LLM,憑借強大的語言理解與推理能力,在文本創(chuàng)作、編程輔助、復(fù)雜任務(wù)規(guī)劃等領(lǐng)域展現(xiàn)出卓越表現(xiàn)。

      然而,LLM的潛力遠不止于文本生成,它們正在塑造一種全新的智能體形態(tài)——GUI代理(GUI Agents)。這類智能體不僅能理解指令,還能像人類一樣直接操作計算機和手機,擺脫對預(yù)設(shè)規(guī)則或API的依賴,帶來更自然、高效的交互方式,使AI真正融入軟件生態(tài),成為智能操作系統(tǒng)的一部分。

      問題在于,目前的LLM代理雖然具備強大的推理能力,卻在任務(wù)執(zhí)行效率上存在明顯瓶頸。

      為了解決這個問題,現(xiàn)在,西湖大學(xué)AGI實驗室張馳團隊推出了AppAgentX——一款具備自我進化能力的GUI代理。它能夠在不斷執(zhí)行任務(wù)的過程中學(xué)習(xí)并優(yōu)化自身的行為模式,實現(xiàn)更加高效的操作。

      AppAgentX的核心創(chuàng)新在于:

      自動歸納高效操作模式:代理能夠在執(zhí)行任務(wù)時,檢測重復(fù)性操作模式,并自動總結(jié)成更高級別的“一鍵”操作。

      任務(wù)執(zhí)行更快,減少重復(fù)計算:傳統(tǒng)的LLM代理每次執(zhí)行任務(wù)都需要重新思考操作流程,而AppAgentX能夠記住并復(fù)用執(zhí)行策略,從而避免重復(fù)推理,使得任務(wù)執(zhí)行更加流暢高效。

      完全基于視覺操作,適用于各種軟件:傳統(tǒng)自動化方法通常需要訪問后端API,而AppAgentX僅依賴屏幕視覺信息進行操作,無需后端訪問,因此能夠在不同軟件、不同設(shè)備上通用,真正做到“即插即用”。

      AppAgentX:讓智能體學(xué)會“進化”

      過去,計算機的自動化操作主要依賴RPA(機器人流程自動化),通過預(yù)設(shè)規(guī)則或API進行固定任務(wù)的執(zhí)行。然而,這種方式需要大量手動配置,缺乏靈活性。

      GUI代理的出現(xiàn),改變了這一局面,被譽為軟件世界中的具身智能。

      GUI代理不依賴后端API,而是像人類一樣,通過屏幕視覺、鼠標(biāo)和鍵盤直接操作軟件界面。這意味著,智能體可以自主學(xué)習(xí)如何操作各種應(yīng)用程序,甚至能夠在不同軟件之間切換,執(zhí)行復(fù)雜的跨應(yīng)用任務(wù)。例如:

      辦公場景:自動整理文檔、批量發(fā)送郵件

      娛樂與創(chuàng)作:使用Photoshop處理圖像、生成視頻內(nèi)容

      自動化操作:批量錄入數(shù)據(jù)、自動處理訂單

      跨應(yīng)用任務(wù):從網(wǎng)頁爬取信息后填入Excel、在多個軟件之間進行聯(lián)動操作

      正因如此,GUI代理被視為智能助手、數(shù)字員工、自動化測試等領(lǐng)域的下一代解決方案,但現(xiàn)階段的挑戰(zhàn)也很突出:現(xiàn)有的智能體聰明但不夠高效。

      現(xiàn)有的LLM代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次執(zhí)行操作前,模型都要推理下一步動作。例如,在進行網(wǎng)頁搜索時,它可能會這樣決策:

      識別需要搜索的信息;

      點擊搜索框;

      輸入關(guān)鍵詞;

      點擊搜索按鈕。

      這種方式賦予了智能體極強的泛化能力,使其能夠適應(yīng)新任務(wù)場景,但也帶來了執(zhí)行低效、重復(fù)計算嚴(yán)重的問題。

      AppAgentX解決這一痛點的核心思路,是讓智能體學(xué)會“進化”。

      下面是一個AppAgentX執(zhí)行播放音樂的一個例子示意圖,當(dāng)找到了“一鍵”操作,就不需要每一步都耗費大量時間思考下一步需要做什么,從而快速完成任務(wù)。

      這里可以看出智能體進化出一個高級操作“搜索”,它取代了一系列低效的低級操作。這種進化避免了重復(fù)耗時的逐步推理,顯著提高了代理的效率。

      方法介紹

      任務(wù)軌跡的分解

      在執(zhí)行任務(wù)時,AppAgentX會將整個過程分解成多個重疊的三元組(即由三個部分組成的組合)。這些三元組包含了頁面內(nèi)容和用戶界面(UI)元素的功能描述。

      具體來說,智能體會:

      生成功能描述:利用大語言模型(LLM),為每個頁面和界面元素生成詳細的功能描述。這些描述幫助智能體理解每個部分的作用。

      合并重復(fù)描述:如果某些頁面的描述是重復(fù)生成的,智能體會將這些描述合并,以減少冗余信息。

      記錄交互歷史:整個交互過程會被記錄成一個節(jié)點鏈,形成一個完整的操作歷史,便于后續(xù)調(diào)用。

      進化機制與執(zhí)行過程

      在任務(wù)執(zhí)行過程中,AppAgentX還引入了一種進化機制,使得智能體能夠更高效地執(zhí)行操作。這個機制的核心在于生成“捷徑節(jié)點”,允許智能體在執(zhí)行一系列操作時,跳過逐步推理的過程。具體步驟如下:

      生成捷徑節(jié)點:當(dāng)智能體識別到某些操作具有固定的執(zhí)行順序時,它會創(chuàng)建捷徑節(jié)點。這些節(jié)點將多個底層操作整合為一個更高級的動作。

      高效執(zhí)行:通過調(diào)用這些捷徑節(jié)點,智能體可以快速執(zhí)行一系列操作,而無需逐步推理每一步。這大大提高了任務(wù)執(zhí)行的效率。

      從實驗結(jié)果來看,AppAgentX從單步的執(zhí)行效率到總體的API token消耗,在多個GUI交互任務(wù)上展現(xiàn)出了顯著的“降本增效”。

      總體來說,AppAgentX作為一項創(chuàng)新的移動終端交互技術(shù),通過構(gòu)建鏈?zhǔn)街R存儲架構(gòu)與動態(tài)匹配執(zhí)行機制,在保持大型語言模型代理靈活性的同時顯著提升執(zhí)行效能,實現(xiàn)了無需后端訪問的圖形界面智能操作系統(tǒng)。

      該技術(shù)突破性地解決了傳統(tǒng)智能體在響應(yīng)速度與認(rèn)知能力間的平衡難題,為移動端AI應(yīng)用開辟了新的技術(shù)路徑。此項研究不僅標(biāo)志著智能體技術(shù)在效率與智能動態(tài)平衡方面取得重要突破,更為人機交互領(lǐng)域提供了可擴展的技術(shù)范式。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。