人工智能正迎來前所未有的變革,其中,大語言模型(LLM)的崛起推動了智能系統(tǒng)從信息處理向自主交互邁進。
以DeepSeek為代表的LLM,憑借強大的語言理解與推理能力,在文本創(chuàng)作、編程輔助、復(fù)雜任務(wù)規(guī)劃等領(lǐng)域展現(xiàn)出卓越表現(xiàn)。
然而,LLM的潛力遠不止于文本生成,它們正在塑造一種全新的智能體形態(tài)——GUI代理(GUI Agents)。這類智能體不僅能理解指令,還能像人類一樣直接操作計算機和手機,擺脫對預(yù)設(shè)規(guī)則或API的依賴,帶來更自然、高效的交互方式,使AI真正融入軟件生態(tài),成為智能操作系統(tǒng)的一部分。
問題在于,目前的LLM代理雖然具備強大的推理能力,卻在任務(wù)執(zhí)行效率上存在明顯瓶頸。
為了解決這個問題,現(xiàn)在,西湖大學(xué)AGI實驗室張馳團隊推出了AppAgentX——一款具備自我進化能力的GUI代理。它能夠在不斷執(zhí)行任務(wù)的過程中學(xué)習(xí)并優(yōu)化自身的行為模式,實現(xiàn)更加高效的操作。
AppAgentX的核心創(chuàng)新在于:
自動歸納高效操作模式:代理能夠在執(zhí)行任務(wù)時,檢測重復(fù)性操作模式,并自動總結(jié)成更高級別的“一鍵”操作。
任務(wù)執(zhí)行更快,減少重復(fù)計算:傳統(tǒng)的LLM代理每次執(zhí)行任務(wù)都需要重新思考操作流程,而AppAgentX能夠記住并復(fù)用執(zhí)行策略,從而避免重復(fù)推理,使得任務(wù)執(zhí)行更加流暢高效。
完全基于視覺操作,適用于各種軟件:傳統(tǒng)自動化方法通常需要訪問后端API,而AppAgentX僅依賴屏幕視覺信息進行操作,無需后端訪問,因此能夠在不同軟件、不同設(shè)備上通用,真正做到“即插即用”。
AppAgentX:讓智能體學(xué)會“進化”
過去,計算機的自動化操作主要依賴RPA(機器人流程自動化),通過預(yù)設(shè)規(guī)則或API進行固定任務(wù)的執(zhí)行。然而,這種方式需要大量手動配置,缺乏靈活性。
GUI代理的出現(xiàn),改變了這一局面,被譽為軟件世界中的具身智能。
GUI代理不依賴后端API,而是像人類一樣,通過屏幕視覺、鼠標(biāo)和鍵盤直接操作軟件界面。這意味著,智能體可以自主學(xué)習(xí)如何操作各種應(yīng)用程序,甚至能夠在不同軟件之間切換,執(zhí)行復(fù)雜的跨應(yīng)用任務(wù)。例如:
辦公場景:自動整理文檔、批量發(fā)送郵件
娛樂與創(chuàng)作:使用Photoshop處理圖像、生成視頻內(nèi)容
自動化操作:批量錄入數(shù)據(jù)、自動處理訂單
跨應(yīng)用任務(wù):從網(wǎng)頁爬取信息后填入Excel、在多個軟件之間進行聯(lián)動操作
正因如此,GUI代理被視為智能助手、數(shù)字員工、自動化測試等領(lǐng)域的下一代解決方案,但現(xiàn)階段的挑戰(zhàn)也很突出:現(xiàn)有的智能體聰明但不夠高效。
現(xiàn)有的LLM代理通常采用逐步推理(Step-by-step Reasoning)的方式,即每次執(zhí)行操作前,模型都要推理下一步動作。例如,在進行網(wǎng)頁搜索時,它可能會這樣決策:
識別需要搜索的信息;
點擊搜索框;
輸入關(guān)鍵詞;
點擊搜索按鈕。
這種方式賦予了智能體極強的泛化能力,使其能夠適應(yīng)新任務(wù)場景,但也帶來了執(zhí)行低效、重復(fù)計算嚴(yán)重的問題。
AppAgentX解決這一痛點的核心思路,是讓智能體學(xué)會“進化”。
下面是一個AppAgentX執(zhí)行播放音樂的一個例子示意圖,當(dāng)找到了“一鍵”操作,就不需要每一步都耗費大量時間思考下一步需要做什么,從而快速完成任務(wù)。
這里可以看出智能體進化出一個高級操作“搜索”,它取代了一系列低效的低級操作。這種進化避免了重復(fù)耗時的逐步推理,顯著提高了代理的效率。
方法介紹
任務(wù)軌跡的分解
在執(zhí)行任務(wù)時,AppAgentX會將整個過程分解成多個重疊的三元組(即由三個部分組成的組合)。這些三元組包含了頁面內(nèi)容和用戶界面(UI)元素的功能描述。
具體來說,智能體會:
生成功能描述:利用大語言模型(LLM),為每個頁面和界面元素生成詳細的功能描述。這些描述幫助智能體理解每個部分的作用。
合并重復(fù)描述:如果某些頁面的描述是重復(fù)生成的,智能體會將這些描述合并,以減少冗余信息。
記錄交互歷史:整個交互過程會被記錄成一個節(jié)點鏈,形成一個完整的操作歷史,便于后續(xù)調(diào)用。
進化機制與執(zhí)行過程
在任務(wù)執(zhí)行過程中,AppAgentX還引入了一種進化機制,使得智能體能夠更高效地執(zhí)行操作。這個機制的核心在于生成“捷徑節(jié)點”,允許智能體在執(zhí)行一系列操作時,跳過逐步推理的過程。具體步驟如下:
生成捷徑節(jié)點:當(dāng)智能體識別到某些操作具有固定的執(zhí)行順序時,它會創(chuàng)建捷徑節(jié)點。這些節(jié)點將多個底層操作整合為一個更高級的動作。
高效執(zhí)行:通過調(diào)用這些捷徑節(jié)點,智能體可以快速執(zhí)行一系列操作,而無需逐步推理每一步。這大大提高了任務(wù)執(zhí)行的效率。
從實驗結(jié)果來看,AppAgentX從單步的執(zhí)行效率到總體的API token消耗,在多個GUI交互任務(wù)上展現(xiàn)出了顯著的“降本增效”。
總體來說,AppAgentX作為一項創(chuàng)新的移動終端交互技術(shù),通過構(gòu)建鏈?zhǔn)街R存儲架構(gòu)與動態(tài)匹配執(zhí)行機制,在保持大型語言模型代理靈活性的同時顯著提升執(zhí)行效能,實現(xiàn)了無需后端訪問的圖形界面智能操作系統(tǒng)。
該技術(shù)突破性地解決了傳統(tǒng)智能體在響應(yīng)速度與認(rèn)知能力間的平衡難題,為移動端AI應(yīng)用開辟了新的技術(shù)路徑。此項研究不僅標(biāo)志著智能體技術(shù)在效率與智能動態(tài)平衡方面取得重要突破,更為人機交互領(lǐng)域提供了可擴展的技術(shù)范式。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。