微軟在官網(wǎng)發(fā)布了視覺(jué)Agent解析框架OmniParser最新版本V2.0,可將DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,變成可在計(jì)算機(jī)使用的AI Agent。
與V1版本相比,V2在檢測(cè)較小的可交互UI元素時(shí)準(zhǔn)確率更高、推理速度更快,延遲降低了60%。在高分辨率Agent基準(zhǔn)測(cè)試ScreenSpot Pro中,V2+GPT-4o的準(zhǔn)確率達(dá)到了驚人的39.6%,而GPT-4o原始準(zhǔn)確率只有0.8%,整體提升非常大。
除了V2,微軟還開(kāi)源了omnitool,這是一個(gè)基于Docker的 Windows 系統(tǒng),涵蓋屏幕理解、定位、動(dòng)作規(guī)劃和執(zhí)行等功能,也是將大模型變成Agent的關(guān)鍵工具。
OmniParser V2簡(jiǎn)單介紹
目前,將大模型變成Agent的關(guān)鍵難點(diǎn)在于,需要能夠可靠地識(shí)別用戶界面中的可交互圖標(biāo),同時(shí)必須理解截圖中各種元素的語(yǔ)義,并準(zhǔn)確將預(yù)期動(dòng)作與屏幕上的對(duì)應(yīng)區(qū)域關(guān)聯(lián)起來(lái)。
而V2通過(guò)將用戶界面從像素空間“標(biāo)記化”解析為結(jié)構(gòu)化元素,使得大模型能夠理解和操作這些元素。這有點(diǎn)類似于自然語(yǔ)言處理中的分詞操作,但針對(duì)的是視覺(jué)信息。通過(guò)這種方式,大模型可以在解析后的可交互元素集合上進(jìn)行基于檢索的下一步動(dòng)作預(yù)測(cè)。
例如,當(dāng)一個(gè)大模型需要完成一個(gè)復(fù)雜的網(wǎng)頁(yè)操作任務(wù)時(shí), V2可以幫助它識(shí)別網(wǎng)頁(yè)中的按鈕、輸入框等元素,并理解這些元素的功能如登錄按鈕、搜索框等。
大模型就可以更準(zhǔn)確地預(yù)測(cè)下一步需要執(zhí)行的動(dòng)作,比如點(diǎn)擊登錄按鈕,或在搜索框中輸入關(guān)鍵詞。
簡(jiǎn)單來(lái)說(shuō),你可以把V2看成是大模型的“眼睛”,可以讓其更好地理解和操作復(fù)雜的用戶界面。
OmniTool是一個(gè)集成化工具,支持開(kāi)箱即用,可以將DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型變成Agent,一共由V2、OmniBox和Gradio三大塊組成。
V2上面已經(jīng)介紹過(guò)了,OmniBox則是一個(gè)基于 Docker 的輕量級(jí)Windows11虛擬機(jī)。與傳統(tǒng)的Windows虛擬機(jī)相比,OmniBox占用的磁盤空間減少了50%,同時(shí)提供了相同的計(jì)算機(jī)使用 API。
用戶可以在更小的資源消耗下,快速搭建和運(yùn)行 GUI 自動(dòng)化任務(wù)的測(cè)試環(huán)境。這對(duì)于硬件資源有限的開(kāi)發(fā)者來(lái)說(shuō)非常方便。
Gradio UI提供了一個(gè)交互界面,可以幫助開(kāi)發(fā)者輕松地與V2和大模型進(jìn)行交互,快速測(cè)試和驗(yàn)證自動(dòng)化任務(wù)的效果。
Gradio UI的使用非常簡(jiǎn)單,只需要在本地機(jī)器上啟動(dòng)OmniBox和 Gradio服務(wù)器,然后通過(guò)瀏覽器訪問(wèn)Gradio UI提供的界面即可。
OmniParser核心架構(gòu)
OmniParser的核心思想是將用戶界面的視覺(jué)信息,轉(zhuǎn)化為易于理解和操作的結(jié)構(gòu)化數(shù)據(jù)。不過(guò)這個(gè)過(guò)程比較復(fù)雜,需要多個(gè)模塊協(xié)作才能完成。
首先,OmniParser需要從用戶界面截圖中識(shí)別出所有可交互的元素,例如,按鈕、圖標(biāo)和輸入框等。這些元素是用戶與界面交互的基礎(chǔ),因此準(zhǔn)確地檢測(cè)它們是至關(guān)重要的第一步。
接下來(lái),OmniParser不僅要識(shí)別這些元素的位置,還要理解它們的功能和語(yǔ)義。例如,一個(gè)帶有三個(gè)點(diǎn)的圖標(biāo)可能表示“更多選項(xiàng)”,而一個(gè)放大鏡圖標(biāo)則可能代表“搜索”。這種對(duì)功能的深入理解,才能使得大模型能夠更準(zhǔn)確地預(yù)測(cè)用戶可能需要執(zhí)行的操作。
為了實(shí)現(xiàn)這些目標(biāo),OmniParser采用了多階段的解析流程。在第一階段,可交互區(qū)域檢測(cè)模塊利用深度學(xué)習(xí)技術(shù),從用戶界面截圖中識(shí)別出所有可能的交互點(diǎn)。這一模塊的訓(xùn)練數(shù)據(jù)集,包含了來(lái)自流行網(wǎng)頁(yè)的67,000張獨(dú)特截圖,每張截圖都標(biāo)注了從DOM樹(shù)中提取的可交互區(qū)域的邊界框。
通過(guò)使用模型對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練,OmniParser能夠以極高的準(zhǔn)確率識(shí)別出屏幕上的可交互元素,并為每個(gè)元素分配一個(gè)唯一的標(biāo)識(shí)符。
但僅僅識(shí)別出可交互元素的位置是不夠的。在復(fù)雜的用戶界面中,一個(gè)按鈕的形狀和顏色可能與其他按鈕相似,其功能卻截然不同。所以,OmniParser內(nèi)置了功能語(yǔ)義模塊。
該模塊的目標(biāo)是為每個(gè)檢測(cè)到的圖標(biāo)生成一個(gè)描述其功能的文本。微軟開(kāi)發(fā)了一個(gè)包含7,185個(gè)圖標(biāo)描述對(duì)的數(shù)據(jù)集,并使用BLIP-v2模型對(duì)其進(jìn)行微調(diào),能夠更準(zhǔn)確地描述常見(jiàn)應(yīng)用圖標(biāo)的語(yǔ)義信息。
例如,它不再僅僅描述一個(gè)圖標(biāo)為“帶有三個(gè)點(diǎn)的圓形圖標(biāo)”,而是能夠理解并生成“用于訪問(wèn)更多選項(xiàng)的圖標(biāo)”這樣的描述。
OmniParser的第三個(gè)重要模塊是結(jié)構(gòu)化表示與動(dòng)作生成模塊。這一模塊將前兩個(gè)模塊的輸出整合在一起,形成一個(gè)結(jié)構(gòu)化的、類似DOM的UI表示。不僅包含了疊加了邊界框和唯一ID的截圖,還包含了每個(gè)圖標(biāo)的語(yǔ)義描述。
這可以幫助DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型更輕松地理解屏幕內(nèi)容,并專注于動(dòng)作預(yù)測(cè)。例如,當(dāng)任務(wù)是“點(diǎn)擊設(shè)置按鈕”時(shí),OmniParser不僅提供了設(shè)置按鈕的邊界框和ID,還提供了其功能描述,顆顯著提高了模型的準(zhǔn)確性和魯棒性。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。