微軟開(kāi)源創(chuàng)新框架:可將DeepSeek，變成AI Agent

2025年02月17日 09:51:32 來(lái)源：AIGC開(kāi)放社區(qū)公眾號(hào)

　　微軟在官網(wǎng)發(fā)布了視覺(jué)Agent解析框架OmniParser最新版本V2.0，可將DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型，變成可在計(jì)算機(jī)使用的AI Agent。

　　與V1版本相比，V2在檢測(cè)較小的可交互UI元素時(shí)準(zhǔn)確率更高、推理速度更快，延遲降低了60%。在高分辨率Agent基準(zhǔn)測(cè)試ScreenSpot Pro中，V2+GPT-4o的準(zhǔn)確率達(dá)到了驚人的39.6%，而GPT-4o原始準(zhǔn)確率只有0.8%，整體提升非常大。

　　除了V2，微軟還開(kāi)源了omnitool，這是一個(gè)基于Docker的 Windows 系統(tǒng)，涵蓋屏幕理解、定位、動(dòng)作規(guī)劃和執(zhí)行等功能，也是將大模型變成Agent的關(guān)鍵工具。

　　OmniParser V2簡(jiǎn)單介紹

　　目前，將大模型變成Agent的關(guān)鍵難點(diǎn)在于，需要能夠可靠地識(shí)別用戶界面中的可交互圖標(biāo)，同時(shí)必須理解截圖中各種元素的語(yǔ)義，并準(zhǔn)確將預(yù)期動(dòng)作與屏幕上的對(duì)應(yīng)區(qū)域關(guān)聯(lián)起來(lái)。

　　而V2通過(guò)將用戶界面從像素空間“標(biāo)記化”解析為結(jié)構(gòu)化元素，使得大模型能夠理解和操作這些元素。這有點(diǎn)類似于自然語(yǔ)言處理中的分詞操作，但針對(duì)的是視覺(jué)信息。通過(guò)這種方式，大模型可以在解析后的可交互元素集合上進(jìn)行基于檢索的下一步動(dòng)作預(yù)測(cè)。

　　例如，當(dāng)一個(gè)大模型需要完成一個(gè)復(fù)雜的網(wǎng)頁(yè)操作任務(wù)時(shí)， V2可以幫助它識(shí)別網(wǎng)頁(yè)中的按鈕、輸入框等元素，并理解這些元素的功能如登錄按鈕、搜索框等。

　　大模型就可以更準(zhǔn)確地預(yù)測(cè)下一步需要執(zhí)行的動(dòng)作，比如點(diǎn)擊登錄按鈕，或在搜索框中輸入關(guān)鍵詞。

　　簡(jiǎn)單來(lái)說(shuō)，你可以把V2看成是大模型的“眼睛”，可以讓其更好地理解和操作復(fù)雜的用戶界面。

　　OmniTool是一個(gè)集成化工具，支持開(kāi)箱即用，可以將DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型變成Agent，一共由V2、OmniBox和Gradio三大塊組成。

　　V2上面已經(jīng)介紹過(guò)了，OmniBox則是一個(gè)基于 Docker 的輕量級(jí)Windows11虛擬機(jī)。與傳統(tǒng)的Windows虛擬機(jī)相比，OmniBox占用的磁盤空間減少了50%，同時(shí)提供了相同的計(jì)算機(jī)使用 API。

　　用戶可以在更小的資源消耗下，快速搭建和運(yùn)行 GUI 自動(dòng)化任務(wù)的測(cè)試環(huán)境。這對(duì)于硬件資源有限的開(kāi)發(fā)者來(lái)說(shuō)非常方便。

　　Gradio UI提供了一個(gè)交互界面，可以幫助開(kāi)發(fā)者輕松地與V2和大模型進(jìn)行交互，快速測(cè)試和驗(yàn)證自動(dòng)化任務(wù)的效果。

　　Gradio UI的使用非常簡(jiǎn)單，只需要在本地機(jī)器上啟動(dòng)OmniBox和 Gradio服務(wù)器，然后通過(guò)瀏覽器訪問(wèn)Gradio UI提供的界面即可。

　　OmniParser核心架構(gòu)

　　OmniParser的核心思想是將用戶界面的視覺(jué)信息，轉(zhuǎn)化為易于理解和操作的結(jié)構(gòu)化數(shù)據(jù)。不過(guò)這個(gè)過(guò)程比較復(fù)雜，需要多個(gè)模塊協(xié)作才能完成。

　　首先，OmniParser需要從用戶界面截圖中識(shí)別出所有可交互的元素，例如，按鈕、圖標(biāo)和輸入框等。這些元素是用戶與界面交互的基礎(chǔ)，因此準(zhǔn)確地檢測(cè)它們是至關(guān)重要的第一步。

　　接下來(lái)，OmniParser不僅要識(shí)別這些元素的位置，還要理解它們的功能和語(yǔ)義。例如，一個(gè)帶有三個(gè)點(diǎn)的圖標(biāo)可能表示“更多選項(xiàng)”，而一個(gè)放大鏡圖標(biāo)則可能代表“搜索”。這種對(duì)功能的深入理解，才能使得大模型能夠更準(zhǔn)確地預(yù)測(cè)用戶可能需要執(zhí)行的操作。

　　為了實(shí)現(xiàn)這些目標(biāo)，OmniParser采用了多階段的解析流程。在第一階段，可交互區(qū)域檢測(cè)模塊利用深度學(xué)習(xí)技術(shù)，從用戶界面截圖中識(shí)別出所有可能的交互點(diǎn)。這一模塊的訓(xùn)練數(shù)據(jù)集，包含了來(lái)自流行網(wǎng)頁(yè)的67，000張獨(dú)特截圖，每張截圖都標(biāo)注了從DOM樹(shù)中提取的可交互區(qū)域的邊界框。

　　通過(guò)使用模型對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練，OmniParser能夠以極高的準(zhǔn)確率識(shí)別出屏幕上的可交互元素，并為每個(gè)元素分配一個(gè)唯一的標(biāo)識(shí)符。

　　但僅僅識(shí)別出可交互元素的位置是不夠的。在復(fù)雜的用戶界面中，一個(gè)按鈕的形狀和顏色可能與其他按鈕相似，其功能卻截然不同。所以，OmniParser內(nèi)置了功能語(yǔ)義模塊。

　　該模塊的目標(biāo)是為每個(gè)檢測(cè)到的圖標(biāo)生成一個(gè)描述其功能的文本。微軟開(kāi)發(fā)了一個(gè)包含7，185個(gè)圖標(biāo)描述對(duì)的數(shù)據(jù)集，并使用BLIP-v2模型對(duì)其進(jìn)行微調(diào)，能夠更準(zhǔn)確地描述常見(jiàn)應(yīng)用圖標(biāo)的語(yǔ)義信息。

　　例如，它不再僅僅描述一個(gè)圖標(biāo)為“帶有三個(gè)點(diǎn)的圓形圖標(biāo)”，而是能夠理解并生成“用于訪問(wèn)更多選項(xiàng)的圖標(biāo)”這樣的描述。

　　OmniParser的第三個(gè)重要模塊是結(jié)構(gòu)化表示與動(dòng)作生成模塊。這一模塊將前兩個(gè)模塊的輸出整合在一起，形成一個(gè)結(jié)構(gòu)化的、類似DOM的UI表示。不僅包含了疊加了邊界框和唯一ID的截圖，還包含了每個(gè)圖標(biāo)的語(yǔ)義描述。

　　這可以幫助DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型更輕松地理解屏幕內(nèi)容，并專注于動(dòng)作預(yù)測(cè)。例如，當(dāng)任務(wù)是“點(diǎn)擊設(shè)置按鈕”時(shí)，OmniParser不僅提供了設(shè)置按鈕的邊界框和ID，還提供了其功能描述，顆顯著提高了模型的準(zhǔn)確性和魯棒性。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信