DDN推出 Infinia 2.0對(duì)象存儲(chǔ) 加速AI數(shù)據(jù)處理速度全部免費(fèi)!百度文心智能體平臺(tái)已全面接入DeepSeek模型燈塔云系統(tǒng):開(kāi)啟勞務(wù)派遣管理4.0時(shí)代超2671萬(wàn)名消費(fèi)者申請(qǐng)手機(jī)等數(shù)碼產(chǎn)品購(gòu)新補(bǔ)貼 用國(guó)補(bǔ)買手機(jī)上京東皇家馬德里對(duì)陣赫羅納:不乏進(jìn)球與高水平競(jìng)技的足球現(xiàn)場(chǎng)OpenAI宣布面向多個(gè)國(guó)家推出AI代理 Operator扣子Coze宣布獨(dú)家支持 DeepSeek Function Calling 工具調(diào)用能力小紅書(shū)將接入DeepSeek AI 搜索產(chǎn)品“點(diǎn)點(diǎn)” 內(nèi)測(cè)深度思考功能騰訊元寶「混元+DeepSeek」雙模聚合 推出「圖像理解」技能蘋果死磕廉價(jià)牌Clone公司推出首款“類人機(jī)器人”Protoclone 擁有肌肉和骨骼結(jié)構(gòu)微軟為OpenAI即將推出的 GPT-4.5和 GPT-5模型積極準(zhǔn)備服務(wù)器容量國(guó)際星閃聯(lián)盟會(huì)議在京召開(kāi),為星閃2.0標(biāo)準(zhǔn)完成打下基礎(chǔ)Telstra攜手愛(ài)立信進(jìn)行亞太首個(gè)5G-A高性能可編程網(wǎng)絡(luò)部署阿里通義萬(wàn)相宣布即將開(kāi)源視頻生成模型WanX2.1DeepSeek賦能Vixtel飛思達(dá)CloudFox可觀測(cè)性平臺(tái),打破可觀測(cè)性工程的實(shí)施壁壘《和平精英》手游宣布正式接入DeepSeekREDMI K80至尊版曝光:電池超7000mAh 紅米史上最大鴻海研究院量子容錯(cuò)計(jì)算技術(shù)取得重大突破DeepSeek“入侵”音樂(lè)平臺(tái):搜歌是其次,創(chuàng)作才是正職
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    微軟開(kāi)源創(chuàng)新框架:可將DeepSeek,變成AI Agent

    2025年02月17日 09:51:32   來(lái)源:AIGC開(kāi)放社區(qū)公眾號(hào)

      微軟在官網(wǎng)發(fā)布了視覺(jué)Agent解析框架OmniParser最新版本V2.0,可將DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,變成可在計(jì)算機(jī)使用的AI Agent。

      與V1版本相比,V2在檢測(cè)較小的可交互UI元素時(shí)準(zhǔn)確率更高、推理速度更快,延遲降低了60%。在高分辨率Agent基準(zhǔn)測(cè)試ScreenSpot Pro中,V2+GPT-4o的準(zhǔn)確率達(dá)到了驚人的39.6%,而GPT-4o原始準(zhǔn)確率只有0.8%,整體提升非常大。

      除了V2,微軟還開(kāi)源了omnitool,這是一個(gè)基于Docker的 Windows 系統(tǒng),涵蓋屏幕理解、定位、動(dòng)作規(guī)劃和執(zhí)行等功能,也是將大模型變成Agent的關(guān)鍵工具。

      OmniParser V2簡(jiǎn)單介紹

      目前,將大模型變成Agent的關(guān)鍵難點(diǎn)在于,需要能夠可靠地識(shí)別用戶界面中的可交互圖標(biāo),同時(shí)必須理解截圖中各種元素的語(yǔ)義,并準(zhǔn)確將預(yù)期動(dòng)作與屏幕上的對(duì)應(yīng)區(qū)域關(guān)聯(lián)起來(lái)。

      而V2通過(guò)將用戶界面從像素空間“標(biāo)記化”解析為結(jié)構(gòu)化元素,使得大模型能夠理解和操作這些元素。這有點(diǎn)類似于自然語(yǔ)言處理中的分詞操作,但針對(duì)的是視覺(jué)信息。通過(guò)這種方式,大模型可以在解析后的可交互元素集合上進(jìn)行基于檢索的下一步動(dòng)作預(yù)測(cè)。

      例如,當(dāng)一個(gè)大模型需要完成一個(gè)復(fù)雜的網(wǎng)頁(yè)操作任務(wù)時(shí), V2可以幫助它識(shí)別網(wǎng)頁(yè)中的按鈕、輸入框等元素,并理解這些元素的功能如登錄按鈕、搜索框等。

      大模型就可以更準(zhǔn)確地預(yù)測(cè)下一步需要執(zhí)行的動(dòng)作,比如點(diǎn)擊登錄按鈕,或在搜索框中輸入關(guān)鍵詞。

      簡(jiǎn)單來(lái)說(shuō),你可以把V2看成是大模型的“眼睛”,可以讓其更好地理解和操作復(fù)雜的用戶界面。

      OmniTool是一個(gè)集成化工具,支持開(kāi)箱即用,可以將DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型變成Agent,一共由V2、OmniBox和Gradio三大塊組成。

      V2上面已經(jīng)介紹過(guò)了,OmniBox則是一個(gè)基于 Docker 的輕量級(jí)Windows11虛擬機(jī)。與傳統(tǒng)的Windows虛擬機(jī)相比,OmniBox占用的磁盤空間減少了50%,同時(shí)提供了相同的計(jì)算機(jī)使用 API。

      用戶可以在更小的資源消耗下,快速搭建和運(yùn)行 GUI 自動(dòng)化任務(wù)的測(cè)試環(huán)境。這對(duì)于硬件資源有限的開(kāi)發(fā)者來(lái)說(shuō)非常方便。

      Gradio UI提供了一個(gè)交互界面,可以幫助開(kāi)發(fā)者輕松地與V2和大模型進(jìn)行交互,快速測(cè)試和驗(yàn)證自動(dòng)化任務(wù)的效果。

      Gradio UI的使用非常簡(jiǎn)單,只需要在本地機(jī)器上啟動(dòng)OmniBox和 Gradio服務(wù)器,然后通過(guò)瀏覽器訪問(wèn)Gradio UI提供的界面即可。

      OmniParser核心架構(gòu)

      OmniParser的核心思想是將用戶界面的視覺(jué)信息,轉(zhuǎn)化為易于理解和操作的結(jié)構(gòu)化數(shù)據(jù)。不過(guò)這個(gè)過(guò)程比較復(fù)雜,需要多個(gè)模塊協(xié)作才能完成。

      首先,OmniParser需要從用戶界面截圖中識(shí)別出所有可交互的元素,例如,按鈕、圖標(biāo)和輸入框等。這些元素是用戶與界面交互的基礎(chǔ),因此準(zhǔn)確地檢測(cè)它們是至關(guān)重要的第一步。

      接下來(lái),OmniParser不僅要識(shí)別這些元素的位置,還要理解它們的功能和語(yǔ)義。例如,一個(gè)帶有三個(gè)點(diǎn)的圖標(biāo)可能表示“更多選項(xiàng)”,而一個(gè)放大鏡圖標(biāo)則可能代表“搜索”。這種對(duì)功能的深入理解,才能使得大模型能夠更準(zhǔn)確地預(yù)測(cè)用戶可能需要執(zhí)行的操作。

      為了實(shí)現(xiàn)這些目標(biāo),OmniParser采用了多階段的解析流程。在第一階段,可交互區(qū)域檢測(cè)模塊利用深度學(xué)習(xí)技術(shù),從用戶界面截圖中識(shí)別出所有可能的交互點(diǎn)。這一模塊的訓(xùn)練數(shù)據(jù)集,包含了來(lái)自流行網(wǎng)頁(yè)的67,000張獨(dú)特截圖,每張截圖都標(biāo)注了從DOM樹(shù)中提取的可交互區(qū)域的邊界框。

      通過(guò)使用模型對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練,OmniParser能夠以極高的準(zhǔn)確率識(shí)別出屏幕上的可交互元素,并為每個(gè)元素分配一個(gè)唯一的標(biāo)識(shí)符。

      但僅僅識(shí)別出可交互元素的位置是不夠的。在復(fù)雜的用戶界面中,一個(gè)按鈕的形狀和顏色可能與其他按鈕相似,其功能卻截然不同。所以,OmniParser內(nèi)置了功能語(yǔ)義模塊。

      該模塊的目標(biāo)是為每個(gè)檢測(cè)到的圖標(biāo)生成一個(gè)描述其功能的文本。微軟開(kāi)發(fā)了一個(gè)包含7,185個(gè)圖標(biāo)描述對(duì)的數(shù)據(jù)集,并使用BLIP-v2模型對(duì)其進(jìn)行微調(diào),能夠更準(zhǔn)確地描述常見(jiàn)應(yīng)用圖標(biāo)的語(yǔ)義信息。

      例如,它不再僅僅描述一個(gè)圖標(biāo)為“帶有三個(gè)點(diǎn)的圓形圖標(biāo)”,而是能夠理解并生成“用于訪問(wèn)更多選項(xiàng)的圖標(biāo)”這樣的描述。

      OmniParser的第三個(gè)重要模塊是結(jié)構(gòu)化表示與動(dòng)作生成模塊。這一模塊將前兩個(gè)模塊的輸出整合在一起,形成一個(gè)結(jié)構(gòu)化的、類似DOM的UI表示。不僅包含了疊加了邊界框和唯一ID的截圖,還包含了每個(gè)圖標(biāo)的語(yǔ)義描述。

      這可以幫助DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型更輕松地理解屏幕內(nèi)容,并專注于動(dòng)作預(yù)測(cè)。例如,當(dāng)任務(wù)是“點(diǎn)擊設(shè)置按鈕”時(shí),OmniParser不僅提供了設(shè)置按鈕的邊界框和ID,還提供了其功能描述,顆顯著提高了模型的準(zhǔn)確性和魯棒性。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。