鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動(dòng)泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計(jì):看過實(shí)車的人都喜歡這個(gè)設(shè)計(jì)林杰:未來 A 級、A0 級、A00 級車型都將是領(lǐng)克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂年度聽歌報(bào)告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫的應(yīng)許之地?深扒一個(gè)正被游戲行業(yè)「搶占」的流量帝國百思買重新進(jìn)軍跨境電商領(lǐng)域視頻生成大模型賽道,只是看上去擁擠GGII:預(yù)計(jì)2024年中國工業(yè)機(jī)器人全年銷量約30萬臺,同比下滑5%左右冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點(diǎn)京東iPhone 16系列年底大放價(jià)!至高補(bǔ)貼1200元價(jià)格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞
  • 首頁 > 云計(jì)算頻道 > 大模型

    谷歌版賈維斯即將問世,最強(qiáng)Gemini 2.0加持!AI自主操控電腦時(shí)代來臨

    2024年10月28日 10:20:39   來源:​新智元公眾號

      【新智元導(dǎo)讀】科幻中的賈維斯,已經(jīng)離我們不遠(yuǎn)了。Claude3.5接管人類電腦掀起了人機(jī)交互全新范式,爆料稱谷歌同類Project Jarvis預(yù)計(jì)年底亮相。AI操控電腦已成為微軟、蘋果等巨頭,下一個(gè)發(fā)力的戰(zhàn)場。

      AI接管人類電腦,就是下一個(gè)未來!

      幾天前,Anthropic向所有人展示了,Claude3.5自主看屏幕操作光標(biāo)完成復(fù)雜任務(wù),足以驚掉下巴。

      剛剛,Information獨(dú)家爆料稱,谷歌正開發(fā)同類新項(xiàng)目「Project Jarvis」,能將Chrome網(wǎng)頁任務(wù)自動(dòng)化。

      谷歌「賈維斯」將由未來版Gemini2.0驅(qū)動(dòng),預(yù)計(jì)在12月亮相。

      起這個(gè)名字,是為了向鋼鐵俠中的J.A.R.V.I.S致敬。

      無獨(dú)有偶,微軟團(tuán)隊(duì)悄悄放出的OmniParser,也在篤定AI智能體操控屏幕的未來。

      OmniParser主要是一個(gè)屏幕解析的工具,可以將截圖轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),幫助AI精準(zhǔn)理解用戶意圖。

      不僅如此,OpenAI內(nèi)部已有了AI智能體雛形,可以操控計(jì)算機(jī)完成在線訂餐、自動(dòng)查詢解決編程難題等任務(wù)。

      包括蘋果在內(nèi),預(yù)計(jì)在明年發(fā)布跨多個(gè)APP屏幕識別能力。最新迭代的Ferret-UI2,就是通用UI模型。

      可見,「Computer use」已經(jīng)成為科技大廠們,重點(diǎn)發(fā)力的下一個(gè)戰(zhàn)場。

      谷歌「賈維斯」年底出世,最強(qiáng)Gemini2加持

      代號為Jarvis Project項(xiàng)目,本質(zhì)上是一個(gè)大動(dòng)作模型(LAM),也是谷歌一直以來在做的大模型方向。

      它專門針對谷歌Chrome瀏覽器,進(jìn)行了優(yōu)化。

      具體操作原理,與Claude3.5類似,通過截屏、解析屏幕內(nèi)容,然后自動(dòng)點(diǎn)擊按鈕,或輸入文本,最終幫助人們完成基于網(wǎng)頁的日常任務(wù)。

      不論是收集研究信息、購物,或是預(yù)定航班等任務(wù),谷歌「賈維斯」均可實(shí)現(xiàn)。

      不過,它在執(zhí)行不同操作時(shí),中間會有幾秒鐘的思考時(shí)間。

      因此,在終端設(shè)備中運(yùn)行還不太現(xiàn)實(shí),仍然需要云上操作。

      5月的谷歌I/O大會上,谷歌CEO劈柴曾展示了,Gemini和Chrome如何協(xié)同工作的樣貌。

      如前所述,谷歌「賈維斯」將由Gemini2.0加持,也就意味著年底我們可以看到進(jìn)步版Gemini模型。

      盡管Sam Altman否認(rèn)了Orion模型的發(fā)布,但外媒猜測,預(yù)計(jì)年底OpenAI也將放出新核彈

      微軟OmniParser也下場了

      緊接著Claude「計(jì)算機(jī)使用」發(fā)布之后,微軟就開源了AI框架OmniParser。

      假設(shè)你想要去布賴斯峽谷國家公園,不知是否需要訂票入園,這時(shí)OmniParser可以帶你查詢。

      它會解析屏幕后,自動(dòng)點(diǎn)擊「permits」按鈕,然后再截屏找到「布賴斯峽谷國家公園」,最后就可以完成用戶任務(wù)。

      可見,想要把類似GPT-4V的多模態(tài)大模型應(yīng)用于操作系統(tǒng)上,模型還需要具備強(qiáng)大的屏幕解析能力,主要包括兩方面:

      1、準(zhǔn)確地識別用戶界面中的可交互圖標(biāo);

      2、理解屏幕截圖中各種元素的語義,并準(zhǔn)確將預(yù)期動(dòng)作與屏幕上的相應(yīng)區(qū)域關(guān)聯(lián)起來。

      基于上述思路,微軟最新提出的OmniParser模型,可以將用戶界面截圖解析為結(jié)構(gòu)化元素,顯著增強(qiáng)了GPT-4V在對應(yīng)界面區(qū)域預(yù)測行動(dòng)的能力。

      方法

      一個(gè)復(fù)雜的操作任務(wù)通常可以分解成多個(gè)子行動(dòng)步驟,在執(zhí)行過程中,模型需要具備以下能力:

      1、理解當(dāng)前步驟的用戶界面,即分析屏幕內(nèi)容中大體上在展示什么、檢測到的圖標(biāo)功能是什么等;

      2、預(yù)測當(dāng)前屏幕上的下一個(gè)動(dòng)作,來幫助完成整個(gè)任務(wù)。

      研究人員發(fā)現(xiàn),將這兩個(gè)目標(biāo)分解開,比如在屏幕解析階段只提取語義信息等,可以減輕GPT-4V的負(fù)擔(dān);模型也能夠從解析后的屏幕中利用更多信息,動(dòng)作預(yù)測準(zhǔn)確率更高。

      因此,OmniParser結(jié)合了微調(diào)后的可交互圖標(biāo)檢測模型、微調(diào)后的圖標(biāo)描述模型以及光學(xué)字符識別(OCR)模塊的輸出,可以生成用戶界面的結(jié)構(gòu)化表示,類似于文檔對象模型(DOM),以及一個(gè)疊加潛在可交互元素邊界框的屏幕截圖。

      可交互區(qū)域檢測(Interactable Region Detection)

      從用戶界面屏幕中識別出「可交互區(qū)域」非常關(guān)鍵,也是預(yù)測下一步行動(dòng)來完成用戶任務(wù)的基礎(chǔ)。

      研究人員并沒有直接提示GPT-4V來預(yù)測屏幕中操作范圍的xy坐標(biāo)值,而是遵循先前的工作,使用標(biāo)記集合方法在用戶界面截圖上疊加可交互圖標(biāo)的邊界框,并要求GPT-4V生成要執(zhí)行動(dòng)作的邊界框ID。

      為了提高準(zhǔn)確性,研究人員構(gòu)造了一個(gè)用于可交互圖標(biāo)檢測的微調(diào)數(shù)據(jù)集,包含6.7萬個(gè)不重復(fù)的屏幕截圖,其中所有圖像都使用從DOM樹派生的可交互圖標(biāo)的邊界框進(jìn)行標(biāo)記。

      為了構(gòu)造數(shù)據(jù)集,研究人員首先從網(wǎng)絡(luò)上公開可用的網(wǎng)址中提取了10萬個(gè)均勻樣本,并從每個(gè)URL的DOM樹中收集網(wǎng)頁的可交互區(qū)域的邊界框。

      除了可交互區(qū)域檢測,還引有一個(gè)OCR模塊來提取文本的邊界框。

      然后合并OCR檢測模塊和圖標(biāo)檢測模塊的邊界框,同時(shí)移除重疊度很高的框(閾值為重疊超過90%)。

      對于每個(gè)邊界框,使用一個(gè)簡單的算法在邊框旁邊標(biāo)記一個(gè)ID,以最小化數(shù)字標(biāo)簽和其他邊界框之間的重疊。

      整合功能的局部語義(Incorporating Local Semantics of Functionality)

      研究人員發(fā)現(xiàn),在很多情況下,如果僅輸入疊加了邊界框和相關(guān)ID的用戶界面截圖可能會對GPT-4V造成誤導(dǎo),這種局限性可能源于GPT-4V無法「同時(shí)」執(zhí)行「識別圖標(biāo)的語義信息」和「預(yù)測特定圖標(biāo)框上的下一個(gè)動(dòng)作」的復(fù)合任務(wù)。

      為了解決這個(gè)問題,研究人員將功能局部語義整合到提示中,即對于可交互區(qū)域檢測模型檢測到的圖標(biāo),使用一個(gè)微調(diào)過的模型為圖標(biāo)生成功能描述;對于文本框,使用檢測到的文本及其標(biāo)簽。

      然而,目前還沒有專門為用戶界面圖標(biāo)描述而訓(xùn)練的公共模型,但這類模型非常適合目標(biāo)場景,即能夠?yàn)橛脩艚缑娼貓D提供快速準(zhǔn)確的局部語義。

      研究人員使用GPT-4o構(gòu)造了一個(gè)包含7000對「圖標(biāo)-描述」的數(shù)據(jù)集,并在數(shù)據(jù)集上微調(diào)了一個(gè)BLIP-v2模型,結(jié)果也證明了該模型在描述常見應(yīng)用圖標(biāo)時(shí)更加可靠。

      實(shí)驗(yàn)評估

      SeeAssign任務(wù)

      為了測試GPT-4V模型正確預(yù)測邊界框描述所對應(yīng)的標(biāo)簽ID的能力,研究人員手工制作了一個(gè)名為SeeAssign的數(shù)據(jù)集,其中包含了來自3個(gè)不同平臺(移動(dòng)設(shè)備、桌面電腦和網(wǎng)絡(luò)瀏覽器)的112個(gè)任務(wù)樣本,每個(gè)樣本都包括一段簡潔的任務(wù)描述和一個(gè)屏幕截圖。

      根據(jù)難度,任務(wù)被分為三類:簡單(少于10個(gè)邊界框)、中等(10-40個(gè)邊界框)和困難(超過40個(gè)邊界框)。

      GPT-4V不帶局部語義的提示:

      Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘ Box with label ID: [xx]‘‘‘\n

      帶局部語義的提示:

      Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of \n‘‘‘Box with label ID: [xx]‘‘‘\n

      從結(jié)果來看,GPT-4V經(jīng)常錯(cuò)誤地將數(shù)字ID分配給表格,特別是當(dāng)屏幕上有很多邊界框時(shí);通過添加包括框內(nèi)文本和檢測到的圖標(biāo)的簡短描述在內(nèi)的局部語義,GPT-4V正確分配圖標(biāo)的能力從0.705提高到0.938

      ScreenSpot評估

      ScreenSpot數(shù)據(jù)集是一個(gè)基準(zhǔn)測試數(shù)據(jù)集,包含了來自移動(dòng)設(shè)備(iOS、Android)、桌面電腦(macOS、Windows)和網(wǎng)絡(luò)平臺的600多個(gè)界面截圖,其中任務(wù)指令是人工創(chuàng)建的,以確保每個(gè)指令都對應(yīng)用戶界面屏幕上的一個(gè)可操作元素。

      結(jié)果顯示,在三個(gè)不同的平臺上,OmniParser顯著提高了GPT-4V的基線性能,甚至超過了專門在圖形用戶界面(GUI)數(shù)據(jù)集上微調(diào)過的模型,包括SeeClick、CogAgent和Fuyu,并且超出的幅度很大。

      還可以注意到,加入局部語義(表中的OmniParser w. LS)可以進(jìn)一步提高整體性能,即在文本格式中加入用戶界面截圖的局部語義(OCR文本和圖標(biāo)邊界框的描述),可以幫助GPT-4V準(zhǔn)確識別要操作的正確元素。

      Mind2Web評估

      測試集中有3種不同類型的任務(wù):跨領(lǐng)域、跨網(wǎng)站和跨任務(wù),可以測試OmniParser在網(wǎng)頁導(dǎo)航場景中的輔助能力。

      結(jié)果顯示,即使沒有使用網(wǎng)頁的HTML信息,OmniParser也能大幅提高智能體的性能,甚至超過了一些使用HTML信息的模型,表明通過解析屏幕截圖提供的語義信息非常有用,特別是在處理跨網(wǎng)站和跨領(lǐng)域任務(wù)時(shí),模型的表現(xiàn)尤為出色。

      AITW評估

      研究人員還在移動(dòng)設(shè)備導(dǎo)航基準(zhǔn)測試AITW上對OmniParser進(jìn)行了評估,測試包含3萬條指令和71.5萬條軌跡。

      結(jié)果顯示,用自己微調(diào)的模型替換了原有的IconNet模型,并加入了圖標(biāo)功能的局部語義信息后,OmniParser在大多數(shù)子類別中的表現(xiàn)都有了顯著提升,整體得分也比之前最好的GPT-4V智能體提高了4.7%。

      這表明了,模型能夠很好地理解和處理移動(dòng)設(shè)備上的用戶界面,即使在沒有額外訓(xùn)練數(shù)據(jù)的情況下也能表現(xiàn)出色。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。