新型多模態(tài)模型Adept Fuyu-Heavy 專為數(shù)字代理設(shè)計(jì)

2024年01月30日 16:35:53 來源：站長之家

　　1月30日消息:Adept Fuyu-Heavy是一種新型的多模態(tài)模型，專為數(shù)字代理設(shè)計(jì)。據(jù)稱，它是世界上第三大能力超強(qiáng)的多模態(tài)模型，僅次于GPT4-V和Gemini Ultra。這種模型特別擅長理解用戶界面，能夠解釋和操作各種軟件和應(yīng)用程序的界面，并且可以幫助用戶執(zhí)行自動(dòng)化流程、響應(yīng)查詢以及提供信息等任務(wù)。

　　在多項(xiàng)評估和基準(zhǔn)測試中，Adept Fuyu-Heavy展現(xiàn)出了卓越的性能。在MMM(Multimodal Multitask)基準(zhǔn)測試中，其表現(xiàn)優(yōu)于Gemini Pro，尤其在處理多模態(tài)任務(wù)時(shí)表現(xiàn)出色。

　　在文本基準(zhǔn)測試中，盡管需要分配部分容量處理圖像數(shù)據(jù)，但在標(biāo)準(zhǔn)的文本只評估中，它的表現(xiàn)與Gemini Pro大體相當(dāng)，甚至在MMLU(多模態(tài)語言理解)基準(zhǔn)測試中超過了Gemini Pro。

　　此外，經(jīng)過有監(jiān)督的微調(diào)和直接優(yōu)化階段后，F(xiàn)uyu-Heavy在最常用的聊天評估中的表現(xiàn)與Claude2.0相當(dāng)，盡管它是一個(gè)更小的模型，且部分容量用于圖像建模。在多模態(tài)性能標(biāo)準(zhǔn)方面，F(xiàn)uyu-Heavy略微優(yōu)于Gemini Pro，在VQAv2(一個(gè)視覺問答基準(zhǔn))和AI2D(一個(gè)圖表理解數(shù)據(jù)集)上也取得了不俗的成績。

　　Adept Fuyu-Heavy的主要能力包括多模態(tài)理解和生成、高效的圖像和文本處理、優(yōu)化的模型架構(gòu)、長形式對話性能、用戶界面理解以及跨模態(tài)內(nèi)容生成。這意味著它能夠處理和理解多種類型的數(shù)據(jù)，如文本和圖像，并能夠基于這些數(shù)據(jù)生成相應(yīng)的輸出，使其在多模態(tài)任務(wù)上表現(xiàn)出色。

　　盡管需要部分容量用于圖像建模，但在標(biāo)準(zhǔn)文本基準(zhǔn)測試中的表現(xiàn)匹敵或超越同級別的模型。此外，經(jīng)過特定訓(xùn)練階段優(yōu)化后，F(xiàn)uyu-Heavy在長形式對話和交互中表現(xiàn)出色。

　　它還特別擅長于理解數(shù)字用戶界面(UI)，如網(wǎng)站和應(yīng)用程序，提供有效的自動(dòng)化解決方案，能夠適應(yīng)和優(yōu)化數(shù)字代理的功能，如提高用戶界面理解、增強(qiáng)自動(dòng)化決策能力、提供更準(zhǔn)確的信息檢索和內(nèi)容生成等。最后，它還能夠生成跨越文本和圖像的內(nèi)容，適用于多種應(yīng)用場景。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信