浙大校友聯(lián)手微軟開(kāi)源LLaVA-1.5,硬剛GPT-4V

2023年10月08日 15:22:37 來(lái)源：站長(zhǎng)之家

　　LLaVA-1.5是來(lái)自威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)的研究人員近期開(kāi)源的一款全新的端到端多模態(tài)大模型，可與OpenAI的GPT-4V形成正面競(jìng)爭(zhēng)。LLaVA-1.5在11項(xiàng)基準(zhǔn)測(cè)試中都實(shí)現(xiàn)了新的狀態(tài)最優(yōu)(SOTA)成績(jī)，包括視覺(jué)問(wèn)答、圖像 caption等任務(wù)，展現(xiàn)出了強(qiáng)大的多模態(tài)理解能力。

　　相比之前的版本LLaVA，LLaVA-1.5采用了更高分辨率的圖像輸入、更大規(guī)模的語(yǔ)言模型(13B參數(shù))，以及面向?qū)W術(shù)任務(wù)的視覺(jué)問(wèn)答數(shù)據(jù)集，從而獲得了顯著的性能提升。研究人員發(fā)現(xiàn)，與額外的大規(guī)模預(yù)訓(xùn)練相比，視覺(jué)指令微調(diào)對(duì)提高多模態(tài)能力更為關(guān)鍵。

　　值得一提的是，LLaVA-1.5采用了最簡(jiǎn)單的架構(gòu)設(shè)計(jì)，只需要在公開(kāi)可取得的6百萬(wàn)圖像文本配對(duì)上訓(xùn)練一個(gè)全連接層，就能在多項(xiàng)基準(zhǔn)測(cè)試中打敗復(fù)雜的SOTA系統(tǒng)，刷新記錄。使用8塊A100GPU，LLaVA-1.5的訓(xùn)練僅需1天時(shí)間即可完成。LLaVA-1.5展示了開(kāi)源大模型可以通過(guò)簡(jiǎn)單的設(shè)計(jì)和公共數(shù)據(jù)取得競(jìng)爭(zhēng)力，為未來(lái)的研究提供了有價(jià)值的經(jīng)驗(yàn)。LLaVA-1.5以其出色的多模態(tài)理解能力，向業(yè)內(nèi)掀起了一股“硬剛GPT-4”的新風(fēng)潮。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信