字節(jié)大模型BuboGPT已開源 demo可玩

2023年08月18日 17:18:37 來源：站長之家

　　字節(jié)推出了一種新的大模型，名為 BuboGPT，BuboGPT 是一種先進的大型語言模型(LLM)，能夠將文本、圖像和音頻等多模態(tài)輸入進行整合，并具有將回復與視覺對象進行對接的獨特能力。它展示了在對齊或未對齊的任意圖像音頻數(shù)據(jù)理解方面的出色對話能力。

　　通過文字描述、圖像定位和聲音定位，BuboGPT 可以準確判斷聲音來源，即使音頻和圖像之間沒有直接關系，也可以合理描述兩者之間的可能關系。

　　研究人員表示，相比其他多模態(tài)大模型，BuboGPT 利用文本與其他模態(tài)之間的豐富信息和明確對應關系，提供了對視覺對象及給定模態(tài)的細粒度理解。

　　為了實現(xiàn)多模態(tài)理解，BuboGPT 使用了一個共享的語義空間，并構建了一個視覺定位 pipeline，其中包括標記模塊、定位模塊和實體匹配模塊。

　　通過語言作為橋梁，BuboGPT 能夠將視覺對象與其他模態(tài)連接起來。研究人員還展示了 BuboGPT 在圖像描述、聲音來源識別等方面的能力，并開源了代碼和數(shù)據(jù)集，發(fā)布了可玩的 demo。

　　核心功能:

　　- 多模態(tài)理解: BuboGPT 實現(xiàn)了文本、視覺和音頻的聯(lián)合多模態(tài)理解和對話功能。

　　- 視覺對接: BuboGPT 能夠將文本與圖像中的特定部分進行準確關聯(lián)，實現(xiàn)細粒度的視覺對接。

　　- 音頻理解: BuboGPT 能夠準確描述音頻片段中的各個聲音部分，即使對人類來說一些音頻片段過于短暫難以察覺。

　　- 對齊和非對齊理解: BuboGPT 能夠處理匹配的音頻 - 圖像對，實現(xiàn)完美的對齊理解，并能對任意音頻 - 圖像對進行高質量的響應。

　　文章內(nèi)容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

即時

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网