魔搭社區(qū)開源多模態(tài)對齊統(tǒng)一框架OneLLM

2023年12月22日 16:13:19 來源：站長之家

　　OneLLM 是一種多模態(tài)對齊的統(tǒng)一框架，它使用通用編碼器和統(tǒng)一的投影模塊與 LLM(Large Language Model)對齊多模態(tài)輸入。OneLLM 還通過使用 modality tokens 實現(xiàn)了在不同模態(tài)之間的切換。

　　OneLLM 的核心組件包括多模態(tài) token 的 tokenizer、通用編碼器、統(tǒng)一的投影模塊和大語言模型。

　　多模態(tài) token 的 tokenizer 將輸入的各種模態(tài)信號轉(zhuǎn)換為 token 序列，以便進行后續(xù)處理和對齊。

　　通用編碼器是在 LAION(Language and AI ON)平臺上訓練的 CLIP VIT Large 模型，它具有強大的語義理解能力，可以對多模態(tài)輸入進行編碼。

　　統(tǒng)一的投影模塊(UPM)是將各個模態(tài)的輸入投影到 LLM 的 embedding 向量空間中，以實現(xiàn)多模態(tài)的對齊。UPM 由 K 個投影專家組成，每個專家包含多個 transformers 塊和大量的參數(shù)。

　　大語言模型是 OneLLM 采用的開源 LLaMA2-7B 模型，它在大規(guī)模文本數(shù)據(jù)上進行了預訓練，可以對輸入進行更深入的語義理解和生成。

　　OneLLM 支持多種不同模態(tài)數(shù)據(jù)的理解，包括圖像、音頻、視頻、點云、深度 / 法線圖、IMU 和 fMRI 大腦活動。

　　實驗證明，OneLLM 在視頻 - 文本、音頻 - 視頻 - 文本、音頻 - 文本等任務中優(yōu)于現(xiàn)有方法，表現(xiàn)出了較強的零樣本能力。

　　文章內(nèi)容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信