OneLLM 是一種多模態(tài)對齊的統(tǒng)一框架,它使用通用編碼器和統(tǒng)一的投影模塊與 LLM(Large Language Model)對齊多模態(tài)輸入。OneLLM 還通過使用 modality tokens 實現(xiàn)了在不同模態(tài)之間的切換。
OneLLM 的核心組件包括多模態(tài) token 的 tokenizer、通用編碼器、統(tǒng)一的投影模塊和大語言模型。
多模態(tài) token 的 tokenizer 將輸入的各種模態(tài)信號轉(zhuǎn)換為 token 序列,以便進(jìn)行后續(xù)處理和對齊。
通用編碼器是在 LAION(Language and AI ON)平臺上訓(xùn)練的 CLIP VIT Large 模型,它具有強(qiáng)大的語義理解能力,可以對多模態(tài)輸入進(jìn)行編碼。
統(tǒng)一的投影模塊(UPM)是將各個模態(tài)的輸入投影到 LLM 的 embedding 向量空間中,以實現(xiàn)多模態(tài)的對齊。UPM 由 K 個投影專家組成,每個專家包含多個 transformers 塊和大量的參數(shù)。
大語言模型是 OneLLM 采用的開源 LLaMA2-7B 模型,它在大規(guī)模文本數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練,可以對輸入進(jìn)行更深入的語義理解和生成。
OneLLM 支持多種不同模態(tài)數(shù)據(jù)的理解,包括圖像、音頻、視頻、點云、深度 / 法線圖、IMU 和 fMRI 大腦活動。
實驗證明,OneLLM 在視頻 - 文本、音頻 - 視頻 - 文本、音頻 - 文本等任務(wù)中優(yōu)于現(xiàn)有方法,表現(xiàn)出了較強(qiáng)的零樣本能力。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。