阿里通義宣布開源R1-Omni模型可提升多模態(tài)情感識別能力

2025年03月12日 11:29:50 來源：AIbase基地

　　3月11日，通義實驗室團隊宣布開源R1-Omni模型，為全模態(tài)模型的發(fā)展帶來了新的突破。該模型結(jié)合了強化學(xué)習(xí)與可驗證獎勵(RLVR)方法，專注于提升多模態(tài)情感識別任務(wù)中的推理能力和泛化性能。

　　R1-Omni的訓(xùn)練分為兩個階段。在冷啟動階段，團隊使用包含580條視頻數(shù)據(jù)的組合數(shù)據(jù)集進行微調(diào)，這些數(shù)據(jù)來自Explainable Multimodal Emotion Reasoning(EMER)數(shù)據(jù)集和HumanOmni數(shù)據(jù)集。這一階段旨在為模型奠定基礎(chǔ)推理能力，確保其在進入RLVR階段前具備一定的多模態(tài)情感識別能力，從而保障后續(xù)訓(xùn)練的平穩(wěn)性、效率與穩(wěn)定性。

　　隨后，在RLVR階段，模型通過強化學(xué)習(xí)與可驗證獎勵機制進一步優(yōu)化。該階段的關(guān)鍵在于策略模型和獎勵函數(shù)。策略模型處理視頻幀和音頻流組成的多模態(tài)輸入數(shù)據(jù)，生成帶有詳細推理過程的候選響應(yīng)，展示模型如何整合視覺和聽覺信息以得出預(yù)測。獎勵函數(shù)則受DeepSeek R1啟發(fā)，分為精確率獎勵和格式獎勵兩部分，共同形成最終獎勵，既鼓勵模型生成正確預(yù)測，又保證輸出結(jié)構(gòu)化且符合預(yù)設(shè)格式。

　　實驗結(jié)果顯示，R1-Omni在同分布測試集DFEW和MAFW上，相較于原始基線模型平均提升超過35%，相較于有監(jiān)督微調(diào)(SFT)模型在未加權(quán)平均召回率(UAR)上提升高達10%以上。在不同分布測試集RAVDESS上，其加權(quán)平均召回率(WAR)和UAR均提升超過13%，展現(xiàn)出卓越的泛化能力。此外，R1-Omni還具有顯著的透明性優(yōu)勢，通過RLVR方法，音頻和視頻信息在模型中的作用變得更加清晰可見，能夠明確展示各模態(tài)信息對特定情緒判斷的關(guān)鍵作用，為理解模型決策過程和未來研究提供了重要參考。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信