3月11日,通義實驗室團隊宣布開源R1-Omni模型,為全模態(tài)模型的發(fā)展帶來了新的突破。該模型結(jié)合了強化學(xué)習(xí)與可驗證獎勵(RLVR)方法,專注于提升多模態(tài)情感識別任務(wù)中的推理能力和泛化性能。
R1-Omni的訓(xùn)練分為兩個階段。在冷啟動階段,團隊使用包含580條視頻數(shù)據(jù)的組合數(shù)據(jù)集進行微調(diào),這些數(shù)據(jù)來自Explainable Multimodal Emotion Reasoning(EMER)數(shù)據(jù)集和HumanOmni數(shù)據(jù)集。這一階段旨在為模型奠定基礎(chǔ)推理能力,確保其在進入RLVR階段前具備一定的多模態(tài)情感識別能力,從而保障后續(xù)訓(xùn)練的平穩(wěn)性、效率與穩(wěn)定性。
隨后,在RLVR階段,模型通過強化學(xué)習(xí)與可驗證獎勵機制進一步優(yōu)化。該階段的關(guān)鍵在于策略模型和獎勵函數(shù)。策略模型處理視頻幀和音頻流組成的多模態(tài)輸入數(shù)據(jù),生成帶有詳細推理過程的候選響應(yīng),展示模型如何整合視覺和聽覺信息以得出預(yù)測。獎勵函數(shù)則受DeepSeek R1啟發(fā),分為精確率獎勵和格式獎勵兩部分,共同形成最終獎勵,既鼓勵模型生成正確預(yù)測,又保證輸出結(jié)構(gòu)化且符合預(yù)設(shè)格式。
實驗結(jié)果顯示,R1-Omni在同分布測試集DFEW和MAFW上,相較于原始基線模型平均提升超過35%,相較于有監(jiān)督微調(diào)(SFT)模型在未加權(quán)平均召回率(UAR)上提升高達10%以上。在不同分布測試集RAVDESS上,其加權(quán)平均召回率(WAR)和UAR均提升超過13%,展現(xiàn)出卓越的泛化能力。此外,R1-Omni還具有顯著的透明性優(yōu)勢,通過RLVR方法,音頻和視頻信息在模型中的作用變得更加清晰可見,能夠明確展示各模態(tài)信息對特定情緒判斷的關(guān)鍵作用,為理解模型決策過程和未來研究提供了重要參考。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
根據(jù)2月底內(nèi)部溝通會上的消息,在美團發(fā)展的第二個十年,“科技”成了公司創(chuàng)始人兼CEO王興會更多關(guān)注的方向之一。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。