谷歌發(fā)布新RL方法，性能提升巨大，o1模型已證明

2024年09月23日 09:43:23 來源：AIGC開放社區(qū)公眾號

　　谷歌DeepMind的研究人員提出了一種創(chuàng)新多輪強化學(xué)習(xí)方法——SCoRe。

　　目前，多數(shù)大模型不具備自我糾錯或能力較差，尤其是在數(shù)學(xué)和代碼領(lǐng)域在給出錯誤答案后，會一直堅持錯誤答案，影響模型的準確率。而SCoRe通過避免訓(xùn)練數(shù)據(jù)與模型實際響應(yīng)分布不匹配以及多輪反饋獎勵機制，來幫助大模型及時糾正自己的錯誤。

　　OpenAI最近發(fā)布的o1模型便使用了類似的技術(shù)，主要亮點之一便是模型的自我糾錯能力，其數(shù)學(xué)和代碼能力也獲得了大幅度提升。也就是說，強化學(xué)習(xí)確實能幫助大模型提升輸出性能和準確率。

　　在傳統(tǒng)的大模型訓(xùn)練過程中，模型通常通過監(jiān)督學(xué)習(xí)來優(yōu)化其對特定任務(wù)的性能。但這種方法主要依賴于大量的標注數(shù)據(jù)，并且在訓(xùn)練和推理之間存在巨大的數(shù)據(jù)分布差異，導(dǎo)致模型在實際應(yīng)用中難以有效糾正錯誤。

　　例如，在圖像識別任務(wù)中，模型在訓(xùn)練時主要使用的是風(fēng)景領(lǐng)域的圖像，并且對這些圖像的標注信息進行了學(xué)習(xí)。但在實際應(yīng)用中，遇到一些與訓(xùn)練數(shù)據(jù)差異較大的圖像，光照條件不同、拍攝角度不同以及具備不同物體特征的醫(yī)學(xué)圖像時。模型可能就會無法識別這些新圖像，并且難以通過自我糾正來改進性能。

　　最重要的是，傳統(tǒng)的監(jiān)督學(xué)習(xí)方法在訓(xùn)練過程中，并沒有明確地教導(dǎo)模型如何自我糾正錯誤。一旦模型在推理階段產(chǎn)生錯誤的結(jié)果，只能依賴外部反饋或手動干預(yù)來糾正這些錯誤。這對于需要高度準確率的法律、金融等應(yīng)用場景來說是一個重大缺陷。

　　而SCoRe則是在模型自己生成的數(shù)據(jù)上進行多輪強化訓(xùn)練，使模型能夠?qū)W習(xí)到如何根據(jù)獎勵信號來調(diào)整自己的輸出實現(xiàn)自我糾正。

　　在訓(xùn)練過程中，SCoRe 會鼓勵模型嘗試不同的輸出，并根據(jù)獎勵信號來判斷哪些輸出是最準確的。幫助模型就能夠逐漸學(xué)習(xí)到如何在不同的情況下做出正確的決策。

　　例如，在文本生成任務(wù)中，如果模型生成的句子不符合語法或是病句，SCoRe 會給予模型一個負面的獎勵信號，促使模型調(diào)整自己的輸出直到生成符合要求的句子。

　　SCoRe的強化學(xué)習(xí)方法主要分為兩大階段:在第一階段，SCoRe通過強化學(xué)習(xí)對基礎(chǔ)模型進行初始化訓(xùn)練。目標是訓(xùn)練模型在第一次嘗試時產(chǎn)生高質(zhì)量的回答，并在第二次嘗試時能夠?qū)Φ谝淮蔚幕卮疬M行有效的糾正。為了實現(xiàn)這一目標，研究人員會在模型的輸出上施加一種正則化約束，以避免模型在第一次嘗試中產(chǎn)生與基礎(chǔ)模型差異過大的回答。

　　這種約束通過計算模型輸出與基礎(chǔ)模型輸出之間的KL散度來實現(xiàn)。通過調(diào)整KL散度的權(quán)重，可以在保持模型第一次嘗試質(zhì)量的同時，鼓勵模型在第二次嘗試中進行更大膽的糾正。

　　在模型初始化訓(xùn)練完成后，SCoRe進入第二階段多輪強化學(xué)習(xí)與獎勵塑造。在這一階段，模型在每一輪嘗試中都會接收到一個獎勵信號，該信號基于模型當(dāng)前嘗試與正確答案之間的匹配程度。通過最大化這些獎勵信號，模型可以逐步學(xué)習(xí)如何改進其答案。

　　為了進一步引導(dǎo)模型學(xué)習(xí)有效的自我糾正能力，研究人員為模型在第二次嘗試中正確糾正錯誤的行為提供了額外的獎勵。

　　如果第二次嘗試的響應(yīng)從錯誤變?yōu)檎_，那么這個獎勵項會給模型較大的正獎勵;如果第二次嘗試將正確的響應(yīng)變?yōu)殄e誤，那么會給予模型嚴重的負懲罰。

　　這樣的獎勵塑造使得模型更傾向于學(xué)習(xí)到自我糾正的策略，因為那些沒有改變響應(yīng)正確性或?qū)е卤罎⒌能壽E對整體損失的貢獻較小。

　　為了驗證SCoRe的性能，研究人員在谷歌自研的Gemini1.0Pro和Gemini1.5Flash兩款大模型進行了數(shù)學(xué)和代碼測試。結(jié)果顯示，其自我糾正能力分別提升了15.6%和9.1%。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信