下單前先比價(jià)不花冤枉錢 同款圖書京東價(jià)低于抖音6折日媒感慨中國電動(dòng)汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會(huì)吹風(fēng)機(jī)品質(zhì)檢測結(jié)果揭曉 徠芬獨(dú)占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會(huì)圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會(huì)員至少需注冊 2 臺 α 全畫幅相機(jī)、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計(jì)劃iQOO Z9 Turbo長續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時(shí)捷將重新評估電動(dòng)汽車計(jì)劃來京東參與榮耀Magic7 RSR 保時(shí)捷設(shè)計(jì)預(yù)售 享365天只換不修國補(bǔ)期間電視迎來換機(jī)潮,最暢銷MiniLED品牌花落誰家?美團(tuán)旗下微信社群團(tuán)購業(yè)務(wù)“團(tuán)買買”宣布年底停運(yùn)消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備在海外,要再造一個(gè)京東物流?消息稱蘋果正為AirPods開發(fā)多項(xiàng)健康功能,包括心率監(jiān)測和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗(yàn)東芝全部業(yè)務(wù)實(shí)現(xiàn)盈利,退市裁員重組后終于賺錢
  • 首頁 > 云計(jì)算頻道 > 大模型

    4輪暴訓(xùn),Llama 7B擊敗GPT-4!Meta等讓LLM「分飾三角」自評自進(jìn)化

    2024年07月31日 17:06:39   來源:新智元

      Meta、UC伯克利、NYU共同提出元獎(jiǎng)勵(lì)語言模型,給「超級對齊」指條明路:讓AI自己當(dāng)裁判,自我改進(jìn)對齊,效果秒殺自我獎(jiǎng)勵(lì)模型。

      LLM對數(shù)據(jù)的大量消耗,不僅體現(xiàn)在預(yù)訓(xùn)練語料上,還體現(xiàn)在RLHF、DPO等對齊階段。

      后者不僅依賴昂貴的人工標(biāo)注數(shù)據(jù),而且很可能讓人類水平限制LLM的進(jìn)一步發(fā)展。

      今年1月,Meta和NYU的團(tuán)隊(duì)就提出了語言模型的自我獎(jiǎng)勵(lì)機(jī)制,使用LLM-as-a-Judge的提示機(jī)制,讓模型在訓(xùn)練期間進(jìn)行自我反饋。

      論文地址:https://arxiv.org/abs/2401.10020

      論文發(fā)現(xiàn),即使不依靠人類標(biāo)注者,LLM也能通過評價(jià)自己的響應(yīng)實(shí)現(xiàn)性能提升。

      最近,這個(gè)團(tuán)隊(duì)又發(fā)表了一篇研究,將LLM「自我獎(jiǎng)勵(lì)」這件事情再拔高了一個(gè)層次。

      論文地址:https://arxiv.org/abs/2407.19594

      畢竟是自己給自己打分,因此不能只關(guān)注模型作為actor如何從反饋中優(yōu)化,也需要保證模型作為judge具備優(yōu)秀的自我評價(jià)能力。

      之前的研究就因?yàn)檫^于關(guān)注前者而忽略后者,造成了迭代訓(xùn)練期間性能的過快飽和。

      甚至,還有可能造成比飽和更差的情況,即對獎(jiǎng)勵(lì)信號的過度擬合(reward hacking)。

      因此,來自Meta、NYU、UC伯克利等機(jī)構(gòu)的研究者們提出,還需要增加一個(gè)「元獎(jiǎng)勵(lì)」步驟——讓模型評價(jià)自己的評價(jià),從而提升評價(jià)能力。

      雖然聽起來有點(diǎn)繞,但實(shí)際是合理的。而且實(shí)驗(yàn)發(fā)現(xiàn),加上這一層嵌套有顯著的提升效果。

      比如Llama-3-8B-Instruct在AlpacaEval 2上的勝率就從22.9%增至39.4%,比GPT-4的表現(xiàn)更佳;在Arena-Hard上則從20.6%提升至29.1%。

      如果說,今年1月發(fā)表的研究是LLM-as-a-Judge,那么這篇論文提出的「元獎(jiǎng)勵(lì)」,就相當(dāng)于LLM-as-a-Meta-Judge。

      不僅Judge不需要人類,Meta-Judge也能自給自足,這似乎進(jìn)一步證明,模型的自我提升可以擺脫對人類監(jiān)督的依賴。

      Meta科學(xué)家Yann LeCun也轉(zhuǎn)發(fā)了這篇研究,并親自下場玩起了雙關(guān)梗——

      Meta提出的Meta-Judge,F(xiàn)AIR能否實(shí)現(xiàn)fair?

      研究不重要,重要的是Meta FAIR這一波曝光率拉滿了。

      元獎(jiǎng)勵(lì)(Meta-Rewarding)

      用更直白的話說,「元獎(jiǎng)勵(lì)」方法就是在原有的actor-judge的互動(dòng)中再引入meta-judge,且由同一個(gè)模型「分飾三角」,不需要額外人類數(shù)據(jù)的參與。

      其中,actor負(fù)責(zé)對給定提示生成響應(yīng);judge負(fù)責(zé)為自己的響應(yīng)進(jìn)行評價(jià)和打分;而meta-judge會(huì)對自己的打分質(zhì)量進(jìn)行對比。

      最終的優(yōu)化目標(biāo),是希望actor能生成更好的響應(yīng),但訓(xùn)練效率依賴于judge的準(zhǔn)確率。

      因此,meta-judge作為訓(xùn)練judge的角色,可以同時(shí)提升模型作為actor和judge的性能。

      這三種角色組成的迭代訓(xùn)練模式如圖1所示,在第t個(gè)步驟中,先收集模型M_t對提示x的響應(yīng),由再讓M_t對自己進(jìn)行評價(jià),由此得到用于訓(xùn)練actor的偏好數(shù)據(jù)。

      之后,給定同一個(gè)響應(yīng)內(nèi)容y,讓M_t生成各種不同評價(jià)的變體,由meta-judge進(jìn)行打分和排名,由此得到用于訓(xùn)練judge的偏好數(shù)據(jù)。

      結(jié)合上述的兩類偏好數(shù)據(jù),通過DPO方法對模型M_t進(jìn)行偏好優(yōu)化,就完成了一輪迭代,得到模型M_(t+1)。

      長度偏好

      之前的工作曾經(jīng)發(fā)現(xiàn),作為judge的模型會(huì)偏好更長的響應(yīng),這會(huì)導(dǎo)致多輪迭代后答案的「長度爆炸」。

      因此,作者引入了一種簡潔的「長度控制」(length-control)機(jī)制——使用參數(shù)ρ∈[0,1],權(quán)衡judge的評分和響應(yīng)文本長度。

      比如,對于分?jǐn)?shù)在第一梯隊(duì)的模型響應(yīng),即分?jǐn)?shù)范圍為[(1-ρ)Smax+ρSmin, Smax],選擇其中最短的響應(yīng)作為最優(yōu)答案。

      Judge偏好數(shù)據(jù)的創(chuàng)建

      首先,選擇judge最沒有把握的模型響應(yīng),通過分?jǐn)?shù)方差衡量judge的確定性。對于每個(gè)選中的響應(yīng)y,我們有最多N個(gè)對應(yīng)的模型評價(jià){j1, … , jN}。

      之后,對其中的每一對(jm, jn)進(jìn)行成對評估,使用如圖2所示的meta-judge提示模板。

      除了給出評價(jià)結(jié)果,meta-judge還需要生成CoT推理過程。

      為減少meta-judge可能存在的位置偏好(可能傾向于選擇最先出現(xiàn)的Judgment A),對同一對數(shù)據(jù)(jm, jn)會(huì)交換順序讓meta-judge進(jìn)行兩次評價(jià),得到單次結(jié)果rmn:

      引入?yún)?shù)w1、w2用于表征可能存在的位置偏好:

      其中win1st和win2nd表示在meta-judge的整個(gè)評價(jià)過程中,兩個(gè)位置的評價(jià)分別有多少次勝出。

      用以上變量構(gòu)建「對決矩陣」(battle matrix)B記錄每一次的最終結(jié)果:

      利用Elo評分,可以從矩陣B計(jì)算meta-judge給每個(gè)judge賦予的元獎(jiǎng)勵(lì)分?jǐn)?shù)。

      作者發(fā)現(xiàn),meta-judge和judge一樣,也會(huì)展現(xiàn)出「長度偏好」,傾向于選擇更長的評價(jià)意見。

      為了避免最終訓(xùn)出的模型過于啰嗦,構(gòu)建judge數(shù)據(jù)集時(shí)也采取了過濾措施。如果meta-judge選中的評價(jià)意見超過一定長度,整個(gè)數(shù)據(jù)對都會(huì)被直接舍棄。

      評估實(shí)驗(yàn)

      實(shí)驗(yàn)準(zhǔn)備

      實(shí)驗(yàn)使用Llama-3-8B-Instruct作為種子模型,其他方面的實(shí)驗(yàn)設(shè)置與之前發(fā)表的論文《Self-Rewarding Language Models》一致。

      在元獎(jiǎng)勵(lì)訓(xùn)練之前,實(shí)驗(yàn)首先在EFT(Evaluation Fine-Tuning)數(shù)據(jù)集上對種子模型進(jìn)行監(jiān)督微調(diào)(SFT)。

      EFT數(shù)據(jù)集是根據(jù)Open Assistant構(gòu)建的,并提供初始的LLM-as-a-Judge訓(xùn)練數(shù)據(jù),包含經(jīng)過排名的人類響應(yīng),能訓(xùn)練模型充當(dāng)法官。

      對于元獎(jiǎng)勵(lì)迭代,實(shí)驗(yàn)利用2萬個(gè)提示,由Llama-2-70B-Chat經(jīng)過8-shot提示生成。

      如上圖所示,訓(xùn)練所用的提示在分布上更接近AlpacaEval數(shù)據(jù)集,而Arena-Hard的提示集中分布于訓(xùn)練提示的一個(gè)子集。

      對于每次迭代,實(shí)驗(yàn)從該種子集中抽取5,000個(gè)提示,總共進(jìn)行四次迭代。

      迭代過程如下:

      - Iter 1:從初始的SFT模型開始,使用DPO(Direct Preference Optimization)對生成的actor和judge的偏好對進(jìn)行訓(xùn)練,獲得M1。

      - Iter 2:使用DPO對M1生成的actor和judge偏好對進(jìn)行訓(xùn)練,獲得M2。

      - Iter 3/4:使用DPO僅對M2/M3生成的actor偏好對進(jìn)行訓(xùn)練,獲得M3/M4。

      每個(gè)prompt都讓模型生成K=7個(gè)響應(yīng),每次迭代總共生成3.5萬個(gè)響應(yīng)。然后,我們過濾掉相同的響應(yīng)(通常刪除不超過50個(gè)重復(fù)項(xiàng))。

      接下來,使用相同的采樣參數(shù)為每個(gè)響應(yīng)生成N = 11^2個(gè)不同的判斷。

      評估方法

      元獎(jiǎng)勵(lì)模型的目標(biāo)是要讓模型既能自己「演」,還能自己「評」,因此實(shí)驗(yàn)也要評估模型在這兩個(gè)角色中的表現(xiàn)如何。

      基線模型是前述論文中提出的自我獎(jiǎng)勵(lì)模型,帶有相同的「長度控制」機(jī)制,可以直接對比出元獎(jiǎng)勵(lì)機(jī)制帶來的性能增益。

      首先,先看看如何評判「演」的怎么樣。

      實(shí)驗(yàn)利用三個(gè)基于GPT4-as-a-Judge的自動(dòng)評估基準(zhǔn),包括AlpacaEval 2、Arena-Hard和MT-Bench,分別側(cè)重于模型的不同方面。

      例如,AlpacaEval主要關(guān)注聊天場景,提示集涵蓋了各種日常問題。

      相比之下,Arena-Hard包含更復(fù)雜或更具挑戰(zhàn)性的問題,要在預(yù)定義的7個(gè)方面(創(chuàng)造力、復(fù)雜性、問題解決能力等)滿足更多的標(biāo)準(zhǔn)。

      MT-Bench有8個(gè)不同的問題類別,主要評估模型的多輪對話能力。

      另一方面,為了評估LLM法官「評」的怎么樣,實(shí)驗(yàn)測量了LLM給的分?jǐn)?shù)與人類偏好的相關(guān)性。如果沒有可用的人類標(biāo)注數(shù)據(jù),則使用較強(qiáng)的AI法官代替。

      指令跟隨評估

      圖3展示了在AlpacaEval基準(zhǔn)上,元獎(jiǎng)勵(lì)方法(帶有長度控制機(jī)制)勝率隨訓(xùn)練迭代的變化。

      總體來看,元獎(jiǎng)勵(lì)的勝率從22.9%大幅提升到39.4%,超過了GPT-4,并接近Claude Opus模型。

      考慮到種子模型參數(shù)量只有8B,并且,除了在SFT階段使用的EFT數(shù)據(jù)集,沒有引入任何額外的人工數(shù)據(jù),這是一個(gè)相當(dāng)優(yōu)秀的結(jié)果。

      另外,結(jié)果也證明了meta-judge和長度控制機(jī)制的重要性。

      自我獎(jiǎng)勵(lì)模型訓(xùn)練到超過3輪時(shí),開始出現(xiàn)飽和跡象,但帶有元獎(jiǎng)勵(lì)的模型并沒有,到第4輪時(shí)仍保持性能增長。

      這表明了對模型評價(jià)能力進(jìn)行訓(xùn)練的重要性,以及meta-judge這一角色的有效性。

      如表1所示,經(jīng)過4輪迭代,無論是自我獎(jiǎng)勵(lì)模型還是元獎(jiǎng)勵(lì)模型,平均響應(yīng)長度(以字符為單位)都沒有顯著增加,證明長度控制機(jī)制的有效性。

      元獎(jiǎng)勵(lì)機(jī)制有以下三個(gè)較為明顯的改進(jìn)。

      首先,將AlpacaEval中的805個(gè)類別細(xì)分為18個(gè)類別進(jìn)行詳細(xì)分析,可以看到,元獎(jiǎng)勵(lì)幾乎改進(jìn)了所有類別的響應(yīng)(圖4),包括需要大量知識和推理的學(xué)科,例如科學(xué)(Science)、游戲(Gaming)、文學(xué)(Literature)等。

      值得注意的是,旅游(Travel)和數(shù)學(xué)(Mathematics)這兩類,模型并沒有實(shí)現(xiàn)顯著提升。

      第二,元獎(jiǎng)勵(lì)改進(jìn)了對于復(fù)雜和困難問題的回答。

      實(shí)驗(yàn)進(jìn)一步使用Arena-Hard評估在元獎(jiǎng)勵(lì)方法在回答復(fù)雜和具有挑戰(zhàn)性的問題上的表現(xiàn)。

      表2中的評估結(jié)果顯示,元獎(jiǎng)勵(lì)在4次迭代中都能提高分?jǐn)?shù),與種子模型(20.6%)相比,顯著提高了8.5%。

      第三,元獎(jiǎng)勵(lì)在僅訓(xùn)練單輪對話的情況下也并未犧牲多輪對話能力。

      論文進(jìn)行了MT-Bench評估,以檢查在僅訓(xùn)練單輪數(shù)據(jù)的情況下多輪對話能力的損失。

      結(jié)果如下表顯示,元獎(jiǎng)勵(lì)模型的4次迭代顯著提高了第一輪對話得分,從8.319(種子模型)提高到8.738,而第二輪對話得分僅下降了不超過 0.1。

      這是對基線模型中自我獎(jiǎng)勵(lì)+長度控制(Self-Rewarding + LC)的巨大改進(jìn),因?yàn)楹笳咄ǔ?huì)在第二輪對話得分上,下降超過 0.2,同時(shí)沒有提高第一輪對話得分。

      獎(jiǎng)勵(lì)模型評估

      實(shí)驗(yàn)評估了模型對種子模型Llama3-8B-Instruct生成響應(yīng)的判斷準(zhǔn)確性。

      在缺乏人工標(biāo)注的情況下,作者選擇測量元獎(jiǎng)勵(lì)模型與當(dāng)前最強(qiáng)的判斷模型gpt-4-1106-preview之間的評分相關(guān)性。

      分析采用了兩種略有不同的設(shè)置,主要區(qū)別在于它們?nèi)绾翁幚砼袛嗄P徒o出的平局,因此使用了兩種指標(biāo):將平局計(jì)為0.5的一致性分?jǐn)?shù)(agreement)和舍棄平局結(jié)果的一致性分?jǐn)?shù)。

      結(jié)果顯示,模型在進(jìn)行訓(xùn)練后判斷能力有所提高。

      表3中的分析顯示,與基線模型相比,在兩種評估設(shè)置中,元獎(jiǎng)勵(lì)與強(qiáng)大的GPT-4判斷模型之間的相關(guān)性顯著提高。

      這些結(jié)果表明,元獎(jiǎng)勵(lì)方法能夠改進(jìn)模型判斷能力,使其評估結(jié)果與更復(fù)雜的語言模型GPT-4的評估結(jié)果更加接近。

      此外,實(shí)驗(yàn)對比了模型判斷結(jié)果與Open Assistant數(shù)據(jù)集中人類響應(yīng)排名的相關(guān)性(表7),發(fā)現(xiàn)元獎(jiǎng)勵(lì)訓(xùn)練提高了與人類的判斷相關(guān)性。

      然而,這種改進(jìn)在后續(xù)訓(xùn)練迭代中沒有持續(xù),可能是由于模型生成的響應(yīng)與人類響應(yīng)之間的分布差異導(dǎo)致的。

      分析

      長度控制機(jī)制

      長度控制機(jī)制對于保持模型響應(yīng)的全面性和簡潔性之間的平衡至關(guān)重要。

      實(shí)驗(yàn)比較了最后一次訓(xùn)練迭代中不同長度控制參數(shù)ρ的結(jié)果,如表4所示:

      ρ = 0,相當(dāng)于在偏好數(shù)據(jù)選擇中不進(jìn)行任何長度控制。

      正如預(yù)期的那樣,這種訓(xùn)練方式使得模型生成的響應(yīng)變得過于冗長,LC勝率降低。

      使用外部獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練

      元獎(jiǎng)勵(lì)機(jī)制讓模型自己作為judge,來評估其自身的響應(yīng);實(shí)驗(yàn)嘗試了使用強(qiáng)大的外部獎(jiǎng)勵(lì)模型Starling-RM-34B作為對比。

      然而,結(jié)果發(fā)現(xiàn)StarlingRM-34B未能在第一次迭代中提高AlpacaEval的LC勝率(24.63% vs. 27.85%),這可能是由于其長度偏見。

      meta-judge偏見

      在元獎(jiǎng)勵(lì)訓(xùn)練的第一次迭代之后,meta-judge幾乎總是更傾向于更高分?jǐn)?shù)的判斷,如表5所示。

      這種分?jǐn)?shù)偏見顯著地將判斷的評分分布向滿分5分傾斜。對于位置偏見,我們也看到在訓(xùn)練過程中有增加的趨勢,特別是在比較兩個(gè)相同分?jǐn)?shù)的判斷時(shí)。

      判斷評分變化:為了調(diào)查在元獎(jiǎng)勵(lì)訓(xùn)練迭代過程中判斷評分分布的變化,實(shí)驗(yàn)使用與獎(jiǎng)勵(lì)建模評估相同的驗(yàn)證提示。

      使用Llama-3-8B-Instruct在每個(gè)提示上生成7個(gè)響應(yīng),然后為每個(gè)響應(yīng)生成11次判斷。圖5是評分分布的可視化,密度是使用高斯核密度估算的。

      可見,使用meta-judge訓(xùn)練判斷進(jìn)一步增加了其生成高分的可能性。

      然而,判斷訓(xùn)練的前兩次迭代使其傾向于分配4.5、4.75、4.9的分?jǐn)?shù),根據(jù)根據(jù)指示這些分?jǐn)?shù)應(yīng)該是整數(shù)。

      盡管這些是高分,但它們提供了更細(xì)致的區(qū)分能力,以區(qū)分不同質(zhì)量的響應(yīng)。

      結(jié)論

      實(shí)驗(yàn)提出了一種新機(jī)制,通過使用meta-judge為作為judge的模型分配元獎(jiǎng)勵(lì)(meta-rewards),從而提高模型的評判能力。

      這解決了自獎(jiǎng)勵(lì)(Self-Rewarding)框架的一個(gè)主要限制,即缺乏對模型評判能力的訓(xùn)練。

      為了使元獎(jiǎng)勵(lì)訓(xùn)練(Meta-Rewarding training)更加有效,實(shí)驗(yàn)還引入了一種新的長度控制技術(shù),以緩解在使用AI反饋進(jìn)行訓(xùn)練時(shí)出現(xiàn)的長度爆炸問題。

      通過自動(dòng)評估基準(zhǔn)AlpacaEval、Arena-Hard和MT-Bench,元獎(jiǎng)勵(lì)方法的有效性也得到了驗(yàn)證。

      值得注意的是,即使在沒有額外人類反饋的情況下,這種方法也顯著改進(jìn)了Llama-3-8B-Instruct,并超越了依賴大量人類反饋的強(qiáng)基線方法自獎(jiǎng)勵(lì)(Self-Rewarding)和SPPO。

      此外,評估模型的評判能力時(shí),它在與人類評判和強(qiáng)大的AI評判(如 gpt-4-1106-preview)的相關(guān)性上表現(xiàn)出顯著的改進(jìn)。

      總體而言,研究結(jié)果提供了有力的證據(jù),證明無需任何人類反饋的自我改進(jìn)模型是實(shí)現(xiàn)超級對齊(super alignment)的一個(gè)有前途的方向。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。