DeepMind的研究人員發(fā)現(xiàn),LLM有一個(gè)天生的缺陷——在推理過(guò)程中無(wú)法通過(guò)自我糾正獲得更好的回復(fù),除非數(shù)據(jù)集中預(yù)設(shè)了真值標(biāo)簽。
大語(yǔ)言模型又一項(xiàng)重大缺陷被DeepMind曝光!
LLM無(wú)法糾正自己推理中的錯(cuò)誤。
‘Self-Correction’作為一種讓模型修正自己回答的技術(shù),在很多類型的任務(wù)中都能明顯改進(jìn)模型的輸出質(zhì)量。
但是最近,谷歌(136.74, -2.24, -1.61%)DeepMind和UIUC的研究人員卻發(fā)現(xiàn),對(duì)于推理任務(wù),LLM的‘自我糾正機(jī)制’一下子就沒(méi)用了。
而且LLM不但不能自我糾正推理任務(wù)的回答,經(jīng)常自我糾正之后,回答質(zhì)量還會(huì)明顯下降。
馬庫(kù)斯也轉(zhuǎn)發(fā)了這篇論文,希望讓更多研究人員關(guān)注大語(yǔ)言模型的這一缺陷。
‘自我糾正’這一技術(shù)是基于一個(gè)簡(jiǎn)單設(shè)想——讓LLM對(duì)自己生成的內(nèi)容根據(jù)一定標(biāo)準(zhǔn)來(lái)進(jìn)行糾正和改進(jìn)。這個(gè)方法在數(shù)學(xué)問(wèn)題等任務(wù)上能明顯提高模型的輸出質(zhì)量。
但是研究人員發(fā)現(xiàn),在推理任務(wù)中,自我糾正之后的反饋有時(shí)很不錯(cuò),有時(shí)效果卻很不理想(31.89, -0.49, -1.51%),甚至性能還會(huì)出現(xiàn)下降。
研究人員又研究了那些認(rèn)為‘自我糾正’可以改進(jìn)推理輸出的文獻(xiàn),經(jīng)過(guò)仔細(xì)檢查發(fā)現(xiàn),‘自我糾正’的改進(jìn)來(lái)自于引入了外部的信息來(lái)指導(dǎo)模型自我糾正。而當(dāng)不引入外部信息時(shí),這些改進(jìn)就會(huì)消失。
具體來(lái)說(shuō),當(dāng)模型能夠訪問(wèn)基準(zhǔn)數(shù)據(jù)集中包含的真值標(biāo)簽(ground-truth labels)時(shí),自我糾正就能有效地發(fā)揮作用。
這是因?yàn)樗惴ǹ梢詼?zhǔn)確地確定何時(shí)停止推理過(guò)程,并避免在答案已經(jīng)正確時(shí)更改答案。
研究人員認(rèn)為,先前的研究中往往會(huì)使用真實(shí)標(biāo)簽來(lái)防止模型將正確答案更改為錯(cuò)誤答案。但如何防止這種‘對(duì)改錯(cuò)’情況的發(fā)生,實(shí)際上是確保自我糾正成功的關(guān)鍵。
因?yàn)楫?dāng)研究人員從自我糾正過(guò)程中刪除真實(shí)標(biāo)簽時(shí),模型的性能就會(huì)顯著下降。
作為改進(jìn)LLM在推理任務(wù)上自我糾正方法的嘗試,研究人員還探究了‘多智能體辯論(multi-agent debate)’作為改進(jìn)推理的手段的潛力。然而,他們的結(jié)果表明,在考慮同等數(shù)量的響應(yīng)時(shí),這個(gè)方法的效果并不比自我一致性(Self-Consistency)更好。
研究人員進(jìn)一步提出了‘事前提示’和‘事后提示’的概念。
他們將自我糾正視為事后提示的一種形式,其中糾正的提示是在LLM的回復(fù)之后再輸入的。
研究人員的分析表明,某些任務(wù)中自我糾正帶來(lái)的增強(qiáng)可能源于精心設(shè)計(jì)的反饋提示,掩蓋了簡(jiǎn)陋的初始提示。
在這種情況下,將更好的反饋集成到初始指令中或設(shè)計(jì)更好的初始提示可能會(huì)產(chǎn)生更好的結(jié)果并降低推理成本。
根據(jù)研究人員的研究結(jié)果,研究人員深入探討了LLM自我糾正能力的細(xì)微差別,敦促研究社區(qū)能以更加嚴(yán)謹(jǐn)?shù)膽B(tài)度來(lái)對(duì)待對(duì)自我糾的研究。
大語(yǔ)言模型可以自我糾正自己的推理嗎?
研究人員嘗試采用現(xiàn)有的自我糾正方法,采用其設(shè)置(使用標(biāo)簽來(lái)指導(dǎo)自我糾正過(guò)程),以檢查其在提高LLM推理任務(wù)表現(xiàn)方面的有效性。
實(shí)驗(yàn)設(shè)置
研究人員采用三步提示策略進(jìn)行自我修正:
1)提示模型進(jìn)行初始生成(這也是標(biāo)準(zhǔn)提示的結(jié)果);
2)提示模型回顧其上一代并產(chǎn)生反饋;
3)通過(guò)反饋提示模型再次回答原來(lái)的問(wèn)題。
模型
研究人員的主要測(cè)試是在 GPT-3.5-Turbo 上進(jìn)行的。
研究人員還對(duì)2023年8月29日訪問(wèn)的GPT-4進(jìn)行了測(cè)試,旨在測(cè)試OpenAI模型最新、最強(qiáng)大的迭代的自我校正能力。
對(duì)于 GPT-3.5,研究人員采用前面提到的完整評(píng)估集。對(duì)于 GPT-4,為了降低成本,研究人員為每個(gè)數(shù)據(jù)集隨機(jī)抽取了 200 個(gè)問(wèn)題(HotpotQA 為 100 個(gè)問(wèn)題)進(jìn)行測(cè)試。
結(jié)果和思考
雖然研究人員在實(shí)驗(yàn)中沒(méi)有利用任何外部資源或工具,但研究人員遵循之前的工作,使用真值標(biāo)簽來(lái)確定何時(shí)停止自我校正循環(huán)。
但是在現(xiàn)實(shí)環(huán)境中,尤其是當(dāng)研究人員打算用LLM來(lái)解決數(shù)學(xué)問(wèn)題時(shí),大部分時(shí)候是不知道正確答案的。
因此,性能的提升需要更仔細(xì)的考慮。
為了證實(shí)這一觀點(diǎn),研究人員設(shè)計(jì)了一個(gè)基于隨機(jī)猜測(cè)的基線。在此基線中,研究人員繼續(xù)使用真值標(biāo)簽來(lái)確定何時(shí)停止;然而,糾正措施不是由LLM采取的,而是根據(jù)剩余選項(xiàng)的隨機(jī)猜測(cè)得出的。
CommonSenseQA 是一個(gè)多項(xiàng)選擇題數(shù)據(jù)集,為每個(gè)問(wèn)題提供五個(gè)候選選項(xiàng)。
如果第k輪(初始生成為第0輪)的生成精度表示為 x,則后續(xù)生成的預(yù)期精度變?yōu)?x + (1 − x)/(5 − k)。
上表2列出了該隨機(jī)基線的結(jié)果。
2輪后,其性能與自校正相當(dāng)甚至更好,4輪后,其準(zhǔn)確率達(dá)到100%。
然而,很明顯,這樣的隨機(jī)基線不能被視為有效的校正方法。盡管如此,使用標(biāo)簽獲得的結(jié)果仍然可能起到預(yù)言機(jī)的作用,表明存在可以判斷答案正確性的完美驗(yàn)證者。
在代碼生成等任務(wù)中,這是可行的,因?yàn)檠芯咳藛T可以利用執(zhí)行器和單元測(cè)試來(lái)確定生成的代碼是否成功運(yùn)行(Chen 等人,2023b)。
然而,對(duì)于推理任務(wù),比如解決數(shù)學(xué)問(wèn)題,這種設(shè)置似乎違反直覺(jué)。如果研究人員已經(jīng)掌握了事實(shí)真相,那么似乎就沒(méi)有理由再用LLM來(lái)解決問(wèn)題。
內(nèi)在自我修正
對(duì)于 GSM8K,可能不存在類似的隨機(jī)基線,但基本原理保持不變。
此外,研究人員可以設(shè)計(jì)一個(gè)基線,例如每次生成一個(gè)隨機(jī)數(shù)。經(jīng)過(guò)相當(dāng)多的輪次后,它可能會(huì)得到正確的答案,但這樣的改進(jìn)顯然沒(méi)有意義。更直接的理由是:如果研究人員已經(jīng)知道答案,為什么還要這樣做?
實(shí)驗(yàn)設(shè)置如前面內(nèi)容定義的那樣。為了實(shí)現(xiàn)這一點(diǎn),研究人員只需刪除使用標(biāo)簽來(lái)確定何時(shí)停止并通過(guò)兩輪自我校正來(lái)評(píng)估性能。
上表3展示了準(zhǔn)確度和模型調(diào)用次數(shù)。研究人員觀察到,經(jīng)過(guò)自我修正后,模型的性能在所有基準(zhǔn)測(cè)試中都會(huì)下降。
為什么性能反而下降了?
上圖1總結(jié)了使用 GPT-3.5 進(jìn)行兩輪自校正后答案變化的結(jié)果,下圖2中展示了兩個(gè)示例。
對(duì)于GSM8K,74.7%的概率下模型保留其初始答案。在其余實(shí)例中,模型更有可能將正確答案修改為錯(cuò)誤答案,而不是將錯(cuò)誤答案修改為正確答案。
對(duì)于CommonSenseQA,GPT-3.5改變其答案的可能性更高。造成這種情況的主要原因是CommonSenseQA中的錯(cuò)誤答案選項(xiàng)通常看起來(lái)與問(wèn)題有些相關(guān),并且使用自我更正提示可能會(huì)使模型偏向于選擇另一個(gè)選項(xiàng),從而導(dǎo)致較高的‘正確⇒錯(cuò)誤’比率。
讓研究人員再看一下上表1中顯示的結(jié)果。這些結(jié)果使用真值標(biāo)簽來(lái)防止模型將正確答案更改為錯(cuò)誤答案。
然而,如何防止這種‘修改錯(cuò)誤’的發(fā)生,實(shí)際上是確保自我糾錯(cuò)成功的關(guān)鍵。
直觀的解釋是:如果該模型與精心設(shè)計(jì)的初始提示相匹配,那么在給定提示和具體的解碼算法的情況下,初始響應(yīng)應(yīng)該已經(jīng)是最佳的。
引入反饋可以被視為添加額外的提示,可能使模型偏向于生成適合該組合輸入的響應(yīng)。
在內(nèi)在自我糾正設(shè)置中,在推理任務(wù)中,這種補(bǔ)充提示可能不會(huì)為回答問(wèn)題提供任何額外的優(yōu)勢(shì)。
事實(shí)上,它甚至可能使模型偏離對(duì)初始提示產(chǎn)生最佳回復(fù),從而導(dǎo)致性能下降。
有人可能會(huì)想,研究人員測(cè)試的自我修正提示是否不理想?
其他提示能否提高性能?答案是:研究人員完全有可能找到一個(gè)在特定基準(zhǔn)上增強(qiáng)模型性能的提示。然而,這不再與本文討論的內(nèi)在自我校正設(shè)置一致,類似于真正的少樣本設(shè)置的討論。
這種搜索本質(zhì)上是利用人類或訓(xùn)練示例的反饋。此外,同樣的策略也可以有效地應(yīng)用于優(yōu)化初始提示,可能會(huì)獲得更好的性能,而無(wú)需額外的模型調(diào)用來(lái)進(jìn)行自我校正。
在附錄B中,研究人員測(cè)試了不同的提示,但發(fā)現(xiàn)性能仍然沒(méi)有提高。
此外,研究人員并不是第一個(gè)觀察到自我糾正不一定能提高LLM推理能力的人?偠灾芯咳藛T的重點(diǎn)不是解決諸如‘是否存在可以提高特定基準(zhǔn)測(cè)試性能的自我修正提示?’之類的問(wèn)題。這樣的查詢可能沒(méi)有特別的意義。
相反,研究人員的目標(biāo)是解決一個(gè)更基本的問(wèn)題——‘大型語(yǔ)言模型真的能夠僅根據(jù)其固有的能力自我糾正其推理嗎?’
作為事后提示的自我糾正
在之前的內(nèi)容中,研究人員觀察到LLM在自我糾正其推理方面面臨挑戰(zhàn)。
然而,正如之前研究所證明的那樣,在某些情況下自我糾正已經(jīng)產(chǎn)生了令人印象深刻的結(jié)果。
因此,辨別差異并查明根本原因至關(guān)重要。
要解決這個(gè)問(wèn)題,重要的是要掌握自我糾正的基本性質(zhì)。根據(jù)其形式,自我糾正可以被視為一種事后提示。
它與標(biāo)準(zhǔn)提示(這里稱之為事前提示)的區(qū)別在于,提示是在LLM的回答之上進(jìn)行的。
研究人員將改進(jìn)此類提示的過(guò)程稱為事后提示工程。
因此,當(dāng)自我糾正可以提供事前提示無(wú)法提供的有價(jià)值的指導(dǎo)或反饋時(shí),就會(huì)出現(xiàn)自我糾正增強(qiáng)模型響應(yīng)的情況。
例如,當(dāng)目標(biāo)是使響應(yīng)更安全時(shí),指導(dǎo)模型僅使用事前提示在第一次嘗試中生成完全無(wú)風(fēng)險(xiǎn)的響應(yīng)可能具有挑戰(zhàn)性。在這種情況下,自我糾正可以作為通過(guò)細(xì)粒度事后檢查來(lái)增強(qiáng)響應(yīng)安全性的一種手段。
然而,對(duì)于推理任務(wù)來(lái)說(shuō),情況可能并非如此。
反饋提示,例如‘查看您之前的答案并發(fā)現(xiàn)您的答案存在問(wèn)題’。不一定能為推理提供切實(shí)的好處。
此外,即使觀察到自我糾正后性能顯著提高,仔細(xì)考慮提示設(shè)計(jì)也是必要的。
例如,如果響應(yīng)需要滿足可以在初始指令中輕松指定的標(biāo)準(zhǔn)(例如,輸出應(yīng)包含某些單詞、生成的代碼需要高效、情緒應(yīng)強(qiáng)烈負(fù)面),而不是提供這些要求作為事后提示中的反饋,更具成本效益的替代策略是將這些要求直接(明確地)嵌入到事前提示中。
上表5中的結(jié)果表明,研究人員精心設(shè)計(jì)的提示‘標(biāo)準(zhǔn)提示(研究人員的)’優(yōu)于之前研究的自我校正后結(jié)果。
此外,當(dāng)研究人員利用他們的提示來(lái)改進(jìn)研究人員的輸出時(shí),性能甚至?xí)陆怠?/p>
再次強(qiáng)調(diào),研究人員在這里的目的并不是爭(zhēng)論是否存在事后提示可以勝過(guò)研究人員隨意編寫(xiě)的提示。研究人員的主要目標(biāo)是鼓勵(lì)對(duì)自我校正實(shí)驗(yàn)進(jìn)行更嚴(yán)格的檢查。
采用精心設(shè)計(jì)的事后提示來(lái)指導(dǎo)模型‘自我糾正’通過(guò)糟糕的事前提示生成的響應(yīng)是沒(méi)有意義的。
為了公平比較,應(yīng)在事前和事后提示上投入同等的努力。
文章來(lái)源:新智元,原文標(biāo)題:《DeepMind:大模型又曝重大缺陷,無(wú)法自我糾正推理,除非提前得知正確答案》
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。