DeepMind：大模型又曝重大缺陷，無(wú)法自我糾正推理，除非提前得知正確答案

2023年10月23日 11:14:00 來(lái)源：新智元公眾號(hào)

　　DeepMind的研究人員發(fā)現(xiàn)，LLM有一個(gè)天生的缺陷——在推理過(guò)程中無(wú)法通過(guò)自我糾正獲得更好的回復(fù)，除非數(shù)據(jù)集中預(yù)設(shè)了真值標(biāo)簽。

　　大語(yǔ)言模型又一項(xiàng)重大缺陷被DeepMind曝光!

　　LLM無(wú)法糾正自己推理中的錯(cuò)誤。

　　‘Self-Correction’作為一種讓模型修正自己回答的技術(shù)，在很多類型的任務(wù)中都能明顯改進(jìn)模型的輸出質(zhì)量。

　　但是最近，谷歌(136.74, -2.24, -1.61%)DeepMind和UIUC的研究人員卻發(fā)現(xiàn)，對(duì)于推理任務(wù)，LLM的‘自我糾正機(jī)制’一下子就沒(méi)用了。

　　而且LLM不但不能自我糾正推理任務(wù)的回答，經(jīng)常自我糾正之后，回答質(zhì)量還會(huì)明顯下降。

　　馬庫(kù)斯也轉(zhuǎn)發(fā)了這篇論文，希望讓更多研究人員關(guān)注大語(yǔ)言模型的這一缺陷。

　　‘自我糾正’這一技術(shù)是基于一個(gè)簡(jiǎn)單設(shè)想——讓LLM對(duì)自己生成的內(nèi)容根據(jù)一定標(biāo)準(zhǔn)來(lái)進(jìn)行糾正和改進(jìn)。這個(gè)方法在數(shù)學(xué)問(wèn)題等任務(wù)上能明顯提高模型的輸出質(zhì)量。

　　但是研究人員發(fā)現(xiàn)，在推理任務(wù)中，自我糾正之后的反饋有時(shí)很不錯(cuò)，有時(shí)效果卻很不理想(31.89, -0.49, -1.51%)，甚至性能還會(huì)出現(xiàn)下降。

　　研究人員又研究了那些認(rèn)為‘自我糾正’可以改進(jìn)推理輸出的文獻(xiàn)，經(jīng)過(guò)仔細(xì)檢查發(fā)現(xiàn)，‘自我糾正’的改進(jìn)來(lái)自于引入了外部的信息來(lái)指導(dǎo)模型自我糾正。而當(dāng)不引入外部信息時(shí)，這些改進(jìn)就會(huì)消失。

　　具體來(lái)說(shuō)，當(dāng)模型能夠訪問(wèn)基準(zhǔn)數(shù)據(jù)集中包含的真值標(biāo)簽(ground-truth labels)時(shí)，自我糾正就能有效地發(fā)揮作用。

　　這是因?yàn)樗惴ǹ梢詼?zhǔn)確地確定何時(shí)停止推理過(guò)程，并避免在答案已經(jīng)正確時(shí)更改答案。

　　研究人員認(rèn)為，先前的研究中往往會(huì)使用真實(shí)標(biāo)簽來(lái)防止模型將正確答案更改為錯(cuò)誤答案。但如何防止這種‘對(duì)改錯(cuò)’情況的發(fā)生，實(shí)際上是確保自我糾正成功的關(guān)鍵。

　　因?yàn)楫?dāng)研究人員從自我糾正過(guò)程中刪除真實(shí)標(biāo)簽時(shí)，模型的性能就會(huì)顯著下降。

　　作為改進(jìn)LLM在推理任務(wù)上自我糾正方法的嘗試，研究人員還探究了‘多智能體辯論(multi-agent debate)’作為改進(jìn)推理的手段的潛力。然而，他們的結(jié)果表明，在考慮同等數(shù)量的響應(yīng)時(shí)，這個(gè)方法的效果并不比自我一致性(Self-Consistency)更好。

　　研究人員進(jìn)一步提出了‘事前提示’和‘事后提示’的概念。

　　他們將自我糾正視為事后提示的一種形式，其中糾正的提示是在LLM的回復(fù)之后再輸入的。

　　研究人員的分析表明，某些任務(wù)中自我糾正帶來(lái)的增強(qiáng)可能源于精心設(shè)計(jì)的反饋提示，掩蓋了簡(jiǎn)陋的初始提示。

　　在這種情況下，將更好的反饋集成到初始指令中或設(shè)計(jì)更好的初始提示可能會(huì)產(chǎn)生更好的結(jié)果并降低推理成本。

　　根據(jù)研究人員的研究結(jié)果，研究人員深入探討了LLM自我糾正能力的細(xì)微差別，敦促研究社區(qū)能以更加嚴(yán)謹(jǐn)?shù)膽B(tài)度來(lái)對(duì)待對(duì)自我糾的研究。

　　大語(yǔ)言模型可以自我糾正自己的推理嗎?

　　研究人員嘗試采用現(xiàn)有的自我糾正方法，采用其設(shè)置(使用標(biāo)簽來(lái)指導(dǎo)自我糾正過(guò)程)，以檢查其在提高LLM推理任務(wù)表現(xiàn)方面的有效性。

　　實(shí)驗(yàn)設(shè)置

　　研究人員采用三步提示策略進(jìn)行自我修正：

　　1)提示模型進(jìn)行初始生成(這也是標(biāo)準(zhǔn)提示的結(jié)果);

　　2)提示模型回顧其上一代并產(chǎn)生反饋;

　　3)通過(guò)反饋提示模型再次回答原來(lái)的問(wèn)題。

　　模型

　　研究人員的主要測(cè)試是在 GPT-3.5-Turbo 上進(jìn)行的。

　　研究人員還對(duì)2023年8月29日訪問(wèn)的GPT-4進(jìn)行了測(cè)試，旨在測(cè)試OpenAI模型最新、最強(qiáng)大的迭代的自我校正能力。

　　對(duì)于 GPT-3.5，研究人員采用前面提到的完整評(píng)估集。對(duì)于 GPT-4，為了降低成本，研究人員為每個(gè)數(shù)據(jù)集隨機(jī)抽取了 200 個(gè)問(wèn)題(HotpotQA 為 100 個(gè)問(wèn)題)進(jìn)行測(cè)試。

　　結(jié)果和思考

　　雖然研究人員在實(shí)驗(yàn)中沒(méi)有利用任何外部資源或工具，但研究人員遵循之前的工作，使用真值標(biāo)簽來(lái)確定何時(shí)停止自我校正循環(huán)。

　　但是在現(xiàn)實(shí)環(huán)境中，尤其是當(dāng)研究人員打算用LLM來(lái)解決數(shù)學(xué)問(wèn)題時(shí)，大部分時(shí)候是不知道正確答案的。

　　因此，性能的提升需要更仔細(xì)的考慮。

　　為了證實(shí)這一觀點(diǎn)，研究人員設(shè)計(jì)了一個(gè)基于隨機(jī)猜測(cè)的基線。在此基線中，研究人員繼續(xù)使用真值標(biāo)簽來(lái)確定何時(shí)停止;然而，糾正措施不是由LLM采取的，而是根據(jù)剩余選項(xiàng)的隨機(jī)猜測(cè)得出的。

　　CommonSenseQA 是一個(gè)多項(xiàng)選擇題數(shù)據(jù)集，為每個(gè)問(wèn)題提供五個(gè)候選選項(xiàng)。

　　如果第k輪(初始生成為第0輪)的生成精度表示為 x，則后續(xù)生成的預(yù)期精度變?yōu)?x + (1 − x)/(5 − k)。

　　上表2列出了該隨機(jī)基線的結(jié)果。

　　2輪后，其性能與自校正相當(dāng)甚至更好，4輪后，其準(zhǔn)確率達(dá)到100%。

　　然而，很明顯，這樣的隨機(jī)基線不能被視為有效的校正方法。盡管如此，使用標(biāo)簽獲得的結(jié)果仍然可能起到預(yù)言機(jī)的作用，表明存在可以判斷答案正確性的完美驗(yàn)證者。

　　在代碼生成等任務(wù)中，這是可行的，因?yàn)檠芯咳藛T可以利用執(zhí)行器和單元測(cè)試來(lái)確定生成的代碼是否成功運(yùn)行(Chen 等人，2023b)。

　　然而，對(duì)于推理任務(wù)，比如解決數(shù)學(xué)問(wèn)題，這種設(shè)置似乎違反直覺(jué)。如果研究人員已經(jīng)掌握了事實(shí)真相，那么似乎就沒(méi)有理由再用LLM來(lái)解決問(wèn)題。

　　內(nèi)在自我修正

　　對(duì)于 GSM8K，可能不存在類似的隨機(jī)基線，但基本原理保持不變。

　　此外，研究人員可以設(shè)計(jì)一個(gè)基線，例如每次生成一個(gè)隨機(jī)數(shù)。經(jīng)過(guò)相當(dāng)多的輪次后，它可能會(huì)得到正確的答案，但這樣的改進(jìn)顯然沒(méi)有意義。更直接的理由是：如果研究人員已經(jīng)知道答案，為什么還要這樣做?

　　實(shí)驗(yàn)設(shè)置如前面內(nèi)容定義的那樣。為了實(shí)現(xiàn)這一點(diǎn)，研究人員只需刪除使用標(biāo)簽來(lái)確定何時(shí)停止并通過(guò)兩輪自我校正來(lái)評(píng)估性能。

　　上表3展示了準(zhǔn)確度和模型調(diào)用次數(shù)。研究人員觀察到，經(jīng)過(guò)自我修正后，模型的性能在所有基準(zhǔn)測(cè)試中都會(huì)下降。

　　為什么性能反而下降了?

上圖1總結(jié)了使用 GPT-3.5 進(jìn)行兩輪自校正后答案變化的結(jié)果，下圖2中展示了兩個(gè)示例。

　　對(duì)于GSM8K，74.7%的概率下模型保留其初始答案。在其余實(shí)例中，模型更有可能將正確答案修改為錯(cuò)誤答案，而不是將錯(cuò)誤答案修改為正確答案。

　　對(duì)于CommonSenseQA，GPT-3.5改變其答案的可能性更高。造成這種情況的主要原因是CommonSenseQA中的錯(cuò)誤答案選項(xiàng)通常看起來(lái)與問(wèn)題有些相關(guān)，并且使用自我更正提示可能會(huì)使模型偏向于選擇另一個(gè)選項(xiàng)，從而導(dǎo)致較高的‘正確⇒錯(cuò)誤’比率。

　　讓研究人員再看一下上表1中顯示的結(jié)果。這些結(jié)果使用真值標(biāo)簽來(lái)防止模型將正確答案更改為錯(cuò)誤答案。

　　然而，如何防止這種‘修改錯(cuò)誤’的發(fā)生，實(shí)際上是確保自我糾錯(cuò)成功的關(guān)鍵。

　　直觀的解釋是：如果該模型與精心設(shè)計(jì)的初始提示相匹配，那么在給定提示和具體的解碼算法的情況下，初始響應(yīng)應(yīng)該已經(jīng)是最佳的。

　　引入反饋可以被視為添加額外的提示，可能使模型偏向于生成適合該組合輸入的響應(yīng)。

　　在內(nèi)在自我糾正設(shè)置中，在推理任務(wù)中，這種補(bǔ)充提示可能不會(huì)為回答問(wèn)題提供任何額外的優(yōu)勢(shì)。

　　事實(shí)上，它甚至可能使模型偏離對(duì)初始提示產(chǎn)生最佳回復(fù)，從而導(dǎo)致性能下降。

　　有人可能會(huì)想，研究人員測(cè)試的自我修正提示是否不理想?

　　其他提示能否提高性能?答案是：研究人員完全有可能找到一個(gè)在特定基準(zhǔn)上增強(qiáng)模型性能的提示。然而，這不再與本文討論的內(nèi)在自我校正設(shè)置一致，類似于真正的少樣本設(shè)置的討論。

　　這種搜索本質(zhì)上是利用人類或訓(xùn)練示例的反饋。此外，同樣的策略也可以有效地應(yīng)用于優(yōu)化初始提示，可能會(huì)獲得更好的性能，而無(wú)需額外的模型調(diào)用來(lái)進(jìn)行自我校正。

　　在附錄B中，研究人員測(cè)試了不同的提示，但發(fā)現(xiàn)性能仍然沒(méi)有提高。

　　此外，研究人員并不是第一個(gè)觀察到自我糾正不一定能提高LLM推理能力的人�？偠灾芯咳藛T的重點(diǎn)不是解決諸如‘是否存在可以提高特定基準(zhǔn)測(cè)試性能的自我修正提示?’之類的問(wèn)題。這樣的查詢可能沒(méi)有特別的意義。

　　相反，研究人員的目標(biāo)是解決一個(gè)更基本的問(wèn)題——‘大型語(yǔ)言模型真的能夠僅根據(jù)其固有的能力自我糾正其推理嗎?’

　　作為事后提示的自我糾正

　　在之前的內(nèi)容中，研究人員觀察到LLM在自我糾正其推理方面面臨挑戰(zhàn)。

　　然而，正如之前研究所證明的那樣，在某些情況下自我糾正已經(jīng)產(chǎn)生了令人印象深刻的結(jié)果。

　　因此，辨別差異并查明根本原因至關(guān)重要。

　　要解決這個(gè)問(wèn)題，重要的是要掌握自我糾正的基本性質(zhì)。根據(jù)其形式，自我糾正可以被視為一種事后提示。

　　它與標(biāo)準(zhǔn)提示(這里稱之為事前提示)的區(qū)別在于，提示是在LLM的回答之上進(jìn)行的。

　　研究人員將改進(jìn)此類提示的過(guò)程稱為事后提示工程。

　　因此，當(dāng)自我糾正可以提供事前提示無(wú)法提供的有價(jià)值的指導(dǎo)或反饋時(shí)，就會(huì)出現(xiàn)自我糾正增強(qiáng)模型響應(yīng)的情況。

　　例如，當(dāng)目標(biāo)是使響應(yīng)更安全時(shí)，指導(dǎo)模型僅使用事前提示在第一次嘗試中生成完全無(wú)風(fēng)險(xiǎn)的響應(yīng)可能具有挑戰(zhàn)性。在這種情況下，自我糾正可以作為通過(guò)細(xì)粒度事后檢查來(lái)增強(qiáng)響應(yīng)安全性的一種手段。

　　然而，對(duì)于推理任務(wù)來(lái)說(shuō)，情況可能并非如此。

　　反饋提示，例如‘查看您之前的答案并發(fā)現(xiàn)您的答案存在問(wèn)題’。不一定能為推理提供切實(shí)的好處。

　　此外，即使觀察到自我糾正后性能顯著提高，仔細(xì)考慮提示設(shè)計(jì)也是必要的。

　　例如，如果響應(yīng)需要滿足可以在初始指令中輕松指定的標(biāo)準(zhǔn)(例如，輸出應(yīng)包含某些單詞、生成的代碼需要高效、情緒應(yīng)強(qiáng)烈負(fù)面)，而不是提供這些要求作為事后提示中的反饋，更具成本效益的替代策略是將這些要求直接(明確地)嵌入到事前提示中。