GPT-4等大模型迎來(lái)進(jìn)化轉(zhuǎn)折點(diǎn)：不只是使用，還會(huì)自己制作工具了

2023年05月30日 16:05:33 來(lái)源：機(jī)器之心

　　我們知道，大語(yǔ)言模型(LLM)在廣泛的 NLP 任務(wù)中已經(jīng)表現(xiàn)出卓越的能力，甚至展現(xiàn)出能夠?qū)崿F(xiàn)通用人工智能某些方面的良好跡象。此外，與人類的智能進(jìn)化類似，LLM 在最近的研究中被揭示出使用外部工具從而提升解決問(wèn)題能力及效率的潛力。

　　需要注意的是，這些工具使用方法的適用性很大程度程度上取決于是否有合適的工具。從人類進(jìn)化的里程碑可以發(fā)現(xiàn)，人類進(jìn)化的關(guān)鍵轉(zhuǎn)折點(diǎn)是人類有能力制造工具來(lái)解決出現(xiàn)的困難。

　　受到制造工具對(duì)人類重要性的啟發(fā)，在本文中，Google Deepmind、普林斯頓和斯坦福大學(xué)的研究者將這種「進(jìn)化」的概念應(yīng)用于 LLM 領(lǐng)域，進(jìn)行了初步探索。他們提出了一個(gè)閉環(huán)框架，在這個(gè)框架中 LLM 作為工具制作者(LLMs As Tool Makers ，LATM)，使其能夠生成自己的可重新使用的工具來(lái)處理新任務(wù)。

　　論文地址：https://arxiv.org/pdf/2305.17126.pdf

　　該方法包括兩個(gè)關(guān)鍵階段:

　　工具制作：LLM 作為工具制作者，專門為給定的任務(wù)設(shè)計(jì)工具(作為 Python 函數(shù)實(shí)現(xiàn));

　　工具使用：另一個(gè) LLM 作為工具使用者，它可以與工具制作者相同，應(yīng)用工具來(lái)處理新的請(qǐng)求。

　　兩階段設(shè)計(jì)允許 LATM 在每個(gè)階段將作業(yè)分配給最合適的 LLM。一方面，需要高度能力的工具制造過(guò)程可以分配給一個(gè)功能強(qiáng)大且資源密集型的模型 (例如 GPT-4)。另一方面，相對(duì)簡(jiǎn)單的使用工具過(guò)程，可以分配給輕量、經(jīng)濟(jì)高效的模型 (例如 GPT-3.5 Turbo)。這種方法不僅增強(qiáng)了 LLM 解決問(wèn)題的能力，并能夠顯著降低處理一系列任務(wù)的平均計(jì)算成本。

　　LATM 的閉環(huán)框架。

　　由于工具制作過(guò)程只需要對(duì)給定的功能執(zhí)行一次，因此生成的工具可以在不同的任務(wù)實(shí)例中反復(fù)使用。這種方法為處理復(fù)雜任務(wù)開(kāi)拓了可擴(kuò)展、成本高效的解決方案。例如，假定一個(gè)任務(wù)，用戶要求 LLM 安排一個(gè)適合每個(gè)人的會(huì)議(例如在電子郵件對(duì)話中)。涉及復(fù)雜算術(shù)推理的任務(wù)對(duì)于像 GPT-3.5 Turbo 這樣的輕量級(jí)模型來(lái)說(shuō)是艱巨的挑戰(zhàn)。相比之下，更強(qiáng)大的模型(例如 GPT-4)雖然推理成本要高得多，但是能夠找到正確的解決方案。

　　LATM 能夠克服這種困難，是因?yàn)樗鼘?qiáng)大但昂貴的模型當(dāng)作工具制作者，并將工具傳遞給工具使用者 —— 經(jīng)濟(jì)型模型進(jìn)行使用。工具制作完成后，輕量級(jí)工具使用者可以用它來(lái)高效、高性能地解決任務(wù)。

　　本文的實(shí)驗(yàn)?zāi)軌蝌?yàn)證這種方法在復(fù)雜的推理任務(wù)上(包括幾個(gè)具有挑戰(zhàn)性的 Big-Bench 任務(wù))的有效性。結(jié)果表明，LATM 可以達(dá)到與資源密集型模型相當(dāng)?shù)男阅�，同時(shí)具有更高的成本效益。這種新穎的 LLM 方法，模仿了人類在創(chuàng)建和使用工具方面的進(jìn)化飛躍，為開(kāi)辟使用 LLM 生成的工具的社區(qū)提供了無(wú)限可能。

　　方法概覽：LLM as Tool Maker (LATM)

　　制作新工具并重復(fù)使用

　　在 LATM 范式中，主要過(guò)程可以分為兩個(gè)階段：工具制作和工具使用。每個(gè)階段都利用不同類型的大語(yǔ)言模型(LLM)來(lái)平衡性能和成本效率。

　　對(duì)于工具制作(Tool Making)，該階段采用強(qiáng)大但成本更高昂的模型(例如 GPT-4)作為工具制作者。工具制作者通過(guò)特定任務(wù)的一些演示來(lái)創(chuàng)建通用和可復(fù)用的工具(作為 Python 函數(shù)實(shí)現(xiàn))。該階段又可以進(jìn)一步分為以下三個(gè)子階段：

　　首先是工具提出(Tool Proposing)。在這一階段，工具制作者嘗試生成一個(gè) Python 函數(shù)，用以解決給定任務(wù)的演示。該過(guò)程遵循「實(shí)例編程」(PbE)范式，其中提供了幾個(gè)具體的演示，并且需要模型編寫(xiě)產(chǎn)生演示行為的程序。在實(shí)驗(yàn)中，研究者在該階段使用了 3 個(gè)演示。如果提出的工具無(wú)法執(zhí)行或者遇到錯(cuò)誤，工具制作者會(huì)將錯(cuò)誤信息附加到歷史記錄中并進(jìn)行另一次嘗試。

　　其次是工具驗(yàn)證(Tool Verification)。在這一階段，工具制作者使用驗(yàn)證樣本生成單元測(cè)試，然后在提出的工具中執(zhí)行這些測(cè)試。研究者在實(shí)驗(yàn)中使用了 3 個(gè)驗(yàn)證樣本。如果工具未能通過(guò)任何這些測(cè)試，工具制作者會(huì)在其歷史記錄中記錄下錯(cuò)誤，并嘗試在單元測(cè)試中糾正問(wèn)題(此過(guò)程只會(huì)糾正單元測(cè)試部分的函數(shù)調(diào)用，而不會(huì)糾正功能)。LLM 的自調(diào)試能力已在最近的研究中得到有效證明，然而在 LATM pipeline 中，驗(yàn)證階段的用途稍有不同。該階段有兩個(gè)關(guān)鍵作用：一是提供示例來(lái)演示如何將自然語(yǔ)言問(wèn)題轉(zhuǎn)換為函數(shù)調(diào)用;二是驗(yàn)證工具的可靠性，使整個(gè)過(guò)程充分自動(dòng)化。

　　最后是工具封裝(Tool Wrapping)。如果執(zhí)行或驗(yàn)證失敗超過(guò)了預(yù)設(shè)閾值，則工具封裝階段被視為失敗。相反，工具制作者準(zhǔn)備好為工具使用者提供封裝后的工具。該步驟涉及封裝函數(shù)代碼，并演示如何將一個(gè)任務(wù)轉(zhuǎn)換為函數(shù)調(diào)用。這些演示從工具驗(yàn)證步驟中提取，從而將問(wèn)題轉(zhuǎn)換為單元測(cè)試。隨后最終產(chǎn)品可供工具使用者使用。

　　完成了工具制作，接下來(lái)是工具使用(Tool Using)了。該階段涉及一個(gè)輕量級(jí)且具有成本效益的模型(例如 GPT-3.5 Turbo)，用作工具使用者。工具使用者的角色是利用驗(yàn)證后的工具來(lái)解決任務(wù)的不同實(shí)例。該階段的 prompt 是封裝工具，它包含了解決任務(wù)的函數(shù)和如何將任務(wù)查詢轉(zhuǎn)換為函數(shù)調(diào)用的演示。通過(guò)演示，工具使用者能夠以一種上下文學(xué)習(xí)的方式來(lái)生成需要的函數(shù)調(diào)用，然后執(zhí)行函數(shù)調(diào)用以解決任務(wù)�；蛘呖梢詰�(yīng)用后處理來(lái)轉(zhuǎn)換輸出以匹配任務(wù)所需的格式，例如多項(xiàng)選擇題的選項(xiàng)。

　　總的來(lái)說(shuō)，工具制作階段包括工具提出、驗(yàn)證和封裝，每類任務(wù)只需執(zhí)行一次，然后可以將生成的工具重復(fù)用于該任務(wù)的所有實(shí)例。與單獨(dú)使用強(qiáng)大的模型相比，這使得 LATM 的效率和成本效益顯著增加。此外，Python 函數(shù)時(shí)一種更通用的思維鏈，增強(qiáng)了整體效用和靈活性，因此可用于解決涉及算法推理能力的問(wèn)題。

　　LATM 的 pipeline。

　　下圖 3 展示了方法的具體示例，說(shuō)明工具制作者如何通過(guò)生成工具(Python 函數(shù))來(lái)解決 BigBench 的邏輯推導(dǎo)任務(wù)，以及工具使用者如何使用工具。

　　使用 Dispatcher 處理流數(shù)據(jù)

　　在真實(shí)世界場(chǎng)景中，任務(wù)實(shí)例通常按順序出現(xiàn)。為了適應(yīng)這種數(shù)據(jù)流，研究者引入了第三個(gè) LLM 即 dispatcher，它確定是讓工具使用者還是工具制作者參與每個(gè)傳入的任務(wù)。dispatcher 模塊與現(xiàn)有工作中的工具選擇功能有相似之處，然后在識(shí)別現(xiàn)有工具無(wú)法解決的新任務(wù)以及讓工具制作者為這些任務(wù)生成新工具方面具有獨(dú)到的能力。

　　具體而言，dispatcher 保留了工具制作者產(chǎn)生的現(xiàn)有工具的記錄。當(dāng)接收到新的任務(wù)實(shí)例時(shí)，dispatcher 首先確定是否有適合手頭任務(wù)的工具。如果有合適的工具，則將實(shí)例確定為新任務(wù)，并利用強(qiáng)大的模型解決該實(shí)例，甚至可以調(diào)用人工標(biāo)注器。隨后緩存新任務(wù)的實(shí)例，直到緩存實(shí)例足夠工具制作者制作新工具。具體的工作流程如下圖 4 所示。

　　實(shí)驗(yàn)結(jié)果

　　本文在來(lái)自不同領(lǐng)域的 6 個(gè)數(shù)據(jù)集上評(píng)估了所提出的方法，包括 Logical Deduction、Tracking Shuffled Objects、Dyck Language、Word Sorting、 Chinese Remainder Theorem 和 Scheduling Meeting。

　　在工具制作階段，研究者將溫度參數(shù)設(shè)置為 0.3，以在生成過(guò)程中引入隨機(jī)性，并在必要時(shí)允許重試。在這個(gè)階段，實(shí)驗(yàn)使用了帶有 ChatCompletion API 的 GPT-4 和 GPT-3.5 Turbo 模型進(jìn)行，并不斷將響應(yīng)附加進(jìn)聊天記錄當(dāng)中，來(lái)創(chuàng)造交互體驗(yàn)。

　　在工具使用階段，LLM API 調(diào)用僅進(jìn)行一次，并使用標(biāo)準(zhǔn)完成 API 對(duì) gpt -3 型模型進(jìn)行消融研究。當(dāng)使用工具時(shí)，溫度參數(shù)始終為設(shè)置為 0.0。在工具提出和工具驗(yàn)證階段的最大重試次數(shù)設(shè)置為 3。

　　工具制作的有效性

　　據(jù)實(shí)驗(yàn)觀察，GPT-4 作為工具制作者時(shí)，常能設(shè)計(jì)出合適的算法來(lái)解決任務(wù)。例如下表 1 中，工具制作者搜索所有排列，并選擇滿足給定約束的正確排列來(lái)創(chuàng)建代碼，解決邏輯演繹任務(wù)。在實(shí)驗(yàn)中，工具驗(yàn)證階段主要用于演示如何將自然語(yǔ)言問(wèn)題轉(zhuǎn)換為函數(shù)調(diào)用。在 60 次試驗(yàn)中，只觀察到 2 例工具制作者可以在錯(cuò)誤消息的指導(dǎo)下糾正其錯(cuò)誤。

　　LATM 提升輕量級(jí) LLM 的性能

　　下表 2 比較了思維鏈提示與 LATM 的性能。實(shí)驗(yàn)使用 GPT-4 作為工具制作者為這六項(xiàng)任務(wù)生成工具，并評(píng)估 GPT-3.5 Turbo 和 GPT-4 作為工具使用者的性能。結(jié)果表明，在該工具的幫助下，像 GPT-3.5 Turbo 這樣的輕量級(jí)模型可以達(dá)到與 GPT-4 相當(dāng)?shù)男阅�，顯著優(yōu)于 CoT 提示。此外與使用 GPT-4 相比，使用 GPT-3.5 Turbo 的平均成本要低得多。

　　這突出了 LATM 在增強(qiáng)輕量級(jí)模型的性能方面的有效性。因此，使用 LATM 相較于安規(guī)的模型來(lái)說(shuō)，能夠降低成本。

　　將 LATM 擴(kuò)展為具有混合任務(wù)的流設(shè)置

　　將 LATM 擴(kuò)展為流設(shè)置后，流設(shè)置中不同任務(wù)的實(shí)例可以實(shí)時(shí)到達(dá)。在這種情況下，需要另一個(gè)模型調(diào)度程序，來(lái)確定實(shí)例所屬的任務(wù)。實(shí)驗(yàn)使用 GPT-3.5 Turbo 作為調(diào)度器，并評(píng)估其能力:

　　識(shí)別現(xiàn)有工具來(lái)解決傳入實(shí)例;

　　為未知任務(wù)的實(shí)例請(qǐng)求工具制作。

　　結(jié)果表明，調(diào)度程序可以有效地識(shí)別現(xiàn)有的工具，并為未知任務(wù)請(qǐng)求工具制作，但它不會(huì)大幅降低性能。這表明 LATM 可以平滑地?cái)U(kuò)展到具有混合任務(wù)的流設(shè)置。

　　消融實(shí)驗(yàn)

　　首先是工具制作語(yǔ)言模型所需的能力。研究者調(diào)研了工具制作階段所用語(yǔ)言模型的能力要求。一般來(lái)說(shuō)，更強(qiáng)大且成本更高昂的模型越能達(dá)到目的，這是因?yàn)樵撾A段中每個(gè)任務(wù)只執(zhí)行一次，高準(zhǔn)確度對(duì)于有效地將工具傳遞給更小的模型至關(guān)重要。

　　其次是工具使用語(yǔ)言模型所需的能力。研究者調(diào)研了工具使用模型的能力要求，具體結(jié)果如下表 4 所示，GPT-3.5 Turbo 在所有測(cè)試的模型中實(shí)現(xiàn)了最佳的性能與成本平衡。

　　最后是思維鏈(CoT)作為工具沒(méi)有幫助。除了 LATM 之外，研究者還調(diào)研了是否可以通過(guò)重用更大模型和更小模型(類似于 LATM pipeline)的思維鏈來(lái)提高性能。具體結(jié)果如下表 5 所示，使用大模型的 CoT 與人類編寫(xiě)的 CoT 具有相似甚至更差的性能，這要比 LATM 差得多。