OpenAI o1式思維鏈，開源模型也可以有，成功案例來(lái)了

2024年09月18日 09:40:20 來(lái)源：機(jī)器之心公眾號(hào)

　　北京時(shí)間9月13日午夜，OpenAI 發(fā)布了推理性能強(qiáng)大的 ο1系列模型。之后，各路研究者一直在嘗試挖掘 ο1卓越性能背后的技術(shù)并嘗試復(fù)現(xiàn)它。當(dāng)然，OpenAI 也想了一些方法來(lái)抑制窺探，比如有多名用戶聲稱曾試圖誘導(dǎo) ο1模型公布其思維過(guò)程，然后收到了 OpenAI 的封號(hào)威脅。

　　盡管如此，不過(guò)三四天時(shí)間，就已經(jīng)有研究者宣稱已經(jīng)成功復(fù)現(xiàn)/開發(fā)出了與 ο1性能差不多的推理技術(shù)，并且還不止一個(gè)!

　　Llamaberry:教會(huì) AI 像聰明人一樣思考

　　Llamaberry 的提出者是 Martin Bowling。他開發(fā)的項(xiàng)目包括 RAGMiner.dev 和 Replit;其中前者可以幫助用戶毫不費(fèi)力地將網(wǎng)站轉(zhuǎn)換成 Markdown、XML 或 JSON 等格式以便 RAG 和 LLM 應(yīng)用使用，而后者則是一個(gè)使用 AI 將想法變成代碼的項(xiàng)目。

　　Llamaberry 的核心思路是使用思維鏈(CoT)來(lái)實(shí)現(xiàn)推理。這個(gè)名字自然源自代表 o1模型的 Strawberry(草莓)。

　　HuggingFace地址:https://huggingface.co/spaces/martinbowling/Llamaberry

　　什么是思維鏈?Bowling 在博客中打了個(gè)比方:「思維鏈推理就像是給 AI 一個(gè)筆記本來(lái)展示其工作過(guò)程。其中不僅僅是簡(jiǎn)單地給出答案，而是會(huì)帶領(lǐng)我們經(jīng)歷其思維過(guò)程�！�

　　Llamaberry 能教會(huì) AI 透徹地思考，就像是一位人類專家攻克難題時(shí)那樣。

　　具體來(lái)說(shuō)，Llamaberry 是一個(gè)多輪思維鏈推理系統(tǒng)的實(shí)現(xiàn)，其基于運(yùn)行在 Groq 上的 Llama3.170B 模型。

　　多輪推理是關(guān)鍵

　　多輪推理，顧名思義，就是讓模型在給出答案之前進(jìn)行多步思考，而不是一步給出答案。打個(gè)比方，這就像是看一位大廚從備菜到完成擺盤一步步地完成一道精美菜肴，而不是直接微波加熱預(yù)制菜。

　　舉個(gè)示例:

　　第1輪:AI 先嘗試解決當(dāng)前問(wèn)題。

　　第2輪:AI 回顧第一次嘗試并盡力改進(jìn)或優(yōu)化其思維過(guò)程。

　　第3輪:再進(jìn)行一輪反思和改進(jìn)。

　　綜合結(jié)果:最后，將所有這些思考綜合到一起，得到一個(gè)連貫且合理的答案。

　　下面展示了這個(gè)多輪過(guò)程的示意圖:

　　可以看到，前一輪的輸出會(huì)成為后一輪的輸入，從而讓 AI 可在每個(gè)階段不斷完善其思維。最后，所有這些思考會(huì)凝練成一個(gè)合理的最終答案。就像看著一枚莓果逐漸成熟!

　　如何實(shí)現(xiàn)

　　下面將深入 Llamaberry 的實(shí)現(xiàn)細(xì)節(jié)。

　　1.設(shè)置舞臺(tái)

　　首先，我們需要為 AI 助手設(shè)置一些基本規(guī)則，代碼如下:

　　initial_system_prompt="""YouareanAIassistantcapableofdetailed，step-by-stepthinking.Whenpresentedwithaquestionorproblem，breakdownyourthoughtprocessintoclear，logicalsteps.Foreachstep，explainyourreasoning.Concludewithafinalanswer.Usethefollowingmarkdownstructure:

　　這就是提供給 AI 大廚的菜譜。它知道需要逐步分解其思考過(guò)程并解釋每個(gè)步驟，并且以 Markdown 格式將它們顯示出來(lái)。

　　2.思考過(guò)程

　　在每一輪推理中，都需要讓 AI 對(duì)問(wèn)題進(jìn)行思考。但在第一輪結(jié)束后，還需要求它思考之前已經(jīng)思考過(guò)的東西。這就像問(wèn)朋友，「嘿，還記得你之前說(shuō)過(guò)什么嗎?讓我們?cè)傧胍幌�。�?/p>

　　下面是每一輪的生成方式:

　　asyncdefgenerate_turn(query:str，previous_turns:list=None)->str:

　　該函數(shù)是多輪推理的核心。它決定我們是在第一輪還是在后續(xù)輪，并以此構(gòu)建提示詞。對(duì)于后續(xù)輪，它會(huì)將之前所有推理輪都包含在上下文中，讓 AI 可以基于之前的思考進(jìn)行構(gòu)建。

　　3.綜合結(jié)果

　　經(jīng)過(guò)三輪思考之后，再讓 AI 檢視其所有思考并得出一個(gè)合理的最終答案。這就像是讓專家討論問(wèn)題，然后編寫最終報(bào)告。

　　asyncdefsynthesize_turns(query:str，turns:list)->str:turns_text="\n\n".join([f"Turn{i+1}:\n{turn}"fori，turninenumerate(turns)])messages=[{"role":"system"，"content":synthesis_prompt}，{"role":"user"，"content":f"OriginalQuery:{query}\n\nTurnsofReasoning:\n{turns_text}"}]returnawaitcall_llm(messages)

　　這個(gè)綜合步驟至關(guān)重要，是 AI 綜合所有思考內(nèi)容凝練出最終答案的一步。

　　單輪推理 vs 多輪推理

　　Martin Bowling 在其博客中簡(jiǎn)單比較了單輪和多輪推理。

　　這里他采用了一個(gè)簡(jiǎn)單示例，即詢問(wèn) AI:「人工智能對(duì)就業(yè)市場(chǎng)有什么潛在影響?」

　　單輪推理:

　　AI:Artificialintelligencewilllikelyhavesignificantimpactsonthejobmarket，including:

　　使用 Llamaberry 執(zhí)行多輪推理:

　　第1輪:

　　AI:Let'sapproachthisstep-by-step:

　　第2輪:

　　AI:Let'srefineourthinking:

　　第3輪:

　　AI:Let'sdelvedeeper:

　　綜合答案:

　　AI:Aftercarefulconsiderationacrossmultipleturnsofreasoning，wecansynthesizeourthoughtsonthepotentialimpactsofartificialintelligenceonthejobmarket:

　　可以看到，多輪方法能實(shí)現(xiàn)更加精細(xì)、全面的分析。這能從多個(gè)角度考慮問(wèn)題，優(yōu)化其思考，最后得到更加深思熟慮和全面詳細(xì)的答案。

　　Bowling 表示，這樣的多輪推理在思考深度、自我提升、透明度、靈活性等方面都有巨大優(yōu)勢(shì)，同時(shí)其還采用了 Markdown 格式，使其結(jié)果更容易閱讀和用于后續(xù)流程。

　　因此，這種技術(shù)可讓 AI 進(jìn)入更多實(shí)際應(yīng)用場(chǎng)景，比如醫(yī)療診斷、法律分析、科學(xué)研究、商業(yè)策略、教育。當(dāng)然，在使用 Llamaberry 等多輪推理系統(tǒng)時(shí)，也需要注意它們的局限和潛在的道德倫理問(wèn)題，比如偏見、計(jì)算成本、過(guò)度依賴和隱私問(wèn)題。

　　如何使用 Llamaberry?

　　Llamaberry 也很容易使用，點(diǎn)擊幾下就能擁有你自己的多輪推理系統(tǒng)。步驟如下:

　　前往 Replit，點(diǎn)擊該鏈接獲取 Llamaberry 模板:https://replit.com/@MartinBowling/Llamaberry-Powered-By-Groq?v=1

　　創(chuàng)建模板分支:點(diǎn)擊 Fork 按鈕創(chuàng)建你自己的 Llamaberry 項(xiàng)目副本。

　　獲取你的 Groq API Key:注冊(cè) Groq 賬戶，獲取 API Key。

　　設(shè)置環(huán)境:在你的分支 Replit 項(xiàng)目中，找到「Secrets」選項(xiàng)卡。添加一個(gè)新密鑰，密鑰為 GROQ_API_KEY，值是你的 Groq API 密鑰。

　　運(yùn)行項(xiàng)目:單擊 Replit 界面頂部的 Run 按鈕。這將啟動(dòng) Llamaberry 應(yīng)用。

　　開始實(shí)驗(yàn):應(yīng)用運(yùn)行起來(lái)后，你將看到一個(gè) Gradio 界面。你可以在其中輸入問(wèn)題并查看 Llamaberry 多輪推理的實(shí)際效果!并且輸出是簡(jiǎn)潔漂亮的 Markdown 格式!

　　了解了 Llamaberry，下面來(lái)看另一個(gè)號(hào)稱實(shí)現(xiàn)了類 o1推理鏈的項(xiàng)目:g1。

　　g1:實(shí)現(xiàn)類似 ο1的推理鏈

　　g1這個(gè)項(xiàng)目來(lái)自 Benjamin Klieger，他是 Groq 的一位研究者。也因此，g1同樣基于 Groq，并且其也使用了 Llama3.170b 模型。

　　不同于 Llamaberry 使用的多輪思維鏈推理，g1的策略是角色扮演、思維鏈提示、格式化以及另一些提示技巧。并且，g1開源了。

　　開發(fā)者宣稱 g1有70% 的時(shí)間能成功數(shù)出 Strawberry 中有多少個(gè) R，同時(shí)無(wú)需任何微調(diào)或少樣本技術(shù)。下面是其一次執(zhí)行過(guò)程:

　　開發(fā)者 Klieger 表示，g1和 ο1一樣能讓 LLM 有能力「思考」和解決之前的領(lǐng)先模型難以應(yīng)對(duì)的邏輯問(wèn)題。但不同之處在于，g1會(huì)大方地展示所有推理 token。同時(shí)，他也強(qiáng)調(diào)了 g1和 ο1在技術(shù)上的差異，其中后者使用了大規(guī)模強(qiáng)化學(xué)習(xí)來(lái)執(zhí)行思維鏈推理。而 g1則是通過(guò)發(fā)掘提示詞工程的潛力來(lái)幫助 LLM 解決簡(jiǎn)單的邏輯問(wèn)題，讓現(xiàn)有的開源模型也能受益于動(dòng)態(tài)推理鏈和優(yōu)化般的探索界面。

　　g1的工作方式

　　由 Llama3.170b 支持的 g1會(huì)創(chuàng)建一種動(dòng)態(tài)的思維鏈。

　　在每個(gè)步驟中，LLM 可以選擇是繼續(xù)進(jìn)行另一個(gè)推理步驟，還是提供最終答案。每個(gè)步驟都有標(biāo)題，并且對(duì)用戶可見。

　　系統(tǒng)提示詞中還會(huì)包含給 LLM 的提示。其提示策略如下:

　　YouareanexpertAIassistantthatexplainsyourreasoningstepbystep.Foreachstep，provideatitlethatdescribeswhatyou'redoinginthatstep，alongwiththecontent.Decideifyouneedanothersteporifyou'rereadytogivethefinalanswer.RespondinJSONformatwith'title'，'content'，and'next_action'(either'continue'or'final_answer')keys.USEASMANYREASONINGSTEPSASPOSSIBLE.ATLEAST3.BEAWAREOFYOURLIMITATIONSASANLLMANDWHATYOUCANANDCANNOTDO.INYOURREASONING，INCLUDEEXPLORATIONOFALTERNATIVEANSWERS.CONSIDERYOUMAYBEWRONG，ANDIFYOUAREWRONGINYOURREASONING，WHEREITWOULDBE.FULLYTESTALLOTHERPOSSIBILITIES.YOUCANBEWRONG.WHENYOUSAYYOUARERE-EXAMINING，ACTUALLYRE-EXAMINE，ANDUSEANOTHERAPPROACHTODOSO.DONOTJUSTSAYYOUARERE-EXAMINING.USEATLEAST3METHO***ODERIVETHEANSWER.USEBESTPRACTICES.

　　對(duì)這些提示詞的詳細(xì)解釋請(qǐng)參閱原項(xiàng)目的 Prompt Breakdown 一節(jié)。這里就不贅述了，僅給出幾個(gè)示例，比如可以在提示詞中加入「include exploration of alternative answers」(探索其它答案)和「use at least3methods to derive the answer」(使用至少三種方法來(lái)得出答案)。

　　這樣一來(lái)，通過(guò)組合思維鏈以及嘗試多種方法、探索其它答案、質(zhì)疑之前草擬的解答、考慮 LLM 的局限性等策略，就能顯著提升 LLM 的推理能力。

　　在數(shù) Strawberry 中有多少個(gè) R 這個(gè)經(jīng)典問(wèn)題上，無(wú)需任何訓(xùn)練，g1就能幫助 Llama3.170b 達(dá)到約70% 的準(zhǔn)確度(n=10， How many Rs are in strawberry?)。而如果不使用提示技術(shù)，Llama3.170b 的準(zhǔn)確率為0%，ChatGPT-4o 的也只有30%。

　　下面展示了另一個(gè)示例:0.9和0.11哪個(gè)更大?

　　詳細(xì)的安裝過(guò)程和代碼請(qǐng)參閱原項(xiàng)目。

　　最后，順便一提，另有開發(fā)者發(fā)布了 g1的分支版 Mult1，該版本的一大改進(jìn)是可使用多個(gè) AI 提供商來(lái)創(chuàng)建類似 o1的推理鏈

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信