北京時(shí)間9月13日午夜,OpenAI 發(fā)布了推理性能強(qiáng)大的 ο1系列模型。之后,各路研究者一直在嘗試挖掘 ο1卓越性能背后的技術(shù)并嘗試復(fù)現(xiàn)它。當(dāng)然,OpenAI 也想了一些方法來(lái)抑制窺探,比如有多名用戶聲稱曾試圖誘導(dǎo) ο1模型公布其思維過(guò)程,然后收到了 OpenAI 的封號(hào)威脅。
盡管如此,不過(guò)三四天時(shí)間,就已經(jīng)有研究者宣稱已經(jīng)成功復(fù)現(xiàn)/開發(fā)出了與 ο1性能差不多的推理技術(shù),并且還不止一個(gè)!
Llamaberry:教會(huì) AI 像聰明人一樣思考
Llamaberry 的提出者是 Martin Bowling。他開發(fā)的項(xiàng)目包括 RAGMiner.dev 和 Replit;其中前者可以幫助用戶毫不費(fèi)力地將網(wǎng)站轉(zhuǎn)換成 Markdown、XML 或 JSON 等格式以便 RAG 和 LLM 應(yīng)用使用,而后者則是一個(gè)使用 AI 將想法變成代碼的項(xiàng)目。
Llamaberry 的核心思路是使用思維鏈(CoT)來(lái)實(shí)現(xiàn)推理。這個(gè)名字自然源自代表 o1模型的 Strawberry(草莓)。
HuggingFace地址:https://huggingface.co/spaces/martinbowling/Llamaberry
什么是思維鏈?Bowling 在博客中打了個(gè)比方:「思維鏈推理就像是給 AI 一個(gè)筆記本來(lái)展示其工作過(guò)程。其中不僅僅是簡(jiǎn)單地給出答案,而是會(huì)帶領(lǐng)我們經(jīng)歷其思維過(guò)程!
Llamaberry 能教會(huì) AI 透徹地思考,就像是一位人類專家攻克難題時(shí)那樣。
具體來(lái)說(shuō),Llamaberry 是一個(gè)多輪思維鏈推理系統(tǒng)的實(shí)現(xiàn),其基于運(yùn)行在 Groq 上的 Llama3.170B 模型。
多輪推理是關(guān)鍵
多輪推理,顧名思義,就是讓模型在給出答案之前進(jìn)行多步思考,而不是一步給出答案。打個(gè)比方,這就像是看一位大廚從備菜到完成擺盤一步步地完成一道精美菜肴,而不是直接微波加熱預(yù)制菜。
舉個(gè)示例:
第1輪:AI 先嘗試解決當(dāng)前問(wèn)題。
第2輪:AI 回顧第一次嘗試并盡力改進(jìn)或優(yōu)化其思維過(guò)程。
第3輪:再進(jìn)行一輪反思和改進(jìn)。
綜合結(jié)果:最后,將所有這些思考綜合到一起,得到一個(gè)連貫且合理的答案。
下面展示了這個(gè)多輪過(guò)程的示意圖:
可以看到,前一輪的輸出會(huì)成為后一輪的輸入,從而讓 AI 可在每個(gè)階段不斷完善其思維。最后,所有這些思考會(huì)凝練成一個(gè)合理的最終答案。就像看著一枚莓果逐漸成熟!
如何實(shí)現(xiàn)
下面將深入 Llamaberry 的實(shí)現(xiàn)細(xì)節(jié)。
1.設(shè)置舞臺(tái)
首先,我們需要為 AI 助手設(shè)置一些基本規(guī)則,代碼如下:
initial_system_prompt="""YouareanAIassistantcapableofdetailed,step-by-stepthinking.Whenpresentedwithaquestionorproblem,breakdownyourthoughtprocessintoclear,logicalsteps.Foreachstep,explainyourreasoning.Concludewithafinalanswer.Usethefollowingmarkdownstructure:
這就是提供給 AI 大廚的菜譜。它知道需要逐步分解其思考過(guò)程并解釋每個(gè)步驟,并且以 Markdown 格式將它們顯示出來(lái)。
2.思考過(guò)程
在每一輪推理中,都需要讓 AI 對(duì)問(wèn)題進(jìn)行思考。但在第一輪結(jié)束后,還需要求它思考之前已經(jīng)思考過(guò)的東西。這就像問(wèn)朋友,「嘿,還記得你之前說(shuō)過(guò)什么嗎?讓我們?cè)傧胍幌。?/p>
下面是每一輪的生成方式:
asyncdefgenerate_turn(query:str,previous_turns:list=None)->str:
該函數(shù)是多輪推理的核心。它決定我們是在第一輪還是在后續(xù)輪,并以此構(gòu)建提示詞。對(duì)于后續(xù)輪,它會(huì)將之前所有推理輪都包含在上下文中,讓 AI 可以基于之前的思考進(jìn)行構(gòu)建。
3.綜合結(jié)果
經(jīng)過(guò)三輪思考之后,再讓 AI 檢視其所有思考并得出一個(gè)合理的最終答案。這就像是讓專家討論問(wèn)題,然后編寫最終報(bào)告。
asyncdefsynthesize_turns(query:str,turns:list)->str:turns_text="\n\n".join([f"Turn{i+1}:\n{turn}"fori,turninenumerate(turns)])messages=[{"role":"system","content":synthesis_prompt},{"role":"user","content":f"OriginalQuery:{query}\n\nTurnsofReasoning:\n{turns_text}"}]returnawaitcall_llm(messages)
這個(gè)綜合步驟至關(guān)重要,是 AI 綜合所有思考內(nèi)容凝練出最終答案的一步。
單輪推理 vs 多輪推理
Martin Bowling 在其博客中簡(jiǎn)單比較了單輪和多輪推理。
這里他采用了一個(gè)簡(jiǎn)單示例,即詢問(wèn) AI:「人工智能對(duì)就業(yè)市場(chǎng)有什么潛在影響?」
單輪推理:
AI:Artificialintelligencewilllikelyhavesignificantimpactsonthejobmarket,including:
使用 Llamaberry 執(zhí)行多輪推理:
第1輪:
AI:Let'sapproachthisstep-by-step:
第2輪:
AI:Let'srefineourthinking:
第3輪:
AI:Let'sdelvedeeper:
綜合答案:
AI:Aftercarefulconsiderationacrossmultipleturnsofreasoning,wecansynthesizeourthoughtsonthepotentialimpactsofartificialintelligenceonthejobmarket:
可以看到,多輪方法能實(shí)現(xiàn)更加精細(xì)、全面的分析。這能從多個(gè)角度考慮問(wèn)題,優(yōu)化其思考,最后得到更加深思熟慮和全面詳細(xì)的答案。
Bowling 表示,這樣的多輪推理在思考深度、自我提升、透明度、靈活性等方面都有巨大優(yōu)勢(shì),同時(shí)其還采用了 Markdown 格式,使其結(jié)果更容易閱讀和用于后續(xù)流程。
因此,這種技術(shù)可讓 AI 進(jìn)入更多實(shí)際應(yīng)用場(chǎng)景,比如醫(yī)療診斷、法律分析、科學(xué)研究、商業(yè)策略、教育。當(dāng)然,在使用 Llamaberry 等多輪推理系統(tǒng)時(shí),也需要注意它們的局限和潛在的道德倫理問(wèn)題,比如偏見、計(jì)算成本、過(guò)度依賴和隱私問(wèn)題。
如何使用 Llamaberry?
Llamaberry 也很容易使用,點(diǎn)擊幾下就能擁有你自己的多輪推理系統(tǒng)。步驟如下:
前往 Replit,點(diǎn)擊該鏈接獲取 Llamaberry 模板:https://replit.com/@MartinBowling/Llamaberry-Powered-By-Groq?v=1
創(chuàng)建模板分支:點(diǎn)擊 Fork 按鈕創(chuàng)建你自己的 Llamaberry 項(xiàng)目副本。
獲取你的 Groq API Key:注冊(cè) Groq 賬戶,獲取 API Key。
設(shè)置環(huán)境:在你的分支 Replit 項(xiàng)目中,找到「Secrets」選項(xiàng)卡。添加一個(gè)新密鑰,密鑰為 GROQ_API_KEY,值是你的 Groq API 密鑰。
運(yùn)行項(xiàng)目:單擊 Replit 界面頂部的 Run 按鈕。這將啟動(dòng) Llamaberry 應(yīng)用。
開始實(shí)驗(yàn):應(yīng)用運(yùn)行起來(lái)后,你將看到一個(gè) Gradio 界面。你可以在其中輸入問(wèn)題并查看 Llamaberry 多輪推理的實(shí)際效果!并且輸出是簡(jiǎn)潔漂亮的 Markdown 格式!
了解了 Llamaberry,下面來(lái)看另一個(gè)號(hào)稱實(shí)現(xiàn)了類 o1推理鏈的項(xiàng)目:g1。
g1:實(shí)現(xiàn)類似 ο1的推理鏈
g1這個(gè)項(xiàng)目來(lái)自 Benjamin Klieger,他是 Groq 的一位研究者。也因此,g1同樣基于 Groq,并且其也使用了 Llama3.170b 模型。
不同于 Llamaberry 使用的多輪思維鏈推理,g1的策略是角色扮演、思維鏈提示 、格式化以及另一些提示技巧。并且,g1開源了。
開發(fā)者宣稱 g1有70% 的時(shí)間能成功數(shù)出 Strawberry 中有多少個(gè) R,同時(shí)無(wú)需任何微調(diào)或少樣本技術(shù)。下面是其一次執(zhí)行過(guò)程:
開發(fā)者 Klieger 表示,g1和 ο1一樣能讓 LLM 有能力「思考」和解決之前的領(lǐng)先模型難以應(yīng)對(duì)的邏輯問(wèn)題。但不同之處在于,g1會(huì)大方地展示所有推理 token。同時(shí),他也強(qiáng)調(diào)了 g1和 ο1在技術(shù)上的差異,其中后者使用了大規(guī)模強(qiáng)化學(xué)習(xí)來(lái)執(zhí)行思維鏈推理。而 g1則是通過(guò)發(fā)掘提示詞工程的潛力來(lái)幫助 LLM 解決簡(jiǎn)單的邏輯問(wèn)題,讓現(xiàn)有的開源模型也能受益于動(dòng)態(tài)推理鏈和優(yōu)化般的探索界面。
g1的工作方式
由 Llama3.170b 支持的 g1會(huì)創(chuàng)建一種動(dòng)態(tài)的思維鏈。
在每個(gè)步驟中,LLM 可以選擇是繼續(xù)進(jìn)行另一個(gè)推理步驟,還是提供最終答案。每個(gè)步驟都有標(biāo)題,并且對(duì)用戶可見。
系統(tǒng)提示詞中還會(huì)包含給 LLM 的提示。其提示策略如下:
YouareanexpertAIassistantthatexplainsyourreasoningstepbystep.Foreachstep,provideatitlethatdescribeswhatyou'redoinginthatstep,alongwiththecontent.Decideifyouneedanothersteporifyou'rereadytogivethefinalanswer.RespondinJSONformatwith'title','content',and'next_action'(either'continue'or'final_answer')keys.USEASMANYREASONINGSTEPSASPOSSIBLE.ATLEAST3.BEAWAREOFYOURLIMITATIONSASANLLMANDWHATYOUCANANDCANNOTDO.INYOURREASONING,INCLUDEEXPLORATIONOFALTERNATIVEANSWERS.CONSIDERYOUMAYBEWRONG,ANDIFYOUAREWRONGINYOURREASONING,WHEREITWOULDBE.FULLYTESTALLOTHERPOSSIBILITIES.YOUCANBEWRONG.WHENYOUSAYYOUARERE-EXAMINING,ACTUALLYRE-EXAMINE,ANDUSEANOTHERAPPROACHTODOSO.DONOTJUSTSAYYOUARERE-EXAMINING.USEATLEAST3METHO***ODERIVETHEANSWER.USEBESTPRACTICES.
對(duì)這些提示詞的詳細(xì)解釋請(qǐng)參閱原項(xiàng)目的 Prompt Breakdown 一節(jié)。這里就不贅述了,僅給出幾個(gè)示例,比如可以在提示詞中加入「include exploration of alternative answers」(探索其它答案)和「use at least3methods to derive the answer」(使用至少三種方法來(lái)得出答案)。
這樣一來(lái),通過(guò)組合思維鏈以及嘗試多種方法、探索其它答案、質(zhì)疑之前草擬的解答、考慮 LLM 的局限性等策略,就能顯著提升 LLM 的推理能力。
在數(shù) Strawberry 中有多少個(gè) R 這個(gè)經(jīng)典問(wèn)題上,無(wú)需任何訓(xùn)練,g1就能幫助 Llama3.170b 達(dá)到約70% 的準(zhǔn)確度(n=10, How many Rs are in strawberry?)。而如果不使用提示技術(shù),Llama3.170b 的準(zhǔn)確率為0%,ChatGPT-4o 的也只有30%。
下面展示了另一個(gè)示例:0.9和0.11哪個(gè)更大?
詳細(xì)的安裝過(guò)程和代碼請(qǐng)參閱原項(xiàng)目。
最后,順便一提,另有開發(fā)者發(fā)布了 g1的分支版 Mult1,該版本的一大改進(jìn)是可使用多個(gè) AI 提供商來(lái)創(chuàng)建類似 o1的推理鏈
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。