冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺(tái)灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點(diǎn)京東iPhone 16系列年底大放價(jià)!至高補(bǔ)貼1200元價(jià)格低過(guò)11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國(guó)聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動(dòng)“萬(wàn)象分區(qū)”引領(lǐng)電視行業(yè)新潮流,TCL這步棋下得著實(shí)漂亮!百度職業(yè)院校專屬項(xiàng)目“大國(guó)智匠”引領(lǐng)職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設(shè)計(jì)大賽,全國(guó)高校學(xué)子展現(xiàn)卓越編程實(shí)力碼蹄杯人物特寫:四位編程少年的追夢(mèng)之旅金倉(cāng)數(shù)據(jù)庫(kù)四項(xiàng)成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會(huì) CTO歐陽(yáng)曄博士等做主題演講用專業(yè)贏得信賴 美好蘊(yùn)育潤(rùn)康引領(lǐng)孕產(chǎn)營(yíng)養(yǎng)新風(fēng)尚解鎖新成就!愛企查“度秘書”粉絲突破10萬(wàn)!英特爾終止x86S架構(gòu)計(jì)劃:純64位設(shè)計(jì)再度戛然而止豆包大模型全面升級(jí),相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達(dá)發(fā)布 11 月簡(jiǎn)報(bào):快遞業(yè)務(wù)量、收入均同比增長(zhǎng),單票收入均下降SensorTower發(fā)11月中國(guó)手游全球收入排行榜 庫(kù)洛入榜“YO!原”千里來(lái)相會(huì) 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認(rèn)并調(diào)查Microsoft 365 應(yīng)用出現(xiàn)“產(chǎn)品已停用”錯(cuò)誤SK 海力士被曝贏得博通HBM訂單,預(yù)計(jì)明年 1b DRAM 月產(chǎn)能將擴(kuò)大到 16~17 萬(wàn)片
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    OpenAI o1式思維鏈,開源模型也可以有,成功案例來(lái)了

    2024年09月18日 09:40:20   來(lái)源:機(jī)器之心公眾號(hào)

      北京時(shí)間9月13日午夜,OpenAI 發(fā)布了推理性能強(qiáng)大的 ο1系列模型。之后,各路研究者一直在嘗試挖掘 ο1卓越性能背后的技術(shù)并嘗試復(fù)現(xiàn)它。當(dāng)然,OpenAI 也想了一些方法來(lái)抑制窺探,比如有多名用戶聲稱曾試圖誘導(dǎo) ο1模型公布其思維過(guò)程,然后收到了 OpenAI 的封號(hào)威脅。

      盡管如此,不過(guò)三四天時(shí)間,就已經(jīng)有研究者宣稱已經(jīng)成功復(fù)現(xiàn)/開發(fā)出了與 ο1性能差不多的推理技術(shù),并且還不止一個(gè)!

      Llamaberry:教會(huì) AI 像聰明人一樣思考

      Llamaberry 的提出者是 Martin Bowling。他開發(fā)的項(xiàng)目包括 RAGMiner.dev 和 Replit;其中前者可以幫助用戶毫不費(fèi)力地將網(wǎng)站轉(zhuǎn)換成 Markdown、XML 或 JSON 等格式以便 RAG 和 LLM 應(yīng)用使用,而后者則是一個(gè)使用 AI 將想法變成代碼的項(xiàng)目。

      Llamaberry 的核心思路是使用思維鏈(CoT)來(lái)實(shí)現(xiàn)推理。這個(gè)名字自然源自代表 o1模型的 Strawberry(草莓)。

      HuggingFace地址:https://huggingface.co/spaces/martinbowling/Llamaberry

      什么是思維鏈?Bowling 在博客中打了個(gè)比方:「思維鏈推理就像是給 AI 一個(gè)筆記本來(lái)展示其工作過(guò)程。其中不僅僅是簡(jiǎn)單地給出答案,而是會(huì)帶領(lǐng)我們經(jīng)歷其思維過(guò)程!

      Llamaberry 能教會(huì) AI 透徹地思考,就像是一位人類專家攻克難題時(shí)那樣。

      具體來(lái)說(shuō),Llamaberry 是一個(gè)多輪思維鏈推理系統(tǒng)的實(shí)現(xiàn),其基于運(yùn)行在 Groq 上的 Llama3.170B 模型。

      多輪推理是關(guān)鍵

      多輪推理,顧名思義,就是讓模型在給出答案之前進(jìn)行多步思考,而不是一步給出答案。打個(gè)比方,這就像是看一位大廚從備菜到完成擺盤一步步地完成一道精美菜肴,而不是直接微波加熱預(yù)制菜。

      舉個(gè)示例:

      第1輪:AI 先嘗試解決當(dāng)前問(wèn)題。

      第2輪:AI 回顧第一次嘗試并盡力改進(jìn)或優(yōu)化其思維過(guò)程。

      第3輪:再進(jìn)行一輪反思和改進(jìn)。

      綜合結(jié)果:最后,將所有這些思考綜合到一起,得到一個(gè)連貫且合理的答案。

      下面展示了這個(gè)多輪過(guò)程的示意圖:

      可以看到,前一輪的輸出會(huì)成為后一輪的輸入,從而讓 AI 可在每個(gè)階段不斷完善其思維。最后,所有這些思考會(huì)凝練成一個(gè)合理的最終答案。就像看著一枚莓果逐漸成熟!

      如何實(shí)現(xiàn)

      下面將深入 Llamaberry 的實(shí)現(xiàn)細(xì)節(jié)。

      1.設(shè)置舞臺(tái)

      首先,我們需要為 AI 助手設(shè)置一些基本規(guī)則,代碼如下:

      initial_system_prompt="""YouareanAIassistantcapableofdetailed,step-by-stepthinking.Whenpresentedwithaquestionorproblem,breakdownyourthoughtprocessintoclear,logicalsteps.Foreachstep,explainyourreasoning.Concludewithafinalanswer.Usethefollowingmarkdownstructure:

      這就是提供給 AI 大廚的菜譜。它知道需要逐步分解其思考過(guò)程并解釋每個(gè)步驟,并且以 Markdown 格式將它們顯示出來(lái)。

      2.思考過(guò)程

      在每一輪推理中,都需要讓 AI 對(duì)問(wèn)題進(jìn)行思考。但在第一輪結(jié)束后,還需要求它思考之前已經(jīng)思考過(guò)的東西。這就像問(wèn)朋友,「嘿,還記得你之前說(shuō)過(guò)什么嗎?讓我們?cè)傧胍幌。?/p>

      下面是每一輪的生成方式:

      asyncdefgenerate_turn(query:str,previous_turns:list=None)->str:

      該函數(shù)是多輪推理的核心。它決定我們是在第一輪還是在后續(xù)輪,并以此構(gòu)建提示詞。對(duì)于后續(xù)輪,它會(huì)將之前所有推理輪都包含在上下文中,讓 AI 可以基于之前的思考進(jìn)行構(gòu)建。

      3.綜合結(jié)果

      經(jīng)過(guò)三輪思考之后,再讓 AI 檢視其所有思考并得出一個(gè)合理的最終答案。這就像是讓專家討論問(wèn)題,然后編寫最終報(bào)告。

      asyncdefsynthesize_turns(query:str,turns:list)->str:turns_text="\n\n".join([f"Turn{i+1}:\n{turn}"fori,turninenumerate(turns)])messages=[{"role":"system","content":synthesis_prompt},{"role":"user","content":f"OriginalQuery:{query}\n\nTurnsofReasoning:\n{turns_text}"}]returnawaitcall_llm(messages)

      這個(gè)綜合步驟至關(guān)重要,是 AI 綜合所有思考內(nèi)容凝練出最終答案的一步。

      單輪推理 vs 多輪推理

      Martin Bowling 在其博客中簡(jiǎn)單比較了單輪和多輪推理。

      這里他采用了一個(gè)簡(jiǎn)單示例,即詢問(wèn) AI:「人工智能對(duì)就業(yè)市場(chǎng)有什么潛在影響?」

      單輪推理:

      AI:Artificialintelligencewilllikelyhavesignificantimpactsonthejobmarket,including:

      使用 Llamaberry 執(zhí)行多輪推理:

      第1輪:

      AI:Let'sapproachthisstep-by-step:

      第2輪:

      AI:Let'srefineourthinking:

      第3輪:

      AI:Let'sdelvedeeper:

      綜合答案:

      AI:Aftercarefulconsiderationacrossmultipleturnsofreasoning,wecansynthesizeourthoughtsonthepotentialimpactsofartificialintelligenceonthejobmarket:

      可以看到,多輪方法能實(shí)現(xiàn)更加精細(xì)、全面的分析。這能從多個(gè)角度考慮問(wèn)題,優(yōu)化其思考,最后得到更加深思熟慮和全面詳細(xì)的答案。

      Bowling 表示,這樣的多輪推理在思考深度、自我提升、透明度、靈活性等方面都有巨大優(yōu)勢(shì),同時(shí)其還采用了 Markdown 格式,使其結(jié)果更容易閱讀和用于后續(xù)流程。

      因此,這種技術(shù)可讓 AI 進(jìn)入更多實(shí)際應(yīng)用場(chǎng)景,比如醫(yī)療診斷、法律分析、科學(xué)研究、商業(yè)策略、教育。當(dāng)然,在使用 Llamaberry 等多輪推理系統(tǒng)時(shí),也需要注意它們的局限和潛在的道德倫理問(wèn)題,比如偏見、計(jì)算成本、過(guò)度依賴和隱私問(wèn)題。

      如何使用 Llamaberry?

      Llamaberry 也很容易使用,點(diǎn)擊幾下就能擁有你自己的多輪推理系統(tǒng)。步驟如下:

      前往 Replit,點(diǎn)擊該鏈接獲取 Llamaberry 模板:https://replit.com/@MartinBowling/Llamaberry-Powered-By-Groq?v=1

      創(chuàng)建模板分支:點(diǎn)擊 Fork 按鈕創(chuàng)建你自己的 Llamaberry 項(xiàng)目副本。

      獲取你的 Groq API Key:注冊(cè) Groq 賬戶,獲取 API Key。

      設(shè)置環(huán)境:在你的分支 Replit 項(xiàng)目中,找到「Secrets」選項(xiàng)卡。添加一個(gè)新密鑰,密鑰為 GROQ_API_KEY,值是你的 Groq API 密鑰。

      運(yùn)行項(xiàng)目:單擊 Replit 界面頂部的 Run 按鈕。這將啟動(dòng) Llamaberry 應(yīng)用。

      開始實(shí)驗(yàn):應(yīng)用運(yùn)行起來(lái)后,你將看到一個(gè) Gradio 界面。你可以在其中輸入問(wèn)題并查看 Llamaberry 多輪推理的實(shí)際效果!并且輸出是簡(jiǎn)潔漂亮的 Markdown 格式!

      了解了 Llamaberry,下面來(lái)看另一個(gè)號(hào)稱實(shí)現(xiàn)了類 o1推理鏈的項(xiàng)目:g1。

      g1:實(shí)現(xiàn)類似 ο1的推理鏈

      g1這個(gè)項(xiàng)目來(lái)自 Benjamin Klieger,他是 Groq 的一位研究者。也因此,g1同樣基于 Groq,并且其也使用了 Llama3.170b 模型。

      不同于 Llamaberry 使用的多輪思維鏈推理,g1的策略是角色扮演、思維鏈提示 、格式化以及另一些提示技巧。并且,g1開源了。

      開發(fā)者宣稱 g1有70% 的時(shí)間能成功數(shù)出 Strawberry 中有多少個(gè) R,同時(shí)無(wú)需任何微調(diào)或少樣本技術(shù)。下面是其一次執(zhí)行過(guò)程:

      開發(fā)者 Klieger 表示,g1和 ο1一樣能讓 LLM 有能力「思考」和解決之前的領(lǐng)先模型難以應(yīng)對(duì)的邏輯問(wèn)題。但不同之處在于,g1會(huì)大方地展示所有推理 token。同時(shí),他也強(qiáng)調(diào)了 g1和 ο1在技術(shù)上的差異,其中后者使用了大規(guī)模強(qiáng)化學(xué)習(xí)來(lái)執(zhí)行思維鏈推理。而 g1則是通過(guò)發(fā)掘提示詞工程的潛力來(lái)幫助 LLM 解決簡(jiǎn)單的邏輯問(wèn)題,讓現(xiàn)有的開源模型也能受益于動(dòng)態(tài)推理鏈和優(yōu)化般的探索界面。

      g1的工作方式

      由 Llama3.170b 支持的 g1會(huì)創(chuàng)建一種動(dòng)態(tài)的思維鏈。

      在每個(gè)步驟中,LLM 可以選擇是繼續(xù)進(jìn)行另一個(gè)推理步驟,還是提供最終答案。每個(gè)步驟都有標(biāo)題,并且對(duì)用戶可見。

      系統(tǒng)提示詞中還會(huì)包含給 LLM 的提示。其提示策略如下:

      YouareanexpertAIassistantthatexplainsyourreasoningstepbystep.Foreachstep,provideatitlethatdescribeswhatyou'redoinginthatstep,alongwiththecontent.Decideifyouneedanothersteporifyou'rereadytogivethefinalanswer.RespondinJSONformatwith'title','content',and'next_action'(either'continue'or'final_answer')keys.USEASMANYREASONINGSTEPSASPOSSIBLE.ATLEAST3.BEAWAREOFYOURLIMITATIONSASANLLMANDWHATYOUCANANDCANNOTDO.INYOURREASONING,INCLUDEEXPLORATIONOFALTERNATIVEANSWERS.CONSIDERYOUMAYBEWRONG,ANDIFYOUAREWRONGINYOURREASONING,WHEREITWOULDBE.FULLYTESTALLOTHERPOSSIBILITIES.YOUCANBEWRONG.WHENYOUSAYYOUARERE-EXAMINING,ACTUALLYRE-EXAMINE,ANDUSEANOTHERAPPROACHTODOSO.DONOTJUSTSAYYOUARERE-EXAMINING.USEATLEAST3METHO***ODERIVETHEANSWER.USEBESTPRACTICES.

      對(duì)這些提示詞的詳細(xì)解釋請(qǐng)參閱原項(xiàng)目的 Prompt Breakdown 一節(jié)。這里就不贅述了,僅給出幾個(gè)示例,比如可以在提示詞中加入「include exploration of alternative answers」(探索其它答案)和「use at least3methods to derive the answer」(使用至少三種方法來(lái)得出答案)。

      這樣一來(lái),通過(guò)組合思維鏈以及嘗試多種方法、探索其它答案、質(zhì)疑之前草擬的解答、考慮 LLM 的局限性等策略,就能顯著提升 LLM 的推理能力。

      在數(shù) Strawberry 中有多少個(gè) R 這個(gè)經(jīng)典問(wèn)題上,無(wú)需任何訓(xùn)練,g1就能幫助 Llama3.170b 達(dá)到約70% 的準(zhǔn)確度(n=10, How many Rs are in strawberry?)。而如果不使用提示技術(shù),Llama3.170b 的準(zhǔn)確率為0%,ChatGPT-4o 的也只有30%。

      下面展示了另一個(gè)示例:0.9和0.11哪個(gè)更大?

      詳細(xì)的安裝過(guò)程和代碼請(qǐng)參閱原項(xiàng)目。

      最后,順便一提,另有開發(fā)者發(fā)布了 g1的分支版 Mult1,該版本的一大改進(jìn)是可使用多個(gè) AI 提供商來(lái)創(chuàng)建類似 o1的推理鏈

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。