冰雪大世界盛大開園,美的空調橫跨50℃打造“東北夏威夷”臺灣小土豆勇闖冰雪大世界,美的空調真暖快車成為最熱打卡點京東iPhone 16系列年底大放價!至高補貼1200元價格低過11.11新一季圓滿假期結伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動“萬象分區(qū)”引領電視行業(yè)新潮流,TCL這步棋下得著實漂亮!百度職業(yè)院校專屬項目“大國智匠”引領職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設計大賽,全國高校學子展現(xiàn)卓越編程實力碼蹄杯人物特寫:四位編程少年的追夢之旅金倉數(shù)據(jù)庫四項成果入選2024星河案例亞信科技參加2024通信產業(yè)大會 CTO歐陽曄博士等做主題演講用專業(yè)贏得信賴 美好蘊育潤康引領孕產營養(yǎng)新風尚解鎖新成就!愛企查“度秘書”粉絲突破10萬!英特爾終止x86S架構計劃:純64位設計再度戛然而止豆包大模型全面升級,相關概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達發(fā)布 11 月簡報:快遞業(yè)務量、收入均同比增長,單票收入均下降SensorTower發(fā)11月中國手游全球收入排行榜 庫洛入榜“YO!原”千里來相會 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認并調查Microsoft 365 應用出現(xiàn)“產品已停用”錯誤SK 海力士被曝贏得博通HBM訂單,預計明年 1b DRAM 月產能將擴大到 16~17 萬片
  • 首頁 > 云計算頻道 > 大模型

    OpenAI o1太貴?那就自己做一個,純提示方法讓普通LLM進化出復雜推理能力

    2024年11月08日 09:53:18   來源:新智元公眾號

      近日,一篇文章在推特上爆火,利用純提示方法讓普通LLM搖身一變,成為具備復雜推理能力的OpenAI o1。

      九月份,OpenAI o1正式登場。

      作為新一代的老大哥,o1系列專注于復雜的推理任務,一經推出也是直接屠榜了大模型競技場。

      在下面這些難度較大的數(shù)學、編碼、科學等任務中,o1不僅比GPT-4o強上一大截,甚至比人類專家還要兇猛。

      OpenAI對此曾表示:通往AGI的路上,已經沒有任何阻礙。

      ——但其實還是有的,那就是新東西通常太貴。

      o1-preview的每百萬輸入token為15美元,每百萬輸出token為60美元,而對位的GPT-4o分別是5美元和15美元。

      本來GPT-4o就不便宜,現(xiàn)在想體驗更強大的推理能力則需要再付出幾倍的成本。

      嫌OpenAI o1太貴?那就自己做一個!

      近日,一篇利用純提示方法讓普通LLM變身成為OpenAI o1的文章在推特上爆火。

      動態(tài)思維鏈(Dynamic Chain of Thoughts)+ 反思(refection)+ 語言強化學習(verbal reinforcement),

      讓沒有經過特殊推理訓練的GPT-4o、價格更便宜的Claude3.5Sonnet,甚至是開源免費的Llama3.18B,在復雜問題的推理上都獲得了相當大的提升!

      在嚴格的學術基準測試中,「開掛」之后的Claude3.5Sonnet反超GPT-4o,和o1打平。

      ——不是o1玩不起,而是開掛更有性價比。

      怎樣才能把Claude3.5調教成比博士還要強的o1呢?

      在OpenAI o1的官網中有下面這樣一個范例,從密文和明文的對應中找關系,然后解碼一段新的密文。

      老實說,如果沒刷過這類題,小編估計一時半會兒也找不著北。

      o1作對這道題花費了5秒的思考時間,在官網中點開下拉可以看到它的推理過程,真是混沌又守序。

      時而規(guī)規(guī)矩矩思考,找出不錯的方向,又經常馬馬虎虎,與正確道路失之交臂,兜兜轉轉,跟人類很像。

      ——模擬這個思考的過程,也許就是關鍵。

      make LLM smarter

      首先,OpenAI o1所代表的reasoning model具有以下能力:

      邏輯思考

      作出推論

      解決復雜問題

      根據(jù)可用信息做出明智的決策

      這些能力對于AI未來的發(fā)展至關重要:

      Deeper Understanding:真正的推理能力表明LLM可以超越模式匹配,對世界有更深入的理解。

      Problem-Solving:可以更有效地解決復雜領域的問題。

      Decision-Making:幫助人類進行復雜的決策過程。

      Generalization:幫助LLM在out of distribution任務上表現(xiàn)得更好,增強它們的泛化性。

      Practical Applications:推理能力可以加速科學發(fā)現(xiàn),加強政策制定,并改善教育和醫(yī)療保健領域的個性化服務,比如AI Agent,可以獲取時間序列數(shù)據(jù)的數(shù)據(jù)集,找到一個更難的模式來識別,以此準確預測未來。

      對于o1來說,如果花費更長的訓練或者推理時間,其性能還會不斷提升。

      那么,對于其他LLM來說,是否也能如此?

      在閱讀了一些論文之后,作者決定創(chuàng)建新的提示范式,結合動態(tài)思維鏈、反思和語言強化,并通過實驗來驗證提示的效果。

      深入細節(jié)

      動態(tài)CoT、反思和語言強化學習的組合框架創(chuàng)建了一個高度自適應和響應迅速的問題解決AI系統(tǒng)。

      這個過程從Dynamic CoT生成初始推理路徑開始,然后通過Reflection機制對其進行評估和完善。

      在每個反思階段之后,模型會以獎勵分數(shù)的形式得到強化,從而指導未來的推理步驟。

      這種循環(huán)過程使模型能夠迭代改進輸出,適應不斷變化的條件,并有效地響應復雜的問題結構。

      比如在自主導航等多階段決策任務的場景中,模型可能首先使用Dynamic CoT探索路徑。

      當它遇到障礙或環(huán)境變化時,反射機制將允許它重新評估策略,而強化分數(shù)則為如何調整其行動提供指導。

      這樣的AI系統(tǒng)不僅能從操作中學習,而且隨著時間的推移不斷提高其推理能力,尤其在動態(tài)的真實應用中。

      以上穿插的一組截圖展示了LLM的推理過程。

      基準測試

      只是能夠回答一些經典問題,例如「計算單詞strawberry中 r 的數(shù)量」和「比較0.9和0.11哪個更大」,還不足以證明這套提示方法的功效——盡管大部分LLM連這樣的問題都搞不定。

      作者為此創(chuàng)建了用于基準測試評估的數(shù)據(jù)集,包含來自JEE(Joint Entrance Examination)Advanced和UPSC prelims的問題。

      JEE Advanced被認為是全球最難的本科入學考試之一,面向有志于加入印度理工學院(IIT)的學生。

      UPSC公務員考試是世界上競爭最激烈的考試之一,吸引了希望在印度官僚機構擔任管理人員的候選人,常識試卷測試不同領域的知識。

      這些問題非常嚴格,測試深入的概念理解、解決問題的能力以及跨多個領域(如物理、數(shù)學、化學、社會科學等)的概念應用。

      作者使用腳本來進行這項評估:

      腳本使用Streamlit創(chuàng)建一個Web應用程序,使用開源模型Groq API和閉源模型(如 gpt4o、o1和Claude)的API生成響應。

      腳本包括一個詳細的系統(tǒng)提示(以「You are an AI assistant that step by step explain your reasoning and explaining your reasoning ...」開頭),用于指導模型的推理過程。

      prompt指示AI使用動態(tài)思維鏈(CoT)、反射和語言強化學習技術。

      AI將其推理分解為清晰的步驟,每個步驟都有標題、內容、置信度分數(shù)和思考時間。

      每3個步驟,AI會進行一次自我反思,考慮潛在的偏見和不同的觀點。

      腳本在允許最終答案之前至少執(zhí)行15個步驟,以確保對給定查詢進行全面分析。

      腳本修改自Benjamin Klieger的版本:https://github.com/bklieger-groq/g1

      作者修改了其實現(xiàn)的邏輯,用戶會向AI系統(tǒng)提供一個問題,AI需要足夠的時間以各種方式思考這個問題,最終解決這個問題——模仿人類如何思考。

      結果表明,動態(tài)CoT、反射和語言強化學習技術的應用顯著提高了大多數(shù)模型的性能,尤其是Claude Sonnet和Llama3.18b。

      滿分48分,使用提示方法的Claude Sonnet拿到了最高分(40分),在數(shù)學、物理和化學問題上表現(xiàn)出色。Llama3.18b(33分)和GPT-4o(36分)也獲得了明顯改進。

      而不使用提示技術的o1得分為39分,確實具有很強的內在解決問題的能力,——但開掛的Claude取得了勝利。

      IMO2023基準測試

      OpenAI表示o1能夠在IMO上獲得83%的分數(shù)。

      作為對比,使用本文提示技術的Claude3.5Sonnet在首次測試中達到了50%,而如果多次測試就會反超o1。

      Putnam數(shù)學競賽

      The William Lowell Putnam Mathematical Competition,俗稱Putnam競賽,是一項面向美國和加拿大本科生的極具挑戰(zhàn)性的數(shù)學競賽。

      比賽由兩個3小時的部分組成,每個部分有6個問題。每道題10分,最高120分。

      Putnam競賽被廣泛認為是世界上最難的本科數(shù)學競賽之一。

      參賽者成績的中位數(shù)通常為0分或1分,這意味著超過一半的人基本上啥也沒做出來。

      而在85年的競賽歷史中,只出現(xiàn)過五次滿分。

      作者從2013到2023年的試卷中選取了28道題目:

      結果Llama3.170B、Claude Sonnet和o1mini解決了14個問題,o1模型解決了13個問題,GPT-4o解決了9個問題。

      可以看出,Claude Sonnet3.5使用本文的提示技術,能夠在需要更好推理能力的問題中勝過o1模型。

      應用

      LLM就像一個閱讀了數(shù)百萬本書的人,但它不知道如何利用這些數(shù)據(jù)來解決問題,這就是提示技術的用武之地。

      人們可以利用這種推理能力來構建強大的工作流程自動化,以解決IT、網絡安全、汽車等各個領域的問題。

      組織可以使用較小的開源模型來替代GPT-4o等成本較高的模型,用于需要復雜推理能力來解決的任務。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網大會——工業(yè)互聯(lián)網標識解析專題論壇在沈陽成功舉辦。