“客服來電”有詐?抖音客服上線“驗(yàn)證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達(dá)預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運(yùn)營商e&,展示全球首個(gè)固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運(yùn)營商11月成績單:用戶數(shù)據(jù)增幅放緩打造下一個(gè)英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢AI時(shí)代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance年末家電消費(fèi)觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進(jìn)展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型谷歌向投資者保證人工智能本月將迎來“驚人”表現(xiàn)多模態(tài)大模型引爆應(yīng)用場景 階躍星辰完成數(shù)億美元融資星動紀(jì)元發(fā)布端到端原生機(jī)器人大模型ERA-42 實(shí)現(xiàn)機(jī)器人復(fù)雜場景操作免費(fèi)模式強(qiáng)攻下,快手、抖音用“短劇VIP”反擊?
  • 首頁 > 云計(jì)算頻道 > 大模型

    OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙

    2024年12月23日 09:34:13   來源:字生命卡茲克公眾號

      今天凌晨2點(diǎn),OpenAI的12天直播,終于來到了最終章。

      奧特曼,也在一片圣誕的氣息中終于回歸。

      為大家?guī)砹俗詈蟮膲狠S大戲。

      OpenAI o3。

      又一次超群,又一次把模型的能力,推到了新的高度。

      也向全世界證明了,OpenAI,依然在鐵王座上牢不可摧。

      我也想起了OpenAI研究員在發(fā)布o(jì)1之前的那句話:

      “我們通往AGI的路上,已經(jīng)沒有任何阻礙了”

      之所以O(shè)penAI直接發(fā)布o(jì)3沒有o2,原因也挺簡單的。

      因?yàn)楦娦欧⻊?wù)提供商O2可能存在版權(quán)或商標(biāo)沖突,所以直接跳過了。。。

      直接到o3。

      而OpenAI直播一完,X上基本就沸騰了。

      o3的能力,對現(xiàn)在所有模型,幾乎都直接是降維打擊。

      看下o3的能力吧。

      一些粗的評測集簡單過一下。

      左邊的是軟件工程考試(SWE-Bench Verified),這就像是一個(gè)考寫程序的考試,比如你寫一個(gè)軟件要它快速、準(zhǔn)確,還不能有 bug(小錯(cuò)誤)。這是考察 o3是否能像一流的軟件工程師一樣寫出完美的代碼。

      o3的成績:71.7%,比o1還強(qiáng)了不少。

      右邊的那個(gè)基準(zhǔn)比較猛,Codeforces,一個(gè)全球著名的編碼競賽平臺。

      o3的得分是2727,這個(gè)得分,相當(dāng)于整個(gè)榜單的第175名,已經(jīng)超越了99.99%的人類了。

      o1的代碼能力已經(jīng)強(qiáng)到爆炸了,而o3,又向AGI的山頂,前進(jìn)了一大步。

      數(shù)學(xué)競賽AIEM2024和博士級科學(xué)考試GPQA Diamond。

      AIEM2024接近滿分,如果我沒記錯(cuò)的話,這應(yīng)該也是第一次AI能達(dá)到有AIEM接近滿分的水平。

      博士級科學(xué)考試有進(jìn)化,但沒數(shù)學(xué)和編程進(jìn)化的這么猛。

      接下來的這個(gè)數(shù)學(xué)基準(zhǔn)比較有趣一點(diǎn)。

      FrontierMath,Epoch AI 開發(fā)的一個(gè)數(shù)學(xué)基準(zhǔn)測試,由60多位頂尖數(shù)學(xué)家的合作開發(fā),旨在評估人工智能在高級數(shù)學(xué)推理方面的能力。

      而且為了避免數(shù)據(jù)污染,所有的題目都是原創(chuàng)的且從來沒有發(fā)布過的新題目。

      之前GPT-4和 Gemini1.5Pro這種模型去評估的時(shí)候,成功功率不足2%,與其他傳統(tǒng)數(shù)學(xué)基準(zhǔn)(如 GSM-8K 和 MATH)中超過90%的成功率形成鮮明對比。

      而這一次,o3直接達(dá)到了25.2。

      當(dāng)各大其他模型都還在卷傳統(tǒng)數(shù)學(xué)基準(zhǔn)的時(shí)候,o3真的已經(jīng)進(jìn)入了另一個(gè)世界了。。。

      就像大家還在大斗師階段互相卷,你是五星大斗師,我是八星大斗師。

      兩者爭論不休,正準(zhǔn)備要比試比試,忽然就看到一個(gè)斗宗強(qiáng)者踏空而行,留下一地的臥槽。

      這還比個(gè)鬼。

      然后,就是我覺得,整個(gè)基準(zhǔn)里,最有趣的一個(gè)基準(zhǔn)了:

      ARC-AGI。

      先說說這是個(gè)啥玩意。

      ARC-AGI于2019年首次提出,旨在通過一系列抽象和推理任務(wù)來測試AI系統(tǒng)的能力。

      主要是因?yàn)閭鹘y(tǒng)的技能測量方法并不能有效代表智能,因?yàn)樗鼈兺蕾囉谙惹爸R和經(jīng)驗(yàn),而真正的智能應(yīng)體現(xiàn)在廣泛的適應(yīng)能力和通用性上。

      所以,ARC-AGI誕生了,里面的這些任務(wù)要求AI識別模式并解決新問題,每個(gè)任務(wù)由輸入輸出示例組成。這些任務(wù)以網(wǎng)格形式呈現(xiàn),每個(gè)方塊可以是十種顏色中的一種,網(wǎng)格的大小可以從1x1到30x30不等。參與者需要根據(jù)給定的輸入生成正確的輸出,測試其推理和抽象能力。

      可以簡單的理解成,找規(guī)律。

      大概就是這樣的。

      非常的難且抽象。

      過去幾代模型的評分在此:

      * GPT-2(2019):0%

      * GPT-3(2020):0%

      * GPT-4(2023):2%

      * GPT-4o (2024):5%

      * o1-preview (2024):21%

      * o1(2024):32%

      * o1Pro (2024): ~50%

      但是今天,o3的分?jǐn)?shù),達(dá)到了恐怖的87.5%。

      從0%到5%,整整花了5年的時(shí)間,而如今,從5%到87.5%,僅僅只花了半年。

      而對應(yīng)的,人類的閾值分?jǐn)?shù),是85%。

      我們通往AGI的路上,已經(jīng)沒有任何阻礙了。

      不過o3強(qiáng)歸強(qiáng),但是又是一個(gè)期貨,OpenAI目前只對紅隊(duì)開放,如果是巨佬的話,可以去申請?jiān)囋嚒?/p>

      目前不知道o3什么時(shí)候放出,但是OpenAI又基于o3,訓(xùn)了3個(gè)小尺寸的o3模型。

      目前o3-mimi,預(yù)估在1月底可以對外開放,但是感覺到時(shí)候,肯定又是pro會員專屬的模型了。

      我越來越期待,2025年AI行業(yè)的進(jìn)化了。

      推理模型、Agent、AI硬件、世界模型。

      每一個(gè)都是比這個(gè)中間態(tài)的2024,都更讓人興奮的東西。

      2025,必是AI行業(yè),真正的星辰大海。

      我們也在最后,回顧一下這12天的直播吧。

      Day1:滿血o1上線,ChatGPT Pro會員上線,o1pro推出。

      Day2:基于o1的強(qiáng)化微調(diào)。

      Day3:Sora正式發(fā)布。

      Day4:ChatGPT Canvas全員開放以及小功能更新。

      Day5:給蘋果站臺,宣傳蘋果全系接入GPT。

      Day6:4o的實(shí)時(shí)視頻理解上線。

      Day7:ChatGPT發(fā)布新建文件夾“項(xiàng)目”功能。

      Day8:ChatGPT Search全量開放,搜索體驗(yàn)大幅優(yōu)化。

      Day9:發(fā)布了o1的API、更新了實(shí)時(shí)語音的API、發(fā)布了偏好微調(diào)能力(PFT)。

      Day10:物理意義上的可以給ChatGPT打電話了。

      Day11:炒冷飯,ChatGPT 桌面版能讀到別的應(yīng)用。

      Day12:OpenAI o3正式發(fā)布。

      這12天,稍微有點(diǎn)驚喜的日子大概只有2、3天,其他都是垃圾時(shí)間。

      還好,今天的大貨,補(bǔ)上了之前的陰霾。

      最后,還是忍不住感嘆一聲。

      這12天,像一場漫長的馬拉松。

      我們經(jīng)歷了深夜中數(shù)不勝數(shù)的垃圾時(shí)間。

      卻也迎來了最后的高光時(shí)刻。

      這感覺。

      還挺AI的。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。