國(guó)產(chǎn)模型炸裂登場(chǎng)，國(guó)外贊不絕口！OpenAI-o1級(jí)性能，免費(fèi)使用

2024年11月21日 09:38:12 來(lái)源：AIGC開放社區(qū)公眾號(hào)

　　昨晚，國(guó)產(chǎn)大模型平臺(tái)DeepSeek發(fā)布了，全新推理模型DeepSeek-R1-Lite預(yù)覽版。

　　這個(gè)模型的最大特色便是深度思維鏈推理，尤其是在數(shù)學(xué)、代碼以及各種復(fù)雜推理任務(wù)上，可以生成數(shù)萬(wàn)字的推理流程，讓用戶深度了解模型生成內(nèi)容的全過(guò)程。

　　例如，連GPT-4o等模型都搞錯(cuò)的9.11比9.9更大的“難題”，R1通過(guò)超長(zhǎng)思維鏈推理可以輕松搞定。

　　值得一提的是，R1在美國(guó)數(shù)學(xué)邀請(qǐng)賽AIME2024、MATH和Codeforces的測(cè)試數(shù)據(jù)分別是52.5、91.6、1450擊敗了OpenAI的o1預(yù)覽版，并且開源模型和API也將很快發(fā)布。

　　R1發(fā)布后得到了大量國(guó)外網(wǎng)友的贊揚(yáng)。有網(wǎng)友表示，DeepSeek發(fā)布了R1，OpenAI將迎來(lái)勁敵，迫使他們盡快發(fā)布o(jì)1滿血版。

　　了不起的工作!能超越 o1-preview 是一個(gè)巨大的成就!

　　這太不可思議了!如果你只是用這個(gè)推理模型來(lái)處理推理任務(wù)，并為其他事情使用傳統(tǒng)的語(yǔ)言模型，那么一天50條消息對(duì)于普通人來(lái)說(shuō)確實(shí)已經(jīng)足夠了。干得好，來(lái)自巴西的祝賀!

　　我剛剛用高度復(fù)雜的研究問(wèn)題測(cè)試了 @deepseek_ai 發(fā)布的深度思考模型。它的思考和推理過(guò)程讓我大為震撼!在我看來(lái)，這達(dá)到了高級(jí)博士水平，而且在某些情況下，它的推理遠(yuǎn)勝于 o1-preview!我感到敬畏。

　　非常好!期待你們的API。

　　天啊，中國(guó)做到了!DeepSeek 剛剛發(fā)布了DeepSeek-R1-Lite-Preview，他們的推理模型，表現(xiàn)和 o1-preview* 一樣好，甚至更好。

　　我用一些只有 o1-preview能回答的問(wèn)題測(cè)試了它，它完美解決了。并且即將開源，如果真的發(fā)生，這將對(duì)整個(gè)AI行業(yè)產(chǎn)生巨大沖擊。

　　能夠看到 DeepSeek 的思維推理過(guò)程真的太好了。

　　我試用了這個(gè)模型，在某些任務(wù)的編碼方面，似乎仍然不如 o1-preview。但我覺(jué)得它的數(shù)學(xué)能力更強(qiáng)。整體表現(xiàn)差不多，我真的希望OpenAI 現(xiàn)在發(fā)布 o1-full版本。

　　實(shí)時(shí)透明的思維過(guò)程非常重要!我們可以看到它的思考過(guò)程，這真是令人驚嘆。

　　能有另一個(gè)大腦一起工作總是很棒的。干得好!

　　非常棒!

　　我非常震驚。可見的思維鏈對(duì)于開放式 AI 研究來(lái)說(shuō)是一個(gè)重大突破。祝賀你們!

　　太瘋狂了，什么時(shí)候開放API?

　　也有網(wǎng)友放上了R1的測(cè)試視頻:由 @deepseek_ai 開源的 R1模型輕松地‘思考’了100多秒，并生成了超過(guò)7500個(gè)連貫的tokens!

　　是時(shí)候認(rèn)真對(duì)待開源模型了。DeepSeek 剛剛通過(guò)它的新模型 R1-lite 改變了游戲規(guī)則。通過(guò)像 o1一樣擴(kuò)展測(cè)試時(shí)的計(jì)算，并且‘思考’時(shí)間更長(zhǎng)(我試的時(shí)候大約5分鐘)，它在 MATH 基準(zhǔn)測(cè)試中達(dá)到了91.6% 的最先進(jìn)水平!感覺(jué)都去試試吧!

　　目前，DeepSeek還沒(méi)有開放R1的論文，但可以免費(fèi)在線使用了，每天提供50次深度思維推理。就像上面網(wǎng)友說(shuō)的，只要不是專門搞科研、編程開發(fā)，這足夠用了。

　　「AIGC開放社區(qū)」體驗(yàn)了一下確實(shí)推理流程很強(qiáng)且透明化。我們就問(wèn)一個(gè)非常經(jīng)典，讓無(wú)數(shù)大模型頭疼的問(wèn)題吧——9.11和9.9到底哪個(gè)大。

　　先試了一下GPT-4o mini，依然給出了9.11比9.9更大的錯(cuò)誤答案，問(wèn)多少次都這樣。

　　在試試R1，在沒(méi)開啟超強(qiáng)思維鏈的情況下，就已經(jīng)回答正確了9.9更大。

　　開啟深度思考試一下，R1會(huì)把所有的思考和不斷反思流程展現(xiàn)出來(lái)，非常長(zhǎng)，最終結(jié)果還是9.9。

　　目前，R1每天免費(fèi)提供50次深度思維鏈推理，有興趣的小伙伴可以試試。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信