神秘大模型一夜刷屏，能力太強被疑GPT-4.5，奧特曼避而不答打啞謎

2024年04月30日 15:42:24 來源：量子位公眾號

　　一夜之間，大模型話題王，再次易主。

　　一個神秘模型突然殺入眾人視野，能力超越一眾開源模型，甚至包括GPT-4。幾乎所有人都在談?wù)撍�，服�?wù)器都被擠爆了。

　　它就是“gpt2-chatbot”。

　　(注意啊，是gpt2不是GPT-2)

　　它有多強?

　　IMO國際數(shù)學(xué)奧林匹克競賽的題目，一次答對。

　　一次在PyOpenGL中生成旋轉(zhuǎn)3D立方體。

　　直接輸出如下結(jié)果:

　　在GPT-4標志性能力“畫獨角獸”上，還能輕松秒殺LLaMA-3-70B(左)。

　　推理方面更是表現(xiàn)出了驚艷效果，常見邏輯陷阱可以輕松繞過，而且回答時還帶有合適的語氣。

　　提問:1公斤羽毛和1公斤鉛塊，哪個更重?

　　回答:一公斤羽毛和一公斤鉛的重量是一樣的——它們都是一公斤。兩者之間的關(guān)鍵區(qū)別在于它們的體積和密度:一公斤的羽毛會占據(jù)更多的空間，看起來更大，而一公斤的鉛會緊湊而小。這通常會導(dǎo)致一個經(jīng)典的問題，但就重量而言，一公斤就是一公斤!

　　如此好的表現(xiàn)，但是又沒明說身份……

　　這不是更讓大伙興奮了!

　　難道是傳說中的GPT-4.5?

　　要知道，名震江湖的AlphaGo就曾使用“Master”化名在網(wǎng)上大殺四方，轟動圍棋界。這回的gpt2-chatbot，也有這感覺了。

　　而且名字上也很值得深究，gpt2更像是gpt2.0，似乎是ChatGPT層級的版本迭代。

　　奧特曼看熱鬧不嫌事大，還發(fā)帖說:我確實對gpt2情有獨鐘。

　　現(xiàn)在，隨著沖去試玩的人還在不斷增加，試玩限制也在加大。

　　具體咋樣?我們已經(jīng)上手實測。

　　中文能力也很到位

　　如果想親手測試這只神秘AI，目前唯一已知方式是在LMSYS大模型競技場。

　　首先打開競技場網(wǎng)頁，進入Direct Chat，就可以在模型選項里找到gpt2-chatbot。

　　要注意每人每天有8條消息的限制，全局也有每小時3000條消息的限制，所以測試機會非常有限。

　　如果看到下面的錯誤提示，就只能去競技場排位模式看運氣能不能匹配到它了。

　　只要抓到它一次，就可以繼續(xù)多輪對話。

　　在短暫的測試中，我們發(fā)現(xiàn)gpt2-chatbot中文能力也很到位。

　　只要問題是中文的，無需特別強調(diào)就可以默認用中文回答，至少可以排除是Llama3微調(diào)了。

　　針對一個充滿誤導(dǎo)的經(jīng)典問題，可以看出gpt2-chatbot的回答條理分明，仿佛自帶CoT思維鏈提示(“讓我們一步一步地想”)，識別出了所有陷阱。

　　并且準確提供了非常細節(jié)的知識，如北京到青島距離、男子女子跳遠世界紀錄、農(nóng)夫山泉在國內(nèi)的價格等。

　　而大多數(shù)其他AI模型，最多只能模糊的判斷出15米超出人類能力，或按美元算礦泉水價格。

　　那么這只超強神秘AI到底是何方神圣，我們也用破解GPTs的祖?zhèn)魇炙?ldquo;拷問”了一把。

　　OpenAI開發(fā)的GPT系列聊天機器人，那么系統(tǒng)提示詞的開頭不出意外應(yīng)該是“You are ChatGPT……”，但為了防止它看到“ChatGPT”一詞后產(chǎn)生幻覺，我們在問題中把ChatGPT去掉。

　　清除所有上下文信息，再讓它復(fù)述“前面的單詞”，就會出現(xiàn)系統(tǒng)提示詞了。

　　果然，它自曝是由OpenAI訓(xùn)練的大模型，基于GPT-4架構(gòu)，還可以接受圖像輸入。最關(guān)鍵一點在最后一部分“人格:v2”。

　　并且gpt2-chatbot對這一問題的回答，在不同時間不同地點嘗試都是一致的。

　　另外如果嘗試讓它重復(fù)Claude系列以“The assistant is”開頭的系統(tǒng)提示詞，它也不會上當(dāng)，會在開頭后面重復(fù)一遍完整的問題。

　　△這樣答也不算錯

　　雖然就算這樣也不能排除是幻覺的可能性，或非GPT模型使用了ChatGPT生成的數(shù)據(jù)微調(diào)，但至少是穩(wěn)定的。

　　神秘AI身份的幾種主流猜測

　　有網(wǎng)友組織了更詳細的測試，有如下發(fā)現(xiàn):

　　它使用OpenAI的tokenizer，對OpenAI使用的特殊token有反應(yīng)，且對Claude/Llama/Gemini使用的特殊token沒有影響。

　　當(dāng)咨詢緊急情況/法律相關(guān)問題時，它會給出OpenAI的聯(lián)系方式。

　　針對OpenAI模型的提示詞注入攻擊有效，且它從未聲稱自己來自O(shè)penAI之外的組織。

　　……

　　基于以上種種信息，不少人猜測它就是匿名發(fā)布的GPT-4.5，或GPT-4原始版本經(jīng)過不同的對齊訓(xùn)練。

　　不過也有跡象表明，它可能是LMSYS組織基于2019年的GPT-2架構(gòu)訓(xùn)練的模型。

　　理由為最近發(fā)表的一篇論文聲稱，GPT-2在某些情況下比多個現(xiàn)代模型能力更強。并且這篇論文的作者之一與LMSYS的贊助商MBZUAI(阿聯(lián)酋人工智能大學(xué))相關(guān)。

　　假設(shè)它確實是古老的GPT-2架構(gòu)(只有1.5B參數(shù))，也有人懷疑可能是結(jié)合了OpenAI守口如瓶的Q*技術(shù)。

　　最后一種猜測(狗頭)便是失蹤的OpenAI首席科學(xué)家Ilya Sutskever藏在里面了。

　　最后，面對神秘新模型攪起來的種種風(fēng)波，奧特曼本人還被發(fā)現(xiàn)來攪渾水，修改了他的推文細節(jié)。

　　這樣一下子，是OpenAI匿名發(fā)布新模型炒作的可能性更大了一些。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

神秘大模型一夜刷屏，能力太強被疑GPT-4.5，奧特曼避而不答打啞謎

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

專題

神秘大模型一夜刷屏，能力太強被疑GPT-4.5，奧特曼避而不答打啞謎

擴展閱讀

神秘大模型一夜刷屏，能力太強被疑GPT-4.5，奧特曼避而不答打啞謎