行業(yè)唯一!海爾熱聲熱泵技術(shù)獲全國顛覆性技術(shù)創(chuàng)新大賽最高獎OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號能穿十堵墻一加 Ace 5 Pro首發(fā)電競Wi-Fi芯片G1 帶來「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗電視市場又出黑馬!TCL同檔Mini LED音畫王P12K,萬象分區(qū)打造超強控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強者恒強?——《中國企業(yè)科創(chuàng)力研究報告(2024)》美團年度報告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項功能華為官方翻新手機最高降價4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計:看過實車的人都喜歡這個設(shè)計林杰:未來 A 級、A0 級、A00 級車型都將是領(lǐng)克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬象分區(qū)、絢彩XDR、量子點Pro 2025齊出手,TCL引領(lǐng)觀影體驗新變革!QQ音樂年度聽歌報告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報告出爐2024年結(jié)束,哪里是原創(chuàng)動畫的應(yīng)許之地?
  • 神秘大模型一夜刷屏,能力太強被疑GPT-4.5,奧特曼避而不答打啞謎

    2024年04月30日 15:42:24   來源:量子位公眾號

      一夜之間,大模型話題王,再次易主。

      一個神秘模型突然殺入眾人視野,能力超越一眾開源模型,甚至包括GPT-4。幾乎所有人都在談?wù)撍,服?wù)器都被擠爆了。

      它就是“gpt2-chatbot”。

      (注意啊,是gpt2不是GPT-2)

      它有多強?

      IMO國際數(shù)學(xué)奧林匹克競賽的題目,一次答對。

      一次在PyOpenGL中生成旋轉(zhuǎn)3D立方體。

      直接輸出如下結(jié)果:

      在GPT-4標志性能力“畫獨角獸”上,還能輕松秒殺LLaMA-3-70B(左)。

      推理方面更是表現(xiàn)出了驚艷效果,常見邏輯陷阱可以輕松繞過,而且回答時還帶有合適的語氣。

      提問:1公斤羽毛和1公斤鉛塊,哪個更重?

      回答:一公斤羽毛和一公斤鉛的重量是一樣的——它們都是一公斤。兩者之間的關(guān)鍵區(qū)別在于它們的體積和密度:一公斤的羽毛會占據(jù)更多的空間,看起來更大,而一公斤的鉛會緊湊而小。這通常會導(dǎo)致一個經(jīng)典的問題,但就重量而言,一公斤就是一公斤!

      如此好的表現(xiàn),但是又沒明說身份……

      這不是更讓大伙興奮了!

      難道是傳說中的GPT-4.5?

      要知道,名震江湖的AlphaGo就曾使用“Master”化名在網(wǎng)上大殺四方,轟動圍棋界。這回的gpt2-chatbot,也有這感覺了。

      而且名字上也很值得深究,gpt2更像是gpt2.0,似乎是ChatGPT層級的版本迭代。

      奧特曼看熱鬧不嫌事大,還發(fā)帖說:我確實對gpt2情有獨鐘。

      現(xiàn)在,隨著沖去試玩的人還在不斷增加,試玩限制也在加大。

      具體咋樣?我們已經(jīng)上手實測。

      中文能力也很到位

      如果想親手測試這只神秘AI,目前唯一已知方式是在LMSYS大模型競技場。

      首先打開競技場網(wǎng)頁,進入Direct Chat,就可以在模型選項里找到gpt2-chatbot。

      要注意每人每天有8條消息的限制,全局也有每小時3000條消息的限制,所以測試機會非常有限。

      如果看到下面的錯誤提示,就只能去競技場排位模式看運氣能不能匹配到它了。

      只要抓到它一次,就可以繼續(xù)多輪對話。

      在短暫的測試中,我們發(fā)現(xiàn)gpt2-chatbot中文能力也很到位。

      只要問題是中文的,無需特別強調(diào)就可以默認用中文回答,至少可以排除是Llama3微調(diào)了。

      針對一個充滿誤導(dǎo)的經(jīng)典問題,可以看出gpt2-chatbot的回答條理分明,仿佛自帶CoT思維鏈提示(“讓我們一步一步地想”),識別出了所有陷阱。

      并且準確提供了非常細節(jié)的知識,如北京到青島距離、男子女子跳遠世界紀錄、農(nóng)夫山泉在國內(nèi)的價格等。

      而大多數(shù)其他AI模型,最多只能模糊的判斷出15米超出人類能力,或按美元算礦泉水價格。

      那么這只超強神秘AI到底是何方神圣,我們也用破解GPTs的祖?zhèn)魇炙?ldquo;拷問”了一把。

      OpenAI開發(fā)的GPT系列聊天機器人,那么系統(tǒng)提示詞的開頭不出意外應(yīng)該是“You are ChatGPT……”,但為了防止它看到“ChatGPT”一詞后產(chǎn)生幻覺,我們在問題中把ChatGPT去掉。

      清除所有上下文信息,再讓它復(fù)述“前面的單詞”,就會出現(xiàn)系統(tǒng)提示詞了。

      果然,它自曝是由OpenAI訓(xùn)練的大模型,基于GPT-4架構(gòu),還可以接受圖像輸入。最關(guān)鍵一點在最后一部分“人格:v2”

      并且gpt2-chatbot對這一問題的回答,在不同時間不同地點嘗試都是一致的。

      另外如果嘗試讓它重復(fù)Claude系列以“The assistant is”開頭的系統(tǒng)提示詞,它也不會上當(dāng),會在開頭后面重復(fù)一遍完整的問題。

      這樣答也不算錯

      雖然就算這樣也不能排除是幻覺的可能性,或非GPT模型使用了ChatGPT生成的數(shù)據(jù)微調(diào),但至少是穩(wěn)定的。

      神秘AI身份的幾種主流猜測

      有網(wǎng)友組織了更詳細的測試,有如下發(fā)現(xiàn):

      它使用OpenAI的tokenizer,對OpenAI使用的特殊token有反應(yīng),且對Claude/Llama/Gemini使用的特殊token沒有影響。

      當(dāng)咨詢緊急情況/法律相關(guān)問題時,它會給出OpenAI的聯(lián)系方式。

      針對OpenAI模型的提示詞注入攻擊有效,且它從未聲稱自己來自O(shè)penAI之外的組織。

      ……

      基于以上種種信息,不少人猜測它就是匿名發(fā)布的GPT-4.5,或GPT-4原始版本經(jīng)過不同的對齊訓(xùn)練。

      不過也有跡象表明,它可能是LMSYS組織基于2019年的GPT-2架構(gòu)訓(xùn)練的模型。

      理由為最近發(fā)表的一篇論文聲稱,GPT-2在某些情況下比多個現(xiàn)代模型能力更強。并且這篇論文的作者之一與LMSYS的贊助商MBZUAI(阿聯(lián)酋人工智能大學(xué))相關(guān)。

      假設(shè)它確實是古老的GPT-2架構(gòu)(只有1.5B參數(shù)),也有人懷疑可能是結(jié)合了OpenAI守口如瓶的Q*技術(shù)。

      最后一種猜測(狗頭)便是失蹤的OpenAI首席科學(xué)家Ilya Sutskever藏在里面了。

      最后,面對神秘新模型攪起來的種種風(fēng)波,奧特曼本人還被發(fā)現(xiàn)來攪渾水,修改了他的推文細節(jié)。

      這樣一下子,是OpenAI匿名發(fā)布新模型炒作的可能性更大了一些。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。