首頁(yè) > 云計(jì)算頻道 > 大模型

微軟推出iPhone能跑的ChatGPT級(jí)模型，網(wǎng)友：OpenAI得把GPT-3.5淘汰了

2024年04月23日 16:30:06 夢(mèng)晨 來(lái)源：量子位 | 公眾號(hào)

　　Llama 3發(fā)布剛幾天，微軟就出手截胡了?

　　剛剛發(fā)布的Phi-3系列小模型技術(shù)報(bào)告，引起AI圈熱議。

　　其中僅3.8B參數(shù)的Phi-3-mini在多項(xiàng)基準(zhǔn)測(cè)試中超過(guò)了Llama 3 8B。

　　為了方便開源社區(qū)使用，還特意設(shè)計(jì)成了與Llama系列兼容的結(jié)構(gòu)。

　　微軟這次打出“手機(jī)就能直接跑的小模型”的旗號(hào)，4bit量化后的phi-3-mini在iPhone 14 pro和iPhone 15使用的蘋果A16芯片上跑到每秒12 token。

　　這意味著，現(xiàn)在手機(jī)上能本地運(yùn)行的最佳開源模型，已經(jīng)做到ChatGPT水平。

　　在技術(shù)報(bào)告中還玩了一把花活，讓phi-3-mini自己解釋為什么構(gòu)建小到手機(jī)能跑的模型很令人驚嘆。

　　除了mini杯之外，小杯中杯也一并發(fā)布：

　　Phi-3-small，7B參數(shù)，為支持多語(yǔ)言換用了tiktoken分詞器，并額外增加10%多語(yǔ)種數(shù)據(jù)。

　　Phi-3-medium，14B參數(shù)，在更多數(shù)據(jù)上訓(xùn)練，多數(shù)測(cè)試中已超越GPT-3.5和Mixtral 8x7b MoE。

　　(大杯他們目前不打算做)

　　作者陣容一看也不簡(jiǎn)單，一眼掃過(guò)去MSRA和MSR雷蒙德團(tuán)隊(duì)都投入了不少人。

　　那么，Phi-3系列到底有什么獨(dú)特之處呢?

　　根據(jù)技術(shù)報(bào)告中披露，其核心秘訣就在于數(shù)據(jù)。

　　去年團(tuán)隊(duì)就發(fā)現(xiàn)，單純堆砌參數(shù)量并不是提升模型性能的唯一路徑。

　　反而是精心設(shè)計(jì)訓(xùn)練數(shù)據(jù)，尤其是利用大語(yǔ)言模型本身去生成合成數(shù)據(jù)，配合嚴(yán)格過(guò)濾的高質(zhì)量數(shù)據(jù)，反而能讓中小模型的能力大幅躍升。

　　也就是訓(xùn)練階段只接觸教科書級(jí)別的高質(zhì)量數(shù)據(jù)，Textbooks are all you need。

　　Phi-3也延續(xù)了這一思路，這次他們更是下了血本:

　　投喂了多達(dá)3.3萬(wàn)億token的訓(xùn)練數(shù)據(jù)(medium中杯是4.8萬(wàn)億)

　　大幅強(qiáng)化了數(shù)據(jù)的”教育水平”過(guò)濾

　　更多樣化的合成數(shù)據(jù)，涵蓋邏輯推理、知識(shí)問(wèn)答等多種技能

　　獨(dú)特的指令微調(diào)和RLHF訓(xùn)練，大幅提升對(duì)話和安全性

　　舉個(gè)例子，比如某一天足球比賽的結(jié)果可能對(duì)于大模型是良好的訓(xùn)練數(shù)據(jù)，但微軟團(tuán)隊(duì)刪除了這些加強(qiáng)知識(shí)的數(shù)據(jù)，留下更多能提高模型推理能力的數(shù)據(jù)。

　　這樣一來(lái)，對(duì)比Llama-2系列，就可以用更小的參數(shù)獲得更高的MMLU測(cè)試分?jǐn)?shù)了。

　　不過(guò)小模型畢竟是小模型，也不可避免存在一些弱點(diǎn)。

　　微軟透露，模型本身參數(shù)中沒能力存儲(chǔ)太多事實(shí)和知識(shí)，這一點(diǎn)也可以從TriviaQA測(cè)試分?jǐn)?shù)低看出來(lái)。

　　緩解辦法就是聯(lián)網(wǎng)接入搜索引擎增強(qiáng)。

　　總之，微軟研究院團(tuán)隊(duì)是鐵了心了要在小模型+數(shù)據(jù)工程這條路上走下去，未來(lái)還打算繼續(xù)增強(qiáng)小模型的多語(yǔ)言能力、安全性等指標(biāo)。

　　對(duì)于開源小模型超過(guò)ChatGPT這回事，不少網(wǎng)友都認(rèn)為壓力現(xiàn)在給到OpenAI這邊，需要趕快推出GPT-3.5的繼任者了。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會(huì)上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅(jiān)持質(zhì)價(jià)比不動(dòng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

微軟推出iPhone能跑的ChatGPT級(jí)模型，網(wǎng)友：OpenAI得把GPT-3.5淘汰了

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場(chǎng)：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國(guó)信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

專題

微軟推出iPhone能跑的ChatGPT級(jí)模型，網(wǎng)友：OpenAI得把GPT-3.5淘汰了

擴(kuò)展閱讀

微軟推出iPhone能跑的ChatGPT級(jí)模型，網(wǎng)友：OpenAI得把GPT-3.5淘汰了