今天凌晨,微軟研究院開源了目前最強小參數(shù)模型——phi-4。
去年12月12日,微軟首次展示了phi-4,參數(shù)只有140億性能卻極強,在GPQA研究生水平、MATH數(shù)學基準測試中,超過了OpenAI的GPT-4o,也超過了同類頂級開源模型Qwen2.5-14B和Llama-3.3-70B。
在美國數(shù)學競賽AMC的測試中phi-4更是達到了91.8分,超過了Gemini Pro1.5、GPT-4o、Claude3.5Sonnet、Qwen2.5等知名開閉源模型,甚至整體性能可以與4050億參數(shù)的Llama-3.1媲美。
當時很多人就希望微軟開源這款超強的小參數(shù)模型,甚至還有人在HuggingFace上傳盜版的phi-4權(quán)重。現(xiàn)在,終于開源了,并且支持MIT許可證下商業(yè)用途。
連HuggingFace官推都來祝賀,phi-4面子不小。
2025年美好的開始!有史以來最好的14B模型!!!
140參數(shù)的模型在MMLU獲得84.8分,太瘋狂了。恭喜!
謝謝你的模型和許可證變更!真棒。
你們都是英雄,趕緊下起來吧!
我期待Phi-4在Azure上實現(xiàn)無服務器功能。什么時候會可用?
小參數(shù)模型非常好。
Phi的小參數(shù)對于創(chuàng)意寫作來說是非常驚人的。
哇,phi-4模型能在蘋果的M4Pro筆記本上,以每秒約12個tokens的速度流暢運行,這太棒了,感謝!
phi-4簡單介紹
phi-4能以如此小的參數(shù)在眾多測試基準中打敗著名開閉源模型,高質(zhì)量的合成數(shù)據(jù)發(fā)揮了重要作用。
與傳統(tǒng)的從網(wǎng)絡爬取的有機數(shù)據(jù)相比,高質(zhì)量的合成數(shù)據(jù)更具優(yōu)勢。合成數(shù)據(jù)能夠提供結(jié)構(gòu)化、逐步的學習材料,使得模型能夠更加高效地學習語言的邏輯與推理過程。例如,在數(shù)學問題的解答中,合成數(shù)據(jù)可以按照解題步驟逐步呈現(xiàn),幫助模型更好地理解問題的結(jié)構(gòu)與解題思路。
此外,合成數(shù)據(jù)能夠更好地與模型的推理上下文對齊,更接近于模型在實際應用中需要生成的輸出格式,這有助于模型在預訓練階段就適應實際應用場景的需求。例如,將網(wǎng)絡論壇中的事實信息改寫成類似 大模型交互的風格,使得這些信息在模型生成的對話中更加自然、合理。
phi-4的合成數(shù)據(jù)生成遵循多樣性、細膩性與復雜性、準確性和推理鏈等原則。涵蓋了50多種不同類型的合成數(shù)據(jù)集,通過多階段提示流程、種子策劃、改寫與增強、自我修訂等多種方法,生成了約4000億個未加權(quán)的 tokens。
除了合成數(shù)據(jù),phi-4還對有機數(shù)據(jù)進行了嚴格的篩選與過濾。研究團隊從網(wǎng)絡內(nèi)容、授權(quán)書籍和代碼庫等多渠道收集數(shù)據(jù),并通過兩階段過濾過程,提取出具有高教育價值和推理深度的種子數(shù)據(jù)。
這些種子數(shù)據(jù)為合成數(shù)據(jù)的生成提供了基礎,同時也直接用于預訓練,進一步豐富了模型的知識儲備。在篩選過程中,微軟采用了基于小分類器的過濾方法,從大規(guī)模網(wǎng)絡數(shù)據(jù)中挑選出高質(zhì)量的文檔。還針對多語言數(shù)據(jù)進行了專門的處理,確保模型能夠處理包括德語、西班牙語、法語、葡萄牙語、意大利語、印地語和日語在內(nèi)的多種語言。
預訓練方面,phi-4主要使用合成數(shù)據(jù)進行訓練,同時輔以少量的高質(zhì)量有機數(shù)據(jù)。這種數(shù)據(jù)混合策略使得模型能夠在學習推理和問題解決能力的同時,也能夠吸收豐富的知識內(nèi)容。
在中期訓練階段,phi-4將上下文長度從4096擴展到16384,以提高模型對長文本的處理能力。幫助模型進一步增加了對長文本數(shù)據(jù)的訓練,包括從高質(zhì)量非合成數(shù)據(jù)集中篩選出的長于8K 上下文的樣本,以及新創(chuàng)建的滿足4K 序列要求的合成數(shù)據(jù)集。
后訓練階段是 phi-4優(yōu)化模型的關鍵。微軟采用了監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)技術。在 SFT 階段,使用來自不同領域的高質(zhì)量數(shù)據(jù)生成的約8B tokens對預訓練模型進行微調(diào),學習率為10-6,并添加了40種語言的多語言數(shù)據(jù),所有數(shù)據(jù)均采用 chatml 格式。
DPO 技術則通過生成偏好數(shù)據(jù)來調(diào)整模型的輸出,使其更符合人類偏好。微軟還引入了關鍵tokens搜索(PTS)技術來生成DPO 對,該技術能夠識別對模型回答正確性有重大影響的關鍵tokens,并針對這些tokens創(chuàng)建偏好數(shù)據(jù),從而提高模型在推理任務中的性能。
為了評估 phi-4的性能,微軟在多個基準測試上進行了測試。在學術基準測試方面,如 MMLU、GPQA、MATH、HumanEval 等,phi-4表現(xiàn)出色。
在 MMLU測試中,phi-4取得了84.8的高分,在 GPQA 和 MATH 測試中,甚至超越了GPT -4o,在數(shù)學競賽相關的任務中展現(xiàn)出強大的推理能力。在與其他類似規(guī)模和更大規(guī)模的模型比較中,phi-4在12個基準測試中的9個上優(yōu)于同類開源模型 Qwen -2.5-14B - Instruct。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。