諾基亞攜手阿聯(lián)酋運(yùn)營(yíng)商e&,展示全球首個(gè)固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運(yùn)營(yíng)商11月成績(jī)單:用戶數(shù)據(jù)增幅放緩打造下一個(gè)英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢(shì)AI時(shí)代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance年末家電消費(fèi)觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進(jìn)展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型谷歌向投資者保證人工智能本月將迎來“驚人”表現(xiàn)多模態(tài)大模型引爆應(yīng)用場(chǎng)景 階躍星辰完成數(shù)億美元融資星動(dòng)紀(jì)元發(fā)布端到端原生機(jī)器人大模型ERA-42 實(shí)現(xiàn)機(jī)器人復(fù)雜場(chǎng)景操作免費(fèi)模式強(qiáng)攻下,快手、抖音用“短劇VIP”反擊?低碳存儲(chǔ)助力算力產(chǎn)業(yè) 富士膠片首次亮相IDC大會(huì)行業(yè)唯一!海爾熱聲熱泵技術(shù)獲全國(guó)顛覆性技術(shù)創(chuàng)新大賽最高獎(jiǎng)OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號(hào)能穿十堵墻一加 Ace 5 Pro首發(fā)電競(jìng)Wi-Fi芯片G1 帶來「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)
  • 首頁 > 云計(jì)算頻道 > 大模型

    微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報(bào)告出爐

    2024年12月23日 09:16:48   來源:新智元公眾號(hào)

      【新智元導(dǎo)讀】微軟下一代14B小模型Phi-4出世了!僅用了40%合成數(shù)據(jù),在數(shù)學(xué)性能上擊敗了GPT-4o,最新36頁技術(shù)報(bào)告出爐。

      140億參數(shù),40%合成數(shù)據(jù),年度SLM之王誕生!

      最近,微軟下一代小模型Phi-4正式亮相。在GPQA和MATH基準(zhǔn)上,其數(shù)學(xué)性能直接碾壓GPT-4o、Gemini Pro 1.5。

      而且,Phi-4粉碎了其他小模型,與Llama-3.3-70B-Instruct的性能不相上下。

      甚至,在2024 ACM數(shù)學(xué)競(jìng)賽問題上,Phi-4取得了91.8%準(zhǔn)確率。

      Phi系列前負(fù)責(zé)人Sebastien Bubeck看到這個(gè)結(jié)果后,感到非常驚訝。

      下面這個(gè)例子,展示了Phi-4在數(shù)學(xué)推理方面的能力,不僅神速還準(zhǔn)確。

      深挖背后,Phi-4繼承了Phi系列前幾代的傳統(tǒng),同樣是在教科書級(jí)別的「合成數(shù)據(jù)」上完成了訓(xùn)練。

      合成數(shù)據(jù)比例高達(dá)40%

      除了合成數(shù)據(jù),它共實(shí)現(xiàn)了三大核心技術(shù)突破,包括精選的原生數(shù)據(jù),以及領(lǐng)先的后訓(xùn)練技術(shù),如DPO中的關(guān)鍵token搜索(Pivotal Tokens Search)。

      Phi-4的成功,從側(cè)面推翻了Ilya、Alexander Wang多位大佬宣稱的「數(shù)據(jù)墻」的觀點(diǎn)。

      目前,新模型在微軟Azure AI Foundry上提供,下周將在HuggingFace上線。

      數(shù)學(xué)擊敗GPT-4o,36頁技術(shù)報(bào)告出爐

      Phi-4與大多數(shù)語言模型不同,那些模型的預(yù)訓(xùn)練主要基于諸如網(wǎng)絡(luò)內(nèi)容或代碼這類自然產(chǎn)生的數(shù)據(jù)來源,而Phi-4則有策略地在整個(gè)訓(xùn)練過程中融入了合成數(shù)據(jù)。

      雖然Phi系列先前的模型表現(xiàn)主要來源于蒸餾了教師模型(特別是GPT-4)的能力,但Phi-4在STEM領(lǐng)域的問答能力上顯著超越了其教師模型,證明了數(shù)據(jù)生成和后訓(xùn)練技術(shù)比模型蒸餾更能帶來能力上的提升。

      論文地址:https://arxiv.org/abs/2412.08905

      Phi-4主要是由三部分核心技術(shù)構(gòu)成:

      - 預(yù)訓(xùn)練和中訓(xùn)練的合成數(shù)據(jù)

      - 高質(zhì)量有機(jī)數(shù)據(jù)的篩選和過濾

      - 后訓(xùn)練

      得益于這些創(chuàng)新,Phi-4在推理相關(guān)任務(wù)上的性能與更大的模型相當(dāng),甚至超越它們。

      例如,在許多廣泛使用的推理相關(guān)基準(zhǔn)測(cè)試中,其性能達(dá)到或超過了Llama-3.1-405B。

      通過表1可以發(fā)現(xiàn),Phi-4在GPQA(研究生水平的STEM問答)和MATH(數(shù)學(xué)競(jìng)賽)基準(zhǔn)測(cè)試中均顯著超過了其教師模型GPT-4o。

      表1 Phi-4在經(jīng)典基準(zhǔn)測(cè)試上的表現(xiàn)

      為了驗(yàn)證Phi-4是否存在過擬合和數(shù)據(jù)污染問題,研究者在2024年11月的AMC-10和AMC-12數(shù)學(xué)競(jìng)賽上測(cè)試了該模型。

      這兩場(chǎng)競(jìng)賽中的數(shù)據(jù)均未曾在訓(xùn)練時(shí)被收集過,所以其競(jìng)賽表現(xiàn)可以有效地作為檢驗(yàn)?zāi)P头夯阅艿闹笜?biāo)。

      從下圖中可以看出,Phi-4雖然僅僅只有14B,但是其平均得分甚至大幅超過了其教師模型GPT-4o。

      Phi-4在數(shù)學(xué)競(jìng)賽問題上優(yōu)于許多更大的模型,包括Gemini Pro 1.5

      合成數(shù)據(jù)的優(yōu)勢(shì)

      合成數(shù)據(jù)構(gòu)成了Phi-4訓(xùn)練數(shù)據(jù)的大部分,其通過多種技術(shù)生成,包括多智能體提示(multi-agent prompting)、自修訂工作流(self-revision workflows)和指令反轉(zhuǎn)(instruction reversal)。

      這些技術(shù)方法能夠構(gòu)建促使模型具備更強(qiáng)推理和問題解決能力的數(shù)據(jù)集,解決了傳統(tǒng)無監(jiān)督數(shù)據(jù)集中的一些弱點(diǎn)。

      合成數(shù)據(jù)不是有機(jī)數(shù)據(jù)的廉價(jià)替代品,而是相對(duì)于有機(jī)數(shù)據(jù)具有幾個(gè)直接優(yōu)勢(shì)。

      數(shù)據(jù)結(jié)構(gòu)化和支持漸進(jìn)式學(xué)習(xí)

      在有機(jī)數(shù)據(jù)集中,token之間的關(guān)系往往復(fù)雜且間接?赡苄枰S多推理步驟才能將當(dāng)前token與下一個(gè)token聯(lián)系起來,這使得模型難以從預(yù)測(cè)下一個(gè)token的目標(biāo)任務(wù)中有效學(xué)習(xí)。

      相比之下,由于從語言模型生成的每個(gè)token都是根據(jù)前面的token預(yù)測(cè)而來的,而這樣結(jié)構(gòu)化的token也可以讓模型的訓(xùn)練變得更加高效。

      將訓(xùn)練與推理上下文對(duì)齊

      合成數(shù)據(jù)可以規(guī)避掉模型從有機(jī)數(shù)據(jù)集中學(xué)習(xí)到一些并不適合后續(xù)訓(xùn)練的數(shù)據(jù)特性。

      比如說,網(wǎng)絡(luò)論壇往往有著自身特定的交流風(fēng)格、用語習(xí)慣等,而人們與大模型對(duì)話時(shí),其語言風(fēng)格、交互邏輯又是另外一種情況。

      此時(shí)如果直接采用網(wǎng)絡(luò)論壇的數(shù)據(jù)進(jìn)行訓(xùn)練,假設(shè)有一些內(nèi)容的風(fēng)格比較獨(dú)特,模型就會(huì)認(rèn)為在對(duì)話中該內(nèi)容出現(xiàn)的幾率會(huì)很低。因此在后續(xù)對(duì)話中模型進(jìn)行推理時(shí),便不能將對(duì)話內(nèi)容精準(zhǔn)匹配到對(duì)應(yīng)的論壇內(nèi)容上去。

      而合成數(shù)據(jù)會(huì)將網(wǎng)絡(luò)論壇中的內(nèi)容改寫成與LLM交互時(shí)的語言風(fēng)格,使得其在LLM聊天推理的上下文中更容易匹配。

      合成數(shù)據(jù)在Phi-4的后訓(xùn)練中也發(fā)揮著關(guān)鍵作用,其中采用了諸如拒絕采樣和直接偏好優(yōu)化(DPO)的新方法來優(yōu)化模型的輸出。

      合成數(shù)據(jù)的來源

      預(yù)訓(xùn)練和訓(xùn)練中數(shù)據(jù)

      為此,研究團(tuán)隊(duì)創(chuàng)建了50種廣泛的合成數(shù)據(jù)集類型,每個(gè)數(shù)據(jù)集都依賴于不同的種子和不同的多階段提示程序,涵蓋了各種主題、技能和交互性質(zhì),累計(jì)約4000億個(gè)無權(quán)重的token。

      通過以下方法,他們確保了合成數(shù)據(jù)并不被一些低質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù)所污染,從而成為高質(zhì)量訓(xùn)練數(shù)據(jù)集。

      種子數(shù)據(jù)集的構(gòu)建

      1. 網(wǎng)頁和代碼種子:從網(wǎng)頁、書籍和代碼庫(kù)中提取摘錄和代碼片段,重點(diǎn)關(guān)注具有高復(fù)雜性、推理深度和教育價(jià)值的內(nèi)容。為確保質(zhì)量,團(tuán)隊(duì)采用兩階段篩選流程:首先,識(shí)別需要關(guān)注的重點(diǎn)高價(jià)值頁面,其次,將選定的頁面分割成段落,并對(duì)每個(gè)段落的客觀和推理內(nèi)容進(jìn)行評(píng)分。

      2. 問題數(shù)據(jù)集:從網(wǎng)站、論壇和問答平臺(tái)上收集了大量問題。然后使用投票技術(shù)對(duì)這些問題進(jìn)行篩選以平衡難度。具體來說,團(tuán)隊(duì)為每個(gè)問題生成多個(gè)獨(dú)立的答案,并應(yīng)用多數(shù)投票來評(píng)估答案的一致性。然后丟棄所有答案都一致(表明問題太簡(jiǎn)單)或答案完全不一致(表明問題太難或模糊)的問題。

      3. 從多種來源創(chuàng)建問答對(duì):利用語言模型從書籍、科學(xué)論文和代碼等有機(jī)來源中提取問答對(duì)。這種方法不僅僅依賴于在文本中識(shí)別顯式的問答對(duì)。相反,它涉及一個(gè)旨在檢測(cè)文本中的推理鏈或邏輯進(jìn)程的pipeline。語言模型識(shí)別推理或問題解決過程中的關(guān)鍵步驟,并將它們重新表述為問題和相應(yīng)的答案。實(shí)驗(yàn)表明,如果操作得當(dāng),在生成內(nèi)容上進(jìn)行訓(xùn)練(在學(xué)術(shù)和內(nèi)部基準(zhǔn)上的改進(jìn)方面)可以比在原始內(nèi)容上進(jìn)行訓(xùn)練更加有效。

      重寫和增強(qiáng):種子通過多步驟提示工作流程轉(zhuǎn)化為合成數(shù)據(jù)。這包括將給定段落中的大部分有用內(nèi)容重寫為練習(xí)、討論或結(jié)構(gòu)化推理任務(wù)。

      自我修訂:初始響應(yīng)會(huì)通過一個(gè)反饋回路進(jìn)行迭代式優(yōu)化,在該回路中,模型會(huì)依據(jù)側(cè)重于推理和事實(shí)準(zhǔn)確性的評(píng)判標(biāo)準(zhǔn)進(jìn)行自我評(píng)判,并隨后改進(jìn)自身的輸出內(nèi)容。

      指令反轉(zhuǎn)用于代碼和其他任務(wù):為了提高模型從指令生成輸出的能力,團(tuán)隊(duì)采用了指令反轉(zhuǎn)技術(shù)。例如,他們從代碼數(shù)據(jù)語料庫(kù)中選取現(xiàn)有的代碼片段,并利用它們生成包含問題描述或任務(wù)提示的相應(yīng)指令。只有原始代碼和根據(jù)生成指令而重新生成的代碼之間相似度高的指令才會(huì)被保留,以確保指令與輸出內(nèi)容相匹配。

      后訓(xùn)練數(shù)據(jù)

      在后訓(xùn)練階段中,數(shù)據(jù)集主要由兩部分組成:

      - 監(jiān)督微調(diào)(SFT)數(shù)據(jù)集:使用從公開數(shù)據(jù)集和合成數(shù)據(jù)中精心篩選的用戶提示,再生成多個(gè)模型響應(yīng),并使用基于LLM的評(píng)估過程選擇最佳響應(yīng)。

      - 直接偏好優(yōu)化(DPO):基于拒絕采樣和LLM評(píng)估生成DPO對(duì),其中部分基于創(chuàng)建關(guān)鍵詞token對(duì)的方法。

      研究者利用生成的SFT數(shù)據(jù)和DPO數(shù)據(jù)對(duì),來緩解模型的幻覺問題。

      如下圖6結(jié)果顯示,這種方法大大減少了SimpleQA中的幻覺現(xiàn)象。

      預(yù)訓(xùn)練

      Phi-4同樣基于Transformer架構(gòu)構(gòu)建,具有14B參數(shù)和默認(rèn)的上下文長(zhǎng)度4096。在訓(xùn)練中期,擴(kuò)展到16K上下文。

      由于預(yù)訓(xùn)練模型不擅長(zhǎng)遵循指令,因此使用需要答案采用特定格式(例如簡(jiǎn)單評(píng)估)的零樣本評(píng)估不是很有參考價(jià)值。

      因此,團(tuán)隊(duì)采用了內(nèi)部實(shí)現(xiàn)的基準(zhǔn)測(cè)試進(jìn)行預(yù)訓(xùn)練評(píng)估,該基準(zhǔn)測(cè)試對(duì)各種任務(wù)使用混合的對(duì)數(shù)似然與少量樣本提示。

      具體來說,他們對(duì) MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用對(duì)數(shù)似然評(píng)估,而對(duì)TriviaQA(TQA)、MBPP、MATH和GSM8k分別使用 1、3、4和8個(gè)少樣本的示例,以幫助模型遵循答案格式。

      表2 phi-4較phi-3-medium在預(yù)訓(xùn)練后基準(zhǔn)測(cè)試評(píng)估的提升值

      在長(zhǎng)上下文基準(zhǔn)HELMET測(cè)試中,Phi-4在召回率、最大上下文等指標(biāo)上,幾乎取得了領(lǐng)先的優(yōu)勢(shì)。

      后訓(xùn)練

      如前所述,在后訓(xùn)練階段過程中,最重要的一個(gè)技術(shù)是關(guān)鍵token搜索(PTS),那么這究竟是什么呢?

      關(guān)鍵token搜索(Pivotal Token Search)

      當(dāng)模型對(duì)一個(gè)提示逐token生成回應(yīng)時(shí),每個(gè)token都對(duì)應(yīng)著模型回答的一個(gè)前綴。

      對(duì)于每個(gè)這樣的前綴,可以考慮兩個(gè)關(guān)鍵token:一是在改前綴下,模型回答正確的條件概率;另一個(gè)是該token帶來的概率增量,即生成這個(gè)token前后正確率的差值。

      其實(shí),在AI模型生成答案時(shí),往往只有少數(shù)幾個(gè)關(guān)鍵token決定了整個(gè)答案的正確與否。

      在研究中,團(tuán)隊(duì)觀察到一個(gè)有趣的現(xiàn)象是:當(dāng)模型在解答數(shù)學(xué)問題時(shí),僅僅生成了negative關(guān)鍵token,就讓原本可能失敗的解答轉(zhuǎn)向了成功。

      而隨后,它生成了(a token又可能讓正確率急劇下降。

      現(xiàn)在,將這個(gè)方法與DPO訓(xùn)練方法結(jié)合思考后,發(fā)現(xiàn)了幾個(gè)值得注意的問題。

      如上圖3所示,實(shí)驗(yàn)中有許多token概率遠(yuǎn)低于關(guān)鍵token「negative」的0.31,這些token會(huì)在訓(xùn)練中產(chǎn)生噪聲,稀釋來自關(guān)鍵token的有效信號(hào)。

      更糟糕的是,像(a這樣導(dǎo)致解題不穩(wěn)定的token,反而會(huì)因其低概率(0.12)收到強(qiáng)烈的正向?qū)W習(xí)信號(hào)。

      此外,直覺表明,當(dāng)兩個(gè)文本內(nèi)容出現(xiàn)實(shí)質(zhì)性偏差時(shí),比較它們各自下一個(gè)token概率(DPO的做法)可能失去意義。

      總之,更有意義的信號(hào),應(yīng)該來自于文本開始偏離時(shí)的首批token。

      為了緩解之前的問題,微軟團(tuán)隊(duì)提出了一種創(chuàng)新的方法——關(guān)鍵token搜索(PTS)。

      這個(gè)方法專門針對(duì)單個(gè)關(guān)鍵token生成偏好數(shù)據(jù),在使用DPO優(yōu)化效果精準(zhǔn)作用于特定token。

      PTS的核心任務(wù)是,在完整的token序列(T_full = t1, t2, ...)中找出那些關(guān)鍵token。

      具體來說,它需要找出那些能顯著影響成功率的token的位置,即p(success | t1, ..., ti)。

      PTS會(huì)將發(fā)現(xiàn)的關(guān)鍵token轉(zhuǎn)化為訓(xùn)練數(shù)據(jù),先將Q + t1, ..., ti-1作為查詢基準(zhǔn),再選擇能提高/降低成功率的單個(gè)token分別作為「接受」和「拒絕」的樣本。

      雖然PTS使用的二分查找算法不能保證找出所有的關(guān)鍵token,但它具有兩個(gè)重要特性。

      - 找到的一定是關(guān)鍵token

      - 如果成功概率再解題過程中接近單調(diào)變化,則能找出所有關(guān)鍵token

      下圖5所示,是使用PTS生成的偏好數(shù)據(jù)的示例。

      在數(shù)學(xué)問答示例中,研究發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象,關(guān)鍵token往往不是明顯的錯(cuò)誤,而是引導(dǎo)模型走向不同解題路徑的選擇點(diǎn)。

      比如,方法A——分別乘以分母;方法B——直接交叉相乘。

      雖然這兩種方法在數(shù)學(xué)上都是正確的,但對(duì)于模型來說,往往后者更加穩(wěn)健。

      通過PTS生成的訓(xùn)練數(shù)據(jù),可以幫助Phi-4在這些關(guān)鍵決策點(diǎn)上做出更優(yōu)的選擇。

      以小博大,Phi-4贏麻了

      基于以上技術(shù)的創(chuàng)新,Phi-4才能在各項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出驚艷的一面。

      上表1中,相較于同級(jí)別的Qwen-2.5-14B-Instruct模型,在12個(gè)基準(zhǔn)測(cè)試中,Phi-4在九項(xiàng)測(cè)試中贏得優(yōu)勢(shì)。

      而且,研究人員認(rèn)為Phi-4在SimpleQA上的表現(xiàn)實(shí)際上比Qwen更好。

      事實(shí)上,他們的基礎(chǔ)模型在SimpleQA上獲得了比Qwen-2.5-14B-Instruct更高的基準(zhǔn)分?jǐn)?shù),只不過團(tuán)隊(duì)在后訓(xùn)練中有意修改了模型的行為,以優(yōu)化用戶體驗(yàn)而不是追求更高的基準(zhǔn)分?jǐn)?shù)。

      此外,Phi-4在STEM問答任務(wù)上展現(xiàn)出卓越的實(shí)力。

      比如,在GPQA(研究生水平的STEM問題)和MATH(數(shù)學(xué)競(jìng)賽)上,它甚至超過了其教師模型GPT-4。

      在HumanEval和HumanEval+衡量的編碼能力方面,它也比任何其他開源模型(包括更大的Llama模型)得分更高。

      而Phi-4表現(xiàn)欠佳的領(lǐng)域,分別在SimpleQA、DROP和IFEval上。

      至于前兩個(gè),研究人員認(rèn)為simple-evals報(bào)告的數(shù)字過于簡(jiǎn)化,并不能準(zhǔn)確反映模型在基準(zhǔn)問題上的表現(xiàn)。

      然而,IFEval揭示了Phi-4的一個(gè)真實(shí)的弱點(diǎn)——在嚴(yán)格遵循指令方面存在困難。

      在未來下一步研究中,研究人員相信通過有針對(duì)性的合成數(shù)據(jù),讓Phi系列模型的指令跟隨性能得到顯著改善。

      接下來,還真有點(diǎn)期待,下一個(gè)Phi系列小模型的發(fā)布了。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。