首頁 > 云計算頻道 > 大模型

蘋果AI震撼上線iPhone，進(jìn)化版Siri卻沒有ChatGPT！47頁技術(shù)報告揭秘自研模型

2024年07月30日 15:38:56 來源：新智元公眾號

　　今早，所有開發(fā)者們被突如其來iOS18.1測試版砸暈了!沒想到，蘋果AI這就可以上手嘗鮮了，一大波測評刷屏全網(wǎng)。更驚喜的是，蘋果AI背后的基礎(chǔ)模型47頁技術(shù)報告，也一并上線了。

　　一大早，人們期待已久的「蘋果AI」首個預(yù)覽版，正式向開發(fā)者們推送了!

　　iOS18.1、iPadOS18.1、macOS Sequoia15.1三大系統(tǒng)中，全都植入了蘋果AI的最新能力。

　　那些首批拿到iOS18.1測試版的用戶，已經(jīng)在歡呼雀躍，一波又一波的實測分享鋪屏全網(wǎng)。

　　最新推出的預(yù)覽版，包含了許多驚喜(速覽版):

　　全新Siri:喚醒時會在屏幕邊緣亮起柔光;與用戶交流，可在文本語音之間隨意切換;說話者磕磕絆絆時，也能聽懂指令;還可以回答有關(guān)蘋果產(chǎn)品故障排除問題

　　寫作工具(Writing Tools):可在任何場景中，對文本改寫、校對和總結(jié)摘要。(備忘錄、文檔、三方APP均可)

　　專注模式(Reduce Interruptions):僅顯示需要即刻看到的通知

　　照片功能:用自然語言搜索照片，制作影片

　　為郵件、信息和語音郵件轉(zhuǎn)錄生成人工智能摘要

　　此外，還有一些功能，蘋果表示將在明年推出，包括ChatGPT集成、圖像/Emoji生成、照片自動清理、具有屏幕感知的超強Siri。

　　順便提一句，目前，iOS18.1測試版(包括iPadOS、macOS)僅限美國開放，國內(nèi)還未上線。

　　而且，手機中也只有iPhone15Pro、iPhone15Pro Max支持新系統(tǒng)。

　　根據(jù)系統(tǒng)介紹，iOS18.1測試版占用的內(nèi)存空間共15.44GB，其中iOS系統(tǒng)容量12.58GB，而蘋果AI僅占用了2.86GB。

　　這是因為，蘋果用在端側(cè)設(shè)備上的模型，參數(shù)僅有30億。

　　關(guān)于模型更詳細(xì)的介紹，全都藏在了新鮮出爐的蘋果AI技術(shù)報告中。

　　48頁超長論文中，覆蓋了蘋果LLM的設(shè)計與評估，包括架構(gòu)、數(shù)據(jù)管理、預(yù)訓(xùn)練和后訓(xùn)練的recipe、優(yōu)化、功能適應(yīng)、和評估結(jié)果。

　　具體來說，蘋果開發(fā)了兩種全新基礎(chǔ)語言模型，構(gòu)成了蘋果AI的核心:

　　一個是端側(cè)模型AFM-on-device，大約有30億參數(shù)，優(yōu)化后可以在iPhone和其他終端設(shè)備上運行，具備更高效率和響應(yīng)能力。

　　另一個是可以在蘋果云服務(wù)器中運行的更大參數(shù)的模型，稱為AFM-server，專為密集型任務(wù)設(shè)計，并使用私人云計算(Private Cloud Compute)的系統(tǒng)來保護(hù)用戶數(shù)據(jù)。

　　還記得上個月的WWDC大會上，庫克向全世界宣布了蘋果AI的強大功用，讓蘋果全家桶得到了史詩級升級。

　　全網(wǎng)紛紛認(rèn)為AI瞬間不香了，還是得看蘋果AI。

　　一般來說，蘋果通常會最先發(fā)布iOS18主系統(tǒng)。

　　卻沒想到，這次蘋果竟在這么短的時間內(nèi)，先將測試版送到首批開發(fā)者手中。

　　這一點，彭博社最新報道中指出，蘋果打破一貫的軟件發(fā)布節(jié)奏，是因為蘋果AI還需要更多測試時間。

　　不知，首批嘗鮮者們，都發(fā)現(xiàn)了哪些新大陸?

　　網(wǎng)友實測

　　蘋果科技博主Brandon Butch第一時間，制作了展示iOS18.1測試版中蘋果AI功能最全面的視頻解說。

　　再磕磣的話，都能和順悅耳

　　他表示，蘋果AI幫助自己找到了一種更好的方式，表達(dá)自己想說的話。

　　在消息界面中，輸入框?qū)懴孪胝f的話。

　　然后全選點擊蘋果AI按鈕，就可以利用寫作工具中的「友好的」，AI立刻將這段話的語氣變得更加婉轉(zhuǎn)。

　　再來看另一位網(wǎng)友，特意寫了一句臟話，讓AI改寫后舒坦了許多。

　　語法錯字校對

　　另外，Butch驚嘆道，Grammarly已經(jīng)被扼殺了，這才是真正的蘋果AI。

　　就看下面這段話中，informutive拼寫錯誤，what首字母沒有大寫，還有what do you think末尾應(yīng)該是問號，而不是句號。

　　可以看出，蘋果AI全都幫你糾正過來了。

　　還有郵件中蘋果AI能力，聽著就讓人瘋狂。

　　同樣支持如上備忘錄、信息中的寫作工具的能力，包括校對、重寫等等。

　　一封郵件的總結(jié)，會在最上面呈現(xiàn)出來。

　　蘋果AI寫作工具的動畫效果「非常蘋果」，比起模型回應(yīng)時的密集標(biāo)token流，一切顯得那么平滑。

　　全新Siri，反應(yīng)超絲滑

　　再看呼叫Siri的屏幕邊緣效果，不得不說蘋果你是最懂設(shè)計的。

　　再來看iPad版的Siri。

　　Humane的AI工程師，蘋果前工程師測試Siri后稱贊道，蘋果AI速度非常、非常地快。

　　喚醒Siri，問一問埃菲爾鐵塔有多高?它位于哪里?

　　順便再讓它推送一些關(guān)于巴黎奧運會近期新聞，以及如何觀看奧運會賽事。

　　不一會兒功夫，蘋果AI都給解答了。

　　AI轉(zhuǎn)錄總結(jié)，重要電話內(nèi)容不怕遺漏

　　此外，蘋果AI還可以幫你將電話轉(zhuǎn)錄成筆記，記錄下你所談?wù)摰膬?nèi)容。

　　如果按下錄音按鈕，主叫方和受話方都會播放提示音，提示通話將被錄音。

　　錄音完成后，可直接行通知浮窗進(jìn)入查看錄音內(nèi)容。

　　專注模式

　　使用蘋果AI來自動分析通知內(nèi)容，檢測重要通知!

　　重要人的通知，就會pin在屏幕最下方。

　　照片搜索，吐槽不少

　　當(dāng)然了，iOS18.1之所以最先推出，就是為了讓開發(fā)者們多多測試，去發(fā)現(xiàn)報告問題，更好地改進(jìn)蘋果AI能力。

　　這不，一位YouTube博主在測試照片功能時，卻發(fā)現(xiàn)Siri依舊「智障」。

　　博主最先問了一句，「Siri向我展示2022年感恩節(jié)旅行的照片」。Siri卻回答:打開健康應(yīng)用程序的次數(shù)....

　　然后，他再次重復(fù)了剛剛的問題，「Siri，從照片中查找關(guān)于感恩節(jié)的照片」。

　　搞笑的的是，Siri直接從互聯(lián)網(wǎng)上搜索了一大堆感恩節(jié)相關(guān)的圖片。

　　當(dāng)他再次問道，「Siri，向我展示去臺灣旅行的照片」，Siri將原話聽成了關(guān)鍵詞，從網(wǎng)上搜索了「My Trip to Twaiwan」。

　　然后他繼續(xù)問，Siri依舊不知所云。

　　固執(zhí)的博主，破碎的Siri，簡直笑不活了.....

　　正如開頭所述，能夠把蘋果AI裝進(jìn)終端設(shè)備，背后是來自團(tuán)隊自研的基礎(chǔ)模型，在發(fā)光發(fā)熱。

　　iPhone的AI革命:30億參數(shù)裝進(jìn)口袋

　　具體來說，AFM是一款基于Transformer架構(gòu)的僅解碼器稠密模型。

　　其設(shè)計思路如下:

　　共享輸入/輸出嵌入矩陣，減少參數(shù)的內(nèi)存使用

　　使用RMSNorm的預(yù)歸一化，提高訓(xùn)練穩(wěn)定性

　　查詢/鍵歸一化，提高訓(xùn)練穩(wěn)定性

　　具有8個鍵值頭的分組查詢注意力(GQA)，減少KV緩存的內(nèi)存占用

　　更高效的SwiGLU激活

　　基礎(chǔ)頻率為500k的RoPE位置嵌入，支持長上下文

　　適配器架構(gòu)

　　通過使用LoRA適配器，蘋果的基礎(chǔ)模型可以動態(tài)地根據(jù)當(dāng)前任務(wù)即時專門化。

　　這些小型神經(jīng)網(wǎng)絡(luò)模塊可以插入基礎(chǔ)模型的各個層，用于對模型進(jìn)行特定任務(wù)的微調(diào)。

　　為了促進(jìn)適配器的訓(xùn)練，蘋果還創(chuàng)建了一個高效的基礎(chǔ)設(shè)施，使得基礎(chǔ)模型或訓(xùn)練數(shù)據(jù)更新或需要新功能時，能夠快速添加、重新訓(xùn)練、測試和部署適配器。

　　優(yōu)化

　　由于需要滿足用戶的日常使用，因此團(tuán)隊采用了多種優(yōu)化和量化技術(shù)，在保持模型質(zhì)量的同時，顯著減少了內(nèi)存占用、延遲和功耗。

　　方法

　　在后訓(xùn)練階段，蘋果對模型進(jìn)行了壓縮和量化，平均每個權(quán)重低于4位。

　　量化后的模型通常會有一定程度的質(zhì)量損失。因此，研發(fā)團(tuán)隊并不是直接將量化模型交給應(yīng)用團(tuán)隊進(jìn)行功能開發(fā)，而是附加了一組參數(shù)高效的LoRA適配器來恢復(fù)模型質(zhì)量。

　　然后，各產(chǎn)品團(tuán)隊會通過從精度恢復(fù)適配器(accuracy-recovery adapters)初始化適配器權(quán)重，微調(diào)其特定功能的LoRA適配器，同時保持量化的基礎(chǔ)模型不變。

　　值得注意的是，訓(xùn)練精度恢復(fù)適配器是樣本高效的，可以看作是訓(xùn)練基礎(chǔ)模型的迷你版本。

　　其中，在適配器的預(yù)訓(xùn)練階段，只需要大約100億個token(約占基礎(chǔ)模型訓(xùn)練的0.15%)即可完全恢復(fù)量化模型的能力。

　　由于應(yīng)用適配器將從這些精度恢復(fù)適配器進(jìn)行微調(diào)，它們不會產(chǎn)生任何額外的內(nèi)存使用或推理成本。

　　關(guān)于適配器的大小，團(tuán)隊發(fā)現(xiàn)秩為16的適配器在模型容量和推理性能之間提供了最佳平衡。

　　然而，為了提供更多的靈活性，蘋果提供了一套不同秩的精度恢復(fù)適配器供應(yīng)用團(tuán)隊選擇。

　　量化

　　精度恢復(fù)適配器帶來的另一個好處是它們允許更靈活的量化方案選擇。

　　過去在量化大語言模型時，通常會將權(quán)重分成小塊，通過對應(yīng)的最大絕對值來規(guī)范每個塊，以過濾掉異常值，然后在塊的基礎(chǔ)上應(yīng)用量化算法。

　　雖然較大的塊大小會降低每個權(quán)重的有效位數(shù)并提高吞吐量，但量化損失也會增加。為了平衡這種權(quán)衡，通常將塊大小設(shè)置為較小的值，如64或32。

　　但在蘋果的實驗中，團(tuán)隊發(fā)現(xiàn)精度恢復(fù)適配器可以顯著改善這種權(quán)衡的帕累托前沿(Pareto front)。

　　對于更激進(jìn)的量化方案，更多的錯誤將被恢復(fù)。因此，蘋果能夠為AFM使用高效的量化方案，而不必?fù)?dān)心模型容量的損失。

　　混合精度量化

　　每個Transformer塊和AFM的每一層中都有殘差連接。因此，不太可能所有層都具有相同的重要性。

　　基于這一直覺，蘋果通過將某些層推向2位量化(默認(rèn)是4位)來進(jìn)一步減少內(nèi)存使用。

　　平均而言，AFM設(shè)備上的模型可以壓縮到每個權(quán)重大約3.5位(bpw)而不會顯著喪失質(zhì)量。

　　在生產(chǎn)中，蘋果選擇使用3.7bpw，因為這已經(jīng)滿足了內(nèi)存需求。

　　評估結(jié)果

　　預(yù)訓(xùn)練

　　表2展示了AFM-on-device和AFM-server在HELM MMLU v1.5.0上的結(jié)果，該測試在57個科目中進(jìn)行5樣本多項選擇題回答。

　　表3和表4分別展示了AFM-server在HuggingFace OpenLLM排行榜V1，以及HELM-Lite v1.5.0基準(zhǔn)上的結(jié)果。

　　可以看到，AFM預(yù)訓(xùn)練模型有著強大的語言和推理能力，從而為后訓(xùn)練和特征微調(diào)提供了堅實的基礎(chǔ)。

　　后訓(xùn)練

　　人類評估

　　對于蘋果AI的應(yīng)用場景來說，人類評估更貼近用戶體驗。

　　為了評估模型的一般能力，團(tuán)隊收集了1393個全面的提示集。

　　這些提示可謂包羅萬象，涵蓋了不同類別以及不同難度級別，包括:分析推理、頭腦風(fēng)暴、聊天機器人、分類、封閉式問題回答、編碼、提取、數(shù)學(xué)推理、開放式問題回答、重寫、安全性、總結(jié)和寫作。

　　圖3展示了AFM與開源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商業(yè)模型(GPT-3.5和GPT-4)的比較。

　　結(jié)果發(fā)現(xiàn)，人類評估者更偏愛AFM模型而不是競爭對手模型。

　　特別是，盡管AFM-on-device的模型尺寸小25%，但與Phi-3-mini相比，其勝率為47.7%，甚至超過了參數(shù)數(shù)量超兩倍的開源強基線Gemma-7B和Mistral-7B。

　　與閉源模型相比，AFM-server也表現(xiàn)出了一定競爭力，對GPT-3.5的勝率超過50%，平局率為27.4%。

　　指令跟隨

　　指令跟隨(Instruction following， IF)是蘋果團(tuán)隊對語言模型寄予厚望的核心能力，因為現(xiàn)實世界的提示或指令通常都很復(fù)雜。

　　這里，團(tuán)隊采用的公共IFEval基準(zhǔn)，可以評估大語言模型在生成響應(yīng)時能否精確遵循提示中的指令。其中通常包括對響應(yīng)的長度、格式和內(nèi)容等方面的具體要求。

　　如圖4所示，AFM-on-device和AFM-server在指令級和提示級準(zhǔn)確性上都表現(xiàn)出色。

　　此外，蘋果團(tuán)隊還在AlpacaEval2.0LC基準(zhǔn)測試上對AFM模型進(jìn)行了基準(zhǔn)測試，以衡量其一般指令跟隨能力，結(jié)果表明其模型具有很強的競爭力。

　　工具使用

　　在工具使用的應(yīng)用場景中，模型在收到用戶請求和一系列帶有描述的潛在工具列表后，可以通過提供結(jié)構(gòu)化輸出來選擇調(diào)用特定工具，并指定工具名稱和參數(shù)值。

　　團(tuán)隊通過函數(shù)調(diào)用的本地支持，使用AST指標(biāo)在公共Berkeley Function Calling Leaderboard基準(zhǔn)測試上對模型進(jìn)行了評估。

　　如圖5所示，AFM-server在整體準(zhǔn)確性上表現(xiàn)最佳，超越了Gemini-1.5-Pro-Preview-0514和GPT-4。

　　寫作

　　寫作是大語言模型最重要的能力之一，因為它能夠支持多種下游應(yīng)用，如改變語氣、重寫和總結(jié)。

　　團(tuán)隊在內(nèi)部的總結(jié)和寫作基準(zhǔn)測試中評估了AFM的寫作能力。并遵循LLM-as-a-judge的方法，為每個總結(jié)和寫作任務(wù)設(shè)計了評分指令，并提示GPT-4Turbo為模型響應(yīng)打分，評分范圍為1到10。

　　如圖6所示，AFM-on-device在與Gemma-7B和Mistral-7B的比較中表現(xiàn)出相當(dāng)或更優(yōu)的性能。而AFM-server則顯著優(yōu)于DBRX-Instruct和GPT-3.5，甚至與GPT-4不相上下。

　　值得注意的是，使用LLM評分會存在一些限制和偏見，例如長度偏見。

　　數(shù)學(xué)

　　在圖7中，團(tuán)隊比較了AFM在數(shù)學(xué)基準(zhǔn)測試中的表現(xiàn)。

　　其中，研究人員對GSM8K使用8-shot CoT提示，對MATH使用4-shot CoT提示。

　　結(jié)果顯示，AFM-on-device即使在不到Mistral-7B和Gemma-7B一半大小的情況下，也顯著優(yōu)于這兩者。

　　摘要功能

　　產(chǎn)品團(tuán)隊針對電子郵件、消息和通知的摘要制定了一套定制的指南、指標(biāo)和專門的評分標(biāo)準(zhǔn)，用于評估摘要質(zhì)量，采用各種開源、許可和專有數(shù)據(jù)集。

　　根據(jù)預(yù)定義的產(chǎn)品規(guī)范，如果任何子維度被評為「差」，則該摘要被歸類為「差」。同樣，只有當(dāng)所有子維度都被評為「好」時，摘要才被歸類為「好」。

　　圖8顯示，AFM-on-device+適配器的整體表現(xiàn)，要優(yōu)于Phi-3-mini、Llama-3-8B和Gemma-7B。

　　安全評估

　　圖9展示了人類評審針對模型違規(guī)的評估結(jié)果，數(shù)值越低越好。

　　可以看到，AFM-on-device和AFM-server在應(yīng)對對抗性提示方面表現(xiàn)出很強的魯棒性，違規(guī)率顯著低于開源和商業(yè)模型。

　　圖10則展示了人類評審對于安全評估提示的偏好。

　　由于可以提供更安全、更有幫助的響應(yīng)，AFM模型再次拿下一局。

　　以上，是蘋果AI模型的關(guān)鍵一瞥。

　　蘋果AI能力，所有人究竟什么時候可以用得上?

　　每年，蘋果會在秋季發(fā)布會上推出新品，iOS18初始版本將會隨著iPhone16同時推出。

　　不過，人人都可體驗?zāi)菚r，還需要等到10月。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

蘋果AI震撼上線iPhone，進(jìn)化版Siri卻沒有ChatGPT！47頁技術(shù)報告揭秘自研模型

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

蘋果AI震撼上線iPhone，進(jìn)化版Siri卻沒有ChatGPT！47頁技術(shù)報告揭秘自研模型

擴(kuò)展閱讀

蘋果AI震撼上線iPhone，進(jìn)化版Siri卻沒有ChatGPT！47頁技術(shù)報告揭秘自研模型