今早,所有開發(fā)者們被突如其來iOS18.1測試版砸暈了!沒想到,蘋果AI這就可以上手嘗鮮了,一大波測評刷屏全網(wǎng)。更驚喜的是,蘋果AI背后的基礎(chǔ)模型47頁技術(shù)報告,也一并上線了。
一大早,人們期待已久的「蘋果AI」首個預(yù)覽版,正式向開發(fā)者們推送了!
iOS18.1、iPadOS18.1、macOS Sequoia15.1三大系統(tǒng)中,全都植入了蘋果AI的最新能力。
那些首批拿到iOS18.1測試版的用戶,已經(jīng)在歡呼雀躍,一波又一波的實測分享鋪屏全網(wǎng)。
最新推出的預(yù)覽版,包含了許多驚喜(速覽版):
全新Siri:喚醒時會在屏幕邊緣亮起柔光;與用戶交流,可在文本語音之間隨意切換;說話者磕磕絆絆時,也能聽懂指令;還可以回答有關(guān)蘋果產(chǎn)品故障排除問題
寫作工具(Writing Tools):可在任何場景中,對文本改寫、校對和總結(jié)摘要。(備忘錄、文檔、三方APP均可)
專注模式(Reduce Interruptions):僅顯示需要即刻看到的通知
照片功能:用自然語言搜索照片,制作影片
為郵件、信息和語音郵件轉(zhuǎn)錄生成人工智能摘要
此外,還有一些功能,蘋果表示將在明年推出,包括ChatGPT集成、圖像/Emoji生成、照片自動清理、具有屏幕感知的超強Siri。
順便提一句,目前,iOS18.1測試版(包括iPadOS、macOS)僅限美國開放,國內(nèi)還未上線。
而且,手機中也只有iPhone15Pro、iPhone15Pro Max支持新系統(tǒng)。
根據(jù)系統(tǒng)介紹,iOS18.1測試版占用的內(nèi)存空間共15.44GB,其中iOS系統(tǒng)容量12.58GB,而蘋果AI僅占用了2.86GB。
這是因為,蘋果用在端側(cè)設(shè)備上的模型,參數(shù)僅有30億。
關(guān)于模型更詳細(xì)的介紹,全都藏在了新鮮出爐的蘋果AI技術(shù)報告中。
48頁超長論文中,覆蓋了蘋果LLM的設(shè)計與評估,包括架構(gòu)、數(shù)據(jù)管理、預(yù)訓(xùn)練和后訓(xùn)練的recipe、優(yōu)化、功能適應(yīng)、和評估結(jié)果。
具體來說,蘋果開發(fā)了兩種全新基礎(chǔ)語言模型,構(gòu)成了蘋果AI的核心:
一個是端側(cè)模型AFM-on-device,大約有30億參數(shù),優(yōu)化后可以在iPhone和其他終端設(shè)備上運行,具備更高效率和響應(yīng)能力。
另一個是可以在蘋果云服務(wù)器中運行的更大參數(shù)的模型,稱為AFM-server,專為密集型任務(wù)設(shè)計,并使用私人云計算(Private Cloud Compute)的系統(tǒng)來保護(hù)用戶數(shù)據(jù)。
還記得上個月的WWDC大會上,庫克向全世界宣布了蘋果AI的強大功用,讓蘋果全家桶得到了史詩級升級。
全網(wǎng)紛紛認(rèn)為AI瞬間不香了,還是得看蘋果AI。
一般來說,蘋果通常會最先發(fā)布iOS18主系統(tǒng)。
卻沒想到,這次蘋果竟在這么短的時間內(nèi),先將測試版送到首批開發(fā)者手中。
這一點,彭博社最新報道中指出,蘋果打破一貫的軟件發(fā)布節(jié)奏,是因為蘋果AI還需要更多測試時間。
不知,首批嘗鮮者們,都發(fā)現(xiàn)了哪些新大陸?
網(wǎng)友實測
蘋果科技博主Brandon Butch第一時間,制作了展示iOS18.1測試版中蘋果AI功能最全面的視頻解說。
再磕磣的話,都能和順悅耳
他表示,蘋果AI幫助自己找到了一種更好的方式,表達(dá)自己想說的話。
在消息界面中,輸入框?qū)懴孪胝f的話。
然后全選點擊蘋果AI按鈕,就可以利用寫作工具中的「友好的」,AI立刻將這段話的語氣變得更加婉轉(zhuǎn)。
再來看另一位網(wǎng)友,特意寫了一句臟話,讓AI改寫后舒坦了許多。
語法錯字校對
另外,Butch驚嘆道,Grammarly已經(jīng)被扼殺了,這才是真正的蘋果AI。
就看下面這段話中,informutive拼寫錯誤,what首字母沒有大寫,還有what do you think末尾應(yīng)該是問號,而不是句號。
可以看出,蘋果AI全都幫你糾正過來了。
還有郵件中蘋果AI能力,聽著就讓人瘋狂。
同樣支持如上備忘錄、信息中的寫作工具的能力,包括校對、重寫等等。
一封郵件的總結(jié),會在最上面呈現(xiàn)出來。
蘋果AI寫作工具的動畫效果「非常蘋果」,比起模型回應(yīng)時的密集標(biāo)token流,一切顯得那么平滑。
全新Siri,反應(yīng)超絲滑
再看呼叫Siri的屏幕邊緣效果,不得不說蘋果你是最懂設(shè)計的。
再來看iPad版的Siri。
Humane的AI工程師,蘋果前工程師測試Siri后稱贊道,蘋果AI速度非常、非常地快。
喚醒Siri,問一問埃菲爾鐵塔有多高?它位于哪里?
順便再讓它推送一些關(guān)于巴黎奧運會近期新聞,以及如何觀看奧運會賽事。
不一會兒功夫,蘋果AI都給解答了。
AI轉(zhuǎn)錄總結(jié),重要電話內(nèi)容不怕遺漏
此外,蘋果AI還可以幫你將電話轉(zhuǎn)錄成筆記,記錄下你所談?wù)摰膬?nèi)容。
如果按下錄音按鈕,主叫方和受話方都會播放提示音,提示通話將被錄音。
錄音完成后,可直接行通知浮窗進(jìn)入查看錄音內(nèi)容。
專注模式
使用蘋果AI來自動分析通知內(nèi)容,檢測重要通知!
重要人的通知,就會pin在屏幕最下方。
照片搜索,吐槽不少
當(dāng)然了,iOS18.1之所以最先推出,就是為了讓開發(fā)者們多多測試,去發(fā)現(xiàn)報告問題,更好地改進(jìn)蘋果AI能力。
這不,一位YouTube博主在測試照片功能時,卻發(fā)現(xiàn)Siri依舊「智障」。
博主最先問了一句,「Siri向我展示2022年感恩節(jié)旅行的照片」。Siri卻回答:打開健康應(yīng)用程序的次數(shù)....
然后,他再次重復(fù)了剛剛的問題,「Siri,從照片中查找關(guān)于感恩節(jié)的照片」。
搞笑的的是,Siri直接從互聯(lián)網(wǎng)上搜索了一大堆感恩節(jié)相關(guān)的圖片。
當(dāng)他再次問道,「Siri,向我展示去臺灣旅行的照片」,Siri將原話聽成了關(guān)鍵詞,從網(wǎng)上搜索了「My Trip to Twaiwan」。
然后他繼續(xù)問,Siri依舊不知所云。
固執(zhí)的博主,破碎的Siri,簡直笑不活了.....
正如開頭所述,能夠把蘋果AI裝進(jìn)終端設(shè)備,背后是來自團(tuán)隊自研的基礎(chǔ)模型,在發(fā)光發(fā)熱。
iPhone的AI革命:30億參數(shù)裝進(jìn)口袋
具體來說,AFM是一款基于Transformer架構(gòu)的僅解碼器稠密模型。
其設(shè)計思路如下:
共享輸入/輸出嵌入矩陣,減少參數(shù)的內(nèi)存使用
使用RMSNorm的預(yù)歸一化,提高訓(xùn)練穩(wěn)定性
查詢/鍵歸一化,提高訓(xùn)練穩(wěn)定性
具有8個鍵值頭的分組查詢注意力(GQA),減少KV緩存的內(nèi)存占用
更高效的SwiGLU激活
基礎(chǔ)頻率為500k的RoPE位置嵌入,支持長上下文
適配器架構(gòu)
通過使用LoRA適配器,蘋果的基礎(chǔ)模型可以動態(tài)地根據(jù)當(dāng)前任務(wù)即時專門化。
這些小型神經(jīng)網(wǎng)絡(luò)模塊可以插入基礎(chǔ)模型的各個層,用于對模型進(jìn)行特定任務(wù)的微調(diào)。
為了促進(jìn)適配器的訓(xùn)練,蘋果還創(chuàng)建了一個高效的基礎(chǔ)設(shè)施,使得基礎(chǔ)模型或訓(xùn)練數(shù)據(jù)更新或需要新功能時,能夠快速添加、重新訓(xùn)練、測試和部署適配器。
優(yōu)化
由于需要滿足用戶的日常使用,因此團(tuán)隊采用了多種優(yōu)化和量化技術(shù),在保持模型質(zhì)量的同時,顯著減少了內(nèi)存占用、延遲和功耗。
方法
在后訓(xùn)練階段,蘋果對模型進(jìn)行了壓縮和量化,平均每個權(quán)重低于4位。
量化后的模型通常會有一定程度的質(zhì)量損失。因此,研發(fā)團(tuán)隊并不是直接將量化模型交給應(yīng)用團(tuán)隊進(jìn)行功能開發(fā),而是附加了一組參數(shù)高效的LoRA適配器來恢復(fù)模型質(zhì)量。
然后,各產(chǎn)品團(tuán)隊會通過從精度恢復(fù)適配器(accuracy-recovery adapters)初始化適配器權(quán)重,微調(diào)其特定功能的LoRA適配器,同時保持量化的基礎(chǔ)模型不變。
值得注意的是,訓(xùn)練精度恢復(fù)適配器是樣本高效的,可以看作是訓(xùn)練基礎(chǔ)模型的迷你版本。
其中,在適配器的預(yù)訓(xùn)練階段,只需要大約100億個token(約占基礎(chǔ)模型訓(xùn)練的0.15%)即可完全恢復(fù)量化模型的能力。
由于應(yīng)用適配器將從這些精度恢復(fù)適配器進(jìn)行微調(diào),它們不會產(chǎn)生任何額外的內(nèi)存使用或推理成本。
關(guān)于適配器的大小,團(tuán)隊發(fā)現(xiàn)秩為16的適配器在模型容量和推理性能之間提供了最佳平衡。
然而,為了提供更多的靈活性,蘋果提供了一套不同秩的精度恢復(fù)適配器供應(yīng)用團(tuán)隊選擇。
量化
精度恢復(fù)適配器帶來的另一個好處是它們允許更靈活的量化方案選擇。
過去在量化大語言模型時,通常會將權(quán)重分成小塊,通過對應(yīng)的最大絕對值來規(guī)范每個塊,以過濾掉異常值,然后在塊的基礎(chǔ)上應(yīng)用量化算法。
雖然較大的塊大小會降低每個權(quán)重的有效位數(shù)并提高吞吐量,但量化損失也會增加。為了平衡這種權(quán)衡,通常將塊大小設(shè)置為較小的值,如64或32。
但在蘋果的實驗中,團(tuán)隊發(fā)現(xiàn)精度恢復(fù)適配器可以顯著改善這種權(quán)衡的帕累托前沿(Pareto front)。
對于更激進(jìn)的量化方案,更多的錯誤將被恢復(fù)。因此,蘋果能夠為AFM使用高效的量化方案,而不必?fù)?dān)心模型容量的損失。
混合精度量化
每個Transformer塊和AFM的每一層中都有殘差連接。因此,不太可能所有層都具有相同的重要性。
基于這一直覺,蘋果通過將某些層推向2位量化(默認(rèn)是4位)來進(jìn)一步減少內(nèi)存使用。
平均而言,AFM設(shè)備上的模型可以壓縮到每個權(quán)重大約3.5位(bpw)而不會顯著喪失質(zhì)量。
在生產(chǎn)中,蘋果選擇使用3.7bpw,因為這已經(jīng)滿足了內(nèi)存需求。
評估結(jié)果
預(yù)訓(xùn)練
表2展示了AFM-on-device和AFM-server在HELM MMLU v1.5.0上的結(jié)果,該測試在57個科目中進(jìn)行5樣本多項選擇題回答。
表3和表4分別展示了AFM-server在HuggingFace OpenLLM排行榜V1,以及HELM-Lite v1.5.0基準(zhǔn)上的結(jié)果。
可以看到,AFM預(yù)訓(xùn)練模型有著強大的語言和推理能力,從而為后訓(xùn)練和特征微調(diào)提供了堅實的基礎(chǔ)。
后訓(xùn)練
人類評估
對于蘋果AI的應(yīng)用場景來說,人類評估更貼近用戶體驗。
為了評估模型的一般能力,團(tuán)隊收集了1393個全面的提示集。
這些提示可謂包羅萬象,涵蓋了不同類別以及不同難度級別,包括:分析推理、頭腦風(fēng)暴、聊天機器人、分類、封閉式問題回答、編碼、提取、數(shù)學(xué)推理、開放式問題回答、重寫、安全性、總結(jié)和寫作。
圖3展示了AFM與開源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商業(yè)模型(GPT-3.5和GPT-4)的比較。
結(jié)果發(fā)現(xiàn),人類評估者更偏愛AFM模型而不是競爭對手模型。
特別是,盡管AFM-on-device的模型尺寸小25%,但與Phi-3-mini相比,其勝率為47.7%,甚至超過了參數(shù)數(shù)量超兩倍的開源強基線Gemma-7B和Mistral-7B。
與閉源模型相比,AFM-server也表現(xiàn)出了一定競爭力,對GPT-3.5的勝率超過50%,平局率為27.4%。
指令跟隨
指令跟隨(Instruction following, IF)是蘋果團(tuán)隊對語言模型寄予厚望的核心能力,因為現(xiàn)實世界的提示或指令通常都很復(fù)雜。
這里,團(tuán)隊采用的公共IFEval基準(zhǔn),可以評估大語言模型在生成響應(yīng)時能否精確遵循提示中的指令。其中通常包括對響應(yīng)的長度、格式和內(nèi)容等方面的具體要求。
如圖4所示,AFM-on-device和AFM-server在指令級和提示級準(zhǔn)確性上都表現(xiàn)出色。
此外,蘋果團(tuán)隊還在AlpacaEval2.0LC基準(zhǔn)測試上對AFM模型進(jìn)行了基準(zhǔn)測試,以衡量其一般指令跟隨能力,結(jié)果表明其模型具有很強的競爭力。
工具使用
在工具使用的應(yīng)用場景中,模型在收到用戶請求和一系列帶有描述的潛在工具列表后,可以通過提供結(jié)構(gòu)化輸出來選擇調(diào)用特定工具,并指定工具名稱和參數(shù)值。
團(tuán)隊通過函數(shù)調(diào)用的本地支持,使用AST指標(biāo)在公共Berkeley Function Calling Leaderboard基準(zhǔn)測試上對模型進(jìn)行了評估。
如圖5所示,AFM-server在整體準(zhǔn)確性上表現(xiàn)最佳,超越了Gemini-1.5-Pro-Preview-0514和GPT-4。
寫作
寫作是大語言模型最重要的能力之一,因為它能夠支持多種下游應(yīng)用,如改變語氣、重寫和總結(jié)。
團(tuán)隊在內(nèi)部的總結(jié)和寫作基準(zhǔn)測試中評估了AFM的寫作能力。并遵循LLM-as-a-judge的方法,為每個總結(jié)和寫作任務(wù)設(shè)計了評分指令,并提示GPT-4Turbo為模型響應(yīng)打分,評分范圍為1到10。
如圖6所示,AFM-on-device在與Gemma-7B和Mistral-7B的比較中表現(xiàn)出相當(dāng)或更優(yōu)的性能。而AFM-server則顯著優(yōu)于DBRX-Instruct和GPT-3.5,甚至與GPT-4不相上下。
值得注意的是,使用LLM評分會存在一些限制和偏見,例如長度偏見。
數(shù)學(xué)
在圖7中,團(tuán)隊比較了AFM在數(shù)學(xué)基準(zhǔn)測試中的表現(xiàn)。
其中,研究人員對GSM8K使用8-shot CoT提示,對MATH使用4-shot CoT提示。
結(jié)果顯示,AFM-on-device即使在不到Mistral-7B和Gemma-7B一半大小的情況下,也顯著優(yōu)于這兩者。
摘要功能
產(chǎn)品團(tuán)隊針對電子郵件、消息和通知的摘要制定了一套定制的指南、指標(biāo)和專門的評分標(biāo)準(zhǔn),用于評估摘要質(zhì)量,采用各種開源、許可和專有數(shù)據(jù)集。
根據(jù)預(yù)定義的產(chǎn)品規(guī)范,如果任何子維度被評為「差」,則該摘要被歸類為「差」。同樣,只有當(dāng)所有子維度都被評為「好」時,摘要才被歸類為「好」。
圖8顯示,AFM-on-device+適配器的整體表現(xiàn),要優(yōu)于Phi-3-mini、Llama-3-8B和Gemma-7B。
安全評估
圖9展示了人類評審針對模型違規(guī)的評估結(jié)果,數(shù)值越低越好。
可以看到,AFM-on-device和AFM-server在應(yīng)對對抗性提示方面表現(xiàn)出很強的魯棒性,違規(guī)率顯著低于開源和商業(yè)模型。
圖10則展示了人類評審對于安全評估提示的偏好。
由于可以提供更安全、更有幫助的響應(yīng),AFM模型再次拿下一局。
以上,是蘋果AI模型的關(guān)鍵一瞥。
蘋果AI能力,所有人究竟什么時候可以用得上?
每年,蘋果會在秋季發(fā)布會上推出新品,iOS18初始版本將會隨著iPhone16同時推出。
不過,人人都可體驗?zāi)菚r,還需要等到10月。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。