今早,所有開發(fā)者們被突如其來iOS18.1測試版砸暈了!沒想到,蘋果AI這就可以上手嘗鮮了,一大波測評刷屏全網。更驚喜的是,蘋果AI背后的基礎模型47頁技術報告,也一并上線了。
一大早,人們期待已久的「蘋果AI」首個預覽版,正式向開發(fā)者們推送了!
iOS18.1、iPadOS18.1、macOS Sequoia15.1三大系統(tǒng)中,全都植入了蘋果AI的最新能力。
那些首批拿到iOS18.1測試版的用戶,已經在歡呼雀躍,一波又一波的實測分享鋪屏全網。
最新推出的預覽版,包含了許多驚喜(速覽版):
全新Siri:喚醒時會在屏幕邊緣亮起柔光;與用戶交流,可在文本語音之間隨意切換;說話者磕磕絆絆時,也能聽懂指令;還可以回答有關蘋果產品故障排除問題
寫作工具(Writing Tools):可在任何場景中,對文本改寫、校對和總結摘要。(備忘錄、文檔、三方APP均可)
專注模式(Reduce Interruptions):僅顯示需要即刻看到的通知
照片功能:用自然語言搜索照片,制作影片
為郵件、信息和語音郵件轉錄生成人工智能摘要
此外,還有一些功能,蘋果表示將在明年推出,包括ChatGPT集成、圖像/Emoji生成、照片自動清理、具有屏幕感知的超強Siri。
順便提一句,目前,iOS18.1測試版(包括iPadOS、macOS)僅限美國開放,國內還未上線。
而且,手機中也只有iPhone15Pro、iPhone15Pro Max支持新系統(tǒng)。
根據系統(tǒng)介紹,iOS18.1測試版占用的內存空間共15.44GB,其中iOS系統(tǒng)容量12.58GB,而蘋果AI僅占用了2.86GB。
這是因為,蘋果用在端側設備上的模型,參數僅有30億。
關于模型更詳細的介紹,全都藏在了新鮮出爐的蘋果AI技術報告中。
48頁超長論文中,覆蓋了蘋果LLM的設計與評估,包括架構、數據管理、預訓練和后訓練的recipe、優(yōu)化、功能適應、和評估結果。
具體來說,蘋果開發(fā)了兩種全新基礎語言模型,構成了蘋果AI的核心:
一個是端側模型AFM-on-device,大約有30億參數,優(yōu)化后可以在iPhone和其他終端設備上運行,具備更高效率和響應能力。
另一個是可以在蘋果云服務器中運行的更大參數的模型,稱為AFM-server,專為密集型任務設計,并使用私人云計算(Private Cloud Compute)的系統(tǒng)來保護用戶數據。
還記得上個月的WWDC大會上,庫克向全世界宣布了蘋果AI的強大功用,讓蘋果全家桶得到了史詩級升級。
全網紛紛認為AI瞬間不香了,還是得看蘋果AI。
一般來說,蘋果通常會最先發(fā)布iOS18主系統(tǒng)。
卻沒想到,這次蘋果竟在這么短的時間內,先將測試版送到首批開發(fā)者手中。
這一點,彭博社最新報道中指出,蘋果打破一貫的軟件發(fā)布節(jié)奏,是因為蘋果AI還需要更多測試時間。
不知,首批嘗鮮者們,都發(fā)現了哪些新大陸?
網友實測
蘋果科技博主Brandon Butch第一時間,制作了展示iOS18.1測試版中蘋果AI功能最全面的視頻解說。
再磕磣的話,都能和順悅耳
他表示,蘋果AI幫助自己找到了一種更好的方式,表達自己想說的話。
在消息界面中,輸入框寫下想說的話。
然后全選點擊蘋果AI按鈕,就可以利用寫作工具中的「友好的」,AI立刻將這段話的語氣變得更加婉轉。
再來看另一位網友,特意寫了一句臟話,讓AI改寫后舒坦了許多。
語法錯字校對
另外,Butch驚嘆道,Grammarly已經被扼殺了,這才是真正的蘋果AI。
就看下面這段話中,informutive拼寫錯誤,what首字母沒有大寫,還有what do you think末尾應該是問號,而不是句號。
可以看出,蘋果AI全都幫你糾正過來了。
還有郵件中蘋果AI能力,聽著就讓人瘋狂。
同樣支持如上備忘錄、信息中的寫作工具的能力,包括校對、重寫等等。
一封郵件的總結,會在最上面呈現出來。
蘋果AI寫作工具的動畫效果「非常蘋果」,比起模型回應時的密集標token流,一切顯得那么平滑。
全新Siri,反應超絲滑
再看呼叫Siri的屏幕邊緣效果,不得不說蘋果你是最懂設計的。
再來看iPad版的Siri。
Humane的AI工程師,蘋果前工程師測試Siri后稱贊道,蘋果AI速度非常、非常地快。
喚醒Siri,問一問埃菲爾鐵塔有多高?它位于哪里?
順便再讓它推送一些關于巴黎奧運會近期新聞,以及如何觀看奧運會賽事。
不一會兒功夫,蘋果AI都給解答了。
AI轉錄總結,重要電話內容不怕遺漏
此外,蘋果AI還可以幫你將電話轉錄成筆記,記錄下你所談論的內容。
如果按下錄音按鈕,主叫方和受話方都會播放提示音,提示通話將被錄音。
錄音完成后,可直接行通知浮窗進入查看錄音內容。
專注模式
使用蘋果AI來自動分析通知內容,檢測重要通知!
重要人的通知,就會pin在屏幕最下方。
照片搜索,吐槽不少
當然了,iOS18.1之所以最先推出,就是為了讓開發(fā)者們多多測試,去發(fā)現報告問題,更好地改進蘋果AI能力。
這不,一位YouTube博主在測試照片功能時,卻發(fā)現Siri依舊「智障」。
博主最先問了一句,「Siri向我展示2022年感恩節(jié)旅行的照片」。Siri卻回答:打開健康應用程序的次數....
然后,他再次重復了剛剛的問題,「Siri,從照片中查找關于感恩節(jié)的照片」。
搞笑的的是,Siri直接從互聯網上搜索了一大堆感恩節(jié)相關的圖片。
當他再次問道,「Siri,向我展示去臺灣旅行的照片」,Siri將原話聽成了關鍵詞,從網上搜索了「My Trip to Twaiwan」。
然后他繼續(xù)問,Siri依舊不知所云。
固執(zhí)的博主,破碎的Siri,簡直笑不活了.....
正如開頭所述,能夠把蘋果AI裝進終端設備,背后是來自團隊自研的基礎模型,在發(fā)光發(fā)熱。
iPhone的AI革命:30億參數裝進口袋
具體來說,AFM是一款基于Transformer架構的僅解碼器稠密模型。
其設計思路如下:
共享輸入/輸出嵌入矩陣,減少參數的內存使用
使用RMSNorm的預歸一化,提高訓練穩(wěn)定性
查詢/鍵歸一化,提高訓練穩(wěn)定性
具有8個鍵值頭的分組查詢注意力(GQA),減少KV緩存的內存占用
更高效的SwiGLU激活
基礎頻率為500k的RoPE位置嵌入,支持長上下文
適配器架構
通過使用LoRA適配器,蘋果的基礎模型可以動態(tài)地根據當前任務即時專門化。
這些小型神經網絡模塊可以插入基礎模型的各個層,用于對模型進行特定任務的微調。
為了促進適配器的訓練,蘋果還創(chuàng)建了一個高效的基礎設施,使得基礎模型或訓練數據更新或需要新功能時,能夠快速添加、重新訓練、測試和部署適配器。
優(yōu)化
由于需要滿足用戶的日常使用,因此團隊采用了多種優(yōu)化和量化技術,在保持模型質量的同時,顯著減少了內存占用、延遲和功耗。
方法
在后訓練階段,蘋果對模型進行了壓縮和量化,平均每個權重低于4位。
量化后的模型通常會有一定程度的質量損失。因此,研發(fā)團隊并不是直接將量化模型交給應用團隊進行功能開發(fā),而是附加了一組參數高效的LoRA適配器來恢復模型質量。
然后,各產品團隊會通過從精度恢復適配器(accuracy-recovery adapters)初始化適配器權重,微調其特定功能的LoRA適配器,同時保持量化的基礎模型不變。
值得注意的是,訓練精度恢復適配器是樣本高效的,可以看作是訓練基礎模型的迷你版本。
其中,在適配器的預訓練階段,只需要大約100億個token(約占基礎模型訓練的0.15%)即可完全恢復量化模型的能力。
由于應用適配器將從這些精度恢復適配器進行微調,它們不會產生任何額外的內存使用或推理成本。
關于適配器的大小,團隊發(fā)現秩為16的適配器在模型容量和推理性能之間提供了最佳平衡。
然而,為了提供更多的靈活性,蘋果提供了一套不同秩的精度恢復適配器供應用團隊選擇。
量化
精度恢復適配器帶來的另一個好處是它們允許更靈活的量化方案選擇。
過去在量化大語言模型時,通常會將權重分成小塊,通過對應的最大絕對值來規(guī)范每個塊,以過濾掉異常值,然后在塊的基礎上應用量化算法。
雖然較大的塊大小會降低每個權重的有效位數并提高吞吐量,但量化損失也會增加。為了平衡這種權衡,通常將塊大小設置為較小的值,如64或32。
但在蘋果的實驗中,團隊發(fā)現精度恢復適配器可以顯著改善這種權衡的帕累托前沿(Pareto front)。
對于更激進的量化方案,更多的錯誤將被恢復。因此,蘋果能夠為AFM使用高效的量化方案,而不必擔心模型容量的損失。
混合精度量化
每個Transformer塊和AFM的每一層中都有殘差連接。因此,不太可能所有層都具有相同的重要性。
基于這一直覺,蘋果通過將某些層推向2位量化(默認是4位)來進一步減少內存使用。
平均而言,AFM設備上的模型可以壓縮到每個權重大約3.5位(bpw)而不會顯著喪失質量。
在生產中,蘋果選擇使用3.7bpw,因為這已經滿足了內存需求。
評估結果
預訓練
表2展示了AFM-on-device和AFM-server在HELM MMLU v1.5.0上的結果,該測試在57個科目中進行5樣本多項選擇題回答。
表3和表4分別展示了AFM-server在HuggingFace OpenLLM排行榜V1,以及HELM-Lite v1.5.0基準上的結果。
可以看到,AFM預訓練模型有著強大的語言和推理能力,從而為后訓練和特征微調提供了堅實的基礎。
后訓練
人類評估
對于蘋果AI的應用場景來說,人類評估更貼近用戶體驗。
為了評估模型的一般能力,團隊收集了1393個全面的提示集。
這些提示可謂包羅萬象,涵蓋了不同類別以及不同難度級別,包括:分析推理、頭腦風暴、聊天機器人、分類、封閉式問題回答、編碼、提取、數學推理、開放式問題回答、重寫、安全性、總結和寫作。
圖3展示了AFM與開源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商業(yè)模型(GPT-3.5和GPT-4)的比較。
結果發(fā)現,人類評估者更偏愛AFM模型而不是競爭對手模型。
特別是,盡管AFM-on-device的模型尺寸小25%,但與Phi-3-mini相比,其勝率為47.7%,甚至超過了參數數量超兩倍的開源強基線Gemma-7B和Mistral-7B。
與閉源模型相比,AFM-server也表現出了一定競爭力,對GPT-3.5的勝率超過50%,平局率為27.4%。
指令跟隨
指令跟隨(Instruction following, IF)是蘋果團隊對語言模型寄予厚望的核心能力,因為現實世界的提示或指令通常都很復雜。
這里,團隊采用的公共IFEval基準,可以評估大語言模型在生成響應時能否精確遵循提示中的指令。其中通常包括對響應的長度、格式和內容等方面的具體要求。
如圖4所示,AFM-on-device和AFM-server在指令級和提示級準確性上都表現出色。
此外,蘋果團隊還在AlpacaEval2.0LC基準測試上對AFM模型進行了基準測試,以衡量其一般指令跟隨能力,結果表明其模型具有很強的競爭力。
工具使用
在工具使用的應用場景中,模型在收到用戶請求和一系列帶有描述的潛在工具列表后,可以通過提供結構化輸出來選擇調用特定工具,并指定工具名稱和參數值。
團隊通過函數調用的本地支持,使用AST指標在公共Berkeley Function Calling Leaderboard基準測試上對模型進行了評估。
如圖5所示,AFM-server在整體準確性上表現最佳,超越了Gemini-1.5-Pro-Preview-0514和GPT-4。
寫作
寫作是大語言模型最重要的能力之一,因為它能夠支持多種下游應用,如改變語氣、重寫和總結。
團隊在內部的總結和寫作基準測試中評估了AFM的寫作能力。并遵循LLM-as-a-judge的方法,為每個總結和寫作任務設計了評分指令,并提示GPT-4Turbo為模型響應打分,評分范圍為1到10。
如圖6所示,AFM-on-device在與Gemma-7B和Mistral-7B的比較中表現出相當或更優(yōu)的性能。而AFM-server則顯著優(yōu)于DBRX-Instruct和GPT-3.5,甚至與GPT-4不相上下。
值得注意的是,使用LLM評分會存在一些限制和偏見,例如長度偏見。
數學
在圖7中,團隊比較了AFM在數學基準測試中的表現。
其中,研究人員對GSM8K使用8-shot CoT提示,對MATH使用4-shot CoT提示。
結果顯示,AFM-on-device即使在不到Mistral-7B和Gemma-7B一半大小的情況下,也顯著優(yōu)于這兩者。
摘要功能
產品團隊針對電子郵件、消息和通知的摘要制定了一套定制的指南、指標和專門的評分標準,用于評估摘要質量,采用各種開源、許可和專有數據集。
根據預定義的產品規(guī)范,如果任何子維度被評為「差」,則該摘要被歸類為「差」。同樣,只有當所有子維度都被評為「好」時,摘要才被歸類為「好」。
圖8顯示,AFM-on-device+適配器的整體表現,要優(yōu)于Phi-3-mini、Llama-3-8B和Gemma-7B。
安全評估
圖9展示了人類評審針對模型違規(guī)的評估結果,數值越低越好。
可以看到,AFM-on-device和AFM-server在應對對抗性提示方面表現出很強的魯棒性,違規(guī)率顯著低于開源和商業(yè)模型。
圖10則展示了人類評審對于安全評估提示的偏好。
由于可以提供更安全、更有幫助的響應,AFM模型再次拿下一局。
以上,是蘋果AI模型的關鍵一瞥。
蘋果AI能力,所有人究竟什么時候可以用得上?
每年,蘋果會在秋季發(fā)布會上推出新品,iOS18初始版本將會隨著iPhone16同時推出。
不過,人人都可體驗那時,還需要等到10月。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
京東11.11采銷直播探廠為消費者揭開答案。近日,京東3C數碼采銷走進武漢攀升工廠、合肥聯想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產品,并為消費者帶來超值低價與福利。
奧維云網(AVC)推總數據顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。