“客服來電”有詐?抖音客服上線“驗證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達(dá)預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運營商e&,展示全球首個固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運營商11月成績單:用戶數(shù)據(jù)增幅放緩打造下一個英偉達(dá),孫正義的2026芯片計劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢AI時代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強金融大模型 Baichuan4-Finance年末家電消費觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進(jìn)展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型谷歌向投資者保證人工智能本月將迎來“驚人”表現(xiàn)多模態(tài)大模型引爆應(yīng)用場景 階躍星辰完成數(shù)億美元融資星動紀(jì)元發(fā)布端到端原生機器人大模型ERA-42 實現(xiàn)機器人復(fù)雜場景操作免費模式強攻下,快手、抖音用“短劇VIP”反擊?
  • 首頁 > 云計算頻道 > 大模型

    蘋果AI震撼上線iPhone,進(jìn)化版Siri卻沒有ChatGPT!47頁技術(shù)報告揭秘自研模型

    2024年07月30日 15:38:56   來源:新智元公眾號

      今早,所有開發(fā)者們被突如其來iOS18.1測試版砸暈了!沒想到,蘋果AI這就可以上手嘗鮮了,一大波測評刷屏全網(wǎng)。更驚喜的是,蘋果AI背后的基礎(chǔ)模型47頁技術(shù)報告,也一并上線了。

      一大早,人們期待已久的「蘋果AI」首個預(yù)覽版,正式向開發(fā)者們推送了!

      iOS18.1、iPadOS18.1、macOS Sequoia15.1三大系統(tǒng)中,全都植入了蘋果AI的最新能力。

      那些首批拿到iOS18.1測試版的用戶,已經(jīng)在歡呼雀躍,一波又一波的實測分享鋪屏全網(wǎng)。

      最新推出的預(yù)覽版,包含了許多驚喜(速覽版):

      全新Siri:喚醒時會在屏幕邊緣亮起柔光;與用戶交流,可在文本語音之間隨意切換;說話者磕磕絆絆時,也能聽懂指令;還可以回答有關(guān)蘋果產(chǎn)品故障排除問題

      寫作工具(Writing Tools):可在任何場景中,對文本改寫、校對和總結(jié)摘要。(備忘錄、文檔、三方APP均可)

      專注模式(Reduce Interruptions):僅顯示需要即刻看到的通知

      照片功能:用自然語言搜索照片,制作影片

      為郵件、信息和語音郵件轉(zhuǎn)錄生成人工智能摘要

      此外,還有一些功能,蘋果表示將在明年推出,包括ChatGPT集成、圖像/Emoji生成、照片自動清理、具有屏幕感知的超強Siri。

      順便提一句,目前,iOS18.1測試版(包括iPadOS、macOS)僅限美國開放,國內(nèi)還未上線。

      而且,手機中也只有iPhone15Pro、iPhone15Pro Max支持新系統(tǒng)。

      根據(jù)系統(tǒng)介紹,iOS18.1測試版占用的內(nèi)存空間共15.44GB,其中iOS系統(tǒng)容量12.58GB,而蘋果AI僅占用了2.86GB。

      這是因為,蘋果用在端側(cè)設(shè)備上的模型,參數(shù)僅有30億。

      關(guān)于模型更詳細(xì)的介紹,全都藏在了新鮮出爐的蘋果AI技術(shù)報告中。

      48頁超長論文中,覆蓋了蘋果LLM的設(shè)計與評估,包括架構(gòu)、數(shù)據(jù)管理、預(yù)訓(xùn)練和后訓(xùn)練的recipe、優(yōu)化、功能適應(yīng)、和評估結(jié)果。

      具體來說,蘋果開發(fā)了兩種全新基礎(chǔ)語言模型,構(gòu)成了蘋果AI的核心:

      一個是端側(cè)模型AFM-on-device,大約有30億參數(shù),優(yōu)化后可以在iPhone和其他終端設(shè)備上運行,具備更高效率和響應(yīng)能力。

      另一個是可以在蘋果云服務(wù)器中運行的更大參數(shù)的模型,稱為AFM-server,專為密集型任務(wù)設(shè)計,并使用私人云計算(Private Cloud Compute)的系統(tǒng)來保護(hù)用戶數(shù)據(jù)。

      還記得上個月的WWDC大會上,庫克向全世界宣布了蘋果AI的強大功用,讓蘋果全家桶得到了史詩級升級。

      全網(wǎng)紛紛認(rèn)為AI瞬間不香了,還是得看蘋果AI。

      一般來說,蘋果通常會最先發(fā)布iOS18主系統(tǒng)。

      卻沒想到,這次蘋果竟在這么短的時間內(nèi),先將測試版送到首批開發(fā)者手中。

      這一點,彭博社最新報道中指出,蘋果打破一貫的軟件發(fā)布節(jié)奏,是因為蘋果AI還需要更多測試時間。

      不知,首批嘗鮮者們,都發(fā)現(xiàn)了哪些新大陸?

      網(wǎng)友實測

      蘋果科技博主Brandon Butch第一時間,制作了展示iOS18.1測試版中蘋果AI功能最全面的視頻解說。

      再磕磣的話,都能和順悅耳

      他表示,蘋果AI幫助自己找到了一種更好的方式,表達(dá)自己想說的話。

      在消息界面中,輸入框?qū)懴孪胝f的話。

      然后全選點擊蘋果AI按鈕,就可以利用寫作工具中的「友好的」,AI立刻將這段話的語氣變得更加婉轉(zhuǎn)。

      再來看另一位網(wǎng)友,特意寫了一句臟話,讓AI改寫后舒坦了許多。

      語法錯字校對

      另外,Butch驚嘆道,Grammarly已經(jīng)被扼殺了,這才是真正的蘋果AI。

      就看下面這段話中,informutive拼寫錯誤,what首字母沒有大寫,還有what do you think末尾應(yīng)該是問號,而不是句號。

      可以看出,蘋果AI全都幫你糾正過來了。

      還有郵件中蘋果AI能力,聽著就讓人瘋狂。

      同樣支持如上備忘錄、信息中的寫作工具的能力,包括校對、重寫等等。

      一封郵件的總結(jié),會在最上面呈現(xiàn)出來。

      蘋果AI寫作工具的動畫效果「非常蘋果」,比起模型回應(yīng)時的密集標(biāo)token流,一切顯得那么平滑。

      全新Siri,反應(yīng)超絲滑

      再看呼叫Siri的屏幕邊緣效果,不得不說蘋果你是最懂設(shè)計的。

      再來看iPad版的Siri。

      Humane的AI工程師,蘋果前工程師測試Siri后稱贊道,蘋果AI速度非常、非常地快。

      喚醒Siri,問一問埃菲爾鐵塔有多高?它位于哪里?

      順便再讓它推送一些關(guān)于巴黎奧運會近期新聞,以及如何觀看奧運會賽事。

      不一會兒功夫,蘋果AI都給解答了。

      AI轉(zhuǎn)錄總結(jié),重要電話內(nèi)容不怕遺漏

      此外,蘋果AI還可以幫你將電話轉(zhuǎn)錄成筆記,記錄下你所談?wù)摰膬?nèi)容。

      如果按下錄音按鈕,主叫方和受話方都會播放提示音,提示通話將被錄音。

      錄音完成后,可直接行通知浮窗進(jìn)入查看錄音內(nèi)容。

      專注模式

      使用蘋果AI來自動分析通知內(nèi)容,檢測重要通知!

      重要人的通知,就會pin在屏幕最下方。

      照片搜索,吐槽不少

      當(dāng)然了,iOS18.1之所以最先推出,就是為了讓開發(fā)者們多多測試,去發(fā)現(xiàn)報告問題,更好地改進(jìn)蘋果AI能力。

      這不,一位YouTube博主在測試照片功能時,卻發(fā)現(xiàn)Siri依舊「智障」。

      博主最先問了一句,「Siri向我展示2022年感恩節(jié)旅行的照片」。Siri卻回答:打開健康應(yīng)用程序的次數(shù)....

      然后,他再次重復(fù)了剛剛的問題,「Siri,從照片中查找關(guān)于感恩節(jié)的照片」。

      搞笑的的是,Siri直接從互聯(lián)網(wǎng)上搜索了一大堆感恩節(jié)相關(guān)的圖片。

      當(dāng)他再次問道,「Siri,向我展示去臺灣旅行的照片」,Siri將原話聽成了關(guān)鍵詞,從網(wǎng)上搜索了「My Trip to Twaiwan」。

      然后他繼續(xù)問,Siri依舊不知所云。

      固執(zhí)的博主,破碎的Siri,簡直笑不活了.....

      正如開頭所述,能夠把蘋果AI裝進(jìn)終端設(shè)備,背后是來自團(tuán)隊自研的基礎(chǔ)模型,在發(fā)光發(fā)熱。

      iPhone的AI革命:30億參數(shù)裝進(jìn)口袋

      具體來說,AFM是一款基于Transformer架構(gòu)的僅解碼器稠密模型。

      其設(shè)計思路如下:

      共享輸入/輸出嵌入矩陣,減少參數(shù)的內(nèi)存使用

      使用RMSNorm的預(yù)歸一化,提高訓(xùn)練穩(wěn)定性

      查詢/鍵歸一化,提高訓(xùn)練穩(wěn)定性

      具有8個鍵值頭的分組查詢注意力(GQA),減少KV緩存的內(nèi)存占用

      更高效的SwiGLU激活

      基礎(chǔ)頻率為500k的RoPE位置嵌入,支持長上下文

      適配器架構(gòu)

      通過使用LoRA適配器,蘋果的基礎(chǔ)模型可以動態(tài)地根據(jù)當(dāng)前任務(wù)即時專門化。

      這些小型神經(jīng)網(wǎng)絡(luò)模塊可以插入基礎(chǔ)模型的各個層,用于對模型進(jìn)行特定任務(wù)的微調(diào)。

      為了促進(jìn)適配器的訓(xùn)練,蘋果還創(chuàng)建了一個高效的基礎(chǔ)設(shè)施,使得基礎(chǔ)模型或訓(xùn)練數(shù)據(jù)更新或需要新功能時,能夠快速添加、重新訓(xùn)練、測試和部署適配器。

      優(yōu)化

      由于需要滿足用戶的日常使用,因此團(tuán)隊采用了多種優(yōu)化和量化技術(shù),在保持模型質(zhì)量的同時,顯著減少了內(nèi)存占用、延遲和功耗。

      方法

      在后訓(xùn)練階段,蘋果對模型進(jìn)行了壓縮和量化,平均每個權(quán)重低于4位。

      量化后的模型通常會有一定程度的質(zhì)量損失。因此,研發(fā)團(tuán)隊并不是直接將量化模型交給應(yīng)用團(tuán)隊進(jìn)行功能開發(fā),而是附加了一組參數(shù)高效的LoRA適配器來恢復(fù)模型質(zhì)量。

      然后,各產(chǎn)品團(tuán)隊會通過從精度恢復(fù)適配器(accuracy-recovery adapters)初始化適配器權(quán)重,微調(diào)其特定功能的LoRA適配器,同時保持量化的基礎(chǔ)模型不變。

      值得注意的是,訓(xùn)練精度恢復(fù)適配器是樣本高效的,可以看作是訓(xùn)練基礎(chǔ)模型的迷你版本。

      其中,在適配器的預(yù)訓(xùn)練階段,只需要大約100億個token(約占基礎(chǔ)模型訓(xùn)練的0.15%)即可完全恢復(fù)量化模型的能力。

      由于應(yīng)用適配器將從這些精度恢復(fù)適配器進(jìn)行微調(diào),它們不會產(chǎn)生任何額外的內(nèi)存使用或推理成本。

      關(guān)于適配器的大小,團(tuán)隊發(fā)現(xiàn)秩為16的適配器在模型容量和推理性能之間提供了最佳平衡。

      然而,為了提供更多的靈活性,蘋果提供了一套不同秩的精度恢復(fù)適配器供應(yīng)用團(tuán)隊選擇。

      量化

      精度恢復(fù)適配器帶來的另一個好處是它們允許更靈活的量化方案選擇。

      過去在量化大語言模型時,通常會將權(quán)重分成小塊,通過對應(yīng)的最大絕對值來規(guī)范每個塊,以過濾掉異常值,然后在塊的基礎(chǔ)上應(yīng)用量化算法。

      雖然較大的塊大小會降低每個權(quán)重的有效位數(shù)并提高吞吐量,但量化損失也會增加。為了平衡這種權(quán)衡,通常將塊大小設(shè)置為較小的值,如64或32。

      但在蘋果的實驗中,團(tuán)隊發(fā)現(xiàn)精度恢復(fù)適配器可以顯著改善這種權(quán)衡的帕累托前沿(Pareto front)。

      對于更激進(jìn)的量化方案,更多的錯誤將被恢復(fù)。因此,蘋果能夠為AFM使用高效的量化方案,而不必?fù)?dān)心模型容量的損失。

      混合精度量化

      每個Transformer塊和AFM的每一層中都有殘差連接。因此,不太可能所有層都具有相同的重要性。

      基于這一直覺,蘋果通過將某些層推向2位量化(默認(rèn)是4位)來進(jìn)一步減少內(nèi)存使用。

      平均而言,AFM設(shè)備上的模型可以壓縮到每個權(quán)重大約3.5位(bpw)而不會顯著喪失質(zhì)量。

      在生產(chǎn)中,蘋果選擇使用3.7bpw,因為這已經(jīng)滿足了內(nèi)存需求。

      評估結(jié)果

      預(yù)訓(xùn)練

      表2展示了AFM-on-device和AFM-server在HELM MMLU v1.5.0上的結(jié)果,該測試在57個科目中進(jìn)行5樣本多項選擇題回答。

      表3和表4分別展示了AFM-server在HuggingFace OpenLLM排行榜V1,以及HELM-Lite v1.5.0基準(zhǔn)上的結(jié)果。

      可以看到,AFM預(yù)訓(xùn)練模型有著強大的語言和推理能力,從而為后訓(xùn)練和特征微調(diào)提供了堅實的基礎(chǔ)。

      后訓(xùn)練

      人類評估

      對于蘋果AI的應(yīng)用場景來說,人類評估更貼近用戶體驗。

      為了評估模型的一般能力,團(tuán)隊收集了1393個全面的提示集。

      這些提示可謂包羅萬象,涵蓋了不同類別以及不同難度級別,包括:分析推理、頭腦風(fēng)暴、聊天機器人、分類、封閉式問題回答、編碼、提取、數(shù)學(xué)推理、開放式問題回答、重寫、安全性、總結(jié)和寫作。

      圖3展示了AFM與開源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商業(yè)模型(GPT-3.5和GPT-4)的比較。

      結(jié)果發(fā)現(xiàn),人類評估者更偏愛AFM模型而不是競爭對手模型。

      特別是,盡管AFM-on-device的模型尺寸小25%,但與Phi-3-mini相比,其勝率為47.7%,甚至超過了參數(shù)數(shù)量超兩倍的開源強基線Gemma-7B和Mistral-7B。

      與閉源模型相比,AFM-server也表現(xiàn)出了一定競爭力,對GPT-3.5的勝率超過50%,平局率為27.4%。

      指令跟隨

      指令跟隨(Instruction following, IF)是蘋果團(tuán)隊對語言模型寄予厚望的核心能力,因為現(xiàn)實世界的提示或指令通常都很復(fù)雜。

      這里,團(tuán)隊采用的公共IFEval基準(zhǔn),可以評估大語言模型在生成響應(yīng)時能否精確遵循提示中的指令。其中通常包括對響應(yīng)的長度、格式和內(nèi)容等方面的具體要求。

      如圖4所示,AFM-on-device和AFM-server在指令級和提示級準(zhǔn)確性上都表現(xiàn)出色。

      此外,蘋果團(tuán)隊還在AlpacaEval2.0LC基準(zhǔn)測試上對AFM模型進(jìn)行了基準(zhǔn)測試,以衡量其一般指令跟隨能力,結(jié)果表明其模型具有很強的競爭力。

      工具使用

      在工具使用的應(yīng)用場景中,模型在收到用戶請求和一系列帶有描述的潛在工具列表后,可以通過提供結(jié)構(gòu)化輸出來選擇調(diào)用特定工具,并指定工具名稱和參數(shù)值。

      團(tuán)隊通過函數(shù)調(diào)用的本地支持,使用AST指標(biāo)在公共Berkeley Function Calling Leaderboard基準(zhǔn)測試上對模型進(jìn)行了評估。

      如圖5所示,AFM-server在整體準(zhǔn)確性上表現(xiàn)最佳,超越了Gemini-1.5-Pro-Preview-0514和GPT-4。

      寫作

      寫作是大語言模型最重要的能力之一,因為它能夠支持多種下游應(yīng)用,如改變語氣、重寫和總結(jié)。

      團(tuán)隊在內(nèi)部的總結(jié)和寫作基準(zhǔn)測試中評估了AFM的寫作能力。并遵循LLM-as-a-judge的方法,為每個總結(jié)和寫作任務(wù)設(shè)計了評分指令,并提示GPT-4Turbo為模型響應(yīng)打分,評分范圍為1到10。

      如圖6所示,AFM-on-device在與Gemma-7B和Mistral-7B的比較中表現(xiàn)出相當(dāng)或更優(yōu)的性能。而AFM-server則顯著優(yōu)于DBRX-Instruct和GPT-3.5,甚至與GPT-4不相上下。

      值得注意的是,使用LLM評分會存在一些限制和偏見,例如長度偏見。

      數(shù)學(xué)

      在圖7中,團(tuán)隊比較了AFM在數(shù)學(xué)基準(zhǔn)測試中的表現(xiàn)。

      其中,研究人員對GSM8K使用8-shot CoT提示,對MATH使用4-shot CoT提示。

      結(jié)果顯示,AFM-on-device即使在不到Mistral-7B和Gemma-7B一半大小的情況下,也顯著優(yōu)于這兩者。

      摘要功能

      產(chǎn)品團(tuán)隊針對電子郵件、消息和通知的摘要制定了一套定制的指南、指標(biāo)和專門的評分標(biāo)準(zhǔn),用于評估摘要質(zhì)量,采用各種開源、許可和專有數(shù)據(jù)集。

      根據(jù)預(yù)定義的產(chǎn)品規(guī)范,如果任何子維度被評為「差」,則該摘要被歸類為「差」。同樣,只有當(dāng)所有子維度都被評為「好」時,摘要才被歸類為「好」。

      圖8顯示,AFM-on-device+適配器的整體表現(xiàn),要優(yōu)于Phi-3-mini、Llama-3-8B和Gemma-7B。

      安全評估

      圖9展示了人類評審針對模型違規(guī)的評估結(jié)果,數(shù)值越低越好。

      可以看到,AFM-on-device和AFM-server在應(yīng)對對抗性提示方面表現(xiàn)出很強的魯棒性,違規(guī)率顯著低于開源和商業(yè)模型。

      圖10則展示了人類評審對于安全評估提示的偏好。

      由于可以提供更安全、更有幫助的響應(yīng),AFM模型再次拿下一局。

      以上,是蘋果AI模型的關(guān)鍵一瞥。

      蘋果AI能力,所有人究竟什么時候可以用得上?

      每年,蘋果會在秋季發(fā)布會上推出新品,iOS18初始版本將會隨著iPhone16同時推出。

      不過,人人都可體驗?zāi)菚r,還需要等到10月。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。