一直以來(lái),蘋果在大模型、語(yǔ)音助手上的研究不斷推陳出新,或許我們能夠從中獲得iOS 18所具備AI能力的關(guān)鍵一瞥。
「Siri太笨,根本無(wú)法與ChatGPT競(jìng)爭(zhēng)」,前蘋果工程師John Burkey曾對(duì)Siri的評(píng)價(jià)如此不堪。
不過(guò),誕生于11年的Siri,終于要迎來(lái)翻身的機(jī)會(huì)。
ChatGPT橫空出世之后,微軟、谷歌等科技巨頭,甚至OpenAI、Anthorpic AI等初創(chuàng),都在你追我趕激烈地角逐。
在AI競(jìng)賽上,蘋果卻一直姍姍來(lái)遲。
其實(shí),早有傳言和報(bào)道稱,在過(guò)去幾個(gè)月中,蘋果實(shí)際上一直再等待一個(gè)時(shí)機(jī),做出反擊。
先是與谷歌談判被爆出,后是與OpenAI開展合作,預(yù)計(jì)將AI模型能力整合進(jìn)下一代iOS 18系統(tǒng)中。
除此以外,蘋果研究團(tuán)隊(duì)也在一直開發(fā)自己的模型——Ajax。
而且,最近幾個(gè)月,蘋果在大模型等研究上的成果頻出,意味著這些AI能力可能會(huì)成為現(xiàn)實(shí)。
距6月開發(fā)者大會(huì)WWDC,也就不過(guò)一個(gè)月左右的時(shí)間,或許我們可以從這些研究中,一瞥蘋果的AI能力。
更小、更高效LLM裝進(jìn)iPhone
相信所有人的期望都是一樣的——想要一個(gè)更好的Siri。
而現(xiàn)在看起來(lái),換新的Siri即將到來(lái),完成超強(qiáng)進(jìn)化!
ChatGPT之后,大模型誕生的數(shù)量也是數(shù)不勝數(shù),然而許多科技公司都希望LLM能夠賦能虛擬助手,讓其變得更優(yōu)秀,更智能。
對(duì)于蘋果來(lái)說(shuō),想要讓Siri不再被人,說(shuō)笨就需要盡快構(gòu)建這些模型,讓其能裝進(jìn)手機(jī)。
彭博最近報(bào)道,在iOS 18中,蘋果計(jì)劃讓所有AI功能,都運(yùn)行在設(shè)備上,而且可以完全離線使用。
而現(xiàn)在的困難是,即便你有一個(gè)數(shù)據(jù)中心和數(shù)千個(gè)GPU組成的網(wǎng)絡(luò),要建立一個(gè)良好的多用途的模型,并裝進(jìn)手機(jī),是非常困難的。
因此,蘋果不得不發(fā)揮創(chuàng)意。
在一篇名為L(zhǎng)LM in a flash: Efficient Large Language Model Inference with Limited Memory的論文中,研究人員設(shè)計(jì)了一個(gè)系統(tǒng),可以將通常存儲(chǔ)在設(shè)備RAM中的模型數(shù)據(jù),存儲(chǔ)到固態(tài)硬盤(SSD)上。
具體來(lái)說(shuō),研究證明了,在SSD上運(yùn)行的LLM的大小,可以達(dá)到可用DRAM的2倍。
與傳統(tǒng)的CPU加載方法相比,推理速度提高了4-5倍,而GPU提高了20-25倍。
他們發(fā)現(xiàn) ,通過(guò)利用設(shè)備上最廉價(jià)的可用存儲(chǔ)模型,模型可以運(yùn)行得更快、更高效。
此外,蘋果的研究人員還創(chuàng)建了,一個(gè)名為EELBERT的系統(tǒng),可以將大模型壓縮到更小的規(guī)模,同時(shí)不影響其性能。
通過(guò)對(duì)谷歌Bert模型進(jìn)行壓縮后,體積縮小了15倍,只有1.2兆字節(jié),質(zhì)量只降低了4%。
不過(guò),這也帶來(lái)了一些延遲問(wèn)題。
論文地址:https://arxiv.org/pdf/2310.20144
總而言之,蘋果正努力解決模型領(lǐng)域的一個(gè)核心矛盾:模型越大越好用,但在終端上耗電快運(yùn)行慢。
與其他科技公司一樣,蘋果正在這一點(diǎn)上找到平衡。
Siri完成超進(jìn)化!
蘋果研究AI終歸解決一個(gè)至關(guān)重要的問(wèn)題,如何讓Siri變得更加出色。
在內(nèi)部,蘋果團(tuán)隊(duì)設(shè)想開發(fā)一種,無(wú)需喚醒詞Hey Siri或Siri,就能使用AI助手的方法。
沒有聲音提示,那該如何讓設(shè)備通過(guò)「直覺」判斷一個(gè)人在講話?
這一難題,比語(yǔ)音觸發(fā)檢測(cè)更具挑戰(zhàn)性。
蘋果研究團(tuán)隊(duì)不得不承認(rèn),這是因?yàn)榭赡軟]有一個(gè)主要的觸發(fā)語(yǔ),來(lái)標(biāo)志語(yǔ)音命令的開始。
論文地址:https://arxiv.org/pdf/2403.14438
這也許就是,為什么另一組研究人員,開發(fā)出了一個(gè)系統(tǒng)可以更準(zhǔn)確地檢測(cè)喚醒詞。
論文地址:https://arxiv.org/pdf/2309.16036
具體來(lái)說(shuō),作者提出了語(yǔ)音觸發(fā)(VT)的多通道聲學(xué)模型,將前端的多通道輸出直接輸入VT模型。
他們采用了TAC(Transform-Average-Conatenate)模塊,并通過(guò)合并來(lái)自傳統(tǒng)通道選擇的通道,對(duì)TAC模塊進(jìn)行了修改,讓模型能夠在存在多個(gè)說(shuō)話人的情況下關(guān)注目標(biāo)說(shuō)話人。
與基線通道選擇方法相比,該方法的誤拒率降低了30%。
而在另一篇論文中,研究人員訓(xùn)練了一個(gè)模型,以更好地理解不太容易被AI助手理解的罕見詞。
論文地址:https://arxiv.org/pdf/2310.07062
在這兩種情況中,LLM的魅力在于,理論上它可以更快地處理更多信息。
例如,在關(guān)于喚醒詞的研究中,研究人員發(fā)現(xiàn),如果不試圖摒棄所有不必要的聲音,而是把所有聲音都輸入模型,讓它來(lái)處理哪些是重要的,哪些是不重要的,那么喚醒詞的效果就會(huì)可靠得多。
一旦Siri聽到你的聲音,蘋果就會(huì)做很多工作,以確保它能更好地理解和溝通。
在另一篇論文中,蘋果還開發(fā)了一個(gè)名為STEER系統(tǒng),旨在改善用戶與助手之間的交流。
論文地址:https://arxiv.org/pdf/2310.16990
在另一個(gè)例子中,它使用LLM來(lái)更好地理解「模棱兩可的問(wèn)題」,無(wú)論你怎么說(shuō),它都能弄清楚你的意思。
在不確定的情況下,智能對(duì)話智能體可能需要主動(dòng)提出好的問(wèn)題,從而更有效地解決問(wèn)題,從而減少不確定性。
在另一篇論文也旨在幫助解決這個(gè)問(wèn)題,研究人員利用大模型使助手在生成答案時(shí)不再冗長(zhǎng),更容易理解。
蘋果每個(gè)應(yīng)用,將被AI重構(gòu)
除了關(guān)注原始的技術(shù)發(fā)展,蘋果也非常關(guān)注人工智能的日常應(yīng)用。
對(duì)于蘋果來(lái)說(shuō),一個(gè)重點(diǎn)領(lǐng)域就是健康:
LLM可以幫助分析處理各種設(shè)備收集到的大量生物識(shí)別數(shù)據(jù),并幫助理解這些數(shù)據(jù)。
蘋果可以通過(guò)研究收集和整理你的所有運(yùn)動(dòng)數(shù)據(jù),利用步態(tài)識(shí)別和耳機(jī)來(lái)識(shí)別你的身份,以及如何跟蹤和理解你的心率數(shù)據(jù),來(lái)監(jiān)測(cè)你的身體狀況,為你提供合適的安全建議。
蘋果還把人工智能想象成一種創(chuàng)造性工具。
在2月發(fā)表的一篇論文中,蘋果團(tuán)隊(duì)采訪了一批動(dòng)畫師、設(shè)計(jì)師和工程師,并構(gòu)建了一個(gè)KeyFramer系統(tǒng)。
這一系統(tǒng),可以讓用戶迭代地構(gòu)建和改進(jìn)生成的設(shè)計(jì)。
用戶只需要先輸入一個(gè)提示,然后得到一個(gè)工具包,可以根據(jù)自己的喜好調(diào)整和完善圖片的某些部分。
此外,蘋果還有開發(fā)了一款名為MGIE的工具,可以讓你通過(guò)描述內(nèi)容來(lái)編輯圖片(比如「讓天空更藍(lán)」、「讓我的臉不那么怪異」、「添加一些石頭」等等)。
論文中,研究人員表示,MGIE不需要簡(jiǎn)短但含糊的提示,便可以明確地推導(dǎo)出視覺感知的意圖,從而實(shí)現(xiàn)合理的圖像編輯。
「最初的實(shí)驗(yàn)并不完美,但令人印象深刻」。
未來(lái),蘋果還有可能將AI用在音樂(lè)中。
在一篇名為Resource-constrained Stereo Singing Voice Cancellation的論文中,研究人員探索了將歌曲中的聲音與樂(lè)器分離的方法。
比如,像在TikTok或Instagram上那樣混音歌曲,這個(gè)AI可能會(huì)派上用場(chǎng)。
隨著時(shí)間的推移,蘋果會(huì)在iOS 上,在自身的生態(tài)系統(tǒng)中內(nèi)置一些功能,也會(huì)以API的形式提供給第三方開發(fā)者。
之前蘋果一直在大肆宣傳自己的硬件能力,尤其是與普通的安卓設(shè)備相比。
將所有這些功率與設(shè)備上注重隱私的人工智能相結(jié)合,可能會(huì)成為蘋果一個(gè)很大的差異化優(yōu)勢(shì)。
這次iOS 18強(qiáng)勢(shì)來(lái)襲,網(wǎng)友一如既往地對(duì)蘋果期待感滿滿。
值得一提的是,蘋果在多模態(tài)大模型方面研究,也引來(lái)眾多的關(guān)注。
Ferret堪稱蘋果最大型、最雄心勃勃的人工智能項(xiàng)目。輸入提示之后,它可以關(guān)注你選擇的特定事物,并理解周圍的世界。
甚至,F(xiàn)erret還可以幫助你導(dǎo)航應(yīng)用程序、回答有關(guān)App Store評(píng)級(jí)的問(wèn)題、描述你正在看的內(nèi)容等等。
一旦這種技術(shù)得以應(yīng)用,可能徹底改變每個(gè)人使用手機(jī)的方式,以及Vision Pro和智能眼鏡的使用方式。
雖然目前這些都只是研究成果,但是如果能在今年春天開始順利運(yùn)行,那將是一項(xiàng)聞所未聞的技術(shù)成就。
WWDC大會(huì)即將發(fā)布的大型人工智能模型,必然會(huì)把技術(shù)狂歡推向新一輪的高潮。
蘋果或會(huì)全面改版iPhone產(chǎn)品,也就意味著你的下一臺(tái)iPhone不必是iPhone。
這一切都在庫(kù)克的預(yù)料之中,接下來(lái)就等著瞧好吧。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。