為什么大模型到現(xiàn)在還沒出現(xiàn)太多實際應(yīng)用?問題可能出在硬件上。
近日,傳聞中的“iPhone殺手”AI Pin終于發(fā)貨了。不出意外地,它沒能躲過“出道即*”的命運。
不說“慢、笨、錯”這種常見“人工智障”問題。其中一條用戶反饋直接讓我笑擁了:“AI Pin的優(yōu)點是可以與手做互動,但它也只能與手互動。因為激光只能投在掌心,不能投到桌子或墻上。”
更絕的是,因為AI Pin的投屏距離固定,用戶可以領(lǐng)取“老花眼”體驗卡。
具體操作:1、舉起手臂,攤開手掌,進(jìn)行上下左右移動,讓AI Pin找到你的手掌;2、找準(zhǔn)后,輸入4位開機(jī)密碼,平均耗時約5秒;3、投屏面積取決于你的手掌大小,一掌約7 行文本,每行約1~3 個單詞。
使用提示!請保持身體與手掌相對靜止,如果出現(xiàn)微弱晃動,需要重新開機(jī);請將使用時間控制在3分鐘以內(nèi),以免過熱關(guān)機(jī);請在室內(nèi)使用,室外強(qiáng)光下會發(fā)生“投影消失術(shù)”。
就這,還要賣699美元,每月再收24美元訂閱費?難怪外媒給出《史上*重磅發(fā)布的AI硬件,就是垃圾》這樣直白的標(biāo)題。
總之,本該是亮點的交互卻成了*“槽點”,由Sam Altman投資,“蘋果團(tuán)隊”開發(fā)的“世界*AI硬件產(chǎn)品”像是個騙子。
如果AI Pin靠不住,“下一代便攜AI硬件”將由誰定義?
1、AI時代的“iPod”
在智能手機(jī)“一統(tǒng)天下”前,消費電子市場有過一段“群雄并起”的繽紛時光。
彼時,各類便攜式單功能硬件百花齊放:MP3、MP4、游戲機(jī)、數(shù)碼相機(jī),甚至是學(xué)習(xí)機(jī)。消費者們也習(xí)慣“一個褲兜裝手機(jī);另一個褲兜裝iPod”,直到iPhone將以上硬件變成了App。
如今,歷史正在重演,一些輪番上臺的“原生”硬件試圖借助大模型的東風(fēng),將用戶從智能手機(jī)中“解脫”出來。本質(zhì)上,他們其實是在嘗試借著AI對軟件的升級改造,造出另一款令人上癮的屏幕,用新的“坑”去覆蓋舊的“坑”。
但是,什么樣的交互方式,能替代用戶對智能手機(jī)的依賴?
首先引起轟動的就是上述AI Pin,由Humane公司開發(fā)。沒有手機(jī)、APP和屏幕,只有半個煙盒大小——重量34g的機(jī)身上搭載了驍龍?zhí)幚砥、?nèi)置GPT系列大模型,可以通過語音交互,也可以投影在手掌上交互。
在理想狀態(tài)下,僅僅通過“聽”和“看”,AI Pin就能理解用戶需求,然后通過AI軟件執(zhí)行任務(wù),宛如AI Agent。
但現(xiàn)實并不理想,根據(jù)AI Pin的*批用戶反饋,糟糕的評價包括但不限于“*作用是看時間”“愚蠢的投影”.......在產(chǎn)品功能上也存在一大堆“槽點”,比如續(xù)航能力不佳、只會重復(fù)對方說的話、反應(yīng)不靈敏總是出故障所以“錯將玉米糖漿識別為違禁品”。
根據(jù)外媒報道,實測人員抓一把杏仁,問AI Pin“這把杏仁含有多少蛋白質(zhì)”,得到的回答是“15g”,但實際上至少60顆杏仁才能包含15g蛋白質(zhì)。
外媒評價,如果將AI Pin視為自己的“第二大腦”,那么有一半時間都感覺像是“腦死亡”,在很多問題上,它根本無法給到用戶準(zhǔn)確的答案。
此外,在實際使用場景中,AI Pin也顯得有點“雞肋”,試想一下,在光線明亮的環(huán)境下,誰會頂著強(qiáng)光去觀看巴掌大小又凹凸不平的“人肉屏幕”呢?
隨后亮相CES 2024的Rabbit R1雖然造型不夠酷,但更靠譜。它搭載了一塊2.88英寸的觸摸屏,不需連接手機(jī),沒有內(nèi)置 App,可以通過SIM卡或WIFI聯(lián)網(wǎng)獨立使用。而且售價僅為199美元,并在發(fā)售24小時內(nèi),賣出了10000臺。
Rabbit R1的定位是AI Agent,其操作系統(tǒng)Rabbit OS基于LAM(大動作模型)開發(fā)。LAM能夠讓AI學(xué)會人類操作APP的方式,并通過與LLM結(jié)合,讓AI代替人類與APP交互。
因此,Rabbit R1更像一個通用的“APP控制器”,用戶不需要手機(jī)可以完成很多任務(wù):叫車、放歌、訂餐、訂酒店,甚至在Midjourney生成圖片。
Rabbit R1的早期投資人Vinod Khosla對其“跨APP工作”能力大為贊賞;微軟CEO納德拉更是贊不絕口:“這是繼iPhone之后,最令我印象深刻的產(chǎn)品之一”。
但在實際體驗中,這些贊美仿佛成了“賣家秀”,真實情況下的“買家秀”又是一回事,槽點之一便是Rabbit R1的反應(yīng)能力,有的用戶實測讓它識別菜單,卻足足等待數(shù)十秒,試想這樣的場景如果發(fā)生在著急打車回家的寒冷夜晚,在寒風(fēng)中佇立對著它說一句話要等半分鐘,心里陰影面積會有多大。就好像在電影《夏洛特?zé)⿶馈分,你問老爺?ldquo;馬冬梅在哪”,得出的回應(yīng)是“馬什么梅”一樣的無力感。
前兩者都是為了替代智能手機(jī)的“屏幕”,接下來這款受到馬斯克“寵愛”的智能硬件更聰明,它不會想著替代手機(jī),而是利用大模型給智能手機(jī)的功能添磚加瓦。
它就是近期在Kickstarter上*45萬美金的桌面機(jī)器人LOOI。
LOOI采用“手機(jī)+機(jī)身”分體設(shè)計,內(nèi)置ChatGPT功能,用以“喚醒”手機(jī)的靈魂。例如,當(dāng)你比OK時,它會自動幫你拍照保存;當(dāng)你大拇指朝下時,它會表達(dá)emo的表情和聲音等等。
因為擅長“賣萌”,LOOI俘獲了馬斯克的心,但它*的作用好像也只有“賣萌”。雖然它可以成為一個自動追蹤的攝像頭支架,偶爾擔(dān)當(dāng)攝影師;也可以在你不想工作時和你玩簡單的動作捕捉游戲。
但這些就像古早“寵物蛋”,提供的都是情緒價值。對了,目前最實用的功能是在你手機(jī)沒電時,變身為無線充電器。
總之,概念歸概念,無論是Sam Altman看好的AI Pin;OpenAI“*投資人”Vinod Khosla種草的Rabbit R1;或是最近馬斯克轉(zhuǎn)推的“AI寵物蛋”LOOI,更像是“真iPhone”加冕前的眾多有趣小玩意兒。
問題一:軟件重度依賴大模型。
AI Pin不連手機(jī),意味著其核心價值取決于ChatGPT,Sam Altman本人正是Humane公司的*股東。
Rabbit R1雖然打著LAM旗號,但扔掉LLM后只能算“漂亮空匣子”;一旦涉及LLM,其產(chǎn)品體驗又會大打折扣。
例如,當(dāng)用戶只使用LAM涉及的功能:請求播放一首歌;詢問“橙子和橘子區(qū)別”,Rabbit R1響應(yīng)速度在0.5秒以內(nèi)(AI Pin在6秒左右);而當(dāng)用戶想用LLM搜索最新信息,其響應(yīng)速度就會慢至7—8秒,涉及視覺信息則會更慢。
LOOI需要連接手機(jī),但它更像ChatGPT的手機(jī)附件,你甚至需要為了用它找到一部舊手機(jī),或再買一部手機(jī)。要知道,上一屆“寵物蛋”可是能獨立存活的。
問題二:硬件“雞肋”,門檻不高。
消費者要如何說服自己在手機(jī)之外,再額外攜帶另一個智能終端?
Rabbit CEO呂騁曾在采訪中表示:Rabbit確實可以成為一款A(yù)PP,但如果Rabbit只是個APP,就意味著蘋果公司能接觸到代碼。此外,當(dāng)Rabbit被放在和其他APP一樣的平臺上,會給自己帶來不安:如果明天出現(xiàn)了一個更好的APP怎么辦?
這段話很坦誠但經(jīng)不得起推敲,畢竟沒有“下一個更好的APP”,也可能出現(xiàn)“下一款更快的AI設(shè)備”。
實際上,Rabbit R1更像一個抓住巨頭“空窗期”,在短期內(nèi)走量的產(chǎn)品,且憑借199美元的良心價已經(jīng)取得了商業(yè)成功。Statista數(shù)據(jù)顯示,2024年1月發(fā)售的Rabbitr1,前五批已售出約50000 臺。第六批現(xiàn)已開放預(yù)訂,數(shù)量為50000件。相比之下,AI Pin標(biāo)價699 美元,每月24美元的訂閱費就顯得“吃相”難看。據(jù)其創(chuàng)始人透露:訂閱費是公司正向現(xiàn)金流的關(guān)鍵。
回到開頭,Rabbit R1是AI時代的iPod,但如果iPhone率先變成“AI iPhone”,還需要“AI iPod”嗎?
雖然這些基于大模型誕生的“原生”AI硬件槽點滿滿,但層出不窮的新硬件,說明很多人內(nèi)心蠢蠢欲動,正摩拳擦掌地想要大干一場,抓住大模型風(fēng)口,找出能*承載大模型的新介質(zhì)。
這些硬件試圖擺脫人與手機(jī)之間用“手指”劃屏的交互方式,更青睞于將人機(jī)交互的模式從“觸覺”轉(zhuǎn)移成用“視覺”識別、用“聽覺”傾聽的方式,說白了,其實就是想要造一個像人的大腦,能看得懂、聽得懂人類說話,至于能不能長得像人,就看人形機(jī)器人的發(fā)展程度了。
盡管這些硬件還有點“五感不全”的問題,但是隨著技術(shù)的進(jìn)步和提升,還可能不斷產(chǎn)生其它令人眼前一亮的創(chuàng)新。
除了“擺脫”手機(jī)或者用外在的硬件承接手機(jī),也有另一種創(chuàng)新路線,試圖通過完善操作系統(tǒng),打入手機(jī)內(nèi)部,讓手機(jī)變得更智能,各家都在嘗試做“AI手機(jī)”,蘋果甚至為此做了一套新的模型。
2、AI手機(jī)像“瓶裝水”
如果說兩周前,AI手機(jī)們還是爭先恐后的“口號產(chǎn)品”,現(xiàn)在隨著蘋果最新論文發(fā)布,真正的“AI iPhone”將提上日程。
論文提出了一個名為Ferret-UI的多模態(tài)模型,能夠“看懂”手機(jī)屏幕,并將自然語言翻譯為界面操作點來執(zhí)行各項任務(wù)。經(jīng)測試,F(xiàn)erret-UI在所有基本UI任務(wù)中均超過GPT-4V(OpenAI),在高級UI任務(wù)中超過Fuyu(Adept)和CogAgent(智譜AI)。
簡單來說,當(dāng)iPhone裝載Ferret-UI,Siri(高智商版)就會實現(xiàn),并像一個真正的AI Agent,代替你穿梭在各個APP之間。
是不是有點眼熟?沒錯,彼時Rabbit R1的核心功能將被完全覆蓋,位置非常尷尬。但它還有用武之地,因為Ferret-UI在Android環(huán)境中表現(xiàn)欠佳,留下的還有廣袤的Android市場,只是199美元的良心價恐怕還要再降了。
解決了大模型本地部署問題,AI手機(jī)的另一座大山就是將大模型塞進(jìn)手機(jī)(非云端部署),其中內(nèi)存升級迫在眉睫。
據(jù)中信證券統(tǒng)計:一個搭載100億參數(shù)大模型的手機(jī)約需要14-16GB內(nèi)存;搭載200億參數(shù)大模型的手機(jī)約需要20-24G內(nèi)存。
目前,高通發(fā)布的最新高端芯片驍龍8s Gen 3,支持在手機(jī)運行100億參數(shù)的大模型。這意味著:當(dāng)今年各大手機(jī)廠商宣布載入百億大模型時,“中高配”16G內(nèi)存將成為“丐版”。
另一個方案是“輕量化”大模型,包括模型裁剪、模型壓縮,但如此一來其性能又必然縮水,不如直接探索小模型的潛力。
這方面的贏家還是蘋果,其在2023年末發(fā)布的一篇論文打破了手機(jī)的“內(nèi)存墻”。
論文提到,蘋果通過Flash-LLM技術(shù),成功地在內(nèi)存有限的iPhone和其他蘋果設(shè)備上部署了LLM。數(shù)據(jù)顯示,設(shè)備能夠支持運行的模型大小達(dá)到了自身DRAM(處理器)的2倍;LLM的推理速度在Apple M1 Max CPU上提高了4-5倍,在GPU上提高了20-25倍。
總之,有了充足的軟硬件準(zhǔn)備,蘋果還未問世的“AI iPhone”很可能顛覆AI手機(jī)競爭格局。
至少從目前看來,三星等手機(jī)廠商狂推的AI手機(jī)實在不夠“AI”。
有品牌裝載70億參數(shù)大模型,但具體能干什么呢?實時翻譯、圖像美化,會議記錄.....這些你都可以從現(xiàn)有APP里找到影子,無非是更智能的有道翻譯、訊飛聽見和美圖秀秀。
更“卡脖子”的是,因為沒有自研芯片,端側(cè)大模型參數(shù)的天花板要看高通的天花板,而這意味著各家廠商狂推的AI手機(jī)就像“瓶裝水”,除了概念包裝,其他區(qū)別不大。
誠然,手機(jī)作為人人離不開的“器官”,最可能先被AI改造。但下一代AI設(shè)備必須是移動計算時代的手機(jī)嗎?有沒有可能直接“升維”到空間計算設(shè)備?
3、空間計算設(shè)備是“真iPhone”?
在《哈利波特與魔法石》中,鄧布利多輕點“老魔杖”,街邊路燈即刻亮起。
這就是空間計算,一種虛實融合的“空間魔法”。如果我們將空間計算設(shè)備類比為“老魔杖”,一種將現(xiàn)實世界進(jìn)行數(shù)字化改造的“圣器”;那么AI技術(shù)就是將一根平平無奇的“木棍”變成“老魔杖”的關(guān)鍵魔咒。
空間計算包含兩個階段:“空間感知”理解真實世界;“空間生成”生成虛擬世界。上屆AI小模型已經(jīng)解決了空間感知;這屆AI大模型則專注于“老大難”空間生成。
一方面,高質(zhì)量虛擬內(nèi)容的生成,始終制約VR行業(yè):內(nèi)容生態(tài)匱乏——用戶不買賬——開發(fā)者變少——內(nèi)容更匱乏。
另一方面,VR設(shè)備想實現(xiàn)更多功能,缺乏優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)集。
近期Meta CTO Andrew Bosworths談到:“文本,我們有整個互聯(lián)網(wǎng)作為資源。照片,F(xiàn)acebook和Instagram有龐大的圖庫。但對于3D對象,卻沒有一個大型、權(quán)威的數(shù)據(jù)庫。我們正在努力試圖改進(jìn)這個模態(tài)下的一切內(nèi)容,包括能夠?qū)С龈嗟?D內(nèi)容。”
如今,Sora的視頻生成能力有目共睹;同時,AIGC高質(zhì)量3D內(nèi)容也近在咫尺。
高通在《混合AI是AI未來》指出:Stable Diffusion將很快賦能內(nèi)容創(chuàng)作者在3D物體上生成逼真的紋理。一年內(nèi),這些功能會在智能手機(jī)上實現(xiàn),并延伸到XR終端。未來幾年,首批文本生成3D和圖像生成3D模型將實現(xiàn)邊緣側(cè)部署。
既然解法已經(jīng)給出,AI與空間計算設(shè)備的結(jié)合將成為下一個兵家必爭之地。
首先是軟件廠商來“卷”硬件。近期,以“眼光超前”著稱的Midjourney撬走了蘋果Vision Pro硬件工程經(jīng)理Ahmad Abbas,協(xié)助開發(fā)一個收集3D數(shù)據(jù),管理3D模型的工具,并在未來推出VR頭顯。
而原本的硬件玩家則按本機(jī)算力體系,兵分三路。
*類,蘋果M系列筆記本級別芯片,對應(yīng)頭顯Vision Pro。根據(jù)最新消息,蘋果M4芯片的生產(chǎn)已經(jīng)收尾,該系列芯片專注于AI。如果再加持上述Ferret-UI模型和Flash-LLM技術(shù),下一代Vision Pro則足以讓人期待。
第二類,高通驍龍系列移動級別(手機(jī))芯片,對應(yīng)頭顯Meta Quest。它的功耗低,集成度高,可以做成真一體機(jī)(集成化電池),生態(tài)有開放潛力(Meta Quest體系尚未開放)。但基礎(chǔ)算力在三類體系中“墊底”。其算力bug在“算力為王”的AIGC世界被格外凸顯,甚至淪落為不少人眼中的“大廠玩具”。
第三類,“雙英體系”:Intel(AMD)CPU+NVIDIA(AMD)GPU,對應(yīng)PC VR產(chǎn)品。海外Valve Index(主流大眾定位)、Varjo(高端高性能定位);國產(chǎn)HTC(主流大眾定位)、小派Pimax(高端高性能定位)。
優(yōu)點是算力最強(qiáng),可以跑動較大模型;生態(tài)開放,可以覆蓋幾乎所有的場景。缺點是集成度差,只能做分體式PC VR,曾一度被“高通體系”一體機(jī)壓制。
不過,在AIGC場景下,手握“算力優(yōu)勢”的“雙英體系”有望成為最早突破AI硬件的黑馬選手。
4、結(jié) 語
工具是思維的反映,思維同樣是工具的反映。
長期以來,人類渴望從屏幕中徹底解放出來,如今AI增加了人類世界的“智慧”,卻找不到一個盛放智慧的容器。
Humane將AI Pin定義為人們的“第二大腦”,通過硬件和人、環(huán)境的創(chuàng)新交互,來獲得類似智能手機(jī)的體驗。
這個定義適用于任何成熟的AI硬件,卻不適用于“半成品”AI Pin。
AI手機(jī)、AI PC,AI加持的空間計算設(shè)備,還是“成熟版”的AI Pin.....雖然我們不知道下一代AI設(shè)備最終由誰定義,但可以肯定的是一個生機(jī)勃勃的AI硬件新時代正在到來。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。