2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團隊煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄
  • 首頁 > 企業(yè)IT頻道 > ARVRMR

    AR界安卓在中國,Rokid引爆空間計算狂潮

    2023年08月28日 09:14:39   來源:光錐智能

      文丨劉雨琦

      你可能很難想象,在一個沒有顯示屏也沒有鼠標的空間,僅憑一副AR眼鏡和一臺口袋主機,就能完成一篇5000字的文章。

      沒錯,8月26日,在2023 Rokid Jungle 新品發(fā)布會現(xiàn)場,這樣的場景正在真實發(fā)生著。會上,Rokid 發(fā)布了消費級OST(光學透視)個人空間計算平臺 Rokid AR Studio,包括Rokid Max Pro(售價4999元)和Rokid Station Pro(售價3999元)兩大硬件產(chǎn)品。

      Rokid創(chuàng)始人、CEO祝銘明在發(fā)布會上表示:“讓空間計算能更自然地融入日常生活和工作,讓Rokid AR Studio成為你的第一臺空間計算機。”

      這和以往人們對AR眼鏡的認知有很大不同。在此之前,AR眼鏡一直被“鎖死”在娛樂場景中,靠影視和游戲兩大支柱產(chǎn)業(yè)生存,而Rokid AR Studio 真正成為了個人生產(chǎn)力工具,IM軟件、寫文章、寫代碼,搜索信息等等工作場景,都能通過最新的硬件完成。

      使用場景的擴展,讓AR設(shè)備從邊緣化的場景中,轉(zhuǎn)向更為實際的使用價值。消費者愿意買單,整個AR產(chǎn)業(yè)鏈才會進入消費級市場正循環(huán)。

      說自己是個“社恐”的老板祝銘明,是個十足的產(chǎn)品和技術(shù)控,他在內(nèi)部曾斃掉兩版產(chǎn)品設(shè)計初稿,差點把產(chǎn)品部“逼瘋”?僧斪詈螽a(chǎn)品部偷偷拿出設(shè)計好的產(chǎn)品時,祝銘明立刻下令資源都傾斜到這個產(chǎn)品上。“我只關(guān)心一個數(shù)據(jù),就是用戶使用時長。目前,我們的真實用戶使用時長已經(jīng)接近一個半小時,周留存率超過20%。做到這個,用戶會自然增長。”

      用戶數(shù)積累達到百萬級別,也意味著,AR行業(yè)進入了軟件系統(tǒng)和生態(tài)建設(shè)的第二階段。近年來,已經(jīng)有越來越多的系統(tǒng)廠商、應用軟件廠商、內(nèi)容廠商加入到AR生態(tài)建設(shè)中來。

      “一群瘋子,一個夢想,十年光陰。”

      正如祝銘明所言,從娛樂場景到生產(chǎn)力工具,Rokid用了10年,這背后不只是思考的躍進,更是從硬件技術(shù)到軟件技術(shù),乃至整個產(chǎn)業(yè)鏈向前邁的一大步。蘋果和Rokid開啟了AR競賽第二階段,行業(yè)比拼也正在加速。

      單目SLAM,怎么重新定義交互?

      在整場發(fā)布會中,最令人意外的,不是Rokid Max Pro 76g的機身,而是只有一顆攝像頭,竟然能完成SLAM(空間定位技術(shù))、微手勢交互、第一視角分享、視覺定位VPS能力等多種融合型的交互方式。

      AR/VR設(shè)備在經(jīng)歷了物理交互(手柄)、語音交互、手勢交互后,正在往眼球追蹤和現(xiàn)在的多感知融合交互方案發(fā)展。

      但多感知融合的交互,對于硬件的要求更高,除了要滿足基本的需求,更要全方位、多角度的捕捉到用戶動作、手勢,才能精準地完成交互。

      而用單顆攝像頭完成SLAM交互有多難呢?

      視覺SLAM方法包含兩個模塊,一個是Tracking,已知3D點位置,基礎(chǔ)定位;一個是Mapping,更新3D點的位置。而無論是哪個環(huán)節(jié)哪種方法,單目意味著只能選擇一種攝像頭,以及固定位置和固定角度,對于識別的范圍、追蹤速度和精度都存在極大的挑戰(zhàn)。

      “業(yè)界都認為單目SLAM不可置信、很難做到”,祝銘明戲稱,“這可能也是對Rokid的一種肯定吧”。

      目前,市場上為數(shù)不多的具備空間交互的AR眼鏡至少會搭載三顆攝像頭,來承擔算法功能。視覺路線的不同,也形成了以蘋果為代表的VST(視頻透視)和以Rokid為代表的OST(光學透視)兩大陣營。

      仍以蘋果Vision Pro為例,其用12顆攝像頭“堆”出了快速定位捕捉、高精度的全景感知以及精密追蹤,并通過VST的方式,將外部的世界通過攝像頭顯示在終端屏幕上,通過攝像頭的實時拍攝來看到外部世界。

      但為了交互而堆硬件的方法,成本提高的同時價格也在翻番上漲,同時導致了機體重以及難量產(chǎn)兩大落地難題。這也就是為什么,蘋果Vision Pro定價3499美元,并要在2024年才能實現(xiàn)量產(chǎn)的根本原因。

      而Rokid堅持的OST方案本身便存在著一定的技術(shù)壁壘,由于管路設(shè)計復雜,且顯示畫面視角有限,光學零部件成本造價較高,在價格不進行較大漲幅的情況下,Rokid只能通過技術(shù)突破的方式,來降低疊加成本。

      而讓行業(yè)認為“不可置信”的單目SLAM是如何做到的?會后,光錐智能與祝銘明進行了深度的交流,發(fā)現(xiàn)Rokid的“絕招”在于,用AI算法來突破硬件的壁壘。

      祝銘明介紹到,單目SLAM技術(shù)雖然早就存在,但還從沒有被應用在AR眼鏡中,手機的前置攝像頭也同樣應用了此類技術(shù),唯一不同的是:算法。

      從AI到AR,這是一條看似跨越但實際上本質(zhì)融通的道路,但也正是因為Rokid此前數(shù)年在AI領(lǐng)域的積累,通過多維度視覺算法模型,包括視覺定位與增強、數(shù)字人技術(shù)、2D/3D手勢識別、OCR識別等技術(shù),讓AI在具體的場景中落地。

      比如AR視覺定位與增強功能,就是在解決和突破單目的限制,通過構(gòu)建厘米級的視覺地圖,將虛擬信息在真實物體世界進行精準疊加融合,實現(xiàn)物體和場景的高精度三維重建。

      Rokid副總裁、XR中心負責人王俊杰介紹道:“空間定位基于SLAM技術(shù),然后才能在空間中進行穩(wěn)定的自然交互。1~2秒的時間通過算法快速初始化,建立映射空間。”

      而市場上,大多數(shù)設(shè)備還是采用雙目的方案來解決,但雙目融合也存在很多問題,除了成本多增加了一個攝像頭之外,還需要不斷用算法來實時擬合兩個攝像頭的數(shù)據(jù),從而帶來更多的復雜問題。

      由此看來,如果單目方案能夠順利進行,Rokid就又率先踩準了一個技術(shù)趨勢。此前,Rokid也是行業(yè)首創(chuàng)Station 主機的廠商,眼鏡和主機分離的方案已經(jīng)被證明是行業(yè)體驗的最優(yōu)解。

      另外,在手勢識別中,Rokid采用了微手勢的交互方式,手指一捏,即可進行點擊和選中;手勢左右撥動,還可對正在瀏覽的界面或內(nèi)容進行切換。簡單的捏合和滑動手勢等邏輯定義比較自然,上手較快。

      通過我們的現(xiàn)場測試結(jié)果來看,目前Rokid可以實現(xiàn)雙手的裸手空間交互,目前,Rokid手勢識別的算法支持水平/空間軸轉(zhuǎn)、明/暗光等復雜場景識別,同時可識別的手勢類型豐富、算法精準,整體識別率約90%以上,并擁有毫秒級識別的響應能力及99%的可靠性保障。

      Rokid表示,基于深度學習算法和大量實驗數(shù)據(jù),單目3D手勢算法能在移動端實時重建手部姿態(tài)參數(shù),包括手部6DoF、手部關(guān)節(jié)點6DoF,以及Hand Mesh信息,為AR的手勢交互提供良好的算法基礎(chǔ)。

      目前,Rokid的手勢識別在3D空間中可實現(xiàn)多種操作,包括點、捏、抓、握、拖、拉等等,完全可以滿足AR交互應用需求。例如,戴上Rokid Max Pro,伸出手,在眼前張開手掌即可呼出菜單。

      畢竟想要支持如此復雜的算法結(jié)構(gòu),背后的功臣不只攝像頭,更與“大腦”也就是Rokid Station Pro的算力和性能息息相關(guān)。

      口袋里的空間計算機

      一直以來,整個VR/AR行業(yè)都存在著“算力、舒適度、價格”的不可能三角。算力更高的設(shè)備往往更重,價格也更貴,舒適度高的輕量級設(shè)備又無法滿足使用需求。

      從現(xiàn)實的情況來看,目前并沒有一種“完美”的解決方案,主流廠商們試圖在二者中找平衡,當下市場上存在著兩類主流的解決方案:一種是以蘋果為代表的顯示計算一體,電池外接的方案;另一種,則是以Rokid為代表的顯示計算分體設(shè)計。

      蘋果一體化的設(shè)計,將兩塊micro-OLED屏幕、多個攝像頭和傳感器、揚聲器等元件集成在一起,在顯示效果、計算等方面效率更高,但同時也會增加機體本身重量,導致只能將電池外接。

      而Rokid堅持的分體式設(shè)計,將佩戴性拉到了極致,對比Vision Pro 454g重量,76g的眼鏡重量,幾乎和普通眼鏡沒有差別;同時主機算力也可以不那么受空間資源限制,同時一定程度上避免散熱帶來的不適問題。

      總的來說,分體式的路線可以做到眼鏡的輕便和主機算力的雙向極致發(fā)展,同時也更加靈活,算力的迭代和眼鏡的技術(shù)路線可以異步進行。

      Rokid Station Pro就是在分體式設(shè)計的基礎(chǔ)上,進行了更高的算力升級,打造集計算、成像、通信等功能為一體的All in One終端,也是真正可以被稱之為“生產(chǎn)力工具”的超級終端。

      據(jù)光錐智能了解到,Rokid Station Pro 搭載了高通驍龍XR2+、12G RAM + 128G ROM, 支持WIFI6/6E和BT5.1,Station Pro續(xù)航能力將是手機方案的2倍以上,同時具有更佳的散熱和更高性能,可以達到厘米級6DoF跟蹤精度和極低MTP(Motion to Photon)渲染延遲。

      公開信息顯示,驍龍XR2+是高通推出最新旗艦的XR平臺,能夠?qū)崿F(xiàn)50%的續(xù)航能力和30%的散熱性能提升,從而支持更小更輕薄的設(shè)備外形中賦能更豐富和沉浸式的體驗。同時驍龍 XR2 + 平臺引入全新圖像處理管線,能夠?qū)崿F(xiàn)低于 10 毫秒的時延,開啟全彩視頻透視 MR 體驗。

      從光錐智能在現(xiàn)場的體驗來看,無論是觀影、游戲過程中還是調(diào)用鍵盤進行工作生產(chǎn)流程,尤其是在游戲的高頻交互和打斗下,畫面的流暢度和反應速度,都十分絲滑。

      值得一提的是,目前市場上核心算法還是3DoF(三自由度追蹤),是指該設(shè)備能夠檢測到向上、前、下三個方向的轉(zhuǎn)動,但不能檢測到頭部的前后左右的空間位移。

      而升級后的Station Pro采用的6DoF算法,除了能檢測到頭部的轉(zhuǎn)動帶來的視野角度變化外,還能夠檢測到由于身體移動帶來的“上下前后左右”6種位移的變化。

      這個算法的升級,更重要的在于玩家的自由度。舉個例子,3DoF算法下的打僵尸,射程范圍在前方的一定角度,而升級后僵尸從360度出現(xiàn),一回頭身后僵尸撲面的體感,是前者無法達到的。

      也就是說,不只算力更高、體驗更絲滑、算力空間的拓展也帶來了體感上的巨大不同。

      高通技術(shù)公司XR產(chǎn)品管理高級總監(jiān)Said Bakadir表示:“第一代驍龍XR2+平臺是賦能下一代XR體驗的不二之選。高通技術(shù)公司為Rokid Station Pro提供業(yè)界領(lǐng)先的平臺,支持其打造了自身獨特的AR應用生態(tài)系統(tǒng)。”

      做AR行業(yè)中的iOS

      當然,蘋果手機之所以能在手機市場上常年稱王稱霸,成功的原因并不只于它的硬件,更在于它的系統(tǒng)和生態(tài)。通過軟件系統(tǒng)來培養(yǎng)用戶使用習慣所筑下的壁壘,往往要比硬件本身更牢固。

      這是Rokid自研AR空間操作系統(tǒng)——YodaOS-Master的部分原因,但卻不是全部的原因。

      今年三月Rokid Open Day上,Rokid正式推出了YodaOS-Master,并發(fā)布了“AR空間創(chuàng)作平臺靈境”,讓每個人都能在3D空間內(nèi)創(chuàng)作AR內(nèi)容,人人可參與,徹底打破AR創(chuàng)作的門檻,讓生態(tài)勢能爆發(fā)。

      如果說單目SLAM、3D手勢識別、驍龍XR+、靈境平臺都是一把把利刃,那YodaOS-Master,通過一套自研的系統(tǒng),才能將這些絕招釋放。

      簡單來說,Rokid 是在走一條沒有人走過的路,而Rokid的理念是“軟件定義一切”,所有的軟件都需要系統(tǒng)進行承載和提供,才能發(fā)揮出價值。

      圍繞感知、理解、交互、展現(xiàn)、協(xié)同和數(shù)字創(chuàng)作五個方面,YodaOS-Master從芯片優(yōu)化、硬件設(shè)計、軟件架構(gòu)、AR算法還有創(chuàng)作工具等諸多方面都做了巨大升級,或是目前最為完整的一套面向AR時代的空間操作系統(tǒng)。

      發(fā)布會現(xiàn)場,Rokid也展示了自研系統(tǒng)帶來的開放性和便捷性。舉幾個明顯的例子,基于自研系統(tǒng)和驍龍XR+平臺,Rokid開發(fā)了多任務(wù)并行模式,打破了之前只能單任務(wù)的掣肘,實現(xiàn)一邊聊釘釘、一邊寫代碼、一邊看文檔的場景,能夠同時實現(xiàn)并充分的發(fā)揮了空間大屏的優(yōu)勢,讓生產(chǎn)效率提升到最大。

      另一個極為創(chuàng)新的案例是,Rokid基于自研系統(tǒng),重新定義了空間搜索。祝銘明介紹道,這打破了此前搜索信息的陳列方式,搜索結(jié)果的呈現(xiàn)不再是二維的平面的效果,而是存在在三維空間中。“與問題最相關(guān)的結(jié)果會離你最近,有點相關(guān)的結(jié)果在二級頁面,離的越遠越不相關(guān),當然,你也可以劃掉前面的結(jié)果,動態(tài)挑選你想要的結(jié)果”。

      如此,未來感瞬間拉滿,也展示出了與第一階段AR設(shè)備的本質(zhì)不同。

      可以看到, AR行業(yè)開放生態(tài)已經(jīng)開始進入第二階段,蘋果和Rokid不僅在硬件方向上一個向左,一個向右,在行業(yè)系統(tǒng)軟件、生態(tài)發(fā)展上也是如此。通過硬件、算法、軟件生態(tài)、開發(fā)者和用戶與平臺共創(chuàng),AR在一個徹底開放的生態(tài)下,會更快速的邁向高速發(fā)展的第二階段。

      Rokid系統(tǒng)研發(fā)總工程師石文峰表示,“YodaOS-Master操作系統(tǒng)通過服務(wù)化的方式,將 Rokid語音識別、手勢識別、SLAM等在內(nèi)的多項核心技術(shù)集成為系統(tǒng)服務(wù),并提供多種client SDK供開發(fā)者高效開發(fā),比如SDK for Unity,可以讓Unity開發(fā)者(開發(fā)者申請通道:開放平臺網(wǎng)址(ar.rokid.com))能夠快速使用Rokid核心技術(shù)進行開發(fā)”。

      從硬件到軟件,從系統(tǒng)到生態(tài),Rokid的發(fā)展路徑,頗有點當年喬布斯時代蘋果的意味。

      “AR 行業(yè)就在黎明前”,祝銘明說道。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。