輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對(duì)承壓的小家電市場(chǎng),小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營(yíng)收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來(lái)激光電視主機(jī)僅有iPad大小2024年冷年空調(diào)市場(chǎng)總結(jié):規(guī)模下探,結(jié)構(gòu)降級(jí),空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢(qián)過(guò)億,70%用戶(hù)靠投流,大模型算不過(guò)成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣(mài)泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書(shū),開(kāi)店3月賣(mài)出1100萬(wàn)Mate 70最受期待!華為三款重磅機(jī)型蓄勢(shì)待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對(duì)標(biāo)豐田 專(zhuān)注增程式混動(dòng)車(chē)型黑神話(huà)悟空總收入超67億:銷(xiāo)量已超2000萬(wàn)份通快成立激光業(yè)務(wù)區(qū)域中心(中國(guó)),強(qiáng)勢(shì)布局中國(guó)市場(chǎng)Sandalwood Advisors受邀參加第31屆中信里昂投資者論壇淘寶倒逼新風(fēng)向:一場(chǎng)電商減負(fù)運(yùn)動(dòng)博浪AI時(shí)代,阿里、華為“硬碰硬”
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    AIGC 施展“物理魔法”,3D視覺(jué)突破“精度極限”

    2023年08月21日 11:53:43   來(lái)源:光錐智能

      文|姚悅

      “沒(méi)有藝術(shù),全是物理!物理讓你快樂(lè),不是嗎?”

      近日,在世界計(jì)算機(jī)圖形會(huì)議 SIGGRAPH 2023 上,英偉達(dá)創(chuàng)始人、CEO 黃仁勛宣布,將生成式AI與仿真模擬平臺(tái)Omniverse結(jié)合的時(shí)候,如同他宣布“AIGC是iPhone時(shí)刻”一樣興奮。

      不同于大語(yǔ)言模型只能應(yīng)用在圖文,有了基于物理規(guī)律的仿真模擬平臺(tái),生成式AI就可以直接用到現(xiàn)實(shí)世界。

      除了黃仁勛,美國(guó)斯坦福大學(xué)李飛飛團(tuán)隊(duì),近期也將大模型接入機(jī)器人,不僅使得機(jī)器人能夠與環(huán)境有效交互,還能夠在無(wú)需額外數(shù)據(jù)和訓(xùn)練的情況下完成各種任務(wù)。

      “基于物理世界模擬的生成式AI,是生成式AI 2.0”,跨維智能創(chuàng)始人、華南理工大學(xué)教授賈奎對(duì)光錐智能表示,與具身智能的結(jié)合,生成式AI 將發(fā)揮出更確定性的作用。

      而隨著通用能力的增強(qiáng),AI也有望打破商業(yè)化的“魔咒”。

      當(dāng)生成式AI學(xué)會(huì)物理

      將生成式AI與物理世界結(jié)合,并不容易,這里面涉及的技術(shù)鏈條非常長(zhǎng)。

      首先,需要對(duì)物理世界基本規(guī)律的掌握,才能將真實(shí)世界建模到仿真模擬平臺(tái)。

      仿真模擬平臺(tái),不僅可以仿真物理場(chǎng)景,還可以模擬真實(shí)世界中物體之間相互作用、運(yùn)動(dòng)和變形。

      而生成式AI的加入,會(huì)讓仿真模擬平臺(tái)擁有“預(yù)演”能力。

      “人類(lèi)從小就知道的物理常識(shí),AI卻不知道。”黃仁勛表示,“生成式AI和仿真模擬平臺(tái)結(jié)合,就是要讓AI的未來(lái)能夠在物理上扎根。”

      黃仁勛進(jìn)一步解釋?zhuān)孉I在虛擬世界中學(xué)習(xí)如何感知環(huán)境,并通過(guò)強(qiáng)化學(xué)習(xí)來(lái)理解物理行為的影響和后果,讓AI實(shí)現(xiàn)特定目標(biāo)。

      這就需要用生成式 AI,預(yù)測(cè)物理世界中的千萬(wàn)種、甚至上億種可能性,形成有價(jià)值的合成數(shù)據(jù)。

      比如機(jī)械臂需要通過(guò)3D視覺(jué)的“眼睛”才能精準(zhǔn)抓取,但如何排除環(huán)境變化的干擾,認(rèn)出待抓取的物體(比如工廠里的零部件)?

      通過(guò)仿真模擬平臺(tái)掌握了“光線(xiàn)對(duì)場(chǎng)景目標(biāo)的反射、折射影響”等物理規(guī)律,生成式 AI就能預(yù)測(cè)模擬出一個(gè)瓶子,在不同場(chǎng)景光照下,周身不同的反光程度;同一光照下,金屬、塑料、木制品等不同材質(zhì)物體表面呈現(xiàn)的狀態(tài);一堆釘子,所有可能出現(xiàn)的散落狀態(tài)……

      再次,需要將所有數(shù)據(jù),都在仿真模擬平臺(tái)中用AI都跑一遍。

      這一步,就是在訓(xùn)練3D視覺(jué)大模型。區(qū)別于大語(yǔ)言模型,3D視覺(jué)大模型對(duì)于理解和推理視覺(jué)場(chǎng)景的組成特性至關(guān)重要,需要處理對(duì)象之間的復(fù)雜關(guān)系、位置、以及現(xiàn)實(shí)環(huán)境中的變化等。

      最后,再連接上機(jī)械臂等具身智能的硬件,才能讓其學(xué)會(huì)智能化操作。

      可以看到,生成式AI與物理世界結(jié)合的整個(gè)技術(shù)鏈條,不僅涉及物理學(xué)、圖形學(xué)、計(jì)算機(jī)視覺(jué)、機(jī)器人多學(xué)科交叉,還包括數(shù)字孿生、幾何深度學(xué)習(xí)、運(yùn)動(dòng)學(xué)解算、混合智能、智能硬件等多維前沿技術(shù)。

      相應(yīng)的,整個(gè)產(chǎn)業(yè)的鏈條也比較復(fù)雜,需要從數(shù)據(jù)到模型,再?gòu)哪P偷讲渴稹?/p>

      在這些環(huán)節(jié)中,有一個(gè)節(jié)點(diǎn)和此前AI的路徑非常不同,那就是“合成數(shù)據(jù)生成”。

      用基于物理規(guī)律的生成式AI合成的數(shù)據(jù),去訓(xùn)練大模型,將給實(shí)體產(chǎn)業(yè)帶來(lái)跨越式的革命。

      不用一張真實(shí)圖片,訓(xùn)練3D視覺(jué)大模型

      為什么不直接用真實(shí)數(shù)據(jù)訓(xùn)練大模型?

      目前,行業(yè)內(nèi)多數(shù)基于3D視覺(jué)的機(jī)械臂,其控制系統(tǒng)的算法訓(xùn)練所使用的就是真實(shí)數(shù)據(jù)。因?yàn)樯虡I(yè)隱私等問(wèn)題,這些真實(shí)數(shù)據(jù)很難在通用數(shù)據(jù)中獲取,基本都是企業(yè)自行采集。

      然而,自采真實(shí)數(shù)據(jù),首先在“效率和成本”這兩個(gè)運(yùn)營(yíng)的關(guān)鍵指標(biāo)上,性?xún)r(jià)比就非常低。

      這是因?yàn),終端應(yīng)用場(chǎng)景碎片化,數(shù)據(jù)根本不能通用。采集真實(shí)數(shù)據(jù),企業(yè)就需要一個(gè)一個(gè)行業(yè),一個(gè)一個(gè)工廠,一個(gè)一個(gè)場(chǎng)景的“地毯式”采集。而且,采集回來(lái)的數(shù)據(jù)也不能直接用,還需要進(jìn)行一系列處理。

      這個(gè)過(guò)程中,甚至產(chǎn)生了“人工智能悖論”。

      “采集真實(shí)數(shù)據(jù),AI技術(shù)的成本構(gòu)成中,半數(shù)以上都是數(shù)據(jù)成本,而對(duì)數(shù)據(jù)的采集、清洗、標(biāo)注、增強(qiáng)等處理過(guò)程,往往是大量人力堆積的結(jié)果。”有分析人士就曾指出,人工智能的本質(zhì)是代替人工的智能。“諷刺的是,這樣的AI具備顯著的勞動(dòng)密集型產(chǎn)業(yè)特征。”

      如果用合成數(shù)據(jù)呢?

      “用五六年、上千個(gè)案例積累的真實(shí)數(shù)據(jù),通過(guò)合成數(shù)據(jù),幾天幾周就能完成。”賈奎告訴光錐智能,相比于人工采集與標(biāo)注數(shù)據(jù),合成數(shù)據(jù)的成本能夠?qū)崿F(xiàn)幾個(gè)數(shù)量級(jí)的降低。

      最關(guān)鍵的還是,在訓(xùn)練效果上,合成數(shù)據(jù)能夠更優(yōu)于真實(shí)數(shù)據(jù)。

      由于本身就是基于物理規(guī)律合成,合成數(shù)據(jù)天生自帶絕對(duì)精確的標(biāo)注,這就意味著,AI學(xué)習(xí)起來(lái)效率非常高。

      另外,合成數(shù)據(jù)的“全面性”是真實(shí)數(shù)據(jù)難以比擬的。“生成式AI 2.0可以創(chuàng)造無(wú)數(shù)個(gè)世界,而且可以讓這個(gè)世界快速演進(jìn)。”賈奎表示。

      而落地到3D視覺(jué)行業(yè),機(jī)械臂就猶如有了“上帝之手”,可以掌控一切過(guò)去未來(lái)。

      “當(dāng)然,這不能是物理世界的規(guī)律之外的。”賈奎強(qiáng)調(diào)。

      “目前,我們不使用一張真實(shí)圖片,就可以完成機(jī)械臂復(fù)雜場(chǎng)景作業(yè)的3D視覺(jué)模型訓(xùn)練。”賈奎告訴光錐智能,完全使用合成數(shù)據(jù)訓(xùn)練的模型引導(dǎo)機(jī)械臂的柔性操作,可以實(shí)現(xiàn)現(xiàn)場(chǎng)99.9%以上的穩(wěn)定抓取。

      也正是因?yàn)榇,合成?shù)據(jù),被稱(chēng)為大模型的“數(shù)據(jù)永動(dòng)機(jī)”。

      當(dāng)前,除了3D視覺(jué)領(lǐng)域,許多領(lǐng)域也都因通用數(shù)據(jù)缺乏和噪點(diǎn)多等問(wèn)題,開(kāi)始嘗試使用合成數(shù)據(jù)。但也有對(duì)合成數(shù)據(jù)抱有強(qiáng)烈質(zhì)疑的觀點(diǎn),稱(chēng)如果沒(méi)有經(jīng)過(guò)精心調(diào)試,在訓(xùn)練時(shí)大量使用,會(huì)引發(fā)模型崩潰,造成不可逆的缺陷。

      從技術(shù)演進(jìn)的角度,合成數(shù)據(jù)不會(huì)是大模型的唯一解。

      但賈奎指出,“沒(méi)有找到更好的辦法之前,合成數(shù)據(jù)就是目前能夠解決實(shí)際問(wèn)題的最好辦法。如果還采用人力堆砌的真實(shí)數(shù)據(jù),在包括3D視覺(jué)在內(nèi)的很多領(lǐng)域,AGI(通用人工智能)永遠(yuǎn)不可能實(shí)現(xiàn)。”

      打破AI的商業(yè)化“魔咒”

      在機(jī)器視覺(jué)領(lǐng)域,對(duì)合成數(shù)據(jù)的需求更加旺盛,生成式AI 2.0能夠釋放的價(jià)值也就會(huì)更大。

      作為機(jī)器視覺(jué)非常重要的感知手段,3D視覺(jué)對(duì)于合成數(shù)據(jù)的需求就十分迫切。

      “在一堆相似的零件里‘找不同’,物體換一個(gè)材質(zhì)、顏色,都需要去調(diào)整參數(shù)。”一位3D視覺(jué)從業(yè)人士表示,不同領(lǐng)域的需求不同,使得落地場(chǎng)景過(guò)于碎片化,只能做完一個(gè)項(xiàng)目再重新定制另一個(gè)項(xiàng)目。

      這就意味著,企業(yè)很難通過(guò)著力解決一個(gè)或幾個(gè)項(xiàng)目需求,就能形成標(biāo)準(zhǔn)化產(chǎn)品。也就無(wú)法進(jìn)而通過(guò)快速?gòu)?fù)制,打入并拓展市場(chǎng),追求利潤(rùn)規(guī)模。

      邊際成本難以降低,會(huì)將一家技術(shù)公司,變成項(xiàng)目公司,最終拖垮。

      “魔鬼”藏在細(xì)節(jié)中。

      傳統(tǒng)3D視覺(jué)感知有多脆弱?賈奎向光錐智能描述,“機(jī)械臂在抓取過(guò)程中,如果有人路過(guò)產(chǎn)生光線(xiàn)變化,任務(wù)就可能失敗。”

      這是由硬件3D相機(jī)的成像原理造成的,3D相機(jī)成像容易受環(huán)境、物體形狀、材質(zhì)、顏色、散射介質(zhì)等影響,而且這一問(wèn)題短時(shí)間內(nèi)難以解決。

      “解決一個(gè)問(wèn)題可能是一百步,但最后一步付出的努力可能跟前面99步加起來(lái)是一樣的。”商湯科技聯(lián)合創(chuàng)始人楊帆曾表示,企業(yè)大部分的精力都需要用來(lái)應(yīng)對(duì)小部分長(zhǎng)尾問(wèn)題。

      但現(xiàn)在,“通用性能力很強(qiáng)的生成式AI 2.0,能夠解決長(zhǎng)尾問(wèn)題,對(duì)于產(chǎn)品標(biāo)準(zhǔn)化至關(guān)重要。”賈奎表示。

      相較于行業(yè)傳統(tǒng)定制化開(kāi)發(fā)的模式,企業(yè)基于生成式AI 2.0,就可以利用通用大模型,實(shí)現(xiàn)產(chǎn)品模塊化開(kāi)發(fā),做到開(kāi)箱即用地部署,進(jìn)而實(shí)現(xiàn)同行業(yè)直接拓展,不同行業(yè)也能有效復(fù)用。3D視覺(jué)行業(yè)的商業(yè)化難題也就迎刃而解。

      與此同時(shí),數(shù)據(jù)、開(kāi)發(fā)、部署、硬件、行業(yè)拓展,每一個(gè)環(huán)節(jié)的成本也都實(shí)現(xiàn)驟降。

      而在生成式AI 2.0的催化下,3D視覺(jué)一旦爆發(fā),也就意味著,在機(jī)械臂、機(jī)器人、無(wú)人駕駛、元宇宙等等高度依賴(lài)3D視覺(jué)技術(shù)的垂直場(chǎng)景,都將加速吃到AI的紅利。

      不少數(shù)據(jù)已經(jīng)印證了這一點(diǎn),像數(shù)據(jù)標(biāo)注、合成數(shù)據(jù)、工業(yè)機(jī)器人、機(jī)器視覺(jué)等領(lǐng)域,全球市場(chǎng)規(guī)模都在高速增長(zhǎng),尤其是合成數(shù)據(jù)的年復(fù)合增長(zhǎng)率甚至都超過(guò)了30%。

      這背后,實(shí)際上是生成式AI 2.0的戰(zhàn)略?xún)r(jià)值,已經(jīng)受到了科技和眾多制造業(yè)巨頭的高度重視。

      從西門(mén)子、福特等老牌制造企業(yè),到英偉達(dá)、特斯拉、谷歌等一眾科技巨頭,再到Waabi等明星初創(chuàng)公司,都開(kāi)始紛紛在工業(yè)、機(jī)器人、無(wú)人駕駛、醫(yī)療、零售等諸多領(lǐng)域,探索生成式AI 2.0更大的可能。

      與此同時(shí),資本的熱情也被極大地調(diào)動(dòng)起來(lái)。據(jù)不完全統(tǒng)計(jì),近年來(lái),國(guó)外合成數(shù)據(jù)的相關(guān)融資,累計(jì)已接近8億美元。

      在國(guó)內(nèi),合成數(shù)據(jù)相關(guān)企業(yè)也同樣引起了資本的注意。2022年6月,跨維智能宣布完成Pre-A輪融資,融資金額數(shù)千萬(wàn)元,成立不到一年時(shí)間累計(jì)融資近億元;今年7月,光輪智能也宣布完成天使+輪融資,融資金額累計(jì)數(shù)千萬(wàn)元。

      可以說(shuō),從會(huì)作詩(shī)到學(xué)物理,生成式AI 2.0正在開(kāi)啟一個(gè)產(chǎn)業(yè)數(shù)字化的宏大未來(lái)。 

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。