首頁 > 云計算頻道 > 大模型

AIGC 施展“物理魔法”，3D視覺突破“精度極限”

2023年08月21日 11:53:43 來源：光錐智能

　　文|姚悅

　　“沒有藝術(shù)，全是物理!物理讓你快樂，不是嗎?”

　　近日，在世界計算機圖形會議 SIGGRAPH 2023 上，英偉達創(chuàng)始人、CEO 黃仁勛宣布，將生成式AI與仿真模擬平臺Omniverse結(jié)合的時候，如同他宣布“AIGC是iPhone時刻”一樣興奮。

　　不同于大語言模型只能應(yīng)用在圖文，有了基于物理規(guī)律的仿真模擬平臺，生成式AI就可以直接用到現(xiàn)實世界。

　　除了黃仁勛，美國斯坦福大學(xué)李飛飛團隊，近期也將大模型接入機器人，不僅使得機器人能夠與環(huán)境有效交互，還能夠在無需額外數(shù)據(jù)和訓(xùn)練的情況下完成各種任務(wù)。

　　“基于物理世界模擬的生成式AI，是生成式AI 2.0”，跨維智能創(chuàng)始人、華南理工大學(xué)教授賈奎對光錐智能表示，與具身智能的結(jié)合，生成式AI 將發(fā)揮出更確定性的作用。

　　而隨著通用能力的增強，AI也有望打破商業(yè)化的“魔咒”。

　　當(dāng)生成式AI學(xué)會物理

　　將生成式AI與物理世界結(jié)合，并不容易，這里面涉及的技術(shù)鏈條非常長。

　　首先，需要對物理世界基本規(guī)律的掌握，才能將真實世界建模到仿真模擬平臺。

　　仿真模擬平臺，不僅可以仿真物理場景，還可以模擬真實世界中物體之間相互作用、運動和變形。

　　而生成式AI的加入，會讓仿真模擬平臺擁有“預(yù)演”能力。

　　“人類從小就知道的物理常識，AI卻不知道。”黃仁勛表示，“生成式AI和仿真模擬平臺結(jié)合，就是要讓AI的未來能夠在物理上扎根。”

　　黃仁勛進一步解釋，讓AI在虛擬世界中學(xué)習(xí)如何感知環(huán)境，并通過強化學(xué)習(xí)來理解物理行為的影響和后果，讓AI實現(xiàn)特定目標(biāo)。

　　這就需要用生成式 AI，預(yù)測物理世界中的千萬種、甚至上億種可能性，形成有價值的合成數(shù)據(jù)。

　　比如機械臂需要通過3D視覺的“眼睛”才能精準(zhǔn)抓取，但如何排除環(huán)境變化的干擾，認(rèn)出待抓取的物體(比如工廠里的零部件)?

　　通過仿真模擬平臺掌握了“光線對場景目標(biāo)的反射、折射影響”等物理規(guī)律，生成式 AI就能預(yù)測模擬出一個瓶子，在不同場景光照下，周身不同的反光程度;同一光照下，金屬、塑料、木制品等不同材質(zhì)物體表面呈現(xiàn)的狀態(tài);一堆釘子，所有可能出現(xiàn)的散落狀態(tài)……

　　再次，需要將所有數(shù)據(jù)，都在仿真模擬平臺中用AI都跑一遍。

　　這一步，就是在訓(xùn)練3D視覺大模型。區(qū)別于大語言模型，3D視覺大模型對于理解和推理視覺場景的組成特性至關(guān)重要，需要處理對象之間的復(fù)雜關(guān)系、位置、以及現(xiàn)實環(huán)境中的變化等。

　　最后，再連接上機械臂等具身智能的硬件，才能讓其學(xué)會智能化操作。

　　可以看到，生成式AI與物理世界結(jié)合的整個技術(shù)鏈條，不僅涉及物理學(xué)、圖形學(xué)、計算機視覺、機器人多學(xué)科交叉，還包括數(shù)字孿生、幾何深度學(xué)習(xí)、運動學(xué)解算、混合智能、智能硬件等多維前沿技術(shù)。

　　相應(yīng)的，整個產(chǎn)業(yè)的鏈條也比較復(fù)雜，需要從數(shù)據(jù)到模型，再從模型到部署。

　　在這些環(huán)節(jié)中，有一個節(jié)點和此前AI的路徑非常不同，那就是“合成數(shù)據(jù)生成”。

　　用基于物理規(guī)律的生成式AI合成的數(shù)據(jù)，去訓(xùn)練大模型，將給實體產(chǎn)業(yè)帶來跨越式的革命。

　　不用一張真實圖片，訓(xùn)練3D視覺大模型

　　為什么不直接用真實數(shù)據(jù)訓(xùn)練大模型?

　　目前，行業(yè)內(nèi)多數(shù)基于3D視覺的機械臂，其控制系統(tǒng)的算法訓(xùn)練所使用的就是真實數(shù)據(jù)。因為商業(yè)隱私等問題，這些真實數(shù)據(jù)很難在通用數(shù)據(jù)中獲取，基本都是企業(yè)自行采集。

　　然而，自采真實數(shù)據(jù)，首先在“效率和成本”這兩個運營的關(guān)鍵指標(biāo)上，性價比就非常低。

　　這是因為，終端應(yīng)用場景碎片化，數(shù)據(jù)根本不能通用。采集真實數(shù)據(jù)，企業(yè)就需要一個一個行業(yè)，一個一個工廠，一個一個場景的“地毯式”采集。而且，采集回來的數(shù)據(jù)也不能直接用，還需要進行一系列處理。

　　這個過程中，甚至產(chǎn)生了“人工智能悖論”。

　　“采集真實數(shù)據(jù)，AI技術(shù)的成本構(gòu)成中，半數(shù)以上都是數(shù)據(jù)成本，而對數(shù)據(jù)的采集、清洗、標(biāo)注、增強等處理過程，往往是大量人力堆積的結(jié)果。”有分析人士就曾指出，人工智能的本質(zhì)是代替人工的智能。“諷刺的是，這樣的AI具備顯著的勞動密集型產(chǎn)業(yè)特征。”

　　如果用合成數(shù)據(jù)呢?

　　“用五六年、上千個案例積累的真實數(shù)據(jù)，通過合成數(shù)據(jù)，幾天幾周就能完成。”賈奎告訴光錐智能，相比于人工采集與標(biāo)注數(shù)據(jù)，合成數(shù)據(jù)的成本能夠?qū)崿F(xiàn)幾個數(shù)量級的降低。

　　最關(guān)鍵的還是，在訓(xùn)練效果上，合成數(shù)據(jù)能夠更優(yōu)于真實數(shù)據(jù)。

　　由于本身就是基于物理規(guī)律合成，合成數(shù)據(jù)天生自帶絕對精確的標(biāo)注，這就意味著，AI學(xué)習(xí)起來效率非常高。

　　另外，合成數(shù)據(jù)的“全面性”是真實數(shù)據(jù)難以比擬的。“生成式AI 2.0可以創(chuàng)造無數(shù)個世界，而且可以讓這個世界快速演進。”賈奎表示。

　　而落地到3D視覺行業(yè)，機械臂就猶如有了“上帝之手”，可以掌控一切過去未來。

　　“當(dāng)然，這不能是物理世界的規(guī)律之外的。”賈奎強調(diào)。

　　“目前，我們不使用一張真實圖片，就可以完成機械臂復(fù)雜場景作業(yè)的3D視覺模型訓(xùn)練。”賈奎告訴光錐智能，完全使用合成數(shù)據(jù)訓(xùn)練的模型引導(dǎo)機械臂的柔性操作，可以實現(xiàn)現(xiàn)場99.9%以上的穩(wěn)定抓取。

　　也正是因為此，合成數(shù)據(jù)，被稱為大模型的“數(shù)據(jù)永動機”。

　　當(dāng)前，除了3D視覺領(lǐng)域，許多領(lǐng)域也都因通用數(shù)據(jù)缺乏和噪點多等問題，開始嘗試使用合成數(shù)據(jù)。但也有對合成數(shù)據(jù)抱有強烈質(zhì)疑的觀點，稱如果沒有經(jīng)過精心調(diào)試，在訓(xùn)練時大量使用，會引發(fā)模型崩潰，造成不可逆的缺陷。

　　從技術(shù)演進的角度，合成數(shù)據(jù)不會是大模型的唯一解。

　　但賈奎指出，“沒有找到更好的辦法之前，合成數(shù)據(jù)就是目前能夠解決實際問題的最好辦法。如果還采用人力堆砌的真實數(shù)據(jù)，在包括3D視覺在內(nèi)的很多領(lǐng)域，AGI(通用人工智能)永遠不可能實現(xiàn)。”

　　打破AI的商業(yè)化“魔咒”

　　在機器視覺領(lǐng)域，對合成數(shù)據(jù)的需求更加旺盛，生成式AI 2.0能夠釋放的價值也就會更大。

　　作為機器視覺非常重要的感知手段，3D視覺對于合成數(shù)據(jù)的需求就十分迫切。

　　“在一堆相似的零件里‘找不同’，物體換一個材質(zhì)、顏色，都需要去調(diào)整參數(shù)。”一位3D視覺從業(yè)人士表示，不同領(lǐng)域的需求不同，使得落地場景過于碎片化，只能做完一個項目再重新定制另一個項目。

　　這就意味著，企業(yè)很難通過著力解決一個或幾個項目需求，就能形成標(biāo)準(zhǔn)化產(chǎn)品。也就無法進而通過快速復(fù)制，打入并拓展市場，追求利潤規(guī)模。

　　邊際成本難以降低，會將一家技術(shù)公司，變成項目公司，最終拖垮。

　　“魔鬼”藏在細(xì)節(jié)中。

　　傳統(tǒng)3D視覺感知有多脆弱?賈奎向光錐智能描述，“機械臂在抓取過程中，如果有人路過產(chǎn)生光線變化，任務(wù)就可能失敗。”

　　這是由硬件3D相機的成像原理造成的，3D相機成像容易受環(huán)境、物體形狀、材質(zhì)、顏色、散射介質(zhì)等影響，而且這一問題短時間內(nèi)難以解決。

　　“解決一個問題可能是一百步，但最后一步付出的努力可能跟前面99步加起來是一樣的。”商湯科技聯(lián)合創(chuàng)始人楊帆曾表示，企業(yè)大部分的精力都需要用來應(yīng)對小部分長尾問題。

　　但現(xiàn)在，“通用性能力很強的生成式AI 2.0，能夠解決長尾問題，對于產(chǎn)品標(biāo)準(zhǔn)化至關(guān)重要。”賈奎表示。

　　相較于行業(yè)傳統(tǒng)定制化開發(fā)的模式，企業(yè)基于生成式AI 2.0，就可以利用通用大模型，實現(xiàn)產(chǎn)品模塊化開發(fā)，做到開箱即用地部署，進而實現(xiàn)同行業(yè)直接拓展，不同行業(yè)也能有效復(fù)用。3D視覺行業(yè)的商業(yè)化難題也就迎刃而解。

　　與此同時，數(shù)據(jù)、開發(fā)、部署、硬件、行業(yè)拓展，每一個環(huán)節(jié)的成本也都實現(xiàn)驟降。

　　而在生成式AI 2.0的催化下，3D視覺一旦爆發(fā)，也就意味著，在機械臂、機器人、無人駕駛、元宇宙等等高度依賴3D視覺技術(shù)的垂直場景，都將加速吃到AI的紅利。

　　不少數(shù)據(jù)已經(jīng)印證了這一點，像數(shù)據(jù)標(biāo)注、合成數(shù)據(jù)、工業(yè)機器人、機器視覺等領(lǐng)域，全球市場規(guī)模都在高速增長，尤其是合成數(shù)據(jù)的年復(fù)合增長率甚至都超過了30%。

　　這背后，實際上是生成式AI 2.0的戰(zhàn)略價值，已經(jīng)受到了科技和眾多制造業(yè)巨頭的高度重視。

　　從西門子、福特等老牌制造企業(yè)，到英偉達、特斯拉、谷歌等一眾科技巨頭，再到Waabi等明星初創(chuàng)公司，都開始紛紛在工業(yè)、機器人、無人駕駛、醫(yī)療、零售等諸多領(lǐng)域，探索生成式AI 2.0更大的可能。

　　與此同時，資本的熱情也被極大地調(diào)動起來。據(jù)不完全統(tǒng)計，近年來，國外合成數(shù)據(jù)的相關(guān)融資，累計已接近8億美元。

　　在國內(nèi)，合成數(shù)據(jù)相關(guān)企業(yè)也同樣引起了資本的注意。2022年6月，跨維智能宣布完成Pre-A輪融資，融資金額數(shù)千萬元，成立不到一年時間累計融資近億元;今年7月，光輪智能也宣布完成天使+輪融資，融資金額累計數(shù)千萬元。

　　可以說，從會作詩到學(xué)物理，生成式AI 2.0正在開啟一個產(chǎn)業(yè)數(shù)字化的宏大未來。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信