昨天Sora全網(wǎng)上線,大家也都測(cè)試了很多了。
坦率的講, 產(chǎn)品完成度很高,但是模型質(zhì)量,真的有點(diǎn)不及預(yù)期。
不過(guò)今天不是來(lái)聊Sora模型的。
而是,昨天白天測(cè)試Sora的時(shí)候,生成的一段讓我發(fā)了很久的呆的體操視頻。
就是這個(gè)。
在前面5秒,她蓄勢(shì)抬手的時(shí)候,一切都還能看。
直到真的想做動(dòng)作時(shí),一切都變成的鬼畜了起來(lái)。
畫(huà)面瞬間崩塌,甚至跟異形無(wú)異。
在發(fā)呆之后,同時(shí)又陷入了深思。
在我這玩AI視頻的一年里面,體操,好像永遠(yuǎn)都是所有AI視頻的噩夢(mèng)。
不管是Sora、Luma,還是可靈、Runway等等,在生成體操視頻時(shí)都會(huì)翻車(chē)。
有的翻車(chē)翻的比較溫柔,因?yàn)樗麄儎?dòng)作幅度小。
有的翻車(chē)翻得比較大,直接讓運(yùn)動(dòng)員在空中扭曲變形。
體操運(yùn)動(dòng),就是AI視頻最殘酷的圖靈測(cè)試。
當(dāng)年大家都在用威爾斯吃面來(lái)衡量AI視頻時(shí),但其實(shí),體操才是真正的那個(gè)門(mén)神。
五個(gè)月前,DiT視頻模型剛剛出來(lái)的時(shí)候,一段Luma生成的體操視頻在X上就引發(fā)軒然大波。
視頻里面,運(yùn)動(dòng)員的四肢在空中扭曲變形。這段由Luma生成的視頻不僅讓近百萬(wàn)網(wǎng)友圍觀,還讓包括LeCun在內(nèi)的AI大佬們吵得不可開(kāi)交。
爭(zhēng)論的焦點(diǎn)只有一個(gè):AI到底理解不理解物理規(guī)律?
如今5個(gè)月過(guò)去,現(xiàn)在其實(shí)這個(gè)問(wèn)題,幾乎已經(jīng)有了共識(shí)。
物理規(guī)律,那肯定是不懂的。
回到體操運(yùn)動(dòng),為啥人的跑步、走路等動(dòng)作現(xiàn)在幾乎很好,很多動(dòng)物的也很穩(wěn)定,但一旦涉及到復(fù)雜動(dòng)作,特別是體操這種,就直接炸了呢?
其實(shí)也挺簡(jiǎn)單的。
首先,我們得聊聊體操運(yùn)動(dòng)有多難。
一個(gè)標(biāo)準(zhǔn)的體操動(dòng)作,比如后空翻加轉(zhuǎn)體720度,看起來(lái)只有短短兩秒鐘,但這兩秒鐘里,有大概三重對(duì)于AI來(lái)說(shuō)非常地獄的難點(diǎn)。
第一個(gè)是物理難點(diǎn)。
不同于走路奔跑這些幾乎刻在基因里面的動(dòng)作。
體操運(yùn)動(dòng),是要在一瞬間爆發(fā)出足夠的力量起跳,在空中完成兩周旋轉(zhuǎn),然后穩(wěn)穩(wěn)落地。
這個(gè)過(guò)程中涉及了重力、慣性、角動(dòng)量守恒等多個(gè)物理定律。坦率的講,起跳角度差1度、力量差一分,你可能最后都是落地不穩(wěn)。
在現(xiàn)實(shí)世界中,一個(gè)體操運(yùn)動(dòng)員要經(jīng)過(guò)至少十年的訓(xùn)練,才能這些刻在記憶里、刻在肌肉里。而AI要在短短的訓(xùn)練過(guò)程中領(lǐng)悟這些規(guī)律,難度可想而知。
第二個(gè)是生物力學(xué)難點(diǎn)。
人的身體結(jié)構(gòu)極其復(fù)雜,206塊骨頭、超過(guò)600塊肌肉。
每一個(gè)骨頭和肌肉,都有自己的運(yùn)動(dòng)軌跡和配合。
對(duì)于人類(lèi)來(lái)說(shuō),這種配合是與生俱來(lái)的本能。但對(duì)AI來(lái)說(shuō),理解這種復(fù)雜的生物力學(xué)系統(tǒng)卻是一個(gè)巨大的挑戰(zhàn)。
就像在AI繪畫(huà)時(shí)經(jīng)常會(huì)畫(huà)出六根手指的人一樣,AI在生成一些復(fù)雜動(dòng)作時(shí),也經(jīng)常會(huì)在生物力學(xué)層面犯下很多致命錯(cuò)誤。比如肘關(guān)節(jié)反向彎曲、膝蓋過(guò)度旋轉(zhuǎn)等等,還有最經(jīng)典的,轉(zhuǎn)身是真的只轉(zhuǎn)身不轉(zhuǎn)頭。。。
這些錯(cuò)誤之所以會(huì)發(fā)生,是因?yàn)锳I并不真正理解人體的構(gòu)造限制。它不知道人的關(guān)節(jié)只能在特定角度活動(dòng),不懂得肌肉群之間的協(xié)同關(guān)系,更不理解人體在高速運(yùn)動(dòng)時(shí)的生物力學(xué)特性。
更重要的是,AI不理解"疼痛"這個(gè)概念。在現(xiàn)實(shí)中,疼痛是人體對(duì)不合理動(dòng)作的自然反饋,是保護(hù)機(jī)制的一部分。但AI生成的動(dòng)作中,可不管你痛不痛,能動(dòng)就行。
這就好比讓一個(gè)對(duì)人體結(jié)構(gòu)一無(wú)所知的畫(huà)家,閉著眼睛畫(huà)一個(gè)體操運(yùn)動(dòng)員的動(dòng)作連續(xù)圖。他可能會(huì)畫(huà)出看似流暢,實(shí)則完全違背人體工程學(xué)的畫(huà)面。
而這種生物力學(xué)上的局限性,恰恰是AI在生成體操視頻時(shí)最難突破的瓶頸之一。
第三個(gè)點(diǎn)則是美學(xué)難點(diǎn)。
體操不是純粹的體育競(jìng)技,更是一門(mén)藝術(shù)。
動(dòng)作的優(yōu)美程度、身體的線條感、整體的韻律美,都是體操比賽中的重要評(píng)分標(biāo)準(zhǔn)。一個(gè)動(dòng)作即使完成了技術(shù)動(dòng)作,如果缺乏美感,一樣會(huì)被扣分。
動(dòng)作要準(zhǔn),還要優(yōu)美,這對(duì)AI來(lái)說(shuō),太難了。
而這三重難度疊加在一起,就成了AI的噩夢(mèng)。
有人說(shuō)AI生成體操視頻失敗是因?yàn)橛?xùn)練數(shù)據(jù)不足,有人說(shuō)是數(shù)據(jù)集模糊處理導(dǎo)致模型無(wú)法理解人體結(jié)構(gòu)。
但更深層的問(wèn)題我覺(jué)得還是在于:AI終究還是在完美模仿。
就像一只鸚鵡再怎么會(huì)模仿人類(lèi)說(shuō)話(huà),它也不知道它所說(shuō)的話(huà)是什么意思,哪怕它對(duì)答如流。
這個(gè)比喻非常精準(zhǔn)。
我覺(jué)得對(duì)現(xiàn)在的大模型如此、對(duì)AI繪圖如此、對(duì)AI視頻,更是如此。
當(dāng)AI生成視頻時(shí),它實(shí)際上是在進(jìn)行一場(chǎng)概率游戲,根據(jù)已經(jīng)見(jiàn)過(guò)的畫(huà)面去猜測(cè)下一幀最可能是什么樣子。這就像是一個(gè)從沒(méi)學(xué)過(guò)體操的人,在試圖通過(guò)看過(guò)的視頻去復(fù)現(xiàn)一個(gè)高難度動(dòng)作。
但體操不是概率游戲。
一些比較前沿的學(xué)術(shù)屆,也嘗試引入物理引擎模擬(比如將動(dòng)作生成與物理模擬器結(jié)合),或者在損失函數(shù)中加入物理規(guī)律約束,但還都在探索階段,離所謂的世界模擬器,還差太遠(yuǎn)太遠(yuǎn)了。
就像圖靈測(cè)試用人類(lèi)對(duì)話(huà)來(lái)檢驗(yàn)AI的智能水平,體操視頻我覺(jué)得就是在考驗(yàn)AI對(duì)現(xiàn)實(shí)世界的理解深度。它需要AI不僅能“完美模仿”,更要理解背后的物理規(guī)律、生物力學(xué)原理和美學(xué)標(biāo)準(zhǔn)。
這種理解,遠(yuǎn)比我們想象的要深刻得多。
恰恰印證了Pedro Domingos教授的判斷。通往AGI的路,也許比我們想象的還要遠(yuǎn)一些。
這條路或許很遠(yuǎn)。
但終點(diǎn)一定值得期待。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。