OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號(hào)能穿十堵墻一加 Ace 5 Pro首發(fā)電競(jìng)Wi-Fi芯片G1 帶來(lái)「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)電視市場(chǎng)又出黑馬!TCL同檔Mini LED音畫(huà)王P12K,萬(wàn)象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國(guó)企業(yè)科創(chuàng)力研究報(bào)告(2024)》美團(tuán)年度報(bào)告竟然用上了AI和短?這下是真出圈了消息稱(chēng)上汽大眾正開(kāi)發(fā)三款新車(chē),技術(shù)分別來(lái)自小鵬、智己和榮威鴻蒙智行泊車(chē)代駕VPD正式開(kāi)啟全量推送!升級(jí)自動(dòng)泊車(chē)/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋(píng)果研發(fā)帶Face ID的智能家居門(mén)鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲(chóng)外觀設(shè)計(jì):看過(guò)實(shí)車(chē)的人都喜歡這個(gè)設(shè)計(jì)林杰:未來(lái) A 級(jí)、A0 級(jí)、A00 級(jí)車(chē)型都將是領(lǐng)克純電的“主場(chǎng)”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬(wàn)象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂(lè)年度聽(tīng)歌報(bào)告發(fā)布:誰(shuí)是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒(méi)有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁(yè)技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫(huà)的應(yīng)許之地?深扒一個(gè)正被游戲行業(yè)「搶占」的流量帝國(guó)
  • 首頁(yè) > 企業(yè)IT頻道 > 軟件即服務(wù)

    體操運(yùn)動(dòng),是所有AI視頻最殘酷的圖靈測(cè)試

    2024年12月11日 09:08:15   來(lái)源:數(shù)字生命卡茲克公眾號(hào)

      昨天Sora全網(wǎng)上線,大家也都測(cè)試了很多了。

      坦率的講, 產(chǎn)品完成度很高,但是模型質(zhì)量,真的有點(diǎn)不及預(yù)期。

      不過(guò)今天不是來(lái)聊Sora模型的。

      而是,昨天白天測(cè)試Sora的時(shí)候,生成的一段讓我發(fā)了很久的呆的體操視頻。

      就是這個(gè)。

      在前面5秒,她蓄勢(shì)抬手的時(shí)候,一切都還能看。

      直到真的想做動(dòng)作時(shí),一切都變成的鬼畜了起來(lái)。

      畫(huà)面瞬間崩塌,甚至跟異形無(wú)異。

      在發(fā)呆之后,同時(shí)又陷入了深思。

      在我這玩AI視頻的一年里面,體操,好像永遠(yuǎn)都是所有AI視頻的噩夢(mèng)。

      不管是Sora、Luma,還是可靈、Runway等等,在生成體操視頻時(shí)都會(huì)翻車(chē)。

      有的翻車(chē)翻的比較溫柔,因?yàn)樗麄儎?dòng)作幅度小。

      有的翻車(chē)翻得比較大,直接讓運(yùn)動(dòng)員在空中扭曲變形。

      體操運(yùn)動(dòng),就是AI視頻最殘酷的圖靈測(cè)試。

      當(dāng)年大家都在用威爾斯吃面來(lái)衡量AI視頻時(shí),但其實(shí),體操才是真正的那個(gè)門(mén)神。

      五個(gè)月前,DiT視頻模型剛剛出來(lái)的時(shí)候,一段Luma生成的體操視頻在X上就引發(fā)軒然大波。

      視頻里面,運(yùn)動(dòng)員的四肢在空中扭曲變形。這段由Luma生成的視頻不僅讓近百萬(wàn)網(wǎng)友圍觀,還讓包括LeCun在內(nèi)的AI大佬們吵得不可開(kāi)交。

      爭(zhēng)論的焦點(diǎn)只有一個(gè):AI到底理解不理解物理規(guī)律?

      如今5個(gè)月過(guò)去,現(xiàn)在其實(shí)這個(gè)問(wèn)題,幾乎已經(jīng)有了共識(shí)。

      物理規(guī)律,那肯定是不懂的。

      回到體操運(yùn)動(dòng),為啥人的跑步、走路等動(dòng)作現(xiàn)在幾乎很好,很多動(dòng)物的也很穩(wěn)定,但一旦涉及到復(fù)雜動(dòng)作,特別是體操這種,就直接炸了呢?

      其實(shí)也挺簡(jiǎn)單的。

      首先,我們得聊聊體操運(yùn)動(dòng)有多難。

      一個(gè)標(biāo)準(zhǔn)的體操動(dòng)作,比如后空翻加轉(zhuǎn)體720度,看起來(lái)只有短短兩秒鐘,但這兩秒鐘里,有大概三重對(duì)于AI來(lái)說(shuō)非常地獄的難點(diǎn)。

      第一個(gè)是物理難點(diǎn)。

      不同于走路奔跑這些幾乎刻在基因里面的動(dòng)作。

      體操運(yùn)動(dòng),是要在一瞬間爆發(fā)出足夠的力量起跳,在空中完成兩周旋轉(zhuǎn),然后穩(wěn)穩(wěn)落地。

      這個(gè)過(guò)程中涉及了重力、慣性、角動(dòng)量守恒等多個(gè)物理定律。坦率的講,起跳角度差1度、力量差一分,你可能最后都是落地不穩(wěn)。

      在現(xiàn)實(shí)世界中,一個(gè)體操運(yùn)動(dòng)員要經(jīng)過(guò)至少十年的訓(xùn)練,才能這些刻在記憶里、刻在肌肉里。而AI要在短短的訓(xùn)練過(guò)程中領(lǐng)悟這些規(guī)律,難度可想而知。

      第二個(gè)是生物力學(xué)難點(diǎn)。

      人的身體結(jié)構(gòu)極其復(fù)雜,206塊骨頭、超過(guò)600塊肌肉。

      每一個(gè)骨頭和肌肉,都有自己的運(yùn)動(dòng)軌跡和配合。

      對(duì)于人類(lèi)來(lái)說(shuō),這種配合是與生俱來(lái)的本能。但對(duì)AI來(lái)說(shuō),理解這種復(fù)雜的生物力學(xué)系統(tǒng)卻是一個(gè)巨大的挑戰(zhàn)。

      就像在AI繪畫(huà)時(shí)經(jīng)常會(huì)畫(huà)出六根手指的人一樣,AI在生成一些復(fù)雜動(dòng)作時(shí),也經(jīng)常會(huì)在生物力學(xué)層面犯下很多致命錯(cuò)誤。比如肘關(guān)節(jié)反向彎曲、膝蓋過(guò)度旋轉(zhuǎn)等等,還有最經(jīng)典的,轉(zhuǎn)身是真的只轉(zhuǎn)身不轉(zhuǎn)頭。。。

      這些錯(cuò)誤之所以會(huì)發(fā)生,是因?yàn)锳I并不真正理解人體的構(gòu)造限制。它不知道人的關(guān)節(jié)只能在特定角度活動(dòng),不懂得肌肉群之間的協(xié)同關(guān)系,更不理解人體在高速運(yùn)動(dòng)時(shí)的生物力學(xué)特性。

      更重要的是,AI不理解"疼痛"這個(gè)概念。在現(xiàn)實(shí)中,疼痛是人體對(duì)不合理動(dòng)作的自然反饋,是保護(hù)機(jī)制的一部分。但AI生成的動(dòng)作中,可不管你痛不痛,能動(dòng)就行。

      這就好比讓一個(gè)對(duì)人體結(jié)構(gòu)一無(wú)所知的畫(huà)家,閉著眼睛畫(huà)一個(gè)體操運(yùn)動(dòng)員的動(dòng)作連續(xù)圖。他可能會(huì)畫(huà)出看似流暢,實(shí)則完全違背人體工程學(xué)的畫(huà)面。

      而這種生物力學(xué)上的局限性,恰恰是AI在生成體操視頻時(shí)最難突破的瓶頸之一。

      第三個(gè)點(diǎn)則是美學(xué)難點(diǎn)。

      體操不是純粹的體育競(jìng)技,更是一門(mén)藝術(shù)。

      動(dòng)作的優(yōu)美程度、身體的線條感、整體的韻律美,都是體操比賽中的重要評(píng)分標(biāo)準(zhǔn)。一個(gè)動(dòng)作即使完成了技術(shù)動(dòng)作,如果缺乏美感,一樣會(huì)被扣分。

      動(dòng)作要準(zhǔn),還要優(yōu)美,這對(duì)AI來(lái)說(shuō),太難了。

      而這三重難度疊加在一起,就成了AI的噩夢(mèng)。

      有人說(shuō)AI生成體操視頻失敗是因?yàn)橛?xùn)練數(shù)據(jù)不足,有人說(shuō)是數(shù)據(jù)集模糊處理導(dǎo)致模型無(wú)法理解人體結(jié)構(gòu)。

      但更深層的問(wèn)題我覺(jué)得還是在于:AI終究還是在完美模仿。

      就像一只鸚鵡再怎么會(huì)模仿人類(lèi)說(shuō)話(huà),它也不知道它所說(shuō)的話(huà)是什么意思,哪怕它對(duì)答如流。

      這個(gè)比喻非常精準(zhǔn)。

      我覺(jué)得對(duì)現(xiàn)在的大模型如此、對(duì)AI繪圖如此、對(duì)AI視頻,更是如此。

      當(dāng)AI生成視頻時(shí),它實(shí)際上是在進(jìn)行一場(chǎng)概率游戲,根據(jù)已經(jīng)見(jiàn)過(guò)的畫(huà)面去猜測(cè)下一幀最可能是什么樣子。這就像是一個(gè)從沒(méi)學(xué)過(guò)體操的人,在試圖通過(guò)看過(guò)的視頻去復(fù)現(xiàn)一個(gè)高難度動(dòng)作。

      但體操不是概率游戲。

      一些比較前沿的學(xué)術(shù)屆,也嘗試引入物理引擎模擬(比如將動(dòng)作生成與物理模擬器結(jié)合),或者在損失函數(shù)中加入物理規(guī)律約束,但還都在探索階段,離所謂的世界模擬器,還差太遠(yuǎn)太遠(yuǎn)了。

      就像圖靈測(cè)試用人類(lèi)對(duì)話(huà)來(lái)檢驗(yàn)AI的智能水平,體操視頻我覺(jué)得就是在考驗(yàn)AI對(duì)現(xiàn)實(shí)世界的理解深度。它需要AI不僅能“完美模仿”,更要理解背后的物理規(guī)律、生物力學(xué)原理和美學(xué)標(biāo)準(zhǔn)。

      這種理解,遠(yuǎn)比我們想象的要深刻得多。

      恰恰印證了Pedro Domingos教授的判斷。通往AGI的路,也許比我們想象的還要遠(yuǎn)一些。

      這條路或許很遠(yuǎn)。

      但終點(diǎn)一定值得期待。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類(lèi)目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。