" />
Sora是一款獨特的視頻生成工具,其工作原理深入淺出,值得我們深入了解。something new/old創(chuàng)始人brett goldstein在X上給大家拆解了Sora工作原理,通俗易懂。
Sora的工作原理結(jié)合了擴散模型和Transformer架構(gòu)。擴散模型從噪聲開始,逐漸精細(xì)化到所需的視頻。而Transformer架構(gòu)則負(fù)責(zé)處理連續(xù)的視頻幀,確保視頻中的動作流暢自然。
Sora的獨特之處在于其處理視頻生成的方法。它不是直接將文本轉(zhuǎn)換為視頻幀,而是依賴于所謂的“空間時間補丁”。這種方法不直接將文本轉(zhuǎn)換為視頻幀,而是處理空間(發(fā)生的事情)和時間(何時發(fā)生)的快照。這可以看作是微觀視頻拼圖的每一小塊。
時空立方體:
通過這種方式,Sora將視頻視為一個包含空間和時間維度的巨大立方體,然后再將其切割成更小的立方體,每個立方體代表空間和時間的片段。
剖析描述并確定了核心要素:
• 物體(盛開的花朵、陽光普照的窗臺)
• 行動(隨著時間的推移而增長)
• 位置(郊區(qū)環(huán)境)
• 甚至藝術(shù)風(fēng)格(定格動畫美學(xué))
為了能夠?qū)⑦@些補丁有意義地組合成一個連貫的視頻,Sora利用了其內(nèi)部的知識圖譜。這些知識圖譜包含了關(guān)于物理世界、對象如何相互作用,甚至包括不同藝術(shù)風(fēng)格的信息。借助這些知識,Sora能夠理解例如一朵花如何逐漸開放、如何與陽光互動以及如何保持停動畫風(fēng)格等復(fù)雜過程。
在視頻生成的下一階段,擴散模型開始對每個嘈雜、抽象的補丁進行處理,逐漸精細(xì)化,直至最終呈現(xiàn)出清晰的圖像。而Transformer架構(gòu)則負(fù)責(zé)分析時間跨度上補丁之間的關(guān)系,確保視頻中的動作流暢自然,停動畫風(fēng)格在整個視頻序列中保持一致。
盡管Sora能夠執(zhí)行各種與視頻相關(guān)的任務(wù),并展現(xiàn)出驚人的視頻生成能力,但仍有一些挑戰(zhàn)需要克服。例如,它在模擬一些基礎(chǔ)物理互動的精確性方面還有待提高,有時會產(chǎn)生不自然的效果,如人物的手勢看起來不夠真實。盡管如此,Sora在視頻生成技術(shù)方面展示了巨大的潛力,為未來的人工智能應(yīng)用開辟了新的可能性。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。