Rhymes AI推出革命性文本圖像視頻生成模型Allegro-TI2V

2024年11月29日 15:29:27 來(lái)源：AIbase基地

　　Rhymes AI近日發(fā)布了其革命性文本-圖像到視頻生成模型Allegro-TI2V，這一突破性技術(shù)為數(shù)字內(nèi)容創(chuàng)作開(kāi)辟了全新的疆界。作為生成式AI的最新進(jìn)展，Allegro-TI2V為創(chuàng)意工作者提供了前所未有的視覺(jué)敘事工具，標(biāo)志著AI技術(shù)在創(chuàng)意領(lǐng)域的巨大潛力。

　　Allegro-TI2V在多個(gè)技術(shù)規(guī)格上表現(xiàn)卓越，支持高達(dá)79.2K的上下文長(zhǎng)度，相當(dāng)于88幀視頻。其輸出分辨率為720×1280像素，視頻生成速度為每秒15幀，用戶還可以選擇插值至30FPS，以滿足不同應(yīng)用場(chǎng)景的需求。這款模型的架構(gòu)非常復(fù)雜，包含了1.75億參數(shù)的VideoVAE和28億參數(shù)的VideoDiT模型，使其能夠精準(zhǔn)捕捉用戶輸入的文本提示和初始圖像的本質(zhì)。此外，Allegro-TI2V還支持多精度模式(FP32、BF16、FP16)，在BF16模式下，生成視頻僅需9.3GB的GPU內(nèi)存，極大降低了硬件需求。

　　Allegro-TI2V的創(chuàng)新之處在于其引入了兩種全新的生成模式:后續(xù)視頻生成:基于文本提示和初始幀，創(chuàng)建連續(xù)的視頻內(nèi)容。這種模式能夠幫助創(chuàng)作者輕松生成符合設(shè)定主題和風(fēng)格的視頻。中間視頻生成:在給定視頻的首尾幀的基礎(chǔ)上，生成自然過(guò)渡的中間幀，打破傳統(tǒng)視頻編輯的時(shí)間與空間限制。

　　這些創(chuàng)新模式使得Allegro-TI2V能夠?yàn)閯?chuàng)作者提供更高效、更靈活的視頻創(chuàng)作方式，大大提升了創(chuàng)作效率和質(zhì)量。

　　Rhymes AI在Apache2.0許可下發(fā)布了Allegro-TI2V，使得研究人員、開(kāi)發(fā)者和內(nèi)容創(chuàng)作者能夠更容易地訪問(wèn)和使用這一技術(shù)。用戶只需安裝Python3.10+、PyTorch2.4+和CUDA12.4+，便可輕松上手并快速體驗(yàn)這一先進(jìn)技術(shù)。

　　Allegro-TI2V的應(yīng)用前景極為廣泛，從電影制作、游戲開(kāi)發(fā)到數(shù)字藝術(shù)和創(chuàng)意原型，都能充分發(fā)揮其強(qiáng)大的生成能力。根據(jù)開(kāi)發(fā)者提供的數(shù)據(jù)，單個(gè)***GPU在約20分鐘內(nèi)即可生成6秒的視頻，而使用8個(gè)***GPU配置，生成時(shí)間將縮短至3分鐘，顯著提升了視頻內(nèi)容創(chuàng)作的效率。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信