2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標(biāo)網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團(tuán)隊煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 科技資訊

    英偉達(dá)官方盤點2023年10大研究!「神經(jīng)朗琪羅」秒變逼真大衛(wèi),用AI生成3D虛擬世界

    2023年12月25日 11:00:22   來源:新智元公眾號

      英偉達(dá)官方盤點2023年10大研究,從CV到AI,從智能體到生成式AI。英偉達(dá)不但現(xiàn)實世界中用GPU收割全世界,也在虛擬世界中用一項項匪夷所思的技術(shù)展開了一場革命。

      2023年,是人工智能爆炸式增長的一年。

      紅色代表人工智能,藍(lán)色代表機(jī)器學(xué)習(xí)

      微軟、谷歌、Meta等科技巨頭紛紛回顧了這一年研究成果。英偉達(dá)雖以賣算力成為全球GPU霸主,但在AI研究方面也毫不遜色。

      對此,Jim Fan本人總結(jié)了,英偉達(dá)2023年研究的十大看點。

      主題的主要分布:3個有關(guān)具身AI(機(jī)器人,虛擬角色);2個有關(guān)3D生成模型;2個圖形處理;2個圖像生成;1個視頻生成的研究。

      TOP1:「神經(jīng)朗琪羅」讓16世紀(jì)的大衛(wèi)復(fù)活

      來自英偉達(dá)和約翰霍普金斯大學(xué)的研究人員提出的新型AI模型,利用神經(jīng)網(wǎng)絡(luò)重建3D物體。最新研究還被CVPR2023錄用。

      論文地址:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf

      特別是,Neuralangelo可以從手機(jī)視頻,無人機(jī)拍攝的視頻重建「高保真的大規(guī)模場景」。

      Neuralangelo這項研究曾被TIME雜志評為「2023年200個最佳發(fā)明」之一。

      以前的AI模型在重建3D場景時,往往難以準(zhǔn)確捕捉到重復(fù)的紋理模式、均勻的顏色以及強(qiáng)烈的色彩變化。

      為此,團(tuán)隊提出了一個將多分辨率3D哈希網(wǎng)格的表征能力和神經(jīng)表面渲染相結(jié)合的全新方法——Neuralangelo。

      去年,英偉達(dá)研究人員曾創(chuàng)造了一種新工具3D MoMa,將照片變成3D物體易如反掌。

      NeuralAngelo建立在這一概念的基礎(chǔ)上,允許導(dǎo)入更大、更詳細(xì)的空間和對象。而它特別之處在于,可以準(zhǔn)確捕捉重復(fù)的紋理模式、同質(zhì)的顏色和強(qiáng)烈的顏色變化。

      通過采用「即時神經(jīng)圖形基元」,也就是NVIDIA Instant NeRF技術(shù)的核心,Neuralangelo由此可以捕捉更細(xì)微的細(xì)節(jié)。

      團(tuán)隊的方法依賴于2個關(guān)鍵要素:

      (1)用于計算高階導(dǎo)數(shù)作為平滑操作的數(shù)值梯度;

      (2)在控制不同細(xì)節(jié)級別的哈希網(wǎng)格上進(jìn)行由粗到細(xì)的優(yōu)化。

      即使沒有輔助深度,Neuralangelo也能有效地從多視圖圖像中恢復(fù)密集3D表面結(jié)構(gòu),其保真度顯著超過了以往的方法,使得能夠從RGB視頻捕捉中重建詳細(xì)的大規(guī)模場景。

      比如,Neuralangelo「復(fù)刻」出3D版的著名雕像大衛(wèi),大理石的細(xì)節(jié)、紋理栩栩如生。

      要知道,收藏在佛羅倫薩美術(shù)學(xué)院的大衛(wèi)雕像,僅身高3.96米,加上基座都有5.5米。

      它甚至可以重建一棟建筑物的內(nèi)外部結(jié)構(gòu),屋頂瓦片、玻璃窗格、還有各種細(xì)節(jié)都一一再現(xiàn)。

      TOP2:對標(biāo)DreamFusion,英偉達(dá)3D生成模型速度更快

      Magic3D是一個可以從文字描述中生成3D模型的AI模型。

      論文地址:https://arxiv.org/pdf/2211.10440.pdf

      在輸入諸如「一只坐在睡蓮上的藍(lán)色毒鏢蛙」這樣的提示后,Magic3D在大約40分鐘內(nèi)生成了一個3D網(wǎng)格模型,并配有彩色紋理。

      Magic3D還可以對3D網(wǎng)格進(jìn)行基于提示的實時編輯。想改變生成模型,只要改改文字提示,就能立即生成新的模型。

      與谷歌DreamFusion方式類似,Magic3D同樣是將低分辨率生成的粗略模型優(yōu)化為高分辨率的精細(xì)模型,由此產(chǎn)生的Magic3D方法,可以比DreamFusion更快地生成3D目標(biāo)。

      從上面Magic3D的架構(gòu)示意圖可以看出,Magic3D以「由粗到細(xì)」的方式從輸入的文本提示中生成高分辨率的三維內(nèi)容。

      整個生成過程分為兩個階段。

      第一階段,研究團(tuán)隊使用eDiff-I作為低分辨率文本-圖像擴(kuò)散先驗。通過優(yōu)化Instant NGP獲得初始3D表示。

      之后通過反復(fù)抽樣和渲染低分辨率圖像,不斷計算Score Distillation Sampling的損失來訓(xùn)練Instant NGP。

      優(yōu)化后使用DMTet,從Instant NGP中提取一個粗略模型,并使用哈希網(wǎng)格和稀疏加速結(jié)構(gòu)對其進(jìn)行加速。

      該擴(kuò)散先驗用于計算場景的梯度,根據(jù)64×64的低分辨率圖像在渲染圖像上定義的損失進(jìn)行建模。

      第二階段,研究團(tuán)隊使用高分辨率潛在擴(kuò)散模型(LDM),不斷抽樣和渲染第一階段的粗略模型。

      通過交互渲染器進(jìn)行優(yōu)化,反向生成512×512的高分辨率渲染圖像。

      TOP3:高逼真頭發(fā)模擬

      盡管當(dāng)前取得了巨大的技術(shù)進(jìn)步,頭發(fā)和毛發(fā)模擬對動畫工作室來說仍然是一個挑戰(zhàn)?紤]重力、風(fēng)、相互作用是一項計算密集型任務(wù),無法實時準(zhǔn)確完成。

      英偉達(dá)研究人員實現(xiàn)了在GPU上計算頭發(fā)模擬的新方法——ADMM,論文已被SIGGRAPH2023上展示。

      論文地址:https://research.nvidia.com/publication/2023-08_interactive-hair-simulation-gpu-using-admm

      總的來說,這項研究實現(xiàn)了使用AI來預(yù)測頭發(fā)在現(xiàn)實世界中的行為方式。

      比起先前的方法,它的性能更加強(qiáng)大,甚至,可以根據(jù)頭發(fā)的復(fù)雜程度以交互幀率計算模擬,如下圖所示,

      論文研究者Gilles Daviet解釋道,通過在各種場景中的測試,頭發(fā)模擬每幀耗時在0.18-8秒之間。

      簡而言之,平均計算時間將根據(jù)各種因素而增加,比如頭發(fā)數(shù)量和長度,或者如何精確處理碰撞。

      至于內(nèi)存,根據(jù)場景的不同,模擬所需的內(nèi)存從1GB到2×9.5GB不等(在雙GPU設(shè)置下)。

      這種更快的頭發(fā)模擬技術(shù),可用于多種用途。

      基于物理的編輯工具可用于調(diào)整現(xiàn)有的發(fā)型,同時保持彈性和自碰撞約束。

      他創(chuàng)建的演示工具可以「統(tǒng)一縮放頭發(fā)的長度和/或弧度;沿切割平面修剪發(fā)棒;以及通過類似彈簧的力在選擇半徑內(nèi)直接操作發(fā)絲」。

      TOP4:GPT-4加持,AI智能體完成復(fù)雜任務(wù)

      英偉達(dá)、賓大、加州理工、德州奧斯汀等機(jī)構(gòu)的專家提出一個開放式Agent——Eureka,它是一個開放式智能體,為超人類水平的機(jī)器人靈巧性設(shè)計了獎勵功能。

      論文鏈接:https://arxiv.org/pdf/2310.12931.pdf

      英偉達(dá)等機(jī)構(gòu)的研究人員開發(fā)出的Eureka系統(tǒng),可以讓GPT-4直接教機(jī)器人完成基本的動作。

      比如,花樣轉(zhuǎn)筆。

      具體來說,它是一個GPT-4加持的獎勵設(shè)計算法,充分利用了GPT-4優(yōu)秀的零樣本生成、代碼生成和上下文學(xué)習(xí)的能力,產(chǎn)生的獎勵可以用于通過強(qiáng)化學(xué)習(xí)來讓機(jī)器人獲得復(fù)雜的具體技能。

      在沒有任何特定于任務(wù)的提示或預(yù)定義的獎勵模板的情況下,Eureka生成的獎勵函數(shù)的質(zhì)量,已經(jīng)能夠超過人類專家設(shè)計的獎勵!

      具體來說,Eureka通過在上下文中發(fā)展獎勵功能,實現(xiàn)了人類水平的獎勵設(shè)計,包含了3個關(guān)鍵組成部分。

      - 模擬器環(huán)境代碼作為上下文,快速啟動初始「種子」獎勵函數(shù)。

      - GPU上的大規(guī)模并行RL,可以快速評估大量候選獎勵。

      - 獎勵反射可在上下文中產(chǎn)生有針對性的獎勵突變。

      TOP5:用LDM實現(xiàn)高分辨率視頻生成

      這篇論文介紹了Latent Diffusion Models(LDM)在高分辨率視頻生成任務(wù)中的應(yīng)用。

      通過在低維潛空間中訓(xùn)練擴(kuò)散模型,LDM實現(xiàn)了高質(zhì)量圖像合成,并避免了過多的計算需求。

      論文地址:https://arxiv.org/pdf/2304.08818.pdf

      研究人員將LDM應(yīng)用于視頻生成,并進(jìn)行了微調(diào),實現(xiàn)了對512x1024分辨率駕駛視頻的優(yōu)秀表現(xiàn)。

      此外,研究人員還將現(xiàn)有的文本到圖像LDM模型轉(zhuǎn)換為高效、精確的文本到視頻模型,并展示了個性化文本到視頻生成的結(jié)果。

      具體來說,這個模型生成的整體流程如下,先生成關(guān)鍵幀,然后也使用擴(kuò)散模型進(jìn)行插幀,將相鄰幀的latent作為插幀片段的兩端進(jìn)行保留,中間待插入的幀latent用噪聲初始化。

      然后經(jīng)過解碼器,生成視頻,再用超分模塊。

      在生成長視頻和插幀時,使用mask-condition的方法,就是用一個二值的mask,通過給定一定的context幀的latent,來預(yù)測被mask的幀latent,可以通過迭代的方法生成長視頻。

      生成的視頻效果如下,分辨率為有1280x2048像素,由113幀組成,以24fps的速度渲染,產(chǎn)生4.7秒的長剪輯。

      這項用于文本到視頻生成的視頻LDM基于穩(wěn)定擴(kuò)散,總共有4.1B個參數(shù),包括除剪輯文本編碼器之外的所有組件。

      在這些參數(shù)中,只有27億是通過視頻進(jìn)行訓(xùn)練的。

      具體用例中,比如可以進(jìn)行多模態(tài)駕駛情景預(yù)測。

      作為另一個可能相關(guān)的應(yīng)用程序,研究人員可以采用相同的起始幀并生成多個看似合理的推出。在下面的兩組視頻中,合成從相同的初始幀開始。

      TOP6:文本提示生成材質(zhì),并且將材質(zhì)并無縫復(fù)制在任何表面上

      項目介紹:https://blogs.nvidia.com/blog/siggraph-research-generative-ai-materials-3d-scenes/

      英偉達(dá)研究人員憑借可幫助藝術(shù)家快速迭代3D場景的生成式AI模型演示,贏得了SIGGRAPH現(xiàn)場活動的最佳展示獎。

      在演示中,英偉達(dá)研究人員在客廳場景下進(jìn)行了展示。

      研究人員使用OpenUSD來添加磚紋理墻,創(chuàng)建和修改沙發(fā)和抱枕的面料選擇,以及將抽象的動物設(shè)計融入了墻壁的特定區(qū)域。

      在包括建筑、游戲開發(fā)和室內(nèi)設(shè)計在內(nèi)的創(chuàng)意產(chǎn)業(yè)中,這些功能可以幫助藝術(shù)家快速探索想法并嘗試不同的美學(xué)風(fēng)格,以創(chuàng)建場景的多個版本。

      而這個完全基于物理的材質(zhì)生成功能將通過英偉達(dá)Picasso基礎(chǔ)模型平臺提供服務(wù)。

      通過英偉達(dá)Picasso基礎(chǔ)模型平臺,企業(yè)開發(fā)人員、軟件創(chuàng)建者和服務(wù)提供商可以選擇訓(xùn)練、微調(diào)、優(yōu)化和推斷圖像、視頻、3D 和360HDRi 的基礎(chǔ)模型,以滿足他們的視覺設(shè)計需求。

      TOP7:CALM——訓(xùn)練可操縱虛擬角色在物理模擬中執(zhí)行動作的方法

      項目地址:https://research.nvidia.com/labs/par/calm/

      CALM是一種為用戶控制的交互式虛擬角色生成多樣化且可定向行為的方法。

      通過模仿學(xué)習(xí),CALM 可以學(xué)習(xí)運動的表示形式,捕捉人體運動的復(fù)雜性和多樣性,并能夠直接控制角色運動。

      該方法聯(lián)合學(xué)習(xí)控制策略和運動編碼器,該編碼器可以重建給定運動的關(guān)鍵特征,而不僅僅是復(fù)制它。

      結(jié)果表明,CALM 學(xué)習(xí)語義運動表示,從而能夠控制生成的運動和風(fēng)格調(diào)節(jié),以進(jìn)行更高級別的任務(wù)訓(xùn)練。

      CALM由3個部分組成:

      在低級訓(xùn)練期間,CALM學(xué)習(xí)編碼器和解碼器。編碼器從運動參考數(shù)據(jù)集中獲取運動、關(guān)節(jié)位置的時間序列,并將其映射到低維潛在表示。

      此外,CALM 還聯(lián)合學(xué)習(xí)解碼器。解碼器是一個低級策略,它與模擬器交互并生成與參考數(shù)據(jù)集類似的運動。

      第二個階段:方向性控制

      為了控制運動方向,研究人員訓(xùn)練高級任務(wù)驅(qū)動策略來選擇潛在變量。

      這些潛在變量被提供給生成所請求的動作的低級策略。

      在這里,學(xué)習(xí)到的運動表示可以實現(xiàn)某種形式的風(fēng)格調(diào)節(jié)。為了實現(xiàn)這一點,運動編碼器用于獲取所請求運動的潛在表示。

      然后,向高級策略提供與所選潛在變量和代表所請求風(fēng)格的潛在變量之間的余弦距離成比例的額外獎勵,從而指導(dǎo)高級策略采用所需的行為風(fēng)格。

      第三階段:推理

      最后,將先前訓(xùn)練的模型(低級策略和方向控制器)組合起來組成復(fù)雜的動作,而無需額外的訓(xùn)練。

      為此,用戶生成一個包含標(biāo)準(zhǔn)規(guī)則和命令的有限狀態(tài)機(jī) (FSM)。它決定了執(zhí)行哪個動作,類似于用戶如何控制視頻游戲角色。

      比如,開發(fā)人員可以構(gòu)建一個 FSM,如 (a)「蹲下走向目標(biāo),直到距離 <1m」,然后 (b)「踢」,最后 (c)「慶!。

      TOP8:通過比賽視頻讓虛擬角色學(xué)習(xí)網(wǎng)球技能

      項目地址:https://research.nvidia.com/labs/toronto-ai/vid2player3d/

      英偉達(dá)研究人員提出了一個系統(tǒng),它可以從廣播視頻中收集的大規(guī)模網(wǎng)球比賽演示中學(xué)習(xí)各種物理模擬的網(wǎng)球技能。

      他們的方法建立在分層模型的基礎(chǔ)上,結(jié)合了低級模仿策略和高級運動規(guī)劃策略,以在從廣播視頻中學(xué)習(xí)的運動嵌入中引導(dǎo)角色。

      當(dāng)大規(guī)模部署在包含大量現(xiàn)實世界網(wǎng)球比賽示例的大型視頻集上時,研究人員的方法可以學(xué)習(xí)復(fù)雜的網(wǎng)球擊球技巧,并將多個鏡頭真實地鏈接在一起形成擴(kuò)展的比賽,僅使用簡單的獎勵,并且無需明確的擊球注釋類型。

      為了解決從廣播視頻中提取的低質(zhì)量運動,研究人員通過基于物理的模仿來校正估計的運動,并使用混合控制策略,通過高級策略預(yù)測的校正來覆蓋學(xué)習(xí)運動嵌入的錯誤方面。

      系統(tǒng)可以合成兩個物理模擬角色,通過模擬球拍和球的動力學(xué)進(jìn)行長時間的網(wǎng)球比賽。

      系統(tǒng)包括四個階段。首先,研究人員估算2D和3D球員姿勢以及全局根部軌跡,以此創(chuàng)建運動數(shù)據(jù)集。

      其次,訓(xùn)練一個低層次的模仿策略,用于模仿運動數(shù)據(jù),控制模擬角色的低層次行為,并生成一個物理修正的運動數(shù)據(jù)集。

      接下來,研究人員對修正后的運動數(shù)據(jù)集進(jìn)行條件變分自編碼器(VAE)的擬合,以學(xué)習(xí)一個低維的運動嵌入,從而產(chǎn)生類人的網(wǎng)球動作。

      最后,訓(xùn)練一個高層次的運動規(guī)劃策略,通過結(jié)合運動嵌入輸出的身體動作和對角色腕部運動的預(yù)測修正,生成目標(biāo)運動姿態(tài)。

      然后,通過低層次策略模仿這一目標(biāo)動作,以控制物理模擬的角色執(zhí)行所需任務(wù)。

      TOP9:高效、高質(zhì)量的網(wǎng)格優(yōu)化方法——FlexiCubes

      這項研究是基于梯度的網(wǎng)格優(yōu)化。研究人員通過將3D 表面網(wǎng)格表示為標(biāo)量場的等值面來迭代優(yōu)化3D 表面網(wǎng)格,這是攝影測量、生成建模和逆向物理等應(yīng)用中越來越常見的范例。

      現(xiàn)有的實現(xiàn)采用經(jīng)典的等值面提取算法。這些技術(shù)旨在從固定的已知字段中提取網(wǎng)格,并且在優(yōu)化設(shè)置中,它們?nèi)狈Ρ硎靖哔|(zhì)量特征保留網(wǎng)格的自由度,或者遭受數(shù)值不穩(wěn)定的影響。

      研究人員提出了FlexiCubes,這是一種等值面表征,專門用于優(yōu)化幾何、視覺甚至物理目標(biāo)方面的未知網(wǎng)格。

      研究人員將額外精心選擇的參數(shù)引入到表征中,從而允許對提取的網(wǎng)格幾何形狀和連接性進(jìn)行本地靈活調(diào)整。

      在優(yōu)化下游任務(wù)時,這些參數(shù)會通過自動微分與底層標(biāo)量場一起更新。這種提取方案基于雙行進(jìn)立方體,以改進(jìn)拓?fù)鋵傩,并提出擴(kuò)展以選擇性地生成四面體和分層自適應(yīng)網(wǎng)格。

      通過大量實驗,研究人員在綜合基準(zhǔn)和實際應(yīng)用中驗證了FlexiCube,表明它在網(wǎng)格質(zhì)量和幾何保真度方面提供了顯著改進(jìn)。

      具體來說,F(xiàn)lexiCubes提供了兩個顯著的優(yōu)勢,可以為各種應(yīng)用實現(xiàn)簡單、高效和高質(zhì)量的網(wǎng)格優(yōu)化:

      漸進(jìn)式的優(yōu)化:網(wǎng)格的微分是明確定義的,基于梯度的優(yōu)化在實踐中有效收斂。

      靈活性:網(wǎng)格頂點可以單獨進(jìn)行局部調(diào)整,以適應(yīng)表面特征并找到具有少量元素的高質(zhì)量網(wǎng)格。

      通過可微渲染進(jìn)行攝影測量

      可微分等值曲面技術(shù)DMTet是最近工作nvdiffrec的核心,它聯(lián)合優(yōu)化了圖像的形狀、材質(zhì)和光照。

      通過在拓?fù)鋬?yōu)化步驟中簡單地用 FlexiCube替換DMTet,保持管道的其余部分不變,我們觀察到在相等三角形數(shù)量下改進(jìn)的幾何重建。

      3D 網(wǎng)格生成

      最近的3D 生成模型 GET3D 將3D 表示差異化地渲染為2D 圖像,并利用生成對抗框架僅使用2D 圖像監(jiān)督來合成3D 內(nèi)容。

      FlexiCubes可以在3D 生成模型中充當(dāng)即插即用的可微分網(wǎng)格提取模塊,并顯著提高網(wǎng)格質(zhì)量。

      使用四面體網(wǎng)格進(jìn)行可微分物理模擬

      FlexiCube可以微分地提取四面體網(wǎng)格。均勻曲面細(xì)分允許我們將其與可微分物理模擬框架 (gradSim) 和可微分渲染管道 (nvdiffrast) 結(jié)合起來,共同從多視圖視頻中恢復(fù)3D 形狀和物理參數(shù)。

      在這里,研究人員展示了初步結(jié)果:給定變形物體的視頻序列,他們可以恢復(fù)靜止姿勢的四面體網(wǎng)格,以及在模擬下再現(xiàn)運動的材料參數(shù)。

      動畫對象的網(wǎng)格簡化

      FlexiCubes 不是在參考姿勢中擬合單個網(wǎng)格,而是允許通過現(xiàn)成的蒙皮工具對網(wǎng)格進(jìn)行不同的蒙皮和變形,并同時針對整個動畫序列進(jìn)行優(yōu)化。

      對整個動畫的端到端優(yōu)化有助于重新分配三角形密度,以避免網(wǎng)格拉伸。

      添加網(wǎng)格正則化

      FlexiCubes表征足夠靈活,可以通過自動微分直接評估依賴于提取的網(wǎng)格本身的目標(biāo)和正則化器,并將其納入基于梯度的優(yōu)化中。

      研究人員對提取的網(wǎng)格應(yīng)用可開發(fā)性術(shù)語,以促進(jìn)面板的可制造性。

      Top10:使用專家降噪器集合進(jìn)行文本到圖像的擴(kuò)散

      項目地址:https://research.nvidia.com/labs/dir/eDiff-I/

      英偉達(dá)的研究人員提出了eDiff-I,這是一種用于合成給定文本的圖像的擴(kuò)散模型。

      受擴(kuò)散模型的行為在不同采樣階段不同的經(jīng)驗觀察的啟發(fā),研究人員訓(xùn)練一組專家去噪網(wǎng)絡(luò),每個網(wǎng)絡(luò)專門針對特定的噪聲區(qū)間。

      模型通過T5文本嵌入、CLIP圖像嵌入和CLIP文本嵌入為條件,可以生成與任何輸入文本提示相對應(yīng)的逼真圖像。

      除了文本到圖像的合成之外,我們還提供了兩個額外的功能 :

      (1) 樣式傳輸,這使我們能夠使用參考樣式圖像控制生成樣本的樣式

      (2) 「用文字繪畫」,用戶可以通過在畫布上繪制分割圖來生成圖像的應(yīng)用程序,這對于制作所需的圖像非常方便。

      模型的工作流程由三個擴(kuò)散模型的級聯(lián)組成 :

      一個可以合成64x64分辨率樣本的基本模型,以及兩個可以將圖像分別逐步上采樣到256x256和1024x1024分辨率的超分辨率堆棧。

      模型采用輸入標(biāo)題并首先計算 T5XXL 嵌入和文本嵌入?梢赃x擇使用根據(jù)參考圖像計算的CLIP圖像編碼。這些圖像嵌入可以用作風(fēng)格向量。

      然后將這些嵌入輸入到級聯(lián)擴(kuò)散模型中,該模型逐漸生成分辨率為1024x1024的圖像。

      在擴(kuò)散模型中,圖像合成通過迭代去噪過程進(jìn)行,該過程逐漸從隨機(jī)噪聲生成圖像。

      如下圖所示,模型從完全隨機(jī)的噪聲開始,然后分多個步驟逐漸去噪,最終生成熊貓騎自行車的圖像。

      在傳統(tǒng)的擴(kuò)散模型訓(xùn)練中,訓(xùn)練單個模型來對整個噪聲分布進(jìn)行去噪。在這個框架中,研究人員訓(xùn)練了一組專家降噪器,專門用于在生成過程的不同間隔中進(jìn)行降噪,從而提高合成能力。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。