E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動(dòng)6000億GTV后,抖音計(jì)劃偷襲美團(tuán)大本營(yíng)AGI Open Network(AON):賦能每個(gè)人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來(lái)電”有詐?抖音客服上線“驗(yàn)證助手”助用戶識(shí)別詐騙OpenAI新模型GPT-5研發(fā)未達(dá)預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運(yùn)營(yíng)商e&,展示全球首個(gè)固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運(yùn)營(yíng)商11月成績(jī)單:用戶數(shù)據(jù)增幅放緩打造下一個(gè)英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢(shì)AI時(shí)代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance年末家電消費(fèi)觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來(lái)剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進(jìn)展新一代語(yǔ)言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型
  • 首頁(yè) > 產(chǎn)經(jīng)新聞?lì)l道 > 科技資訊

    英偉達(dá)官方盤點(diǎn)2023年10大研究!「神經(jīng)朗琪羅」秒變逼真大衛(wèi),用AI生成3D虛擬世界

    2023年12月25日 11:00:22   來(lái)源:新智元公眾號(hào)

      英偉達(dá)官方盤點(diǎn)2023年10大研究,從CV到AI,從智能體到生成式AI。英偉達(dá)不但現(xiàn)實(shí)世界中用GPU收割全世界,也在虛擬世界中用一項(xiàng)項(xiàng)匪夷所思的技術(shù)展開了一場(chǎng)革命。

      2023年,是人工智能爆炸式增長(zhǎng)的一年。

      紅色代表人工智能,藍(lán)色代表機(jī)器學(xué)習(xí)

      微軟、谷歌、Meta等科技巨頭紛紛回顧了這一年研究成果。英偉達(dá)雖以賣算力成為全球GPU霸主,但在AI研究方面也毫不遜色。

      對(duì)此,Jim Fan本人總結(jié)了,英偉達(dá)2023年研究的十大看點(diǎn)。

      主題的主要分布:3個(gè)有關(guān)具身AI(機(jī)器人,虛擬角色);2個(gè)有關(guān)3D生成模型;2個(gè)圖形處理;2個(gè)圖像生成;1個(gè)視頻生成的研究。

      TOP1:「神經(jīng)朗琪羅」讓16世紀(jì)的大衛(wèi)復(fù)活

      來(lái)自英偉達(dá)和約翰霍普金斯大學(xué)的研究人員提出的新型AI模型,利用神經(jīng)網(wǎng)絡(luò)重建3D物體。最新研究還被CVPR2023錄用。

      論文地址:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf

      特別是,Neuralangelo可以從手機(jī)視頻,無(wú)人機(jī)拍攝的視頻重建「高保真的大規(guī)模場(chǎng)景」。

      Neuralangelo這項(xiàng)研究曾被TIME雜志評(píng)為「2023年200個(gè)最佳發(fā)明」之一。

      以前的AI模型在重建3D場(chǎng)景時(shí),往往難以準(zhǔn)確捕捉到重復(fù)的紋理模式、均勻的顏色以及強(qiáng)烈的色彩變化。

      為此,團(tuán)隊(duì)提出了一個(gè)將多分辨率3D哈希網(wǎng)格的表征能力和神經(jīng)表面渲染相結(jié)合的全新方法——Neuralangelo。

      去年,英偉達(dá)研究人員曾創(chuàng)造了一種新工具3D MoMa,將照片變成3D物體易如反掌。

      NeuralAngelo建立在這一概念的基礎(chǔ)上,允許導(dǎo)入更大、更詳細(xì)的空間和對(duì)象。而它特別之處在于,可以準(zhǔn)確捕捉重復(fù)的紋理模式、同質(zhì)的顏色和強(qiáng)烈的顏色變化。

      通過采用「即時(shí)神經(jīng)圖形基元」,也就是NVIDIA Instant NeRF技術(shù)的核心,Neuralangelo由此可以捕捉更細(xì)微的細(xì)節(jié)。

      團(tuán)隊(duì)的方法依賴于2個(gè)關(guān)鍵要素:

      (1)用于計(jì)算高階導(dǎo)數(shù)作為平滑操作的數(shù)值梯度;

      (2)在控制不同細(xì)節(jié)級(jí)別的哈希網(wǎng)格上進(jìn)行由粗到細(xì)的優(yōu)化。

      即使沒有輔助深度,Neuralangelo也能有效地從多視圖圖像中恢復(fù)密集3D表面結(jié)構(gòu),其保真度顯著超過了以往的方法,使得能夠從RGB視頻捕捉中重建詳細(xì)的大規(guī)模場(chǎng)景。

      比如,Neuralangelo「復(fù)刻」出3D版的著名雕像大衛(wèi),大理石的細(xì)節(jié)、紋理栩栩如生。

      要知道,收藏在佛羅倫薩美術(shù)學(xué)院的大衛(wèi)雕像,僅身高3.96米,加上基座都有5.5米。

      它甚至可以重建一棟建筑物的內(nèi)外部結(jié)構(gòu),屋頂瓦片、玻璃窗格、還有各種細(xì)節(jié)都一一再現(xiàn)。

      TOP2:對(duì)標(biāo)DreamFusion,英偉達(dá)3D生成模型速度更快

      Magic3D是一個(gè)可以從文字描述中生成3D模型的AI模型。

      論文地址:https://arxiv.org/pdf/2211.10440.pdf

      在輸入諸如「一只坐在睡蓮上的藍(lán)色毒鏢蛙」這樣的提示后,Magic3D在大約40分鐘內(nèi)生成了一個(gè)3D網(wǎng)格模型,并配有彩色紋理。

      Magic3D還可以對(duì)3D網(wǎng)格進(jìn)行基于提示的實(shí)時(shí)編輯。想改變生成模型,只要改改文字提示,就能立即生成新的模型。

      與谷歌DreamFusion方式類似,Magic3D同樣是將低分辨率生成的粗略模型優(yōu)化為高分辨率的精細(xì)模型,由此產(chǎn)生的Magic3D方法,可以比DreamFusion更快地生成3D目標(biāo)。

      從上面Magic3D的架構(gòu)示意圖可以看出,Magic3D以「由粗到細(xì)」的方式從輸入的文本提示中生成高分辨率的三維內(nèi)容。

      整個(gè)生成過程分為兩個(gè)階段。

      第一階段,研究團(tuán)隊(duì)使用eDiff-I作為低分辨率文本-圖像擴(kuò)散先驗(yàn)。通過優(yōu)化Instant NGP獲得初始3D表示。

      之后通過反復(fù)抽樣和渲染低分辨率圖像,不斷計(jì)算Score Distillation Sampling的損失來(lái)訓(xùn)練Instant NGP。

      優(yōu)化后使用DMTet,從Instant NGP中提取一個(gè)粗略模型,并使用哈希網(wǎng)格和稀疏加速結(jié)構(gòu)對(duì)其進(jìn)行加速。

      該擴(kuò)散先驗(yàn)用于計(jì)算場(chǎng)景的梯度,根據(jù)64×64的低分辨率圖像在渲染圖像上定義的損失進(jìn)行建模。

      第二階段,研究團(tuán)隊(duì)使用高分辨率潛在擴(kuò)散模型(LDM),不斷抽樣和渲染第一階段的粗略模型。

      通過交互渲染器進(jìn)行優(yōu)化,反向生成512×512的高分辨率渲染圖像。

      TOP3:高逼真頭發(fā)模擬

      盡管當(dāng)前取得了巨大的技術(shù)進(jìn)步,頭發(fā)和毛發(fā)模擬對(duì)動(dòng)畫工作室來(lái)說仍然是一個(gè)挑戰(zhàn)?紤]重力、風(fēng)、相互作用是一項(xiàng)計(jì)算密集型任務(wù),無(wú)法實(shí)時(shí)準(zhǔn)確完成。

      英偉達(dá)研究人員實(shí)現(xiàn)了在GPU上計(jì)算頭發(fā)模擬的新方法——ADMM,論文已被SIGGRAPH2023上展示。

      論文地址:https://research.nvidia.com/publication/2023-08_interactive-hair-simulation-gpu-using-admm

      總的來(lái)說,這項(xiàng)研究實(shí)現(xiàn)了使用AI來(lái)預(yù)測(cè)頭發(fā)在現(xiàn)實(shí)世界中的行為方式。

      比起先前的方法,它的性能更加強(qiáng)大,甚至,可以根據(jù)頭發(fā)的復(fù)雜程度以交互幀率計(jì)算模擬,如下圖所示,

      論文研究者Gilles Daviet解釋道,通過在各種場(chǎng)景中的測(cè)試,頭發(fā)模擬每幀耗時(shí)在0.18-8秒之間。

      簡(jiǎn)而言之,平均計(jì)算時(shí)間將根據(jù)各種因素而增加,比如頭發(fā)數(shù)量和長(zhǎng)度,或者如何精確處理碰撞。

      至于內(nèi)存,根據(jù)場(chǎng)景的不同,模擬所需的內(nèi)存從1GB到2×9.5GB不等(在雙GPU設(shè)置下)。

      這種更快的頭發(fā)模擬技術(shù),可用于多種用途。

      基于物理的編輯工具可用于調(diào)整現(xiàn)有的發(fā)型,同時(shí)保持彈性和自碰撞約束。

      他創(chuàng)建的演示工具可以「統(tǒng)一縮放頭發(fā)的長(zhǎng)度和/或弧度;沿切割平面修剪發(fā)棒;以及通過類似彈簧的力在選擇半徑內(nèi)直接操作發(fā)絲」。

      TOP4:GPT-4加持,AI智能體完成復(fù)雜任務(wù)

      英偉達(dá)、賓大、加州理工、德州奧斯汀等機(jī)構(gòu)的專家提出一個(gè)開放式Agent——Eureka,它是一個(gè)開放式智能體,為超人類水平的機(jī)器人靈巧性設(shè)計(jì)了獎(jiǎng)勵(lì)功能。

      論文鏈接:https://arxiv.org/pdf/2310.12931.pdf

      英偉達(dá)等機(jī)構(gòu)的研究人員開發(fā)出的Eureka系統(tǒng),可以讓GPT-4直接教機(jī)器人完成基本的動(dòng)作。

      比如,花樣轉(zhuǎn)筆。

      具體來(lái)說,它是一個(gè)GPT-4加持的獎(jiǎng)勵(lì)設(shè)計(jì)算法,充分利用了GPT-4優(yōu)秀的零樣本生成、代碼生成和上下文學(xué)習(xí)的能力,產(chǎn)生的獎(jiǎng)勵(lì)可以用于通過強(qiáng)化學(xué)習(xí)來(lái)讓機(jī)器人獲得復(fù)雜的具體技能。

      在沒有任何特定于任務(wù)的提示或預(yù)定義的獎(jiǎng)勵(lì)模板的情況下,Eureka生成的獎(jiǎng)勵(lì)函數(shù)的質(zhì)量,已經(jīng)能夠超過人類專家設(shè)計(jì)的獎(jiǎng)勵(lì)!

      具體來(lái)說,Eureka通過在上下文中發(fā)展獎(jiǎng)勵(lì)功能,實(shí)現(xiàn)了人類水平的獎(jiǎng)勵(lì)設(shè)計(jì),包含了3個(gè)關(guān)鍵組成部分。

      - 模擬器環(huán)境代碼作為上下文,快速啟動(dòng)初始「種子」獎(jiǎng)勵(lì)函數(shù)。

      - GPU上的大規(guī)模并行RL,可以快速評(píng)估大量候選獎(jiǎng)勵(lì)。

      - 獎(jiǎng)勵(lì)反射可在上下文中產(chǎn)生有針對(duì)性的獎(jiǎng)勵(lì)突變。

      TOP5:用LDM實(shí)現(xiàn)高分辨率視頻生成

      這篇論文介紹了Latent Diffusion Models(LDM)在高分辨率視頻生成任務(wù)中的應(yīng)用。

      通過在低維潛空間中訓(xùn)練擴(kuò)散模型,LDM實(shí)現(xiàn)了高質(zhì)量圖像合成,并避免了過多的計(jì)算需求。

      論文地址:https://arxiv.org/pdf/2304.08818.pdf

      研究人員將LDM應(yīng)用于視頻生成,并進(jìn)行了微調(diào),實(shí)現(xiàn)了對(duì)512x1024分辨率駕駛視頻的優(yōu)秀表現(xiàn)。

      此外,研究人員還將現(xiàn)有的文本到圖像LDM模型轉(zhuǎn)換為高效、精確的文本到視頻模型,并展示了個(gè)性化文本到視頻生成的結(jié)果。

      具體來(lái)說,這個(gè)模型生成的整體流程如下,先生成關(guān)鍵幀,然后也使用擴(kuò)散模型進(jìn)行插幀,將相鄰幀的latent作為插幀片段的兩端進(jìn)行保留,中間待插入的幀latent用噪聲初始化。

      然后經(jīng)過解碼器,生成視頻,再用超分模塊。

      在生成長(zhǎng)視頻和插幀時(shí),使用mask-condition的方法,就是用一個(gè)二值的mask,通過給定一定的context幀的latent,來(lái)預(yù)測(cè)被mask的幀latent,可以通過迭代的方法生成長(zhǎng)視頻。

      生成的視頻效果如下,分辨率為有1280x2048像素,由113幀組成,以24fps的速度渲染,產(chǎn)生4.7秒的長(zhǎng)剪輯。

      這項(xiàng)用于文本到視頻生成的視頻LDM基于穩(wěn)定擴(kuò)散,總共有4.1B個(gè)參數(shù),包括除剪輯文本編碼器之外的所有組件。

      在這些參數(shù)中,只有27億是通過視頻進(jìn)行訓(xùn)練的。

      具體用例中,比如可以進(jìn)行多模態(tài)駕駛情景預(yù)測(cè)。

      作為另一個(gè)可能相關(guān)的應(yīng)用程序,研究人員可以采用相同的起始幀并生成多個(gè)看似合理的推出。在下面的兩組視頻中,合成從相同的初始幀開始。

      TOP6:文本提示生成材質(zhì),并且將材質(zhì)并無(wú)縫復(fù)制在任何表面上

      項(xiàng)目介紹:https://blogs.nvidia.com/blog/siggraph-research-generative-ai-materials-3d-scenes/

      英偉達(dá)研究人員憑借可幫助藝術(shù)家快速迭代3D場(chǎng)景的生成式AI模型演示,贏得了SIGGRAPH現(xiàn)場(chǎng)活動(dòng)的最佳展示獎(jiǎng)。

      在演示中,英偉達(dá)研究人員在客廳場(chǎng)景下進(jìn)行了展示。

      研究人員使用OpenUSD來(lái)添加磚紋理墻,創(chuàng)建和修改沙發(fā)和抱枕的面料選擇,以及將抽象的動(dòng)物設(shè)計(jì)融入了墻壁的特定區(qū)域。

      在包括建筑、游戲開發(fā)和室內(nèi)設(shè)計(jì)在內(nèi)的創(chuàng)意產(chǎn)業(yè)中,這些功能可以幫助藝術(shù)家快速探索想法并嘗試不同的美學(xué)風(fēng)格,以創(chuàng)建場(chǎng)景的多個(gè)版本。

      而這個(gè)完全基于物理的材質(zhì)生成功能將通過英偉達(dá)Picasso基礎(chǔ)模型平臺(tái)提供服務(wù)。

      通過英偉達(dá)Picasso基礎(chǔ)模型平臺(tái),企業(yè)開發(fā)人員、軟件創(chuàng)建者和服務(wù)提供商可以選擇訓(xùn)練、微調(diào)、優(yōu)化和推斷圖像、視頻、3D 和360HDRi 的基礎(chǔ)模型,以滿足他們的視覺設(shè)計(jì)需求。

      TOP7:CALM——訓(xùn)練可操縱虛擬角色在物理模擬中執(zhí)行動(dòng)作的方法

      項(xiàng)目地址:https://research.nvidia.com/labs/par/calm/

      CALM是一種為用戶控制的交互式虛擬角色生成多樣化且可定向行為的方法。

      通過模仿學(xué)習(xí),CALM 可以學(xué)習(xí)運(yùn)動(dòng)的表示形式,捕捉人體運(yùn)動(dòng)的復(fù)雜性和多樣性,并能夠直接控制角色運(yùn)動(dòng)。

      該方法聯(lián)合學(xué)習(xí)控制策略和運(yùn)動(dòng)編碼器,該編碼器可以重建給定運(yùn)動(dòng)的關(guān)鍵特征,而不僅僅是復(fù)制它。

      結(jié)果表明,CALM 學(xué)習(xí)語(yǔ)義運(yùn)動(dòng)表示,從而能夠控制生成的運(yùn)動(dòng)和風(fēng)格調(diào)節(jié),以進(jìn)行更高級(jí)別的任務(wù)訓(xùn)練。

      CALM由3個(gè)部分組成:

      在低級(jí)訓(xùn)練期間,CALM學(xué)習(xí)編碼器和解碼器。編碼器從運(yùn)動(dòng)參考數(shù)據(jù)集中獲取運(yùn)動(dòng)、關(guān)節(jié)位置的時(shí)間序列,并將其映射到低維潛在表示。

      此外,CALM 還聯(lián)合學(xué)習(xí)解碼器。解碼器是一個(gè)低級(jí)策略,它與模擬器交互并生成與參考數(shù)據(jù)集類似的運(yùn)動(dòng)。

      第二個(gè)階段:方向性控制

      為了控制運(yùn)動(dòng)方向,研究人員訓(xùn)練高級(jí)任務(wù)驅(qū)動(dòng)策略來(lái)選擇潛在變量。

      這些潛在變量被提供給生成所請(qǐng)求的動(dòng)作的低級(jí)策略。

      在這里,學(xué)習(xí)到的運(yùn)動(dòng)表示可以實(shí)現(xiàn)某種形式的風(fēng)格調(diào)節(jié)。為了實(shí)現(xiàn)這一點(diǎn),運(yùn)動(dòng)編碼器用于獲取所請(qǐng)求運(yùn)動(dòng)的潛在表示。

      然后,向高級(jí)策略提供與所選潛在變量和代表所請(qǐng)求風(fēng)格的潛在變量之間的余弦距離成比例的額外獎(jiǎng)勵(lì),從而指導(dǎo)高級(jí)策略采用所需的行為風(fēng)格。

      第三階段:推理

      最后,將先前訓(xùn)練的模型(低級(jí)策略和方向控制器)組合起來(lái)組成復(fù)雜的動(dòng)作,而無(wú)需額外的訓(xùn)練。

      為此,用戶生成一個(gè)包含標(biāo)準(zhǔn)規(guī)則和命令的有限狀態(tài)機(jī) (FSM)。它決定了執(zhí)行哪個(gè)動(dòng)作,類似于用戶如何控制視頻游戲角色。

      比如,開發(fā)人員可以構(gòu)建一個(gè) FSM,如 (a)「蹲下走向目標(biāo),直到距離 <1m」,然后 (b)「踢」,最后 (c)「慶祝」。

      TOP8:通過比賽視頻讓虛擬角色學(xué)習(xí)網(wǎng)球技能

      項(xiàng)目地址:https://research.nvidia.com/labs/toronto-ai/vid2player3d/

      英偉達(dá)研究人員提出了一個(gè)系統(tǒng),它可以從廣播視頻中收集的大規(guī)模網(wǎng)球比賽演示中學(xué)習(xí)各種物理模擬的網(wǎng)球技能。

      他們的方法建立在分層模型的基礎(chǔ)上,結(jié)合了低級(jí)模仿策略和高級(jí)運(yùn)動(dòng)規(guī)劃策略,以在從廣播視頻中學(xué)習(xí)的運(yùn)動(dòng)嵌入中引導(dǎo)角色。

      當(dāng)大規(guī)模部署在包含大量現(xiàn)實(shí)世界網(wǎng)球比賽示例的大型視頻集上時(shí),研究人員的方法可以學(xué)習(xí)復(fù)雜的網(wǎng)球擊球技巧,并將多個(gè)鏡頭真實(shí)地鏈接在一起形成擴(kuò)展的比賽,僅使用簡(jiǎn)單的獎(jiǎng)勵(lì),并且無(wú)需明確的擊球注釋類型。

      為了解決從廣播視頻中提取的低質(zhì)量運(yùn)動(dòng),研究人員通過基于物理的模仿來(lái)校正估計(jì)的運(yùn)動(dòng),并使用混合控制策略,通過高級(jí)策略預(yù)測(cè)的校正來(lái)覆蓋學(xué)習(xí)運(yùn)動(dòng)嵌入的錯(cuò)誤方面。

      系統(tǒng)可以合成兩個(gè)物理模擬角色,通過模擬球拍和球的動(dòng)力學(xué)進(jìn)行長(zhǎng)時(shí)間的網(wǎng)球比賽。

      系統(tǒng)包括四個(gè)階段。首先,研究人員估算2D和3D球員姿勢(shì)以及全局根部軌跡,以此創(chuàng)建運(yùn)動(dòng)數(shù)據(jù)集。

      其次,訓(xùn)練一個(gè)低層次的模仿策略,用于模仿運(yùn)動(dòng)數(shù)據(jù),控制模擬角色的低層次行為,并生成一個(gè)物理修正的運(yùn)動(dòng)數(shù)據(jù)集。

      接下來(lái),研究人員對(duì)修正后的運(yùn)動(dòng)數(shù)據(jù)集進(jìn)行條件變分自編碼器(VAE)的擬合,以學(xué)習(xí)一個(gè)低維的運(yùn)動(dòng)嵌入,從而產(chǎn)生類人的網(wǎng)球動(dòng)作。

      最后,訓(xùn)練一個(gè)高層次的運(yùn)動(dòng)規(guī)劃策略,通過結(jié)合運(yùn)動(dòng)嵌入輸出的身體動(dòng)作和對(duì)角色腕部運(yùn)動(dòng)的預(yù)測(cè)修正,生成目標(biāo)運(yùn)動(dòng)姿態(tài)。

      然后,通過低層次策略模仿這一目標(biāo)動(dòng)作,以控制物理模擬的角色執(zhí)行所需任務(wù)。

      TOP9:高效、高質(zhì)量的網(wǎng)格優(yōu)化方法——FlexiCubes

      這項(xiàng)研究是基于梯度的網(wǎng)格優(yōu)化。研究人員通過將3D 表面網(wǎng)格表示為標(biāo)量場(chǎng)的等值面來(lái)迭代優(yōu)化3D 表面網(wǎng)格,這是攝影測(cè)量、生成建模和逆向物理等應(yīng)用中越來(lái)越常見的范例。

      現(xiàn)有的實(shí)現(xiàn)采用經(jīng)典的等值面提取算法。這些技術(shù)旨在從固定的已知字段中提取網(wǎng)格,并且在優(yōu)化設(shè)置中,它們?nèi)狈Ρ硎靖哔|(zhì)量特征保留網(wǎng)格的自由度,或者遭受數(shù)值不穩(wěn)定的影響。

      研究人員提出了FlexiCubes,這是一種等值面表征,專門用于優(yōu)化幾何、視覺甚至物理目標(biāo)方面的未知網(wǎng)格。

      研究人員將額外精心選擇的參數(shù)引入到表征中,從而允許對(duì)提取的網(wǎng)格幾何形狀和連接性進(jìn)行本地靈活調(diào)整。

      在優(yōu)化下游任務(wù)時(shí),這些參數(shù)會(huì)通過自動(dòng)微分與底層標(biāo)量場(chǎng)一起更新。這種提取方案基于雙行進(jìn)立方體,以改進(jìn)拓?fù)鋵傩,并提出擴(kuò)展以選擇性地生成四面體和分層自適應(yīng)網(wǎng)格。

      通過大量實(shí)驗(yàn),研究人員在綜合基準(zhǔn)和實(shí)際應(yīng)用中驗(yàn)證了FlexiCube,表明它在網(wǎng)格質(zhì)量和幾何保真度方面提供了顯著改進(jìn)。

      具體來(lái)說,F(xiàn)lexiCubes提供了兩個(gè)顯著的優(yōu)勢(shì),可以為各種應(yīng)用實(shí)現(xiàn)簡(jiǎn)單、高效和高質(zhì)量的網(wǎng)格優(yōu)化:

      漸進(jìn)式的優(yōu)化:網(wǎng)格的微分是明確定義的,基于梯度的優(yōu)化在實(shí)踐中有效收斂。

      靈活性:網(wǎng)格頂點(diǎn)可以單獨(dú)進(jìn)行局部調(diào)整,以適應(yīng)表面特征并找到具有少量元素的高質(zhì)量網(wǎng)格。

      通過可微渲染進(jìn)行攝影測(cè)量

      可微分等值曲面技術(shù)DMTet是最近工作nvdiffrec的核心,它聯(lián)合優(yōu)化了圖像的形狀、材質(zhì)和光照。

      通過在拓?fù)鋬?yōu)化步驟中簡(jiǎn)單地用 FlexiCube替換DMTet,保持管道的其余部分不變,我們觀察到在相等三角形數(shù)量下改進(jìn)的幾何重建。

      3D 網(wǎng)格生成

      最近的3D 生成模型 GET3D 將3D 表示差異化地渲染為2D 圖像,并利用生成對(duì)抗框架僅使用2D 圖像監(jiān)督來(lái)合成3D 內(nèi)容。

      FlexiCubes可以在3D 生成模型中充當(dāng)即插即用的可微分網(wǎng)格提取模塊,并顯著提高網(wǎng)格質(zhì)量。

      使用四面體網(wǎng)格進(jìn)行可微分物理模擬

      FlexiCube可以微分地提取四面體網(wǎng)格。均勻曲面細(xì)分允許我們將其與可微分物理模擬框架 (gradSim) 和可微分渲染管道 (nvdiffrast) 結(jié)合起來(lái),共同從多視圖視頻中恢復(fù)3D 形狀和物理參數(shù)。

      在這里,研究人員展示了初步結(jié)果:給定變形物體的視頻序列,他們可以恢復(fù)靜止姿勢(shì)的四面體網(wǎng)格,以及在模擬下再現(xiàn)運(yùn)動(dòng)的材料參數(shù)。

      動(dòng)畫對(duì)象的網(wǎng)格簡(jiǎn)化

      FlexiCubes 不是在參考姿勢(shì)中擬合單個(gè)網(wǎng)格,而是允許通過現(xiàn)成的蒙皮工具對(duì)網(wǎng)格進(jìn)行不同的蒙皮和變形,并同時(shí)針對(duì)整個(gè)動(dòng)畫序列進(jìn)行優(yōu)化。

      對(duì)整個(gè)動(dòng)畫的端到端優(yōu)化有助于重新分配三角形密度,以避免網(wǎng)格拉伸。

      添加網(wǎng)格正則化

      FlexiCubes表征足夠靈活,可以通過自動(dòng)微分直接評(píng)估依賴于提取的網(wǎng)格本身的目標(biāo)和正則化器,并將其納入基于梯度的優(yōu)化中。

      研究人員對(duì)提取的網(wǎng)格應(yīng)用可開發(fā)性術(shù)語(yǔ),以促進(jìn)面板的可制造性。

      Top10:使用專家降噪器集合進(jìn)行文本到圖像的擴(kuò)散

      項(xiàng)目地址:https://research.nvidia.com/labs/dir/eDiff-I/

      英偉達(dá)的研究人員提出了eDiff-I,這是一種用于合成給定文本的圖像的擴(kuò)散模型。

      受擴(kuò)散模型的行為在不同采樣階段不同的經(jīng)驗(yàn)觀察的啟發(fā),研究人員訓(xùn)練一組專家去噪網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)專門針對(duì)特定的噪聲區(qū)間。

      模型通過T5文本嵌入、CLIP圖像嵌入和CLIP文本嵌入為條件,可以生成與任何輸入文本提示相對(duì)應(yīng)的逼真圖像。

      除了文本到圖像的合成之外,我們還提供了兩個(gè)額外的功能 :

      (1) 樣式傳輸,這使我們能夠使用參考樣式圖像控制生成樣本的樣式

      (2) 「用文字繪畫」,用戶可以通過在畫布上繪制分割圖來(lái)生成圖像的應(yīng)用程序,這對(duì)于制作所需的圖像非常方便。

      模型的工作流程由三個(gè)擴(kuò)散模型的級(jí)聯(lián)組成 :

      一個(gè)可以合成64x64分辨率樣本的基本模型,以及兩個(gè)可以將圖像分別逐步上采樣到256x256和1024x1024分辨率的超分辨率堆棧。

      模型采用輸入標(biāo)題并首先計(jì)算 T5XXL 嵌入和文本嵌入?梢赃x擇使用根據(jù)參考圖像計(jì)算的CLIP圖像編碼。這些圖像嵌入可以用作風(fēng)格向量。

      然后將這些嵌入輸入到級(jí)聯(lián)擴(kuò)散模型中,該模型逐漸生成分辨率為1024x1024的圖像。

      在擴(kuò)散模型中,圖像合成通過迭代去噪過程進(jìn)行,該過程逐漸從隨機(jī)噪聲生成圖像。

      如下圖所示,模型從完全隨機(jī)的噪聲開始,然后分多個(gè)步驟逐漸去噪,最終生成熊貓騎自行車的圖像。

      在傳統(tǒng)的擴(kuò)散模型訓(xùn)練中,訓(xùn)練單個(gè)模型來(lái)對(duì)整個(gè)噪聲分布進(jìn)行去噪。在這個(gè)框架中,研究人員訓(xùn)練了一組專家降噪器,專門用于在生成過程的不同間隔中進(jìn)行降噪,從而提高合成能力。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。