首頁 > 云計算頻道 > 大模型

LLM一句話瞬間生成3D世界，未公布代碼已獲141星！或?qū)⒁l(fā)3D建模行業(yè)革命

2023年10月26日 10:02:04 來源：微信公眾號新智元

　　本文來自于微信公眾號新智元(ID:AI_era)，作者:潤好困。

　　【新智元導(dǎo)讀】最近，來自澳國立、牛津和智源的研究人員提出了一個由LLM驅(qū)動，用文字提示就能生成復(fù)雜3D場景的智能體框架。無所不能的大模型真的要開始創(chuàng)造3D世界了嗎?

　　繼火爆全網(wǎng)的AI文生圖，文生視頻之后，文生3D場景的技術(shù)也來了!

　　‍只要不到30個字的提示詞，瞬間就能生成這樣的3D場景。

　　場景效果和文字的要求幾乎分毫不差——「平靜如玻璃的湖面，倒映出無云的天空，周圍的山和水鳥的倒影呈現(xiàn)在湖中。」

　　「烈日照耀在無垠的沙漠之上，倔強生長的植物投下了明顯的陰影。大風(fēng)把小沙丘雕刻成一片金色的土地�！�

　　而且針對生成的場景，還支持對不同的元素進行連續(xù)地修改和編輯!

　　網(wǎng)友看到效果之后驚呼，「我一輩子就在等這一刻了!」

　　研究團隊計劃在論文被接受后就在Github上公布項目的代碼，但是在代碼還未公布之時，這個項目就已經(jīng)獲得141顆星!

　　這個項目是由澳國立、牛津和智源研究院的科研人員開發(fā)的「3D-GPT」系統(tǒng)，它可以簡單地根據(jù)用戶提供的文本描述生成各種各樣的3D模型和場景。

　　和文生圖依賴的獨立模型不同，3D-GPT依然還是利用了大型語言模型(LLM)的多模態(tài)和推理能力，將3D建模任務(wù)分解成多個子任務(wù)，由不同的代理完成，包括任務(wù)調(diào)度代理、概念化代理和建模代理。

　　研究人員表示，3D-GPT 將LLM定位為熟練的問題解決者，將程序性3D建模任務(wù)分解為可訪問的部分，并為每個任務(wù)指定合適的代理。

　　而且整套系統(tǒng)無需任何訓(xùn)練，無需訓(xùn)練即可完成從文本到參數(shù)提取再到3D建模的過程。

　　具體來說，任務(wù)調(diào)度代理負(fù)責(zé)根據(jù)指令選擇適當(dāng)?shù)某绦蛏珊瘮?shù)。概念化代理對文本描述進行推理，補充缺失的細(xì)節(jié)。

　　建模代理推斷函數(shù)參數(shù)，生成Python代碼，通過API控制3D建模軟件Blender來進行建模。

　　這套系統(tǒng)與Blender無縫集成，支持物體變形、材質(zhì)調(diào)整、網(wǎng)格編輯、物理模擬等多種操作。

　　而且3D GPT框架可以增強用戶提供的簡短場景描述，使之變得更加詳細(xì)，更加符合上下文。同時整合了程序生成方法，從豐富的文本中提取參數(shù)控制3D建模軟件。

　　而且因為LLM能夠提供優(yōu)秀的語意理解和上下文能力，使得3D GPT能夠生成各種各樣的3D資產(chǎn)，而且支持連續(xù)地，有針對性地編輯和修改能力。

　　3D-GPT可以進行精細(xì)的對象控制，包括形狀、曲線和細(xì)節(jié)的捕捉，從而產(chǎn)生細(xì)節(jié)豐富的建模。同時也可以操控大場景的生成。

　　而且3D GPT支持連續(xù)的指令輸入，可以進行場景的編輯和修改。系統(tǒng)能夠記住之前的修改，使新指令與場景上下文相連結(jié)，讓使用者可以對已經(jīng)生成的場景進行持續(xù)的編輯和修改。

　　而且，3D-GPT還支持通過自然語言針對某一項單獨元素和功能的持續(xù)編輯，例如下圖表明，用戶可以通過變換輸入的要求，單獨針對天氣效果進行修改。

　　3D-GPT任務(wù)定義

　　整體目標(biāo)是基于一系列自然語言指令來生成3D內(nèi)容。

　　其中，初始指令L0充當(dāng)了對3D場景的全面描述，比如“一個多霧的春天早晨，露水親吻的花朵點綴在被新發(fā)芽的樹木環(huán)繞的郁郁蔥蔥的草地上”。

　　后續(xù)的指令用于修改現(xiàn)有的場景，例如指令如“將白色花朵變?yōu)辄S色花朵”或“將場景轉(zhuǎn)換為冬季環(huán)境”。

　　為了完成這一目標(biāo)，研究人員引入了一個名為3D-GPT的框架，它使大型語言模型(LLM)能夠充當(dāng)解決問題的代理。模型準(zhǔn)備

　　研究人員指出，讓LLM直接創(chuàng)建每一個3D內(nèi)容的元素面臨重大挑戰(zhàn)。由于缺乏專門的預(yù)訓(xùn)練數(shù)據(jù)，LLM在熟練的3D建模方面可能存在困難，因此，它們可能難以準(zhǔn)確判斷基于給定指令應(yīng)該修改哪些元素以及如何修改它們。

　　為了應(yīng)對這個問題，在研究人員的框架中，他們利用之前研究中的一個基于Python-Blender的過程生成器Infinigen，它配備了豐富的生成函數(shù)庫。

　　為了使LLMs能夠熟練地運用Infinigen，研究人員為每一個函數(shù)提供關(guān)鍵提示。這些提示包括函數(shù)文檔，容易理解的代碼，所需信息，以及用法示例。

　　通過為LLM提供這些資源，研究人員使它們能夠發(fā)揮其在規(guī)劃、推理和工具利用方面的核心能力。因此，LLMs能夠有效地利用Infinigen進行基于語言指令的3D生成，這一過程是無縫和高效的。用于3D推理、規(guī)劃和工具使用的多代理系統(tǒng)

　　在工具準(zhǔn)備完成后，3D-GPT采用一個多代理系統(tǒng)來處理過程式3D建模任務(wù)。

　　該系統(tǒng)包含三個核心代理:任務(wù)調(diào)度代理、概念化代理和建模代理，如下圖1所示。

　　它們共同將過程式3D建模任務(wù)分解為可管理的部分，每個代理專注于不同方面:3D推理、規(guī)劃和工具使用。

　　任務(wù)調(diào)度代理在規(guī)劃過程中起到關(guān)鍵作用。它利用用戶指令查詢函數(shù)文檔，并隨后選擇必要的函數(shù)進行執(zhí)行。

　　一旦選擇了函數(shù)，概念化代理就會通過推理來豐富用戶提供的文本描述。

　　在此基礎(chǔ)上，建模代理推斷出每個選定函數(shù)的參數(shù)，并生成Python代碼腳本以調(diào)用Blender的API，從而促進相應(yīng)3D內(nèi)容的創(chuàng)建。此外，還可以使用Blender的渲染功能來生成圖像。

　　任務(wù)調(diào)度代理用于規(guī)劃

　　任務(wù)調(diào)度代理掌握了所有可用函數(shù)F的全面信息，能夠高效地識別每個指令輸入所需的函數(shù)。例如，當(dāng)出現(xiàn)“將場景轉(zhuǎn)換為冬季環(huán)境”的指令時，它會精確地找到像add_snow_layer()和update_trees()這樣的函數(shù)。

　　任務(wù)調(diào)度代理的這一關(guān)鍵角色有助于在概念化代理和建模代理之間進行高效的任務(wù)協(xié)調(diào)。

　　如果沒有它，概念化和建模代理必須為每個給定指令分析所有提供的函數(shù)F，這不僅增加了這些代理的工作量，還延長了處理時間，并可能導(dǎo)致意外出現(xiàn)的修改。

　　LLM系統(tǒng)、用戶和任務(wù)調(diào)度代理之間的通信流程如下:

　　概念化代理用于推理

　　描述可能沒有明確提供用于建模所需的詳細(xì)外觀描述。例如，考慮描述:“一個多霧的春天早晨，露水親吻的花朵點綴在被新發(fā)芽的樹木環(huán)繞的郁郁蔥蔥的草地上。”

　　當(dāng)使用需要如樹枝長度、樹大小和葉子類型這樣的參數(shù)的樹建模函數(shù)時，很明顯，這些具體細(xì)節(jié)并沒有直接在給定文本中說明。

　　當(dāng)指示建模代理直接推斷參數(shù)時，它往往會提供簡單的解決方案，比如從參數(shù)文檔中使用默認(rèn)或合理的值，或者從提示示例中復(fù)制值。這降低了生成的多樣性并參數(shù)推斷的過程更加復(fù)雜了。

　　建模代理可以使用工具

　　在概念化之后，3D建模處理目標(biāo)是將詳細(xì)的人類語言轉(zhuǎn)換為機器可理解的語言。

　　Blender渲染

　　建模代理最終提供了帶有推斷參數(shù)的Python函數(shù)調(diào)用，這些參數(shù)用于Blender節(jié)點控制和渲染，從而生成最終的3D網(wǎng)格和RGB結(jié)果。

　　生成效果編輯和修改實驗

　　研究人員的實驗首先通過展示3D-GPT在一致生成與用戶指令對應(yīng)的結(jié)果方面的高效性來開始，涵蓋了涉及大型場景和單個對象的各種情境。

　　隨后，研究人員深入探討了特定實例，以說明研究人員的代理如何有效地理解工具功能、獲取必要的知識，并將其用于精確控制。為了深化研究人員的理解，研究人員進行了消融研究，系統(tǒng)地檢查了研究人員多代理系統(tǒng)中每個代理的貢獻。 3D建模

　　大型場景生成

　　研究人員調(diào)查了3D-GPT基于場景描述控制建模工具的能力。

　　為了進行這個實驗，研究人員使用ChatGPT生成了100個場景描述，提示如下:“你是一名優(yōu)秀的作家，請為我提供10個不同的自然場景描述。”

　　研究人員收集了對這一提示的10次回應(yīng)以形成他們的數(shù)據(jù)集。在下圖2中，研究人員展示了3D-GPT的多視圖渲染結(jié)果。

　　結(jié)果表明，研究人員的方法能夠生成與提供的文本描述大致一致的大型3D場景，并展示了顯著的多樣性。

　　值得注意的是，所有3D成果都是直接使用Blender渲染的，確保所有網(wǎng)格都是真實的，從而使研究人員的方法能夠?qū)崿F(xiàn)絕對的3D一致性，并生成真實的光線追蹤渲染結(jié)果。

　　單一類別的細(xì)節(jié)控制

　　除了從簡潔描述中生成大型場景外，研究人員還評估了3D-GPT在建模對象方面的能力。研究人員評估了諸如曲線建模、形狀控制和對對象外觀深入理解等關(guān)鍵因素。

　　為此，研究人員展現(xiàn)了細(xì)粒度對象控制的結(jié)果。這包括從輸入文本描述中派生的細(xì)微方面，如對象曲線、關(guān)鍵外觀特征和顏色。

　　研究人員使用隨機提示來指導(dǎo)GPT生成各種現(xiàn)實世界中的花朵類型。如圖下3所示，研究人員的方法熟練地為每種花朵類型進行了建模，忠實地捕捉了它們不同的外觀。

　　這項研究強調(diào)了3D-GPT在實現(xiàn)精確對象建模和細(xì)粒度屬性控制方面的潛力。

　　子序列指令編輯

　　研究人員測試了3D-GPT在有效的人-代理通信和任務(wù)操縱方面的能力。

　　在下圖4中，研究人員觀察到研究人員的方法能夠理解子序列指令并做出準(zhǔn)確的場景修改決策。

　　值得注意的是，與現(xiàn)有的文本到3D方法不同，3D-GPT保留了所有先前修改的記憶，從而有助于將新指令與場景的上下文連接起來。

　　此外，研究人員的方法消除了對可控編輯的額外網(wǎng)絡(luò)的需要。這項研究強調(diào)了3D-GPT在熟練處理復(fù)雜子序列指令用于3D建模方面的效率和多功能性。

　　單一函數(shù)控制

　　為了評估3D-GPT在工具使用方面的有效性，研究人員展示了一個說明性示例，突出了研究人員的方法在控制單一函數(shù)和推斷參數(shù)方面的能力。

　　下圖5舉例說明了3D-GPT基于輸入文本描述來建模天空外觀的能力。

　　負(fù)責(zé)生成天空紋理的函數(shù)并不直接將顏色信息與天空外觀相關(guān)聯(lián)。相反，它依賴于Nishita天空建模方法，該方法需要對現(xiàn)實世界的天空和天氣狀況有深刻的理解，并考慮輸入?yún)?shù)。

　　研究人員的方法熟練地從文本輸入中提取關(guān)鍵信息，并理解每個參數(shù)如何影響最終的天空外觀，如圖5(c)和(d)所示。這些結(jié)果表明，研究人員的方法可以有效地使用單一函數(shù)以及推斷相應(yīng)的參數(shù)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

LLM一句話瞬間生成3D世界，未公布代碼已獲141星！或?qū)⒁l(fā)3D建模行業(yè)革命

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

LLM一句話瞬間生成3D世界，未公布代碼已獲141星！或?qū)⒁l(fā)3D建模行業(yè)革命

擴展閱讀

LLM一句話瞬間生成3D世界，未公布代碼已獲141星！或?qū)⒁l(fā)3D建模行業(yè)革命