本文來自于微信公眾號 新智元(ID:AI_era),作者:潤 好困。
【新智元導(dǎo)讀】最近,來自澳國立、牛津和智源的研究人員提出了一個由LLM驅(qū)動,用文字提示就能生成復(fù)雜3D場景的智能體框架。無所不能的大模型真的要開始創(chuàng)造3D世界了嗎?
繼火爆全網(wǎng)的AI文生圖,文生視頻之后,文生3D場景的技術(shù)也來了!
只要不到30個字的提示詞,瞬間就能生成這樣的3D場景。
場景效果和文字的要求幾乎分毫不差——「平靜如玻璃的湖面,倒映出無云的天空,周圍的山和水鳥的倒影呈現(xiàn)在湖中。」
「烈日照耀在無垠的沙漠之上,倔強生長的植物投下了明顯的陰影。大風(fēng)把小沙丘雕刻成一片金色的土地!
而且針對生成的場景,還支持對不同的元素進行連續(xù)地修改和編輯!
網(wǎng)友看到效果之后驚呼,「我一輩子就在等這一刻了!」
研究團隊計劃在論文被接受后就在Github上公布項目的代碼,但是在代碼還未公布之時,這個項目就已經(jīng)獲得141顆星!
這個項目是由澳國立、牛津和智源研究院的科研人員開發(fā)的「3D-GPT」系統(tǒng),它可以簡單地根據(jù)用戶提供的文本描述生成各種各樣的3D模型和場景。
和文生圖依賴的獨立模型不同,3D-GPT依然還是利用了大型語言模型(LLM)的多模態(tài)和推理能力,將3D建模任務(wù)分解成多個子任務(wù),由不同的代理完成,包括任務(wù)調(diào)度代理、概念化代理和建模代理。
研究人員表示,3D-GPT 將LLM定位為熟練的問題解決者,將程序性3D建模任務(wù)分解為可訪問的部分,并為每個任務(wù)指定合適的代理。
而且整套系統(tǒng)無需任何訓(xùn)練,無需訓(xùn)練即可完成從文本到參數(shù)提取再到3D建模的過程。
具體來說,任務(wù)調(diào)度代理負(fù)責(zé)根據(jù)指令選擇適當(dāng)?shù)某绦蛏珊瘮?shù)。概念化代理對文本描述進行推理,補充缺失的細(xì)節(jié)。
建模代理推斷函數(shù)參數(shù),生成Python代碼,通過API控制3D建模軟件Blender來進行建模。
這套系統(tǒng)與Blender無縫集成,支持物體變形、材質(zhì)調(diào)整、網(wǎng)格編輯、物理模擬等多種操作。
而且3D GPT框架可以增強用戶提供的簡短場景描述,使之變得更加詳細(xì),更加符合上下文。同時整合了程序生成方法,從豐富的文本中提取參數(shù)控制3D建模軟件。
而且因為LLM能夠提供優(yōu)秀的語意理解和上下文能力,使得3D GPT能夠生成各種各樣的3D資產(chǎn),而且支持連續(xù)地,有針對性地編輯和修改能力。
3D-GPT可以進行精細(xì)的對象控制,包括形狀、曲線和細(xì)節(jié)的捕捉,從而產(chǎn)生細(xì)節(jié)豐富的建模。同時也可以操控大場景的生成。
而且3D GPT支持連續(xù)的指令輸入,可以進行場景的編輯和修改。系統(tǒng)能夠記住之前的修改,使新指令與場景上下文相連結(jié),讓使用者可以對已經(jīng)生成的場景進行持續(xù)的編輯和修改。
而且,3D-GPT還支持通過自然語言針對某一項單獨元素和功能的持續(xù)編輯,例如下圖表明,用戶可以通過變換輸入的要求,單獨針對天氣效果進行修改。
3D-GPT任務(wù)定義
整體目標(biāo)是基于一系列自然語言指令來生成3D內(nèi)容。
其中,初始指令L0充當(dāng)了對3D場景的全面描述,比如“一個多霧的春天早晨,露水親吻的花朵點綴在被新發(fā)芽的樹木環(huán)繞的郁郁蔥蔥的草地上”。
后續(xù)的指令用于修改現(xiàn)有的場景,例如指令如“將白色花朵變?yōu)辄S色花朵”或“將場景轉(zhuǎn)換為冬季環(huán)境”。
為了完成這一目標(biāo),研究人員引入了一個名為3D-GPT的框架,它使大型語言模型(LLM)能夠充當(dāng)解決問題的代理。 模型準(zhǔn)備
研究人員指出,讓LLM直接創(chuàng)建每一個3D內(nèi)容的元素面臨重大挑戰(zhàn)。由于缺乏專門的預(yù)訓(xùn)練數(shù)據(jù),LLM在熟練的3D建模方面可能存在困難,因此,它們可能難以準(zhǔn)確判斷基于給定指令應(yīng)該修改哪些元素以及如何修改它們。
為了應(yīng)對這個問題,在研究人員的框架中,他們利用之前研究中的一個基于Python-Blender的過程生成器Infinigen,它配備了豐富的生成函數(shù)庫。
為了使LLMs能夠熟練地運用Infinigen,研究人員為每一個函數(shù)提供關(guān)鍵提示。這些提示包括函數(shù)文檔,容易理解的代碼,所需信息,以及用法示例。
通過為LLM提供這些資源,研究人員使它們能夠發(fā)揮其在規(guī)劃、推理和工具利用方面的核心能力。因此,LLMs能夠有效地利用Infinigen進行基于語言指令的3D生成,這一過程是無縫和高效的。 用于3D推理、規(guī)劃和工具使用的多代理系統(tǒng)
在工具準(zhǔn)備完成后,3D-GPT采用一個多代理系統(tǒng)來處理過程式3D建模任務(wù)。
該系統(tǒng)包含三個核心代理:任務(wù)調(diào)度代理、概念化代理和建模代理,如下圖1所示。
它們共同將過程式3D建模任務(wù)分解為可管理的部分,每個代理專注于不同方面:3D推理、規(guī)劃和工具使用。
任務(wù)調(diào)度代理在規(guī)劃過程中起到關(guān)鍵作用。它利用用戶指令查詢函數(shù)文檔,并隨后選擇必要的函數(shù)進行執(zhí)行。
一旦選擇了函數(shù),概念化代理就會通過推理來豐富用戶提供的文本描述。
在此基礎(chǔ)上,建模代理推斷出每個選定函數(shù)的參數(shù),并生成Python代碼腳本以調(diào)用Blender的API,從而促進相應(yīng)3D內(nèi)容的創(chuàng)建。此外,還可以使用Blender的渲染功能來生成圖像。
任務(wù)調(diào)度代理用于規(guī)劃
任務(wù)調(diào)度代理掌握了所有可用函數(shù)F的全面信息,能夠高效地識別每個指令輸入所需的函數(shù)。例如,當(dāng)出現(xiàn)“將場景轉(zhuǎn)換為冬季環(huán)境”的指令時,它會精確地找到像add_snow_layer()和update_trees()這樣的函數(shù)。
任務(wù)調(diào)度代理的這一關(guān)鍵角色有助于在概念化代理和建模代理之間進行高效的任務(wù)協(xié)調(diào)。
如果沒有它,概念化和建模代理必須為每個給定指令分析所有提供的函數(shù)F,這不僅增加了這些代理的工作量,還延長了處理時間,并可能導(dǎo)致意外出現(xiàn)的修改。
LLM系統(tǒng)、用戶和任務(wù)調(diào)度代理之間的通信流程如下:
概念化代理用于推理
描述可能沒有明確提供用于建模所需的詳細(xì)外觀描述。例如,考慮描述:“一個多霧的春天早晨,露水親吻的花朵點綴在被新發(fā)芽的樹木環(huán)繞的郁郁蔥蔥的草地上。”
當(dāng)使用需要如樹枝長度、樹大小和葉子類型這樣的參數(shù)的樹建模函數(shù)時,很明顯,這些具體細(xì)節(jié)并沒有直接在給定文本中說明。
當(dāng)指示建模代理直接推斷參數(shù)時,它往往會提供簡單的解決方案,比如從參數(shù)文檔中使用默認(rèn)或合理的值,或者從提示示例中復(fù)制值。這降低了生成的多樣性并參數(shù)推斷的過程更加復(fù)雜了。
建模代理可以使用工具
在概念化之后,3D建模處理目標(biāo)是將詳細(xì)的人類語言轉(zhuǎn)換為機器可理解的語言。
Blender渲染
建模代理最終提供了帶有推斷參數(shù)的Python函數(shù)調(diào)用,這些參數(shù)用于Blender節(jié)點控制和渲染,從而生成最終的3D網(wǎng)格和RGB結(jié)果。
生成效果編輯和修改實驗
研究人員的實驗首先通過展示3D-GPT在一致生成與用戶指令對應(yīng)的結(jié)果方面的高效性來開始,涵蓋了涉及大型場景和單個對象的各種情境。
隨后,研究人員深入探討了特定實例,以說明研究人員的代理如何有效地理解工具功能、獲取必要的知識,并將其用于精確控制。為了深化研究人員的理解,研究人員進行了消融研究,系統(tǒng)地檢查了研究人員多代理系統(tǒng)中每個代理的貢獻。 3D建模
大型場景生成
研究人員調(diào)查了3D-GPT基于場景描述控制建模工具的能力。
為了進行這個實驗,研究人員使用ChatGPT生成了100個場景描述,提示如下:“你是一名優(yōu)秀的作家,請為我提供10個不同的自然場景描述。”
研究人員收集了對這一提示的10次回應(yīng)以形成他們的數(shù)據(jù)集。在下圖2中,研究人員展示了3D-GPT的多視圖渲染結(jié)果。
結(jié)果表明,研究人員的方法能夠生成與提供的文本描述大致一致的大型3D場景,并展示了顯著的多樣性。
值得注意的是,所有3D成果都是直接使用Blender渲染的,確保所有網(wǎng)格都是真實的,從而使研究人員的方法能夠?qū)崿F(xiàn)絕對的3D一致性,并生成真實的光線追蹤渲染結(jié)果。
單一類別的細(xì)節(jié)控制
除了從簡潔描述中生成大型場景外,研究人員還評估了3D-GPT在建模對象方面的能力。研究人員評估了諸如曲線建模、形狀控制和對對象外觀深入理解等關(guān)鍵因素。
為此,研究人員展現(xiàn)了細(xì)粒度對象控制的結(jié)果。這包括從輸入文本描述中派生的細(xì)微方面,如對象曲線、關(guān)鍵外觀特征和顏色。
研究人員使用隨機提示來指導(dǎo)GPT生成各種現(xiàn)實世界中的花朵類型。如圖下3所示,研究人員的方法熟練地為每種花朵類型進行了建模,忠實地捕捉了它們不同的外觀。
這項研究強調(diào)了3D-GPT在實現(xiàn)精確對象建模和細(xì)粒度屬性控制方面的潛力。
子序列指令編輯
研究人員測試了3D-GPT在有效的人-代理通信和任務(wù)操縱方面的能力。
在下圖4中,研究人員觀察到研究人員的方法能夠理解子序列指令并做出準(zhǔn)確的場景修改決策。
值得注意的是,與現(xiàn)有的文本到3D方法不同,3D-GPT保留了所有先前修改的記憶,從而有助于將新指令與場景的上下文連接起來。
此外,研究人員的方法消除了對可控編輯的額外網(wǎng)絡(luò)的需要。這項研究強調(diào)了3D-GPT在熟練處理復(fù)雜子序列指令用于3D建模方面的效率和多功能性。
單一函數(shù)控制
為了評估3D-GPT在工具使用方面的有效性,研究人員展示了一個說明性示例,突出了研究人員的方法在控制單一函數(shù)和推斷參數(shù)方面的能力。
下圖5舉例說明了3D-GPT基于輸入文本描述來建模天空外觀的能力。
負(fù)責(zé)生成天空紋理的函數(shù)并不直接將顏色信息與天空外觀相關(guān)聯(lián)。相反,它依賴于Nishita天空建模方法,該方法需要對現(xiàn)實世界的天空和天氣狀況有深刻的理解,并考慮輸入?yún)?shù)。
研究人員的方法熟練地從文本輸入中提取關(guān)鍵信息,并理解每個參數(shù)如何影響最終的天空外觀,如圖5(c)和(d)所示。這些結(jié)果表明,研究人員的方法可以有效地使用單一函數(shù)以及推斷相應(yīng)的參數(shù)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。