" />
雷軍:小米SU7第10萬臺車下線,僅用時230天北汽藍谷:與小馬智行達成L4無人駕駛車型開發(fā)合作,計劃在明年推出首批極狐阿爾法T5 Robotaxi騰訊音樂三季度凈利潤勁升35.3%!付費用戶已達1.190億蘋果有望明年3月發(fā)布智能家居顯示器 2026年生產(chǎn)智能攝像頭小鵬汽車前智駕負責(zé)人加入比亞迪 曾深度參與無圖智駕開發(fā)SEMI:2024Q3全球硅晶圓出貨面積同比增長6.8%、環(huán)比增長5.9%告別高價流量,這個雙11變了李彥宏的“少數(shù)派報告”:如何成為AI時代的1%郵件欺詐新威脅,微軟披露 Exchange Server 高風(fēng)險漏洞國家郵政局:11月11日快遞業(yè)務(wù)量7.01億件 創(chuàng)歷年“雙11”當(dāng)日新高AMD宣布推出第二代Versal Premium系列,實現(xiàn)全新系統(tǒng)加速水平,滿足數(shù)據(jù)密集型工作負載需求別再被尺寸迷惑了!98吋對比100吋完勝,這些細節(jié)你絕對想不到!拼多多擬更新價格保護規(guī)則,活動商品均適用降價補差AIGC的全新機遇!北京這場專家云集的AIGC國際會議與大模型應(yīng)用峰會即將啟幕微課視頻制作難題?訊飛智作AI虛擬人助你輕松搞定TV面板回暖,惠科群創(chuàng)爭“老三”,三星左右格局走向?星巴克應(yīng)用程序與DoorDash合作新增送貨服務(wù)本田因動力電池破損在中國召回汽車209輛 再陷安全隱患爭議賣爆8000元價位電腦,B站帶貨終于行了?沒有最低價、GMV成謎,史上最長雙十一戰(zhàn)報揭曉
  • 首頁 > 云計算頻道 > 大模型

    LLM一句話瞬間生成3D世界,未公布代碼已獲141星!或?qū)⒁l(fā)3D建模行業(yè)革命

    2023年10月26日 10:02:04   來源:微信公眾號 新智元

      本文來自于微信公眾號 新智元(ID:AI_era),作者:潤 好困。

      【新智元導(dǎo)讀】最近,來自澳國立、牛津和智源的研究人員提出了一個由LLM驅(qū)動,用文字提示就能生成復(fù)雜3D場景的智能體框架。無所不能的大模型真的要開始創(chuàng)造3D世界了嗎?

      繼火爆全網(wǎng)的AI文生圖,文生視頻之后,文生3D場景的技術(shù)也來了!

      ‍只要不到30個字的提示詞,瞬間就能生成這樣的3D場景。

      場景效果和文字的要求幾乎分毫不差——「平靜如玻璃的湖面,倒映出無云的天空,周圍的山和水鳥的倒影呈現(xiàn)在湖中!

      「烈日照耀在無垠的沙漠之上,倔強生長的植物投下了明顯的陰影。大風(fēng)把小沙丘雕刻成一片金色的土地!

      而且針對生成的場景,還支持對不同的元素進行連續(xù)地修改和編輯!

      網(wǎng)友看到效果之后驚呼,「我一輩子就在等這一刻了!」

      研究團隊計劃在論文被接受后就在Github上公布項目的代碼,但是在代碼還未公布之時,這個項目就已經(jīng)獲得141顆星!

      這個項目是由澳國立、牛津和智源研究院的科研人員開發(fā)的「3D-GPT」系統(tǒng),它可以簡單地根據(jù)用戶提供的文本描述生成各種各樣的3D模型和場景。

      和文生圖依賴的獨立模型不同,3D-GPT依然還是利用了大型語言模型(LLM)的多模態(tài)和推理能力,將3D建模任務(wù)分解成多個子任務(wù),由不同的代理完成,包括任務(wù)調(diào)度代理、概念化代理和建模代理。

      研究人員表示,3D-GPT 將LLM定位為熟練的問題解決者,將程序性3D建模任務(wù)分解為可訪問的部分,并為每個任務(wù)指定合適的代理。

      而且整套系統(tǒng)無需任何訓(xùn)練,無需訓(xùn)練即可完成從文本到參數(shù)提取再到3D建模的過程。

      具體來說,任務(wù)調(diào)度代理負責(zé)根據(jù)指令選擇適當(dāng)?shù)某绦蛏珊瘮?shù)。概念化代理對文本描述進行推理,補充缺失的細節(jié)。

      建模代理推斷函數(shù)參數(shù),生成Python代碼,通過API控制3D建模軟件Blender來進行建模。

      這套系統(tǒng)與Blender無縫集成,支持物體變形、材質(zhì)調(diào)整、網(wǎng)格編輯、物理模擬等多種操作。

      而且3D GPT框架可以增強用戶提供的簡短場景描述,使之變得更加詳細,更加符合上下文。同時整合了程序生成方法,從豐富的文本中提取參數(shù)控制3D建模軟件。

      而且因為LLM能夠提供優(yōu)秀的語意理解和上下文能力,使得3D GPT能夠生成各種各樣的3D資產(chǎn),而且支持連續(xù)地,有針對性地編輯和修改能力。

      3D-GPT可以進行精細的對象控制,包括形狀、曲線和細節(jié)的捕捉,從而產(chǎn)生細節(jié)豐富的建模。同時也可以操控大場景的生成。

      而且3D GPT支持連續(xù)的指令輸入,可以進行場景的編輯和修改。系統(tǒng)能夠記住之前的修改,使新指令與場景上下文相連結(jié),讓使用者可以對已經(jīng)生成的場景進行持續(xù)的編輯和修改。

      而且,3D-GPT還支持通過自然語言針對某一項單獨元素和功能的持續(xù)編輯,例如下圖表明,用戶可以通過變換輸入的要求,單獨針對天氣效果進行修改。

      3D-GPT任務(wù)定義

      整體目標(biāo)是基于一系列自然語言指令來生成3D內(nèi)容。

      其中,初始指令L0充當(dāng)了對3D場景的全面描述,比如“一個多霧的春天早晨,露水親吻的花朵點綴在被新發(fā)芽的樹木環(huán)繞的郁郁蔥蔥的草地上”。

      后續(xù)的指令用于修改現(xiàn)有的場景,例如指令如“將白色花朵變?yōu)辄S色花朵”或“將場景轉(zhuǎn)換為冬季環(huán)境”。

      為了完成這一目標(biāo),研究人員引入了一個名為3D-GPT的框架,它使大型語言模型(LLM)能夠充當(dāng)解決問題的代理。 模型準(zhǔn)備

      研究人員指出,讓LLM直接創(chuàng)建每一個3D內(nèi)容的元素面臨重大挑戰(zhàn)。由于缺乏專門的預(yù)訓(xùn)練數(shù)據(jù),LLM在熟練的3D建模方面可能存在困難,因此,它們可能難以準(zhǔn)確判斷基于給定指令應(yīng)該修改哪些元素以及如何修改它們。

      為了應(yīng)對這個問題,在研究人員的框架中,他們利用之前研究中的一個基于Python-Blender的過程生成器Infinigen,它配備了豐富的生成函數(shù)庫。

      為了使LLMs能夠熟練地運用Infinigen,研究人員為每一個函數(shù)提供關(guān)鍵提示。這些提示包括函數(shù)文檔,容易理解的代碼,所需信息,以及用法示例。

      通過為LLM提供這些資源,研究人員使它們能夠發(fā)揮其在規(guī)劃、推理和工具利用方面的核心能力。因此,LLMs能夠有效地利用Infinigen進行基于語言指令的3D生成,這一過程是無縫和高效的。 用于3D推理、規(guī)劃和工具使用的多代理系統(tǒng)

      在工具準(zhǔn)備完成后,3D-GPT采用一個多代理系統(tǒng)來處理過程式3D建模任務(wù)。

      該系統(tǒng)包含三個核心代理:任務(wù)調(diào)度代理、概念化代理和建模代理,如下圖1所示。

    圖片

      它們共同將過程式3D建模任務(wù)分解為可管理的部分,每個代理專注于不同方面:3D推理、規(guī)劃和工具使用。

      任務(wù)調(diào)度代理在規(guī)劃過程中起到關(guān)鍵作用。它利用用戶指令查詢函數(shù)文檔,并隨后選擇必要的函數(shù)進行執(zhí)行。

      一旦選擇了函數(shù),概念化代理就會通過推理來豐富用戶提供的文本描述。

      在此基礎(chǔ)上,建模代理推斷出每個選定函數(shù)的參數(shù),并生成Python代碼腳本以調(diào)用Blender的API,從而促進相應(yīng)3D內(nèi)容的創(chuàng)建。此外,還可以使用Blender的渲染功能來生成圖像。

      任務(wù)調(diào)度代理用于規(guī)劃

      任務(wù)調(diào)度代理掌握了所有可用函數(shù)F的全面信息,能夠高效地識別每個指令輸入所需的函數(shù)。例如,當(dāng)出現(xiàn)“將場景轉(zhuǎn)換為冬季環(huán)境”的指令時,它會精確地找到像add_snow_layer()和update_trees()這樣的函數(shù)。

      任務(wù)調(diào)度代理的這一關(guān)鍵角色有助于在概念化代理和建模代理之間進行高效的任務(wù)協(xié)調(diào)。

      如果沒有它,概念化和建模代理必須為每個給定指令分析所有提供的函數(shù)F,這不僅增加了這些代理的工作量,還延長了處理時間,并可能導(dǎo)致意外出現(xiàn)的修改。

      LLM系統(tǒng)、用戶和任務(wù)調(diào)度代理之間的通信流程如下:

      概念化代理用于推理

      描述可能沒有明確提供用于建模所需的詳細外觀描述。例如,考慮描述:“一個多霧的春天早晨,露水親吻的花朵點綴在被新發(fā)芽的樹木環(huán)繞的郁郁蔥蔥的草地上。”

      當(dāng)使用需要如樹枝長度、樹大小和葉子類型這樣的參數(shù)的樹建模函數(shù)時,很明顯,這些具體細節(jié)并沒有直接在給定文本中說明。

      當(dāng)指示建模代理直接推斷參數(shù)時,它往往會提供簡單的解決方案,比如從參數(shù)文檔中使用默認或合理的值,或者從提示示例中復(fù)制值。這降低了生成的多樣性并參數(shù)推斷的過程更加復(fù)雜了。

      建模代理可以使用工具

      在概念化之后,3D建模處理目標(biāo)是將詳細的人類語言轉(zhuǎn)換為機器可理解的語言。

      Blender渲染

      建模代理最終提供了帶有推斷參數(shù)的Python函數(shù)調(diào)用,這些參數(shù)用于Blender節(jié)點控制和渲染,從而生成最終的3D網(wǎng)格和RGB結(jié)果。

      生成效果編輯和修改實驗

      研究人員的實驗首先通過展示3D-GPT在一致生成與用戶指令對應(yīng)的結(jié)果方面的高效性來開始,涵蓋了涉及大型場景和單個對象的各種情境。

      隨后,研究人員深入探討了特定實例,以說明研究人員的代理如何有效地理解工具功能、獲取必要的知識,并將其用于精確控制。為了深化研究人員的理解,研究人員進行了消融研究,系統(tǒng)地檢查了研究人員多代理系統(tǒng)中每個代理的貢獻。 3D建模

      大型場景生成

      研究人員調(diào)查了3D-GPT基于場景描述控制建模工具的能力。

      為了進行這個實驗,研究人員使用ChatGPT生成了100個場景描述,提示如下:“你是一名優(yōu)秀的作家,請為我提供10個不同的自然場景描述。”

      研究人員收集了對這一提示的10次回應(yīng)以形成他們的數(shù)據(jù)集。在下圖2中,研究人員展示了3D-GPT的多視圖渲染結(jié)果。

      結(jié)果表明,研究人員的方法能夠生成與提供的文本描述大致一致的大型3D場景,并展示了顯著的多樣性。

      值得注意的是,所有3D成果都是直接使用Blender渲染的,確保所有網(wǎng)格都是真實的,從而使研究人員的方法能夠?qū)崿F(xiàn)絕對的3D一致性,并生成真實的光線追蹤渲染結(jié)果。

      單一類別的細節(jié)控制

      除了從簡潔描述中生成大型場景外,研究人員還評估了3D-GPT在建模對象方面的能力。研究人員評估了諸如曲線建模、形狀控制和對對象外觀深入理解等關(guān)鍵因素。

      為此,研究人員展現(xiàn)了細粒度對象控制的結(jié)果。這包括從輸入文本描述中派生的細微方面,如對象曲線、關(guān)鍵外觀特征和顏色。

      研究人員使用隨機提示來指導(dǎo)GPT生成各種現(xiàn)實世界中的花朵類型。如圖下3所示,研究人員的方法熟練地為每種花朵類型進行了建模,忠實地捕捉了它們不同的外觀。

      這項研究強調(diào)了3D-GPT在實現(xiàn)精確對象建模和細粒度屬性控制方面的潛力。

      子序列指令編輯

      研究人員測試了3D-GPT在有效的人-代理通信和任務(wù)操縱方面的能力。

      在下圖4中,研究人員觀察到研究人員的方法能夠理解子序列指令并做出準(zhǔn)確的場景修改決策。

      值得注意的是,與現(xiàn)有的文本到3D方法不同,3D-GPT保留了所有先前修改的記憶,從而有助于將新指令與場景的上下文連接起來。

      此外,研究人員的方法消除了對可控編輯的額外網(wǎng)絡(luò)的需要。這項研究強調(diào)了3D-GPT在熟練處理復(fù)雜子序列指令用于3D建模方面的效率和多功能性。

      單一函數(shù)控制

      為了評估3D-GPT在工具使用方面的有效性,研究人員展示了一個說明性示例,突出了研究人員的方法在控制單一函數(shù)和推斷參數(shù)方面的能力。

      下圖5舉例說明了3D-GPT基于輸入文本描述來建模天空外觀的能力。

      負責(zé)生成天空紋理的函數(shù)并不直接將顏色信息與天空外觀相關(guān)聯(lián)。相反,它依賴于Nishita天空建模方法,該方法需要對現(xiàn)實世界的天空和天氣狀況有深刻的理解,并考慮輸入?yún)?shù)。

      研究人員的方法熟練地從文本輸入中提取關(guān)鍵信息,并理解每個參數(shù)如何影響最終的天空外觀,如圖5(c)和(d)所示。這些結(jié)果表明,研究人員的方法可以有效地使用單一函數(shù)以及推斷相應(yīng)的參數(shù)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    京東11.11跟著采銷走進科大訊飛 直播間享專享價與超值福利

    京東11.11采銷直播探廠為消費者揭開答案。近日,京東3C數(shù)碼采銷走進武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產(chǎn)品,并為消費者帶來超值低價與福利。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。