百萬魯棒數(shù)據(jù)訓(xùn)練，3D場景大語言模型新SOTA！IIT等發(fā)布Robin3D

2024年10月15日 14:24:08 來源：新智元公眾號

　　多模態(tài)大語言模型(Multi-modal Large Language Models, MLLMs)以文本模態(tài)為基礎(chǔ)，將其它各種模態(tài)對齊至語言模型的語義空間，從而實現(xiàn)多模態(tài)的理解和對話能力。近來，越來越多的研究聚焦于3D大語言模型(3DLLM)，旨在實現(xiàn)對3D物體以及復(fù)雜場景的理解，推理和自由對話。

　　與2D MLLM所能接觸的廣泛的多模態(tài)數(shù)據(jù)不同，3DLLM的訓(xùn)練數(shù)據(jù)相對稀少。

　　即便過去有些工作嘗試生成更多的多模態(tài)指令數(shù)據(jù)，但這類模型仍然在指令的魯棒性上存在兩點(diǎn)不足：

　　1. 絕大多數(shù)3D多模態(tài)指令數(shù)據(jù)對是正樣本對，缺乏負(fù)樣本對或者對抗性樣本對。模型在這種數(shù)據(jù)上訓(xùn)練缺乏一定的辨識能力，因為無論被問到什么問題，模型只會輸出正面的回答。因此碰到問題與場景無關(guān)時，模型也更容易出現(xiàn)幻覺。這種模型有可能只是記住了正樣本對，而非真正地理解被問及的場景、物體、以及具體的指令。

　　2. 由于在造數(shù)據(jù)的過程中，人類標(biāo)注員或者生成式大語言模型是按照既定的規(guī)則去描述物體的，很多由這些描述所轉(zhuǎn)換而來的指令缺乏多樣性。甚至有的數(shù)據(jù)是直接按照模板生成的。

　　為了解決以上問題，伊利諾伊理工大學(xué)、浙江大學(xué)、中佛羅里達(dá)大學(xué)、伊利諾伊大學(xué)芝加哥分校提出一個強(qiáng)大3DLLM——Robin3D，在大規(guī)模魯棒數(shù)據(jù)上進(jìn)行訓(xùn)練。

　　論文地址：https://arxiv.org/abs/2410.00255

　　文中提出了「魯棒指令數(shù)據(jù)生成引擎」(Robust Instruction Generation, RIG)，可以生成兩種數(shù)據(jù)：

　　1. 對抗性指令數(shù)據(jù)。該數(shù)據(jù)特點(diǎn)在于在訓(xùn)練集或者單個訓(xùn)練樣本中，混合了正樣本和負(fù)樣本對(或者對抗樣本對)，從而使得模型在該類數(shù)據(jù)集訓(xùn)練能獲得更強(qiáng)的辨識能力，該數(shù)據(jù)包含了物體層面到場景層面的、基于類別的指令和基于表達(dá)的指令，最終形成了四種新的訓(xùn)練任務(wù)，幫助模型解耦對正樣本對的記憶。

　　2. 多樣化指令數(shù)據(jù)，首先全面收集現(xiàn)有研究中的各種指令類型，或?qū)⒁恍┤蝿?wù)轉(zhuǎn)化為指令跟隨的格式。為了充分利用大語言模型強(qiáng)大的上下文學(xué)習(xí)能力，研究人員使用ChatGPT，通過為每個任務(wù)定制的特定提示工程模板來多樣化指令的語言風(fēng)格。

　　將這些與現(xiàn)有基準(zhǔn)的原始訓(xùn)練集相結(jié)合，研究人員構(gòu)建了百萬級指令跟隨樣本，其中約有34.4萬個對抗性數(shù)據(jù)(34%)、50.8萬個多樣化數(shù)據(jù)(50%)和16.5 萬個基準(zhǔn)數(shù)據(jù)(16%)，如圖1(右)所示。

　　圖1 Robin3D在構(gòu)建的百萬級數(shù)據(jù)上訓(xùn)練(右)，最終在所有3D多模態(tài)數(shù)據(jù)集上的性能超過之前的SOTA(左)

　　Robin3D在模型上與Chat-Scene類似：使用Mask3D，Uni3D來抽3D物體級別的特征，使用Dinov2來抽2D物體級別的特征，使用物體ID來指定和定位物體。

　　先前的方法在抽物體特征的時候，由于其物體級別的規(guī)范化(normalization)，不可避免的丟失了物體間的3D空間關(guān)系。同時簡單的物體ID和物體特征拼接缺乏對ID-特征的充分聯(lián)結(jié)，使其在這種復(fù)雜的指令數(shù)據(jù)上面臨訓(xùn)練的困難，而Robin3D引入了關(guān)系增強(qiáng)投射器來增強(qiáng)物體的3D空間關(guān)系，并使用ID-特征捆綁來增強(qiáng)指代和定位物體時ID與特征之間的聯(lián)系。

　　最終Robin3D在所有的3D場景多模態(tài)數(shù)據(jù)集上達(dá)到一致的SOTA，并且不需要特定任務(wù)的微調(diào)。

　　方法

　　圖2 Robin3D的模型結(jié)構(gòu)

　　關(guān)系增強(qiáng)投射器

　　如圖2所示，關(guān)系增強(qiáng)投射器(Relation-Augmented Projector, RAP)考慮三種特征：

　　1. Mask3D所抽取的場景級別特征，這種特征經(jīng)過多層cross-attention充分交互了語意和位置關(guān)系;

　　2. Mask3D里的位置嵌入特征，這種特征由物體超點(diǎn)直接轉(zhuǎn)換而來，代表了物體間的位置關(guān)系。

　　3. Uni3D抽取的統(tǒng)一物體級別特征，這種特征和語言進(jìn)行過大規(guī)模的對齊訓(xùn)練。

　　圖3 RAP公式

　　如圖3所示，通過MLP和短接的方式，對三種特征進(jìn)行高效的融合，最終實現(xiàn)了即保持強(qiáng)大的統(tǒng)一物體級別語意信息、又增強(qiáng)了物體之間的空間位置關(guān)系。

　　ID-特征捆綁

　　如圖1所示，的ID-特征捆綁(ID-Feature Bonding, IFB)主要包含兩個操作。首先，使用兩個相同的ID來包裹其物體特征。

　　由于LLM的因果注意力機(jī)制，這種方法通過第一個ID將ID信息與物體特征關(guān)聯(lián)起來，并通過第二個ID將物體信息與其ID關(guān)聯(lián)起來。

　　其次，提出了一個后視覺順序，將視覺tokens放置在輸入序列的末尾，靠近模型生成的答案標(biāo)記。

　　該方法減少了由于tokens間的相對距離和LLM中旋轉(zhuǎn)位置嵌入所導(dǎo)致的從答案tokens到ID-特征tokens的注意力減弱問題，同時增強(qiáng)了視覺信息對答案tokens的注意力影響，從而提升答案生成效果。

　　魯棒指令數(shù)據(jù)生成引擎

　　對抗性數(shù)據(jù)生成

　　圖4 對抗性數(shù)據(jù)的四種任務(wù)

　　如圖4，的對抗性數(shù)據(jù)形成了四種新的具備挑戰(zhàn)性的任務(wù)HOPE、HROC、PF-3DVG和3DFQA，包含了從物體到場景、從基于類比到基于表達(dá)的不同指令。

　　圖4左上：Hybrid Object Probing Evaluation (HOPE)

　　為了構(gòu)建一個場景級別的基于類別的任務(wù)，引入了HOPE，靈感來自2D領(lǐng)域的POPE基準(zhǔn)。POPE通過詢問關(guān)于單個物體存在與否的是/否問題，評估2DMLLMs產(chǎn)生幻覺的傾向。在此基礎(chǔ)上，HOPE將這種幻覺挑戰(zhàn)擴(kuò)展到3D領(lǐng)域的訓(xùn)練階段，旨在讓模型更具辨別力。

　　此外，HOPE引入了一個混合場景，增加復(fù)雜性，進(jìn)一步推動模型對記憶中的視覺與語言正樣本的解耦。

　　具體來說，在給定的3D場景中，要求模型判斷多個隨機(jī)指定的物體是否存在。物體可能存在或不存在，且每個存在的物體可能有一個或多個實例。

　　當(dāng)物體不存在時，模型需回答「否」;當(dāng)物體存在時，需回答「是」并提供每個實例的物體ID。這一設(shè)置結(jié)合了正負(fù)物體的混合識別與多實例物體定位，具有很高的挑戰(zhàn)性。

　　圖4右上：Hybrid Referring Object Classification (HROC)

　　指代物體分類任務(wù)旨在評估模型在2D域中識別指代區(qū)域的能力，使用「區(qū)域輸入，文本輸出」的形式。HROC將此任務(wù)擴(kuò)展到3D領(lǐng)域，創(chuàng)建了一個物體級別的基于類別的任務(wù)，并結(jié)合了對抗性和混合挑戰(zhàn)。

　　在3D場景中，隨機(jī)生成混合的正負(fù)ID-類別樣本對來提出問題。正樣本對包含一個有效的物體ID和對應(yīng)的真實類別，負(fù)對則包含一個有效的物體ID和隨機(jī)選擇的非真實類別，作為對抗性挑戰(zhàn)。模型需對正樣本對回答「是」，對負(fù)對回答「否」并給出正確類別。

　　圖4左下：Partial Factual 3D Visual Grounding (PF-3DVG)

　　PF-3DVG引入了一個場景級別的基于表達(dá)的任務(wù)，涵蓋三種數(shù)據(jù)類型：非真實數(shù)據(jù)、部分真實數(shù)據(jù)和真實數(shù)據(jù)。

　　非真實數(shù)據(jù)：在3D場景中，隨機(jī)選擇Sr3D+中的描述，其中所描述的物體不存在與當(dāng)前3D場景。模型需回答「否」。

　　部分真實數(shù)據(jù)：給定Sr3D+的描述及對應(yīng)的3D場景，隨機(jī)修改描述中的空間關(guān)系。例如，將「沙發(fā)上的枕頭」改為「沙發(fā)下的枕頭」。

　　模型需糾正信息并回答「它是在『上面』」，同時提供物體ID。團(tuán)隊確保描述的目標(biāo)物體類別是當(dāng)前場景唯一的、無干擾項，以避免歧義。真實數(shù)據(jù)：隨機(jī)增強(qiáng)空間關(guān)系的同義詞以提高多樣性，例如，將「below」替換為「under」、「beneath」或「underneath」。

　　圖4右下：Faithful 3D Question Answering (3DFQA)

　　原始的3D問答任務(wù)僅包含正樣本，可能導(dǎo)致模型記住固定的3D場景和問答對。為了解決這一問題，提出3DFQA，一個結(jié)合了負(fù)樣本和正樣本的場景級別的基于表達(dá)的QA任務(wù)，其增加了定位的要求。

　　構(gòu)建負(fù)樣本時，從ScanQA中抽取問答對，并收集問題或答案中的相關(guān)物體，然后隨機(jī)選擇一個缺少這些物體的3D場景。在原來的問題上，新增一個指令：「如果可以，請回答……并提供所有ID……」。

　　此時，模型必須回答「否」，并且不提供任何物體ID，體現(xiàn)其對場景的依賴而不會胡言亂語總給出正面回復(fù)。正樣本直接取自ScanQA，模型需回答問題并提供相關(guān)物體的ID作為答案的依據(jù)。

　　因此，訓(xùn)練在的3DFQA數(shù)據(jù)集上的模型不能依靠記憶，而是要學(xué)會對正負(fù)樣本做出忠實回應(yīng)并有理有據(jù)。

　　多樣化數(shù)據(jù)生成

　　多樣化數(shù)據(jù)旨在通過結(jié)合多種不同任務(wù)類型的指令數(shù)據(jù)，并提高指令的語言多樣性，從而增強(qiáng)模型的泛化能力。首先從基準(zhǔn)數(shù)據(jù)集之外的不同任務(wù)中收集大規(guī)模數(shù)據(jù)。

　　具體而言，給定一個3D場景，收集以下任務(wù)的問答對：類別問答任務(wù)(來自Chat-Scene)，Nr3D描述生成任務(wù)(轉(zhuǎn)換自Nr3D)，外觀描述生成任務(wù)(來自Grounded-3DLLM)，區(qū)域描述生成任務(wù)(來自Grounded-3DLLM)，端到端3D視覺定位(轉(zhuǎn)換自Nr3D)，端到端3D視覺定位(轉(zhuǎn)換自Sr3D+)。

　　圖5 多樣化數(shù)據(jù)的生成流程和詳細(xì)的提示工程

　　為了豐富表述風(fēng)格，開發(fā)了一個可擴(kuò)展的流程，利用ChatGPT的上下文學(xué)習(xí)能力對上述數(shù)據(jù)進(jìn)行重述。這通過一組示例和結(jié)構(gòu)化提示工程實現(xiàn)，如圖5(上)所示。

　　具體而言，給定一個收集的指令數(shù)據(jù)集D_task(其中任務(wù)包括ScanRefer、Multi3DRefer、Nr3D、Sr3D+、Nr3D Captioning、ScanQA、SQA3D、PF-3DVG和3DFQA)，構(gòu)建了一個系統(tǒng)提示P_system，以指示重述的要求和結(jié)構(gòu)化的輸出格式，同時提供一個示例提示P_eg，以幫助ChatGPT更好地理解要求。

　　還隨機(jī)選擇一個溫度參數(shù)T(從[1.1, 1.2, 1.3]中選取)以增加輸出的隨機(jī)性和多樣性。的重述輸出D_rephrase通過公式D_rephrase = M(P_system, P_eg, D_task, T)生成，其中M是ChatGPT的GPT-4o版本。

　　圖5(上)詳細(xì)說明了P_system和P_eg的內(nèi)容，以ScanRefer數(shù)據(jù)為例。通過使用sentence=和rephrase=的結(jié)構(gòu)化提示，GPT-4o能夠輕松遵循要求，可以通過檢測rephrase=關(guān)鍵字方便地收集輸出。

　　圖5(下)提供了每個任務(wù)的示例提示的詳細(xì)信息。由于Nr3D Captioning源于Nr3D，PF-3DVG源于Sr3D+，而3DFQA源于ScanQA，因此不再為這些任務(wù)提供額外示例。

　　實驗

　　主要結(jié)果

　　表1 性能對比結(jié)果

　　如表1所示，由于RIG生成的魯棒指令數(shù)據(jù)，Robin3D在所有基準(zhǔn)測試中顯著超越了之前的模型。具體而言，Robin3D在Scan2Cap CIDEr@0.5上帶來了6.9%的提升，在ScanRefer Acc@0.25上帶來了5.3%的提升。值得注意的是，在包含零目標(biāo)案例的Multi3DRefer評估中，這些案例對模型的區(qū)分能力提出了挑戰(zhàn)，并要求模型能夠回答「No」。的Robin3D在F1@0.25上實現(xiàn)了7.8%的提升，在F1@0.5上實現(xiàn)了7.3%的提升。

　　消融實驗

　　表2和表3 消融實驗結(jié)果

　　如表2和表3所示，對提出的對抗性數(shù)據(jù)和多樣化數(shù)據(jù)進(jìn)行了消融實驗，也對模型結(jié)構(gòu)上RAP和IFB的提出做了消融實驗。實驗結(jié)果在所有benchmark上都證明了他們一致的有效性。

　　特別的，在表2中，對抗性數(shù)據(jù)對描述生成任務(wù)Scan2Cap帶來了8.9%的提升，然而對抗性數(shù)據(jù)是不存在描述生成任務(wù)的，并且也不存在同源的數(shù)據(jù)(Scan2Cap數(shù)據(jù)源自ScanRefer, 但對抗性數(shù)據(jù)無源自ScanRefer的數(shù)據(jù))。這種大幅的提升體現(xiàn)了對抗性數(shù)據(jù)對模型識別能力的提升。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信