多模態(tài)大語言模型(Multi-modal Large Language Models, MLLMs)以文本模態(tài)為基礎(chǔ),將其它各種模態(tài)對齊至語言模型的語義空間,從而實現(xiàn)多模態(tài)的理解和對話能力。近來,越來越多的研究聚焦于3D大語言模型(3DLLM),旨在實現(xiàn)對3D物體以及復(fù)雜場景的理解,推理和自由對話。
與2D MLLM所能接觸的廣泛的多模態(tài)數(shù)據(jù)不同,3DLLM的訓(xùn)練數(shù)據(jù)相對稀少。
即便過去有些工作嘗試生成更多的多模態(tài)指令數(shù)據(jù),但這類模型仍然在指令的魯棒性上存在兩點(diǎn)不足:
1. 絕大多數(shù)3D多模態(tài)指令數(shù)據(jù)對是正樣本對,缺乏負(fù)樣本對或者對抗性樣本對。模型在這種數(shù)據(jù)上訓(xùn)練缺乏一定的辨識能力,因為無論被問到什么問題,模型只會輸出正面的回答。因此碰到問題與場景無關(guān)時,模型也更容易出現(xiàn)幻覺。這種模型有可能只是記住了正樣本對,而非真正地理解被問及的場景、物體、以及具體的指令。
2. 由于在造數(shù)據(jù)的過程中,人類標(biāo)注員或者生成式大語言模型是按照既定的規(guī)則去描述物體的,很多由這些描述所轉(zhuǎn)換而來的指令缺乏多樣性。甚至有的數(shù)據(jù)是直接按照模板生成的。
為了解決以上問題,伊利諾伊理工大學(xué)、浙江大學(xué)、中佛羅里達(dá)大學(xué)、伊利諾伊大學(xué)芝加哥分校提出一個強(qiáng)大3DLLM——Robin3D,在大規(guī)模魯棒數(shù)據(jù)上進(jìn)行訓(xùn)練。
論文地址:https://arxiv.org/abs/2410.00255
文中提出了「魯棒指令數(shù)據(jù)生成引擎」(Robust Instruction Generation, RIG),可以生成兩種數(shù)據(jù):
1. 對抗性指令數(shù)據(jù)。該數(shù)據(jù)特點(diǎn)在于在訓(xùn)練集或者單個訓(xùn)練樣本中,混合了正樣本和負(fù)樣本對(或者對抗樣本對),從而使得模型在該類數(shù)據(jù)集訓(xùn)練能獲得更強(qiáng)的辨識能力,該數(shù)據(jù)包含了物體層面到場景層面的、基于類別的指令和基于表達(dá)的指令,最終形成了四種新的訓(xùn)練任務(wù),幫助模型解耦對正樣本對的記憶。
2. 多樣化指令數(shù)據(jù),首先全面收集現(xiàn)有研究中的各種指令類型,或?qū)⒁恍┤蝿?wù)轉(zhuǎn)化為指令跟隨的格式。為了充分利用大語言模型強(qiáng)大的上下文學(xué)習(xí)能力,研究人員使用ChatGPT,通過為每個任務(wù)定制的特定提示工程模板來多樣化指令的語言風(fēng)格。
將這些與現(xiàn)有基準(zhǔn)的原始訓(xùn)練集相結(jié)合,研究人員構(gòu)建了百萬級指令跟隨樣本,其中約有34.4萬個對抗性數(shù)據(jù)(34%)、50.8萬個多樣化數(shù)據(jù)(50%)和16.5 萬個基準(zhǔn)數(shù)據(jù)(16%),如圖1(右)所示。
圖1 Robin3D在構(gòu)建的百萬級數(shù)據(jù)上訓(xùn)練(右),最終在所有3D多模態(tài)數(shù)據(jù)集上的性能超過之前的SOTA(左)
Robin3D在模型上與Chat-Scene類似:使用Mask3D,Uni3D來抽3D物體級別的特征,使用Dinov2來抽2D物體級別的特征,使用物體ID來指定和定位物體。
先前的方法在抽物體特征的時候,由于其物體級別的規(guī)范化(normalization),不可避免的丟失了物體間的3D空間關(guān)系。同時簡單的物體ID和物體特征拼接缺乏對ID-特征的充分聯(lián)結(jié),使其在這種復(fù)雜的指令數(shù)據(jù)上面臨訓(xùn)練的困難,而Robin3D引入了關(guān)系增強(qiáng)投射器來增強(qiáng)物體的3D空間關(guān)系,并使用ID-特征捆綁來增強(qiáng)指代和定位物體時ID與特征之間的聯(lián)系。
最終Robin3D在所有的3D場景多模態(tài)數(shù)據(jù)集上達(dá)到一致的SOTA,并且不需要特定任務(wù)的微調(diào)。
方法
圖2 Robin3D的模型結(jié)構(gòu)
關(guān)系增強(qiáng)投射器
如圖2所示,關(guān)系增強(qiáng)投射器(Relation-Augmented Projector, RAP)考慮三種特征:
1. Mask3D所抽取的場景級別特征,這種特征經(jīng)過多層cross-attention充分交互了語意和位置關(guān)系;
2. Mask3D里的位置嵌入特征,這種特征由物體超點(diǎn)直接轉(zhuǎn)換而來,代表了物體間的位置關(guān)系。
3. Uni3D抽取的統(tǒng)一物體級別特征,這種特征和語言進(jìn)行過大規(guī)模的對齊訓(xùn)練。
圖3 RAP公式
如圖3所示,通過MLP和短接的方式,對三種特征進(jìn)行高效的融合,最終實現(xiàn)了即保持強(qiáng)大的統(tǒng)一物體級別語意信息、又增強(qiáng)了物體之間的空間位置關(guān)系。
ID-特征捆綁
如圖1所示,的ID-特征捆綁(ID-Feature Bonding, IFB)主要包含兩個操作。首先,使用兩個相同的ID來包裹其物體特征。
由于LLM的因果注意力機(jī)制,這種方法通過第一個ID將ID信息與物體特征關(guān)聯(lián)起來,并通過第二個ID將物體信息與其ID關(guān)聯(lián)起來。
其次,提出了一個后視覺順序,將視覺tokens放置在輸入序列的末尾,靠近模型生成的答案標(biāo)記。
該方法減少了由于tokens間的相對距離和LLM中旋轉(zhuǎn)位置嵌入所導(dǎo)致的從答案tokens到ID-特征tokens的注意力減弱問題,同時增強(qiáng)了視覺信息對答案tokens的注意力影響,從而提升答案生成效果。
魯棒指令數(shù)據(jù)生成引擎
對抗性數(shù)據(jù)生成
圖4 對抗性數(shù)據(jù)的四種任務(wù)
如圖4,的對抗性數(shù)據(jù)形成了四種新的具備挑戰(zhàn)性的任務(wù)HOPE、HROC、PF-3DVG和3DFQA,包含了從物體到場景、從基于類比到基于表達(dá)的不同指令。
圖4左上:Hybrid Object Probing Evaluation (HOPE)
為了構(gòu)建一個場景級別的基于類別的任務(wù),引入了HOPE,靈感來自2D領(lǐng)域的POPE基準(zhǔn)。POPE通過詢問關(guān)于單個物體存在與否的是/否問題,評估2DMLLMs產(chǎn)生幻覺的傾向。在此基礎(chǔ)上,HOPE將這種幻覺挑戰(zhàn)擴(kuò)展到3D領(lǐng)域的訓(xùn)練階段,旨在讓模型更具辨別力。
此外,HOPE引入了一個混合場景,增加復(fù)雜性,進(jìn)一步推動模型對記憶中的視覺與語言正樣本的解耦。
具體來說,在給定的3D場景中,要求模型判斷多個隨機(jī)指定的物體是否存在。物體可能存在或不存在,且每個存在的物體可能有一個或多個實例。
當(dāng)物體不存在時,模型需回答「否」;當(dāng)物體存在時,需回答「是」并提供每個實例的物體ID。這一設(shè)置結(jié)合了正負(fù)物體的混合識別與多實例物體定位,具有很高的挑戰(zhàn)性。
圖4右上:Hybrid Referring Object Classification (HROC)
指代物體分類任務(wù)旨在評估模型在2D域中識別指代區(qū)域的能力,使用「區(qū)域輸入,文本輸出」的形式。HROC將此任務(wù)擴(kuò)展到3D領(lǐng)域,創(chuàng)建了一個物體級別的基于類別的任務(wù),并結(jié)合了對抗性和混合挑戰(zhàn)。
在3D場景中,隨機(jī)生成混合的正負(fù)ID-類別樣本對來提出問題。正樣本對包含一個有效的物體ID和對應(yīng)的真實類別,負(fù)對則包含一個有效的物體ID和隨機(jī)選擇的非真實類別,作為對抗性挑戰(zhàn)。模型需對正樣本對回答「是」,對負(fù)對回答「否」并給出正確類別。
圖4左下:Partial Factual 3D Visual Grounding (PF-3DVG)
PF-3DVG引入了一個場景級別的基于表達(dá)的任務(wù),涵蓋三種數(shù)據(jù)類型:非真實數(shù)據(jù)、部分真實數(shù)據(jù)和真實數(shù)據(jù)。
非真實數(shù)據(jù):在3D場景中,隨機(jī)選擇Sr3D+中的描述,其中所描述的物體不存在與當(dāng)前3D場景。模型需回答「否」。
部分真實數(shù)據(jù):給定Sr3D+的描述及對應(yīng)的3D場景,隨機(jī)修改描述中的空間關(guān)系。例如,將「沙發(fā)上的枕頭」改為「沙發(fā)下的枕頭」。
模型需糾正信息并回答「它是在『上面』」,同時提供物體ID。團(tuán)隊確保描述的目標(biāo)物體類別是當(dāng)前場景唯一的、無干擾項,以避免歧義。真實數(shù)據(jù):隨機(jī)增強(qiáng)空間關(guān)系的同義詞以提高多樣性,例如,將「below」替換為「under」、「beneath」或「underneath」。
圖4右下:Faithful 3D Question Answering (3DFQA)
原始的3D問答任務(wù)僅包含正樣本,可能導(dǎo)致模型記住固定的3D場景和問答對。為了解決這一問題,提出3DFQA,一個結(jié)合了負(fù)樣本和正樣本的場景級別的基于表達(dá)的QA任務(wù),其增加了定位的要求。
構(gòu)建負(fù)樣本時,從ScanQA中抽取問答對,并收集問題或答案中的相關(guān)物體,然后隨機(jī)選擇一個缺少這些物體的3D場景。在原來的問題上,新增一個指令:「如果可以,請回答……并提供所有ID……」。
此時,模型必須回答「否」,并且不提供任何物體ID,體現(xiàn)其對場景的依賴而不會胡言亂語總給出正面回復(fù)。正樣本直接取自ScanQA,模型需回答問題并提供相關(guān)物體的ID作為答案的依據(jù)。
因此,訓(xùn)練在的3DFQA數(shù)據(jù)集上的模型不能依靠記憶,而是要學(xué)會對正負(fù)樣本做出忠實回應(yīng)并有理有據(jù)。
多樣化數(shù)據(jù)生成
多樣化數(shù)據(jù)旨在通過結(jié)合多種不同任務(wù)類型的指令數(shù)據(jù),并提高指令的語言多樣性,從而增強(qiáng)模型的泛化能力。首先從基準(zhǔn)數(shù)據(jù)集之外的不同任務(wù)中收集大規(guī)模數(shù)據(jù)。
具體而言,給定一個3D場景,收集以下任務(wù)的問答對:類別問答任務(wù)(來自Chat-Scene),Nr3D描述生成任務(wù)(轉(zhuǎn)換自Nr3D),外觀描述生成任務(wù)(來自Grounded-3DLLM),區(qū)域描述生成任務(wù)(來自Grounded-3DLLM),端到端3D視覺定位(轉(zhuǎn)換自Nr3D),端到端3D視覺定位(轉(zhuǎn)換自Sr3D+)。
圖5 多樣化數(shù)據(jù)的生成流程和詳細(xì)的提示工程
為了豐富表述風(fēng)格,開發(fā)了一個可擴(kuò)展的流程,利用ChatGPT的上下文學(xué)習(xí)能力對上述數(shù)據(jù)進(jìn)行重述。這通過一組示例和結(jié)構(gòu)化提示工程實現(xiàn),如圖5(上)所示。
具體而言,給定一個收集的指令數(shù)據(jù)集D_task(其中任務(wù)包括ScanRefer、Multi3DRefer、Nr3D、Sr3D+、Nr3D Captioning、ScanQA、SQA3D、PF-3DVG和3DFQA),構(gòu)建了一個系統(tǒng)提示P_system,以指示重述的要求和結(jié)構(gòu)化的輸出格式,同時提供一個示例提示P_eg,以幫助ChatGPT更好地理解要求。
還隨機(jī)選擇一個溫度參數(shù)T(從[1.1, 1.2, 1.3]中選取)以增加輸出的隨機(jī)性和多樣性。的重述輸出D_rephrase通過公式D_rephrase = M(P_system, P_eg, D_task, T)生成,其中M是ChatGPT的GPT-4o版本。
圖5(上)詳細(xì)說明了P_system和P_eg的內(nèi)容,以ScanRefer數(shù)據(jù)為例。通過使用sentence=和rephrase=的結(jié)構(gòu)化提示,GPT-4o能夠輕松遵循要求,可以通過檢測rephrase=關(guān)鍵字方便地收集輸出。
圖5(下)提供了每個任務(wù)的示例提示的詳細(xì)信息。由于Nr3D Captioning源于Nr3D,PF-3DVG源于Sr3D+,而3DFQA源于ScanQA,因此不再為這些任務(wù)提供額外示例。
實驗
主要結(jié)果
表1 性能對比結(jié)果
如表1所示,由于RIG生成的魯棒指令數(shù)據(jù),Robin3D在所有基準(zhǔn)測試中顯著超越了之前的模型。具體而言,Robin3D在Scan2Cap CIDEr@0.5上帶來了6.9%的提升,在ScanRefer Acc@0.25上帶來了5.3%的提升。值得注意的是,在包含零目標(biāo)案例的Multi3DRefer評估中,這些案例對模型的區(qū)分能力提出了挑戰(zhàn),并要求模型能夠回答「No」。的Robin3D在F1@0.25上實現(xiàn)了7.8%的提升,在F1@0.5上實現(xiàn)了7.3%的提升。
消融實驗
表2和表3 消融實驗結(jié)果
如表2和表3所示,對提出的對抗性數(shù)據(jù)和多樣化數(shù)據(jù)進(jìn)行了消融實驗,也對模型結(jié)構(gòu)上RAP和IFB的提出做了消融實驗。實驗結(jié)果在所有benchmark上都證明了他們一致的有效性。
特別的,在表2中,對抗性數(shù)據(jù)對描述生成任務(wù)Scan2Cap帶來了8.9%的提升,然而對抗性數(shù)據(jù)是不存在描述生成任務(wù)的,并且也不存在同源的數(shù)據(jù)(Scan2Cap數(shù)據(jù)源自ScanRefer, 但對抗性數(shù)據(jù)無源自ScanRefer的數(shù)據(jù))。這種大幅的提升體現(xiàn)了對抗性數(shù)據(jù)對模型識別能力的提升。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。