大模型理解復(fù)雜表格,能力再次飛升了!
不僅能在不規(guī)則表格中精準(zhǔn)找到相關(guān)信息,還能直接進(jìn)行計(jì)算。
比如提問(wèn):
如果2022年出口總額的人民幣計(jì)價(jià)比實(shí)際數(shù)值少了10%,請(qǐng)計(jì)算新的出口總額并與實(shí)際數(shù)據(jù)比較。
普通的大模型要么找不到正確的單元格信息,要么會(huì)計(jì)算錯(cuò)誤。
而最新模型給出了正確回答:
實(shí)際出口總額為121324327.3663萬(wàn)元,減少10%后的出口總額為109191894.62967001萬(wàn)元。
這就是由LeCun高徒、浙江大學(xué)博導(dǎo)趙俊博領(lǐng)銜打造的TableGPT2。
它首次將結(jié)構(gòu)化數(shù)據(jù)作為獨(dú)立模態(tài)進(jìn)行訓(xùn)練,這意味著大模型將不再依賴長(zhǎng)上下文窗口,而是直接理解數(shù)據(jù)庫(kù)、Excel、數(shù)倉(cāng)中的數(shù)據(jù),進(jìn)而搞定SQL、分析、增刪改查等相關(guān)任務(wù)。
要知道,結(jié)構(gòu)化數(shù)據(jù)已是無(wú)處不在,從BI(商業(yè)智能)到當(dāng)下爆火的具身智能,大模型想要被更充分精準(zhǔn)應(yīng)用于這些領(lǐng)域,就不能再單純以“文科生”的形式去學(xué)習(xí)。
由此趙俊博等人耗時(shí)1年帶來(lái)了更強(qiáng)大的TableGPT2。
在23個(gè)基準(zhǔn)測(cè)試中,TableGPT2都表現(xiàn)優(yōu)異,平均性能提高35.20%(7B模型)和49.32%(72B模型)。
目前團(tuán)隊(duì)已將兩個(gè)版本的模型、一個(gè)Agent工作流以及RealTabBench中的一個(gè)子集開(kāi)源。
關(guān)鍵在表格編碼器
在TableGPT2之前,業(yè)界幾乎沒(méi)有人嘗試將結(jié)構(gòu)化數(shù)據(jù)作為獨(dú)立模態(tài)。這主要有兩方面原因——
第一,數(shù)據(jù)庫(kù)中表格的空間關(guān)系存在特殊性。比如在圖像視頻上任意交換像素或者詞的token,都會(huì)改變數(shù)據(jù)的本質(zhì),這說(shuō)明兩種模態(tài)之間具備空間依賴關(guān)系。但是在數(shù)據(jù)庫(kù)的表格中,隨機(jī)交換2行或2列數(shù)據(jù),表格本身并不會(huì)變化。目前我們?nèi)狈ぞ吆褪侄稳?yīng)對(duì)結(jié)構(gòu)化數(shù)據(jù)這種特點(diǎn)。
第二,結(jié)構(gòu)化數(shù)據(jù)存在異質(zhì)性。比如在CV領(lǐng)域,RGB是很客觀的表達(dá),紅色就是紅色,藍(lán)色就是藍(lán)色,自然語(yǔ)言也是一樣。但是在結(jié)構(gòu)化數(shù)據(jù)中,同樣一個(gè)表格字段下面的標(biāo)記,在不同數(shù)據(jù)庫(kù)里的意義可能截然不同。比如都是“1,2,3”,不同圖表中表示的內(nèi)容可能完全不同。所以這種“異質(zhì)性”要求大模型對(duì)整體的庫(kù)、表和字段都有理解,才能給出實(shí)際意義。這部分的對(duì)齊和傳統(tǒng)LLM對(duì)齊不太一樣。
不過(guò)這些問(wèn)題也不是完全不能解決。
趙俊博介紹,針對(duì)表格數(shù)據(jù),如果掩碼掉一個(gè)“子表”的一些單元格,加上字段、數(shù)據(jù)庫(kù)的信息輔助,是可以才出來(lái)掩碼信息的內(nèi)容。這意味著盡管結(jié)構(gòu)化數(shù)據(jù)的空間關(guān)系比較弱,但是本身還是有分布可以去學(xué)習(xí)的。
由此,研究團(tuán)隊(duì)提出了TableGPT2工作。
它基于Qwen2.5系列模型,使用超過(guò)860億token進(jìn)行預(yù)訓(xùn)練,給大模型喂入了超過(guò)59.38萬(wàn)張表和236萬(wàn)高質(zhì)量的查詢-表-輸出樣本,并創(chuàng)新性加入了一個(gè)表格編碼器,專門用于讀取和解釋表格數(shù)據(jù)。
模型主要框架包括以下幾個(gè)部分:
表格編碼器
LLM解碼器
持續(xù)預(yù)訓(xùn)練
監(jiān)督微調(diào)
Agent工作流
表格編碼器支持輸入整個(gè)表格,生成每列的緊湊嵌入。
采用雙維注意力機(jī)制,無(wú)需位置嵌入,同時(shí)進(jìn)行分層特征提取,確保行和列的關(guān)系被有效捕捉。
再使用列對(duì)比方法,鼓勵(lì)模型學(xué)習(xí)有意義的、結(jié)構(gòu)感知的語(yǔ)義表示。
具體實(shí)現(xiàn)上,通過(guò)Q-former樣式適配器對(duì)齊嵌入和文本輸入,引入可學(xué)習(xí)的查詢。
使用特殊標(biāo)記(如”“和”“)區(qū)分表格特征與文本,這樣模型可以同時(shí)處理兩種模態(tài)。
應(yīng)用聯(lián)合指令微調(diào)來(lái)增強(qiáng)文本信息、列嵌入和模式單元數(shù)據(jù)之間的對(duì)齊,提高模型對(duì)表格數(shù)據(jù)的理解和解釋能力。
值得一提的是,這個(gè)表格編碼器可以單獨(dú)使用。作者團(tuán)隊(duì)透露,后續(xù)還將發(fā)表相關(guān)論文。
LLM解碼器則基于Qwen-2.5模型,用于自然語(yǔ)言生成。
具體訓(xùn)練部分,預(yù)訓(xùn)練階段首先針對(duì)模型的編碼和推理能力進(jìn)行加強(qiáng)。80%的預(yù)訓(xùn)練數(shù)據(jù)是有優(yōu)質(zhì)注釋的代碼,這和DeepSeek-v2的方法一致,以確保強(qiáng)大的編碼能力。
同時(shí)還融入了大量推理數(shù)據(jù)和特定領(lǐng)域知識(shí)(比如金融、制造、生物等),以增強(qiáng)推理能力。
在數(shù)據(jù)處理層面,采用兩級(jí)過(guò)濾策略。
文檔層面將數(shù)據(jù)標(biāo)記為54個(gè)不同類別,token層面利用RHO-1來(lái)微調(diào)高質(zhì)量token。
預(yù)訓(xùn)練部分的數(shù)據(jù)由86B個(gè)token組成。
進(jìn)行監(jiān)督式微調(diào)主要是為了提高模型在BI特定任務(wù)中的表現(xiàn)。
作者構(gòu)建了一個(gè)包含236萬(wàn)條樣本的數(shù)據(jù)集,主要覆蓋多輪對(duì)話、復(fù)雜推理、工具使用和高度特定的業(yè)務(wù)查詢場(chǎng)景,包含代碼生成、數(shù)據(jù)可視化、統(tǒng)計(jì)測(cè)試和預(yù)測(cè)建模等表格任務(wù)。
通過(guò)模糊化字段引用、匿名化字段名等方法增強(qiáng)模型在處理復(fù)雜任務(wù)時(shí)的魯棒性。
最后來(lái)看Agent框架。
該框架由運(yùn)行時(shí)prompt、代碼沙箱和agent評(píng)估模塊共同增強(qiáng)agent的能力和可靠性。
具體工作流如下。首先通過(guò)prompt模塊處理輸入查詢,經(jīng)過(guò)檢索增強(qiáng)處理后將查詢輸入到主模型中。然后TableGPT2與VLM協(xié)作,生成工具調(diào)用、代碼或其他相關(guān)操作。利用智能體的反思能力,觀察中間結(jié)果,判斷是否需要迭代。最終得到輸出。
部分基準(zhǔn)下超越GPT-4o
實(shí)驗(yàn)階段,作者將TableGPT2與其他大模型進(jìn)行性能對(duì)比。
對(duì)比對(duì)象主要分為兩類。
第一類為主流開(kāi)源大模型,包括DeepSeek-Coder-V2-Lite-16B、YiCoder-9B-Chat、Qwen2.5-Coder-7B-Instruct和Qwen2.5-7B-Instruct。
第二類為針對(duì)表格相關(guān)任務(wù)進(jìn)行微調(diào)或?qū)iT開(kāi)發(fā)的模型。包括TableLLMs和CodeLlama-13B。
實(shí)驗(yàn)主要評(píng)估模型的6方面任務(wù):表格理解、問(wèn)答、事實(shí)論證、表格到文本、自然語(yǔ)言到SQL、整體評(píng)估。
在不同benchmark上,各個(gè)模型表現(xiàn)如下。TableGPT2顯著優(yōu)于絕大部分其他模型,并在一些基準(zhǔn)上超越GPT-4o。
結(jié)果顯示,TableGPT2的7B模型和72B模型的平均準(zhǔn)確率分別提高了35.20%和49.32%。
此外,考慮到當(dāng)下benchmark中針對(duì)表格異形問(wèn)題、匿名問(wèn)題或者治理較差的情況兼顧不佳,而實(shí)際落地中90%以上case都會(huì)出現(xiàn)類似情況。
作者還構(gòu)建了一個(gè)新的benchmark——RealTabBench。它更加關(guān)注實(shí)際應(yīng)用中真實(shí)出現(xiàn)的問(wèn)題。
結(jié)果顯示在RealTabBench上,TableGPT2表現(xiàn)也是最好。
另外,TableGPT2不會(huì)導(dǎo)致基座模型通用能力下降。
LeCun高徒“砸鍋賣鐵”開(kāi)發(fā)
該研究來(lái)自浙江大學(xué)計(jì)算機(jī)與科學(xué)技術(shù)學(xué)院計(jì)算創(chuàng)新研究所。
由助理教授、博士生導(dǎo)師趙俊博領(lǐng)銜。
趙俊博于2019年獲得紐約大學(xué)計(jì)算機(jī)專業(yè)博士學(xué)位,師從圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家、紐約大學(xué)教授Yann LeCun。
他曾在Meta(原Facebook)人工智能實(shí)驗(yàn)室(Facebook AI Research)任研究員,期間深度參與了深度學(xué)習(xí)主流框架PyTorch和向量數(shù)據(jù)庫(kù)Faiss的開(kāi)發(fā),并曾參與了內(nèi)部通用對(duì)話機(jī)器人項(xiàng)目的前沿研究,該工作被視為大模型方向的早期產(chǎn)品化工作之一。
曾于2015年供職于英偉達(dá)半年時(shí)間,聯(lián)合主持開(kāi)發(fā)了全球首個(gè)端到端的自動(dòng)駕駛解決方案,該工作由英偉達(dá)創(chuàng)始人Jensen Huang在次年的GTC 大會(huì)上做隆重介紹。
截至目前論文總被引數(shù)已超過(guò)20000次。
去年,趙俊博主持研發(fā)了TableGPT。
這是全球首款對(duì)接關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)的大模型產(chǎn)品。
2024年,團(tuán)隊(duì)又繼續(xù)“砸鍋賣鐵”,給TableGPT升級(jí)了V2版本。
作為高校團(tuán)隊(duì),開(kāi)發(fā)一個(gè)大模型意味著算力上要砸錢、數(shù)據(jù)收集工程優(yōu)化上要出人,這中間有非常多的坑,需要消耗巨大人力財(cái)力。
而且TableGPT2的開(kāi)發(fā)還有著諸多難點(diǎn)。
首先在技術(shù)上,構(gòu)建一個(gè)在table上單獨(dú)模態(tài)的編碼器很難弄。它獨(dú)有的復(fù)雜結(jié)構(gòu)和空間特點(diǎn),以及字段語(yǔ)義信息對(duì)齊等,都有考驗(yàn)。
其次在數(shù)據(jù)方面。結(jié)構(gòu)化數(shù)據(jù)怎么收集、清洗?標(biāo)簽體系怎么定制?如何把合成數(shù)據(jù)和人工數(shù)據(jù)合并?怎么做到成本可控,都是問(wèn)題。
以及監(jiān)督微調(diào)部分,不光需要輸入輸出樣本對(duì),而且需要收集表,專業(yè)領(lǐng)域的數(shù)據(jù)表還需要專業(yè)人士進(jìn)行標(biāo)注……
不過(guò)為啥還是要做呢?
因?yàn)樗麄兛吹搅舜竽P屠斫饨Y(jié)構(gòu)化數(shù)據(jù)背后更廣闊的應(yīng)用前景。
趙俊博向量子位介紹,作為高校團(tuán)隊(duì),他們現(xiàn)在的工作更多是為了“趟路”。
做結(jié)構(gòu)化這件事,我們不會(huì)停留在Excel或者數(shù)據(jù)庫(kù)上面,下一步技術(shù)發(fā)展肯定是往硬件和具身智能領(lǐng)域上走。
靈巧手的觸覺(jué)信息,還有具身智能領(lǐng)域的視覺(jué)、聽(tīng)覺(jué)等,廣義來(lái)說(shuō)都屬于結(jié)構(gòu)化數(shù)據(jù),我們還想往這個(gè)方向再往前一步。
與此同時(shí),TableGPT2也會(huì)在產(chǎn)業(yè)落地上試水,希望能給從業(yè)者提供更好用的底座模型。
目前,團(tuán)隊(duì)已經(jīng)開(kāi)源了這項(xiàng)工作的多個(gè)成果,后續(xù)也會(huì)發(fā)布表格編碼器的相關(guān)研究,感興趣的童鞋可以進(jìn)一步了解~
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(tái)(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費(fèi)前列,女士夾克銷量同比增長(zhǎng)72%,女士棉衣、女士羊毛衫銷量同比增長(zhǎng)50%以上。男士外套銷量同比增長(zhǎng)30%以上。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。