首頁 > 云計算頻道 > 大模型

“大海撈針”out！“數(shù)星星”成測長文本能力更精準(zhǔn)方法，來自鵝廠

2024年04月02日 09:22:30 克雷西 來源：量子位公眾號

　　GPT-4和Kimi已接受測試

　　大模型長文本能力測試，又有新方法了!

　　騰訊MLPD實(shí)驗(yàn)室，用全新開源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測試。

　　相比之下，新方法更注重對模型處理長依賴關(guān)系能力的考察，對模型的評估更加全面精準(zhǔn)。

　　利用這種方法，研究人員對GPT-4和國內(nèi)知名的Kimi Chat進(jìn)行了“數(shù)星星”測試。

　　結(jié)果，在不同的實(shí)驗(yàn)條件下，兩款模型各有勝負(fù)，但都體現(xiàn)出了很強(qiáng)的長文本能力。

　　△

　　那么，“數(shù)星星”究竟是怎樣的一種測試呢?

　　比“大海撈針”更加精準(zhǔn)

　　首先，研究人員選擇了一段長文本做為上下文，測試過程中長度逐漸遞增，最大為128k。

　　然后，根據(jù)不同的測試難度需求，整段文本會被劃分成N段，并向其中插入M個包含“星星”的句子。

　　實(shí)驗(yàn)過程中，研究人員選擇了《紅樓夢》作為上下文文本，向其中加入了“小企鵝數(shù)了x顆星星”這樣的句子，每個句子中的x都各不相同。

　　然后，模型會被要求找到所有這樣的句子，并以JSON格式輸出其中所有的數(shù)字，且只輸出數(shù)字。

　　得到模型的輸出之后，研究人員會將這些數(shù)字和Ground Truth進(jìn)行對比，最終計算出模型輸出的正確率。

　　相比于之前的“大海撈針”測試，這種“數(shù)星星”的方法更能體現(xiàn)出模型處理長依賴關(guān)系能力。

　　簡而言之，“大海撈針”中插入多個“針”就是插入多個線索，然后讓大模型找到并串聯(lián)推理多個線索，并獲得最終答案。

　　但實(shí)際的“大海撈多針”測試中，模型并不需要找到所有“針”才能答對問題，甚至有時只需要找到最后一根就可以了。

　　但“數(shù)星星”則不同——因?yàn)槊烤湓捴?ldquo;星星”的數(shù)量都不一樣，模型必須把所有星星都找到才能把問題答對。

　　所以，雖然看似簡單，但至少在多“針”任務(wù)上，“數(shù)星星”對模型長文本能力有著更為精準(zhǔn)的體現(xiàn)。

　　那么，有哪些大模型最先接受了“數(shù)星星”測試呢?

　　GPT-4與Kimi難分高下

　　參加這場測試的大模型分別是GPT-4和國內(nèi)以長文本能力而知名的大模型Kimi。

　　在“星星”數(shù)量和文本粒度均為32時，GPT-4的準(zhǔn)確率達(dá)到了96.8%，Kimi則有86.4%。

　　但當(dāng)“星星”增加到64顆時，Kimi則以93.1%的準(zhǔn)確率超過了準(zhǔn)確率為89.7%的GPT-4.

　　減少到16時，也是Kimi的表現(xiàn)略勝于GPT-4。

　　而劃分的顆粒度也會對模型的表現(xiàn)造成一些影響，在“星星”同樣出現(xiàn)32次時，顆粒度從32變?yōu)?6，GPT-4的成績有所上升，而Kimi則有所下降。

　　需要注意的是，在以上的測試中，“星星”的數(shù)量是依次遞增的，但研究人員很快發(fā)現(xiàn)，這種情況下大模型很喜歡“偷懶”——

　　當(dāng)模型發(fā)現(xiàn)星星數(shù)量是遞增的的時候，即使區(qū)間內(nèi)的數(shù)字是隨機(jī)生成，也會引起大模型的敏感度增加。

　　例如：模型對3、9、10、24、1145、114514這樣的遞增序列會比24、10、3、1145、9、114514更加敏感

　　所以，研究人員又特意將數(shù)字的順序進(jìn)行了打亂，重新進(jìn)行了一次測試。

　　結(jié)果在打亂之后，GPT-4和Kimi的表現(xiàn)都出現(xiàn)了明顯下降，不過準(zhǔn)確率仍在60%以上，兩者相差8.6個百分點(diǎn)。

　　One More Thing

　　這個方法的準(zhǔn)確性可能還需要時間檢驗(yàn)，但不得不說名字起得真的很有一手。

　　△

　　網(wǎng)友也不禁感嘆，現(xiàn)在關(guān)于大模型的研究，真的是越來越魔幻了。

　　但魔幻的背后，也體現(xiàn)出人們對于大模型長語境處理能力和性能的了解還不夠充分。

　　就在前些天，先后有多家大模型廠商宣布推出能夠處理超長文本的模型(雖然不全是基于上下文窗口實(shí)現(xiàn))，最高可達(dá)上千萬，但實(shí)際表現(xiàn)還是未知數(shù)。

　　而Counting Stars的出現(xiàn)，或許正好有助于我們了解這些模型的真實(shí)表現(xiàn)。

　　那么，你還想看看哪些模型的測試成績呢?

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

新聞

明火炊具市場：三季度健康屬性貫穿全類目

奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示，2024年1-9月明火炊具線上零售額94.2億元，同比增加3.1%，其中抖音渠道表現(xiàn)優(yōu)異，同比有14%的漲幅，傳統(tǒng)電商略有下滑，同比降低2.3%。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力，為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助，雙十一期間低至2799元，性價比很高，簡直是創(chuàng)作者們的首選。

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

9月14日，2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。

專題

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

“大海撈針”out！“數(shù)星星”成測長文本能力更精準(zhǔn)方法，來自鵝廠

擴(kuò)展閱讀

“大海撈針”out！“數(shù)星星”成測長文本能力更精準(zhǔn)方法，來自鵝廠