零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國企業(yè)科創(chuàng)力研究報告(2024)》美團(tuán)年度報告竟然用上了AI和短劇?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項功能華為官方翻新手機(jī)最高降價4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計:看過實(shí)車的人都喜歡這個設(shè)計林杰:未來 A 級、A0 級、A00 級車型都將是領(lǐng)克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂年度聽歌報告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報告出爐2024年結(jié)束,哪里是原創(chuàng)動畫的應(yīng)許之地?深扒一個正被游戲行業(yè)「搶占」的流量帝國百思買重新進(jìn)軍跨境電商領(lǐng)域視頻生成大模型賽道,只是看上去擁擠GGII:預(yù)計2024年中國工業(yè)機(jī)器人全年銷量約30萬臺,同比下滑5%左右
  • 首頁 > 云計算頻道 > 大模型

    “大海撈針”out!“數(shù)星星”成測長文本能力更精準(zhǔn)方法,來自鵝廠

    2024年04月02日 09:22:30   來源:量子位公眾號

      GPT-4和Kimi已接受測試

      大模型長文本能力測試,又有新方法了!

      騰訊MLPD實(shí)驗(yàn)室,用全新開源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測試。

      相比之下,新方法更注重對模型處理長依賴關(guān)系能力的考察,對模型的評估更加全面精準(zhǔn)。

      利用這種方法,研究人員對GPT-4和國內(nèi)知名的Kimi Chat進(jìn)行了“數(shù)星星”測試。

      結(jié)果,在不同的實(shí)驗(yàn)條件下,兩款模型各有勝負(fù),但都體現(xiàn)出了很強(qiáng)的長文本能力。

      △

      那么,“數(shù)星星”究竟是怎樣的一種測試呢?

      比“大海撈針”更加精準(zhǔn)

      首先,研究人員選擇了一段長文本做為上下文,測試過程中長度逐漸遞增,最大為128k。

      然后,根據(jù)不同的測試難度需求,整段文本會被劃分成N段,并向其中插入M個包含“星星”的句子。

      實(shí)驗(yàn)過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了“小企鵝數(shù)了x顆星星”這樣的句子,每個句子中的x都各不相同。

      然后,模型會被要求找到所有這樣的句子,并以JSON格式輸出其中所有的數(shù)字,且只輸出數(shù)字。

      得到模型的輸出之后,研究人員會將這些數(shù)字和Ground Truth進(jìn)行對比,最終計算出模型輸出的正確率。

      相比于之前的“大海撈針”測試,這種“數(shù)星星”的方法更能體現(xiàn)出模型處理長依賴關(guān)系能力。

      簡而言之,“大海撈針”中插入多個“針”就是插入多個線索,然后讓大模型找到并串聯(lián)推理多個線索,并獲得最終答案。

      但實(shí)際的“大海撈多針”測試中,模型并不需要找到所有“針”才能答對問題,甚至有時只需要找到最后一根就可以了。

      但“數(shù)星星”則不同——因?yàn)槊烤湓捴?ldquo;星星”的數(shù)量都不一樣,模型必須把所有星星都找到才能把問題答對。

      所以,雖然看似簡單,但至少在多“針”任務(wù)上,“數(shù)星星”對模型長文本能力有著更為精準(zhǔn)的體現(xiàn)。

      那么,有哪些大模型最先接受了“數(shù)星星”測試呢?

      GPT-4與Kimi難分高下

      參加這場測試的大模型分別是GPT-4和國內(nèi)以長文本能力而知名的大模型Kimi。

      在“星星”數(shù)量和文本粒度均為32時,GPT-4的準(zhǔn)確率達(dá)到了96.8%,Kimi則有86.4%。

      但當(dāng)“星星”增加到64顆時,Kimi則以93.1%的準(zhǔn)確率超過了準(zhǔn)確率為89.7%的GPT-4.

      減少到16時,也是Kimi的表現(xiàn)略勝于GPT-4。

      而劃分的顆粒度也會對模型的表現(xiàn)造成一些影響,在“星星”同樣出現(xiàn)32次時,顆粒度從32變?yōu)?6,GPT-4的成績有所上升,而Kimi則有所下降。

      需要注意的是,在以上的測試中,“星星”的數(shù)量是依次遞增的,但研究人員很快發(fā)現(xiàn),這種情況下大模型很喜歡“偷懶”——

      當(dāng)模型發(fā)現(xiàn)星星數(shù)量是遞增的的時候,即使區(qū)間內(nèi)的數(shù)字是隨機(jī)生成,也會引起大模型的敏感度增加。

      例如:模型對3、9、10、24、1145、114514這樣的遞增序列會比24、10、3、1145、9、114514更加敏感

      所以,研究人員又特意將數(shù)字的順序進(jìn)行了打亂,重新進(jìn)行了一次測試。

      結(jié)果在打亂之后,GPT-4和Kimi的表現(xiàn)都出現(xiàn)了明顯下降,不過準(zhǔn)確率仍在60%以上,兩者相差8.6個百分點(diǎn)。

      One More Thing

      這個方法的準(zhǔn)確性可能還需要時間檢驗(yàn),但不得不說名字起得真的很有一手。

      △

      網(wǎng)友也不禁感嘆,現(xiàn)在關(guān)于大模型的研究,真的是越來越魔幻了。

      但魔幻的背后,也體現(xiàn)出人們對于大模型長語境處理能力和性能的了解還不夠充分。

      就在前些天,先后有多家大模型廠商宣布推出能夠處理超長文本的模型(雖然不全是基于上下文窗口實(shí)現(xiàn)),最高可達(dá)上千萬,但實(shí)際表現(xiàn)還是未知數(shù)。

      而Counting Stars的出現(xiàn),或許正好有助于我們了解這些模型的真實(shí)表現(xiàn)。

      那么,你還想看看哪些模型的測試成績呢?

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。