首頁 > 云計算頻道 > 大模型

“越長”就越強？為何通義千問卷不動Kimi

2024年04月02日 17:11:39 V 來源：微信公眾號：AI新智能

　　跟風(fēng)與內(nèi)卷，救不了國產(chǎn)大模型。

　　最近，受到Kimi大火的刺激，國內(nèi)大模型們又開始了新一輪“我有多長”的比賽了。

　　在Kimi 目前200萬文本長度打底的情況下，其他各家沒個四五百萬打底，都不好意思見人了。

　　比如360那個“智腦”，號稱能處理500萬字長文本，而百度稍微低調(diào)些，打算下個月開放200萬-400萬的長文本能力。

　　最狂的是通義千問，直接升級到了1000萬文本長度，成了全球文檔處理容量第一的AI。

　　但是，“越長”就真的“越強”嗎?

　　在長文本方面，想成為真正的“大家伙”，可不僅僅只是把所有知識都灌進肚子里就行了。光是囫圇吞不算啥，得能穿針引線，理解和應(yīng)用其中的內(nèi)容、知識，才能幫用戶解決真正的問題。

　　所以，今天我們不妨先拿通義千問這個“出頭鳥”來開開刀，用幾個最為常見的長文本任務(wù)，好好拿捏一下這上千萬的文本能力，究竟有多少含金量。

　　三大考驗

　　1、新聞?wù)?/strong>

　　今天咱們要干的第一個長文本活兒，就是最常見的新聞?wù)獨w納。

　　因為那些媒體搞的大新聞啊、深度調(diào)查啊，為了把事情說透徹，堆砌了一大堆事實、數(shù)據(jù)、例子，文章就賊拉長。

　　現(xiàn)在呢，咱們得把這些長文章濃縮一下，簡單直白地說說重點。

　　在這里，我們選擇的文章，是36氪的文章《卷進前1%，誰能拿下新藥出海下一個百億美元交易?》

　　首先來看看通義千問的表現(xiàn)。

　　從這個總結(jié)的結(jié)果來看，通義千問基本覆蓋了文章的主要信息點，并簡要地對每個要點進行了摘要，行文還算流暢。

　　但是，仔細看下來，這樣的總結(jié)長度較長，缺乏清晰的層次結(jié)構(gòu)，用戶需要投入更多時間和精力去梳理歸納要點。

　　此外，其在總結(jié)時，很多地方是直接摘錄了原文的風(fēng)格，沒有對內(nèi)容進行高度壓縮概括，效率相對較低。

　　接下來再看看kimi的表現(xiàn)。

　　相較之下，Kimi的總結(jié)結(jié)構(gòu)層次分明，將要點分為多個方面進行陳述，使得用戶可以快速掌握文章的框架和重點內(nèi)容。

　　同時，從覆蓋面來看，Kimi總結(jié)的要點一共有9個，涉及了出海形式、創(chuàng)新要求、BD對比IPO、長期發(fā)展等核心內(nèi)容，反映了對文章信息的更全面梳理。

　　而通義千問的總結(jié)雖然內(nèi)容也算完整，但遺漏了一些重點，比如沒有涉及創(chuàng)新和專利、國際化能力等等等。

　　2、研報分析

　　如果說，對長篇新聞的總結(jié)，體現(xiàn)的是大模型在長文本方面的主旨概括能力，那么接下來的研報分析，考驗的則是在長文本下，大模型推理能力的表現(xiàn)。

　　在這里，我們上傳了一份長達60頁的企業(yè)研報，來分別測試通義千問和Kimi的表現(xiàn)。

　　這份研報這份研報主要包括了一家名為元隆雅圖的企業(yè)的業(yè)務(wù)戰(zhàn)略、財務(wù)表現(xiàn)、以及市場前景。

　　在測試中，我們要求通義千問對該企業(yè)在AI時代可能具有的潛在優(yōu)勢進行分析。

　　從結(jié)果來看，雖然其生成了一段“看似”詳細和具體的答案，但如果仔細觀察，就會發(fā)現(xiàn)這樣的回答，在很多要點上，都是比較重復(fù)的。

　　例如“IP資源智能化運營” 與“IP資產(chǎn)數(shù)字化轉(zhuǎn)型”，以及“新媒體營銷智能化”與“一體化營銷服務(wù)升級”，這些實際上都可以合并成一個點。

　　那相較之下，Kimi的表現(xiàn)怎樣呢?

　　可以看到，Kimi所分析出的要點，明顯比通義千問范圍更廣，維度更多，并且每個點都直擊主題。這點在進行長文本分析時，就顯得尤為重要。

　　對短文本來說，集中精力、深入挖掘一兩個重點就可以搞定。但長文本就不一樣了，首先,長文本內(nèi)容豐富、層次繁多，單一視角顯然是捕捉不了全貌的。

　　再者，從概率上說，切入的角度越多，區(qū)別度越大，碰撞出新思路和想法的可能性也就越大。這也很符合某種智能的“涌現(xiàn)”規(guī)律。

　　3、小說閱讀

　　最后，咱們再來個有點挑戰(zhàn)的。

　　這不像之前某些簡單的測試，光讓模型復(fù)述下小說情節(jié)就完事了。還得在通讀全文的基礎(chǔ)上，按咱說的特殊文風(fēng)，把情節(jié)重新講出來。這考驗的就是一個指令遵循能力。

　　這里，我們選擇的是科幻小說《沙丘》

　　我們的要求是：《史記》的風(fēng)格，概述《沙丘》的主要情節(jié)。

　　雖然通義千問在剛開始時，勉強保持了相應(yīng)的文風(fēng)，但從第三段開始，整個文風(fēng)又變成了現(xiàn)代文，沒能一以貫之地保持。

　　可以看出，在這一回合，Kimi幾乎完勝，不僅情節(jié)敘述得更為完整、詳細，而且?guī)缀鯊氖贾两K地保持了接近《史記》的敘述風(fēng)格。

　　這顯示了Kimi在閱讀長文本時，強大的信息提取能力和指令遵循能

　　跟風(fēng)與內(nèi)卷，救不了國產(chǎn)大模型

　　可以看出，在長文本方面，Kimi無論是總結(jié)能力、分析能力，還是理解執(zhí)行指令的能力，目前都把通義千問給壓下去了。

　　以通義千問為代表的這類國產(chǎn)大模型，一上來就號稱數(shù)百萬，乃至上千萬的文本長度，結(jié)果在實測中搞出了“長文本室溫超導(dǎo)”的感覺，這說明了，長文本這事兒，還真不是“越長越強。”

　　之前，對于文本窗口的長度，月之暗面的CEO楊植麟就表示：“不能只提升窗口，不能只看數(shù)字，今天是幾百萬還是多少億的窗口沒有意義。你要看它在這個窗口下能實現(xiàn)的推理能力、the faithfulness的能力(對原始信息的忠實度)、the instruction following的能力(遵循指令的能力)。”

　　換言之，只有在這些核心能力方面展現(xiàn)出了真本事，你的長文本能力才真算數(shù)。

　　倘若不好好修煉“內(nèi)功”，對“片段級遞歸”、“相對位置編碼”等一系列重要的模型機制不夠諳熟，只是打激素式地增加文本長度，最終的結(jié)果，除了跟風(fēng)式地蹭蹭熱度，徒增些內(nèi)卷的負擔(dān)外，對中國大模型的發(fā)展實無裨益。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

擴展閱讀
大模型

無相關(guān)信息

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

QQ音樂年度聽歌報告發(fā)布：誰是你最喜歡的歌手？
OpenAI正式發(fā)布o3 - 通往AGI的路上，已經(jīng)沒有了任何阻礙

游戲體驗天花板一加Ace 5系列正式定檔12月26日
“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

新聞

明火炊具市場：三季度健康屬性貫穿全類目

奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示，2024年1-9月明火炊具線上零售額94.2億元，同比增加3.1%，其中抖音渠道表現(xiàn)優(yōu)異，同比有14%的漲幅，傳統(tǒng)電商略有下滑，同比降低2.3%。

2024下半年可信云·行業(yè)云平臺評估成
2024年11月中國家用智能門鎖線上市場

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

QQ音樂年度聽歌報告發(fā)布：誰是你最喜
OpenAI正式發(fā)布o3 - 通往AGI的路上，

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力，為您的創(chuàng)作工作帶來實質(zhì)性的幫助，雙十一期間低至2799元，性價比很高，簡直是創(chuàng)作者們的首選。

“萬象分區(qū)”引領(lǐng)電視行業(yè)新潮流，T
一加Ace 5系列雙杯齊發(fā)：性能大作壓

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

9月14日，2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。

2024下半年可信云·行業(yè)云平臺評估成
第二屆智能車載光峰會舉行：光智交融

專題

中文科技資訊關(guān)于我單位網(wǎng)站被仿冒一
2021 CCF全國高性能計算學(xué)術(shù)年會

“越長”就越強？為何通義千問卷不動Kimi

擴展閱讀

“越長”就越強？為何通義千問卷不動Kimi