消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預(yù)售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務(wù)“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設(shè)備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項健康功能,包括心率監(jiān)測和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務(wù)實現(xiàn)盈利,退市裁員重組后終于賺錢真我14 Pro+開始提上日程:1.5K等深四微曲屏+潛望長焦穩(wěn)了消息稱本田和日產(chǎn)計劃明年6月前敲定合并協(xié)議 2026年8月成立控股公司凱迪拉克最新版OTA開啟推送,新增百度語音大模型和QQ音樂等應(yīng)用中國聯(lián)通11月5G套餐用戶凈增127.8萬戶5G確定性工業(yè)基站首商用,工業(yè)互聯(lián)網(wǎng)走上新高度
  • 首頁 > 云計算頻道 > 大模型

    “越長”就越強?為何通義千問卷不動Kimi

    2024年04月02日 17:11:39   來源:微信公眾號:AI新智能

       跟風(fēng)與內(nèi)卷,救不了國產(chǎn)大模型。

      最近,受到Kimi大火的刺激,國內(nèi)大模型們又開始了新一輪“我有多長”的比賽了。

      在Kimi 目前200萬文本長度打底的情況下,其他各家沒個四五百萬打底,都不好意思見人了。

      比如360那個“智腦”,號稱能處理500萬字長文本,而百度稍微低調(diào)些,打算下個月開放200萬-400萬的長文本能力。

      最狂的是通義千問,直接升級到了1000萬文本長度,成了全球文檔處理容量第 一的AI。

      但是,“越長”就真的“越強”嗎?

      在長文本方面,想成為真正的“大家伙”,可不僅僅只是把所有知識都灌進肚子里就行了。光是囫圇吞不算啥,得能穿針引線,理解和應(yīng)用其中的內(nèi)容、知識,才能幫用戶解決真正的問題。

      所以,今天我們不妨先拿通義千問這個“出頭鳥”來開開刀,用幾個最為常見的長文本任務(wù),好好拿捏一下這上千萬的文本能力,究竟有多少含金量。

      1

      三大考驗

      1、新聞?wù)?/strong>

      今天咱們要干的第 一個長文本活兒,就是最常見的新聞?wù)獨w納。

      因為那些媒體搞的大新聞啊、深度調(diào)查啊,為了把事情說透徹,堆砌了一大堆事實、數(shù)據(jù)、例子,文章就賊拉長。

      現(xiàn)在呢,咱們得把這些長文章濃縮一下,簡單直白地說說重點。

      在這里,我們選擇的文章,是36氪的文章《卷進前1%,誰能拿下新藥出海下一個百億美元交易?》

      首先來看看通義千問的表現(xiàn)。

      從這個總結(jié)的結(jié)果來看,通義千問基本覆蓋了文章的主要信息點,并簡要地對每個要點進行了摘要,行文還算流暢。

      但是,仔細看下來,這樣的總結(jié)長度較長,缺乏清晰的層次結(jié)構(gòu),用戶需要投入更多時間和精力去梳理歸納要點。

      此外,其在總結(jié)時,很多地方是直接摘錄了原文的風(fēng)格,沒有對內(nèi)容進行高度壓縮概括,效率相對較低。

      接下來再看看kimi的表現(xiàn)。

      相較之下,Kimi的總結(jié)結(jié)構(gòu)層次分明,將要點分為多個方面進行陳述,使得用戶可以快速掌握文章的框架和重點內(nèi)容。

      同時,從覆蓋面來看,Kimi總結(jié)的要點一共有9個,涉及了出海形式、創(chuàng)新要求、BD對比IPO、長期發(fā)展等核心內(nèi)容,反映了對文章信息的更全面梳理。

      而通義千問的總結(jié)雖然內(nèi)容也算完整,但遺漏了一些重點,比如沒有涉及創(chuàng)新和專利、國際化能力等等等。

      2、研報分析

      如果說,對長篇新聞的總結(jié),體現(xiàn)的是大模型在長文本方面的主旨概括能力,那么接下來的研報分析,考驗的則是在長文本下,大模型推理能力的表現(xiàn)。

      在這里,我們上傳了一份長達60頁的企業(yè)研報,來分別測試通義千問和Kimi的表現(xiàn)。

      這份研報這份研報主要包括了一家名為元隆雅圖的企業(yè)的業(yè)務(wù)戰(zhàn)略、財務(wù)表現(xiàn)、以及市場前景。

      在測試中,我們要求通義千問對該企業(yè)在AI時代可能具有的潛在優(yōu)勢進行分析。

      從結(jié)果來看,雖然其生成了一段“看似”詳細和具體的答案,但如果仔細觀察,就會發(fā)現(xiàn)這樣的回答,在很多要點上,都是比較重復(fù)的。

      例如“IP資源智能化運營” 與“IP資產(chǎn)數(shù)字化轉(zhuǎn)型”,以及“新媒體營銷智能化”與“一體化營銷服務(wù)升級”,這些實際上都可以合并成一個點。

      那相較之下,Kimi的表現(xiàn)怎樣呢?

      可以看到,Kimi所分析出的要點,明顯比通義千問范圍更廣,維度更多,并且每個點都直擊主題。這點在進行長文本分析時,就顯得尤為重要。

      對短文本來說,集中精力、深入挖掘一兩個重點就可以搞定。但長文本就不一樣了,首先,長文本內(nèi)容豐富、層次繁多,單一視角顯然是捕捉不了全貌的。

      再者,從概率上說,切入的角度越多,區(qū)別度越大,碰撞出新思路和想法的可能性也就越大。這也很符合某種智能的“涌現(xiàn)”規(guī)律。

      3、小說閱讀

      最后,咱們再來個有點挑戰(zhàn)的。

      這不像之前某些簡單的測試,光讓模型復(fù)述下小說情節(jié)就完事了。還得在通讀全文的基礎(chǔ)上,按咱說的特殊文風(fēng),把情節(jié)重新講出來。這考驗的就是一個指令遵循能力。

      這里,我們選擇的是科幻小說《沙丘》

      我們的要求是:《史記》的風(fēng)格,概述《沙丘》的主要情節(jié)。

      雖然通義千問在剛開始時,勉強保持了相應(yīng)的文風(fēng),但從第三段開始,整個文風(fēng)又變成了現(xiàn)代文,沒能一以貫之地保持。

      可以看出,在這一回合,Kimi幾乎完勝,不僅情節(jié)敘述得更為完整、詳細,而且?guī)缀鯊氖贾两K地保持了接近《史記》的敘述風(fēng)格。

      這顯示了Kimi在閱讀長文本時,強大的信息提取能力指令遵循能

      跟風(fēng)與內(nèi)卷,救不了國產(chǎn)大模型

      可以看出,在長文本方面,Kimi無論是總結(jié)能力、分析能力,還是理解執(zhí)行指令的能力,目前都把通義千問給壓下去了。

      以通義千問為代表的這類國產(chǎn)大模型,一上來就號稱數(shù)百萬,乃至上千萬的文本長度,結(jié)果在實測中搞出了“長文本室溫超導(dǎo)”的感覺,這說明了,長文本這事兒,還真不是“越長越強。”

      之前,對于文本窗口的長度,月之暗面的CEO楊植麟就表示:“不能只提升窗口,不能只看數(shù)字,今天是幾百萬還是多少億的窗口沒有意義。你要看它在這個窗口下能實現(xiàn)的推理能力、the faithfulness的能力(對原始信息的忠實度)、the instruction following的能力(遵循指令的能力)。”

      換言之,只有在這些核心能力方面展現(xiàn)出了真本事,你的長文本能力才真算數(shù)。

      倘若不好好修煉“內(nèi)功”,對“片段級遞歸”、“相對位置編碼”等一系列重要的模型機制不夠諳熟,只是打激素式地增加文本長度,最終的結(jié)果,除了跟風(fēng)式地蹭蹭熱度,徒增些內(nèi)卷的負擔(dān)外,對中國大模型的發(fā)展實無裨益。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。