提前免費(fèi)！百度連發(fā)兩款模型，我們實(shí)測(cè)：能聽歌看電影，還會(huì)蛐蛐人

2025年03月17日 09:46:27 來源：機(jī)器之心公眾號(hào)

　　AI 競(jìng)爭(zhēng)進(jìn)入白熱化階段。這次，輪到百度給自家大模型上強(qiáng)度。

　　剛剛，百度一口氣官宣了兩款大模型，分別是文心大模型 X1和文心大模型4.5。

　　那么，這兩款大模型有啥區(qū)別呢?

　　這么說吧，文心 X1是一款深度思考模型，具備更強(qiáng)的理解、規(guī)劃、反思、進(jìn)化能力，并支持多模態(tài)，尤其是多工具調(diào)用，更是它的一大特色。

　　而文心4.5號(hào)稱新一代原生多模態(tài)基礎(chǔ)大模型，最擅長(zhǎng)的就是多模態(tài)理解，語言能力也更精進(jìn)。

　　相比于之前版本，文心4.5不僅在理解、生成、邏輯、記憶能力方面上了一個(gè)臺(tái)階，還在去幻覺、邏輯推理、代碼能力上有了全面提升。

　　目前，這兩款模型已在文心一言官網(wǎng)、百度搜索、文小言 APP 等產(chǎn)品上線。(體驗(yàn)網(wǎng)址:https://yiyan.baidu.com/)

　　最關(guān)鍵的是，它們?nèi)济赓M(fèi)!

　　要知道，前段時(shí)間百度還對(duì)外宣布，文心一言將從2025年4月1日0時(shí)起開始全面免費(fèi)。

　　沒想到，這次百度直接將這個(gè)時(shí)間點(diǎn)提前了整整半個(gè)月。

　　同時(shí)，這兩款模型的 API 價(jià)格也已出爐。

　　開發(fā)者現(xiàn)可在百度智能云千帆大模型平臺(tái)上直接調(diào)用文心大模型4.5API，輸入價(jià)格低至0.004元 / 千 tokens，輸出價(jià)格低至0.016元 / 千 tokens;文心大模型 X1也即將在千帆平臺(tái)上線，輸入價(jià)格低至0.002元 / 千 tokens，輸出價(jià)格低至0.008元 / 千 tokens。

　　百度之所以能把文心 X1模型的 API 價(jià)格打下來，是因?yàn)樗麄兺ㄟ^飛槳和文心聯(lián)合優(yōu)化，實(shí)現(xiàn)從壓縮、推理、服務(wù)部署的全鏈路極致調(diào)優(yōu)，大幅降低文心 X1推理成本。

　　具體來說，模型壓縮方面，通過分塊 Hadamard 量化、面向長(zhǎng)序列的注意力機(jī)制量化等實(shí)現(xiàn)深度壓縮;推理引擎方面，通過低精度高性能算子優(yōu)化、動(dòng)態(tài)自適應(yīng)投機(jī)解碼、神經(jīng)網(wǎng)絡(luò)編譯器實(shí)現(xiàn)推理加速。系統(tǒng)層面，通過框架和芯片協(xié)同優(yōu)化、分離式部署架構(gòu)、高效資源調(diào)度實(shí)現(xiàn)系統(tǒng)級(jí)優(yōu)化。

　　一手評(píng)測(cè)

　　俗話說得好，是騾子是馬，還得拉出來遛遛。

　　接下來，我們將從多模態(tài)理解、文本創(chuàng)作、邏輯推理以及工具調(diào)用等多個(gè)維度，對(duì)這倆大模型來一波真刀真槍的實(shí)戰(zhàn)。

　　文心 X1:會(huì)腦筋急轉(zhuǎn)彎，還能調(diào)動(dòng)多個(gè)工具

　　作為百度最新深度思考模型，文心 X1有三大絕活:嘴毒(敢銳評(píng))、腦子好使(推理能力強(qiáng))，而且善用工具(多工具調(diào)用)。

　　相較于之前版本，文心 X1顯得叛逆得多。它不愿做「端水大師」，遇事總是直言不諱，有觀點(diǎn)有態(tài)度。

　　比如我們讓它用貼吧的口吻，銳評(píng)一下小紅書、知乎、微博和貼吧。

　　它一上來就毫不客氣，怒噴小紅書是《人類高質(zhì)量裝 X 指南》，知乎整天標(biāo)榜精英范兒，微博熱搜天天吵得像菜市場(chǎng)，貼吧則是人均鍵盤俠。

　　之所以說文心 X1腦子好使，是因?yàn)樗倪壿嬐评砟芰τ辛孙@著提升，甚至還「懂」腦筋急轉(zhuǎn)彎的奇葩腦回路。

　　比如「狐貍為什么容易摔跤」，它既能從科學(xué)的角度進(jìn)行解釋，還能識(shí)別出背后的諧音梗。

　　要說文心 X1最大的特色，便是能調(diào)用多種工具。

　　我們只需在聊天框開啟「聯(lián)網(wǎng)搜索」和「調(diào)用工具」兩個(gè)按鈕，就能一下子綜合高級(jí)搜索、文檔問答、圖片理解、AI 繪圖、代碼解釋器、百度學(xué)術(shù)檢索、商業(yè)信息查詢等工具。

　　舉個(gè)例子。

　　我們上傳一張?zhí)鹌返恼掌�，然后讓它介紹制作工序，并生成一份 PDF 文件。

　　文心 X1接連調(diào)用了圖片理解、聯(lián)網(wǎng)搜索和代碼解釋器三個(gè)工具。

　　最終它真的生成了一份草莓藍(lán)莓煎餅塔詳細(xì)工序的 PDF 文檔。

　　文心 X1的完整回答

　　文心 X1生成的 PDF 文件名及內(nèi)容

　　文心4.5:學(xué)會(huì)了聽歌、看電影

　　如果說文心 X1更聰明的話，那么文心4.5就是更全能。

　　作為百度自主研發(fā)的新一代原生多模態(tài)基礎(chǔ)大模型，文心4.5不僅能看懂梗圖，還能識(shí)別音視頻。

　　前段時(shí)間 Grok3發(fā)布時(shí)，馬斯克激動(dòng)地在 X 上發(fā)了張梗圖，對(duì)著谷歌、OpenAI 和 Meta 就是一頓貼臉開大。

　　我們就將這張梗圖丟給文心4.5，輸入 Prompt:這張圖片暗含著什么意思?

　　它敏銳捕捉到了圖片背后的幽默和諷刺含義:四只企鵝代表了大洋彼岸的四家科技巨頭，其中三只企鵝向 Grok 企鵝敬禮，暗示了 Grok 在某一階段處于領(lǐng)先優(yōu)勢(shì)。

　　對(duì)于大模型來說，識(shí)別梗圖早就不是什么新鮮事了，文心4.5最拿手的還得是音視頻的理解分析。

　　當(dāng)我們聽到一首喜歡的音樂，但就是死活想不起來歌名時(shí)，我們只需錄一小段音頻，投喂給文心4.5，它就能給出這首歌的一切。

　　音樂，機(jī)器之心，3分鐘

　　同理，我們還可以上傳一段不超過20M 的視頻片段，讓它挖出背后各種八卦。

　　比如電影《聞香識(shí)女人》中這段經(jīng)典的舞蹈，文心4.5不僅識(shí)別出影片名字、女主飾演者，甚至連背景音樂都扒出來了。

　　弱智吧，江湖人稱「青龍山皇家療養(yǎng)院」，大模型智商高不高，就看能不能 hold 得住這些神題。

　　比如:為什么只有電信詐騙，沒有聯(lián)通詐騙呢?

　　文心4.5從術(shù)語的通用性聊到了歷史淵源，又從法律定義聊到了社會(huì)認(rèn)知，把這個(gè)略顯無厘頭的問題解釋得清清楚楚、明明白白。

　　此外，文心4.5在搜索方面也有了更大的進(jìn)步。

　　就拿最近大火的網(wǎng)絡(luò)熱�！糕窝晕摹箒碚f，它找到了8條參考信源，除了百家號(hào)外，還包括新京報(bào)網(wǎng)、騰訊網(wǎng)等其他來源。

　　而且，文心4.5經(jīng)過分析總結(jié)給出回答后，還在末尾附上了相關(guān)視頻以供參考。

　　核心技術(shù)大揭秘

　　經(jīng)過實(shí)測(cè)，我們可以看出百度最新發(fā)布的兩個(gè)模型已經(jīng)出現(xiàn)了質(zhì)的飛躍。

　　多項(xiàng)技術(shù)加持的文心 X1

　　最近一段時(shí)間，AI 圈焦點(diǎn)無疑是關(guān)于「Scaling Law 是否撞墻?」的討論，這個(gè)曾經(jīng)被視作大模型發(fā)展的第一性原理，如今卻遭遇了巨大挑戰(zhàn)。

　　面對(duì)大模型性能提升的邊際效益遞減問題，測(cè)試時(shí)計(jì)算(Test-Time Compute)、強(qiáng)化學(xué)習(xí)等策略成為一種有效的應(yīng)對(duì)方式。

　　百度在強(qiáng)化學(xué)習(xí)方面也下足了功夫，發(fā)布的推理模型文心 X1創(chuàng)新性地應(yīng)用了遞進(jìn)式強(qiáng)化學(xué)習(xí)訓(xùn)練方法。采用這種方法可以全面提升模型在創(chuàng)作、搜索、工具調(diào)用、推理等場(chǎng)景的綜合應(yīng)用能力。

　　比如上文我們體驗(yàn)的「輸入一張圖片，要求文心 X1根據(jù)提示輸出 PDF 格式的文件」，就離不開這種訓(xùn)練方式。

　　現(xiàn)階段，推理模型幾乎都采用了一種稱為思維鏈(Chain of Thought，CoT)的技術(shù)，與傳統(tǒng)的直接從輸入到輸出的映射不同，思維鏈通過顯式展示中間推理過程，幫助模型更好地理解和解決復(fù)雜問題。

　　更進(jìn)一步的，文心 X1具備 “長(zhǎng)思維鏈”，采用了思維鏈和行動(dòng)鏈耦合的端到端訓(xùn)練方式。思維鏈?zhǔn)沟媚Ｐ驮诮鉀Q問題時(shí)，一步一步寫下思考過程，就像我們做數(shù)學(xué)題時(shí)，需要寫下解題步驟一樣。而行動(dòng)鏈?zhǔn)悄Ｐ驮谒伎歼^程中決定采取的行動(dòng)，比如搜索信息、調(diào)用工具等。

　　在端到端訓(xùn)練中，文心 X1不是只學(xué)習(xí)思考或者只學(xué)習(xí)行動(dòng)，而是把思考和行動(dòng)結(jié)合起來，通過這種方式，模型可以根據(jù)每次行動(dòng)的結(jié)果反饋，調(diào)整自己的思考和行動(dòng)策略，最終顯著提升在復(fù)雜任務(wù)中的表現(xiàn)。

　　最后，文心 X1還采用了多元統(tǒng)一的獎(jiǎng)勵(lì)系統(tǒng)，這個(gè)系統(tǒng)就像一個(gè)「超級(jí)裁判」，用來評(píng)價(jià)模型做得好不好。這個(gè)「裁判」在評(píng)估過程中結(jié)合了多種不同的獎(jiǎng)勵(lì)機(jī)制，能夠從多個(gè)角度給模型反饋。這樣的話，模型在訓(xùn)練過程中就能得到更準(zhǔn)確、更可靠的指導(dǎo)，為模型訓(xùn)練提供更加魯棒的反饋。

　　文心4.5用到的「法寶」

　　至于文心4.5，背后的技術(shù)也不容小覷。

　　首先是FlashMask 動(dòng)態(tài)注意力掩碼。FlashMask 是由百度飛槳團(tuán)隊(duì)在論文《FlashMask: Efficient and Rich Mask Extension of FlashAttention》中提出的一種創(chuàng)新的注意力掩碼優(yōu)化技術(shù)，旨在解決 Transformer 類大模型中注意力掩碼計(jì)算的冗余和存儲(chǔ)開銷問題。FlashMask 通過列式稀疏掩碼表示方法，將傳統(tǒng)的二維稠密掩碼矩陣轉(zhuǎn)換為一維的行索引區(qū)間表示，從而顯著降低了存儲(chǔ)復(fù)雜度，從 O (N^2) 降低到 O (N)。極致的加速了大模型訓(xùn)練效率，尤其是長(zhǎng)序列場(chǎng)景下的訓(xùn)練效率。

　　相關(guān)論文已入選頂會(huì) ICLR2025。

　　其次就是多模態(tài)異構(gòu)專家擴(kuò)展技術(shù)。該技術(shù)是一種結(jié)合多模態(tài)數(shù)據(jù)處理與混合專家模型(MoE)的創(chuàng)新架構(gòu)，旨在通過針對(duì)不同模態(tài)特點(diǎn)構(gòu)建的異構(gòu)專家模塊，解決多模態(tài)融合中的梯度不均衡問題，提升模型的多模態(tài)融合能力。多模態(tài)異構(gòu)專家擴(kuò)展技術(shù)在多個(gè)應(yīng)用場(chǎng)景中展現(xiàn)了顯著優(yōu)勢(shì)，例如多模態(tài)問答任務(wù)，這種技術(shù)能夠更高效地處理復(fù)雜的多模態(tài)數(shù)據(jù)。

　　文心4.5還采用了時(shí)空維度表征壓縮技術(shù)，這是一種把圖片和視頻里的關(guān)鍵信息進(jìn)行濃縮的方法。在不丟失重要細(xì)節(jié)的情況下，在時(shí)空維度對(duì)圖片和視頻的語義表征進(jìn)行高效壓縮，讓這些數(shù)據(jù)變得更小、更高效。這樣一來，訓(xùn)練多模態(tài)模型(也就是同時(shí)處理文字、圖片、視頻等多種數(shù)據(jù)的模型)時(shí)就能更快、更省資源。

　　前文我們已經(jīng)提到，文心4.5幻覺問題得到了極大的提升，而這離不開百度采用的基于知識(shí)點(diǎn)的大規(guī)模數(shù)據(jù)構(gòu)建技術(shù)。知識(shí)分級(jí)采樣優(yōu)先把重要的、核心的知識(shí)挑出來，接著把挑出來的知識(shí)點(diǎn)進(jìn)行壓縮，去掉多余的部分，把相關(guān)的知識(shí)融合在一起。對(duì)于那些比較少見、不太好找的知識(shí)點(diǎn)，專門合成一些相關(guān)內(nèi)容，確保這些重要的小眾知識(shí)也不會(huì)被遺漏。這樣一來，模型幻覺大大降低。

　　此外，文心4.5還用到了基于自反饋的 Post-training 技術(shù)。這是一種通過多種評(píng)估方式不斷優(yōu)化模型的后訓(xùn)練方法。簡(jiǎn)單來說，它讓模型在訓(xùn)練過程中不斷反思自己的表現(xiàn)，根據(jù)不同的評(píng)價(jià)標(biāo)準(zhǔn)調(diào)整自己，從而讓模型變得更穩(wěn)定、更可靠。這種技術(shù)還能顯著提升預(yù)訓(xùn)練模型理解人類意圖的能力，讓模型的回答更符合人類的期望。

　　那么文心4.5與其他模型對(duì)比結(jié)果如何呢?

　　下圖展示了文心4.5與 GPT-4o 在多模態(tài)性能上的對(duì)比�？梢钥闯觯男�4.5在大多數(shù)測(cè)試基準(zhǔn)上的表現(xiàn)優(yōu)于 GPT-4o，尤其是在 OCRBench、MathVista、DocVQA 和 MVBench 上，兩者差距較為明顯。GPT-4o 僅在 MMMU 上的表現(xiàn)相對(duì)較好，但在其他基準(zhǔn)上的表現(xiàn)不如文心4.5。在平均值上，文心4.5的得分略高于 GPT-4o，顯示出文心4.5在整體性能上的優(yōu)勢(shì)。

　　下圖比較了四個(gè)不同模型(文心4.5、DeepSeek-V3-Chat、GPT-4o 和 GPT-4.5)在文本測(cè)試基準(zhǔn)上的性能對(duì)比。結(jié)果顯示文心4.5在大多數(shù)測(cè)試基準(zhǔn)上的表現(xiàn)優(yōu)于其他模型，尤其是在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基準(zhǔn)上。

　　RAG 相關(guān)技術(shù)

　　RAG 檢索增強(qiáng)生成(Retrieval Augmented Generation)，已經(jīng)成為當(dāng)前最火熱的 LLM 應(yīng)用方案，是衡量大模型優(yōu)劣的重要維度。

　　現(xiàn)在大模型在各種任務(wù)上雖然很強(qiáng)大，但也有缺點(diǎn)，比如:幻覺現(xiàn)象導(dǎo)致 LLM 有時(shí)會(huì)「瞎編」一些不存在的信息;還有大模型掌握的信息并不是最新知識(shí)，知識(shí)系統(tǒng)更新很慢;此外，生成的內(nèi)容缺乏透明度等一系列問題，導(dǎo)致大模型在實(shí)際應(yīng)用中并不是很理想。

　　RAG 通過檢索最新的、相關(guān)的知識(shí)，解決了上述問題，讓生成的內(nèi)容更可靠、更準(zhǔn)確。

　　百度研發(fā)的「理解 - 檢索 - 生成」協(xié)同優(yōu)化檢索增強(qiáng)技術(shù)，提升了大模型技術(shù)及應(yīng)用的效果，能夠生成準(zhǔn)確率更高、時(shí)效性更好的答案。而且，百度在 RAG 技術(shù)上具備中文深度理解、多模態(tài)檢索、垂直領(lǐng)域定制化以及實(shí)時(shí)數(shù)據(jù)整合能力等優(yōu)勢(shì)，在中文互聯(lián)網(wǎng)、企業(yè)服務(wù)、政務(wù)醫(yī)療等場(chǎng)景中更具實(shí)用性和競(jìng)爭(zhēng)力。

　　此外，在國(guó)內(nèi)外主流大模型的 RAG 能力實(shí)測(cè)中，百度文心一言綜合表現(xiàn)最佳。

　　雖然傳統(tǒng)的 RAG 已經(jīng)基本解決了大模型在文本生成層面的幻覺問題，但在多模態(tài)領(lǐng)域，尤其是圖片生成領(lǐng)域，傳統(tǒng) RAG 已經(jīng)遠(yuǎn)遠(yuǎn)不夠用了。

　　比如，我們經(jīng)�？吹缴傻膱D片出現(xiàn)明顯的邏輯錯(cuò)誤等問題。即使結(jié)果符合要求，但看上去也是一股 AI 味，這些問題嚴(yán)重影響了 AI 生成圖像的實(shí)用性和可信度。

　　正如百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏在百度世界2024大會(huì)上所提出的:「文字層面的 RAG 已經(jīng)做得很好，基本讓大模型消除了幻覺;但在圖像等多模態(tài)方面，和 RAG 的結(jié)合還不夠，這也是百度希望重點(diǎn)突破的方向�！�

　　在這種情況下，百度自研了一種檢索增強(qiáng)的文生圖技術(shù) iRAG(image based RAG)，旨在解決傳統(tǒng)文生圖系統(tǒng)中常見的幻覺問題，提升生成圖像的準(zhǔn)確性和實(shí)用性。

　　在擁有億級(jí)的圖片資源和強(qiáng)大的基礎(chǔ)模型能力，百度 iRAG 將這些優(yōu)勢(shì)相結(jié)合，避免了傳統(tǒng)文生圖系統(tǒng)中一眼假的問題，生成的圖像不僅超真實(shí)，還具備極高的準(zhǔn)確性和可靠性。

　　結(jié)語

　　這次，百度一口氣上線了兩款大模型，總算揚(yáng)眉吐氣了一回。

　　近十年來，百度一向舍得在研發(fā)上砸錢。截至目前，百度已累計(jì)投入超過1800億元。

　　如今來看，真金白銀沒有白花。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信