AI 競(jìng)爭(zhēng)進(jìn)入白熱化階段。這次,輪到百度給自家大模型上強(qiáng)度。
剛剛,百度一口氣官宣了兩款大模型,分別是文心大模型 X1和文心大模型4.5。
那么,這兩款大模型有啥區(qū)別呢?
這么說吧,文心 X1是一款深度思考模型,具備更強(qiáng)的理解、規(guī)劃、反思、進(jìn)化能力,并支持多模態(tài),尤其是多工具調(diào)用,更是它的一大特色。
而文心4.5號(hào)稱新一代原生多模態(tài)基礎(chǔ)大模型,最擅長(zhǎng)的就是多模態(tài)理解,語言能力也更精進(jìn)。
相比于之前版本,文心4.5不僅在理解、生成、邏輯、記憶能力方面上了一個(gè)臺(tái)階,還在去幻覺、邏輯推理、代碼能力上有了全面提升。
目前,這兩款模型已在文心一言官網(wǎng)、百度搜索、文小言 APP 等產(chǎn)品上線。(體驗(yàn)網(wǎng)址:https://yiyan.baidu.com/)
最關(guān)鍵的是,它們?nèi)济赓M(fèi)!
要知道,前段時(shí)間百度還對(duì)外宣布,文心一言將從2025年4月1日0時(shí)起開始全面免費(fèi)。
沒想到,這次百度直接將這個(gè)時(shí)間點(diǎn)提前了整整半個(gè)月。
同時(shí),這兩款模型的 API 價(jià)格也已出爐。
開發(fā)者現(xiàn)可在百度智能云千帆大模型平臺(tái)上直接調(diào)用文心大模型4.5API,輸入價(jià)格低至0.004元 / 千 tokens,輸出價(jià)格低至0.016元 / 千 tokens;文心大模型 X1也即將在千帆平臺(tái)上線,輸入價(jià)格低至0.002元 / 千 tokens,輸出價(jià)格低至0.008元 / 千 tokens。
百度之所以能把文心 X1模型的 API 價(jià)格打下來,是因?yàn)樗麄兺ㄟ^飛槳和文心聯(lián)合優(yōu)化,實(shí)現(xiàn)從壓縮、推理、服務(wù)部署的全鏈路極致調(diào)優(yōu),大幅降低文心 X1推理成本。
具體來說,模型壓縮方面,通過分塊 Hadamard 量化、面向長(zhǎng)序列的注意力機(jī)制量化等實(shí)現(xiàn)深度壓縮;推理引擎方面,通過低精度高性能算子優(yōu)化、動(dòng)態(tài)自適應(yīng)投機(jī)解碼、神經(jīng)網(wǎng)絡(luò)編譯器實(shí)現(xiàn)推理加速。系統(tǒng)層面,通過框架和芯片協(xié)同優(yōu)化、分離式部署架構(gòu)、高效資源調(diào)度實(shí)現(xiàn)系統(tǒng)級(jí)優(yōu)化。
一手評(píng)測(cè)
俗話說得好,是騾子是馬,還得拉出來遛遛。
接下來,我們將從多模態(tài)理解、文本創(chuàng)作、邏輯推理以及工具調(diào)用等多個(gè)維度,對(duì)這倆大模型來一波真刀真槍的實(shí)戰(zhàn)。
文心 X1:會(huì)腦筋急轉(zhuǎn)彎,還能調(diào)動(dòng)多個(gè)工具
作為百度最新深度思考模型,文心 X1有三大絕活:嘴毒(敢銳評(píng))、腦子好使(推理能力強(qiáng)),而且善用工具(多工具調(diào)用)。
相較于之前版本,文心 X1顯得叛逆得多。它不愿做「端水大師」,遇事總是直言不諱,有觀點(diǎn)有態(tài)度。
比如我們讓它用貼吧的口吻,銳評(píng)一下小紅書、知乎、微博和貼吧。
它一上來就毫不客氣,怒噴小紅書是《人類高質(zhì)量裝 X 指南》,知乎整天標(biāo)榜精英范兒,微博熱搜天天吵得像菜市場(chǎng),貼吧則是人均鍵盤俠。
之所以說文心 X1腦子好使,是因?yàn)樗倪壿嬐评砟芰τ辛孙@著提升,甚至還「懂」腦筋急轉(zhuǎn)彎的奇葩腦回路。
比如「狐貍為什么容易摔跤」,它既能從科學(xué)的角度進(jìn)行解釋,還能識(shí)別出背后的諧音梗。
要說文心 X1最大的特色,便是能調(diào)用多種工具。
我們只需在聊天框開啟「聯(lián)網(wǎng)搜索」和「調(diào)用工具」兩個(gè)按鈕,就能一下子綜合高級(jí)搜索、文檔問答、圖片理解、AI 繪圖、代碼解釋器、百度學(xué)術(shù)檢索、商業(yè)信息查詢等工具。
舉個(gè)例子。
我們上傳一張?zhí)鹌返恼掌,然后讓它介紹制作工序,并生成一份 PDF 文件。
文心 X1接連調(diào)用了圖片理解、聯(lián)網(wǎng)搜索和代碼解釋器三個(gè)工具。
最終它真的生成了一份草莓藍(lán)莓煎餅塔詳細(xì)工序的 PDF 文檔。
文心 X1的完整回答
文心 X1生成的 PDF 文件名及內(nèi)容
文心4.5:學(xué)會(huì)了聽歌、看電影
如果說文心 X1更聰明的話,那么文心4.5就是更全能。
作為百度自主研發(fā)的新一代原生多模態(tài)基礎(chǔ)大模型,文心4.5不僅能看懂梗圖,還能識(shí)別音視頻。
前段時(shí)間 Grok3發(fā)布時(shí),馬斯克激動(dòng)地在 X 上發(fā)了張梗圖,對(duì)著谷歌、OpenAI 和 Meta 就是一頓貼臉開大。
我們就將這張梗圖丟給文心4.5,輸入 Prompt:這張圖片暗含著什么意思?
它敏銳捕捉到了圖片背后的幽默和諷刺含義:四只企鵝代表了大洋彼岸的四家科技巨頭,其中三只企鵝向 Grok 企鵝敬禮,暗示了 Grok 在某一階段處于領(lǐng)先優(yōu)勢(shì)。
對(duì)于大模型來說,識(shí)別梗圖早就不是什么新鮮事了,文心4.5最拿手的還得是音視頻的理解分析。
當(dāng)我們聽到一首喜歡的音樂,但就是死活想不起來歌名時(shí),我們只需錄一小段音頻,投喂給文心4.5,它就能給出這首歌的一切。
音樂,機(jī)器之心,3分鐘
同理,我們還可以上傳一段不超過20M 的視頻片段,讓它挖出背后各種八卦。
比如電影《聞香識(shí)女人》中這段經(jīng)典的舞蹈,文心4.5不僅識(shí)別出影片名字、女主飾演者,甚至連背景音樂都扒出來了。
弱智吧,江湖人稱「青龍山皇家療養(yǎng)院」,大模型智商高不高,就看能不能 hold 得住這些神題。
比如:為什么只有電信詐騙,沒有聯(lián)通詐騙呢?
文心4.5從術(shù)語的通用性聊到了歷史淵源,又從法律定義聊到了社會(huì)認(rèn)知,把這個(gè)略顯無厘頭的問題解釋得清清楚楚、明明白白。
此外,文心4.5在搜索方面也有了更大的進(jìn)步。
就拿最近大火的網(wǎng)絡(luò)熱!糕窝晕摹箒碚f,它找到了8條參考信源,除了百家號(hào)外,還包括新京報(bào)網(wǎng)、騰訊網(wǎng)等其他來源。
而且,文心4.5經(jīng)過分析總結(jié)給出回答后,還在末尾附上了相關(guān)視頻以供參考。
核心技術(shù)大揭秘
經(jīng)過實(shí)測(cè),我們可以看出百度最新發(fā)布的兩個(gè)模型已經(jīng)出現(xiàn)了質(zhì)的飛躍。
多項(xiàng)技術(shù)加持的文心 X1
最近一段時(shí)間,AI 圈焦點(diǎn)無疑是關(guān)于「Scaling Law 是否撞墻?」的討論,這個(gè)曾經(jīng)被視作大模型發(fā)展的第一性原理,如今卻遭遇了巨大挑戰(zhàn)。
面對(duì)大模型性能提升的邊際效益遞減問題,測(cè)試時(shí)計(jì)算(Test-Time Compute)、強(qiáng)化學(xué)習(xí)等策略成為一種有效的應(yīng)對(duì)方式。
百度在強(qiáng)化學(xué)習(xí)方面也下足了功夫,發(fā)布的推理模型文心 X1創(chuàng)新性地應(yīng)用了遞進(jìn)式強(qiáng)化學(xué)習(xí)訓(xùn)練方法。采用這種方法可以全面提升模型在創(chuàng)作、搜索、工具調(diào)用、推理等場(chǎng)景的綜合應(yīng)用能力。
比如上文我們體驗(yàn)的「輸入一張圖片,要求文心 X1根據(jù)提示輸出 PDF 格式的文件」,就離不開這種訓(xùn)練方式。
現(xiàn)階段,推理模型幾乎都采用了一種稱為思維鏈(Chain of Thought,CoT)的技術(shù),與傳統(tǒng)的直接從輸入到輸出的映射不同,思維鏈通過顯式展示中間推理過程,幫助模型更好地理解和解決復(fù)雜問題。
更進(jìn)一步的,文心 X1具備 “長(zhǎng)思維鏈”,采用了思維鏈和行動(dòng)鏈耦合的端到端訓(xùn)練方式。思維鏈?zhǔn)沟媚P驮诮鉀Q問題時(shí),一步一步寫下思考過程,就像我們做數(shù)學(xué)題時(shí),需要寫下解題步驟一樣。而行動(dòng)鏈?zhǔn)悄P驮谒伎歼^程中決定采取的行動(dòng),比如搜索信息、調(diào)用工具等。
在端到端訓(xùn)練中,文心 X1不是只學(xué)習(xí)思考或者只學(xué)習(xí)行動(dòng),而是把思考和行動(dòng)結(jié)合起來,通過這種方式,模型可以根據(jù)每次行動(dòng)的結(jié)果反饋,調(diào)整自己的思考和行動(dòng)策略,最終顯著提升在復(fù)雜任務(wù)中的表現(xiàn)。
最后,文心 X1還采用了多元統(tǒng)一的獎(jiǎng)勵(lì)系統(tǒng),這個(gè)系統(tǒng)就像一個(gè)「超級(jí)裁判」,用來評(píng)價(jià)模型做得好不好。這個(gè)「裁判」在評(píng)估過程中結(jié)合了多種不同的獎(jiǎng)勵(lì)機(jī)制,能夠從多個(gè)角度給模型反饋。這樣的話,模型在訓(xùn)練過程中就能得到更準(zhǔn)確、更可靠的指導(dǎo),為模型訓(xùn)練提供更加魯棒的反饋。
文心4.5用到的「法寶」
至于文心4.5,背后的技術(shù)也不容小覷。
首先是FlashMask 動(dòng)態(tài)注意力掩碼。FlashMask 是由百度飛槳團(tuán)隊(duì)在論文《FlashMask: Efficient and Rich Mask Extension of FlashAttention》中提出的一種創(chuàng)新的注意力掩碼優(yōu)化技術(shù),旨在解決 Transformer 類大模型中注意力掩碼計(jì)算的冗余和存儲(chǔ)開銷問題。FlashMask 通過列式稀疏掩碼表示方法,將傳統(tǒng)的二維稠密掩碼矩陣轉(zhuǎn)換為一維的行索引區(qū)間表示,從而顯著降低了存儲(chǔ)復(fù)雜度,從 O (N^2) 降低到 O (N)。極致的加速了大模型訓(xùn)練效率,尤其是長(zhǎng)序列場(chǎng)景下的訓(xùn)練效率。
相關(guān)論文已入選頂會(huì) ICLR2025。
其次就是多模態(tài)異構(gòu)專家擴(kuò)展技術(shù)。該技術(shù)是一種結(jié)合多模態(tài)數(shù)據(jù)處理與混合專家模型(MoE)的創(chuàng)新架構(gòu),旨在通過針對(duì)不同模態(tài)特點(diǎn)構(gòu)建的異構(gòu)專家模塊,解決多模態(tài)融合中的梯度不均衡問題,提升模型的多模態(tài)融合能力。多模態(tài)異構(gòu)專家擴(kuò)展技術(shù)在多個(gè)應(yīng)用場(chǎng)景中展現(xiàn)了顯著優(yōu)勢(shì),例如多模態(tài)問答任務(wù),這種技術(shù)能夠更高效地處理復(fù)雜的多模態(tài)數(shù)據(jù)。
文心4.5還采用了時(shí)空維度表征壓縮技術(shù),這是一種把圖片和視頻里的關(guān)鍵信息進(jìn)行濃縮的方法。在不丟失重要細(xì)節(jié)的情況下,在時(shí)空維度對(duì)圖片和視頻的語義表征進(jìn)行高效壓縮,讓這些數(shù)據(jù)變得更小、更高效。這樣一來,訓(xùn)練多模態(tài)模型(也就是同時(shí)處理文字、圖片、視頻等多種數(shù)據(jù)的模型)時(shí)就能更快、更省資源。
前文我們已經(jīng)提到,文心4.5幻覺問題得到了極大的提升,而這離不開百度采用的基于知識(shí)點(diǎn)的大規(guī)模數(shù)據(jù)構(gòu)建技術(shù)。知識(shí)分級(jí)采樣優(yōu)先把重要的、核心的知識(shí)挑出來,接著把挑出來的知識(shí)點(diǎn)進(jìn)行壓縮,去掉多余的部分,把相關(guān)的知識(shí)融合在一起。對(duì)于那些比較少見、不太好找的知識(shí)點(diǎn),專門合成一些相關(guān)內(nèi)容,確保這些重要的小眾知識(shí)也不會(huì)被遺漏。這樣一來,模型幻覺大大降低。
此外,文心4.5還用到了基于自反饋的 Post-training 技術(shù)。這是一種通過多種評(píng)估方式不斷優(yōu)化模型的后訓(xùn)練方法。簡(jiǎn)單來說,它讓模型在訓(xùn)練過程中不斷反思自己的表現(xiàn),根據(jù)不同的評(píng)價(jià)標(biāo)準(zhǔn)調(diào)整自己,從而讓模型變得更穩(wěn)定、更可靠。這種技術(shù)還能顯著提升預(yù)訓(xùn)練模型理解人類意圖的能力,讓模型的回答更符合人類的期望。
那么文心4.5與其他模型對(duì)比結(jié)果如何呢?
下圖展示了文心4.5與 GPT-4o 在多模態(tài)性能上的對(duì)比?梢钥闯觯男4.5在大多數(shù)測(cè)試基準(zhǔn)上的表現(xiàn)優(yōu)于 GPT-4o,尤其是在 OCRBench、MathVista、DocVQA 和 MVBench 上,兩者差距較為明顯。GPT-4o 僅在 MMMU 上的表現(xiàn)相對(duì)較好,但在其他基準(zhǔn)上的表現(xiàn)不如文心4.5。在平均值上,文心4.5的得分略高于 GPT-4o,顯示出文心4.5在整體性能上的優(yōu)勢(shì)。
下圖比較了四個(gè)不同模型(文心4.5、DeepSeek-V3-Chat、GPT-4o 和 GPT-4.5)在文本測(cè)試基準(zhǔn)上的性能對(duì)比。結(jié)果顯示文心4.5在大多數(shù)測(cè)試基準(zhǔn)上的表現(xiàn)優(yōu)于其他模型,尤其是在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基準(zhǔn)上。
RAG 相關(guān)技術(shù)
RAG 檢索增強(qiáng)生成(Retrieval Augmented Generation),已經(jīng)成為當(dāng)前最火熱的 LLM 應(yīng)用方案, 是衡量大模型優(yōu)劣的重要維度。
現(xiàn)在大模型在各種任務(wù)上雖然很強(qiáng)大,但也有缺點(diǎn),比如:幻覺現(xiàn)象導(dǎo)致 LLM 有時(shí)會(huì)「瞎編」一些不存在的信息;還有大模型掌握的信息并不是最新知識(shí),知識(shí)系統(tǒng)更新很慢;此外,生成的內(nèi)容缺乏透明度等一系列問題,導(dǎo)致大模型在實(shí)際應(yīng)用中并不是很理想。
RAG 通過檢索最新的、相關(guān)的知識(shí),解決了上述問題,讓生成的內(nèi)容更可靠、更準(zhǔn)確。
百度研發(fā)的「理解 - 檢索 - 生成」協(xié)同優(yōu)化檢索增強(qiáng)技術(shù),提升了大模型技術(shù)及應(yīng)用的效果,能夠生成準(zhǔn)確率更高、時(shí)效性更好的答案。而且,百度在 RAG 技術(shù)上具備中文深度理解、多模態(tài)檢索、垂直領(lǐng)域定制化以及實(shí)時(shí)數(shù)據(jù)整合能力等優(yōu)勢(shì),在中文互聯(lián)網(wǎng)、企業(yè)服務(wù)、政務(wù)醫(yī)療等場(chǎng)景中更具實(shí)用性和競(jìng)爭(zhēng)力。
此外,在國(guó)內(nèi)外主流大模型的 RAG 能力實(shí)測(cè)中,百度文心一言綜合表現(xiàn)最佳。
雖然傳統(tǒng)的 RAG 已經(jīng)基本解決了大模型在文本生成層面的幻覺問題,但在多模態(tài)領(lǐng)域,尤其是圖片生成領(lǐng)域,傳統(tǒng) RAG 已經(jīng)遠(yuǎn)遠(yuǎn)不夠用了。
比如,我們經(jīng)?吹缴傻膱D片出現(xiàn)明顯的邏輯錯(cuò)誤等問題。即使結(jié)果符合要求,但看上去也是一股 AI 味,這些問題嚴(yán)重影響了 AI 生成圖像的實(shí)用性和可信度。
正如百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏在百度世界2024大會(huì)上所提出的:「文字層面的 RAG 已經(jīng)做得很好,基本讓大模型消除了幻覺;但在圖像等多模態(tài)方面,和 RAG 的結(jié)合還不夠,這也是百度希望重點(diǎn)突破的方向!
在這種情況下,百度自研了一種檢索增強(qiáng)的文生圖技術(shù) iRAG(image based RAG),旨在解決傳統(tǒng)文生圖系統(tǒng)中常見的幻覺問題,提升生成圖像的準(zhǔn)確性和實(shí)用性。
在擁有億級(jí)的圖片資源和強(qiáng)大的基礎(chǔ)模型能力,百度 iRAG 將這些優(yōu)勢(shì)相結(jié)合,避免了傳統(tǒng)文生圖系統(tǒng)中一眼假的問題,生成的圖像不僅超真實(shí),還具備極高的準(zhǔn)確性和可靠性。
結(jié)語
這次,百度一口氣上線了兩款大模型,總算揚(yáng)眉吐氣了一回。
近十年來,百度一向舍得在研發(fā)上砸錢。截至目前,百度已累計(jì)投入超過1800億元。
如今來看,真金白銀沒有白花。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
根據(jù)2月底內(nèi)部溝通會(huì)上的消息,在美團(tuán)發(fā)展的第二個(gè)十年,“科技”成了公司創(chuàng)始人兼CEO王興會(huì)更多關(guān)注的方向之一。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。