繼通用大模型的價(jià)格以厘計(jì)算之后,字節(jié)再次將多模態(tài)大模型帶入“厘時(shí)代”。
在2024年12月18日舉辦的火山引擎 Force 大會(huì)上,字節(jié)跳動(dòng)正式發(fā)布發(fā)布豆包·視覺(jué)理解模型。同時(shí)公布其售價(jià)為千tokens輸入0.003元,相當(dāng)于一元錢(qián)就可處理284張720P的圖片。
對(duì)比claude 3.5 Sonnet的0.021元/千tokens,qwen-vl-max的0.02元/千tokens,GPT-4o的0.0175元/千tokens,豆包視覺(jué)理解模型比行業(yè)價(jià)格便宜85%。
而在此之前的5月份,字節(jié)跳動(dòng)發(fā)布的豆包大模型,其主力模型在企業(yè)市場(chǎng)的定價(jià)為0.0008元/千Tokens,0.8厘能處理1500多個(gè)漢字,比行業(yè)便宜99.3%,讓大模型從以分計(jì)價(jià)到以厘計(jì)價(jià)。
這一操作迫使阿里云的三款通義千問(wèn)主力模型再次降價(jià),最高降幅達(dá)90%。百度智能云更是直接宣布,文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費(fèi)。
不到一年半的時(shí)間,字節(jié)是如何做到在AI大模型市場(chǎng)后來(lái)居上?多模態(tài)大模型又發(fā)展到了哪一步?未來(lái)大模型技術(shù)在應(yīng)用側(cè)的新趨勢(shì)會(huì)是什么?
一、“卷王”豆包后來(lái)居上?
2023年是國(guó)產(chǎn)大模型“大爆發(fā)”的一年。
自去年3月起,眾多大廠及創(chuàng)新型企業(yè)紛紛亮出自研大模型產(chǎn)品:阿里通義千問(wèn)1.0、騰訊混元、360智腦、華為盤(pán)古、科大訊飛星火、商湯日日新、百川大模型以及智譜AI的GLM等,均誕生于這一年。
作為AI起步較晚的選手,字節(jié)在去年1月才成立大模型研發(fā)團(tuán)隊(duì),8月才發(fā)布“云雀”大模型和對(duì)外測(cè)試AI對(duì)話(huà)產(chǎn)品“豆包”。
國(guó)內(nèi)大模型發(fā)展時(shí)間線(xiàn) 圖源:第一新聲
盡管來(lái)得晚,但架不住人家漲得快。
據(jù)量子位智庫(kù)數(shù)據(jù)顯示,截至11月底,豆包2024年的累計(jì)用戶(hù)規(guī)模已超過(guò)1.6億;11月平均每天有80萬(wàn)新用戶(hù)下載豆包,單日活躍用戶(hù)近900萬(wàn),僅次于OpenAI的ChatGPT,位列全球第二、國(guó)內(nèi)第一。
而今年5月發(fā)布的豆包通用大模型,據(jù)字節(jié)跳動(dòng)對(duì)外公布的數(shù)據(jù)顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過(guò)4萬(wàn)億,較七個(gè)月前首次發(fā)布時(shí)增長(zhǎng)了33倍。
“豆包”能有這樣增長(zhǎng),離不開(kāi)字節(jié)這個(gè)“卷王”的大力推動(dòng)。
首先就是卷流量。
據(jù)App Growing統(tǒng)計(jì),截至11月15日,Kimi、豆包、星野等國(guó)內(nèi)十款大模型產(chǎn)品,合計(jì)已投放超625萬(wàn)條廣告,投放金額達(dá)15億元。其中,Kimi和豆包是投放最瘋狂的兩個(gè)產(chǎn)品,分別投放了5.4億元和4億元。
圖源:App Growing
當(dāng)下,花錢(qián)投流買(mǎi)量是AI產(chǎn)品啟動(dòng)一個(gè)最直接快捷的方式。而在各家的投放渠道中,基本都離不開(kāi)字節(jié)的巨量引擎(字節(jié)跳動(dòng)旗下廣告投放平臺(tái),涵蓋今日頭條、抖音、西瓜視頻等營(yíng)銷(xiāo)資源)。
這使得背靠字節(jié)的豆包將流量池的優(yōu)勢(shì)發(fā)揮到了極致。在抖音上,字節(jié)幾乎屏蔽了除豆包以外所有AI應(yīng)用的投放,只留給自家的豆包。盡管重金投流能否換來(lái)超級(jí)應(yīng)用無(wú)法確定,但至少目前給豆包帶來(lái)了肉眼可見(jiàn)的用戶(hù)增長(zhǎng)。
其次是卷產(chǎn)品。
從聊天助手、視頻工具,到娛樂(lè)應(yīng)用、辦公領(lǐng)域,字節(jié)陸續(xù)推出了十幾個(gè) AI 應(yīng)用,覆蓋了幾乎所有主要 AI 產(chǎn)品方向。字節(jié)今年10月還推出了能與豆包語(yǔ)音對(duì)話(huà)的 Ola Friend 耳機(jī),近期還在研發(fā) AI 眼鏡。
這樣飽和式的研發(fā),一方面能讓豆包大模型依托諸多AI應(yīng)用加速迭代,另一方面則是期待AI硬件終端能拓寬豆包大模型使用場(chǎng)景,進(jìn)而實(shí)現(xiàn)整個(gè)“豆包+”產(chǎn)業(yè)鏈閉環(huán)。
此外,豆包也在卷場(chǎng)景,以期在應(yīng)用層面多點(diǎn)開(kāi)花。
據(jù)了解,豆包大模型已經(jīng)與八成主流汽車(chē)品牌合作,并接入到多家手機(jī)、PC等智能終端,覆蓋終端設(shè)備約3億臺(tái),來(lái)自智能終端的豆包大模型調(diào)用量在半年時(shí)間內(nèi)增長(zhǎng)100倍。而最近3個(gè)月,豆包大模型在信息處理場(chǎng)景的調(diào)用量增長(zhǎng)了39倍,客服與銷(xiāo)售場(chǎng)景增長(zhǎng)16倍,硬件終端場(chǎng)景增長(zhǎng)13倍,AI工具場(chǎng)景增長(zhǎng)9倍,學(xué)習(xí)教育等場(chǎng)景也有大幅增長(zhǎng)。
可以說(shuō),豐富的內(nèi)部生態(tài)、持續(xù)的資源投入、龐大的優(yōu)質(zhì)數(shù)據(jù)和應(yīng)用場(chǎng)景,且都全面接入AI并相互打通,這才是豆包能成為行業(yè)“卷王”的秘訣。
二、下半場(chǎng)開(kāi)始比拼多模態(tài)
自 OpenAI 推出 Sora,讓“一句話(huà)生成視頻”變成可能;谷歌發(fā)布 Gemini ,可以泛化并無(wú)縫地理解、操作和組合不同類(lèi)型的信息,國(guó)內(nèi)主要公司就開(kāi)始陸續(xù)跟進(jìn)、布局視頻、音樂(lè)、語(yǔ)音等多模態(tài) AI 應(yīng)用。
例如,今年5月開(kāi)始,生數(shù)科技Vidu、快手可靈、字節(jié)即夢(mèng)、智譜清影、商湯Vimi等都相繼發(fā)布文生視頻模型;9月,MiniMax正式發(fā)布視頻模型video-01、阿里云在云棲大會(huì)上發(fā)布通義萬(wàn)相全新視頻生成模型、美圖宣布MiracleVision大模型完成視頻生成能力的升級(jí);到了11月,騰訊混元大模型正式上線(xiàn)視頻生成能力,月之暗面旗下Kimi則被爆出正在內(nèi)測(cè)AI視頻生成功能“Kimi創(chuàng)作空間”......多模態(tài)的“多”正在成為新的發(fā)展方向。
通過(guò)騰訊元寶APP-AI應(yīng)用-AI視頻即可使用該功能 圖源:騰訊優(yōu)圖實(shí)驗(yàn)室
而此次火山引擎發(fā)布的豆包·視覺(jué)理解模型,據(jù)介紹,主要能力包括:
更強(qiáng)的內(nèi)容識(shí)別能力:不僅可以識(shí)別出圖像中的物體類(lèi)別、形狀等基本要素,還能理解物體之間的關(guān)系、空間布局以及場(chǎng)景的整體含義。
更強(qiáng)的理解和推理能力:不僅能更好地識(shí)別內(nèi)容,還能根據(jù)所識(shí)別的文字和圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算。
更細(xì)膩的視覺(jué)描述能力:可以基于圖像信息,更細(xì)膩地描述圖像呈現(xiàn)的內(nèi)容,還能進(jìn)行多種文體的創(chuàng)作。
繼 GPT-4 在語(yǔ)言方向的里程碑式突破之后,業(yè)界普遍認(rèn)為“視覺(jué)”是下一個(gè)爆發(fā)的賽道。畢竟人類(lèi)的五感之中有 80% 是視覺(jué)信息,未來(lái)的大模型也應(yīng)該充分利用更多種類(lèi)的感官,以此探索實(shí)現(xiàn) AGI 的路徑。
火山引擎總裁譚待也在采訪(fǎng)中表示,推出視覺(jué)理解模型相當(dāng)于解鎖了一個(gè)很大的場(chǎng)景,同過(guò)去只有文字對(duì)話(huà)形式的AI相比,聊天功能與深度推理的、圖像視覺(jué)理解等能力的融合,能讓模型有能力處理好真實(shí)世界大量綜合性的信息,輔助人類(lèi)完成一系列復(fù)雜工作。
比如,在旅游場(chǎng)景中,幫助游客看外文菜單、講解照片中建筑的背景知識(shí);在教育場(chǎng)景中,為學(xué)生優(yōu)化作文、科普知識(shí);在辦公場(chǎng)景下,除了識(shí)別內(nèi)容,模型還能幫助用戶(hù)分析圖表中的數(shù)據(jù)關(guān)系,處理代碼邏輯。
豆包·視覺(jué)理解模型教育場(chǎng)景應(yīng)用案例 圖源:火山引擎 Force 大會(huì)
此外,火山引擎除了推出視覺(jué)理解模型之外,還發(fā)布、升級(jí)了多個(gè)其他模型。比如,豆包通用模型pro已全面對(duì)齊GPT-4o;音樂(lè)模型從生成60秒的簡(jiǎn)單結(jié)構(gòu),升級(jí)到生成3分鐘的完整作品;文生圖模型2.1版本接入即夢(mèng)AI和豆包App......
可以看出,盡管相比于市場(chǎng)同類(lèi)產(chǎn)品,豆包系列大模型發(fā)布的時(shí)間并不算早,但一直保持著較快速度的更新,并且將最新能力通過(guò)即夢(mèng)AI、豆包App等應(yīng)用,迅速開(kāi)放給了普通用戶(hù)使用。
而當(dāng)下,AI 市場(chǎng)關(guān)注的重心正逐漸從“大模型”轉(zhuǎn)變到“大模型+”。除了常規(guī)的 AI 文本對(duì)話(huà)類(lèi)應(yīng)用,多模態(tài)的“多”正在成為新的方向。
三、大模型到了該“驗(yàn)收”的時(shí)候
在2024世界人工智能大會(huì)上,百度創(chuàng)始人李彥宏在演講中提到,“2023年國(guó)內(nèi)出現(xiàn)了百模大戰(zhàn),其實(shí)造成了社會(huì)資源的巨大浪費(fèi),尤其是算力的浪費(fèi)。”的確,無(wú)論是技術(shù)上的研發(fā)成本,還是應(yīng)用上的運(yùn)行成本,大模型的成長(zhǎng)每一步都少不了真金白銀的支持。
在行業(yè)回歸理性的今天,越來(lái)越多的AI企業(yè)意識(shí)到卷參數(shù)量、卷Token數(shù)、卷集群規(guī)模、卷價(jià)格,其實(shí)都意義不大,大模型的商業(yè)化落地才是最需要關(guān)注的問(wèn)題。
而按終端用戶(hù)類(lèi)型,AI大模型的商業(yè)模式可分為to C、to B。
to C:即面向個(gè)人消費(fèi)者,包括免費(fèi)和付費(fèi)訂閱模式。免費(fèi)模式如騰訊元寶、百度的文心一言(3.5版本);付費(fèi)訂閱模式如百度的文心一言(4.0版本)、OpenAI的ChatGPT(4.0版本);
to B:即面向企業(yè),包括API調(diào)用授權(quán)、SaaS模式。API調(diào)用授權(quán)模式中,企業(yè)客戶(hù)可在自己的應(yīng)用程序或服務(wù)中集成AI功能,通常基于調(diào)用次數(shù)或數(shù)據(jù)量來(lái)計(jì)費(fèi),如阿里通義千問(wèn)、智譜AI;SaaS模式中,大模型企業(yè)為客戶(hù)提供軟件服務(wù),客戶(hù)無(wú)需安裝和維護(hù)軟件,如Google Cloud AI。在實(shí)際應(yīng)用中,大模型企業(yè)通;旌鲜褂枚喾N商業(yè)模式。
當(dāng)下多模態(tài)大模型競(jìng)爭(zhēng)火熱,將帶動(dòng)諸多行業(yè)重塑生產(chǎn)環(huán)節(jié),勢(shì)必會(huì)在以下幾個(gè)領(lǐng)域引發(fā)新一輪的升級(jí)與角逐:
影音創(chuàng)作:當(dāng)大模型由單模態(tài)生成轉(zhuǎn)向多模態(tài)生成,AIGC應(yīng)用降低了專(zhuān)業(yè)創(chuàng)作門(mén)檻,這將改變影音傳媒行業(yè)的生產(chǎn)模式,塑造全新內(nèi)容生產(chǎn)范式,實(shí)現(xiàn)創(chuàng)作效率提升、創(chuàng)作空間拓展及作品質(zhì)量提升的目標(biāo)。
情緒智能:基于最新的AI模型如GPT-4o和Gemini 1.5 Pro,未來(lái)AI陪伴將通過(guò)流式語(yǔ)音識(shí)別、多模態(tài)AI和情感計(jì)算等技術(shù)極大地提升互動(dòng)體驗(yàn)。這意味著多模態(tài)大模型將賦予機(jī)器情感價(jià)值,并通過(guò)深度分析用戶(hù)的情感和行為,滿(mǎn)足用戶(hù)的多元化陪伴訴求。
工業(yè)智造:未來(lái)多模態(tài)大模型有望與當(dāng)前普遍使用的專(zhuān)用小模型互補(bǔ)融合,深度賦能工業(yè)制造的各個(gè)環(huán)節(jié),并隨著場(chǎng)景數(shù)據(jù)的整合和積累,進(jìn)一步升級(jí)感知和理解能力,以滿(mǎn)足生產(chǎn)制造中的個(gè)性化需求,從而推動(dòng)工業(yè)產(chǎn)業(yè)變革。
總之,現(xiàn)如今AI領(lǐng)域的競(jìng)爭(zhēng)核心,已經(jīng)從大模型的“有無(wú)之戰(zhàn)”變成了“應(yīng)用之戰(zhàn)”。在這個(gè)階段里,比拼的不再是宏觀概念,而是落地能力和商業(yè)化的進(jìn)展。
隨著國(guó)內(nèi)大模型持續(xù)迭代與升級(jí),疊加國(guó)內(nèi)GPU供應(yīng)問(wèn)題逐步緩解、政策牽引等,國(guó)內(nèi)大模型訓(xùn)推算力需求有望逐步釋放,這不僅將為大模型的落地應(yīng)用進(jìn)一步提速,也將給AI時(shí)代帶來(lái)新的行業(yè)機(jī)遇。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
根據(jù)2月底內(nèi)部溝通會(huì)上的消息,在美團(tuán)發(fā)展的第二個(gè)十年,“科技”成了公司創(chuàng)始人兼CEO王興會(huì)更多關(guān)注的方向之一。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線(xiàn)上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。