作者|陶然 編輯|魏曉
to C業(yè)務狂飆大半年的Kimi,開始在B端發(fā)力了。
八月尚未過半,兩則直接關(guān)聯(lián)其商業(yè)化進程的消息,在市場中傳開:
二日,Kimi母公司月之暗面官宣Kimi企業(yè)級API正式發(fā)布。相較于覆蓋to C需求的通用模型,企業(yè)級模型推理API有著更高等級的數(shù)據(jù)安全保障和并發(fā)速率,用以支持企業(yè)內(nèi)部的復雜工作流和大規(guī)模的數(shù)據(jù)處理需求。
五天后,公司再次放出商業(yè)化動作,宣布Kimi開放平臺的上下文緩存Cache存儲費用降低50%,由10元/1M tokens/min降低至5元/1M tokens/min,價格生效時間為2024年8月7日。
這項技術(shù)實際上早在在7月1日就已通過開放平臺啟動公測,通過預存那些可能會被反復引用、頻繁請求的文本或數(shù)據(jù)等信息來給模型推理過程“降本增效”。
Kimi現(xiàn)今在B端謀求AI變現(xiàn)的動作,絕非此前應用內(nèi)上線“打賞功能灰度測試”那般仍有試探意味:
從企業(yè)級解決方案,到具體場景優(yōu)化,再到價格調(diào)整,月之暗面顯然是有備而來。
大模型應用,向錢看
圈內(nèi)關(guān)于大模型應用的立場,在技術(shù)落地日漸密集的2024年清晰分成了兩派。
七月初在上海舉行的世界人工智能大會(WAIC)上,手握目前國內(nèi)最大規(guī)模AI應用訪問量的百度CEO李彥宏在演講中談及了他對大模型應用的看法:C端當然要做,但大模型更有成果的應用場景仍在B端。
李彥宏認為,在AI時代,“超級能干”的應用,即那些能夠深刻影響產(chǎn)業(yè)、顯著提升應用場景效率的應用,其價值或許更為重大,它們所創(chuàng)造的整體價值遠超移動互聯(lián)網(wǎng)時代的某些“超級應用”。
未來在醫(yī)療、金融、教育、制造、交通、農(nóng)業(yè)等領域,都會依據(jù)自己的場景的特點、獨特經(jīng)驗、行業(yè)規(guī)則及數(shù)據(jù)資源等,定制化地開發(fā)出做出各種各樣的智能體。將來會有數(shù)以百萬量級的智能體出現(xiàn),形成龐大的智能體生態(tài)。
這種打法,可以算作現(xiàn)階段BAT等科技大廠的代表。
從硅星人統(tǒng)計的大模型相關(guān)項目中標情況來看,百度今年中標了包括醫(yī)療、金融、能源、環(huán)保和交通等多個領域的共計17個項目,其中不乏大型國企以及各行各業(yè)的頭部公司,金額也基本在百萬甚至千萬級別。
而初創(chuàng)公司代表,像百川智能王小川、月之暗面楊植麟,過去給外界的印象一直是堅定的to C支持者。
AI助手百小應的發(fā)布會上王小川就曾表示,to B業(yè)務并非百川主要仰賴的商業(yè)模式,在美國做to B是好生意,但國內(nèi)市場C端比B端“大十倍”。
月之暗面創(chuàng)始人楊植麟雖然沒有在公開場合過多談及公司的變現(xiàn),但也在幾個月前上海創(chuàng)新創(chuàng)業(yè)青年 50 人論壇的演講中表示,得益于Transformer架構(gòu)的提出、半導體產(chǎn)業(yè)發(fā)展,以及互聯(lián)網(wǎng)為AI積累下來的大量數(shù)據(jù),在世界上可能“第一次出現(xiàn)了這種 AI to C 的機會。”
對于是把Kimi做成to C的AI超級應用,還是把名號打響后多點布局,楊植麟留過活扣:我們to B倒也不是說完全不做,但是我們可能最主要的肯定還是會去聚焦和發(fā)力這個C端。
大概是研判時機已到,堅持to C許久的月之暗面,終于對to B“真香”了。
Kimi to B:技術(shù)和市場都已成熟
從最淺表的層面來說,做to B解決方案和之前在C端的Kimi相比,需要解決的首先一個問題就是:
對于付費玩家,你的服務器不能有事沒事就宕機。
算力規(guī)模是個繞不開的話題:月之暗面用一年時間,把Kimi干到了大模型賽道內(nèi)流量和使用量的頂流(部分統(tǒng)計顯示,七月份Kimi和文心一言是國內(nèi)唯二月活超過千萬的主流大模型),但畢竟仍是初創(chuàng)公司,資源比起大廠不會特別富裕是顯而易見的。
很少聽說文心一言、通義千問出現(xiàn)用戶高峰導致算力不足的情況,但經(jīng)常用Kimi的用戶想必或多或少都被算力墻擋住過幾個回合的問答(最近似乎好些了)。
而企業(yè)客戶如果將Kimi作為常用的生產(chǎn)力工具,那么企業(yè)級API的服務器就必須保證的穩(wěn)定性和可靠性,確保在高負載情況下可以正常運行。
結(jié)合此番降價的上下文緩存技術(shù)來看,除了隨著業(yè)務體量按需擴大服務器規(guī)模之外,Kimi將另一項中心放在了對現(xiàn)有模型推理的“降本增效”上。
這項技術(shù)的費用,通常是因平臺或服務提供商維護和提供緩存服務而對客戶收取。以網(wǎng)購類比,如果用戶經(jīng)常使用同一個購物網(wǎng)站、App,那么這個網(wǎng)站/App很可能就會在系統(tǒng)中單獨創(chuàng)建一個數(shù)據(jù)集,將用戶ID、購物車內(nèi)容、偏好設置信息存儲其中。
而在大模型的使用場景中,如果用戶向系統(tǒng)提交了一個請求,比如詢問一系列問題,或者給Kimi甩過去一篇萬字長文本要求生成報告,大模型在處理請求時就需要理解用戶的查詢上下文,包括之前的問題、相關(guān)話題或者某些領域的特定信息。
這部分推理出的中間結(jié)果和計算出的關(guān)鍵信息往往在用戶后續(xù)的問答中會被反復提及(調(diào)用),將他們緩存起來以便后續(xù)請求時可以快速訪問,是一個相對節(jié)省算力資源的選擇。
并非是瀏覽器那種為了方便用戶登錄而記錄用戶名和密碼,這種緩存首先降低的是模型反復閱讀、推理所消耗的資源量,對結(jié)果生成效率也會有一定程度提升。利用緩存的上下文信息,大模型可以快速生成響應或推薦內(nèi)容,而不需要從頭開始重新計算。從而對用戶提出相關(guān)問題或需要相關(guān)信息加速響應,減少浪費時間的等待。
這種有助于提高系統(tǒng)的響應速度和處理效率,同時保持對話或文本生成的連貫性和準確性的緩存機制,對于提供流暢的用戶體驗和優(yōu)化資源使用來說會相當關(guān)鍵。
尤其在未來可能面對來自B端、更多的用戶和更集中的數(shù)據(jù)處理請求時,快速響應并高效處理的價值可能進一步突出。
One More Thing
to B動作頻頻的月之暗面,近期還喜提一筆來自鵝廠的大額融資。
市場消息顯示,騰訊參與了月之暗面最新一輪3億美元融資,完成后將使得公司市值升至33億美元,成為國內(nèi)大模型初創(chuàng)企業(yè)中估值最高的一家。
月之暗面并未對此事做出回應,但據(jù)稱有接近騰訊方面的消息源表示參投屬實。
至此,被譽為“新AI四小龍”的智譜AI、MiniMax、百川智能和月之暗面,四家公司背后的投資陣營都已有了騰訊及阿里巴巴的參與。
BAT中百度更多選擇做好自己,AT則繼續(xù)通過創(chuàng)投多點下注。
初創(chuàng)公司忙于卷技術(shù)做應用,而大廠們似乎已經(jīng)將注意力的一部分,放在了投資回報率,亦或是未來行業(yè)格局的話語權(quán)上。
來源|AI藍媒匯 作者|陶然
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。