QQ音樂年度聽歌報(bào)告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫的應(yīng)許之地?深扒一個(gè)正被游戲行業(yè)「搶占」的流量帝國百思買重新進(jìn)軍跨境電商領(lǐng)域視頻生成大模型賽道,只是看上去擁擠GGII:預(yù)計(jì)2024年中國工業(yè)機(jī)器人全年銷量約30萬臺(tái),同比下滑5%左右冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺(tái)灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點(diǎn)京東iPhone 16系列年底大放價(jià)!至高補(bǔ)貼1200元價(jià)格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動(dòng)“萬象分區(qū)”引領(lǐng)電視行業(yè)新潮流,TCL這步棋下得著實(shí)漂亮!百度職業(yè)院校專屬項(xiàng)目“大國智匠”引領(lǐng)職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設(shè)計(jì)大賽,全國高校學(xué)子展現(xiàn)卓越編程實(shí)力碼蹄杯人物特寫:四位編程少年的追夢(mèng)之旅金倉數(shù)據(jù)庫四項(xiàng)成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會(huì) CTO歐陽曄博士等做主題演講
  • 首頁 > 云計(jì)算頻道 > 大模型

    Kimi首發(fā)“上下文緩存”技術(shù),助推長文本大模型降本90%

    2024年07月02日 16:37:02   來源:中文科技資訊

      近日,月之暗面宣布 Kimi 開放平臺(tái)正式公測(cè)新技術(shù)——上下文緩存(Context Caching),該技術(shù)在 API 價(jià)格不變的前提下,可為開發(fā)者降低最高 90% 的長文本大模型使用成本,并且顯著提升模型的響應(yīng)速度。

      據(jù)了解,月之暗面是國內(nèi)首家面向開發(fā)者推出上下文緩存(Context Caching)技術(shù)的大模型公司。

      上下文緩存(Context Caching)技術(shù)的基本原理是,系統(tǒng)預(yù)先存儲(chǔ)那些可能會(huì)被頻繁請(qǐng)求的大量數(shù)據(jù)或信息。這樣,當(dāng)用戶再次請(qǐng)求相同信息時(shí),系統(tǒng)可以直接從緩存中快速提供,而無需重新計(jì)算或從原始數(shù)據(jù)源中檢索,從而節(jié)省時(shí)間和資源。

      上下文緩存(Context Caching)技術(shù)可以帶來降本和提速兩大價(jià)值。首先,通過緩存重復(fù)性輸入的大量數(shù)據(jù),對(duì)于公共上下文僅收取一次費(fèi)用,上下文緩存(Context Caching)技術(shù)大大降低了開發(fā)者使用長文本旗艦大模型的成本,最高可降本達(dá) 90%。其次,上下文緩存(Context Caching)技術(shù)還有助于提升大模型API的響應(yīng)速度,實(shí)測(cè)可將 128K 長文本大模型的首 token 延遲降低 83% 左右,從平均 30 秒左右降低到平均 5 秒內(nèi)。

      在長上下文和高負(fù)載的業(yè)務(wù)場(chǎng)景上,上下文緩存帶來的降本和提速效果尤為顯著。常見場(chǎng)景包括提供大量預(yù)設(shè)內(nèi)容的問答機(jī)器人,例如 Kimi API 小助手;針對(duì)固定的文檔集合的頻繁查詢,例如上市公司信息披露問答工具;對(duì)靜態(tài)代碼庫或知識(shí)庫的周期性分析,例如各類 Copilot Agent;瞬時(shí)流量巨大的爆款 AI 應(yīng)用,例如哄哄模擬器;交互規(guī)則復(fù)雜的 Agent 類應(yīng)用,例如什么值得買的 Kimi+ 等。

      以常見的固定文檔大量提問場(chǎng)景為例。某硬件產(chǎn)品說明書大概 9萬字,換算 Tokens 長度大概 64K,該產(chǎn)品售前支持人員需要在 10 分鐘內(nèi),密集對(duì)產(chǎn)品的功能/使用方式進(jìn)行 40 次問答,每次的問題大概 100 個(gè)字,要求模型的輸出需要基于產(chǎn)品說明書來回答,回答問題在 120 字以內(nèi)。

      按照大模型問答的 Tokens 計(jì)算邏輯,售前支持人員需要每次向模型輸入的 Tokens =文檔 Tokens +問題 Tokens,10 分鐘內(nèi) 40 次的問答共計(jì)需要消耗 Tokens 2.56 M,128k 模型價(jià)格為 60元/M,預(yù)計(jì)原始花費(fèi)需要 153.84 元。若該場(chǎng)景接入上下文緩存(Context Caching)技術(shù):9萬字的文檔只收取一次創(chuàng)建 Cache 和存儲(chǔ) 10 分鐘 Cache 的費(fèi)用,10分鐘內(nèi)的40次提問,將只收取問題的 100 字+ 回答的 120 字的費(fèi)用,預(yù)計(jì)花費(fèi) 11.88 元。節(jié)省了 141.95 元,相當(dāng)于費(fèi)用降低 90% 左右。

      響應(yīng)速度方面,以128k模型的一次4萬字(約30k tokens)的推理請(qǐng)求為例。通常向模型提問,平均要 30 秒返回首 Token。接入上下文緩存技術(shù)后,最快可 1 秒內(nèi)完成首 Token 返回。經(jīng)過大量測(cè)試,接入上下文緩存功能后,128k 模型的首 Token 延遲平均可降至 5 秒內(nèi),降低了 83%左右。

      需要注意的是,上述測(cè)試效果基于 1 token = 1~1.5個(gè)文字和字符,使用 128k 模型進(jìn)行測(cè)算。具體的效果根據(jù)業(yè)務(wù)情況/模型選擇不同,會(huì)有略微差別。

      上下文緩存(Context Caching)技術(shù)在公測(cè)期間將首先提供給 Kimi 開放平臺(tái)的 Tier5 等級(jí)開發(fā)者,后續(xù)陸續(xù)增大開發(fā)者公開測(cè)試范圍。

      Kimi 大模型目前已接入了釘釘、扣子等平臺(tái),用戶或開發(fā)者可以在這些平臺(tái)選用 Kimi 大模型,借助出色的長文本和指令遵循能力搭建個(gè)性化的智能體應(yīng)用。Kimi 開放平臺(tái)的開發(fā)者注冊(cè)量自從今年 2 月份以來復(fù)合增長率超過 175%,在投研服務(wù)、法律盡調(diào)、企業(yè)知識(shí)庫問答、輔助軟件開發(fā)等場(chǎng)景獲得廣泛應(yīng)用。近期,Kimi 開放平臺(tái)陸續(xù)上線了工具調(diào)用(Tool Use)、Partial Mode、上下文緩存(Context Caching)等能力,持續(xù)幫助開發(fā)者高效打造更有想象力的AI 應(yīng)用。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. X039-1]
    分享到微信

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。