宏景智駕完成數(shù)億元C輪融資植物生長好幫手:廣明源金線蓮組培燈照亮生長每一步ROG純白系列DIY好物:簡約不失高雅,買它準沒錯!穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認證并投入市場安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產品成果大獎電動自行車強制性“國標”再修訂,綠源電動車以創(chuàng)新技術引領產業(yè)高質量發(fā)展輕松籌:十年深耕大健康領域,打造全方位健康保障生態(tài)面對承壓的小家電市場,小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機僅有iPad大小2024年冷年空調市場總結:規(guī)模下探,結構降級,空調行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經典配色!索尼發(fā)布30周年紀念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機型蓄勢待發(fā)云天勵飛“算力積木”架構:引領邊緣AI芯片新變革徹底告別3999元!小米15入網 支持90W快充
  • 首頁 > 云計算頻道 > 大模型

    Kimi首發(fā)“上下文緩存”技術,助推長文本大模型降本90%

    2024年07月02日 16:37:02   來源:中文科技資訊

      近日,月之暗面宣布 Kimi 開放平臺正式公測新技術——上下文緩存(Context Caching),該技術在 API 價格不變的前提下,可為開發(fā)者降低最高 90% 的長文本大模型使用成本,并且顯著提升模型的響應速度。

      據了解,月之暗面是國內首家面向開發(fā)者推出上下文緩存(Context Caching)技術的大模型公司。

      上下文緩存(Context Caching)技術的基本原理是,系統(tǒng)預先存儲那些可能會被頻繁請求的大量數(shù)據或信息。這樣,當用戶再次請求相同信息時,系統(tǒng)可以直接從緩存中快速提供,而無需重新計算或從原始數(shù)據源中檢索,從而節(jié)省時間和資源。

      上下文緩存(Context Caching)技術可以帶來降本和提速兩大價值。首先,通過緩存重復性輸入的大量數(shù)據,對于公共上下文僅收取一次費用,上下文緩存(Context Caching)技術大大降低了開發(fā)者使用長文本旗艦大模型的成本,最高可降本達 90%。其次,上下文緩存(Context Caching)技術還有助于提升大模型API的響應速度,實測可將 128K 長文本大模型的首 token 延遲降低 83% 左右,從平均 30 秒左右降低到平均 5 秒內。

      在長上下文和高負載的業(yè)務場景上,上下文緩存帶來的降本和提速效果尤為顯著。常見場景包括提供大量預設內容的問答機器人,例如 Kimi API 小助手;針對固定的文檔集合的頻繁查詢,例如上市公司信息披露問答工具;對靜態(tài)代碼庫或知識庫的周期性分析,例如各類 Copilot Agent;瞬時流量巨大的爆款 AI 應用,例如哄哄模擬器;交互規(guī)則復雜的 Agent 類應用,例如什么值得買的 Kimi+ 等。

      以常見的固定文檔大量提問場景為例。某硬件產品說明書大概 9萬字,換算 Tokens 長度大概 64K,該產品售前支持人員需要在 10 分鐘內,密集對產品的功能/使用方式進行 40 次問答,每次的問題大概 100 個字,要求模型的輸出需要基于產品說明書來回答,回答問題在 120 字以內。

      按照大模型問答的 Tokens 計算邏輯,售前支持人員需要每次向模型輸入的 Tokens =文檔 Tokens +問題 Tokens,10 分鐘內 40 次的問答共計需要消耗 Tokens 2.56 M,128k 模型價格為 60元/M,預計原始花費需要 153.84 元。若該場景接入上下文緩存(Context Caching)技術:9萬字的文檔只收取一次創(chuàng)建 Cache 和存儲 10 分鐘 Cache 的費用,10分鐘內的40次提問,將只收取問題的 100 字+ 回答的 120 字的費用,預計花費 11.88 元。節(jié)省了 141.95 元,相當于費用降低 90% 左右。

      響應速度方面,以128k模型的一次4萬字(約30k tokens)的推理請求為例。通常向模型提問,平均要 30 秒返回首 Token。接入上下文緩存技術后,最快可 1 秒內完成首 Token 返回。經過大量測試,接入上下文緩存功能后,128k 模型的首 Token 延遲平均可降至 5 秒內,降低了 83%左右。

      需要注意的是,上述測試效果基于 1 token = 1~1.5個文字和字符,使用 128k 模型進行測算。具體的效果根據業(yè)務情況/模型選擇不同,會有略微差別。

      上下文緩存(Context Caching)技術在公測期間將首先提供給 Kimi 開放平臺的 Tier5 等級開發(fā)者,后續(xù)陸續(xù)增大開發(fā)者公開測試范圍。

      Kimi 大模型目前已接入了釘釘、扣子等平臺,用戶或開發(fā)者可以在這些平臺選用 Kimi 大模型,借助出色的長文本和指令遵循能力搭建個性化的智能體應用。Kimi 開放平臺的開發(fā)者注冊量自從今年 2 月份以來復合增長率超過 175%,在投研服務、法律盡調、企業(yè)知識庫問答、輔助軟件開發(fā)等場景獲得廣泛應用。近期,Kimi 開放平臺陸續(xù)上線了工具調用(Tool Use)、Partial Mode、上下文緩存(Context Caching)等能力,持續(xù)幫助開發(fā)者高效打造更有想象力的AI 應用。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    [No. X039-1]
    分享到微信

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。