OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號能穿十堵墻一加 Ace 5 Pro首發(fā)電競Wi-Fi芯片G1 帶來「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗電視市場又出黑馬!TCL同檔Mini LED音畫王P12K,萬象分區(qū)打造超強控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強者恒強?——《中國企業(yè)科創(chuàng)力研究報告(2024)》美團(tuán)年度報告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項功能華為官方翻新手機最高降價4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計:看過實車的人都喜歡這個設(shè)計林杰:未來 A 級、A0 級、A00 級車型都將是領(lǐng)克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬象分區(qū)、絢彩XDR、量子點Pro 2025齊出手,TCL引領(lǐng)觀影體驗新變革!QQ音樂年度聽歌報告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報告出爐2024年結(jié)束,哪里是原創(chuàng)動畫的應(yīng)許之地?深扒一個正被游戲行業(yè)「搶占」的流量帝國
  • 首頁 > 云計算頻道 > 大模型

    以搜索增強對抗幻覺,百川智能拿出了實現(xiàn)大模型商業(yè)化的最后一塊拼圖

    2023年12月21日 16:27:20   來源:微信公眾號 硅星人Pro

      本文來自于微信公眾號 硅星人Pro(ID:Si-Planet),作者:油醋。

      12月19日,百川智能宣布開放基于搜索增強的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo。這是9月末Baichuan2-53B第一次向外界打開API之后,百川智能在B端的進(jìn)一步動作。

      7月,以搜狗CMO身份加入這家大模型創(chuàng)業(yè)公司的洪濤,第一次與王小川同時出現(xiàn)在自己商業(yè)化產(chǎn)品的發(fā)布現(xiàn)場。這家在7月剛邁過100人的公司,現(xiàn)在快到200人規(guī)模。

      百川智能在B端的布局正在提速,搜索能力融入更深,并且具備長文本能力的Baichuan2-Turbo API比起前者有了更多的現(xiàn)實意義。

      金融、醫(yī)療等一些行業(yè)與大模型的需求已經(jīng)開始形成。統(tǒng)計顯示目前國內(nèi)超過超過230款的大模型群落里,有15%是服務(wù)于金融領(lǐng)域的。

      洪濤與客戶接觸下來的體驗是,B端經(jīng)常會遇到有客戶不知道大模型能做什么的情況,或者想象力大到超過了大模型的能力范圍。

      這本身是大模型自己的問題,它看起來有討論問題的能力,很多時候卻無法給出精確可靠的解決方案。人們期待它能獨自解決所有問題,對它的定義卻是空心的。缺少明確的角色定位,這讓大模型進(jìn)入實際場景時變得障礙重重,大模型本身幻覺和時效性的問題也凸顯出來。

      在王小川看來,搜索增強能力是大模型在企業(yè)落地的前提。但進(jìn)一步,搭配搜索增強能力之后,大模型在實際場景中需要一個更靈活的外接數(shù)據(jù)庫來做補充。

      此次與Baichuan2-Turbo系列的發(fā)布同時,百川智能發(fā)布了新的搜索增強知識庫能力,這意味著企業(yè)現(xiàn)在可以從私有化部署到云端把自己的知識上傳上來,做一個外掛的資料庫,跟Baichuan2大模型做對接,來為基礎(chǔ)大模型加入行業(yè)知識。但區(qū)別于原來的行業(yè)大模型,這種方式?jīng)]有對基礎(chǔ)大模型本身做訓(xùn)練,理論上是一個成本更低的方式,而在時效性上更靈活,也不會增加出現(xiàn)幻覺的概率。

      而從搜索增強能力注入到現(xiàn)在知識庫功能的上線,百川智能的在B端的商業(yè)化道路正式開始了。

      在長度與廣度里找平衡

      最近Andrej Karpathy的一番言論,似乎重新定義了“幻覺”。

      Andrej Karpathy是OpenAI的創(chuàng)始人之一。他在人工智能領(lǐng)域地位頗高,也是特斯拉前 AI 總監(jiān),他在今年2月從特斯拉回歸OpenAI。Karpathy近日發(fā)推表達(dá)了一種觀點:大語言模型的全部工作恰恰就是制造幻覺,大模型就是“造夢機”。

      “大模型就是在做夢,這是幻覺問題的原因。相比之下搜索引擎完全不做夢,所以它存在創(chuàng)造力問題——因為它的邏輯是根據(jù)輸入的提示,直接返回其數(shù)據(jù)庫中最相似的“訓(xùn)練文檔”,也就是說它永遠(yuǎn)不會提供新的回應(yīng)。”

      如何定義幻覺,在理論層面仍然是一個開放問題,但可以確認(rèn)的是,ToB不喜歡幻覺。

      金融、醫(yī)療和法律這些相對明確的AI實踐場景需要極高的嚴(yán)謹(jǐn)性,而這種嚴(yán)謹(jǐn)又建立在巨大的文本體量上——研報、醫(yī)療報告或者法律卷宗。在這些大模型最先探入的場景里,避免幻覺有一個隱形的前提條件,是要在輸入和輸出兩端上下文長度和知識廣度之間找到平衡。

      如果將大模型+搜索增強看作是大模型時代的新計算機,那么大模型類似于計算機的CPU,通過預(yù)訓(xùn)練將知識內(nèi)化在模型內(nèi)部,然后根據(jù)用戶的Prompt生成結(jié)果;上下文窗口可以看做計算機的內(nèi)存,存儲了當(dāng)下正在處理的文本;互聯(lián)網(wǎng)實時信息與企業(yè)完整知識庫共同構(gòu)成了大模型時代的硬盤。

      這次Baichuan2Turbo系列API的發(fā)布背后,一個完整的延續(xù)著相似邏輯的大模型技術(shù)棧逐漸搭建完成。

      王小川第一次提出類似技術(shù)棧的思路,是在今年7月:

      “講個最簡單的例子,做模型肯定會遇到幻覺問題,時效性問題;糜X和時效性都是光靠大模型本身能解決的。有人用擴大參數(shù),擴大到萬億,十萬億來解決幻覺;或者用強化學(xué)習(xí)。但其實最直接的做法就是把搜索和信息檢索帶進(jìn)去。大模型和這些結(jié)合在一塊,才能形成一個更完整的技術(shù)棧。”

      他認(rèn)為現(xiàn)在美國對于應(yīng)用層比較迷茫,中國現(xiàn)在的問題是模型能力不足。今天很多做模型的創(chuàng)業(yè)公司,也是把自己的視角局限在大模型上,對其它技術(shù)棧沒那么了解。那時候的百川智能剛剛發(fā)布了130億參數(shù)開源大模型Baichuan-13B。

      這之后,這家大模型公司的整體進(jìn)展或許可以描述成對這整個技術(shù)棧的補全。

      今年8月王小川第一次在Baichuan-53B身上提出了搜索增強的概念。Baichuan模型中的搜索增強系統(tǒng)融合了包括指令意圖理解、智能搜索和結(jié)果增強等關(guān)鍵組件的多個模塊,并且王小川表示,相比其他大模型的檢索增強,“(Baichuan-53B中)搜索跟模型的結(jié)合從非常底層的地方就開始去融合 ”。

      一個月后百川智能表示,Baichuan2-53B已經(jīng)是國內(nèi)幻覺處理能力最優(yōu)秀的模型。

      到了10月,百川智能將Baichuan2的上下文窗口長度高達(dá)擴展到192K,可以一次吃掉一本35萬字的《三體》,其在長文本測評基準(zhǔn)LongEval中的10項評測集中拿到7項SOTA(最優(yōu)模型)。

      在搜索能力和長文本能力之后,知識庫能力在此時推出則是這整個技術(shù)棧的最后一塊拼圖。

      而要打開B端市場,還有成本這個重要考量維度。知識庫與搜索的結(jié)合逐漸被驗證會是容量、成本、性能、效率的最佳選擇,而推崇這兩者,也意味著行業(yè)大模型的概念開始被放棄。

      不要動基礎(chǔ)模型

      大模型是一個參數(shù)化的知識容器,知識內(nèi)化在模型內(nèi)部,道不清說不明,是提煉之后的跨學(xué)科通用知識。

      但實際場景需要實時更新。在垂直領(lǐng)域,尤其是領(lǐng)域知識不易公開獲取的場景,模型本身的領(lǐng)域知識嚴(yán)重不足。這使得大模型必須與企業(yè)數(shù)據(jù)結(jié)合才能解決實際應(yīng)用。而大模型如何補充時效性,在B端發(fā)揮作用,有兩條路線。

      此前的路線是做一個行業(yè)大模型,也就是用行業(yè)知識來預(yù)訓(xùn)練或者微調(diào)訓(xùn)練大模型。

      但是基于特定數(shù)據(jù)預(yù)訓(xùn)練或微調(diào)垂直行業(yè)大模型需要高密度的技術(shù)人才團(tuán)隊、大量的算力支持,并且每更新一次數(shù)據(jù)都要重新訓(xùn)練或微調(diào)模型,不僅成本高昂、靈活性差,更關(guān)鍵的是不能保證訓(xùn)練的可靠性和應(yīng)用的穩(wěn)定性,多次訓(xùn)練后仍會出現(xiàn)問題。

      “此外,大部分企業(yè)數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),也不適合SFT,模型無法準(zhǔn)確記憶結(jié)構(gòu)化信息,會帶來幻覺。”王小川表示。

      另一條道路是不碰基礎(chǔ)模型,用搜索能力搭配外置的數(shù)據(jù)庫,這種更輕巧的技術(shù)路徑逐漸在大模型開發(fā)者中成為一種新的共識。

      2021年,OpenAI發(fā)布了WebGPT,首次展現(xiàn)了搜索能力加入后對大模型能力的增益。WebGPT是基于GPT-3模型的一種創(chuàng)新,它通過使用互聯(lián)網(wǎng)來響應(yīng)開放式查詢,大大提高了回答的準(zhǔn)確性和可靠性。這是人工智能領(lǐng)域的一個重要轉(zhuǎn)折點,展示了AI在提供更透明、更可靠的回答方面的未來可能性。

      WebGPT的工作過程類似于人類在線查詢回答的方式。它首先提交搜索查詢,然后跟蹤鏈接并瀏覽網(wǎng)頁以收集信息。這種獨特的方法有效地提高了回答的準(zhǔn)確性,在減少幻覺的同時,WebGPT開始能夠在長篇問答任務(wù)中達(dá)到與人類相當(dāng)?shù)谋憩F(xiàn)。

      今年11月,OpenAI 開始提供一款RAG(Retrieval-Augmented Generation)產(chǎn)品Retrieval檢索工具,在不修改底層模型本身的基礎(chǔ)上讓使用者能夠引用額外的數(shù)據(jù)源,而不僅僅局限于ChatGPT原始的訓(xùn)練集,從而提高輸出的準(zhǔn)確性和相關(guān)性。

      搜索能力與外置數(shù)據(jù)庫的結(jié)合,也有機會將國內(nèi)的AI公司從此前NLP、CV殊途同歸的項目制泥潭里掙脫出來。

      “我們今天發(fā)布的知識庫是產(chǎn)品。用知識庫這種用可配置可調(diào)整的方式,其實是希望用產(chǎn)品的方式實現(xiàn)企業(yè)低成本的定制,來解決過往高成本的項目制的問題,這是我們的思路”,百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬說。

      但目前企業(yè)構(gòu)建自己大模型知識庫的主流方法仍然是向量檢索,向量模型的效果過于依賴訓(xùn)練數(shù)據(jù)的覆蓋,在訓(xùn)練數(shù)據(jù)未覆蓋的領(lǐng)域泛化能力會有明顯折扣,并且用戶prompt和知識庫中文檔長度的差距也給向量檢索帶來了很大挑戰(zhàn)。

      百川智能在向量數(shù)據(jù)庫和長窗口的基礎(chǔ)上融合了稀疏檢索和ReRank模型,實現(xiàn)了稀疏檢索與向量檢索并行。向量檢索在語義上會更加貼近,但在embedding之后會存在很多漂移和漏召的情況,稀疏檢索在召回、語義漂移問題等問題上相比反而有優(yōu)越性,這種獨特的并行檢索方式的實現(xiàn)仰仗于對稀疏檢索的技術(shù)積累,后者則源自這支從搜索引擎轉(zhuǎn)身的技術(shù)團(tuán)隊在基于符號的搜索方式方面的經(jīng)驗。

      這種并行的檢索方式能夠讓Baichuan2模型的目標(biāo)文檔召回率提升到95%,目前市面上主流開源向量模型的召回率在80%。

      對于大模型在回答過程中由于引用資料不準(zhǔn)確以及與大模型不匹配,導(dǎo)致模型的“幻覺”加重的現(xiàn)象。百川智能在RAG技術(shù)基礎(chǔ)上首創(chuàng)了Self-Critique大模型自省技術(shù),該技術(shù)能夠讓大模型基于Prompt對檢索回來的內(nèi)容從相關(guān)性、可用性等角度進(jìn)行自省,篩選出最優(yōu)質(zhì)、最匹配的候選內(nèi)容,有效提升材料的知識密度和廣度,并降低檢索結(jié)果中的知識噪聲。

      ToB,局限在文本上嗎?

      在GPT-4之后,無論是Meta的AnyMAL還是谷歌最新的Gemini都開始體現(xiàn)出對多模態(tài)模型能力的重視,國內(nèi)的百度也是,與百川智能同在一座大樓的智譜AI早在今年5月已經(jīng)開源了多模態(tài)大模型VisualGLM-6B。

      百川智能目前所展示出的場景示例中,有包括問答、信息提取、咨詢分析等多達(dá)20個細(xì)分場景,但仍然完全集中在文本生成這個領(lǐng)域。多模態(tài)能力目前仍然沒有在Baichuan系列模型中出現(xiàn)。

      從語言跨向多模態(tài)這一步,百川智能顯得克制。

      王小川看來,最終還是文本能力代表了大模型智力化的水平,這是百川智能目前唯一聚焦的方向。

      “我們認(rèn)為在追求模型智力或者追趕全球最領(lǐng)先的大模型時,把文本放在第一位的公司是在往長遠(yuǎn)走的。所以今天如果公司首先考慮音頻、圖像、視頻等等,反而已經(jīng)不在這條追趕道路里了。

      文本能力的追趕是大家最應(yīng)該關(guān)注的事情,而多模態(tài)反而是離應(yīng)用最近的一件事,反而后者可以用更小的模型來推動。”

      近段時間出現(xiàn)的,Phi-22.7B和Mistral7B用非常小的尺寸擊敗了Llama2-7B和13B,甚至Mistral7B在數(shù)學(xué)和代碼生成方面的表現(xiàn)超越了Llama-34B,這也讓人重新考慮模型參數(shù)和模型能力之間的關(guān)系。

      從4月成立至今,百川智能打造大模型產(chǎn)品的速度很快,模型參數(shù)規(guī)模從7B和13B起跳,迅速擴展到53B,突破100B(千億)的大模型研發(fā)計劃也在之前就有所透露。對于百川智能來說,模型的參數(shù)規(guī)模仍然是一座要攀的高山。

      “對ToB來說,由于私有化的必要性,太大參數(shù)的規(guī)模對企業(yè)的成本是過高的,這方面因為有外掛知識庫的技術(shù),其實現(xiàn)在已經(jīng)不是很擔(dān)心參數(shù)規(guī)模對模型能力的影響”,王小川說。

      “在整體規(guī)劃上,我們做7B和13B的模型就是用來做開源的,但主力的模型還是會往百億、千億上走。”

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。