以搜索增強對抗幻覺，百川智能拿出了實現(xiàn)大模型商業(yè)化的最后一塊拼圖

2023年12月21日 16:27:20 油醋來源：微信公眾號硅星人Pro

　　本文來自于微信公眾號硅星人Pro(ID：Si-Planet)，作者：油醋。

　　12月19日，百川智能宣布開放基于搜索增強的Baichuan2-Turbo系列API，包含Baichuan2-Turbo-192K及Baichuan2-Turbo。這是9月末Baichuan2-53B第一次向外界打開API之后，百川智能在B端的進(jìn)一步動作。

　　7月，以搜狗CMO身份加入這家大模型創(chuàng)業(yè)公司的洪濤，第一次與王小川同時出現(xiàn)在自己商業(yè)化產(chǎn)品的發(fā)布現(xiàn)場。這家在7月剛邁過100人的公司，現(xiàn)在快到200人規(guī)模。

　　百川智能在B端的布局正在提速，搜索能力融入更深，并且具備長文本能力的Baichuan2-Turbo API比起前者有了更多的現(xiàn)實意義。

　　金融、醫(yī)療等一些行業(yè)與大模型的需求已經(jīng)開始形成。統(tǒng)計顯示目前國內(nèi)超過超過230款的大模型群落里，有15%是服務(wù)于金融領(lǐng)域的。

　　洪濤與客戶接觸下來的體驗是，B端經(jīng)常會遇到有客戶不知道大模型能做什么的情況，或者想象力大到超過了大模型的能力范圍。

　　這本身是大模型自己的問題，它看起來有討論問題的能力，很多時候卻無法給出精確可靠的解決方案。人們期待它能獨自解決所有問題，對它的定義卻是空心的。缺少明確的角色定位，這讓大模型進(jìn)入實際場景時變得障礙重重，大模型本身幻覺和時效性的問題也凸顯出來。

　　在王小川看來，搜索增強能力是大模型在企業(yè)落地的前提。但進(jìn)一步，搭配搜索增強能力之后，大模型在實際場景中需要一個更靈活的外接數(shù)據(jù)庫來做補充。

　　此次與Baichuan2-Turbo系列的發(fā)布同時，百川智能發(fā)布了新的搜索增強知識庫能力，這意味著企業(yè)現(xiàn)在可以從私有化部署到云端把自己的知識上傳上來，做一個外掛的資料庫，跟Baichuan2大模型做對接，來為基礎(chǔ)大模型加入行業(yè)知識。但區(qū)別于原來的行業(yè)大模型，這種方式?jīng)]有對基礎(chǔ)大模型本身做訓(xùn)練，理論上是一個成本更低的方式，而在時效性上更靈活，也不會增加出現(xiàn)幻覺的概率。

　　而從搜索增強能力注入到現(xiàn)在知識庫功能的上線，百川智能的在B端的商業(yè)化道路正式開始了。

　　在長度與廣度里找平衡

　　最近Andrej Karpathy的一番言論，似乎重新定義了“幻覺”。

　　Andrej Karpathy是OpenAI的創(chuàng)始人之一。他在人工智能領(lǐng)域地位頗高，也是特斯拉前 AI 總監(jiān)，他在今年2月從特斯拉回歸OpenAI。Karpathy近日發(fā)推表達(dá)了一種觀點:大語言模型的全部工作恰恰就是制造幻覺，大模型就是“造夢機”。

　　“大模型就是在做夢，這是幻覺問題的原因。相比之下搜索引擎完全不做夢，所以它存在創(chuàng)造力問題——因為它的邏輯是根據(jù)輸入的提示，直接返回其數(shù)據(jù)庫中最相似的“訓(xùn)練文檔”，也就是說它永遠(yuǎn)不會提供新的回應(yīng)。”

　　如何定義幻覺，在理論層面仍然是一個開放問題，但可以確認(rèn)的是，ToB不喜歡幻覺。

　　金融、醫(yī)療和法律這些相對明確的AI實踐場景需要極高的嚴(yán)謹(jǐn)性，而這種嚴(yán)謹(jǐn)又建立在巨大的文本體量上——研報、醫(yī)療報告或者法律卷宗。在這些大模型最先探入的場景里，避免幻覺有一個隱形的前提條件，是要在輸入和輸出兩端上下文長度和知識廣度之間找到平衡。

　　如果將大模型+搜索增強看作是大模型時代的新計算機，那么大模型類似于計算機的CPU，通過預(yù)訓(xùn)練將知識內(nèi)化在模型內(nèi)部，然后根據(jù)用戶的Prompt生成結(jié)果;上下文窗口可以看做計算機的內(nèi)存，存儲了當(dāng)下正在處理的文本;互聯(lián)網(wǎng)實時信息與企業(yè)完整知識庫共同構(gòu)成了大模型時代的硬盤。

　　這次Baichuan2Turbo系列API的發(fā)布背后，一個完整的延續(xù)著相似邏輯的大模型技術(shù)棧逐漸搭建完成。

　　王小川第一次提出類似技術(shù)棧的思路，是在今年7月:

　　“講個最簡單的例子，做模型肯定會遇到幻覺問題，時效性問題�；糜X和時效性都是光靠大模型本身能解決的。有人用擴大參數(shù)，擴大到萬億，十萬億來解決幻覺;或者用強化學(xué)習(xí)。但其實最直接的做法就是把搜索和信息檢索帶進(jìn)去。大模型和這些結(jié)合在一塊，才能形成一個更完整的技術(shù)棧。”

　　他認(rèn)為現(xiàn)在美國對于應(yīng)用層比較迷茫，中國現(xiàn)在的問題是模型能力不足。今天很多做模型的創(chuàng)業(yè)公司，也是把自己的視角局限在大模型上，對其它技術(shù)棧沒那么了解。那時候的百川智能剛剛發(fā)布了130億參數(shù)開源大模型Baichuan-13B。

　　這之后，這家大模型公司的整體進(jìn)展或許可以描述成對這整個技術(shù)棧的補全。

　　今年8月王小川第一次在Baichuan-53B身上提出了搜索增強的概念。Baichuan模型中的搜索增強系統(tǒng)融合了包括指令意圖理解、智能搜索和結(jié)果增強等關(guān)鍵組件的多個模塊，并且王小川表示，相比其他大模型的檢索增強，“(Baichuan-53B中)搜索跟模型的結(jié)合從非常底層的地方就開始去融合 ”。

　　一個月后百川智能表示，Baichuan2-53B已經(jīng)是國內(nèi)幻覺處理能力最優(yōu)秀的模型。

　　到了10月，百川智能將Baichuan2的上下文窗口長度高達(dá)擴展到192K，可以一次吃掉一本35萬字的《三體》，其在長文本測評基準(zhǔn)LongEval中的10項評測集中拿到7項SOTA(最優(yōu)模型)。

　　在搜索能力和長文本能力之后，知識庫能力在此時推出則是這整個技術(shù)棧的最后一塊拼圖。

　　而要打開B端市場，還有成本這個重要考量維度。知識庫與搜索的結(jié)合逐漸被驗證會是容量、成本、性能、效率的最佳選擇，而推崇這兩者，也意味著行業(yè)大模型的概念開始被放棄。

　　不要動基礎(chǔ)模型

　　大模型是一個參數(shù)化的知識容器，知識內(nèi)化在模型內(nèi)部，道不清說不明，是提煉之后的跨學(xué)科通用知識。

　　但實際場景需要實時更新。在垂直領(lǐng)域，尤其是領(lǐng)域知識不易公開獲取的場景，模型本身的領(lǐng)域知識嚴(yán)重不足。這使得大模型必須與企業(yè)數(shù)據(jù)結(jié)合才能解決實際應(yīng)用。而大模型如何補充時效性，在B端發(fā)揮作用，有兩條路線。

　　此前的路線是做一個行業(yè)大模型，也就是用行業(yè)知識來預(yù)訓(xùn)練或者微調(diào)訓(xùn)練大模型。

　　但是基于特定數(shù)據(jù)預(yù)訓(xùn)練或微調(diào)垂直行業(yè)大模型需要高密度的技術(shù)人才團(tuán)隊、大量的算力支持，并且每更新一次數(shù)據(jù)都要重新訓(xùn)練或微調(diào)模型，不僅成本高昂、靈活性差，更關(guān)鍵的是不能保證訓(xùn)練的可靠性和應(yīng)用的穩(wěn)定性，多次訓(xùn)練后仍會出現(xiàn)問題。

　　“此外，大部分企業(yè)數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù)，也不適合SFT，模型無法準(zhǔn)確記憶結(jié)構(gòu)化信息，會帶來幻覺。”王小川表示。

　　另一條道路是不碰基礎(chǔ)模型，用搜索能力搭配外置的數(shù)據(jù)庫，這種更輕巧的技術(shù)路徑逐漸在大模型開發(fā)者中成為一種新的共識。

　　2021年，OpenAI發(fā)布了WebGPT，首次展現(xiàn)了搜索能力加入后對大模型能力的增益。WebGPT是基于GPT-3模型的一種創(chuàng)新，它通過使用互聯(lián)網(wǎng)來響應(yīng)開放式查詢，大大提高了回答的準(zhǔn)確性和可靠性。這是人工智能領(lǐng)域的一個重要轉(zhuǎn)折點，展示了AI在提供更透明、更可靠的回答方面的未來可能性。

　　WebGPT的工作過程類似于人類在線查詢回答的方式。它首先提交搜索查詢，然后跟蹤鏈接并瀏覽網(wǎng)頁以收集信息。這種獨特的方法有效地提高了回答的準(zhǔn)確性，在減少幻覺的同時，WebGPT開始能夠在長篇問答任務(wù)中達(dá)到與人類相當(dāng)?shù)谋憩F(xiàn)。

　　今年11月，OpenAI 開始提供一款RAG(Retrieval-Augmented Generation)產(chǎn)品Retrieval檢索工具，在不修改底層模型本身的基礎(chǔ)上讓使用者能夠引用額外的數(shù)據(jù)源，而不僅僅局限于ChatGPT原始的訓(xùn)練集，從而提高輸出的準(zhǔn)確性和相關(guān)性。

　　搜索能力與外置數(shù)據(jù)庫的結(jié)合，也有機會將國內(nèi)的AI公司從此前NLP、CV殊途同歸的項目制泥潭里掙脫出來。

　　“我們今天發(fā)布的知識庫是產(chǎn)品。用知識庫這種用可配置可調(diào)整的方式，其實是希望用產(chǎn)品的方式實現(xiàn)企業(yè)低成本的定制，來解決過往高成本的項目制的問題，這是我們的思路”，百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬說。

　　但目前企業(yè)構(gòu)建自己大模型知識庫的主流方法仍然是向量檢索，向量模型的效果過于依賴訓(xùn)練數(shù)據(jù)的覆蓋，在訓(xùn)練數(shù)據(jù)未覆蓋的領(lǐng)域泛化能力會有明顯折扣，并且用戶prompt和知識庫中文檔長度的差距也給向量檢索帶來了很大挑戰(zhàn)。

　　百川智能在向量數(shù)據(jù)庫和長窗口的基礎(chǔ)上融合了稀疏檢索和ReRank模型，實現(xiàn)了稀疏檢索與向量檢索并行。向量檢索在語義上會更加貼近，但在embedding之后會存在很多漂移和漏召的情況，稀疏檢索在召回、語義漂移問題等問題上相比反而有優(yōu)越性，這種獨特的并行檢索方式的實現(xiàn)仰仗于對稀疏檢索的技術(shù)積累，后者則源自這支從搜索引擎轉(zhuǎn)身的技術(shù)團(tuán)隊在基于符號的搜索方式方面的經(jīng)驗。

　　這種并行的檢索方式能夠讓Baichuan2模型的目標(biāo)文檔召回率提升到95%，目前市面上主流開源向量模型的召回率在80%。

　　對于大模型在回答過程中由于引用資料不準(zhǔn)確以及與大模型不匹配，導(dǎo)致模型的“幻覺”加重的現(xiàn)象。百川智能在RAG技術(shù)基礎(chǔ)上首創(chuàng)了Self-Critique大模型自省技術(shù)，該技術(shù)能夠讓大模型基于Prompt對檢索回來的內(nèi)容從相關(guān)性、可用性等角度進(jìn)行自省，篩選出最優(yōu)質(zhì)、最匹配的候選內(nèi)容，有效提升材料的知識密度和廣度，并降低檢索結(jié)果中的知識噪聲。

　　ToB，局限在文本上嗎?

　　在GPT-4之后，無論是Meta的AnyMAL還是谷歌最新的Gemini都開始體現(xiàn)出對多模態(tài)模型能力的重視，國內(nèi)的百度也是，與百川智能同在一座大樓的智譜AI早在今年5月已經(jīng)開源了多模態(tài)大模型VisualGLM-6B。

　　百川智能目前所展示出的場景示例中，有包括問答、信息提取、咨詢分析等多達(dá)20個細(xì)分場景，但仍然完全集中在文本生成這個領(lǐng)域。多模態(tài)能力目前仍然沒有在Baichuan系列模型中出現(xiàn)。

　　從語言跨向多模態(tài)這一步，百川智能顯得克制。

　　王小川看來，最終還是文本能力代表了大模型智力化的水平，這是百川智能目前唯一聚焦的方向。

　　“我們認(rèn)為在追求模型智力或者追趕全球最領(lǐng)先的大模型時，把文本放在第一位的公司是在往長遠(yuǎn)走的。所以今天如果公司首先考慮音頻、圖像、視頻等等，反而已經(jīng)不在這條追趕道路里了。

　　文本能力的追趕是大家最應(yīng)該關(guān)注的事情，而多模態(tài)反而是離應(yīng)用最近的一件事，反而后者可以用更小的模型來推動。”

　　近段時間出現(xiàn)的，Phi-22.7B和Mistral7B用非常小的尺寸擊敗了Llama2-7B和13B，甚至Mistral7B在數(shù)學(xué)和代碼生成方面的表現(xiàn)超越了Llama-34B，這也讓人重新考慮模型參數(shù)和模型能力之間的關(guān)系。

　　從4月成立至今，百川智能打造大模型產(chǎn)品的速度很快，模型參數(shù)規(guī)模從7B和13B起跳，迅速擴展到53B，突破100B(千億)的大模型研發(fā)計劃也在之前就有所透露。對于百川智能來說，模型的參數(shù)規(guī)模仍然是一座要攀的高山。

　　“對ToB來說，由于私有化的必要性，太大參數(shù)的規(guī)模對企業(yè)的成本是過高的，這方面因為有外掛知識庫的技術(shù)，其實現(xiàn)在已經(jīng)不是很擔(dān)心參數(shù)規(guī)模對模型能力的影響”，王小川說。

　　“在整體規(guī)劃上，我們做7B和13B的模型就是用來做開源的，但主力的模型還是會往百億、千億上走。”

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。