云知聲：通往AGI的路不只有一條

2023年04月03日 14:56:04 來源：數(shù)智前線

　　ChatGPT提供了通往AGI的新范式，但它背后的算法和模型并不是新的發(fā)明創(chuàng)造，就像愛因斯坦在1905年從理論上證明了E=MC2，而各國造原子彈的路徑并不相同，中國的“596計(jì)劃”就不需要完全把“曼哈頓計(jì)劃”follow一遍。

　　同樣如此的是，通往GPT大模型的路徑是通的，而到達(dá)對岸的方法并不只有一條。

　　文|趙艷秋徐鑫

　　云知聲董事長梁家恩最近開始推動(dòng)新一輪技術(shù)升級，并頻繁接待客戶和投資人。ChatGPT走紅之后，外界驚嘆ChatGPT的表現(xiàn)，但對于人工智能業(yè)界而言，這意味著技術(shù)范式的轉(zhuǎn)變，更意味著通向AGI的大門可能正在開啟。

　　入行25年的AI老兵和資深團(tuán)隊(duì)創(chuàng)立公司11年后發(fā)現(xiàn)，自己正置身當(dāng)下最火熱的跑道上，而這群AI老兵要投身新一輪變革浪潮的熱情依然澎湃。

　　梁家恩給這場大模型的角力劃定了時(shí)間表，“今年之內(nèi)肯定要有一個(gè)行業(yè)內(nèi)認(rèn)可的千億級大模型成果出來”。

　　從2012年開始做深度學(xué)習(xí)，到后來搭建AI全棧能力，再到大模型角力，這已是云知聲的第三次重大技術(shù)體系升級。而過去十一年對人工智能的理解和布局，在此刻都變成了現(xiàn)成的武器和財(cái)富。如果把這波熱潮里的參與者視作一個(gè)集合，梁家恩認(rèn)為，他們有底氣成為走到下一輪的“分子”之一。而業(yè)界認(rèn)為，這樣的團(tuán)隊(duì)目前兩只手能數(shù)得過來。

　　“這是令人興奮的技術(shù)”

　　“這是讓我入行25年來感到最exciting的技術(shù)突破。”梁家恩告訴數(shù)智前線，ChatGPT推出之后，人工智能的范式正在轉(zhuǎn)變。實(shí)際上，此前10年，深度學(xué)習(xí)帶來了一波人工智能的增長，但并未改變AI的范式。

　　云知聲創(chuàng)立的2012年，趕上了深度學(xué)習(xí)的嶄露頭角，在那一年9月的ImageNet視覺識別挑戰(zhàn)賽上，AlexNet異軍突起，碾壓了所有對手。它的創(chuàng)造者之一Hinton教授， 2006年在Science發(fā)起“深度學(xué)習(xí)”革命后，在重大技術(shù)評測上首次獲得突破性進(jìn)展，展示了深度學(xué)習(xí)的威力。云知聲團(tuán)隊(duì)雖然在那一年6月剛成立，也迅速入局深度學(xué)習(xí)，成為國內(nèi)最早將該技術(shù)應(yīng)用到產(chǎn)業(yè)服務(wù)的團(tuán)隊(duì)之一。

　　深度學(xué)習(xí)雖然比傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)展現(xiàn)出了更大威力，但并未跳出舊的AI范式——預(yù)先定義任務(wù)目標(biāo)，采集該任務(wù)的大量數(shù)據(jù)并進(jìn)行人工標(biāo)注，通過模型訓(xùn)練達(dá)到最優(yōu)效果，切換不同任務(wù)目標(biāo)時(shí)，往往需要重新采集數(shù)據(jù)和訓(xùn)練，無法實(shí)現(xiàn)不同任務(wù)間的高效遷移——被稱為“窄AI”或“弱AI”，本質(zhì)上是某種“高級自動(dòng)化”。一個(gè)例子是，針對銀行開發(fā)的模型，不能用于保險(xiǎn)公司的類似任務(wù)，甚至同一家銀行的業(yè)務(wù)流程變了，模型也要重新訓(xùn)練。這導(dǎo)致很多躊躇滿志的人工智能企業(yè)變成了項(xiàng)目型公司，制約了人工智能的潛力。

　　業(yè)界稱之為AI1.0時(shí)代。智源研究院總工林詠華稱，由于這樣的局限性，過去幾年人工智能又開始走向一個(gè)低谷。

　　2017年，谷歌提出了Transformer模型。“我們當(dāng)時(shí)判斷這個(gè)模型具備一統(tǒng)江山的能力，因?yàn)閷π蛄薪栴}而言，從數(shù)據(jù)驅(qū)動(dòng)的數(shù)學(xué)優(yōu)化意義上它太完美了。”梁家恩回憶。谷歌、OpenAI等開始嘗試它的各種實(shí)現(xiàn)(包括GPT、BERT、T5等)，通過大規(guī)模無監(jiān)督預(yù)訓(xùn)練基礎(chǔ)模型，實(shí)現(xiàn)多種任務(wù)的快速遷移，都取得了相當(dāng)優(yōu)異的成果，將語言理解問題真正納入深度學(xué)習(xí)框架之中。

　　真正推動(dòng)AI進(jìn)入2.0時(shí)代的，還是2022年11月，ChatGPT的推出。它作為一個(gè)人工智能語言大模型，擁有自然語言理解、上下文學(xué)習(xí)、常識推理和高質(zhì)量應(yīng)答等特點(diǎn)，效果驚艷四座。

　　“ChatGPT將人工智能研究的核心帶回到語言本身，而語言其實(shí)是人類智能的一個(gè)核心載體。”梁家恩分析說，“語言理解也被譽(yù)為人工智能皇冠上的明珠，語言跟知識和智能本身是緊密結(jié)合的。”ChatGPT開放公測后，清華大學(xué)劉嘉教授感嘆，ChatGPT不僅有功能性，同時(shí)還是人格化，它終于讓人們看到了“通用人工智能的一線曙光”。

　　“這是一個(gè)非常大的突破，我們認(rèn)為這是一個(gè)從專用AI轉(zhuǎn)向通用AI(AGI)的突破口。”梁家恩稱。這也直接帶動(dòng)了云知聲的第三次技術(shù)升級。這將是一次大的跳變。“一些人認(rèn)為ChatGPT只是一個(gè)聊天的人工智能，但對于我們團(tuán)隊(duì)而言，把它放在了向通用AI演進(jìn)這樣的級別來看待的，雖然通用AI還有很長的路要走。”

　　梁家恩稱，云知聲要在人工智能決賽圈有所作為，就必須跑通從專用AI向通用AI的通路。而此前，他們對技術(shù)的緊密跟蹤、儲備和守住的盤面，讓其有信心抓住這一波浪潮。

　　在2012年入局深度學(xué)習(xí)之后，云知聲曾在2016年開展了第二次技術(shù)升級。那一年阿爾法狗擊敗人類圍棋冠軍李世石時(shí)，云知聲早將深度學(xué)習(xí)在物聯(lián)市場應(yīng)用起來了。“我們的關(guān)注點(diǎn)是深度學(xué)習(xí)要有一個(gè)強(qiáng)大的算力支撐。實(shí)際上，我們關(guān)注到阿爾法狗的研發(fā)團(tuán)隊(duì)Deepmind，正是借助谷歌超強(qiáng)的并發(fā)計(jì)算能力，同時(shí)調(diào)度上千個(gè)GPU來完成的，這代表了未來深度增強(qiáng)學(xué)習(xí)的大規(guī)模計(jì)算趨勢。”

　　于是，在阿爾法狗擊敗李世石的當(dāng)月，梁家恩就趕到了硅谷，與硅谷專家探討如何面向深度學(xué)習(xí)構(gòu)建大規(guī)模超算平臺。最終，他們花了將近一年時(shí)間，將Atlas大規(guī)模機(jī)器學(xué)習(xí)超算平臺構(gòu)建了起來，并逐步布局知識圖譜和多模態(tài)等全棧AI技術(shù)，從一家語音識別公司向更深層延伸，開始從“聲(感知)”到“知(認(rèn)知)”的技術(shù)體系升級。

　　現(xiàn)在，云知聲將面臨第三次跳變。

　　先質(zhì)后量，打通大模型新范式

　　在ChatGPT推出后，云知聲已開始訓(xùn)練模型，但數(shù)智前線獲悉，在云知聲看來，本輪技術(shù)升級并非只是簡單的 “大力出奇跡”，而是開啟了新的“數(shù)據(jù)動(dòng)力學(xué)范式”，需要從數(shù)據(jù)規(guī)模、質(zhì)量和模型調(diào)教下手，才能真正解決問題，“大力”只是“必要不充分條件”。按照公司的規(guī)劃，技術(shù)升級將分兩步推進(jìn)：先在六七百億參數(shù)提升優(yōu)質(zhì)數(shù)據(jù)規(guī)模，再擴(kuò)大到千億級參數(shù)提升大模型效果。

　　為什么要分兩步走?這與技術(shù)實(shí)現(xiàn)和商業(yè)落地相關(guān)。

　　按照業(yè)內(nèi)的實(shí)踐，在優(yōu)質(zhì)數(shù)據(jù)規(guī)模足夠大情況下，模型越大效果越好，但訓(xùn)練成本也越高。從六七百億參數(shù)起步，是因?yàn)閺臉I(yè)內(nèi)成果分析看，只有參數(shù)規(guī)模達(dá)到五六百億以上，模型才可能出現(xiàn)“智能涌現(xiàn)”。這是一種神奇的現(xiàn)象，如同一個(gè)小孩子，到了某個(gè)年齡突然“開竅”了，發(fā)生了從量變到質(zhì)變的“跳躍”。“我們判斷六七百億參數(shù)的模型，是比較有把握出現(xiàn)涌現(xiàn)效果的，先以這個(gè)參數(shù)規(guī)模，提升優(yōu)質(zhì)數(shù)據(jù)規(guī)模和大模型效果，再做千億以上參數(shù)來提高大模型性能。Deepmind和Meta等最近都放出這種規(guī)模的模型，效果都還不錯(cuò)。”梁家恩稱。

　　但今年不只是要做好大模型，還要考慮產(chǎn)業(yè)實(shí)際應(yīng)用的成本和部署等因素。云知聲認(rèn)為，大模型訓(xùn)練成功后，以目前的算力成本，可能需要把大模型參數(shù)量通過蒸餾技術(shù)壓縮10倍才能滿足實(shí)時(shí)性和規(guī)模化應(yīng)用要求，這要視具體應(yīng)用場景而定。云知聲在做BERT模型時(shí)，就積累了豐富的經(jīng)驗(yàn)，通過模型蒸餾提速近百倍，而實(shí)際性能損失很小。“就像打擊索馬里海盜，不能每次都開著航母過去。”梁家恩稱，“我認(rèn)為OpenAI最終可能也會走這個(gè)路徑，只不過它現(xiàn)在不那么著急，它現(xiàn)階段要先砸資源摸到大模型的潛力和邊界，不需要太關(guān)注成本。”

　　GPT是一個(gè)端到端打通的框架，同時(shí)結(jié)合了很多學(xué)習(xí)能力，比如小樣本學(xué)習(xí)，讓它有更強(qiáng)的適應(yīng)能力。同時(shí)，OpenAI的CEO Sam Altman透露，他們使用的數(shù)據(jù)遠(yuǎn)比外界想象的要多得多，大量工作也圍繞在數(shù)據(jù)方面，為此還引入了新的數(shù)學(xué)模型。

　　“我們首先把它的端到端打通，再針對性地去解決問題，有些可能是從算法角度去優(yōu)化，有些可能要通過數(shù)據(jù)層面去優(yōu)化，包括并入醫(yī)療數(shù)據(jù)后，哪些跟現(xiàn)有的知識不能很好的融合，都要針對性做研究。”

　　云知聲以前基于BERT模型，現(xiàn)在需要切換到以GPT為模式的框架。兩者本質(zhì)上都基于Transformer模型，有不同的優(yōu)缺點(diǎn)和特性。云知聲這次并不需要從底層開始干，而是進(jìn)行模型架構(gòu)的切換，“會比從頭做的變量要少很多，而且有行業(yè)應(yīng)用場景、客戶和數(shù)據(jù)的積累”。

　　按照計(jì)劃，云知聲將在今年第二季度開啟針對性優(yōu)化，并與第一批客戶銜接，在實(shí)戰(zhàn)場景中解決問題。

　　在落地行業(yè)上，物聯(lián)和醫(yī)療是兩個(gè)優(yōu)先的行業(yè)，此前他們在這兩個(gè)領(lǐng)域投入和積累最多。但兩個(gè)行業(yè)的側(cè)重點(diǎn)并不一樣。物聯(lián)行業(yè)本質(zhì)上是提升交互能力，當(dāng)大模型技術(shù)升級以后，人機(jī)對話就不會“聊死了”，不過，這些是通用場景，拓展應(yīng)用場景“廣度”。

　　在醫(yī)療行業(yè)，問題的側(cè)重點(diǎn)則是精準(zhǔn)度和可控性。這需要結(jié)合知識圖譜和行業(yè)問題進(jìn)行強(qiáng)化學(xué)習(xí)。“很多大模型的可解釋性、可控性，要通過后端這個(gè)手段來解決掉，否則無法有效應(yīng)用到嚴(yán)肅場景中”。

　　大模型也將給之前的應(yīng)用帶來改變。云知聲2016年進(jìn)入醫(yī)療行業(yè)，主要利用人工智能技術(shù)，解決病歷的語音錄入、缺陷檢查、醫(yī)�？刭M(fèi)等問題。“如果有了比較好的生成式AI能力，我們可以根據(jù)已收集的數(shù)據(jù)，協(xié)助醫(yī)生生成高質(zhì)量的病歷和診療方案。”

　　在美國休斯頓的MD安德森癌癥中心，已有醫(yī)生向ChatGPT詢問病人現(xiàn)在的情況以及治療方案，得到的結(jié)果和中心診斷的結(jié)果幾乎一模一樣。梁家恩稱，大模型在醫(yī)療行業(yè)的終極目標(biāo)，肯定是成為一個(gè)輔助診療工具，但還有相當(dāng)長的路要走，精準(zhǔn)度和可靠性是必須解決的問題。

　　從全棧能力到MaaS模式升級

　　新的浪潮來臨時(shí)，創(chuàng)業(yè)距今已有十一年的云知聲站到了一個(gè)新的風(fēng)口。就像一場球賽進(jìn)行到中場，一個(gè)站在球門附近的人，“突然”接到了球。

　　這是一支深度思考行業(yè)趨勢，密切關(guān)注行業(yè)前沿技術(shù)發(fā)展的團(tuán)隊(duì)，同時(shí)也在行業(yè)里有了多年積累，已形成全棧能力，給新一輪技術(shù)升級奠定了扎實(shí)的基礎(chǔ)，也為打造以大模型為基礎(chǔ)的MaaS(Model as a Service，模型即服務(wù))平臺做好準(zhǔn)備。

　　在最底層的算力層面，受AlphaGO的啟發(fā)，2016年開始云知聲團(tuán)隊(duì)開始建立大規(guī)模超算平臺Atlas。Atlas在希臘神話里是泰坦族擎天神，用雙肩支撐蒼天。當(dāng)時(shí)，他們看到能同時(shí)調(diào)度上千塊GPU去完成一個(gè)任務(wù)的能力，會是一家人工智能公司的重要壁壘。當(dāng)他們部署超算平臺時(shí)，硅谷的專家甚至驚訝，一家成立四年的創(chuàng)業(yè)公司考慮這個(gè)問題還太早。

　　但今天來看，底層算力平臺對于上層支撐的價(jià)值已經(jīng)凸顯。

　　在算力平臺之上是數(shù)據(jù)中心模型優(yōu)化(DCML)層。云知聲在2016年開始進(jìn)入醫(yī)療行業(yè)后，發(fā)現(xiàn)根據(jù)不同應(yīng)用場景數(shù)據(jù)，需要對模型進(jìn)行高效的針對性優(yōu)化，本質(zhì)上是如何根據(jù)應(yīng)用數(shù)據(jù)對模型進(jìn)行快速調(diào)優(yōu)，GPT模型的強(qiáng)化學(xué)習(xí)也是在這層完成的。這一層的構(gòu)建目標(biāo)就在于此，其作用是能夠提高產(chǎn)品的標(biāo)準(zhǔn)化程度，通過模型而非代碼來解決應(yīng)用場景差異，大幅提升人效比。

　　再之上是模型層。這也是目前正在改變的地方。在此前的AI范式下，無論是人機(jī)交互，還是各種行業(yè)應(yīng)用，實(shí)際上要先做好各單元模型，再把各種單元模型整合起來實(shí)現(xiàn)業(yè)務(wù)目標(biāo)，現(xiàn)在則要轉(zhuǎn)變?yōu)橐訥PT為核心的大模型來做。而過去各種部件級模型，像語音降噪、語音識別、語音合成等標(biāo)準(zhǔn)模塊仍會持續(xù)優(yōu)化，但也會借鑒大模型的思路，比如加大無監(jiān)督預(yù)訓(xùn)練數(shù)據(jù)規(guī)模，實(shí)現(xiàn)多語種聯(lián)合建模、輕量級定制和個(gè)性化等，可以顯著降低成本，同時(shí)提升效果和效率。

　　除了這些能力，這些年在智慧物聯(lián)和智能醫(yī)療等行業(yè)場景積累的行業(yè)know-how和數(shù)據(jù)，也是云知聲在全棧能力中的一個(gè)關(guān)鍵。以醫(yī)療行業(yè)為例，像教材、臨床指南、病歷知識等一系列行業(yè)數(shù)據(jù)，都需要時(shí)間的沉淀才能獲得，這也是未來訓(xùn)練行業(yè)大模型不可或缺的原料。

　　而有了數(shù)據(jù)之后，能否解決行業(yè)的真實(shí)問題，還需要對行業(yè)本質(zhì)問題的理解和認(rèn)知。“行業(yè)大模型并不是一個(gè)萬能黑盒子，有了它就能馬上打敗所有的醫(yī)生。”梁家恩稱。這就像從高校畢業(yè)的醫(yī)學(xué)博士，要解決臨床問題，需要很多實(shí)戰(zhàn)經(jīng)驗(yàn)一樣，醫(yī)療大模型出來也要跨越這一步。ChatGPT也是在GPT3.5之上，完成SFT和RLHF優(yōu)化才能真正接近實(shí)用，而醫(yī)療行業(yè)應(yīng)用，對準(zhǔn)確度和可靠性的要求要高很多。

　　本輪 GPT技術(shù)升級，不是簡單的算法升級或模型做大，而是AGI新范式的重構(gòu)：從標(biāo)準(zhǔn)AI零部件根據(jù)業(yè)務(wù)需求組裝優(yōu)化，到以大模型為基礎(chǔ)的MaaS模式的轉(zhuǎn)變，即業(yè)務(wù)邏輯由多語言多模態(tài)智能交互(MM-CAI)大模型來對接，實(shí)現(xiàn)真正自然語言為主的人機(jī)交互模式，通過大模型的情景學(xué)習(xí)(ICL：In Context Learning)能力來快速對接任務(wù)，極大提升業(yè)務(wù)遷移效率，涉及專業(yè)領(lǐng)域問題，則通過調(diào)用行業(yè)大模型或API來精準(zhǔn)可靠解決，做好交互自然度和行業(yè)專業(yè)度的有效結(jié)合。

　　行業(yè)問題導(dǎo)向，從專用到通用

　　在過去十年里，AI浪潮起起伏伏，不少人工智能企業(yè)頭頂光環(huán)，生存卻舉步維艱，甚至還有玩家悄無聲息倒在了這波AI熱潮的前夜。技術(shù)落地和產(chǎn)品化是他們遭遇的共性問題。

　　一位資深人士稱，不同于機(jī)器能輕松超過人類的單點(diǎn)可計(jì)算類問題，人工智能企業(yè)的產(chǎn)品落地面對的是真實(shí)和綜合的場景。過去十年里，云知聲在工程化和產(chǎn)品落地層面也做了不少嘗試，經(jīng)驗(yàn)可以沉淀為“廣度”和“深度”兩個(gè)層面。

　　在物聯(lián)網(wǎng)場景里，關(guān)鍵在于連接的“廣度”。任何一個(gè)玩家都需要讓自己的產(chǎn)品在盡可能多的場景，盡可能多的用戶以及盡可能多設(shè)備上，以足夠低的成本跑起來。

　　深度學(xué)習(xí)技術(shù)開始介入行業(yè)時(shí)，行業(yè)里普遍認(rèn)為，要靠GPU才能跑起來，但云知聲將它優(yōu)化到能在CPU甚至手機(jī)芯片上跑起來。

　　2016年時(shí)，他們甚至把模型做進(jìn)了主頻只有200MHz、計(jì)算內(nèi)存只有200k的WiFi芯片中。“要把模型壓縮100倍，裝進(jìn)芯片端，還要能運(yùn)轉(zhuǎn)起來。”梁家恩向數(shù)智前線說。這個(gè)產(chǎn)品在格力等家電企業(yè)落地應(yīng)用，也令大企業(yè)中搞深度學(xué)習(xí)的資深人士感到不可思議。

　　在產(chǎn)品落地中，他們又發(fā)現(xiàn)沒有特別好的物聯(lián)網(wǎng)芯片，于是在2016年組建團(tuán)隊(duì)做了面向物聯(lián)網(wǎng)的智能交互芯片。“等行業(yè)里的人意識到要做AI芯片時(shí)，我們的芯片在已經(jīng)點(diǎn)亮了。”梁家恩說。到今天為止，芯片和模組已出貨超過2000萬片。

　　而在醫(yī)療的場景里，人工智能技術(shù)要落地打通，則不能停留在外圍應(yīng)用中，要真正解決行業(yè)應(yīng)用的“深度”問題。“語音輸入能夠提升效率，但不能提升業(yè)務(wù)質(zhì)量”，團(tuán)隊(duì)意識到了感知的局限。從感知向認(rèn)知升級，他們的做法是走向行業(yè)深處，建設(shè)行業(yè)知識圖譜，才能進(jìn)入核心場景，真正有效解決行業(yè)關(guān)鍵問題。這也是近年來人工智能業(yè)界強(qiáng)調(diào)的落地重要路徑，去年百度李彥宏就在公司內(nèi)部提出深入核心場景的要求。

　　球已經(jīng)到了腳下，接下來要做的事情變得確定。數(shù)智前線獲悉，云知聲一季度就擴(kuò)充了30%算力，去做大模型的轉(zhuǎn)軌，年底算力預(yù)計(jì)將翻幾倍，“升級下一代以GPT為核心的架構(gòu)”。在以大模型實(shí)現(xiàn)智慧物聯(lián)(廣度)和智慧醫(yī)療(深度)兩個(gè)行業(yè)技術(shù)升級后，MaaS模式也將完成驗(yàn)證，再結(jié)合各行業(yè)應(yīng)用需求，逐步擴(kuò)充行業(yè)大模型，最終將MaaS平臺做到萬億級以上參數(shù)，實(shí)現(xiàn)從專用走向通用。

　　之所以選擇從專用到通用的發(fā)展路徑，云知聲主要出于三個(gè)方面考量：1)無論AI還是AGI，有效、可靠解決實(shí)際問題是第一位的，靠創(chuàng)造價(jià)值而非概念立足;2)依托物聯(lián)和醫(yī)療行業(yè)有多年的深耕積累，而非在通用領(lǐng)域直接對抗巨頭，更能發(fā)揮自身優(yōu)勢;3)“MM-CAI+行業(yè)大模型”的MaaS模式，具有更好的可控性、擴(kuò)展性和靈活性，隨著行業(yè)大模型的積累，能構(gòu)建更可靠的通用智能。

　　這是一場巨變的開始，但梁家恩喜歡借用蓋茨的觀點(diǎn)，“我們經(jīng)常高估了今后一兩年內(nèi)將發(fā)生的變革，但又常常低估了今后10年內(nèi)將要發(fā)生的變化”。雖然ChatGPT引發(fā)了熱潮，但仍面臨不小的挑戰(zhàn)。保持謹(jǐn)慎的樂觀，十年后回望，這或許是人工智能走入更大規(guī)模、更多場景，走向AGI的起點(diǎn)。

　　以下為數(shù)智前線與梁家恩的對話節(jié)選：

　　Q：中國企業(yè)能否實(shí)現(xiàn)類ChatGPT?

　　A：首先像ChatGPT，其實(shí)里面沒有任何一個(gè)算法是新的，甚至很多都不是OpenAI發(fā)明的。過去10年積累的機(jī)器學(xué)習(xí)方法，已經(jīng)足夠它做出這個(gè)事，但主要是這些方法要如何有效的組合，以及如何去選擇數(shù)據(jù)來調(diào)整模型，OpenAI下了很大的決心，也投入了很多資源，才走通了這個(gè)技術(shù)范式，這是它對AI行業(yè)最重要的貢獻(xiàn)。

　　我經(jīng)常把這個(gè)比喻為“曼哈頓計(jì)劃”。愛因斯坦在1905年就從理論上證明了E=MC2，“曼哈頓計(jì)劃”是第一個(gè)去探索和實(shí)踐出來的。但每個(gè)國家造原子彈的路徑并不相同，像中國的“596工程”就不需要完全去把“曼哈頓計(jì)劃”follow一遍。這個(gè)路徑是通的，我們在根本的原理上去研究這個(gè)問題，再看怎么做。

　　Q：現(xiàn)在互聯(lián)網(wǎng)巨頭也在推出大模型，并進(jìn)入行業(yè)，你們與他們?nèi)绾胃偁?

　　A：在巨頭積累深厚的通用行業(yè)，我們是很難單靠技術(shù)顛覆的，OpenAI也要跟微軟的Bing和Office結(jié)合，才能在商業(yè)上叫板搜索巨頭。在我們所聚焦的行業(yè)里，我們不懼怕任何巨頭的團(tuán)隊(duì)。因?yàn)檫@是我們的全部，但對巨頭來說，先守住自己主業(yè)是當(dāng)務(wù)之急，主業(yè)之外的應(yīng)用創(chuàng)新，本身積累也有限，而且東方不亮西方亮，哪個(gè)行業(yè)做不起來其實(shí)沒所謂。

　　而且醫(yī)療絕對是一個(gè)坑挺大的行業(yè)，巨頭的創(chuàng)新團(tuán)隊(duì)能不能在被裁掉之前搞定，有很多變數(shù)。實(shí)際上，我們在醫(yī)療行業(yè)的很多頭部客戶，也是跟巨頭競爭中獲得的。所以，從絕對的資源角度，我們比不上大廠，但在我們真正深耕多年的這些行業(yè)，比資源投入、決心和實(shí)戰(zhàn)經(jīng)驗(yàn)，我們絕對不怕任何大廠的團(tuán)隊(duì)。

　　Q：互聯(lián)網(wǎng)巨頭有一個(gè)提法，大模型領(lǐng)域不要重復(fù)造輪子。您怎么看這個(gè)觀點(diǎn)?行業(yè)里為什么大家還會堅(jiān)持自己來做一遍基礎(chǔ)大模型?

　　A：這是巨頭的期待，但造輪子的比喻在這里并不恰當(dāng)。輪子是一個(gè)標(biāo)準(zhǔn)化產(chǎn)品，而在大模型要復(fù)雜得多，同樣方法在不同行業(yè)解決的問題和用到的數(shù)據(jù)是很不一樣的，我們相信“行業(yè)大模型”，相比包羅萬象的“萬能超大模型”是要更精準(zhǔn)、高效和經(jīng)濟(jì)的。

　　我們提到的“通用”的概念更多是方法論意義上的。它不再像過去的AI方法論，要預(yù)先定義很多確定性目標(biāo)，然后再分別針對目標(biāo)優(yōu)化對應(yīng)模型。現(xiàn)在的通用模型指的是，方法論上可以支持非特定任務(wù)的大規(guī)模無監(jiān)督學(xué)習(xí)，然后基于大模型可以通過快速學(xué)習(xí)來完成各類任務(wù)的能力。這種能力怎么來的呢?因?yàn)槲覀冇幸粋€(gè)大規(guī)模的預(yù)訓(xùn)練基礎(chǔ)模型，已經(jīng)有非常豐富的關(guān)于語言、知識的基礎(chǔ)信息在里面，是一個(gè)很好的基礎(chǔ)模型。

　　有了這個(gè)基礎(chǔ)，針對行業(yè)性問題，找到行業(yè)性數(shù)據(jù)和真正的任務(wù)去跟它做一個(gè)應(yīng)用調(diào)優(yōu)和反饋強(qiáng)化，它的可靠性解決會更好。

　　通用，是說“無監(jiān)督預(yù)訓(xùn)練+行業(yè)應(yīng)用調(diào)優(yōu)+反饋強(qiáng)化學(xué)習(xí)”技術(shù)框架是通用的。專用，是通用大模型框架優(yōu)先在特定行業(yè)應(yīng)用，訓(xùn)練行業(yè)專用的大模型，解決各種專業(yè)問題，讓它的可用性和可靠性達(dá)到實(shí)際應(yīng)用的要求。這兩個(gè)概念不應(yīng)該被對立起來。

　　Q：前幾天ChatGPT已經(jīng)接受插件，對行業(yè)的知識可以直接調(diào)用了。這對你們現(xiàn)在做的事情是不是一種威脅?

　　A：這是目前解決ChatGPT可靠性最直接的方法，現(xiàn)在這個(gè)行業(yè)調(diào)用，其實(shí)還是傳統(tǒng)API能力通過自然語言的整合。我們認(rèn)為比較理想的手段，可能是前面有一個(gè)什么都能聊的多模態(tài)對話式模型，它能進(jìn)行豐富的自然語言交互，涉及專業(yè)度很高的問題，轉(zhuǎn)到后面的行業(yè)大模型來精準(zhǔn)高效解決。

　　為什么后面的行業(yè)問題也需要用大模型來重新刷一遍?就在于現(xiàn)在用的API都是寫死的，我定義幾個(gè)功能，你就只能用這幾種能力。未來可能要用大模型把更多專業(yè)能力解鎖出來，這樣更靈活，也更完善�，F(xiàn)在ChatGPT出來后，直接調(diào)用是一個(gè)比較取巧也有效的方案，但這可能不是最終狀態(tài)。

　　我們過去很多需求實(shí)際上是受限于技術(shù)能力被鎖死的，像人機(jī)交互，最早是專業(yè)的工程師用打孔機(jī)才能搞定的，后面變成鍵盤、鼠標(biāo)，再變成觸屏，未來可能就徹底變成自然語言交互了。演進(jìn)趨勢是很明確的，它至少已經(jīng)很準(zhǔn)確的理解你的意圖，可能回應(yīng)還有一些胡說八道的東西，但我覺得用自然語言跟機(jī)器做交互，未來會成為一個(gè)標(biāo)配�，F(xiàn)在你還要有“提示詞”的技巧，未來這個(gè)要求也會降低下來。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信