阿里云創(chuàng)業(yè)者社群｜大模型的 2024：「天上」的技術(shù)，和「地上」的創(chuàng)業(yè)者

2024年02月07日 11:15:51 來源：中文科技資訊

　　2023 年，OpenAI 引領(lǐng)了科技圈久違的興奮，創(chuàng)業(yè)者感到有奔頭的同時(shí)，卻也隨著 AI 模型的一再進(jìn)化，感受到了壓力。

　　在春節(jié)前夕，算力、模型、應(yīng)用等領(lǐng)域的大模型創(chuàng)業(yè)者，齊聚在一場創(chuàng)業(yè)者社群的活動上，切磋各自在不斷進(jìn)化的大模型中找到的空間。面對呼之欲出的 GPT-5 和 Llama3，他們也有新的思考。

　　站在模型層面，差異化很難，方向幾乎是明確的——增強(qiáng)推理能力和多模態(tài)。也有技術(shù)路線的分野，比如阿里云通義實(shí)驗(yàn)室智能對話負(fù)責(zé)人李永彬透露，目前在思考是否能把搜索增強(qiáng)這樣的外掛能力，做到模型里，進(jìn)一步提升模型的可用性。

　　但站在應(yīng)用層，多的是非共識和機(jī)會。比如，跑得最快的一批創(chuàng)業(yè)者，已經(jīng)實(shí)現(xiàn)了一定程度的商業(yè)閉環(huán)，得出的結(jié)論甚至有些意外：「大模型含量」不宜過高。

　　這群下場做大模型的實(shí)干家也談到了行業(yè)內(nèi)最真實(shí)的情況。智譜 AI COO 張帆道出，今天的榜單其實(shí)不反映真實(shí)問題，GPT-4 可能連榜單前 10 名都進(jìn)不了。他認(rèn)為，這種情況下，2024 年一定會發(fā)生從模型為王到價(jià)值為王的變化。

　　百川智能聯(lián)合創(chuàng)始人洪濤則更關(guān)心成本，他表示，一年下來苦哈哈做各種私有化項(xiàng)目，到底掙多少錢，其實(shí)內(nèi)心沒把握。在這一點(diǎn)上，大家也探討了云計(jì)算廠商能否在整個行業(yè)沒有商業(yè)模式之前，降低算力成本的路徑，讓該花的錢少一點(diǎn)。

　　近日，阿里云創(chuàng)業(yè)者社群在北京舉辦創(chuàng)業(yè)者之夜活動|阿里云

　　在「創(chuàng)業(yè)者之夜」，各位大模型的先行者分享了各自對行業(yè)的「預(yù)言」;AI 應(yīng)用的創(chuàng)業(yè)者們，也分享了對于大模型的「焦慮」。

　　01 2024，大模型往哪走?

　　2023 年，阿里云李永彬游走于大模型業(yè)務(wù)一線。一整年忙活下來，他發(fā)現(xiàn)：最初，大模型讓「AI 解決問題」這件事的效果從 20 分提高到 60 分，就能夠驚艷所有人，但是對于很多問題，60 分和 0 分差不多。因?yàn)樵谝恍⿷?yīng)用場景，沒辦法拿 60 分的產(chǎn)品上線，效果到不了 90 分，客戶可能也不會買單。

　　這也是 2023 年大模型創(chuàng)業(yè)者們共同的體感。從興奮回歸到理性，背后是共同的困惑——大模型還不夠通用，它會不會像上一波 AI 一樣，盡管展現(xiàn)出驚人的能力，但落到場景時(shí)仍舊需要逐個項(xiàng)目定制化?

　　大家自然就產(chǎn)生了 2024 年對大模型的第一個期待——通用能力進(jìn)一步提升，甚至期待模型在一些復(fù)雜場景能直接做到 90 分。

　　這種可能性不是無跡可尋。IDEA 研究院講席科學(xué)家張家興認(rèn)為，從目前 OpenAI、谷歌等大廠對下一代大模型的判斷，大模型能解決復(fù)雜問題會成為接下來進(jìn)化的方向。

　　AlphaGeometry: An Olympiad-level AI system for geometry|圖片來源：DeepMind 官網(wǎng)

　　就在兩周前，谷歌 DeepMind 推出的 AlphaGeometry(阿爾法幾何)AI 系統(tǒng)，已經(jīng)能在 30 道國際奧數(shù)題中做對 25 道，接近人類水平(人類金牌得主平均做對 25.9 道)。像這樣能解決奧數(shù)級別的幾何問題，被視為邁向更先進(jìn)、更通用 AI 的重要里程碑。在 IDEA 研究院張家興看來，「奧數(shù)就是復(fù)雜問題，問題的描述很復(fù)雜，求解過程、證明過程也很復(fù)雜」，能解決復(fù)雜問題是模型變得更通用的表現(xiàn)之一。

　　阿里云創(chuàng)業(yè)孵化事業(yè)部總經(jīng)理李中雨認(rèn)為，從 GPT-5 目前釋放的信息看，模型的泛化能力在提升，解決復(fù)雜任務(wù)的能力也在提升，甚至接下來 GPT-5 可以解決 15%-20% 人類的任務(wù)。

　　在提升模型的通用性上，也有新思路。

　　一位來自模型廠商的與會者分享，最近絕大多數(shù)企業(yè)落地大模型時(shí)都會用到 RAG(搜索增強(qiáng))，從而將大模型和私有數(shù)據(jù)結(jié)合起來，提升模型可用性。但作為模型側(cè)的開發(fā)者，也在探索算法創(chuàng)新，通過算法創(chuàng)新提高模型的學(xué)習(xí)能力，把像 RAG 這樣的外掛知識庫囊括進(jìn)去，從而減少對模型數(shù)據(jù)訓(xùn)練的依賴。換言之，通過算法創(chuàng)新，以期讓模型像人類學(xué)習(xí)一樣，看一本書就可以理解知識，而不需要看所有書來理解一個問題。

　　在這一點(diǎn)上，GPT-5 提供了很好的示范。智譜 AI 張帆認(rèn)為，更強(qiáng)大的推理能力讓處理復(fù)雜任務(wù)成為可能，同時(shí)也帶來了非常強(qiáng)的泛化能力。模型會在各個行業(yè)場景都能有很好的 Zero-Shot、One-Shot 能力(給模型一個例子甚至不給例子，它就可以涌現(xiàn)出對應(yīng)的能力)，從而減少對訓(xùn)練數(shù)據(jù)的依賴。通過小數(shù)據(jù)集的訓(xùn)練，就可以把模型引入到更多更垂直的領(lǐng)域。如此一來，可以降低客戶使用模型的門檻，增加其可用性。

　　除了通用性，多模態(tài)能力也被期待在 2024 年能有更大突破。

　　去年底，從 GPT-4 到谷歌 Gemini，已經(jīng)充分展現(xiàn)了大模型的演進(jìn)，拓展以大語言模型為核心的更大體系的 AI，必然會涉及多模態(tài)能力。

　　張家興預(yù)判，就像 2022 年底 ChatGPT 的出現(xiàn)，導(dǎo)致 2023 年所有人都在做大語言模型一樣，2024 年整個業(yè)界可能會聚焦多模態(tài)。這并不只是因?yàn)槎嗄B(tài)能帶來更強(qiáng)的能力，更因?yàn)槎嗄B(tài)的應(yīng)用場景多，在端側(cè)比如車和機(jī)器人的場景，多模態(tài)非常重要。

　　在多模態(tài)的技術(shù)實(shí)現(xiàn)上，也有一些技術(shù)融合的新視角。

　　在多模態(tài)領(lǐng)域做探索，中科深智創(chuàng)始人成維忠注意到前段時(shí)間圖靈獎得主 Lecun 的一個采訪，他并不認(rèn)同現(xiàn)在大家做多模態(tài)的技術(shù)路線——把圖片視頻還原為像素，Lecun 認(rèn)為未來的多模態(tài)訓(xùn)練是應(yīng)該以表征事件為主。

　　在這一話題的討論上，與會者一方面認(rèn)為，ChatGPT 也不是規(guī)劃出來的，技術(shù)路線可能是干出來的，能用今天的技術(shù)落地往前走、不斷改進(jìn)是前提。另一方面，盡管路線之爭的存在，但也不是不能調(diào)和的，有很多中間的路線可以走，是連續(xù)的。比如，張家興分享了 IDEA 內(nèi)部的實(shí)踐，稱稱目標(biāo)識別等計(jì)算機(jī)視覺特征是可以作為多模態(tài)大模型的輸⼊，實(shí)踐下來的效果⾮常好。

　　從左到右分別是阿里云創(chuàng)業(yè)孵化事業(yè)部總經(jīng)理李中雨;智譜 AICOO 張帆;百川智能聯(lián)合創(chuàng)始人、總裁洪濤;元璟資本管理合伙人劉毅然;IDEA 研究院認(rèn)知計(jì)算與自然語言講席科學(xué)家張家興、通義實(shí)驗(yàn)室對話智能負(fù)責(zé)人李永彬 | 阿里云

　　02 2024，大模型如何落地?

　　如前所述，對于大模型接下來的趨勢預(yù)判，推理能力和多模態(tài)能力的提升成為清晰、明確的目標(biāo)。但談到 AI 應(yīng)用，更多是非共識的思考，創(chuàng)業(yè)者一致認(rèn)為需要在非共識中尋找機(jī)會。

　　就拿大模型落地應(yīng)用要考慮的第一件事——模型選型來說，目前也還沒有達(dá)成共識。智譜 AI 張帆笑稱，以現(xiàn)在模型評測卷出天際的背景下，「OpenAI 的 GPT-4 都排不到模型評測榜單的前兩頁」。

　　的確，幾個月以來，不少模型創(chuàng)業(yè)者都向極客公園表達(dá)了類似的觀察：模型評測榜單不反映真實(shí)情況。在「模型為王」的愿景下，的確會出現(xiàn)提前讓模型「看題」、「背題」來獲得高分的情況。但更重要的是，當(dāng)涉及到千行百業(yè)的不同場景，很難用一套標(biāo)準(zhǔn)來評價(jià)模型的可用性。

　　實(shí)踐過后，大家更認(rèn)同在一個個真實(shí)的具體場景里不斷測試評估。比如，獵聘在+大模型的探索上，最大的研發(fā)成本就花在測試不同的模型上。獵聘 CEO 戴科彬表示，對于什么場景用什么模型、多大尺寸的模型最高效，沒有標(biāo)準(zhǔn)答案，就連評價(jià)標(biāo)準(zhǔn)也要根據(jù)情況調(diào)整。

　　除了模型選型，模型落地也開始出現(xiàn)一些可操作的判斷標(biāo)準(zhǔn)。無論是在原有應(yīng)用里+大模型，還是一些 AI Native 應(yīng)用的探索，都出現(xiàn)了能形成商業(yè)閉環(huán)的可能性。

　　這里首先要考慮大模型技術(shù)分布的獨(dú)特性。元璟資本管理合伙人劉毅然認(rèn)為，AI 應(yīng)用存在巨大的不確定和非共識機(jī)會，這與這一波 AI 技術(shù)的特點(diǎn)有關(guān)。

　　移動互聯(lián)網(wǎng)時(shí)代，應(yīng)用的底層基礎(chǔ)設(shè)施是一樣的，都是基于蘋果 iOS 和 LBS 定位來做產(chǎn)品。相比之下，大模型應(yīng)用則是一個個垂直優(yōu)化的過程，底層模型哪部分用開源版、哪部分微調(diào)、調(diào)整哪些問題，再視情況優(yōu)化功能和應(yīng)用。創(chuàng)業(yè)者需要充分懂技術(shù)，再做產(chǎn)品的封裝，這個過程存在很大優(yōu)化空間和機(jī)會。

　　這就提出了探索 AI 應(yīng)用的第一條原則——TPF(技術(shù)產(chǎn)品匹配)，百川智能創(chuàng)始人王小川在極客公園創(chuàng)新大會 2024 大會上曾提到過這個名詞，指的是在現(xiàn)有大模型技術(shù)不完美時(shí)，先明確「這樣一個技術(shù)適合什么樣的產(chǎn)品」，而不是產(chǎn)品經(jīng)理洞察市場有什么需求，回來就開始做。

　　因?yàn)閺拇竽Ｐ偷?AI 應(yīng)用，「今天最大的挑戰(zhàn)不是找到『什么不行』，這件事不難，人人都能夠做到。難的是能找到它『什么行』，找到模型能力和業(yè)務(wù)的最大公約數(shù)，變成正向循環(huán)�！怪亲V AI 張帆認(rèn)為，這會成為 2024 年大模型落地的重點(diǎn)。

　　盡管這樣的實(shí)踐可能不是投資人尋找的 AI Native 應(yīng)用，但是務(wù)實(shí)地看，通過在可用場景里，基于模型和工程化手段把大模型應(yīng)用產(chǎn)品化，數(shù)據(jù)和客戶反饋的飛輪會推著 AI 應(yīng)用向前迭代。百川智能聯(lián)合創(chuàng)始人洪濤提到了一個有趣的觀察，做 AI 應(yīng)用的創(chuàng)業(yè)者甚至覺得以當(dāng)前大模型技術(shù)成熟度，AI 應(yīng)用「含大模型量」不宜過高。

　　在游戲領(lǐng)域，昆侖萬維集團(tuán)董事長兼 CEO 方漢有類似的觀察。通過純 AI 大模型直接生成 3D 游戲內(nèi)容，會造成面數(shù)特別多、規(guī)格不匹配等問題。這時(shí)如果換一個思路，把傳統(tǒng)的一些簡單動畫工具，融合進(jìn) AI 大模型的工作流之后，產(chǎn)品的可用性就大大提高。

　　在他看來，什么好用就用什么，拼出對用戶最有價(jià)值的工作流，這是作為 AI 應(yīng)用開發(fā)商的價(jià)值所在。

　　看得出，在原有應(yīng)用里+大模型、探索更好的工作流，是把大模型智力變成生產(chǎn)力最直接的方式。智譜 AI 張帆認(rèn)為，這也是 2024 年產(chǎn)業(yè)關(guān)注的重點(diǎn)。

　　與此同時(shí)，一些令人驚艷的 AI Native 應(yīng)用也開始出現(xiàn)。

　　就像移動互聯(lián)網(wǎng)技術(shù)下，出現(xiàn)隨時(shí)隨地刷短視頻的用戶需求一樣，大模型技術(shù)下也開始出現(xiàn)一些獨(dú)有的場景。比如一位 AI 應(yīng)用投資人現(xiàn)場分享了一款還在定向邀測的海外應(yīng)用 Can of Soup，一款想象力社交軟件。用戶利用 AI 生成虛擬圖像，發(fā)布在網(wǎng)站上，互相評論，還可以邀請朋友進(jìn)行「想象力」共創(chuàng)、點(diǎn)評，這款產(chǎn)品可以類比為「想象力版 Instagram」。

　　「這款應(yīng)用在海外 DAU 增長非常快，不知道最后能不能成，但是非常有意義的探索，代表不僅現(xiàn)實(shí)的生活可以分享、可以社交，你的想象力也可以被社交，這就是非常典型的 AI 原生的應(yīng)用，發(fā)現(xiàn)了新的行為模式」，他補(bǔ)充說。

　　除了像 Can of Soup 這樣捕捉新技術(shù)下的人類新需求，新技術(shù)也給熟悉的場景帶來了更好的解決方案，為用戶帶來更易用、好用的體驗(yàn)。

　　就拿現(xiàn)在最火熱的智能體來說，智譜 AI 張帆認(rèn)為，很多 GPTs 能做的事情非常淺，很難用作生產(chǎn)工具。這些 GPTs 背后的流程大體是按照人的理解邏輯來執(zhí)行，先做分類、再做模型、再做任務(wù)，但是這種智能體運(yùn)行的方式是受限的，他認(rèn)為，「嚴(yán)格來講，這種外掛工程的方式不算是 agent，只是大號的模型應(yīng)用」。

　　相比之下，他發(fā)現(xiàn)字節(jié)跳動在海外推出的 Coze 玩法不一樣，同樣是 GPTs 類應(yīng)用，Coze 的模式是利用背后大模型的遞歸和迭代的能力和表達(dá)力，這是更加原生的智能體，效果也更好。

　　張帆稱，這是他看到比較興奮的方向，能夠用更簡單的方式、更通用的方式，不需要微調(diào)，僅僅用基礎(chǔ)的表述就能夠解決真正的復(fù)雜問題，把從模型到應(yīng)用之間的 100 公里降到 100 米。但也有前提，像 Coze 這樣的原生模式，高度依賴背后的模型能力，模型強(qiáng)大到足夠通用，才可以實(shí)現(xiàn)。

智譜 AI COO 張帆在活動上做分享|阿里云

　　除了軟件類 AI 應(yīng)用，結(jié)合端側(cè)場景的應(yīng)用也值得期待，尤其機(jī)器人領(lǐng)域。說起 2023 年最眼前一亮的應(yīng)用，張家興認(rèn)為是谷歌的 RT-2(Robotics Transformer 2，一款機(jī)器人大模型)，看到了⽤⾃然語⾔定義任意機(jī)器人任務(wù)的曙光。他認(rèn)為，⼤模型在機(jī)器⼈領(lǐng)域正在期待 ChatGPT 時(shí)刻。

　　元璟資本劉毅然舉了一個例子，過去機(jī)器人領(lǐng)域有一些常規(guī)，比如用數(shù)學(xué)規(guī)律來描述復(fù)雜動態(tài)體的運(yùn)動，現(xiàn)在，大模型對于像這樣的數(shù)學(xué)描述過程有放大作用，但距離大模型真正進(jìn)入機(jī)器人或者手機(jī)、車、AI Pin 等硬件，可能還需要些時(shí)間。

　　「天上的大模型能否落在地上的設(shè)備上面，是值得期待的」他說道。盡管通用的物理世界大模型的價(jià)值最大，是科學(xué)家夢寐以求的，但在前面加合適的定語，是創(chuàng)業(yè)者今天就可以做、也可以有收獲的。難點(diǎn)在于，前面怎么加定語，能符合今天的技術(shù)階段，也能把商業(yè)化和產(chǎn)品結(jié)合在一起，不停向前進(jìn)。

　　03 2024，大模型「基建」的意義

　　有了對 AI 應(yīng)用百花齊放的期待和判斷，創(chuàng)業(yè)者也對整個大模型的技術(shù)體系寄予新期待，尤其是數(shù)據(jù)、算力和開源算法。

　　數(shù)據(jù)被視為模型訓(xùn)練、微調(diào)等動作產(chǎn)生效果最重要的因素之一。在獲取高質(zhì)量數(shù)據(jù)上，方漢提出了不同的思考。在他看來，很多大模型有更快的方法獲取數(shù)據(jù)，比如通過用 GPT-4 做「教練」來獲得，但是在數(shù)據(jù)獲取方面，團(tuán)隊(duì)?wèi)?yīng)該有「長期主義」精神，不然「很難走遠(yuǎn)」。

　　昆侖萬維董事長、CEO 方漢在交流環(huán)節(jié)分享昆侖萬維+大模型的實(shí)踐|圖片來源：阿里云

　　在對比了全球市場后，昆侖萬維方漢認(rèn)為，垂類數(shù)據(jù)是中國公司上場和發(fā)力的方向。有了垂類高質(zhì)量數(shù)據(jù)，才有機(jī)會在垂直場景里面做到 SOTA(指前沿、第一梯隊(duì)的模型)，率先獲得垂直場景的紅利。

　　在算力層，成本成為主要的關(guān)注點(diǎn)。

　　百川智能洪濤坦言，大模型商業(yè)模式的探索有相對長期的試錯過程，云計(jì)算層面繼續(xù)突破、攤薄創(chuàng)新成本，是眼下比較關(guān)注的方向。

　　在這一點(diǎn)上，阿里云公共云總裁劉偉光認(rèn)為云和 AI 的結(jié)合會逐漸解決這個問題。

　　云計(jì)算對傳統(tǒng) IT 的意義，和融合AI的意義完全不同。AI 和云是魚和水，密不可分，二者的結(jié)合是 AI 應(yīng)用的催化劑。同時(shí)，云計(jì)算能力的不斷演進(jìn)，包括 GPU 算力、配套的計(jì)算存儲、網(wǎng)絡(luò)能力的演進(jìn)，會對 AI 產(chǎn)生非常大的支撐。

　　「在談AI原生應(yīng)用之前，其實(shí)有一點(diǎn)被忽略了——AI 是云的原生應(yīng)用。二者的結(jié)合還有很大優(yōu)化空間」他說道。隨著大模型包括 AIGC(應(yīng)用)更加細(xì)分，對算力的需求也會逐漸細(xì)分化，而不是簡單粗暴地購買算力，這也是阿里云不斷探索的事情。

　　在這一點(diǎn)上，云、端結(jié)合的方式也被寄予厚望，昆侖萬維方漢認(rèn)為，降低模型推理成本，要結(jié)合端側(cè)推理，手機(jī)側(cè)可以做小參數(shù)量模型的推理，和云端大參數(shù)量模型推理結(jié)合起來。

　　算法層面，Meta 開源的 LLaMA 和 Llama2 為產(chǎn)業(yè)模型發(fā)展提速，帶來了繁榮的開發(fā)者生態(tài)。不久前，Mistral 創(chuàng)始人也袒露借鑒了 Llama2 的開源模型，但開發(fā)者普遍稱，Mistral 的效果實(shí)際用下來要比 Llama2 更好。

　　國內(nèi)模型廠商也越來越多地選擇開源模型，但也有創(chuàng)業(yè)者表示，不確定國內(nèi)尤其是大廠開源模型背后的考量，會不會只是一時(shí)的。比如，獵聘戴科彬就認(rèn)為，阿里云開源的 72B 大模型效果非常好，但也好奇其背后的思考。

　　在創(chuàng)業(yè)者之夜上，阿里云市場總裁劉湘雯直面這一提問。她表示，阿里云會持續(xù)開源，這并非僅僅為了公益，而是基于對商業(yè)的判斷。

　　阿里云創(chuàng)業(yè)者之夜活動現(xiàn)場|阿里云

　　在這場創(chuàng)業(yè)者活動中，極客公園看到了共識，也看到了更多共識的觀點(diǎn)在嘉賓之中激烈碰撞。而這恰恰代表了由大模型引發(fā)的新一波 AI 浪潮中所蘊(yùn)含的機(jī)遇。你可以想象，在 20 年前移動互聯(lián)網(wǎng)剛剛興起的時(shí)候，在類似活動，同樣充滿了相同的爭論和見解。

　　不同的是，變革的「基建」從運(yùn)營商，變成了現(xiàn)在以阿里云為代表的云計(jì)算廠商。在大模型時(shí)代，阿里云不僅要自己下場「摸清」大模型上下游的真實(shí)情況，更需要在這樣的創(chuàng)業(yè)者之夜活動中，和大模型行業(yè)的「玩家」共同找到行業(yè)發(fā)展的方向，根據(jù)后者不斷變化的需求，增加阿里云「AI 基建」的各種能力，來和創(chuàng)業(yè)者們一起成長、成功。

　　大模型時(shí)代，「計(jì)算，為了無法計(jì)算的價(jià)值」有新的內(nèi)涵，在阿里云舉辦的創(chuàng)業(yè)者之夜活動上，這群先行者率先開始探索最開放的技術(shù)體系里，新的變化。

　　寫在最后：

　　創(chuàng)業(yè)者之夜活動由阿里云創(chuàng)業(yè)者社群舉辦。社群聚集中國最前沿的技術(shù)創(chuàng)新者，聚焦云與 AI 技術(shù)方向、以及 AI 在產(chǎn)業(yè)中的落地應(yīng)用等核心主題，發(fā)起各類技術(shù)及產(chǎn)業(yè)閉門活動與研討，與社群成員形成長期共創(chuàng)體系，與技術(shù)創(chuàng)新者們共同成長。

　　作者 | 宛辰

　　編輯 | 靖宇

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. X019 ]
分享到微信