紅杉匯分享：一文讀懂生成式AI

2022年09月28日 14:13:51 Sonya Huang、Pat Grady、GPT-3 編譯 來源：微信公眾號：紅杉匯

　　[ 編者按 ]人類擅長分析，但機器做得更好。機器可以分析數(shù)據(jù)，并針對不同用例需求找到相應(yīng)的規(guī)律——不管是詐騙信息識別、垃圾郵件檢測、預(yù)測快遞送達時間還是為你推薦可能感興趣的短視頻——而且它們還在不斷迭代，變得越來越聰明。這種機器被稱為“分析式人工智能”(Analytical AI)，或者傳統(tǒng)AI。

　　但人類不僅擅長分析，還擅長創(chuàng)造——比如寫詩、設(shè)計產(chǎn)品、制作游戲與編寫程序代碼。以前，機器在這些方面無法與人類抗衡，它們只能做些分析型或機械式的認(rèn)知計算。但現(xiàn)在不一樣了，AI發(fā)展到了新的階段，機器已經(jīng)開始可以創(chuàng)造有意義并具備美感的東西了。這一新型的AI被稱為“生成式人工智能”(Generative AI)，也就是說，機器并非如之前那樣僅分析已有的數(shù)據(jù)，而是生成了全新的東西。

　　生成式AI不僅正在變得更快、更便宜，而且在某些情況下，其生成的結(jié)果比人類手工創(chuàng)造的還要好。從社交媒體到游戲，從廣告到建筑，從編程到平面設(shè)計，從產(chǎn)品設(shè)計到法律，從市場營銷到銷售，每一個需要人類原創(chuàng)力的行業(yè)都將有可能會被顛覆。某些崗位將完全被生成式AI取代，有些則會在生成式AI的幫助下更好地促進人機協(xié)作——但總體來說，生成式AI將有非常廣泛的終端應(yīng)用市場，幫助人們更好、更快并以成本更低的方式去創(chuàng)作。最理想的情況是，生成式AI將會把創(chuàng)作與知識類勞動的邊際成本降為零，極大提升生產(chǎn)力并創(chuàng)造巨大的經(jīng)濟價值——當(dāng)然還有相應(yīng)的市場價值。

　　為什么是現(xiàn)在?

　　和更廣泛意義上的AI一樣，生成式AI也需要思考“為什么是現(xiàn)在”這樣的問題——因為現(xiàn)在有了更好的模型、更多數(shù)據(jù)、可以做更多的計算。這一方向的發(fā)展變化遠比我們想象的要快，為了更好理解它當(dāng)下的發(fā)展進程，我們不妨先梳理一下它最近的發(fā)展歷史。

　　*波發(fā)展浪潮：

　　小模型至上階段(2015年以前)

　　2015年以前，小模型被認(rèn)為是理解語言的“*進的技術(shù)”。這些小模型更擅長分析型任務(wù)，因此被用于從“預(yù)測送達時間”到“欺詐信息分類”等各類任務(wù)中。然而，對于通用的生成任務(wù)來說，它們的表達能力還不夠，生成人類水平的文章或代碼仍然是白日做夢。

　　第二波發(fā)展浪潮：

　　規(guī)模化競賽階段(2015年-今天)

　　谷歌研究院的一篇里程碑式的論文《只要注意力機制就夠了》(《Attention is All You Need》)，向人們描述了一種用于自然語言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)——Transformers模型(有時翻譯為“變換器”模型)，它不但能生成質(zhì)量上乘的語言模型，同時具有更高的可并行性，大大降低了所需的訓(xùn)練時間。這些小樣本學(xué)習(xí)模型，可以相對更容易地針對特定領(lǐng)域做定制修改。

　　隨著AI模型逐漸發(fā)展壯大，它們已經(jīng)開始超越人類的基準(zhǔn)水平。

　　當(dāng)然，隨著模型越來越大，它們開始匹敵人類，然后超越人類。從2015年到2020年，用于訓(xùn)練這些模型的計算量增加了6個數(shù)量級，其表現(xiàn)在手寫、語音和圖像識別、閱讀理解和語言理解方面超過了人類的基準(zhǔn)水平。其中OpenAI的GPT-3模型的表現(xiàn)尤為突出：不僅性能相較上一代的GPT-2有了巨大的飛躍，從他們發(fā)布的示例也能看到，不管是生成編程代碼還是寫冷笑話，其表現(xiàn)都讓人吃驚。

　　盡管所有的基礎(chǔ)研究都取得了進展，但這些模型在應(yīng)用方面卻都沒有鋪得太開。它們龐大且難以運行(需要GPU編排)、缺乏廣泛應(yīng)用(沒有公開可用的版本，或僅有封閉測試版)，而且作為云服務(wù)的使用成本極高。盡管如此，最早期的生成式AI已經(jīng)開始進入公眾視野。

　　第三波發(fā)展浪潮：

　　更好、更快、更便宜階段

　　(2022年之后)

　　首先是計算成本開始下降。新的技術(shù)，如擴散模型，縮減了訓(xùn)練和運行推理所需的成本。與此同時，研究學(xué)界也在持續(xù)開發(fā)更好的算法與規(guī)模更大的模型。而開發(fā)者的權(quán)限也有了變化，從封閉測試版擴大到開放測試版，甚至有些模型還開放了源代碼供開發(fā)人員調(diào)用。

　　對于那些一直渴望使用大型語言模型(LLM)的開發(fā)人員來說，探索和應(yīng)用開發(fā)的大門已經(jīng)打開，基于這些技術(shù)的應(yīng)用開始大量涌現(xiàn)。

　　第四波發(fā)展浪潮：

　　殺手級應(yīng)用涌現(xiàn)階段(現(xiàn)在)

　　隨著各大平臺發(fā)展成熟，AI模型繼續(xù)變得更好、更快、更便宜，越來越多的模型免費、開源，應(yīng)用層面將出現(xiàn)大爆發(fā)。

　　正如當(dāng)初移動通信技術(shù)在結(jié)合了GPS定位、相機及隨身連接等新功能與特點后，催生了一系列新型的應(yīng)用程序，我們預(yù)計當(dāng)下AI模型的發(fā)展也將推動新一輪生成式AI應(yīng)用的爆發(fā)。正如十年前移動通信的拐點為少數(shù)幾個殺手級應(yīng)用創(chuàng)造了市場機會一樣，我們預(yù)計殺手級應(yīng)用也將出現(xiàn)在生成式AI領(lǐng)域中。大家爭相發(fā)力，前景讓人期待。

　　市場格局

　　下圖為不同細分方向應(yīng)用的格局分布圖，可以看到各個細分方向的應(yīng)用平臺與應(yīng)用模型。

　　模型

　　● 文本領(lǐng)域。文本是發(fā)展最完備的領(lǐng)域。然而，想要語言表達自然流暢是個十分高的標(biāo)準(zhǔn)。如今，這些模型在通用的中、短篇寫作方面表現(xiàn)還算不錯(但即便如此，它們通常也只是被用來生成初稿或?qū)Τ醺遄龅晟?。隨著時間的推移，模型越來越好，我們有望可以看到更高質(zhì)量及更長篇的內(nèi)容，并且針對各垂直領(lǐng)域有特定的優(yōu)化。

　　● 代碼生成。正如GitHub CoPilot所顯示出的效果，很快，代碼生成就會變得十分普遍，它能極大提高程序開發(fā)者的生產(chǎn)力。而對于非專業(yè)人員，借由這些工具，編寫代碼也將不是難事。

　　● 圖像領(lǐng)域。圖像領(lǐng)域的應(yīng)用爆發(fā)是新近之事，但也可謂勢不可擋：畢竟，在社交媒體上分享生成的圖像比文字要有趣得多。而且我們也看到，市面上出現(xiàn)了非常多不同審美風(fēng)格的圖像模型，以及編輯和修改生成圖像的不同技術(shù)。

　　● 語音合成。語音合成的應(yīng)用已經(jīng)有段時間了(比如蘋果設(shè)備上的語音助手Siri)，但消費與企業(yè)級的應(yīng)用才剛剛起步。對于像電影和播客這樣的高端應(yīng)用來說，要想一次性生成與配音演員或主播錄音一樣不機械、有自然質(zhì)感的作品，還有很長的路要走。但就像圖像領(lǐng)域一樣，現(xiàn)在的模型也將成為將來更優(yōu)秀模型的發(fā)展基礎(chǔ)。

　　● 視頻和3D模型領(lǐng)域。這一領(lǐng)域的進步則要緩慢不少，人們期待AI模型在這些創(chuàng)意領(lǐng)域(如電影、游戲、VR、建筑和實體產(chǎn)品設(shè)計)的進一步應(yīng)用潛力。預(yù)計在未來1-2年內(nèi)，我們將能看到一些基礎(chǔ)的3D和視頻生成模型。

　　● 其它領(lǐng)域。其它許多領(lǐng)域還處于基礎(chǔ)模型的研發(fā)階段，如音頻、音樂到生物與化學(xué)領(lǐng)域。

　　下圖是這些基本模型的進展與相關(guān)應(yīng)用的發(fā)展進程時間表，2025年之后的時間為預(yù)估時間。

　　應(yīng)用

　　接下來為你介紹的是一些讓我們感覺十分興奮的應(yīng)用場景。但實際上，可應(yīng)用范圍將遠比本文所描述的多，創(chuàng)始人和開發(fā)人員對于各路應(yīng)用場景的奇思妙想讓我們連連贊嘆。

　　●文案寫作。日益增長的個性化網(wǎng)頁、電子郵件等網(wǎng)絡(luò)空間，用以支持銷售和營銷戰(zhàn)略，甚至提供更好的售后服務(wù)，都將催生大量的文案寫作需求。這些短小精悍、格式相對固定的宣傳式話語，再加上相關(guān)從業(yè)人員工作壓力大、預(yù)算不高等特點，這一領(lǐng)域?qū)⑹俏陌笇懽餍虯I實現(xiàn)自動化與寫作增強方案的*用武之地。

　　●特定垂直領(lǐng)域的寫作助手。如今大部分寫作都是橫向的;但我們相信，對于特定的終端市場，從擬定法律合同到劇本創(chuàng)作，都有可能借助生成式AI的力量獲得更長足的發(fā)展。在這一領(lǐng)域，產(chǎn)品差異化的主要發(fā)力點將是對特定工作流程模型和用戶體驗?zāi)Ｊ降募毠?jié)打磨。

　　●代碼生成。如今在該領(lǐng)域，生成式AI的應(yīng)用已經(jīng)帶來了質(zhì)的提升，程序開發(fā)人員的生產(chǎn)力和創(chuàng)造力都被極大增強：如今使用GitHub Copilot生成的程序中，有近40%的代碼是由AI生成的。但如果打開想象，我們甚至可以設(shè)想，將來借助更好的生成式AI，普通消費者(非專業(yè)程序開發(fā)人員)也將有能力自行創(chuàng)作程序代碼�；谔崾镜膶W(xué)習(xí)(Learning to prompt，譯注：一種新的AI訓(xùn)練方式)將有可能成為最終的高級編程語言。

　　●藝術(shù)作品生成。如今，不少大型的AI已經(jīng)將整個藝術(shù)史和流行文化的作品數(shù)據(jù)編碼進了模型當(dāng)中，任何人都可以隨意生成——以前可能需要人花一輩子才能掌握的——想要的藝術(shù)風(fēng)格的作品。

　　●游戲。最理想的應(yīng)用狀態(tài)是人們可以使用自然語言來創(chuàng)建復(fù)雜的場景或可操縱的模型;我們離這樣的夢想還有很遙遠的距離，但在短期范圍內(nèi)，還是有不少可實現(xiàn)的場景應(yīng)用，比如生成游戲場景的紋理或Skybox VR場景的圖像等。

　　●媒體/廣告。我們大可暢想自動化廣告代理的潛力——它將能針對不同的消費者來優(yōu)化廣告文案與創(chuàng)意。而多模態(tài)生成的應(yīng)用將能更好地針對不同的銷售信息生成互補性視覺效果廣告。

　　●設(shè)計。數(shù)字和實體產(chǎn)品的原型設(shè)計是一個勞動密集且往往需要不斷反復(fù)修改的過程。現(xiàn)在的生成性AI已經(jīng)實現(xiàn)了根據(jù)粗略的草圖與文字描述生成高保真渲染圖。隨著這一技術(shù)往3D模型的方向發(fā)展，生成設(shè)計過程將打通從文字到具體產(chǎn)品實物的全流程。你的下一款手機應(yīng)用程序，或?qū)淼哪畴p運動鞋，說不定都將是AI設(shè)計生成的。

　　●社交媒體與數(shù)字社區(qū)。會不會有人借助AI生成的方式來自我表達呢?當(dāng)然，現(xiàn)在像Midjourney這樣的新應(yīng)用便正在創(chuàng)造新的社交體驗——消費者可以學(xué)著生成獨具個性的作品來做公共表達。

　　生成式AI應(yīng)用解剖

　　生成式AI應(yīng)用會是什么樣子呢?這里有一些預(yù)測可供參考。

　　智能化與模型微調(diào)

　　生成式AI應(yīng)用的底層技術(shù)其實都是GPT-3或Stable Diffusion等大型AI模型。而隨著應(yīng)用程序不斷獲得更多用戶數(shù)據(jù)，這些數(shù)據(jù)便可用來對模型做更精細的改進，以實現(xiàn)針對特定問題空間改進模型質(zhì)量和表現(xiàn)、縮小模型尺寸或降低成本。

　　我們可以把生成式AI應(yīng)用程序看作UI層(用戶交互界面層)或“小腦”，支撐它運行的底層大型通用AI模型才是“大腦”。

　　實現(xiàn)形式方面

　　如今，生成式AI應(yīng)用在很大程度上是以插件的形式存在于現(xiàn)有軟件生態(tài)系統(tǒng)中，通過IDE(集成開發(fā)環(huán)境)運行代碼，而通過Figma或Photoshop之類的應(yīng)用程序來生成圖像;我們甚至可以設(shè)想，將來Discord機器人也將能通過生成式AI的技術(shù)實現(xiàn)更廣泛的用途。

　　此外還有數(shù)量較少的獨立的生成式AI網(wǎng)絡(luò)應(yīng)用，比如用于文案寫作的Jasper和Copy.ai，用于視頻編輯的Runway，以及用于記筆記的Mem。

　　插件可能會是個非常有效的切入口，一方面不需要引入新的應(yīng)用程序，另一方面也以非常聰明的方式避開了“先要有雞還是先要有蛋”的問題(改善模型需要大量的用戶使用數(shù)據(jù)，但另一方面，要有好的模型才能吸引到足夠多的用戶使用)。而目前我們已經(jīng)在消費者/社交領(lǐng)域看到了這種推廣策略帶來的非常好的效果。

　　交互模式范例

　　如今，我們看到的大多數(shù)生成式AI的演示都是“一次性作品”：提供一個輸入量，機器會生成一個輸出，然后你再決定是否保存結(jié)果或者棄掉重來。隨著越來越多的模型不斷迭代而變得更強，將來我們能實現(xiàn)對輸出作品的修改、完善、升級或生成不同版本等操作。

　　現(xiàn)在的生成式AI通常被用來生成產(chǎn)品原型或初稿。生成式AI通常都很擅長生成多個不同版本的作品，人們可以在此基礎(chǔ)上進一步創(chuàng)作(如生成多個不同的圖標(biāo)或建筑設(shè)計模型);此外，它們也很擅長為初稿提修改建議，從而幫助用戶更好地完善作品(如博客文章或代碼自動補全)。隨著模型變得越來越智能(當(dāng)然離不開大量的用戶使用數(shù)據(jù))，我們有理由期待它們將來能生成越來越好的初稿，甚至可以直接生成可作為終稿使用的作品來。

　　持續(xù)的細分類目引領(lǐng)者

　　通過不懈加速“更多用戶參與/更多數(shù)據(jù)—更好的模型”這一發(fā)展飛輪，生成式AI公司可以獲得持續(xù)的競爭優(yōu)勢并最終成長為行業(yè)*。當(dāng)然要注意維護這一良性循環(huán)：①獲得極高的用戶參與度→②獲得更多用戶數(shù)據(jù)以訓(xùn)練出更好的模型(提示改進、模型微調(diào)、將用戶行為作為標(biāo)記的訓(xùn)練數(shù)據(jù)等)→③優(yōu)秀的模型吸引更多的用戶并提升參與度。此外，這些AI公司還可以往特定的問題空間發(fā)展(如代碼領(lǐng)域、設(shè)計領(lǐng)域或游戲領(lǐng)域等)，而不是非要做得大而全。還可以如前所述，通過插件的形式整合進當(dāng)下目標(biāo)用戶的生產(chǎn)流程中，以此實現(xiàn)用戶增長和產(chǎn)品分發(fā)，之后再嘗試打造AI原生的工作流程來替代現(xiàn)有的應(yīng)用程序。找到正確的方式來打造這些應(yīng)用，積累用戶與數(shù)據(jù)，這些都需要時間，但我們相信，好的產(chǎn)品必然持久，也終將發(fā)展壯大。

　　困難與風(fēng)險

　　盡管生成式AI具有巨大潛力，但在商業(yè)模式和技術(shù)方面仍有許多問題需要解決。如版權(quán)、信任與安全以及成本等重要問題還遠未解決。

　　打開想象的邊界

　　生成式AI仍然處于非常早期的階段。平臺層面剛剛有些起色，真正的應(yīng)用程序其實還處于萌芽階段。

　　但也要知道，我們并不需要大型語言模型寫出一部托爾斯泰小說，才說生成式AI獲得了非常好的應(yīng)用。當(dāng)下這些模型已經(jīng)足夠好了，足以用來生成博客文章的初稿，或商標(biāo)與產(chǎn)品界面原型。而在不遠的中短期未來，它們也有望創(chuàng)造更大的價值。

　　生成式AI應(yīng)用的*波浪潮有點類似于iPhone剛出現(xiàn)時的移動應(yīng)用格局，多少偏于噱頭，顯得單薄，競爭差異化與商業(yè)模式也不明確。然而，其中一些應(yīng)用的確為我們提供了有趣的視角，讓我們可以一窺未來的可能。一旦你看到過AI可以生成復(fù)雜的代碼或精彩的圖像，你就很難回到?jīng)]看過的狀態(tài)，因為你知道這些技術(shù)將來一定會成為我們工作與創(chuàng)造的基礎(chǔ)，發(fā)揮更重要的作用。

　　假如盡情暢想幾十年后的未來，我們不難想象彼時的生成式AI已經(jīng)深刻融入我們的工作、創(chuàng)造與游戲中：自動生成的備忘錄;3D打印任何你想象出來的東西;文字直接生成皮克斯電影;靠想象來實時生成世界場景的游戲體驗等等。這些事情如今看來像是科幻小說一般，但我們還是要對技術(shù)進步的速度有信心。要知道，短短幾年時間，我們便從狹窄的語言模型發(fā)展到了代碼自動補全，沿著這樣的發(fā)展思路，如果大型模型也有所謂“摩爾定律”，那么天馬行空般的未來想象也并非沒有實現(xiàn)的可能。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

TCL實業(yè)榮獲IFA2024多項大獎，展示全球科技創(chuàng)新力量

近日，德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎，有力證明了其在全球市場的強大影響力。

服貿(mào)會高通展示開放創(chuàng)新生態(tài)，以5G、AI等技術(shù)促進合作共贏

OPPO續(xù)約歐洲冠軍聯(lián)賽未來三季再續(xù)輝煌

新聞

敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

近日，中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

3C消費

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

紅杉匯分享：一文讀懂生成式AI

擴展閱讀