生成式AI的2023

2023年12月28日 12:07:02 Founder Park 來源：極客公園

　　2023 年是 AI 發(fā)展的關(guān)鍵一年，ChatGPT 以及 GPT-4 的發(fā)布引發(fā)了全社會對于大模型以及生成式 AI 的關(guān)注。

　　科技巨頭微軟、亞馬遜、谷歌、Meta 等紛紛發(fā)力 AI;文本生成、文生圖以及文生視頻 AI 工具進展迅速;國內(nèi)的「百模大戰(zhàn)」;各國對于 AI 的監(jiān)管逐漸加強;科學(xué)家們還在研究「涌現(xiàn)」的原理;還有年底的 OpenAI Drama 事件……

　　科技博客 Everypixel Journal 整理了 2023 年 AI 行業(yè)的產(chǎn)品以及商業(yè)進展，他們還梳理總結(jié)了由風(fēng)投公司 Air Street Capital 發(fā)布的《2023 人工智能現(xiàn)狀報告》，F(xiàn)ounder Park 一并進行了編譯。

　　2023 的 AI：有突破、有落地、有爭議

　　研究：技術(shù)突破及其能力

　　GPT-4：OpenAI 最新模型 GPT-4 脫穎而出，成為功能最強大的 AI 模型，其顯著優(yōu)于 GPT-3.5，并在編碼能力方面表現(xiàn)出色。

　　自動駕駛：Wayve 的 LINGO-1 為駕駛增加了視覺-語言-動作維度，有可能提高自動駕駛系統(tǒng)的透明度和推理能力。

　　文本到視頻生成：VideoLDM 和 MAGVIT 引領(lǐng)文本到視頻生成的競賽，各自使用不同的方法——diffusion 和 transformer。

　　圖像生成：諸如 InstructPix2Pix 和 Genmo AI 的「Chat」之類的助手通過文本指令實現(xiàn)更受控和直觀的圖像生成和編輯。

　　3D 渲染：3D 高斯散射——NeRF 領(lǐng)域的新競爭者，通過計算來自數(shù)百萬個高斯分布的貢獻，帶來高質(zhì)量的實時渲染。

　　小型模型與大型模型：微軟的研究表明，經(jīng)過專門數(shù)據(jù)集訓(xùn)練的小型語言模型 (SLM) 可以與大型模型相媲美。TinyStories 數(shù)據(jù)集代表了這一方向的新方法：在 GPT-3.5 和 GPT-4 的幫助下，研究人員生成了一個非常簡單的短篇故事的合成數(shù)據(jù)集，其中包含英語語法和一般推理規(guī)則。在這些 TinyStories 上訓(xùn)練 SLM 后發(fā)現(xiàn)，用于評估的 GPT-4 更喜歡由 28M SLM 生成的故事，而不是由 GPT-XL 1.5B 生成的故事。

　　AI 在醫(yī)學(xué)中的作用日益增強：像 Med-PaLM 2 這樣的模型展示了 AI 在醫(yī)學(xué)中的重要性日益增強，甚至在特定任務(wù)中超過了人類專家。谷歌的 Med-PaLM 2 通過 LLM 改進、醫(yī)學(xué)領(lǐng)域微調(diào)和提示策略實現(xiàn)了新的*進的結(jié)果。多模態(tài)數(shù)據(jù)集 MultiMedBench 的集成使 Med-PaLM 能夠?qū)⑵涔δ軘U展到基于文本的醫(yī)學(xué)問答之外，展示了其適應(yīng)新醫(yī)學(xué)概念和任務(wù)的能力。此外，最新的計算機視覺技術(shù)在疾病診斷中顯示出有效性。

　　RLHF：人類反饋強化學(xué)習(xí)仍然是一種主要的訓(xùn)練方法。這種方法在增強 LLM 安全性和性能方面發(fā)揮了重要作用，OpenAI 的 ChatGPT 就是一個例子。然而，研究人員正在探索減少對人類監(jiān)督需求的替代方法，以解決與成本和潛在偏差相關(guān)的擔(dān)憂。這些替代方法包括從自己的輸出中學(xué)習(xí)的自我改進模型以及減少對 RLHF 依賴的創(chuàng)新方法，例如使用精心設(shè)計的提示和響應(yīng)來微調(diào)模型。

　　水印標(biāo)識：隨著人工智能的內(nèi)容生成能力的進步，對人工智能生成輸出進行水印或標(biāo)記的需求不斷增長。例如，馬里蘭大學(xué)的研究人員正在努力將微妙的水印插入語言模型生成的文本中，而谷歌 DeepMind 的 SynthID 將數(shù)字水印嵌入圖像像素中，以區(qū)分人工智能生成的圖像。

　　數(shù)據(jù)限制：人們擔(dān)心耗盡人類生成的數(shù)據(jù)，有預(yù)測表明到 2030 年至 2050 年可能會出現(xiàn)短缺。然而，語音識別系統(tǒng)和光學(xué)字符識別模型可能會擴大數(shù)據(jù)可用性。

　　LLaMa-2：雖然商業(yè)模型主導(dǎo)著該領(lǐng)域，但正在進行的努力集中于通過開源方法來生產(chǎn)高性能模型，Meta 的 LLaMa 系列就是一個例子。

　　不披露：經(jīng)濟利益和安全問題不斷增加，導(dǎo)致圍繞前沿研究形成了一種不透明的文化。OpenAI 和 Google 已轉(zhuǎn)向不披露有關(guān)其*模型(如 GPT-4 和 PaLM-2)的詳細信息。

　　行業(yè)：AI 的商業(yè)應(yīng)用和業(yè)務(wù)影響

　　NVIDIA 的主導(dǎo)地位：NVIDIA 實現(xiàn)創(chuàng)紀(jì)錄的 23 年第二季度數(shù)據(jù)中心收入 103.2 億美元，并進入 1 萬億美元市值俱樂部。

　　生成式 AI 的主導(dǎo)地位：最突出的趨勢是生成式 AI(GAI)的興起。此外，生成式 AI 在穩(wěn)定 2023 年的 AI 投資方面發(fā)揮了至關(guān)重要的作用。如果沒有生成式 AI，AI 投資將大幅減少。

　　受益于 AI 的主要行業(yè)：企業(yè)軟件、金融科技、醫(yī)療保健。

　　公開市場動態(tài)：公開估值顯示出復(fù)蘇跡象。蘋果、微軟、NVIDIA、Alphabet、Meta、特斯拉和亞馬遜等集成 AI 的巨頭在提振股市指數(shù)方面發(fā)揮著至關(guān)重要的作用。

　　私人市場趨勢：美國在全球私人 AI 領(lǐng)域占據(jù)主導(dǎo)地位，2023 年的資本投資占 70%。相比之下，歐洲 AI 企業(yè)的資本支持大幅下降。

　　主要并購：并購市場仍然活躍，出現(xiàn)了 MosaicML + Databricks(13 億美元)、Casetext + Thomson Reuters(6.5 億美元)和 InstaDeep + BioNTech(5 億歐元)等重大收購。

　　企業(yè)投資動態(tài)：2023 年所有企業(yè)風(fēng)險投資的 24% 投向了 AI 公司。

　　資金動態(tài)：生成式 AI 公司主導(dǎo)大型融資輪次，通常用于獲取云計算能力以進行大規(guī)模 AI 系統(tǒng)訓(xùn)練。2023 年，生成式 AI 公司明顯獲得比其他初創(chuàng)公司更大的種子輪和 A 輪融資。

　　政治：AI監(jiān)管、經(jīng)濟影響和不斷演變的地緣政治

　　英國和印度的輕觸式監(jiān)管：英國和印度采用支持創(chuàng)新的方法，投資于模型安全并確保早期獲得先進的 AI 模型。

　　歐盟和中國的嚴格立法：歐盟和中國已采取嚴格措施朝著人工智能特定立法邁進，尤其是在基礎(chǔ)模型方面。

　　美國的混合監(jiān)管：美國尚未通過聯(lián)邦 AI 法律，各個州頒布了自己的法規(guī)。批評者認為這些法律過于嚴格或過于寬松。

　　監(jiān)管和透明度：即將到來的 2024 年美國總統(tǒng)選舉引發(fā)了人們對 AI 在政治中的作用的擔(dān)憂，促使美國聯(lián)邦選舉委員會呼吁公眾對政治廣告中的 AI 法規(guī)發(fā)表評論。谷歌對 AI 生成的選舉廣告免責(zé)聲明的政策就是一個透明度努力的例子。

　　AI 和偏見：AI 偏見指控，特別是來自美國保守派團體，表明文化沖突正在蔓延到 AI 領(lǐng)域。OpenAI 正在通過審核和用戶微調(diào)來解決這些問題。

　　就業(yè)市場影響：研究表明，人工智能的進步可能會導(dǎo)致法律、醫(yī)學(xué)和金融等行業(yè)的職位大量流失。然而，人工智能也可能使專業(yè)知識民主化，并在基于技能的工作中實現(xiàn)公平競爭。

　　McKinsey 近日公布了一幅內(nèi)容豐富的圖表，全面概括了 2023 年人工智能(AI)治理領(lǐng)域內(nèi)最關(guān)鍵的政策和監(jiān)管動向。該圖表以直觀的視覺形式展示了 2023 年對 AI 法律框架塑造做出的顯著貢獻。

　　安全性：識別和減輕高度智能未來 AI 系統(tǒng)帶來的災(zāi)難性風(fēng)險

　　呼吁解決安全問題：對高性能 AI 系統(tǒng)的擔(dān)憂促使未來生命研究所發(fā)出公開信，呼吁暫停比 GPT-4 更強大的 AI 開發(fā)，以解決安全問題。然而，對于具體風(fēng)險或其可能變得相關(guān)的時間范圍尚未達成共識。

　　緩解工作：AI 實驗室正在實施自己的緩解策略，包括用于評估危險能力的工具包和具有安全承諾的負責(zé)任的擴展政策。此外，基于 API 的模型(例如來自 OpenAI 的模型)具有檢測和響應(yīng)濫用的基礎(chǔ)設(shè)施，以遵守使用政策。

　　開源與閉源 AI：關(guān)于開源或閉源 AI 模型是否更安全的爭論仍在繼續(xù)。開源模型促進研究，但存在濫用風(fēng)險，而閉源 API 提供更多控制，但缺乏透明度。

　　使用人類偏好預(yù)訓(xùn)練語言模型：研究人員建議將人類反饋直接納入 LLM 的預(yù)訓(xùn)練，而不是傳統(tǒng)的三個階段訓(xùn)練。這種方法已在較小的模型上得到證明，并被谷歌部分采用在他們的 PaLM-2 上，已被證明可以減少有害內(nèi)容的生成。

　　憲法 AI 和自我對齊：一種新方法依賴于一套指導(dǎo)原則和最少的反饋。模型生成自己的批評和修改，這些批評和修改用于進一步的微調(diào)。這可能比 RLHF 更好的解決方案，因為它通過明確遵守設(shè)定的約束來避免獎勵黑客攻擊。

　　越獄和模型安全性：解決與繞過安全協(xié)議的提示制作相關(guān)的問題仍然是一個挑戰(zhàn)。

　　AI產(chǎn)品的進展

　　在今年的 AI 進展方面，重點在于改善現(xiàn)有技術(shù)，而非引入類似于去年的 ChatGPT 或圖像生成器那樣的革命性創(chuàng)新。雖然沒有令人震撼的效果，且真正的通用人工智能(AGI)尚未實現(xiàn)，但今年標(biāo)志著從之前的重大突破向更強大的未來過渡的中間階段。為了展示這種發(fā)展趨勢，我們制作了一個視覺時間線，強調(diào)了今年在 AI 領(lǐng)域最為顯著的進展：

　　圖像生成

　　Adobe Firefly: Adobe 的 Firefly 和 Generative Fill 推動了多樣化視覺內(nèi)容的創(chuàng)作，如插畫、藝術(shù)構(gòu)思和照片編輯。集成到 Photoshop 中的 Adobe Firefly 使 AI 技術(shù)普及化，讓更多用戶能夠輕松使用。其發(fā)布的文本效果功能也是一個重要進展，它允許用戶給文字和短語添加風(fēng)格或紋理。

　　Midjourney: Midjourney 的 V.5 模型在圖像生成領(lǐng)域達成了重要里程碑，展現(xiàn)了更高的效率、連貫性和分辨率。它的最新 alpha 版本，Midjourney V.6，進一步增強了功能，比如更精準(zhǔn)地響應(yīng)用戶輸入(prompt)、提高了模型的知識水平和簡易的文本繪制能力。

　　DALL·E 3:基于 ChatGPT 的 DALL·E 3 簡化了圖像生成過程，避免了復(fù)雜的用戶輸入(prompt)設(shè)置。此外，ChatGPT 還推出了一項功能，幫助用戶優(yōu)化輸入內(nèi)容，并根據(jù)反饋調(diào)整圖像。

　　Shutterstock.AI:知名庫存圖片平臺 Shutterstock.AI 加入了 AI 功能，使用戶能將輸入內(nèi)容轉(zhuǎn)換成可授權(quán)的圖像。Shutterstock 在推動倫理 AI 方面邁出了重要一步，對貢獻的藝術(shù)家給予認可和獎勵。

　　文本到圖像算法的演變，2007 對比 2023

　　視頻生成

　　Stability AI：Stability AI 推出了 Stable Video Diffusion，這是一個具有里程碑意義的視頻生成(generative video)模型，可在 GitHub 上開源訪問。類似于 AI 圖像生成的趨勢，Stable Video Diffusion 模型很可能在 AI 生成視頻領(lǐng)域發(fā)揮核心作用。

　　HeyGen：這家 AI 創(chuàng)業(yè)公司推出了一款用于語音克隆的工具，能夠調(diào)整視頻中的唇部運動并進行語言翻譯。

　　Runway Gen-2：Runway 發(fā)布了 Gen-2 模型，使用戶僅需通過文本提示、圖片或其他視頻即可輕松生成完整視頻。下面的例子就是一種展示。

　　Pika 和 Pika 1.0：在首次發(fā)布時，Pika 吸引了超過五十萬用戶，每周生成數(shù)百萬視頻。在 Pika 1.0 中，升級后的 AI 模型使用戶能夠以多種風(fēng)格(包括 3D 動畫、動漫、卡通和電影)創(chuàng)作和編輯視頻。

　　Meta 的像素編解碼頭像(PiCA)：Meta 的 Pixel Codec Avatars(PiCA)模型為視頻中的 3D 人臉提供了更加逼真的遠程傳輸體驗。

　　文本生成

　　Bard 和 Gemini:谷歌的 Bard 為聊天機器人注入了仿人類的情感和情緒。Bard 聊天機器人采用多模態(tài)數(shù)據(jù)集訓(xùn)練，而谷歌的 Gemini 以「最有能力」的 AI 模型身份嶄露頭角，成為與 OpenAI 的 ChatGPT 齊名的競爭者。

　　Grok:埃隆·馬斯克的創(chuàng)業(yè)公司 xAI 展現(xiàn)了其對 AI 發(fā)展的承諾，并有可能與 OpenAI 競爭。他們推出了「Grok」——一款具備幽默感、反叛特質(zhì)，并能通過

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信