一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務(wù)實現(xiàn)盈利,退市裁員重組后終于賺錢真我14 Pro+開始提上日程:1.5K等深四微曲屏+潛望長焦穩(wěn)了消息稱本田和日產(chǎn)計劃明年6月前敲定合并協(xié)議 2026年8月成立控股公司凱迪拉克最新版OTA開啟推送,新增百度語音大模型和QQ音樂等應(yīng)用中國聯(lián)通11月5G套餐用戶凈增127.8萬戶5G確定性工業(yè)基站首商用,工業(yè)互聯(lián)網(wǎng)走上新高度李飛飛團隊前瞻性研究 多模態(tài)AI模型初顯空間智能AI終于邁過這道檻!Livekit 開源模型精準(zhǔn)識別“你是否說完”!DeepSeek開源大模型開發(fā)者之一羅福莉?qū)⒓用诵∶?/a>廣汽詳解旗下首款復(fù)合翼飛行汽車 GOVY AirJet:最高飛行速度可達 250km/h清華大學(xué)聯(lián)合騰訊出品!ColorFlow:自動給黑白漫畫上色,保持角色一致性Adobe推新AI音頻具Sketch2Sound ,只需哼唱和模仿聲音就能創(chuàng)建音效家庭能源智聯(lián)自由 海辰儲能發(fā)布首套免安裝家庭微網(wǎng)系統(tǒng)HeroESOpenAI發(fā)布o(jì)3:AI 推理能力的重大突破,得分高達87.5%亞馬遜云科技推出Amazon Q Developer新功能小象超市,摸著美團外賣出海E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動6000億GTV后,抖音計劃偷襲美團大本營AGI Open Network(AON):賦能每個人創(chuàng)建、部署和貨幣化AI Agent
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    生成式AI的2023

    2023年12月28日 12:07:02   來源:極客公園

      2023 年是 AI 發(fā)展的關(guān)鍵一年,ChatGPT 以及 GPT-4 的發(fā)布引發(fā)了全社會對于大模型以及生成式 AI 的關(guān)注。

      科技巨頭微軟、亞馬遜、谷歌、Meta 等紛紛發(fā)力 AI;文本生成、文生圖以及文生視頻 AI 工具進展迅速;國內(nèi)的「百模大戰(zhàn)」;各國對于 AI 的監(jiān)管逐漸加強;科學(xué)家們還在研究「涌現(xiàn)」的原理;還有年底的 OpenAI Drama 事件……

      科技博客 Everypixel Journal 整理了 2023 年 AI 行業(yè)的產(chǎn)品以及商業(yè)進展,他們還梳理總結(jié)了由風(fēng)投公司 Air Street Capital 發(fā)布的《2023 人工智能現(xiàn)狀報告》,F(xiàn)ounder Park 一并進行了編譯。

      01

      2023 的 AI:有突破、有落地、有爭議

      研究:技術(shù)突破及其能力

      GPT-4:OpenAI 最新模型 GPT-4 脫穎而出,成為功能最強大的 AI 模型,其顯著優(yōu)于 GPT-3.5,并在編碼能力方面表現(xiàn)出色。

      自動駕駛:Wayve 的 LINGO-1 為駕駛增加了視覺-語言-動作維度,有可能提高自動駕駛系統(tǒng)的透明度和推理能力。

      文本到視頻生成:VideoLDM 和 MAGVIT 引領(lǐng)文本到視頻生成的競賽,各自使用不同的方法——diffusion 和 transformer。

      圖像生成:諸如 InstructPix2Pix 和 Genmo AI 的「Chat」之類的助手通過文本指令實現(xiàn)更受控和直觀的圖像生成和編輯。

      3D 渲染:3D 高斯散射——NeRF 領(lǐng)域的新競爭者,通過計算來自數(shù)百萬個高斯分布的貢獻,帶來高質(zhì)量的實時渲染。

      小型模型與大型模型:微軟的研究表明,經(jīng)過專門數(shù)據(jù)集訓(xùn)練的小型語言模型 (SLM) 可以與大型模型相媲美。TinyStories 數(shù)據(jù)集代表了這一方向的新方法:在 GPT-3.5 和 GPT-4 的幫助下,研究人員生成了一個非常簡單的短篇故事的合成數(shù)據(jù)集,其中包含英語語法和一般推理規(guī)則。在這些 TinyStories 上訓(xùn)練 SLM 后發(fā)現(xiàn),用于評估的 GPT-4 更喜歡由 28M SLM 生成的故事,而不是由 GPT-XL 1.5B 生成的故事。

      AI 在醫(yī)學(xué)中的作用日益增強:像 Med-PaLM 2 這樣的模型展示了 AI 在醫(yī)學(xué)中的重要性日益增強,甚至在特定任務(wù)中超過了人類專家。谷歌的 Med-PaLM 2 通過 LLM 改進、醫(yī)學(xué)領(lǐng)域微調(diào)和提示策略實現(xiàn)了新的*進的結(jié)果。多模態(tài)數(shù)據(jù)集 MultiMedBench 的集成使 Med-PaLM 能夠?qū)⑵涔δ軘U展到基于文本的醫(yī)學(xué)問答之外,展示了其適應(yīng)新醫(yī)學(xué)概念和任務(wù)的能力。此外,最新的計算機視覺技術(shù)在疾病診斷中顯示出有效性。

      RLHF:人類反饋強化學(xué)習(xí)仍然是一種主要的訓(xùn)練方法。這種方法在增強 LLM 安全性和性能方面發(fā)揮了重要作用,OpenAI 的 ChatGPT 就是一個例子。然而,研究人員正在探索減少對人類監(jiān)督需求的替代方法,以解決與成本和潛在偏差相關(guān)的擔(dān)憂。這些替代方法包括從自己的輸出中學(xué)習(xí)的自我改進模型以及減少對 RLHF 依賴的創(chuàng)新方法,例如使用精心設(shè)計的提示和響應(yīng)來微調(diào)模型。

      水印標(biāo)識:隨著人工智能的內(nèi)容生成能力的進步,對人工智能生成輸出進行水印或標(biāo)記的需求不斷增長。例如,馬里蘭大學(xué)的研究人員正在努力將微妙的水印插入語言模型生成的文本中,而谷歌 DeepMind 的 SynthID 將數(shù)字水印嵌入圖像像素中,以區(qū)分人工智能生成的圖像。

      數(shù)據(jù)限制:人們擔(dān)心耗盡人類生成的數(shù)據(jù),有預(yù)測表明到 2030 年至 2050 年可能會出現(xiàn)短缺。然而,語音識別系統(tǒng)和光學(xué)字符識別模型可能會擴大數(shù)據(jù)可用性。

      LLaMa-2:雖然商業(yè)模型主導(dǎo)著該領(lǐng)域,但正在進行的努力集中于通過開源方法來生產(chǎn)高性能模型,Meta 的 LLaMa 系列就是一個例子。

      不披露:經(jīng)濟利益和安全問題不斷增加,導(dǎo)致圍繞前沿研究形成了一種不透明的文化。OpenAI 和 Google 已轉(zhuǎn)向不披露有關(guān)其*模型(如 GPT-4 和 PaLM-2)的詳細信息。

      行業(yè):AI 的商業(yè)應(yīng)用和業(yè)務(wù)影響

      NVIDIA 的主導(dǎo)地位:NVIDIA 實現(xiàn)創(chuàng)紀(jì)錄的 23 年第二季度數(shù)據(jù)中心收入 103.2 億美元,并進入 1 萬億美元市值俱樂部。

      生成式 AI 的主導(dǎo)地位:最突出的趨勢是生成式 AI(GAI)的興起。此外,生成式 AI 在穩(wěn)定 2023 年的 AI 投資方面發(fā)揮了至關(guān)重要的作用。如果沒有生成式 AI,AI 投資將大幅減少。

      受益于 AI 的主要行業(yè):企業(yè)軟件、金融科技、醫(yī)療保健。

      公開市場動態(tài):公開估值顯示出復(fù)蘇跡象。蘋果、微軟、NVIDIA、Alphabet、Meta、特斯拉和亞馬遜等集成 AI 的巨頭在提振股市指數(shù)方面發(fā)揮著至關(guān)重要的作用。

      私人市場趨勢:美國在全球私人 AI 領(lǐng)域占據(jù)主導(dǎo)地位,2023 年的資本投資占 70%。相比之下,歐洲 AI 企業(yè)的資本支持大幅下降。

      主要并購:并購市場仍然活躍,出現(xiàn)了 MosaicML + Databricks(13 億美元)、Casetext + Thomson Reuters(6.5 億美元)和 InstaDeep + BioNTech(5 億歐元)等重大收購。

      企業(yè)投資動態(tài):2023 年所有企業(yè)風(fēng)險投資的 24% 投向了 AI 公司。

      資金動態(tài):生成式 AI 公司主導(dǎo)大型融資輪次,通常用于獲取云計算能力以進行大規(guī)模 AI 系統(tǒng)訓(xùn)練。2023 年,生成式 AI 公司明顯獲得比其他初創(chuàng)公司更大的種子輪和 A 輪融資。

      政治:AI監(jiān)管、經(jīng)濟影響和不斷演變的地緣政治

      英國和印度的輕觸式監(jiān)管:英國和印度采用支持創(chuàng)新的方法,投資于模型安全并確保早期獲得先進的 AI 模型。

      歐盟和中國的嚴格立法:歐盟和中國已采取嚴格措施朝著人工智能特定立法邁進,尤其是在基礎(chǔ)模型方面。

      美國的混合監(jiān)管:美國尚未通過聯(lián)邦 AI 法律,各個州頒布了自己的法規(guī)。批評者認為這些法律過于嚴格或過于寬松。

      監(jiān)管和透明度:即將到來的 2024 年美國總統(tǒng)選舉引發(fā)了人們對 AI 在政治中的作用的擔(dān)憂,促使美國聯(lián)邦選舉委員會呼吁公眾對政治廣告中的 AI 法規(guī)發(fā)表評論。谷歌對 AI 生成的選舉廣告免責(zé)聲明的政策就是一個透明度努力的例子。

      AI 和偏見:AI 偏見指控,特別是來自美國保守派團體,表明文化沖突正在蔓延到 AI 領(lǐng)域。OpenAI 正在通過審核和用戶微調(diào)來解決這些問題。

      就業(yè)市場影響:研究表明,人工智能的進步可能會導(dǎo)致法律、醫(yī)學(xué)和金融等行業(yè)的職位大量流失。然而,人工智能也可能使專業(yè)知識民主化,并在基于技能的工作中實現(xiàn)公平競爭。

      McKinsey 近日公布了一幅內(nèi)容豐富的圖表,全面概括了 2023 年人工智能(AI)治理領(lǐng)域內(nèi)最關(guān)鍵的政策和監(jiān)管動向。該圖表以直觀的視覺形式展示了 2023 年對 AI 法律框架塑造做出的顯著貢獻。

      安全性:識別和減輕高度智能未來 AI 系統(tǒng)帶來的災(zāi)難性風(fēng)險

      呼吁解決安全問題:對高性能 AI 系統(tǒng)的擔(dān)憂促使未來生命研究所發(fā)出公開信,呼吁暫停比 GPT-4 更強大的 AI 開發(fā),以解決安全問題。然而,對于具體風(fēng)險或其可能變得相關(guān)的時間范圍尚未達成共識。

      緩解工作:AI 實驗室正在實施自己的緩解策略,包括用于評估危險能力的工具包和具有安全承諾的負責(zé)任的擴展政策。此外,基于 API 的模型(例如來自 OpenAI 的模型)具有檢測和響應(yīng)濫用的基礎(chǔ)設(shè)施,以遵守使用政策。

      開源與閉源 AI:關(guān)于開源或閉源 AI 模型是否更安全的爭論仍在繼續(xù)。開源模型促進研究,但存在濫用風(fēng)險,而閉源 API 提供更多控制,但缺乏透明度。

      使用人類偏好預(yù)訓(xùn)練語言模型:研究人員建議將人類反饋直接納入 LLM 的預(yù)訓(xùn)練,而不是傳統(tǒng)的三個階段訓(xùn)練。這種方法已在較小的模型上得到證明,并被谷歌部分采用在他們的 PaLM-2 上,已被證明可以減少有害內(nèi)容的生成。

      憲法 AI 和自我對齊:一種新方法依賴于一套指導(dǎo)原則和最少的反饋。模型生成自己的批評和修改,這些批評和修改用于進一步的微調(diào)。這可能比 RLHF 更好的解決方案,因為它通過明確遵守設(shè)定的約束來避免獎勵黑客攻擊。

      越獄和模型安全性:解決與繞過安全協(xié)議的提示制作相關(guān)的問題仍然是一個挑戰(zhàn)。

      02

      AI產(chǎn)品的進展

      在今年的 AI 進展方面,重點在于改善現(xiàn)有技術(shù),而非引入類似于去年的 ChatGPT 或圖像生成器那樣的革命性創(chuàng)新。雖然沒有令人震撼的效果,且真正的通用人工智能(AGI)尚未實現(xiàn),但今年標(biāo)志著從之前的重大突破向更強大的未來過渡的中間階段。為了展示這種發(fā)展趨勢,我們制作了一個視覺時間線,強調(diào)了今年在 AI 領(lǐng)域最為顯著的進展:

      圖像生成

      Adobe Firefly: Adobe 的 Firefly 和 Generative Fill 推動了多樣化視覺內(nèi)容的創(chuàng)作,如插畫、藝術(shù)構(gòu)思和照片編輯。集成到 Photoshop 中的 Adobe Firefly 使 AI 技術(shù)普及化,讓更多用戶能夠輕松使用。其發(fā)布的文本效果功能也是一個重要進展,它允許用戶給文字和短語添加風(fēng)格或紋理。

      Midjourney: Midjourney 的 V.5 模型在圖像生成領(lǐng)域達成了重要里程碑,展現(xiàn)了更高的效率、連貫性和分辨率。它的最新 alpha 版本,Midjourney V.6,進一步增強了功能,比如更精準(zhǔn)地響應(yīng)用戶輸入(prompt)、提高了模型的知識水平和簡易的文本繪制能力。

      DALL·E 3:基于 ChatGPT 的 DALL·E 3 簡化了圖像生成過程,避免了復(fù)雜的用戶輸入(prompt)設(shè)置。此外,ChatGPT 還推出了一項功能,幫助用戶優(yōu)化輸入內(nèi)容,并根據(jù)反饋調(diào)整圖像。

      Shutterstock.AI:知名庫存圖片平臺 Shutterstock.AI 加入了 AI 功能,使用戶能將輸入內(nèi)容轉(zhuǎn)換成可授權(quán)的圖像。Shutterstock 在推動倫理 AI 方面邁出了重要一步,對貢獻的藝術(shù)家給予認可和獎勵。

      文本到圖像算法的演變,2007 對比 2023

      視頻生成

      Stability AI:Stability AI 推出了 Stable Video Diffusion,這是一個具有里程碑意義的視頻生成(generative video)模型,可在 GitHub 上開源訪問。類似于 AI 圖像生成的趨勢,Stable Video Diffusion 模型很可能在 AI 生成視頻領(lǐng)域發(fā)揮核心作用。

      HeyGen:這家 AI 創(chuàng)業(yè)公司推出了 一款用于語音克隆的工具,能夠調(diào)整視頻中的唇部運動并進行語言翻譯。

      Runway Gen-2:Runway 發(fā)布了 Gen-2 模型,使用戶僅需通過文本提示、圖片或其他視頻即可輕松生成完整視頻。下面的例子就是一種展示。

      Pika 和 Pika 1.0:在首次發(fā)布時,Pika 吸引了超過五十萬用戶,每周生成數(shù)百萬視頻。在 Pika 1.0 中,升級后的 AI 模型使用戶能夠以多種風(fēng)格(包括 3D 動畫、動漫、卡通和電影)創(chuàng)作和編輯視頻。

      Meta 的像素編解碼頭像(PiCA):Meta 的 Pixel Codec Avatars(PiCA)模型為視頻中的 3D 人臉提供了更加逼真的遠程傳輸體驗。

      文本生成

      Bard 和 Gemini:谷歌的 Bard 為聊天機器人注入了仿人類的情感和情緒。Bard 聊天機器人采用多模態(tài)數(shù)據(jù)集訓(xùn)練,而谷歌的 Gemini 以「最有能力」的 AI 模型身份嶄露頭角,成為與 OpenAI 的 ChatGPT 齊名的競爭者。

      Grok:埃隆·馬斯克的創(chuàng)業(yè)公司 xAI 展現(xiàn)了其對 AI 發(fā)展的承諾,并有可能與 OpenAI 競爭。他們推出了「Grok」——一款具備幽默感、反叛特質(zhì),并能通過

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。