CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型
  • 首頁 > 云計算頻道 > 大模型

    復(fù)旦NLP團隊發(fā)布80頁大模型Agent綜述,一文縱覽AI智能體的現(xiàn)狀與未來

    2023年09月18日 14:19:04   來源:機器之心(ID:almosthuman2014)

      本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:機器之心。

      智能體會成為打開 AGI 之門的鑰匙嗎?復(fù)旦 NLP 團隊全面探討 LLM-based Agents。

      近期,復(fù)旦大學自然語言處理團隊(FudanNLP)推出 LLM-based Agents 綜述論文,全文長達86頁,共有600余篇參考文獻!作者們從 AI Agent 的歷史出發(fā),全面梳理了基于大型語言模型的智能代理現(xiàn)狀,包括:LLM-based Agent 的背景、構(gòu)成、應(yīng)用場景、以及備受關(guān)注的代理社會。同時,作者們探討了 Agent 相關(guān)的前瞻開放問題,對于相關(guān)領(lǐng)域的未來發(fā)展趨勢具有重要價值。

      團隊成員還將為每篇相關(guān)論文添加「一句話概括」,歡迎 Star 倉庫。

      研究背景

      長期以來,研究者們一直在追求與人類相當、乃至超越人類水平的通用人工智能(Artificial General Intelligence,AGI)。早在1950年代,Alan Turing 就將「智能」的概念擴展到了人工實體,并提出了著名的圖靈測試。這些人工智能實體通常被稱為 —— 代理(Agent*)!复怼惯@一概念起源于哲學,描述了一種擁有欲望、信念、意圖以及采取行動能力的實體。在人工智能領(lǐng)域,這一術(shù)語被賦予了一層新的含義:具有自主性、反應(yīng)性、積極性和社交能力特征的智能實體。

      *Agent 術(shù)語的中文譯名并未形成共識,有學者將其翻譯為智能體、行為體、代理或智能代理,本文中出現(xiàn)的「代理」和「智能代理」均指代 Agent。

      從那時起,代理的設(shè)計就成為人工智能社區(qū)的焦點。然而,過去的工作主要集中在增強代理的特定能力,如符號推理或?qū)μ囟ㄈ蝿?wù)的掌握(國際象棋、圍棋等)。這些研究更加注重算法設(shè)計和訓練策略,而忽視了模型固有的通用能力的發(fā)展,如知識記憶、長期規(guī)劃、有效泛化和高效互動等。事實證明,增強模型固有能力是推動智能代理進一步發(fā)展的關(guān)鍵因素。

      大型語言模型(LLMs)的出現(xiàn)為智能代理的進一步發(fā)展帶來了希望。如果將 NLP 到 AGI 的發(fā)展路線分為五級:語料庫、互聯(lián)網(wǎng)、感知、具身和社會屬性,那么目前的大型語言模型已經(jīng)來到了第二級,具有互聯(lián)網(wǎng)規(guī)模的文本輸入和輸出。在這個基礎(chǔ)上,如果賦予 LLM-based Agents 感知空間和行動空間,它們將達到第三、第四級。進一步地,多個代理通過互動、合作解決更復(fù)雜的任務(wù),或者反映出現(xiàn)實世界的社會行為,則有潛力來到第五級 —— 代理社會。

      作者們設(shè)想的一個由智能代理構(gòu)成的和諧社會,人類也可以參與其中。場景取材自《原神》中的海燈節(jié)。

      一個 Agent 的誕生

      擁有大模型加持的智能代理會是什么樣?作者們受到達爾文「適者生存」法則的啟發(fā),提出了基于大模型的智能代理通用框架。一個人如果想要在社會中生存,就必須學會適應(yīng)環(huán)境,因此需要具有認知能力,并且能夠感知、應(yīng)對外界的變化。同樣,智能代理的框架也由三個部分組成:控制端(Brain)、感知端(Perception)和行動端(Action)。

      控制端:通常由 LLMs 構(gòu)成,是智能代理的核心。它不僅可以存儲記憶和知識,還承擔著信息處理、決策等不可或缺的功能。它可以呈現(xiàn)推理和計劃的過程,并很好地應(yīng)對未知任務(wù),反映出智能代理的泛化性和遷移性。

      感知端:將智能代理的感知空間從純文本拓展到包括文本、視覺和聽覺等多模態(tài)領(lǐng)域,使代理能夠更有效地從周圍環(huán)境中獲取與利用信息。

      行動端:除了常規(guī)的文本輸出,還賦予代理具身能力、使用工具的能力,使其能夠更好地適應(yīng)環(huán)境變化,通過反饋與環(huán)境交互,甚至能夠塑造環(huán)境。

      LLM-based Agent 的概念框架,包含三個組成部分:控制端(Brain)、感知端(Perception)和行動端(Action)。

      作者們用一個例子來說明來了 LLM-based Agent 的工作流程:當人類詢問是否會下雨時,感知端(Perception)將指令轉(zhuǎn)換為 LLMs 可以理解的表示。然后控制端(Brain)開始根據(jù)當前天氣和互聯(lián)網(wǎng)上的天氣預(yù)報進行推理和行動規(guī)劃。最后,行動端(Action)做出響應(yīng)并將雨傘遞給人類。

      通過重復(fù)上述過程,智能代理可以不斷獲得反饋并與環(huán)境交互。

      控制端:Brain

      控制端作為智能代理最核心的組成成分,作者們從五個方面展開介紹其能力:

      自然語言交互:語言是溝通的媒介,其中包含著豐富的信息。得益于 LLMs 強大的自然語言生成和理解能力,智能代理能夠通過自然語言與外界進行多輪交互,進而實現(xiàn)目標。具體而言,可以分為兩個方面:

      高質(zhì)量文本生成:大量評估實驗表明,LLMs 能夠生成流暢、多樣、新穎、可控的文本。盡管在個別語言上表現(xiàn)欠佳,但整體上具備良好的多語言能力。

      言外之意的理解:除了直觀表現(xiàn)出的內(nèi)容,語言背后可能還傳遞了說話者的意圖、偏好等信息。言外之意有助于代理更高效地溝通與合作,大模型已經(jīng)展現(xiàn)出了這方面的潛力。

      知識:基于大批量語料訓練的 LLMs,擁有了存儲海量知識(Knowledge)的能力。除了語言知識以外,常識知識和專業(yè)技能知識都是 LLM-based Agents 的重要組成部分。

      雖然 LLMs 其本身仍然存在知識過期、幻覺等問題,現(xiàn)有的一些研究通過知識編輯或調(diào)用外部知識庫等方法,可以在一定程度上得到緩解。

      記憶:在本文框架中,記憶模塊(Memory)儲存了代理過往的觀察、思考和行動序列。通過特定的記憶機制,代理可以有效地反思并應(yīng)用先前的策略,使其借鑒過去的經(jīng)驗來適應(yīng)陌生的環(huán)境。

      通常用于提升記憶能力的方法有三種:

      擴展 Backbone 架構(gòu)的長度限制:針對 Transformers 固有的序列長度限制問題進行改進。

      總結(jié)記憶(Summarizing):對記憶進行摘要總結(jié),增強代理從記憶中提取關(guān)鍵細節(jié)的能力。

      壓縮記憶(Compressing):通過使用向量或適當?shù)臄?shù)據(jù)結(jié)構(gòu)對記憶進行壓縮,可以提高記憶檢索效率。

      此外,記憶的檢索方法也很重要,只有檢索到合適的內(nèi)容,代理才能夠訪問到最相關(guān)和準確的信息。

      推理 & 規(guī)劃:推理能力(Reasoning)對于智能代理進行決策、分析等復(fù)雜任務(wù)而言至關(guān)重要。具體到 LLMs 上,就是以 思維鏈(Chain-of-Thought,CoT) 為代表的一系列提示方法。而規(guī)劃(Planning)則是面對大型挑戰(zhàn)時常用的策略。它幫助代理組織思維、設(shè)定目標并確定實現(xiàn)這些目標的步驟。在具體實現(xiàn)中,規(guī)劃可以包含兩個步驟:

      計劃制定(Plan Formulation):代理將復(fù)雜任務(wù)分解為更易于管理的子任務(wù)。例如:一次性分解再按順序執(zhí)行、逐步規(guī)劃并執(zhí)行、多路規(guī)劃并選取最優(yōu)路徑等。在一些需要專業(yè)知識的場景中,代理可與特定領(lǐng)域的 Planner 模塊集成,提升能力。

      計劃反思(Plan Reflection):在制定計劃后,可以進行反思并評估其優(yōu)劣。這種反思一般來自三個方面:借助內(nèi)部反饋機制;與人類互動獲得反饋;從環(huán)境中獲得反饋。

      遷移性 & 泛化性:擁有世界知識的 LLMs 賦予智能代理具備強大的遷移與泛化能力。一個好的代理不是靜態(tài)的知識庫,還應(yīng)具備動態(tài)的學習能力:

      對未知任務(wù)的泛化:隨著模型規(guī)模與訓練數(shù)據(jù)的增大,LLMs 在解決未知任務(wù)上涌現(xiàn)出了驚人的能力。通過指令微調(diào)的大模型在 zero-shot 測試中表現(xiàn)良好,在許多任務(wù)上都取得了不亞于專家模型的成績。

      情景學習(In-context Learning):大模型不僅能夠從上下文的少量示例中進行類比學習,這種能力還可以擴展到文本以外的多模態(tài)場景,為代理在現(xiàn)實世界中的應(yīng)用提供了更多可能性。

      持續(xù)學習(Continual Learning):持續(xù)學習的主要挑戰(zhàn)是災(zāi)難性遺忘,即當模型學習新任務(wù)時容易丟失過往任務(wù)中的知識。專有領(lǐng)域的智能代理應(yīng)當盡量避免丟失通用領(lǐng)域的知識。

      感知端:Perception

      人類通過多模態(tài)的方式感知世界,所以研究者們對 LLM-based Agents 抱有同樣的期待。多模態(tài)感知能加深代理對工作環(huán)境的理解,顯著提升了其通用性。

      文本輸入:作為 LLMs 最基礎(chǔ)的能力,這里不再贅述。

      視覺輸入:LLMs 本身并不具備視覺的感知能力,只能理解離散的文本內(nèi)容。而視覺輸入通常包含有關(guān)世界的大量信息,包括對象的屬性,空間關(guān)系,場景布局等等。常見的方法有:

      將視覺輸入轉(zhuǎn)為對應(yīng)的文本描述(Image Captioning):可以被 LLMs 直接理解,并且可解釋性高。

      對視覺信息進行編碼表示:以視覺基礎(chǔ)模型 + LLMs 的范式來構(gòu)成感知模塊,通過對齊操作來讓模型理解不同模態(tài)的內(nèi)容,可以端到端的方式進行訓練。

      聽覺輸入:聽覺也是人類感知中的重要組成部分。由于 LLMs 有著優(yōu)秀的工具調(diào)用能力,一個直觀的想法就是:代理可以將 LLMs 作為控制樞紐,通過級聯(lián)的方式調(diào)用現(xiàn)有的工具集或者專家模型,感知音頻信息。此外,音頻也可以通過頻譜圖(Spectrogram)的方式進行直觀表示。頻譜圖可以作為平面圖像來展示2D 信息,因此,一些視覺的處理方法可以遷移到語音領(lǐng)域。

      其他輸入:現(xiàn)實世界中的信息遠不止文本、視覺和聽覺。作者們希望在未來,智能代理能配備更豐富的感知模塊,例如觸覺、嗅覺等器官,用于獲取目標物體更加豐富的屬性。同時,代理也能對周圍環(huán)境的溫度、濕度和明暗程度有清楚的感受,采取更 Environment-aware 的行動。

      此外,還可以為代理引入對更廣闊的整體環(huán)境的感知:采用激光雷達、GPS、慣性測量單元等成熟的感知模塊。

      行動端:Action

      在大腦做出分析、決策后,代理還需要做出行動以適應(yīng)或改變環(huán)境:

      文本輸出:作為 LLMs 最基礎(chǔ)的能力,這里不再贅述。

      工具使用:盡管 LLMs 擁有出色的知識儲備和專業(yè)能力,但在面對具體問題時,也可能會出現(xiàn)魯棒性問題、幻覺等一系列挑戰(zhàn)。與此同時,工具作為使用者能力的擴展,可以在專業(yè)性、事實性、可解釋性等方面提供幫助。例如,可以通過使用計算器來計算數(shù)學問題、使用搜索引擎來搜尋實時信息。

      另外,工具也可以擴展智能代理的行動空間。例如,通過調(diào)用語音生成、圖像生成等專家模型,來獲得多模態(tài)的行動方式。因此,如何讓代理成為優(yōu)秀的工具使用者,即學會如何有效地利用工具,是非常重要且有前景的方向。

      目前,主要的工具學習方法包括從演示中學習和從反饋中學習。此外,也可以通過元學習、課程學習等方式來讓代理程序在使用各種工具方面具備泛化能力。更進一步,智能代理還可以進一步學習如何「自給自足」地制造工具,從而提高其自主性和獨立性。

      具身行動:具身(Embodyment)是指代理與環(huán)境交互過程中,理解、改造環(huán)境并更新自身狀態(tài)的能力。具身行動(Embodied Action)被視為虛擬智能與物理現(xiàn)實的互通橋梁。

      傳統(tǒng)的基于強化學習的 Agent 在樣本效率、泛化性和復(fù)雜問題推理等方面存在局限性,而 LLM-based Agents 通過引入大模型豐富的內(nèi)在知識,使得 Embodied Agent 能夠像人類一樣主動感知、影響物理環(huán)境。根據(jù)代理在任務(wù)中的自主程度或者說 Action 的復(fù)雜程度,可以有以下的原子 Action:

      Observation 可以幫助智能代理在環(huán)境中定位自身位置、感知對象物品和獲取其他環(huán)境信息;

      Manipulation 則是完成一些具體的抓取、推動等操作任務(wù);

      Navigation 要求智能代理根據(jù)任務(wù)目標變換自身位置并根據(jù)環(huán)境信息更新自身狀態(tài)。

      通過組合這些原子行動,代理可以完成更為復(fù)雜的任務(wù)。例如「廚房的西瓜比碗大嗎?」這類具身的 QA 任務(wù)。為了解決這個問題,代理需要導(dǎo)航到廚房,并在觀察二者的大小后得出答案。

      受限于物理世界硬件的高成本和具身數(shù)據(jù)集缺乏等問題,目前具身行動的研究仍主要集中于游戲平臺《我的世界》等虛擬沙盒環(huán)境中。因此,一方面作者們期待有一種更貼近現(xiàn)實的任務(wù)范式和評價標準,另一方面,也需要大家在高效構(gòu)建相關(guān)數(shù)據(jù)集上面有更多的探索。

      Agent in Practice:多樣化的應(yīng)用場景

      當下,LLM-based Agents 已經(jīng)展現(xiàn)出了令人矚目的多樣性和強大性能。AutoGPT、MetaGPT、CAMEL 以及 GPT Engineer 等耳熟能詳?shù)膽?yīng)用實例正在以前所未有的速度蓬勃發(fā)展。

      在介紹的具體的應(yīng)用之前,作者們討論了 Agent in Practice 的設(shè)計原則:

      1. 幫助用戶從日常任務(wù)、重復(fù)勞動中解脫出來,減輕人類的工作壓力,提高解決任務(wù)的效率;

      2. 不再需要用戶提出顯式的低級指令,就可以完全自主的分析、規(guī)劃、解決問題;

      3. 在解放用戶的雙手以后,嘗試解放大腦:在前沿科學領(lǐng)域充分發(fā)揮潛能,完成創(chuàng)新性的、探索性的工作。

      在這個基礎(chǔ)上,代理的應(yīng)用可以有三種范式:

      LLM-based Agent 的三種應(yīng)用范式:單代理、多代理、人機交互。

      單代理場景

      可以接受人類自然語言命令,執(zhí)行日常任務(wù)的智能代理目前備受用戶青睞,具有很高的現(xiàn)實使用價值。作者們首先在單智能代理的應(yīng)用場景中,闡述了其多樣化的應(yīng)用場景與對應(yīng)能力。

      在本文中,單智能代理的應(yīng)用被劃分為如下三個層次:

      單代理應(yīng)用場景的三個層次:任務(wù)導(dǎo)向、創(chuàng)新導(dǎo)向、生命周期導(dǎo)向。

      在任務(wù)導(dǎo)向的部署中,代理幫助人類用戶處理日常基本任務(wù)。它們需要具備基本的指令理解、任務(wù)分解、與環(huán)境交互的能力。具體來說,根據(jù)現(xiàn)有的任務(wù)類型,代理的實際應(yīng)用又可以分為模擬網(wǎng)絡(luò)環(huán)境與模擬生活場景。

      在創(chuàng)新導(dǎo)向的部署中,代理能夠在前沿科學領(lǐng)域展現(xiàn)出自主探究的潛力。雖然來自專業(yè)領(lǐng)域的固有復(fù)雜性和訓練數(shù)據(jù)的缺乏給智能代理的構(gòu)建帶來了阻礙,但目前已經(jīng)有許多工作在化學、材料、計算機等領(lǐng)域取得了進展。

      在生命周期導(dǎo)向的部署中,代理具備在一個開放世界中不斷探索、學習和使用新技能,并長久生存的能力。在本節(jié)中,作者們以《我的世界》游戲為例展開介紹。由于游戲中的生存挑戰(zhàn)可以被認為是現(xiàn)實世界的一個縮影,已經(jīng)有許多研究者將其作為開發(fā)和測試代理綜合能力的獨特平臺。

      多代理場景

      早在1986年,Marvin Minsky 就做出了具有前瞻性的預(yù)言。他在《心智社會》(The Society of Mind)一書中提出了一種新穎的智力理論,認為智力是在許多較小的、特定功能的代理的相互作用中產(chǎn)生的。例如,一些代理可能負責識別模式,而其他代理可能負責做出決策或生成解決方案。

      這一想法隨著分布式人工智能的興起得到了具體實踐。多代理系統(tǒng)(Multi-Agent System)作為其中主要的研究問題之一,主要關(guān)注代理們?nèi)绾斡行У貐f(xié)調(diào)并協(xié)作解決問題。本文作者將多代理之間的交互劃分為以下兩種形式:

      多代理應(yīng)用場景的兩種交互形式:合作型互動、對抗型互動。

      合作型互動:作為實際應(yīng)用中部署最為廣泛的類型,合作型的代理系統(tǒng)可以有效提高任務(wù)效率、共同改進決策。具體來說,根據(jù)合作形式的不同,作者們又將合作型互動細分為無序合作與有序合作。

      當所有代理自由地表達自己的觀點、看法,以一種沒有順序的方式進行合作時,稱為無序合作。

      當所有代理遵循一定的規(guī)則,例如以流水線的形式逐一發(fā)表自己的觀點時,整個合作過程井然有序,稱為有序合作。

      對抗型互動:智能代理以一種針鋒相對(tit for tat)的方式進行互動。通過競爭、談判、辯論的形式,代理拋棄原先可能錯誤的信念,對自己的行為或者推理過程進行有意義的反思,最終帶來整個系統(tǒng)響應(yīng)質(zhì)量的提升。

      人機交互場景

      人機交互(Human-Agent Interaction),顧名思義,是智能代理通過與人類交互,合作完成任務(wù)。一方面,代理的動態(tài)學習能力需要溝通交流來支持;另一方面,目前的代理系統(tǒng)在可解釋性上的表現(xiàn)依然不足,可能會存在安全性、合法性等方面的問題,因此需要人類參與進行規(guī)范與監(jiān)督。

      作者們在論文中將 Human-Agent 的交互劃分為以下兩種模式:

      人機交互場景的的兩種模式:Instructor-Executor 模式 vs. Equal Partnership 模式。

      Instructor-Executor 模式:人類作為指導(dǎo)者,給出指令、反饋意見;而代理作為執(zhí)行者,依據(jù)指示逐步調(diào)整、優(yōu)化。這種模式在教育、醫(yī)療、商業(yè)等領(lǐng)域得到了廣泛的應(yīng)用。

      Equal Partnership 模式:有研究觀察到代理能夠在與人類的交流中表現(xiàn)出共情能力,或是以平等的身份參與到任務(wù)執(zhí)行中。智能代理展現(xiàn)出在日常生活中的應(yīng)用潛力,有望在未來融入人類社會。

      Agent 社會:從個性到社會性

      長期以來,研究人員一直憧憬著構(gòu)建「交互式的人工社會」,從沙盒游戲《模擬人生》到「元宇宙」,人們對模擬社會的定義可以概述為:環(huán)境 + 環(huán)境中生存、互動的個體。

      在文章中,作者們用一張圖描述了 Agent 社會的概念框架:

      代理社會的概念框架,分為兩個關(guān)鍵部分:代理和環(huán)境。

      該框架中,我們可以看到:

      左側(cè)部分:在個體層面上,代理表現(xiàn)出多種內(nèi)化行為,例如計劃、推理和反思。此外,代理還顯現(xiàn)出內(nèi)在的人格特征,涵蓋認知、情感和性格三個方面。

      中間部分:單個代理可以與其他代理個體組成群體,共同展現(xiàn)出合作等群體行為,例如協(xié)同合作等。

      右側(cè)部分:環(huán)境的形式可以是虛擬的沙盒環(huán)境,也可以是真實的物理世界。環(huán)境中的要素包括了人類參與者和各類可用資源。對于單個代理而言,其他代理也屬于環(huán)境的一部分。

      整體互動:代理們通過感知外界環(huán)境、采取行動,積極參與整個交互過程。

      代理的社會行為與人格

      文章從外在行為和內(nèi)在人格來審視了代理在社會中的表現(xiàn):

      社會行為:從社會的角度出發(fā),可以將行為分為個體和集體兩個層次:

      個體行為構(gòu)成了代理自身運作和發(fā)展的基礎(chǔ)。包括以感知為代表的輸入、行動為代表的輸出,以及代理自身的內(nèi)化行為。

      群體行為是指兩個以上代理自發(fā)交互時產(chǎn)生的行為。包括以協(xié)作為代表的積極行為、沖突為代表的消極行為,以及從眾、旁觀等中立行為。

      人格:包括認知、情感和性格。就像人類在社會化過程中逐漸形成自己的特質(zhì)一樣,代理也展現(xiàn)了所謂的 "類人智能",即通過與群體和環(huán)境的互動中逐漸塑造人格。

      認知(Cognitive abilities):涵蓋了代理獲取和理解知識的過程,研究表明,基于 LLM 的代理在某些方面能夠表現(xiàn)出類似于人類的深思熟慮和智力水平。

      情感(Emotional intelligence):涉及主觀感受和情緒狀態(tài),如喜怒哀樂,以及表現(xiàn)出同情和共情的能力。

      性格(Character portrayal):為了理解和分析 LLMs 的性格特征,研究人員利用了成熟的評測方式,如大五人格、MBTI 測試,以探究性格的多樣性和復(fù)雜性。

      模擬社會的運行環(huán)境

      代理社會不僅由獨立的個體構(gòu)成,還包括了與其交互的環(huán)境。環(huán)境對代理的感知、行動和互動產(chǎn)生影響。反過來,代理也通過他們的行為和決策也改變著環(huán)境的狀態(tài)。對于單個代理而言,環(huán)境包括其他自主代理、人類以及可使用的資源。

      在此,作者探討了環(huán)境的三種類型:

      基于文本的環(huán)境:由于 LLMs 主要依賴語言作為其輸入和輸出格式,因此基于文本的環(huán)境是代理最自然的操作平臺。通過文字的方式來描述社會現(xiàn)象和互動,文本環(huán)境提供了語義和背景知識。代理存在于這樣的文本世界中,依賴文本資源來感知、推理和采取行動。

      虛擬沙盒環(huán)境:在計算機領(lǐng)域,沙盒是指一種可受控且隔離的環(huán)境,常用于進行軟件測試和病毒分析。而代理社會的虛擬沙盒環(huán)境則是作為模擬社會互動和行為仿真的平臺,其主要特點包括:

      可視化:可以使用簡單的2D 圖形界面乃至復(fù)雜的3D 建模來展示世界,以一種直觀的方式刻畫模擬社會的方方面面。

      可擴展性:可以構(gòu)建和部署各種不同的場景(Web、游戲等)進行各種實驗,為代理提供了廣闊的探索空間。

      真實的物理環(huán)境:物理環(huán)境是由實際物體和空間組成的有形環(huán)境,代理在其中進行觀察和行動。這種環(huán)境引入了豐富的感官輸入(視覺、聽覺和空間感)。與虛擬環(huán)境不同,物理空間對代理行為提出了更多的要求。即代理在物理環(huán)境中必須具備適應(yīng)性,生成可執(zhí)行的運動控制。

      作者舉了一個例子來解釋物理環(huán)境的復(fù)雜性:想象智能代理在工廠里操作機械臂的情景,操作機械臂時需要精確控制力度,以避免損壞不同材質(zhì)的物體;此外,代理需要在物理工作空間中導(dǎo)航,及時調(diào)整移動路徑,以規(guī)避障礙物并優(yōu)化機械臂的運動軌跡。

      這些要求都增加了代理在物理環(huán)境中的復(fù)雜性和挑戰(zhàn)性。

      模擬,啟動!

      在文章中,作者們認為一個模擬社會應(yīng)該具有開放性、持久性、情境性和組織性。開放性允許代理自主地進出模擬社會;持久性是指社會具有隨著時間的推移而發(fā)展的連貫軌跡;情境性強調(diào)主體在特定環(huán)境中的存在和運作;組織性則確保模擬社會擁有類似物理世界的規(guī)則與限制。

      至于模擬社會的意義,斯坦福大學的 Generative Agents 小鎮(zhèn)為大家提供了生動的例子 ——Agent 社會可以用于探索群體智能的能力邊界,例如代理們共同籌辦了一場情人節(jié)派對;也可以用來加速社會科學的研究,例如通過模擬社交網(wǎng)絡(luò)來觀察傳播學現(xiàn)象。此外,還有研究通過模擬道德決策場景來探討代理背后的價值觀、通過模擬政策對社會的影響來輔助決策等。

      進一步地,作者指出這些模擬還可能存在一定風險,包括但不限于:有害社會現(xiàn)象;刻板印象和偏見;隱私安全問題;過度依賴與成癮性。

      前瞻開放問題

      在論文的最后,作者還討論了一些前瞻開放性問題,拋磚引玉,供讀者思考:

      智能代理與大語言模型的研究該如何互相促進、共同發(fā)展?大模型在語言理解、決策制定以及泛化能力等方面展現(xiàn)出強大的潛力,成為代理構(gòu)建過程中的關(guān)鍵角色,而代理的進展也為大模型提出了更高的要求。

      LLM-based Agents 會帶來哪些挑戰(zhàn)與隱憂?智能代理能否真正落地,需要經(jīng)過嚴謹?shù)陌踩栽u估,避免對真實世界帶來危害。作者總結(jié)了更多潛在威脅,例如:非法濫用、失業(yè)風險、對人類福祉造成影響等等。

      代理數(shù)量的提升(scaling up)會帶來哪些機遇和挑戰(zhàn)?在模擬社會中,提升個體數(shù)量可以顯著提升模擬的可信度與真實性。然而,隨著代理數(shù)量的上升,通信與消息傳播問題會變得相當復(fù)雜,信息的失真、誤解或者幻覺現(xiàn)象都會顯著降低整個模擬系統(tǒng)的效率。

      網(wǎng)絡(luò)上關(guān)于 LLM-based Agent 是否是通向 AGI 的合適道路的爭論。有研究者認為,以 GPT-4為代表的大模型已經(jīng)在足夠的語料上進行了訓練,在此基礎(chǔ)上構(gòu)建的代理有潛力成為打開 AGI 之門的鑰匙。但也有其他研究者認為,自回歸語言建模(Auto-regressive Language Modeling)并不能顯現(xiàn)出真正的智能,因為它們只是作出響應(yīng)。一個更完備的建模方式,例如世界模型(World Model),才能通向 AGI。

      群體智能的演化歷程。群體智能是一種集結(jié)眾人的意見進而轉(zhuǎn)化為決策的過程。然而,一味通過增加代理的數(shù)量,是否會產(chǎn)生真正的「智能」?此外,如何協(xié)調(diào)單個代理,讓智能代理社會克服「團體迷思」和個人認知偏差?

      代理即服務(wù)(Agent as a Service,AaaS)。由于 LLM-based Agents 比大模型本身更加復(fù)雜,中小型企業(yè)或個人更加難在本地構(gòu)建,因此云廠商可以考慮以服務(wù)的形式來將智能代理落地,即 Agent-as-a-Service。就像其他的云服務(wù)一樣,AaaS 有潛力為用戶提供高靈活性和按需的自助服務(wù)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。