開源版「ChatGPT Plus」來了能做數(shù)據(jù)分析、插件調(diào)用、自動(dòng)上網(wǎng)，落地真實(shí)世界的智能體

2023年10月25日 16:50:15 來源：微信公眾號機(jī)器之心

　　本文來自于微信公眾號機(jī)器之心(ID:almosthuman2014)，作者:機(jī)器之心。

　　OpenAI ChatGPT Plus 訂閱付費(fèi)功能強(qiáng)大，可以實(shí)現(xiàn)高階「數(shù)據(jù)分析」(Advanced Data Analysis)、「插件調(diào)用」(Plugins)以及「自動(dòng)網(wǎng)頁瀏覽」(Browse with Bing)，能夠作為日常生活中的重要生產(chǎn)力工具�？墒且�?yàn)樯虡I(yè)原因而選擇了閉源，研究者和開發(fā)者也只能使用而沒有辦法在其上面做任何的研究或改進(jìn)。

　　基于此，來自香港大學(xué)、XLang實(shí)驗(yàn)室、Sea AI實(shí)驗(yàn)室和Salesforce的研究者聯(lián)合打造了一款用于真實(shí)世界生產(chǎn)力工具的開源智能體框架——OpenAgents，并開源了全棧代碼(完整前后端，研究代碼)，以滿足從研究者到開發(fā)者再到用戶的所有人的需要。

　　OpenAgents 用基于「大語言模型」(LLMs)的技術(shù)和全棧工程代碼嘗試近似復(fù)刻了 ChatGPT Plus 的功能。智能體能執(zhí)行 Python/SQL 代碼，熟練調(diào)用工具，也能上網(wǎng)找地圖發(fā)帖子，一路從研究代碼實(shí)現(xiàn)到后端前端，讓其變成了人人都能用的落地級別應(yīng)用。OpenAgents 完整披露了他們采用的技術(shù)和遇到的困難，完全開源了代碼，包含從科研到邏輯代碼到前端代碼的一切。代碼完善、易于拓展，本地直接可以一鍵部署，配套提供了含有豐富的使用案例的文檔，幫助研究者和開發(fā)者在模型上搭建自己的智能體和應(yīng)用。

　　OpenAgents 總覽圖，面向用戶的網(wǎng)頁界面，面向開發(fā)者的本地部署，面向研究者的語言智能體。

　　與ChatGPT Plus 的 “一樣” 和 “不一樣”

　　左邊是 OpenAgents 的實(shí)現(xiàn)，右邊是 ChatGPT Plus:

　　先來看看「數(shù)據(jù)分析」功能。同一個(gè)分析股票價(jià)格的任務(wù)，OpenAgents 和 ChatGPT 都能不錯(cuò)地完成用戶對股價(jià)和交易的分析要求。不過 OpenAgents 可以自動(dòng)搜索 Kaggle 數(shù)據(jù)集并下載，ChatGPT 需要用戶從本地上傳。

　　再試試 OpenAI 最早推出的「插件」功能。用戶想要畫一些八面體，兩者都成功調(diào)用了 Wolfram 插件畫出多種八面體的圖片。

　　最后看看「網(wǎng)頁瀏覽」。用戶想要查詢10月20日從中國香港到紐約的機(jī)票，OpenAgents 識別用戶意圖后直接跳轉(zhuǎn)到 Skycanner，像 “真人” 一樣一邊思考一邊在網(wǎng)站中填入信息，最后回到聊天頁面總結(jié)信息;而 ChatGPT 處于安全考慮保證可控性，和調(diào)用插件類似，在云端做網(wǎng)頁瀏覽，將最后搜尋到的信息返回。

　　由于 OpenAgents 提供了開源的代碼，開發(fā)者和研究者可以定制，若干行代碼適配自己想要的模型，改進(jìn)、創(chuàng)造自己想要的功能，甚至創(chuàng)造新的 Agent。這對于該方向的進(jìn)一步開展開發(fā)和研究至關(guān)重要。

　　看似簡單，「生產(chǎn)力能用」的智能體為什么踩坑這么多?

　　智能體的開源框架不少，基于大模型的中間件更是層出不窮，為什么搭建一個(gè)真正方便可用的智能體并不容易，OpenAgents 在他們論文中與其他智能體框架進(jìn)行了對比:

　　對比 OpenAgents 和其他的框架。

　　從表格中可以看出，「界面」(Interface) 和「配套環(huán)境」(Environment) 是 OpenAgents 與眾不同的兩個(gè)因素�，F(xiàn)有的開源框架比如 LangChain，AutoGPT 和 BabyAGI 等旨在為開發(fā)者提供早期概念驗(yàn)證實(shí)現(xiàn)和控制臺界面，但在真實(shí)世界中卻不夠魯棒，這限制了更廣泛受眾的接入，特別是那些不熟悉編程或控制臺的普通用戶。而在閉源體系中，OpenAI 在 ChatGPT Plus 中部署了精心設(shè)計(jì)的產(chǎn)品，尤其是高級數(shù)據(jù)分析(之前稱為代碼解釋器)、插件和 Bing 瀏覽等功能，利用進(jìn)一步訓(xùn)練的模型、業(yè)務(wù)邏輯代碼和培育的軟件社區(qū)(例如，插件商店)。但是閉源導(dǎo)致它們難以作為開發(fā)和研究平臺使用，社區(qū)無法站在巨人肩膀上探索、評估和改進(jìn)。在側(cè)重考量這些維度之后，OpenAgents 作為面向真實(shí)場景的開源 Agent 框架，為社區(qū)提供了一個(gè)可與 ChatGPT Plus 一較高下的平臺。

　　在「界面」上，OpenAgents 提供線上的網(wǎng)頁 demo (以及配套的開源代碼)，非程序員背景的普通用戶也可輕松與智能體進(jìn)行交互，而之前的工作通常不提供或者以「控制臺指令界面」(CLI) 形式提供交互，極大地提高了智能體的使用門檻。在「配套環(huán)境」上，OpenAgents 支持真實(shí)世界環(huán)境和可控環(huán)境，支持超過200+ 的日常工具調(diào)用，支持網(wǎng)頁自動(dòng)瀏覽。

　　這些功能側(cè)重和配備使得 OpenAgents 成為對于普通用戶最沒有門檻的選擇;也為研究、開發(fā)人員等提供可能是最好的直接面向用戶的機(jī)會(huì)。

　　作為生產(chǎn)力的 Agent 未來的第一步:「用戶」，「開發(fā)人員」，「研究人員」都能用的 Agent 平臺

　　為了解決上述問題，OpenAgents 的動(dòng)機(jī)是作為一個(gè)開源平臺，為使用和部署智能體提供，目前包括三個(gè)關(guān)鍵智能體:

　　用于 Python 和 SQL 的數(shù)據(jù)智能體;

　　200多個(gè)工具使用的插件智能體;

　　自動(dòng)網(wǎng)絡(luò)瀏覽的 Web 智能體。

　　OpenAgents 相信，為了讓大語言模型發(fā)揮其全部潛力，它們必須從純粹的理論或面向開發(fā)者的工具轉(zhuǎn)變?yōu)闉閺V泛用戶群提供的動(dòng)態(tài)、交互式系統(tǒng)�！钙胀ㄓ脩簟箍梢酝ㄟ^在線 Web UI 輕松探索智能體功能，無需編碼專業(yè)知識。此外，OpenAgents 為「開發(fā)者」提供完整的業(yè)務(wù)邏輯和研究代碼，以便在本地輕松部署，「研究人員」可以進(jìn)一步構(gòu)建語言智能體。最后，OpenAgents 旨在成為一個(gè)真實(shí)而全面的人類可交互的智能體評估平臺:根據(jù)真實(shí)需求，真實(shí)用戶與智能體互動(dòng)以完成其任務(wù)，并記錄整個(gè)用戶 - 智能體互動(dòng)過程和用戶反饋以供進(jìn)一步評估。與現(xiàn)有的基準(zhǔn)測試和平臺相比，OpenAgents 提供了一個(gè)真實(shí)環(huán)境，智能體可以滿足各種真實(shí)的用戶需求。

　　面臨和克服的挑戰(zhàn)

　　挑戰(zhàn)1: 基于提示來構(gòu)建真實(shí)世界語言模型的弊端

　　在為真實(shí)用戶構(gòu)建基于提示的應(yīng)用程序時(shí)，使用提示中的指令來設(shè)定特定要求。這些指令有不同目的，有一些是為了確保大語言模型的輸出符合后端邏輯處理的特定格式(以特定鍵的字典形式輸出);有一些是提升輸出的美觀度(盡可能一條條單獨(dú)列出項(xiàng)目);有一些是用于防止?jié)撛诘墓?拒絕用戶惡意構(gòu)造的無限循環(huán)程序并且執(zhí)行)。

　　這些帶著約束目的提示來約束語言模型需要開發(fā)者研究者反復(fù)調(diào)試出來一些可以使用的指令，這些指令加在一起通常會(huì)是幾百個(gè)「詞元」(token)甚至上千個(gè)詞元，這些指令作為前綴會(huì)被反復(fù)輸入到模型造成顯卡資源的大量消耗;另外一方面，詞元越多越依賴 LLM 有很好的性能，所以說這一條技術(shù)路線對大語言模型的指令跟蹤能力和支持的上下文長度提出了一定的要求。

　　當(dāng)前的開源模型在這些方面已經(jīng)取得了顯著的改進(jìn)，但是在實(shí)驗(yàn)中仍然是不足以用來實(shí)際使用的，這方向的研究還可以繼續(xù)。此外，需要更加重視智能體模型的基礎(chǔ)開發(fā)和研究，以及針對特定領(lǐng)域和要求訓(xùn)練專用的智能體模型。這種方法可能比僅依賴于提示一個(gè)通用強(qiáng)大但固定模型更高效，也更可控。

　　挑戰(zhàn)2: 無法控制的現(xiàn)實(shí)因素

　　實(shí)現(xiàn)真實(shí)世界的語言智需要面對很多無法控制的現(xiàn)實(shí)因素，這些因素包括用戶行為、互聯(lián)網(wǎng)的基礎(chǔ)設(shè)施和業(yè)務(wù)邏輯等，它們在過去的研究中并未得到充分建模。這就需要重新評估，甚至推翻許多過去研究中的假設(shè)和方法。必須考慮到的事是，調(diào)用的 API 所在的服務(wù)器可能會(huì)崩潰。這種情況需要監(jiān)控并穩(wěn)定地完成用戶命令，而不是像過去的工具使用研究中所假設(shè)的那樣。在生成回復(fù)的過程中，用戶可能會(huì)感到不滿意，這可能導(dǎo)致語言模型在生成過程中被中斷。

　　此外，像 CAPTCHA 彈出或廣告改變網(wǎng)頁這樣的不可預(yù)測事件，可能會(huì)在相對穩(wěn)定的網(wǎng)頁結(jié)構(gòu)中引入一定程度的隨機(jī)性，這在以前的自動(dòng)瀏覽網(wǎng)頁的工作中未曾考慮過。諸如此類的問題還有很多，比如說在智能體反應(yīng)和思考的時(shí)間內(nèi)(現(xiàn)在往往需要數(shù)秒)就改變的環(huán)境，等等。

　　挑戰(zhàn)3: 來自真實(shí)場景的額外指標(biāo)

　　具體的研究通常過于強(qiáng)調(diào)性能指標(biāo)，而忽視了現(xiàn)實(shí)場景中的基本需求。例如，使用流式(即每生成一個(gè)詞元都盡快顯示給用戶)可以讓用戶能夠快速感知系統(tǒng)的反饋，而無需等待長篇大論的文本生成完畢再一起看到。特意設(shè)計(jì)的提示可以讓智能體的回復(fù)格式更加美觀，這對用戶體驗(yàn)有著顯著影響。然而，現(xiàn)有的方法并未充分考慮這些影響。導(dǎo)致了盡管在準(zhǔn)確性上的性能指標(biāo)優(yōu)秀，但在實(shí)際應(yīng)用中，它們可能導(dǎo)致響應(yīng)時(shí)間過長、文本可讀性差等等導(dǎo)致用戶體驗(yàn)不佳的問題，接下來的研究需要進(jìn)一步考慮性能和用戶體驗(yàn)之間的權(quán)衡問題。

　　挑戰(zhàn)4: 由系統(tǒng)問題引發(fā)的評估復(fù)雜性

　　構(gòu)建直接針對應(yīng)用程序的智能體可以滿足更多用戶需求，同時(shí)也能揭示更多評估挑戰(zhàn)。但基于 LLM 的應(yīng)用程序構(gòu)建會(huì)帶來額外的復(fù)雜性，使得難以判斷失敗案例是來源于 LLM 應(yīng)用的限制還是邏輯代碼的不足。舉例說明，如果說一個(gè)用戶因?yàn)闆]法從界面中直接拖拽上傳文件而造成沒有完成用戶想要的操作而判斷智能體能力不行是不合理的。因此，對智能體設(shè)計(jì)和操作邏輯的系統(tǒng)進(jìn)行改進(jìn)，簡化智能體流程以及用戶使用邏輯，或者構(gòu)建一個(gè)更加完善的設(shè)計(jì)和實(shí)現(xiàn)邏輯，是有前景且必要的。

　　未來展望

　　OpenAgents 可以怎么樣幫助社區(qū)做下一步的研究和開發(fā)?在他們的構(gòu)想中至少有如下幾點(diǎn):

　　未來工作1: 搭建更多智能體應(yīng)用

　　OpenAgents 打通了一套完整的應(yīng)用級語言智能體開發(fā)流程以及所需要的技術(shù)，并且開放了代碼。這為其他創(chuàng)新應(yīng)用與終端用戶提供了可能。開發(fā)者們可以基于此開發(fā)任何自己想要的新應(yīng)用，比如說多模態(tài)對話、語音對話、庫級別代碼助手等。

　　未來工作2: 工具和組件集成

　　OpenAgents 致力于探索和解決構(gòu)建實(shí)用級智能體應(yīng)用的基本需求，為社區(qū)提供了一個(gè)強(qiáng)大的基礎(chǔ)，使得社區(qū)可以輕松地通過集成其他組件進(jìn)行水平擴(kuò)展。同時(shí)，還可以擴(kuò)展更多的基礎(chǔ)模型，比如最近的大型多模態(tài)模型，以及適應(yīng)新的 UI 設(shè)計(jì)等。

　　未來工作3: 人機(jī)交互領(lǐng)域研究

　　開發(fā)者和研究者基于 OpenAgents 平臺能輕松構(gòu)建基于大語言模型的新智能體應(yīng)用程序。OpenAgents 因此能幫助構(gòu)建應(yīng)用程序演示，供人機(jī)交互(HCI)研究人員深入研究更直觀、更用戶友好的界面設(shè)計(jì)。這將提升用戶的參與度和滿意度。

　　未來工作4: 自適應(yīng)用戶界面生成

　　自動(dòng)創(chuàng)建用戶界面是一個(gè)有趣且具有挑戰(zhàn)性的領(lǐng)域。這些界面能根據(jù)特定標(biāo)準(zhǔn)，如用戶的設(shè)備、偏好或上下文，進(jìn)行自我調(diào)整或定制。研究人員可以深入研究在基于 OpenAgents 的自適應(yīng) UI 中，如何應(yīng)用大語言模型，以及它們對用戶體驗(yàn)的影響。

　　未來工作5: 大語言模型在實(shí)際應(yīng)用場景下的評估

　　為大語言模型建立公正且穩(wěn)健的評估方法，對于公平評價(jià)其能力和性能至關(guān)重要。目前，通過使用預(yù)先收集的數(shù)據(jù)和受控環(huán)境，對智能體進(jìn)行基準(zhǔn)測試。雖然這些評估非常關(guān)鍵，但它們往往無法全面反映真實(shí)世界中的動(dòng)態(tài)挑戰(zhàn)。鼓勵(lì)社區(qū)對這些評估指標(biāo)和平臺進(jìn)行擴(kuò)展或完善，這將顯著推動(dòng)該領(lǐng)域的發(fā)展，并為大語言模型的實(shí)際性能和能力提供更準(zhǔn)確的評估和洞察。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信