折射OpenAI新一年技術(shù)路線圖，透視Sam Altman的12個(gè)愿望清單

2023年12月26日 11:55:14 蘇宓袁滾滾 來(lái)源：微信公眾號(hào)CSDN

　　本文來(lái)自于微信公眾號(hào)CSDN(ID:CSDNnews)，作者:蘇宓、袁滾滾。

　　當(dāng)?shù)貢r(shí)間12月24日，Sam Altman 在X 平臺(tái)上罕見(jiàn)地發(fā)起了一個(gè)「許愿池」，「希望 OpenAI 在2024年構(gòu)建/修復(fù)什么?」，這條推文迅速吸引 AI 領(lǐng)域眾多大佬和網(wǎng)友的參與。

　　兩個(gè)小時(shí)后，Sam Altman 挑選了12個(gè)期望值最高的愿望清單，并誓言「我們將盡我們所能去提供(以及許多其他我們感到興奮但此處未提及的內(nèi)容)」——從這里可以折射出 OpenAI2024年的路線圖。

　　AGI(請(qǐng)保持耐心)

　　GPT-5

　　更好的語(yǔ)音模式

　　提高訪問(wèn)限制

　　更好的 GPTs

　　更好的推理能力

　　對(duì)覺(jué)醒/行為程度的控制

　　視頻處理/生成能力

　　個(gè)性化定制

　　更強(qiáng)的聯(lián)網(wǎng)搜索能力

　　使用 OpenAI登錄

　　開(kāi)源

　　對(duì)于這個(gè)許愿池，就連 GitHub 前 CEO Nat Friedman 也涌入評(píng)論區(qū)發(fā)言，「請(qǐng)確保 ChatGPT 中的語(yǔ)音模式足夠出色，且可以通過(guò)圖靈測(cè)試進(jìn)行10分鐘的對(duì)話，謝謝!」

　　「2024年，OpenAI 沒(méi)有AGI」

　　過(guò)去一年，隨著 ChatGPT 的爆火，GPT-4、GPT-4Turbo、DALL·E3等大模型的陸續(xù)推出，將 AI 發(fā)展推向新的高潮。很多人也期待隨著底層模型的愈發(fā)成熟，能用 AI 做更多的事情。

　　當(dāng)然，從愿望清單中也不難看出，更多的人希望 AI 能在新的一年里實(shí)現(xiàn) AGI 的突破。

　　所謂 AGI，并沒(méi)有統(tǒng)一的定義，但是當(dāng)問(wèn)詢ChatGPT，其所給出的解釋是指一種具有與人類相似或超越人類智能水平的 AI 系統(tǒng)。通過(guò) AGI，AI 能夠像人一樣學(xué)習(xí)和適應(yīng)各種不同的任務(wù)和領(lǐng)域，具有更全面的認(rèn)知能力。實(shí)現(xiàn) AGI 被認(rèn)為是人工智能領(lǐng)域的一個(gè)長(zhǎng)期目標(biāo)，也是對(duì)計(jì)算機(jī)科學(xué)和人工智能研究的挑戰(zhàn)性問(wèn)題之一。

　　此前，英偉達(dá) CEO 黃仁勛曾做出一次預(yù)測(cè)，即我們可能會(huì)在未來(lái)五年內(nèi)看到 AGI。在黃仁勛看來(lái)，其將 AGI 定義為一種軟件或計(jì)算機(jī)，可以完成反映基本智能的測(cè)試，與正常人「相當(dāng)有競(jìng)爭(zhēng)力」。

　　不過(guò)，對(duì)于專攻于底層大模型的 OpenAI 而言，AGI 勢(shì)必會(huì)成為 AI 產(chǎn)品的底座，而不僅僅僅是一種軟件這么簡(jiǎn)單。

　　當(dāng) AI 實(shí)現(xiàn) AGI，也就意味著人與機(jī)器終極共生的時(shí)代將來(lái)臨。在這其中，無(wú)論是法律法規(guī)，還是應(yīng)用場(chǎng)景、道德規(guī)范都需要做好充足的準(zhǔn)備，否則 AI 也有可能出現(xiàn)許多不可控的情況。

　　正因此，OpenAI 對(duì)待 AGI 可謂是慎之又慎。本月早些時(shí)候，Altman 在接受《時(shí)代》雜志采訪時(shí)表示，「我認(rèn)為 AGI 將是人類迄今發(fā)明的最強(qiáng)大的技術(shù)——特別是在全球?qū)崿F(xiàn)對(duì)信息的民主化訪問(wèn)方面......就像以往任何其他強(qiáng)大的技術(shù)一樣，這將帶來(lái)令人難以置信的新事物，但也將伴隨著一些真正的負(fù)面影響」。

　　在這一次網(wǎng)友的高度期待下，Sam Altman 也在 X 平臺(tái)上也直截了當(dāng)?shù)鼗貜?fù)道，「哇，前2分鐘內(nèi)對(duì) AGI 的請(qǐng)求比預(yù)期多得多;很抱歉讓您失望了，我認(rèn)為我們無(wú)法在2024年實(shí)現(xiàn)這一目標(biāo)……」

　　GPT-5會(huì)更強(qiáng)么?

　　相比 AGI 的不可能，備受期待的下一代 AI 語(yǔ)言模型 GPT-5的落地似乎更有希望一些。

　　前有今年7月 OpenAI 提交了 GPT-5的商標(biāo)申請(qǐng)，后有Sam Altman 在一次采訪中對(duì)外透露下一代人工智能模型 GPT-5正在開(kāi)發(fā)中，還希望微軟等投資者再給一些資金支持。

　　處處都暗示著 OpenAI 內(nèi)部正在開(kāi)發(fā)下一代新模型。至于究竟是不是 GPT-5，Sam Altman 也曾警示過(guò):「在制作我們稱之為 GPT-5的模型之前，我們需要弄清楚的事情還有很多�！�

　　不過(guò)，通過(guò) OpenAI 迭代的步伐，也正如 Fireflies.ai 社區(qū)所預(yù)測(cè)的，我們也可以對(duì)下一代「GPT-5」有以下一些期待:

　　1. 數(shù)據(jù)訓(xùn)練

　　GPT-3和GPT-4分別擁有1750億個(gè)和超過(guò)1萬(wàn)億個(gè)參數(shù)，在此基礎(chǔ)上，GPT-5預(yù)計(jì)將利用更大的數(shù)據(jù)集，可能達(dá)到數(shù)萬(wàn)億個(gè)參數(shù)。

　　同時(shí)，在2023年8月 OpenAI 發(fā)布了一個(gè)網(wǎng)絡(luò)爬蟲(chóng)工具 GPTBot，可以在注重版權(quán)的基礎(chǔ)上，通過(guò)從互聯(lián)網(wǎng)收集公開(kāi)信息來(lái)擴(kuò)展其數(shù)據(jù)集。此舉也被業(yè)界解讀為 OpenAI 希望借助此款工具，幫助訓(xùn)練出 GPT-5相關(guān)模型。

　　2. 更高的準(zhǔn)確性

　　雖然 GPT-4是目前行業(yè)中最先進(jìn)的 AI 模型，但是它依然逃脫不了「幻覺(jué)」、「虛假」以及誤導(dǎo)性信息的「魔爪」。

　　不過(guò)按照 OpenAI 過(guò)往大模型版本的迭代，「準(zhǔn)確性」是其必升級(jí)的維度之一。根據(jù) OpenAI 報(bào)告顯示，GPT-4的幻覺(jué)現(xiàn)象明顯少于 GPT-3和之前的版本。GPT-4在科學(xué)和歷史類別中的準(zhǔn)確性水平超過(guò)80%。對(duì)于其他類別的準(zhǔn)確性也有顯著提高。

　　預(yù)期 GPT-5的幻覺(jué)現(xiàn)象將少于10%，以便用戶可以信任語(yǔ)言模型。

　　3. 全面的多模態(tài)

　　鑒于像微軟的 Bing Chat 和 Google Bard 這樣的多模態(tài) AI 系統(tǒng)的興起，不少人推測(cè)，GPT-5很可能融合全面的多模態(tài)能力進(jìn)行升級(jí)，可能會(huì)具備更流暢的處理和生成文本、圖像、音頻、視頻和3D 內(nèi)容的能力。

　　4. 追求經(jīng)濟(jì)高效的擴(kuò)展

　　不久前，被視為 OpenAI最強(qiáng)競(jìng)品的 Anthropic 公司發(fā)布了 Claude Pro，這款產(chǎn)品和 ChatGPT Plus 服務(wù)收費(fèi)相同，但與 ChatGPT Plus 用戶每三小時(shí)發(fā)送50條信息的限制相比，Claude Pro 用戶每八小時(shí)可向 Claude2發(fā)送至少100條信息，樹(shù)立了新的行業(yè)基準(zhǔn)，這自然給 OpenAI 帶來(lái)了一定的壓力。

　　如果想要與 Claude Pro 實(shí)現(xiàn)有效競(jìng)爭(zhēng)，OpenAI 亟須解決成本、規(guī)模、性能等關(guān)鍵挑戰(zhàn)。所以，GPT-5版本是否會(huì)克服這些挑戰(zhàn)，我們持以期待。

　　其他愿望清單

　　除此之外，網(wǎng)友們也希望 OpenAI 能夠?qū)崿F(xiàn)以及修復(fù)以下一些功能:

　　更好的語(yǔ)音模式

　　上個(gè)月，OpenAI 歷經(jīng)內(nèi)部混亂之后的首日，悄然在X 平臺(tái)上官宣ChatGPT 語(yǔ)音功能現(xiàn)在已經(jīng)向所有用戶免費(fèi)開(kāi)放，它主要由Whisper 模型提供支持。iOS 和 Android 的 ChatGPT 移動(dòng)應(yīng)用程序均提供該語(yǔ)音功能。

　　不過(guò)，有些限制的是，ChatGPT只提供了五種不同的聲音進(jìn)行選擇:Breeze、Ember、Cove、Juniper 和 Sky。

　　在未來(lái)新的一年，不少用戶希望 OpenAI 能夠支持更多的聲音和語(yǔ)言的選擇，也期待可以將這一功能添加到網(wǎng)頁(yè)版中。

　　提高訪問(wèn)限制

　　OpenAI 為 ChatGPT、GPT-4設(shè)置的訪問(wèn)限制，具體是指每個(gè)用戶在特定時(shí)間段內(nèi)可以發(fā)送的消息數(shù)量的限制、用戶或客戶端在指定時(shí)間內(nèi)訪問(wèn)服務(wù)器的次數(shù)限制。

　　通過(guò)速率限制，OpenAI 可以有效防止某些用戶濫用或誤用 API、確保每個(gè)人都能公平地訪問(wèn) API，以及幫助其自身管理基礎(chǔ)設(shè)計(jì)上的總負(fù)載。

　　當(dāng)然，不同賬戶類型和使用層級(jí)，擁有不同的速率限制。下圖顯示了 OpenAI API 的默認(rèn)極值，其中極值根據(jù)兩種方式測(cè)量:RPM(每分鐘請(qǐng)求數(shù))和 TPM(每分鐘 tokens 數(shù))。

　　當(dāng)然，遇到特殊情況或者有強(qiáng)有力理由時(shí)，也可以單獨(dú)向 OpenAI 申請(qǐng)速率限制增加。隨著 AI 應(yīng)用場(chǎng)景的豐富，越來(lái)越多的用戶希望 OpenAI 可以直接先提升一波訪問(wèn)限制。

　　可以想象的是，速率限制的提升也需要 OpenAI 付出一定的代價(jià)，譬如更強(qiáng)大的計(jì)算能力和基礎(chǔ)設(shè)施支持、增加對(duì)網(wǎng)絡(luò)帶寬的需求，或者從軟件維度入手，改進(jìn)算法、并行化處理、減少延遲等措施。

　　更好的 GPTs

　　今年11月，Sam Altman宣布「GPTs 現(xiàn)已經(jīng)對(duì)所有 ChatGPT+ 訂閱者開(kāi)放」，這意味著人人可零代碼制作智能體的時(shí)代已來(lái)臨。同時(shí)在首屆開(kāi)發(fā)者日上，OpenAI 還宣布了將推出GPT 商店，以幫助經(jīng)過(guò)驗(yàn)證的開(kāi)發(fā)人員將他們的產(chǎn)品貨幣化。

　　有些遺憾的是，OpenAI 遭遇內(nèi)亂，雖然原董事會(huì)成員將 Sam Altman 踢出局幾天后，最終其成功回歸，但是這一事件對(duì)于內(nèi)部原定的產(chǎn)品發(fā)布計(jì)劃帶來(lái)了干擾。

　　因?yàn)檫@一突發(fā)事件，OpenAI 告知用戶 GPT Store 應(yīng)用將推遲至2024年上線。所以，面向未來(lái)，更加豐富的 GPTs 在新的一年里落地也并不是什么難事。

　　更優(yōu)秀的推理能力

　　推理能力是指大模型在處理復(fù)雜任務(wù)、解決問(wèn)題或生成有邏輯關(guān)聯(lián)的連貫文本時(shí)所表現(xiàn)出的能力，它能夠在理解和應(yīng)用已有知識(shí)，進(jìn)行推理、歸納和演繹，從而產(chǎn)生準(zhǔn)確、合理的推斷和推理結(jié)果。

　　要想提升推理能力，或可以通過(guò)模型架構(gòu)改進(jìn)、更大規(guī)模的訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練和微調(diào)策略改進(jìn)、多任務(wù)學(xué)習(xí)以及結(jié)合外部知識(shí)和語(yǔ)境等方法來(lái)提升推理能力。

　　對(duì)覺(jué)醒/行為程度的控制

　　這一點(diǎn)涉及到了 AI 系統(tǒng)的倫理和安全性。AI 技術(shù)的應(yīng)用和發(fā)展需要在法律、倫理和社會(huì)框架下進(jìn)行，以確保其對(duì)人類的利益和福祉產(chǎn)生積極影響。當(dāng)然，這也絕非 OpenAI 一家就可以解決的事情，需要聯(lián)合政府、監(jiān)管機(jī)構(gòu)以及開(kāi)發(fā)者和研究機(jī)構(gòu)共同參與，最終確保對(duì) AI 系統(tǒng)的使用是可靠、透明和受控制的。

　　視頻處理生成能力

　　目前相較于文本、音頻、圖像維度，大模型在處理視頻功能方面的能力還相對(duì)有限，對(duì)于視頻數(shù)據(jù)的處理需要更復(fù)雜的架構(gòu)和技術(shù)。

　　視頻數(shù)據(jù)通常具有高維度和大量的時(shí)間序列信息，處理起來(lái)更加復(fù)雜和耗時(shí)。此外，視頻的處理還涉及到視覺(jué)內(nèi)容的識(shí)別、跟蹤、動(dòng)作理解等方面，需要更深入的視覺(jué)理解能力。

　　這也是 OpenAI 等諸多大模型企業(yè)正在發(fā)力的下一站。

　　個(gè)性化定制

　　大模型的個(gè)性化也成為目前的一個(gè)主流趨勢(shì)。個(gè)性化大模型的目標(biāo)是提供更加符合用戶個(gè)性化需求的輸出結(jié)果，增強(qiáng)用戶的滿意度和體驗(yàn)。它可以通過(guò)考慮用戶的個(gè)性化信息、上下文和反饋來(lái)實(shí)現(xiàn)，它與通用大模型的根本區(qū)別在于更加擬人化。

　　不過(guò)，在實(shí)施個(gè)性化時(shí)，需要 OpenAI 等開(kāi)發(fā)商平衡個(gè)性化和隱私保護(hù)之間的關(guān)系。

　　更強(qiáng)的聯(lián)網(wǎng)搜索能力

　　ChatGPT 的知識(shí)庫(kù)更新時(shí)間已經(jīng)被網(wǎng)友詬病很久了，GPT-3.5的知識(shí)庫(kù)截止日期是2021年9月，GPT-4的知識(shí)庫(kù)截止到2023年4月。在語(yǔ)言型的文本內(nèi)容處理上，能夠符合基本訴求。而涉及到新聞?lì)�、知識(shí)類的任務(wù)上，用戶對(duì)于時(shí)效性的要求就更高了，提出了希望 OpenAI 增加實(shí)時(shí)聯(lián)網(wǎng)搜索的產(chǎn)品能力。

　　OpenAI 賬號(hào)支持社交登錄

　　有網(wǎng)友提出希望 OpenAI 賬號(hào)支持其他網(wǎng)站的社交登錄，該功能也很合理。因?yàn)?OpenAI 目前擁有超過(guò)10億用戶，也成為了歷史上用戶增長(zhǎng)速度最快的產(chǎn)品。根據(jù)當(dāng)前的統(tǒng)計(jì)數(shù)據(jù)，ChatGPT 當(dāng)前擁有超過(guò)1.8億用戶，每周活躍用戶數(shù)達(dá)到1億。

　　該需求也能看出，網(wǎng)友們對(duì) OpenAI 持續(xù)增長(zhǎng)的預(yù)期，畢竟只有國(guó)民級(jí)應(yīng)用開(kāi)發(fā)社交登錄需求才比較合理。

　　開(kāi)源

　　開(kāi)源的話題，其實(shí)是在該 Twitter 評(píng)論里呼聲最高的新年期待，有開(kāi)發(fā)者提到希望 OpenAI 能夠開(kāi)源他們的權(quán)重和數(shù)據(jù)集，但是 Altman 把開(kāi)源列在了最后一項(xiàng)。

　　OpenAI 一度因?yàn)殚_(kāi)閉源問(wèn)題，而被調(diào)侃為 CloseAI。宣稱開(kāi)源的大模型，是真開(kāi)源還是假開(kāi)源的話題，也一直引發(fā)行業(yè)內(nèi)的討論。

　　OpenAI 斷層式的領(lǐng)先，讓其他玩家不得不使用開(kāi)源策略嘗試彎道超車，行動(dòng)最快的當(dāng)屬 Llama2，Llama2的開(kāi)源促使全球的大模型生態(tài)，在過(guò)去幾個(gè)月里得到了飛速發(fā)展。Llama2的生態(tài)蓬勃成長(zhǎng)，也讓 Meta 利用生態(tài)重振旗鼓的計(jì)劃，得以看見(jiàn)希望。

　　在今年1024程序員節(jié)的岳麓對(duì)話「九問(wèn)中國(guó)大模型掌門人」中，IDEA 研究院講席科學(xué)家張家興表示「開(kāi)源代碼是公海理念，大家都投入貢獻(xiàn)，開(kāi)源項(xiàng)目的發(fā)起方會(huì)得到很多收益。但是開(kāi)源模型與開(kāi)源代碼不同，如果修改了某個(gè)參數(shù)，模型性能也有所不同。開(kāi)源模型后，就存在繼續(xù)訓(xùn)練的可能性，如果有人能繼續(xù)訓(xùn)練，那么模型的譜系將變得非常大，它會(huì)形成一棵樹(shù)的結(jié)構(gòu)。從另一個(gè)角度來(lái)說(shuō)，我們也希望大家都能真開(kāi)源，比如更多的開(kāi)源訓(xùn)練代碼、訓(xùn)練數(shù)據(jù)，能真正幫助開(kāi)發(fā)者們繼續(xù)訓(xùn)練和微調(diào)�！�

　　月之暗面的創(chuàng)始人楊植麟對(duì)大模型開(kāi)源的觀點(diǎn)是:「團(tuán)隊(duì)?wèi)?yīng)該根據(jù)自己的發(fā)展方向，選擇是否開(kāi)閉源。如果計(jì)劃像 OpenAI 一樣的閉源，可能是通往 Super APP(超級(jí)應(yīng)用)的唯一通路，而開(kāi)源只是 ToB 的獲客手段。」

　　楊植麟認(rèn)為「凡要做 C 端超級(jí)APP 的，都是閉源。」

　　寫在最后

　　目前，AI 已經(jīng)取得了長(zhǎng)足的進(jìn)步，但仍然存在許多挑戰(zhàn)和限制:

　　從技術(shù)角度來(lái)看，AI 的發(fā)展受到算力、數(shù)據(jù)質(zhì)量和算法架構(gòu)等方面的限制。隨著硬件的進(jìn)步和算法的不斷改進(jìn)，可以預(yù)期 AI 的性能將繼續(xù)提升。

　　此外，AI 的發(fā)展還受到倫理、法律和社會(huì)因素的約束。AI 技術(shù)引發(fā)了一系列關(guān)于隱私、數(shù)據(jù)安全、就業(yè)影響、責(zé)任分配等問(wèn)題的討論。這些問(wèn)題需要綜合考慮，并在 AI 的發(fā)展過(guò)程中制定相應(yīng)的規(guī)范和政策。

　　作為 AI 領(lǐng)域的獨(dú)角獸，OpenAI在2024年又會(huì)帶來(lái)哪些讓人驚艷的功能和產(chǎn)品，讓我們拭目以待~

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信