當(dāng)我利用智譜剛剛推出的GLM-PC,打字告訴我的電腦:「在Edge瀏覽器上打開百度搜索,搜索并打開得到APP的主頁」,并在二十多秒后看到這個(gè)頁面被成功打開時(shí),感覺就像一個(gè)剛開始學(xué)習(xí)編程的人,成功敲出了「Hello World」。
這種新體驗(yàn)的出現(xiàn),正在加速新人機(jī)交互時(shí)代的到來。大模型技術(shù)的發(fā)展讓人們能夠在不同硬件上,通過自然語言完成復(fù)雜任務(wù)的執(zhí)行。而這種人機(jī)交互體驗(yàn)的不斷完善,是構(gòu)建起一個(gè)具備執(zhí)行能力的完全體AI助手的關(guān)鍵環(huán)節(jié)之一。擁有執(zhí)行能力的Agent,才能真正發(fā)揮出AI作為人類助手的價(jià)值。
當(dāng)下,越來越多的企業(yè)開始致力于新人機(jī)交互體驗(yàn)的開發(fā)和升級(jí)。智譜在升級(jí)AutoGLM能力的同時(shí),推出了瀏覽器插件 AutoGLM-Web 和 GLM-PC,進(jìn)一步拓展了使用場(chǎng)景。Anthropic的computer use同樣處在測(cè)試階段,并「將在未來幾個(gè)月內(nèi)迅速提高能力」。OpenAI和Google的類似產(chǎn)品也已經(jīng)在開發(fā)過程中。
一方面,盡管在體驗(yàn)上還存在諸多不足,但代理執(zhí)行能力已經(jīng)成為大模型的又一種基礎(chǔ)能力;另一方面,人機(jī)交互的未來只被掀開了一角,探索還在很早期,主要在利用大模型對(duì)原有的圖形界面交互進(jìn)行改良,讓大模型看懂圖形界面,代替人去完成機(jī)械性的重復(fù)操作。
從長(zhǎng)遠(yuǎn)來看,在大模型具備并持續(xù)完善對(duì)話、推理、執(zhí)行能力,且原生AI硬件快速發(fā)展的前提下,我們可以期待一場(chǎng)更加徹底的人機(jī)交互迭代。「圖形界面+應(yīng)用」的組合,很有可能會(huì)被「AI助手+Agents」的組合替代,AI助手會(huì)成為AI OS的化身。
使用工具是大模型的一次迭代
目前,人們能有機(jī)會(huì)體驗(yàn)到智譜和Anthropic兩家的代理執(zhí)行產(chǎn)品。其中,Anthropic是通過API讓Claude能夠像人一樣操作電腦,實(shí)現(xiàn)看屏幕、打字、移動(dòng)光標(biāo)等操作。智譜則通過基于 Agent 技術(shù)的 AutoGLM 和 GLM-PC 兩款產(chǎn)品,去看懂和理解 OS 系統(tǒng)的操作界面,不管是手機(jī)、電腦還是 Web。
從真實(shí)的使用體驗(yàn)來看,智譜的產(chǎn)品能夠幫用戶完成一些回復(fù)微信消息、在微信內(nèi)搜索文章等任務(wù),并具備一定的容錯(cuò)率。即便我把回復(fù)對(duì)象的名字「乓乒」錯(cuò)輸成了「乒乒」,它還是能夠準(zhǔn)確找到人。但在讓AutoGLM幫我打開虎嗅的微信公眾號(hào)搜索AI相關(guān)內(nèi)容時(shí),它的語音把虎嗅識(shí)別成了胡秀和互秀,需要人工介入進(jìn)行調(diào)整。
AutoGLM執(zhí)行復(fù)雜任務(wù)的能力還有一定的局限性。我們可以讓它跨外賣應(yīng)用進(jìn)行比價(jià),但讓它幫助總結(jié)微信搜索結(jié)果中各條內(nèi)容的概要時(shí),它只總結(jié)了第一條的。此外,這類產(chǎn)品的操作等待時(shí)間比較長(zhǎng),且需要用戶輸入精準(zhǔn)的描述,如果將關(guān)閉標(biāo)簽頁輸入成關(guān)閉主頁,也無法正確完成操作。
即便能力和體驗(yàn)都還有很大的提升空間,智譜和Anthropic的嘗試也給行業(yè)指出了一條新的突破方向,讓AI具備了進(jìn)入Agentic AI階段的可能。在OpenAI和智譜對(duì)AI的發(fā)展階段劃分中,使用工具的能力都被視為AI第三階段的標(biāo)志。
OpenAI認(rèn)為,人工智能的五個(gè)階段是:可以與人類對(duì)話的聊天機(jī)器人;可在解決問題上與人類并駕齊驅(qū)的推論者;可采取行動(dòng)的AI系統(tǒng);能夠幫助發(fā)明的創(chuàng)新者以及可完成組織任務(wù)的組織者。智譜對(duì)五個(gè)階段的劃分則包括:語言能力(多模態(tài)能力)、邏輯能力、使用工具的能力、自我學(xué)習(xí)能力、探究科學(xué)規(guī)律。
OpenAI和智譜的五個(gè)階段劃分雖然有所不同,但參考人的成長(zhǎng)階段,都能被分成掌握基礎(chǔ)技能和實(shí)現(xiàn)社會(huì)化學(xué)習(xí)兩個(gè)部分。前者是讓AI像幼兒一樣,具備了對(duì)話、推理和使用工具的能力;后者則是讓AI進(jìn)入到上學(xué)和工作的階段,開始學(xué)習(xí)更復(fù)雜的知識(shí),并承擔(dān)更復(fù)雜的社會(huì)化協(xié)作。
在智譜CEO張鵬看來,智譜的AI目前在語言能力上已經(jīng)達(dá)到了人類80%甚至90%的水平,在推理能力上也具備了人類60%的水平(盡管復(fù)雜推理能力只有30%)。但是在行動(dòng)能力或工具使用能力上,僅具備了人30%至40%的能力,有能力去理解圖形化界面,規(guī)劃和完成復(fù)雜任務(wù),卻不能保證更好的效果和更廣泛的適用性。
讓AI具備使用工具的能力是完成基礎(chǔ)技能養(yǎng)成的標(biāo)志。這意味著,AI能夠在不斷完善對(duì)話、推理和行動(dòng)三項(xiàng)能力的基礎(chǔ)上,去開發(fā)更實(shí)用的功能,解決更多實(shí)際問題,并且開始對(duì)現(xiàn)實(shí)世界的發(fā)展進(jìn)程產(chǎn)生更深刻地影響。其中,最為顯著的改變就是推開了一個(gè)人機(jī)交互新時(shí)代的大門。
能力提升帶來人機(jī)交互新可能
從命令行界面到鍵盤鼠標(biāo),再到觸控,工程師們一直在尋找人與機(jī)器進(jìn)行交互的更好方式,不斷縮短輸入命令到執(zhí)行,再到輸出結(jié)果的路徑。但如張鵬所說:「用戶至今仍需要花費(fèi)大量的時(shí)間去學(xué)習(xí)形形色色的軟件的操作,在操作界面跨多個(gè)應(yīng)用來完成復(fù)雜的工作流。這中間其實(shí)有大量的、重復(fù)性的、機(jī)械性的人機(jī)的交互!
具備對(duì)話、推理、執(zhí)行能力的大模型,讓人不再需要遷就機(jī)器,而是讓機(jī)器開始有能力去理解人的需求,代替人完成復(fù)雜任務(wù),用戶只需要清楚說出自己的意圖即可。
以購物場(chǎng)景為例,在圖形界面下,用戶要買一袋洗衣液,需要完成打開購物軟件、搜索洗衣液、比較價(jià)格和功能、填寫收貨地址、付款等動(dòng)作,這些動(dòng)作共同拼湊出了「我要買袋什么樣的洗衣液」這個(gè)完整的需求。未來用戶直接告訴大模型「我要買袋什么樣的洗衣液」,大模型就會(huì)負(fù)責(zé)完成整個(gè)購買流程。
這是一次基礎(chǔ)交互邏輯的變化,更符合人類使用自然語言進(jìn)行交互的習(xí)慣。在這種交互邏輯下,將AI助手帶向大眾的Siri的創(chuàng)始團(tuán)隊(duì)提出過改變?nèi)祟愇磥淼娜齻(gè)要素:虛擬助理、AI機(jī)器人助理和AR。虛擬助理幫助處理信息世界中的事物,AI機(jī)器人助理處理現(xiàn)實(shí)世界中的事務(wù),AR負(fù)責(zé)打通虛擬與現(xiàn)實(shí)兩個(gè)世界。
在大模型的語境下,AR更像是一種內(nèi)容顯示方式,真正打通虛擬與現(xiàn)實(shí)兩個(gè)世界的是擁有多模態(tài)能力的Agent。它不但可以聽懂人類的命令,根據(jù)命令拆分出指令序列,還具備調(diào)動(dòng)APP和硬件的功能,協(xié)同完成任務(wù)的能力。
就像我們已經(jīng)看到的外賣比價(jià)、一句話點(diǎn)外賣、遠(yuǎn)程操控電腦執(zhí)行任務(wù)等操作,Agent已經(jīng)能夠在一定程度上代替人去連接和調(diào)用不同的應(yīng)用。就像張鵬所說,AutoGLM在用戶和眾多的應(yīng)用APP之間添加了一個(gè)APP執(zhí)行的調(diào)度層。
在未來,Agent未嘗不能直接連接掃地機(jī)器人、電飯煲、新風(fēng)機(jī),實(shí)現(xiàn)對(duì)硬件能力的調(diào)用。從人操控硬件,到人通過Agent去管理和操控硬件的過程中,能夠?qū)崿F(xiàn)軟硬件能力的更靈活解藕與組合。這可能意味著,人正在通過Agent實(shí)現(xiàn)與世界的自然語言交互。
走向AI OS的過渡階段
當(dāng)下,如果大膽假設(shè),大模型或者其具像化的AI助手,很可能成為用自然語言驅(qū)動(dòng)世界的新OS。只是,目前的嘗試還停留在對(duì)圖形界面交互進(jìn)行改良的階段。
一方面,Agent展示出了繞過傳統(tǒng)的API接口模式,實(shí)現(xiàn)對(duì)APP的調(diào)用和操控的能力。但是,其完成任務(wù)執(zhí)行所依賴的還是圖形界面的窗口、圖標(biāo)、菜單、指針形成的操作路徑,通過結(jié)構(gòu)化的操作拼接出完整的用戶意圖。這很可能是一個(gè)人機(jī)交互的過渡階段。
另一方面,就像很多人認(rèn)為的那樣,未來的AI OS大概率會(huì)是一個(gè)基于自然語言和Agent實(shí)現(xiàn)交互的底層系統(tǒng)。榮耀在智譜活動(dòng)上分享了其認(rèn)為手機(jī)上的AI OS需要具備三個(gè)特征:基于大模型驅(qū)動(dòng)的AI內(nèi)核;智能體驅(qū)動(dòng)的AI交互;開放服務(wù)構(gòu)建的AI生態(tài)。但目前并沒有形成一個(gè)完善的智能體生態(tài)。
相較于APP,這個(gè)生態(tài)會(huì)更匹配由AI助手調(diào)用分子化軟硬件能力的預(yù)期。未來隨著智能體生態(tài)的不斷壯大,會(huì)出現(xiàn)與之適配的原生AI OS,實(shí)現(xiàn)軟硬件體驗(yàn)的「自動(dòng)駕駛」體驗(yàn)。當(dāng)然,這需要Agent能力實(shí)現(xiàn)進(jìn)一步拓展。
首先,實(shí)現(xiàn)更廣泛的連接是AI OS的基礎(chǔ)。Agent需要有更多跨平臺(tái)的能力,做到無處不在。無論是在智能手機(jī)內(nèi)實(shí)現(xiàn)跨應(yīng)用的任務(wù)執(zhí)行,還是在手機(jī)、PC、AI硬件上實(shí)現(xiàn)不同硬件端的打通,都是Agent跨平臺(tái)能力的體現(xiàn)。
未來具備更強(qiáng)跨平臺(tái)能力的Agent,更有希望成為系統(tǒng)級(jí)的AI助手。正因如此,張鵬在OpenDay上著重強(qiáng)調(diào)「跨App」的升級(jí),并定義這是Agent生態(tài)里面非常關(guān)鍵的一步。
從目前的實(shí)踐來看,智譜、Anthropic、手機(jī)廠商的實(shí)踐都更多是在拓展某一硬件端內(nèi)的跨應(yīng)用執(zhí)行能力。這是一個(gè)比較現(xiàn)實(shí)且急迫的需求。就像前Android工程副總裁Singleton所說:「我們可以看到AI Agent的前景,但作為開發(fā)人員,構(gòu)建任何好東西都太難了。」人們需要能夠繞開應(yīng)用墻的AI體驗(yàn)構(gòu)建框架。
但是,在不同硬件端的打通上,還并沒有更大的突破和進(jìn)展。但參照智能手機(jī)時(shí)代小米與華為在設(shè)備連接上的不同進(jìn)化路徑,可以看到越早從系統(tǒng)底層進(jìn)行打通,就能積累起越來越多的后期紅利。盡管智譜在這次OpenDay上展示了在手機(jī)端、PC端和WEB端的能力,但不同端的Agent還沒有在這些測(cè)試產(chǎn)品中實(shí)現(xiàn)打通。
其次,Agent能力的拓展,還需要與原生AI硬件的創(chuàng)新相結(jié)合!竿鋵(shí)硬件跟軟件是一個(gè)互相塑造,互相定義的事情。我們看到了互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)定義了iPhone,iPhone又創(chuàng)造了全新的軟件生態(tài)。我們也看到今天大模型正在試圖定義硬件,而這些硬件的成熟一定也會(huì)給我們帶來重新被定義的軟件生態(tài)!怪亲VCOO張帆表示。
智譜發(fā)布了一個(gè)描繪未來人機(jī)交互場(chǎng)景的概念短片。在短片中,人能夠通過自然語言在不同場(chǎng)景中與不同硬件實(shí)現(xiàn)交互,滿足自己的不同需求。這需要諸如AI耳機(jī)、AI PC、AI寵物等更多AI原生硬件的支撐,當(dāng)然也需要 Agent 能力將它們無縫地銜接起來,它們將是整個(gè)軟硬件融合大系統(tǒng)的一部分。
在已經(jīng)被揭開的未來的一角中,我們看到了從Agent到AI助手,再到AI OS的可能。就像張鵬所說:「Agent可以看作是大模型通用操作系統(tǒng)LLM-OS的雛形,未來有可能實(shí)現(xiàn)原生的人機(jī)交互!
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。