下單前先比價(jià)不花冤枉錢 同款圖書京東價(jià)低于抖音6折日媒感慨中國(guó)電動(dòng)汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會(huì)吹風(fēng)機(jī)品質(zhì)檢測(cè)結(jié)果揭曉 徠芬獨(dú)占鰲頭 共話新質(zhì)營(yíng)銷力,2024梅花數(shù)據(jù)峰會(huì)圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級(jí),成為會(huì)員至少需注冊(cè) 2 臺(tái) α 全畫幅相機(jī)、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競(jìng)賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測(cè)雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計(jì)劃iQOO Z9 Turbo長(zhǎng)續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時(shí)捷將重新評(píng)估電動(dòng)汽車計(jì)劃來京東參與榮耀Magic7 RSR 保時(shí)捷設(shè)計(jì)預(yù)售 享365天只換不修國(guó)補(bǔ)期間電視迎來換機(jī)潮,最暢銷MiniLED品牌花落誰家?美團(tuán)旗下微信社群團(tuán)購業(yè)務(wù)“團(tuán)買買”宣布年底停運(yùn)消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備在海外,要再造一個(gè)京東物流?消息稱蘋果正為AirPods開發(fā)多項(xiàng)健康功能,包括心率監(jiān)測(cè)和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗(yàn)東芝全部業(yè)務(wù)實(shí)現(xiàn)盈利,退市裁員重組后終于賺錢
  • 首頁 > 企業(yè)IT頻道 > 軟件即服務(wù)

    AI助手會(huì)成為AI OS嗎

    2024年12月03日 09:19:47   來源:窄播公眾號(hào)

      當(dāng)我利用智譜剛剛推出的GLM-PC,打字告訴我的電腦:「在Edge瀏覽器上打開百度搜索,搜索并打開得到APP的主頁」,并在二十多秒后看到這個(gè)頁面被成功打開時(shí),感覺就像一個(gè)剛開始學(xué)習(xí)編程的人,成功敲出了「Hello World」。

      這種新體驗(yàn)的出現(xiàn),正在加速新人機(jī)交互時(shí)代的到來。大模型技術(shù)的發(fā)展讓人們能夠在不同硬件上,通過自然語言完成復(fù)雜任務(wù)的執(zhí)行。而這種人機(jī)交互體驗(yàn)的不斷完善,是構(gòu)建起一個(gè)具備執(zhí)行能力的完全體AI助手的關(guān)鍵環(huán)節(jié)之一。擁有執(zhí)行能力的Agent,才能真正發(fā)揮出AI作為人類助手的價(jià)值。

      當(dāng)下,越來越多的企業(yè)開始致力于新人機(jī)交互體驗(yàn)的開發(fā)和升級(jí)。智譜在升級(jí)AutoGLM能力的同時(shí),推出了瀏覽器插件 AutoGLM-Web 和 GLM-PC,進(jìn)一步拓展了使用場(chǎng)景。Anthropic的computer use同樣處在測(cè)試階段,并「將在未來幾個(gè)月內(nèi)迅速提高能力」。OpenAI和Google的類似產(chǎn)品也已經(jīng)在開發(fā)過程中。

      一方面,盡管在體驗(yàn)上還存在諸多不足,但代理執(zhí)行能力已經(jīng)成為大模型的又一種基礎(chǔ)能力;另一方面,人機(jī)交互的未來只被掀開了一角,探索還在很早期,主要在利用大模型對(duì)原有的圖形界面交互進(jìn)行改良,讓大模型看懂圖形界面,代替人去完成機(jī)械性的重復(fù)操作。

      從長(zhǎng)遠(yuǎn)來看,在大模型具備并持續(xù)完善對(duì)話、推理、執(zhí)行能力,且原生AI硬件快速發(fā)展的前提下,我們可以期待一場(chǎng)更加徹底的人機(jī)交互迭代。「圖形界面+應(yīng)用」的組合,很有可能會(huì)被「AI助手+Agents」的組合替代,AI助手會(huì)成為AI OS的化身。

      使用工具是大模型的一次迭代

      目前,人們能有機(jī)會(huì)體驗(yàn)到智譜和Anthropic兩家的代理執(zhí)行產(chǎn)品。其中,Anthropic是通過API讓Claude能夠像人一樣操作電腦,實(shí)現(xiàn)看屏幕、打字、移動(dòng)光標(biāo)等操作。智譜則通過基于 Agent 技術(shù)的 AutoGLM 和 GLM-PC 兩款產(chǎn)品,去看懂和理解 OS 系統(tǒng)的操作界面,不管是手機(jī)、電腦還是 Web。

      從真實(shí)的使用體驗(yàn)來看,智譜的產(chǎn)品能夠幫用戶完成一些回復(fù)微信消息、在微信內(nèi)搜索文章等任務(wù),并具備一定的容錯(cuò)率。即便我把回復(fù)對(duì)象的名字「乓乒」錯(cuò)輸成了「乒乒」,它還是能夠準(zhǔn)確找到人。但在讓AutoGLM幫我打開虎嗅的微信公眾號(hào)搜索AI相關(guān)內(nèi)容時(shí),它的語音把虎嗅識(shí)別成了胡秀和互秀,需要人工介入進(jìn)行調(diào)整。

      AutoGLM執(zhí)行復(fù)雜任務(wù)的能力還有一定的局限性。我們可以讓它跨外賣應(yīng)用進(jìn)行比價(jià),但讓它幫助總結(jié)微信搜索結(jié)果中各條內(nèi)容的概要時(shí),它只總結(jié)了第一條的。此外,這類產(chǎn)品的操作等待時(shí)間比較長(zhǎng),且需要用戶輸入精準(zhǔn)的描述,如果將關(guān)閉標(biāo)簽頁輸入成關(guān)閉主頁,也無法正確完成操作。

      即便能力和體驗(yàn)都還有很大的提升空間,智譜和Anthropic的嘗試也給行業(yè)指出了一條新的突破方向,讓AI具備了進(jìn)入Agentic AI階段的可能。在OpenAI和智譜對(duì)AI的發(fā)展階段劃分中,使用工具的能力都被視為AI第三階段的標(biāo)志。

      OpenAI認(rèn)為,人工智能的五個(gè)階段是:可以與人類對(duì)話的聊天機(jī)器人;可在解決問題上與人類并駕齊驅(qū)的推論者;可采取行動(dòng)的AI系統(tǒng);能夠幫助發(fā)明的創(chuàng)新者以及可完成組織任務(wù)的組織者。智譜對(duì)五個(gè)階段的劃分則包括:語言能力(多模態(tài)能力)、邏輯能力、使用工具的能力、自我學(xué)習(xí)能力、探究科學(xué)規(guī)律。

      OpenAI和智譜的五個(gè)階段劃分雖然有所不同,但參考人的成長(zhǎng)階段,都能被分成掌握基礎(chǔ)技能和實(shí)現(xiàn)社會(huì)化學(xué)習(xí)兩個(gè)部分。前者是讓AI像幼兒一樣,具備了對(duì)話、推理和使用工具的能力;后者則是讓AI進(jìn)入到上學(xué)和工作的階段,開始學(xué)習(xí)更復(fù)雜的知識(shí),并承擔(dān)更復(fù)雜的社會(huì)化協(xié)作。

      在智譜CEO張鵬看來,智譜的AI目前在語言能力上已經(jīng)達(dá)到了人類80%甚至90%的水平,在推理能力上也具備了人類60%的水平(盡管復(fù)雜推理能力只有30%)。但是在行動(dòng)能力或工具使用能力上,僅具備了人30%至40%的能力,有能力去理解圖形化界面,規(guī)劃和完成復(fù)雜任務(wù),卻不能保證更好的效果和更廣泛的適用性。

      讓AI具備使用工具的能力是完成基礎(chǔ)技能養(yǎng)成的標(biāo)志。這意味著,AI能夠在不斷完善對(duì)話、推理和行動(dòng)三項(xiàng)能力的基礎(chǔ)上,去開發(fā)更實(shí)用的功能,解決更多實(shí)際問題,并且開始對(duì)現(xiàn)實(shí)世界的發(fā)展進(jìn)程產(chǎn)生更深刻地影響。其中,最為顯著的改變就是推開了一個(gè)人機(jī)交互新時(shí)代的大門。

      能力提升帶來人機(jī)交互新可能

      從命令行界面到鍵盤鼠標(biāo),再到觸控,工程師們一直在尋找人與機(jī)器進(jìn)行交互的更好方式,不斷縮短輸入命令到執(zhí)行,再到輸出結(jié)果的路徑。但如張鵬所說:「用戶至今仍需要花費(fèi)大量的時(shí)間去學(xué)習(xí)形形色色的軟件的操作,在操作界面跨多個(gè)應(yīng)用來完成復(fù)雜的工作流。這中間其實(shí)有大量的、重復(fù)性的、機(jī)械性的人機(jī)的交互!

      具備對(duì)話、推理、執(zhí)行能力的大模型,讓人不再需要遷就機(jī)器,而是讓機(jī)器開始有能力去理解人的需求,代替人完成復(fù)雜任務(wù),用戶只需要清楚說出自己的意圖即可。

      以購物場(chǎng)景為例,在圖形界面下,用戶要買一袋洗衣液,需要完成打開購物軟件、搜索洗衣液、比較價(jià)格和功能、填寫收貨地址、付款等動(dòng)作,這些動(dòng)作共同拼湊出了「我要買袋什么樣的洗衣液」這個(gè)完整的需求。未來用戶直接告訴大模型「我要買袋什么樣的洗衣液」,大模型就會(huì)負(fù)責(zé)完成整個(gè)購買流程。

      這是一次基礎(chǔ)交互邏輯的變化,更符合人類使用自然語言進(jìn)行交互的習(xí)慣。在這種交互邏輯下,將AI助手帶向大眾的Siri的創(chuàng)始團(tuán)隊(duì)提出過改變?nèi)祟愇磥淼娜齻(gè)要素:虛擬助理、AI機(jī)器人助理和AR。虛擬助理幫助處理信息世界中的事物,AI機(jī)器人助理處理現(xiàn)實(shí)世界中的事務(wù),AR負(fù)責(zé)打通虛擬與現(xiàn)實(shí)兩個(gè)世界。

      在大模型的語境下,AR更像是一種內(nèi)容顯示方式,真正打通虛擬與現(xiàn)實(shí)兩個(gè)世界的是擁有多模態(tài)能力的Agent。它不但可以聽懂人類的命令,根據(jù)命令拆分出指令序列,還具備調(diào)動(dòng)APP和硬件的功能,協(xié)同完成任務(wù)的能力。

      就像我們已經(jīng)看到的外賣比價(jià)、一句話點(diǎn)外賣、遠(yuǎn)程操控電腦執(zhí)行任務(wù)等操作,Agent已經(jīng)能夠在一定程度上代替人去連接和調(diào)用不同的應(yīng)用。就像張鵬所說,AutoGLM在用戶和眾多的應(yīng)用APP之間添加了一個(gè)APP執(zhí)行的調(diào)度層。

      在未來,Agent未嘗不能直接連接掃地機(jī)器人、電飯煲、新風(fēng)機(jī),實(shí)現(xiàn)對(duì)硬件能力的調(diào)用。從人操控硬件,到人通過Agent去管理和操控硬件的過程中,能夠?qū)崿F(xiàn)軟硬件能力的更靈活解藕與組合。這可能意味著,人正在通過Agent實(shí)現(xiàn)與世界的自然語言交互。

      走向AI OS的過渡階段

      當(dāng)下,如果大膽假設(shè),大模型或者其具像化的AI助手,很可能成為用自然語言驅(qū)動(dòng)世界的新OS。只是,目前的嘗試還停留在對(duì)圖形界面交互進(jìn)行改良的階段。

      一方面,Agent展示出了繞過傳統(tǒng)的API接口模式,實(shí)現(xiàn)對(duì)APP的調(diào)用和操控的能力。但是,其完成任務(wù)執(zhí)行所依賴的還是圖形界面的窗口、圖標(biāo)、菜單、指針形成的操作路徑,通過結(jié)構(gòu)化的操作拼接出完整的用戶意圖。這很可能是一個(gè)人機(jī)交互的過渡階段。

      另一方面,就像很多人認(rèn)為的那樣,未來的AI OS大概率會(huì)是一個(gè)基于自然語言和Agent實(shí)現(xiàn)交互的底層系統(tǒng)。榮耀在智譜活動(dòng)上分享了其認(rèn)為手機(jī)上的AI OS需要具備三個(gè)特征:基于大模型驅(qū)動(dòng)的AI內(nèi)核;智能體驅(qū)動(dòng)的AI交互;開放服務(wù)構(gòu)建的AI生態(tài)。但目前并沒有形成一個(gè)完善的智能體生態(tài)。

      相較于APP,這個(gè)生態(tài)會(huì)更匹配由AI助手調(diào)用分子化軟硬件能力的預(yù)期。未來隨著智能體生態(tài)的不斷壯大,會(huì)出現(xiàn)與之適配的原生AI OS,實(shí)現(xiàn)軟硬件體驗(yàn)的「自動(dòng)駕駛」體驗(yàn)。當(dāng)然,這需要Agent能力實(shí)現(xiàn)進(jìn)一步拓展。

      首先,實(shí)現(xiàn)更廣泛的連接是AI OS的基礎(chǔ)。Agent需要有更多跨平臺(tái)的能力,做到無處不在。無論是在智能手機(jī)內(nèi)實(shí)現(xiàn)跨應(yīng)用的任務(wù)執(zhí)行,還是在手機(jī)、PC、AI硬件上實(shí)現(xiàn)不同硬件端的打通,都是Agent跨平臺(tái)能力的體現(xiàn)。

      未來具備更強(qiáng)跨平臺(tái)能力的Agent,更有希望成為系統(tǒng)級(jí)的AI助手。正因如此,張鵬在OpenDay上著重強(qiáng)調(diào)「跨App」的升級(jí),并定義這是Agent生態(tài)里面非常關(guān)鍵的一步。

      從目前的實(shí)踐來看,智譜、Anthropic、手機(jī)廠商的實(shí)踐都更多是在拓展某一硬件端內(nèi)的跨應(yīng)用執(zhí)行能力。這是一個(gè)比較現(xiàn)實(shí)且急迫的需求。就像前Android工程副總裁Singleton所說:「我們可以看到AI Agent的前景,但作為開發(fā)人員,構(gòu)建任何好東西都太難了。」人們需要能夠繞開應(yīng)用墻的AI體驗(yàn)構(gòu)建框架。

      但是,在不同硬件端的打通上,還并沒有更大的突破和進(jìn)展。但參照智能手機(jī)時(shí)代小米與華為在設(shè)備連接上的不同進(jìn)化路徑,可以看到越早從系統(tǒng)底層進(jìn)行打通,就能積累起越來越多的后期紅利。盡管智譜在這次OpenDay上展示了在手機(jī)端、PC端和WEB端的能力,但不同端的Agent還沒有在這些測(cè)試產(chǎn)品中實(shí)現(xiàn)打通。

      其次,Agent能力的拓展,還需要與原生AI硬件的創(chuàng)新相結(jié)合!竿鋵(shí)硬件跟軟件是一個(gè)互相塑造,互相定義的事情。我們看到了互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)定義了iPhone,iPhone又創(chuàng)造了全新的軟件生態(tài)。我們也看到今天大模型正在試圖定義硬件,而這些硬件的成熟一定也會(huì)給我們帶來重新被定義的軟件生態(tài)!怪亲VCOO張帆表示。

      智譜發(fā)布了一個(gè)描繪未來人機(jī)交互場(chǎng)景的概念短片。在短片中,人能夠通過自然語言在不同場(chǎng)景中與不同硬件實(shí)現(xiàn)交互,滿足自己的不同需求。這需要諸如AI耳機(jī)、AI PC、AI寵物等更多AI原生硬件的支撐,當(dāng)然也需要 Agent 能力將它們無縫地銜接起來,它們將是整個(gè)軟硬件融合大系統(tǒng)的一部分。

      在已經(jīng)被揭開的未來的一角中,我們看到了從Agent到AI助手,再到AI OS的可能。就像張鵬所說:「Agent可以看作是大模型通用操作系統(tǒng)LLM-OS的雛形,未來有可能實(shí)現(xiàn)原生的人機(jī)交互!

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。