小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應商導致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產量突破 100 萬輛,到 2027 年建成萬億級產業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或將停產沖上熱搜!閑魚相關搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領域三星新專利探索AR技術新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    被AI大牛押注的智能體,國內發(fā)展得怎樣了?

    2023年07月31日 21:00:42   來源:阿爾法工場

      智能體,相當于是大模型的“身體”,有了它,大模型才能在更多的領域施展身手。

      前段時間,前特斯拉總監(jiān)、OpenAI大牛Karpathy的一句話,引起了業(yè)內的關注。

      在7月初的一次開發(fā)者大會上,Karpathy聲稱:“我被自動駕駛分了心,AI智能體才是未來!”并表示將來會全力投入對智能體的研發(fā)工作中。

      其實,早在2016年,當Karpathy開始在OpenAI工作時,就已經(jīng)錨定了智能體的方向,只是由于當時的研究方法還不成熟,所以Karpathy才轉去做了自動駕駛。

      那么,這所謂的“智能體”究竟是什么?為什么會讓這位AI大牛長久地念念不忘?

      如果用一句話來回答這個問題,我們可以說:

      智能體的出現(xiàn),不僅是AI發(fā)展的下一個方向,也是其真正走進人類生活的開始。

      01 何謂智能體

      到底什么是智能體?

      如果我們將現(xiàn)在的生成式AI,比作一個人的話,那么它只具有了大腦(大語言模型),但卻沒有身體,因此只能躺在服務器上,做一些處理文字、生成圖片的工作。

      而智能體,就相當于是大模型的“身體”,有了它,大模型才能在更多的領域施展身手。

      那智能體究竟能做什么?

      最近,一個名叫Fable的初創(chuàng)公司,發(fā)布了一個節(jié)目統(tǒng)籌智能體(Showrunner),如同一聲驚雷炸響,讓人們再次見證了智能體的強大。

      通過這樣的智能體,F(xiàn)able制作出了一集完全用AI拍攝的《南方公園》!

      從編劇、動畫、導演、語音、編輯……到劇集制作的全流程,都是由AI完成。

      在整個制作環(huán)節(jié)中,通過自然語言,給不同的智能體分配了各自的目標,人類導演只需要給出一個高層次的構思提示(標題、概要、事件),這些AI智能體就會開始「自導自演」。

      之后,人類幾乎就不用進行任何干涉了!

      在制作過程中,不同的AI智能體,擔任了不同的角色,如演員、導演、剪輯等,它們彼此分工合作,互相配合,最終完成了整部影片的制作。

      而同樣的,類似的案例,也出現(xiàn)在前段時間清華團隊的研究中。

      7月19日,清華團隊用ChatGPT打造了個零人工含量的“游戲公司”——ChatDev,只要你提出想法,從設計到測試的完整流程,都由AI幫忙搞定。

      Fable與制作《南方公園》的思路類似,在游戲開發(fā)的環(huán)節(jié)中,ChatDev的十多個智能體也分別擔任了這個“公司”中的策劃、程序員、設計師等不同的崗位。

      在項目開始時,人類可以對這些AI提出一個大概的想法或創(chuàng)意。

      之后,各個智能體之間就會進行一系列討論、制作、測試的環(huán)節(jié),整個過程完全不需要人類的參與,全是自動進行的。

      由此可見,有了智能體之后,大模型就能根據(jù)人類給出的規(guī)則和策略來做出決策,而不需要人類的干預或指令。

      在這個過程中,智能體還會通過習得的經(jīng)驗或知識,來改善自己的性能和適應性,并根據(jù)目標函數(shù)或獎勵函數(shù)來評估自己的行為。

      而這樣的能力,是以往的大模型(LLM)無論如何都不具備的。

      因此,LLM即使再聰明,也是一個沒有身體的“大腦”,而正是智能體的出現(xiàn),讓LLM有了行動的能力,有了自主完成復雜任務的能力。

      而這樣的能力,正是LLM下一階段進行在應用層面進行落地的關鍵。

      02 國內智能體進展

      既然智能體這么重要,那國內在這方面發(fā)展得怎樣了呢?

      在今年的 2023 世界人工智能大會上,聯(lián)匯科技發(fā)布了基于大模型自主智能體(Auto AI Agent )——OmBot 歐姆智能體,并針對典型場景需求,推出了首批應用。

      要想打造一個真正的智能體,最關鍵的地方,就在于讓AI不依賴人類來指導命令,能夠根據(jù)任務目標,主動完成任務。

      而要想實現(xiàn)這點,就必須讓AI具備認知、記憶、思考、行動等幾大核心能力,使之能夠感知環(huán)境、自主決策,并且模仿人類大腦工作機制。

      在這方面,聯(lián)匯科技多年的研究成果——歐姆大模型3.0,成為了孕育OmBot 歐姆智能體的搖籃。

      歐姆大模型3.0培養(yǎng)智能體的思路是:在智能體的諸多能力中,認知和思考能力是最關鍵的。

      而要鍛煉這樣的能力,就要通過大量的開放識別、視覺問答等訓練方式,來讓智能體從被動的識別轉為主動推理,并自主提出解決方案。

      例如通過讓智能體觀看不同的圖片、視頻,并讓其通過語義去理解和描述其中的目標。

      而之所以要選擇開放識別、視覺問答為主的訓練方式,是因為在各個行業(yè)中,都存在著大量的特定場景和任務,需要對視頻中的內容進行精準的識別、分析。

      但這些場景和任務,往往是非常細分和多樣化的,難以用通用的模型和方法來滿足,于是就造成了各行各業(yè)對智能識別的大量長尾需求。

      在對這些視覺信息進行分析的過程中,歐姆大模型會通過多輪對話推理的機制,將圖像、視頻、以及相關的問題或反饋等輸入轉換為特征向量,并存儲在一個記憶單元中,

      之后,大模型的解碼器就會負責根據(jù)記憶單元中的特征向量生成最終的回復。

      在對一張張圖片,一段段視頻的對話問答中,歐姆大模型會將視覺模型和語言模型進行細粒度的對齊,讓其可以理解人類指令,并合理作答。

      那么,這些經(jīng)過了不同行業(yè)視覺數(shù)據(jù)歷練的智能體,后來怎樣了?能在實際場景中展現(xiàn)實力了嗎?

      目前,歐姆智能體的主要應用場景,大致分為三類:智慧店長、文檔處理、視頻剪輯。

      如果說,智能體最重要的能力是其是否具備自主分析、決策的能力,那么我們不妨將歐姆智能體在這三大場景中的表現(xiàn),與傳統(tǒng)手段進行對比,看看其是否具有了真正意義上的智能體的特征。

      03 解決“落地焦慮”

      簡單來說,智慧店長主要就是通過與攝像頭視覺信息結合,利用歐姆大模型智能識別店內發(fā)生的一切。

      在這方面,傳統(tǒng)的攝像頭只能提供視頻監(jiān)控的功能,無法對視頻畫面進行智能分析、處理、交互和反饋。

      而具備了智能體后,智慧店長就能通過與攝像頭視覺信息結合,識別店內發(fā)生的一切,并自主決策提示交互信息。

      例如實時監(jiān)測和分析客流量、客戶特征等數(shù)據(jù),遇到突發(fā)情況時,還看自動報警和處置店內的安全隱患。

      在文檔處理方面,按照聯(lián)匯科技的說法,歐姆智能體最大的優(yōu)勢,是可以將專業(yè)知識有效集成到向量數(shù)據(jù)庫,并存儲記憶,形成專業(yè)機器人。

      而一個具備了智能體的大模型,與傳統(tǒng)的行業(yè)垂直類大模型相比,最獨特的優(yōu)勢,是其持續(xù)學習和適應能力,而非依賴于靜態(tài)的數(shù)據(jù)集。

      在這方面,只能說歐姆智能體具備了其持續(xù)學習的基礎。

      因為向量數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫相比,采用靈活的數(shù)據(jù)結構,如多模態(tài)的數(shù)據(jù)支持,而將不同結構的知識進行整合,正是持續(xù)學習的基礎。

      但其是否真的具備這樣的持續(xù)學習能力,也許還要進行長時間的觀察。

      而在視頻剪輯方面,AIGC 小歐可以成為媒體、文化、游戲等行業(yè)的剪輯助手。通過 AIGC 實現(xiàn)媒體視頻素材的一鍵成片。

      可以說,這是智能體能力體現(xiàn)得最直接的一個方面,通過語言理解能力,智能體在剪輯過程中,可以自動依據(jù)文案內容,對不同鏡頭添加更加細節(jié)的視頻鏡頭描述,從而省去了人工制作視頻中,繁瑣的文字與鏡頭之間的匹配工作。

      從上述幾點來看,歐姆智能體確實具備了一定的智能體特征,然而,即便如此,在其商業(yè)化落地的過程中,仍然會面臨不少挑戰(zhàn)。

      從目前歐姆智能體的落地方向上來看,其本質上走的還是一種“松耦合”的技術路線。

      所謂的“松耦合”,簡單來說,不同任務分解,通過不同智能體來完成,最后通過大模型來完成自動化調度和協(xié)作。

      比如語言大模型來學習對話、視覺大模型來識別地圖。

      這類智能體,雖然從不像人一樣有綜合智能,但從成本和可行性上,卻能更快落地。

      然而,這樣的“松耦合”路線,由于技術壁壘并不高,在競爭中很容易遭到同類型智能體的擠壓,進而導致毛利率不斷下降,以至于技術紅利很快走到盡頭。

      到了那時,一種端到端的,一個大模型就能包辦所有的“緊耦合”路線,就會成為行業(yè)共同的期盼。

      但這樣一種集合了多種智能,能適應各種任務的智能體,必定蘊含了更多技術含量頗高的“硬科技”,而國內團隊是否能一一攻破這些難關,仍是個未知數(shù)。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。