5G確定性工業(yè)基站首商用,工業(yè)互聯(lián)網(wǎng)走上新高度李飛飛團隊前瞻性研究 多模態(tài)AI模型初顯空間智能AI終于邁過這道檻!Livekit 開源模型精準識別“你是否說完”!DeepSeek開源大模型開發(fā)者之一羅福莉將加盟小米廣汽詳解旗下首款復合翼飛行汽車 GOVY AirJet:最高飛行速度可達 250km/h清華大學聯(lián)合騰訊出品!ColorFlow:自動給黑白漫畫上色,保持角色一致性Adobe推新AI音頻具Sketch2Sound ,只需哼唱和模仿聲音就能創(chuàng)建音效家庭能源智聯(lián)自由 海辰儲能發(fā)布首套免安裝家庭微網(wǎng)系統(tǒng)HeroESOpenAI發(fā)布o3:AI 推理能力的重大突破,得分高達87.5%亞馬遜云科技推出Amazon Q Developer新功能小象超市,摸著美團外賣出海E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動6000億GTV后,抖音計劃偷襲美團大本營AGI Open Network(AON):賦能每個人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來電”有詐?抖音客服上線“驗證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達預期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運營商e&,展示全球首個固網(wǎng)游戲端到端網(wǎng)絡切片方案
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 科技資訊

    重新弄定義多模AIUI標準,科大訊飛首發(fā)語音視覺虛擬人交互“三合一”

    2024年11月01日 15:03:42   來源:Citnews中文科技資訊

      10月29日,已經(jīng)預熱半年的 Apple Intelligence 終于登臺亮相,不過僅支持部分地區(qū)的英語語言,也還只是 Beta版本。當下,全球包括中國的大部分國家及地區(qū)的消費者仍無法享受到Apple Intelligence。

      在此前秋季新品發(fā)布會上,蘋果用了超過一半篇幅來展示新系統(tǒng)在 Apple Intelligence 加持下的威力,一些功能看起來頗具未來感,比如可以使用攝像頭感知周圍環(huán)境的多模態(tài)交互能力,將手機發(fā)布會活生生開成了一場 AI 產(chǎn)品說明會。

      事實上,在不少大模型廠商看來,蘋果在發(fā)布會所展示的 Apple Intellignce 也沒有那么新鮮。比如多模態(tài)交互能力,國內外已有不少大模型都實現(xiàn)了對周圍環(huán)境的實時感知,并且兼具更加個性化的互動能力。

      10月24日科大訊飛對外發(fā)布的訊飛星火 4.0 Turbo 就是其中之一。在多模態(tài)交互能力的基礎上,訊飛星火首發(fā)語音視覺虛擬人交互的“三合一”,不僅能夠具備語音、視頻、圖文的全聯(lián)動的多模態(tài)交互,還加入了超擬人數(shù)字人功能,重新定義萬物智聯(lián)時代的多模AIUI交互標準,讓 AI 在“栩栩如生”的基礎上,還可以具備像人類一樣的個性化能力。

      蘋果展示的 Apple Intelligence 實現(xiàn)了對現(xiàn)實環(huán)境的基礎感知能力,比如 AI 只是簡單地識別了周圍物體后給出回答,演示功能局限在回答餐廳評價、動物品種等基礎問答上,國內的大模型廠商則不滿足于此。

      在訊飛星火升級發(fā)布會的演示中,訊飛星火的超擬人數(shù)字人甚至可以根據(jù)現(xiàn)實情況的不斷變化,來一場實地“解說”?拼笥嶏w研究院院長劉聰在現(xiàn)場擺放了三個玩偶,分別是孫悟空、奧特曼和怪獸。他在現(xiàn)場不斷調整玩偶的位置、動作,超擬人數(shù)字人通過攝像頭馬上可以給出“解說”,“孫悟空舉起了金箍棒,奧特曼正在防御”“怪獸來了,孫悟空和奧特曼開始聯(lián)合對抗怪獸”……

      蘋果在發(fā)布會上展示的比如識別自行車品牌等購物場景,星火超擬人數(shù)字人也能做得更好。在科大訊飛的發(fā)布會上,超擬人數(shù)字人不只是識別面前的美妝品牌,還能夠根據(jù)用戶的實際需求,給出針對性的挑選建議,什么樣的節(jié)日適合挑選什么禮物、什么價位的酒類產(chǎn)品口感更好,仿佛是一個精通萬物的金牌導購員。

      最新的訊飛星火還支持用戶創(chuàng)新自己的個性化數(shù)字人,只需要在后臺進行基礎的編輯、定義,用戶就可以快速生成專屬于自己的數(shù)字人形象。

      不用擔心創(chuàng)建的數(shù)字人形象是否會雷同,訊飛星火目前支持超過 1300 種不同的人設,加上此前訊飛星火推出的一句話復刻聲音功能,每個人都可以擁有專屬于自己的個性化數(shù)字人。

      語音是萬物互聯(lián)的入口,事實上,作為國內語音產(chǎn)業(yè)的王者,科大訊飛一直在引領語音交互的變革。早在8月全民開放的星火極速超擬人交互,就憑借更快響應速度的反應力、更具情感共鳴的感性力,更靈活可控的表達里以及更多種人設的角色扮演力,讓萬千用戶體驗到了AI超擬人化的魅力。而此次超擬人虛擬人交互,或將超擬人技術與虛擬人技術進行融合,讓虛擬人交互更具人類特性,進一步打破現(xiàn)實世界與數(shù)字世界的邊界。此前虛擬人技術已在訊飛多款軟硬件產(chǎn)品中得到應用,比如搭載星火大模型訊飛AI學習機就通過虛擬教師實現(xiàn)引導式伴學,星火語伴通過伴讀老師提升用戶口語能力,訊飛智作更讓虛擬主播走進現(xiàn)實,降低自媒體創(chuàng)業(yè)門檻。

      在今年的發(fā)布會現(xiàn)場,科大訊飛預告,在硬件產(chǎn)品端,內嵌了星火多模AIUI能力的訊飛AI學習機閱讀伙伴即將上線,孩子們“指哪讀哪”,書中的文字可以馬上“變身”成個性化數(shù)字人,躍然紙上,啟發(fā)孩子思考和提問。相信隨著訊飛星火多模AIUI能力的進一步集成,將重塑人機交互新體驗。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    [No. X058-2]
    分享到微信

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。