輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對承壓的小家電市場,小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機僅有iPad大小2024年冷年空調(diào)市場總結(jié):規(guī)模下探,結(jié)構(gòu)降級,空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機型蓄勢待發(fā)云天勵飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對標(biāo)豐田 專注增程式混動車型黑神話悟空總收入超67億:銷量已超2000萬份通快成立激光業(yè)務(wù)區(qū)域中心(中國),強勢布局中國市場Sandalwood Advisors受邀參加第31屆中信里昂投資者論壇淘寶倒逼新風(fēng)向:一場電商減負(fù)運動博浪AI時代,阿里、華為“硬碰硬”
  • 首頁 > 云計算頻道 > 大模型

    訊飛版「Her」橫空出世全民開放!百變?nèi)嗽O(shè)逼真絲滑,情緒價值逆天

    2024年09月02日 09:40:55   來源:新智元公眾號

      OpenAI的「Her」還是期貨,訊飛星火版「Her」就搶先上線了!不僅極速響應(yīng)自由打斷,還情緒價值拉滿,各種情感、風(fēng)格、方言隨意切換。熊二被召喚出來的時候,家里的熊孩子直接被硬控了30秒。

      就在昨天,人類與機器的對話方式,全面升級了!

      我們在使用一番之后,可謂是大開眼界。

      比如,讓它用天津話講段相聲。

      您別說,這味兒可太對了!

      敲黑板:作為國內(nèi)首個「極速超擬人交互」,這款訊飛星火版的「Her」,已經(jīng)全民開放體驗了!

      只要下載訊飛星火APP,即可體驗對標(biāo)GPT-4o的超自然AI語音助手。

      目錄中

      星火對話中

      實測驚艷

      要知道,傳統(tǒng)的語音交互,一直面臨著三大挑戰(zhàn):準(zhǔn)確理解說話人意圖;生成恰當(dāng)響應(yīng);高效通過聲音傳達信息。

      以往的語音交互,一直無法擺脫滿滿的智障味兒,就是因為這些環(huán)節(jié)中的延遲,大大拉低了用戶體驗。

      而這一次,人機之間的交互,將如真人般自然流暢。

      那么問題來了,所謂的「超擬人」到底有多擬人?

      直觀感受是:我們也有自己的「GPT-4o」了!極速響應(yīng),自由打斷

      此前,我們見到的語音AI,總是給人感覺不太聰明的樣子。

      如果忽然打斷它,它就瞬間蒙圈了,要么接不上來,要么就開始「已讀亂回」。

      但這次的小星,模型響應(yīng)的快速和流暢度讓人眼前一亮。

      即使隨時打斷、插話,小星依舊能做到秒回,這個快速反應(yīng)能力,讓我們的觀感仿佛真人一般。

      比如,我們拿前段時間的全球大熱點——巴黎奧運會考一考小星:「中國隊在巴黎奧運會上獎牌總數(shù)排行第幾?」

      小星瞬間回復(fù),而且在搜索過程中還使用了「讓我來數(shù)一數(shù)」這種流暢的過渡方式,讓交互過程更加自然。

      可能是搜索結(jié)果太過全面,小星不僅把金銀銅牌的總數(shù)都說了出來,還開始總結(jié)中國隊的優(yōu)勢項目。

      巴黎奧運會,新智元,38秒

      可以感覺到,整個語音交流的過程中非常順暢,非常自然,即使隨時打斷它,它都能立刻給出正確的反應(yīng),而不是跟一個「人工智障」在對話,這個感覺真是太~爽~了~

      不僅如此,小星「緊跟熱點」的能力也是相當(dāng)令人滿意。

      十一調(diào)休安排過于混亂?只要問一句,它就能給你解釋得明明白白——

      放假,新智元,20秒

      之所以模型的響應(yīng)如此之快,如此之流暢,是因為它采用的是統(tǒng)一神經(jīng)網(wǎng)絡(luò),直接實現(xiàn)了語音到語音的端到端建模。 情緒價值拉滿,情商秒殺部分人類

      第二個非常鮮明的特點是,小星對情緒的感知,實在是太敏銳了。

      無論是高興、悲傷、生氣、害怕,我們話中的情緒,它都能立刻識別出來,敏銳地和你的情緒產(chǎn)生共鳴。

      然后,它會自動把你代入符合情境的對話,然后用合適的情緒語氣,進行貼心的回復(fù)。

      可以說,簡直秒殺了部分人類。

      要上臺演講了,看著臺下的幾百個觀眾,緊張得手直抖,不用怕,小星來貼心地安慰你。

      「我從未見過如此厚顏無恥之人」的網(wǎng)絡(luò)熱梗,它都知道,識別出這句話中的情緒,自然也是不在話下。

      厚顏無恥,新智元,29秒

      然后,我們還能讓它用開心/沮喪/搞怪的方式來描述一下今天的天氣。

      你見過有帶著哭腔念出的「全天多云」嗎?

      天氣,新智元,39秒

      其實,從日常的交流中也可以感受到小星的豐富情緒。

      比如沒有聽清問題時會不好意思地微笑,平時交流時始終情緒高漲、語氣上揚,但察覺到你的消極情緒時,語氣又會變得十分關(guān)切柔和,情緒價值給得相當(dāng)?shù)轿弧?/p>

      注意,它并不是簡單地通過語音文本來進行情緒的判斷,而是針對復(fù)雜場景下的語音識別效果做了提升,因而能夠感知數(shù)十種情緒。 表達方式隨心控,情感、風(fēng)格、方言都不在話下

      在交流中,小星可以跟隨你的指令,控制數(shù)十種情感、風(fēng)格、方言,還可以變換語速。

      比如,讓它開心地給我們講一段睡前故事。

      好聽,但是還能更夸張一點嗎?完全可以!

      而且,這個小狐貍和月亮的故事,充滿詩意和淡淡的傷感,還懸念十足,聽到最后我們都為小狐貍的堅持而感動。

      誒,暑假哄娃神器,這不就來了嘛。

      我們還能讓它用主持人的口氣,給咱們讀一篇文章。不得不說,小星的朗誦十分有感染力,值得鼓掌!

      如果你厭倦了同一種語調(diào),還可以讓小星大展身手——扮演東北大哥給你來段相聲。

      聽完之后,沒忍住吐槽了一句:就這?

      您猜怎么著,小星竟然絲滑地接過了話茬。這體驗也太類人了,仿佛手機里真住了個大哥。

      小星說起天津話來,也是妥妥的喜劇人一枚,那是相當(dāng)干哏倔脆、調(diào)皮搗蛋。

      跟悟空聊西游,百變?nèi)嗽O(shè)任意切換

      小星的超擬人交互,還擁有百變?nèi)嗽O(shè),一不小心就被挖掘出「戲精」的一面。

      孫悟空、蠟筆小新、小豬佩奇……多種角色的音色、語氣,它都模仿得惟妙惟肖,甚至還能模仿他們的人設(shè)和你聊天。

      只需要一句簡單的指令:「扮演XX和我對話」,就能隨時和它來一場「語音cosplay」了。

      只要幾句話,我們就召喚出孫悟空了。

      那就讓我們問一下,取經(jīng)過程中最難忘的一件事?

      看來,白骨精著實給了他不小的陰影。

      下一秒,小星就林妹妹上身,「三分柔弱兩分溫柔四分譏誚一分氣惱」的feel,拿捏得是十分到位。

      被問到「在大觀園中最喜歡和誰一起玩」時,黛玉的回答是薛寶釵和史湘云。

      聽,小星模仿起熊二的聲音和語氣簡直是惟妙惟肖,瞬間從陽光開朗大男孩變成了一只愛吃蜂蜜的傻萌棕熊,回答問題時也全程在人設(shè)內(nèi),完全不會OOC。

      另外,我們還發(fā)現(xiàn),小星回答問題的知識水平也令人刮目相看。難怪許多人沉迷和AI「談戀愛」,有「智性戀」那味兒了。

      無聊時,可以喚醒它來和你玩兒一段成語接龍解悶——

      讓它解釋物理學(xué)概念「胡克定律」和「能量守恒定律」,小星依舊能做到「秒回」。

      而且絕不僅是機械地背概念,而是結(jié)合彈簧、陀螺這種生活中的例子向你繪聲繪色地解釋,還會生動地把能量守恒定律比作「大自然的記賬本」。

      端到端新模型,讓交互快如閃電

      相較以往的語音交互,此次的訊飛星火極速超擬人交互,有何不同?

      傳統(tǒng)語音交互系統(tǒng),若要實現(xiàn)和人的對話,一般需要通過語音識別——自然語言理解——自然語言生成,這三步來實現(xiàn)。具體來說:

      第一步,需要通過語音系統(tǒng),將語音轉(zhuǎn)換為文字;

      第二步,利用大模型生成回復(fù)的文本;

      第三步,再用語音合成系統(tǒng),轉(zhuǎn)換成語音。

      此前,英偉達高級科學(xué)家Jim Fan曾表示,這也是讓Siri/Alexa交互能力,提升10倍速的秘訣。

      他利用當(dāng)前先進的AI語音系統(tǒng)Whisper、大模型ChatGPT、以及語音合成技術(shù)VALL-E,重述了這一過程。

      不過,這一過程需要三個獨立管道串聯(lián)才可實現(xiàn),因此會帶來響應(yīng)延遲,至少需要3秒左右。

      另一方面,語音轉(zhuǎn)文字再轉(zhuǎn)語音的過程中,我們語音中的情感、副語言信息,甚至是環(huán)境信息都會丟失。

      這樣一來,導(dǎo)致語音交互系統(tǒng),只能針對轉(zhuǎn)換之后的文本信息進行回應(yīng),不能有效靈活地做出應(yīng)答。

      由此,基于以上問題,科大訊飛提出了極速超擬人語音交互框架——一個端到端跨文本、音頻模型的新模型。

      雖然模型內(nèi)部劃分了多個模塊,但仍是一個「統(tǒng)一模型」。

      用戶語音通過音頻編碼器模塊,編碼成音頻表征,然后通過適配器,將其與文本的語義表征對齊。

      再通過多模態(tài)大模型,去預(yù)測生成表征,最后通過音頻解碼器得到語音。

      相較于傳統(tǒng)語音交互系統(tǒng),端到端統(tǒng)一模型以知識對齊表征方式,讓信息在各個模塊之間傳遞。

      這意味著,同一個神經(jīng)網(wǎng)絡(luò)直接實現(xiàn)語音-語音的建模,輸入和輸出皆由相同神經(jīng)網(wǎng)絡(luò)處理,大大縮短了對話響應(yīng)時間。

      同時,音頻中的情感、環(huán)境中信息,它都可以沒有損失地進行傳遞。

      從上面實測例子能夠深刻感知,人類和AI互動終于從你一句、我一句的「聊天軟件模式」,切換到對答如流的「日常交流模式」。

      不僅如此,整個系統(tǒng)的信息實現(xiàn)了無損貫穿,讓交互更加擬人化、豐富流暢。 核心:語音屬性解耦表征

      若說極速超擬人語音交互最大的不同,就是訊飛開發(fā)了一種特殊的語音訓(xùn)練方法——多維度語音屬性解耦表征訓(xùn)練。

      它能夠?qū)⒄Z音的不同屬性分開處理,比如語種、內(nèi)容、韻律、音色。

      要知道,語音中的所有屬性都是耦合在一起的,比如你說話的情緒和吐出的內(nèi)容,是密不可分的。

      那么,如何將這些表征分開,如何確保它在下游任務(wù)中充分利用,對解耦能力提出了更高的要求。

      對此,訊飛團隊做了很多對比loss學(xué)習(xí),以及研發(fā)預(yù)測自監(jiān)督學(xué)習(xí)等一些方案。

      不過需要提一句,這里并非說,必須把所有表征信息徹底分開。這就需要把握一個度,在TTS中就可以控制的更好。

      這種方法,能夠讓不同語音樣本之間,實現(xiàn)更好的學(xué)習(xí)效果。

      另外,它還能更靈活地控制內(nèi)容、音色、情感等元素,滿足不同場景和需求。甚至,通過更便捷的相關(guān)定制,可加速落地過程。

      雖然OpenAI版Her還未全面開放,但訊飛版Her已經(jīng)完全開放使用了。

      20億終端或被顛覆

      語音交互是人機交互的一個子集,也是萬物互聯(lián)最自然的一個交互方式。

      從歷史上看,人機語音交互經(jīng)歷了幾個重要的發(fā)展階段。

      第一個里程碑便是,以Siri語音助手為代表云端語音助手的出現(xiàn),標(biāo)志著語義交互技術(shù)的一大突破。

      這是基于語音單點技術(shù)的進步,通過將這些技術(shù)巧妙地結(jié)合,語音助手能夠?qū)W⒂趫?zhí)行基本的指令控制功能。

      比如,設(shè)置鬧鐘、查詢天氣、播放音樂等等。

      第二階段是以「智能音箱」為代表的產(chǎn)品,得益于麥克風(fēng)陣列處理技術(shù)改進,以及遠場語音識別能力的提升,使得設(shè)備交互可以在很遠的距離進行,比如家庭環(huán)境。

      到了第三階段,便是以智能汽車語音助手為代表的交互,多音區(qū)技術(shù)、云端意圖識別等技術(shù)發(fā)展,實現(xiàn)了多人復(fù)雜指令控制。

      最后一階段,就是以ChatGPT發(fā)布為起點,開創(chuàng)的全新語音對話的新范式。

      這一次,訊飛語音交互系統(tǒng)的升級,帶來的更快響應(yīng)、更懂情緒、更加靈活、更加百變的優(yōu)勢,足以重寫整個語音交互市場。

      2023全球數(shù)字經(jīng)濟大會上,來自工信部數(shù)據(jù)顯示,截止去年5月,我國移動物聯(lián)網(wǎng)終端用戶超過20.5億。

      而從產(chǎn)業(yè)發(fā)展來看,智能語音正迎來應(yīng)用突破、產(chǎn)業(yè)擴展的黃金期。

      據(jù)IDC分析,預(yù)計到2030年,全球智能語音服務(wù)市場規(guī)模將達約731.6億美元,復(fù)合增長率27%。

      國內(nèi)外科技公司看準(zhǔn)這片藍海,紛紛入局開發(fā),掀起了新一輪人機交互革命。

      不光GPT-4o的語音功能還在內(nèi)測;谷歌宣發(fā)的Gemini Live,也僅面向高級訂閱用戶使用。

      反觀國內(nèi),鮮有大廠能夠站出,以匹敵OpenAI版Her產(chǎn)品的姿態(tài),與之進行正面競爭。

      憑借語音起家的科大訊飛,是其中最強悍的挑戰(zhàn)者之一。

      這是因為,訊飛星火大模型在不斷迭代過程中,逼近國際領(lǐng)先水平。

      今年1月,訊飛星火V3.5發(fā)布,歷經(jīng)5個月的時間,再次迭代至V4.0版本,整體能力超越OpenAI的GPT-4Turbo。

      同在1月,訊飛還首發(fā)了語音大模型,實現(xiàn)首批37個主流語種語音識別效果超過OpenAI Whisper V3。

      基于訊飛全球領(lǐng)先的多語種語音技術(shù),語音大模型隨后再度升級,支持74種語言方言免切換輸入。

      時隔1個月,訊飛在極速超擬人交互上取得的技術(shù)突破,足夠讓終端設(shè)備實現(xiàn)「無感迭代」。

      設(shè)想一下,當(dāng)你有了這樣的設(shè)備,不僅手握百科全書,還擁有了一個得力的助手、最親密的伙伴/朋友。 未來三大計劃,讓AI交互走進更多場景

      科大訊飛表示,基于全新端到端框架,未來新系統(tǒng)還會朝著三大方向去拓展:更多模態(tài)、更多語言、更好體驗,帶來更實用、更豐富的功能。

      這也代表著國產(chǎn)大模型如今早已從追趕、對標(biāo),快進到了自主創(chuàng)新的差異化之路。

      不僅如此,訊飛還要雙管齊下,加速極速超擬人交互落地,便是下一個需要瞄準(zhǔn)的方向。

      一項技術(shù)只有落地了,才能彰顯它的價值。

      未來,訊飛可能會布局情感陪伴場景,將極速超擬人交互集成到兒童機器人中,又或是賦予在線IP能夠感知用戶情緒的能力。

      另外,便是在智慧汽車、智慧家電等方面大規(guī)模開拓應(yīng)用。

      這一技術(shù)的應(yīng)用和普及,還隱藏著巨大的可能性——語音市場在這個時代將被改寫,語音交互帶動萬物互聯(lián)的第六次產(chǎn)業(yè)浪潮,有望出現(xiàn)一次井噴。

      智能語音技術(shù),將進一步應(yīng)用到智能手機、智能汽車、智能家電以及智能家居等產(chǎn)品中。

      據(jù)IDC分析,到2030年,全球智能語音服務(wù)市場規(guī)模將達約731.6億美元,復(fù)合增長率27%?拼笥嶏w,有望收獲這一輪產(chǎn)業(yè)紅利。

      中國AI語音的ChatGPT時刻,指日可待。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。