每個(gè)科技時(shí)代,都有每個(gè)時(shí)代的“入口”和“推手”。
在PC時(shí)代,瀏覽器和搜索引擎是主要入口,用戶通過(guò)鍵盤和鼠標(biāo)進(jìn)行交互。移動(dòng)互聯(lián)時(shí)代,APP和應(yīng)用商店成為典型入口,用戶用手指和觸摸屏進(jìn)入互聯(lián)網(wǎng)世界。而在眼下的AI時(shí)代,業(yè)內(nèi)已經(jīng)把語(yǔ)音交互當(dāng)做重要入口,它提供了一種更為豐富、自然和便捷的交互體驗(yàn)。
縱觀歷史,每一個(gè)抓住入口、推動(dòng)時(shí)代發(fā)展的企業(yè),反過(guò)來(lái)也能掌握競(jìng)爭(zhēng)主動(dòng)權(quán),獲得長(zhǎng)期發(fā)展動(dòng)力。比如,PC時(shí)代的谷歌,移動(dòng)互聯(lián)時(shí)代的蘋果等等。
因此,如今很多大廠都在圍繞語(yǔ)音交互展開深度布局,力圖搶占AI時(shí)代的戰(zhàn)略要地。其中,就國(guó)外和國(guó)內(nèi)而言,OpenAI和科大訊飛成為最受關(guān)注的兩家企業(yè)。
今年5月,OpenAI 發(fā)布GPT-4o,展現(xiàn)出更為強(qiáng)勁的語(yǔ)音交互能力。比如,更快的響應(yīng)速度、更自然的語(yǔ)音等等。但遺憾的是,GPT-4o目前還沒有向國(guó)內(nèi)用戶開放,大部分人無(wú)法親自感受各種體驗(yàn)。
很多人不知道的是,國(guó)內(nèi)的科大訊飛不僅做到了對(duì)標(biāo)GPT-4o的語(yǔ)音交互體驗(yàn),而且還能讓人搶先體驗(yàn)。
今年8月19日,科大訊飛發(fā)布了星火極速超擬人交互技術(shù),在響應(yīng)和打斷速度、情緒感知情感共鳴、語(yǔ)音可控表達(dá)、人設(shè)扮演四個(gè)方面實(shí)現(xiàn)巨大突破。這項(xiàng)技術(shù)將于今年8月底在訊飛星火App上全民開放使用,普通用戶也能親自感知。
在最近的科大訊飛2024年上半年業(yè)績(jī)說(shuō)明會(huì)上,《一點(diǎn)財(cái)經(jīng)》觀察到科大訊飛董秘江濤親自演示星火極速超擬人交互技術(shù),由此更直觀地看到了這項(xiàng)技術(shù)的操作體驗(yàn)。
不得不說(shuō),科大訊飛雖然在研發(fā)上大力投入,但在宣傳上的力度著實(shí)不夠。其實(shí),這項(xiàng)技術(shù)能對(duì)行業(yè)變革產(chǎn)生深度影響。與此同時(shí),科大訊也在積攢技術(shù)勢(shì)能,未來(lái)預(yù)計(jì)會(huì)釋放出強(qiáng)勁的發(fā)展動(dòng)能。
語(yǔ)音交互的“理想”與“現(xiàn)實(shí)”
2014年,一部講述人類與AI愛情的電影《Her》收獲了超高人氣,還獲得了奧斯卡最佳原創(chuàng)劇本獎(jiǎng)。
電影中,男主角西奧多的工作是給不善表達(dá)感情的人代寫情書。他有語(yǔ)音操控的隨身設(shè)備,能夠直接用語(yǔ)音輸入信件內(nèi)容、進(jìn)行打印等等。日常生活中,他還能通過(guò)語(yǔ)音收聽歌曲、接收郵件和新聞。
讓很多觀眾浮想聯(lián)翩的是,西奧多遇到了一個(gè)AI機(jī)器人“薩曼莎”,她擁有溫情的聲線,不僅非常體貼還很懂西奧多。在跟“薩曼莎”的長(zhǎng)期語(yǔ)音交流中,西奧多墜入愛河,開始了一段“人機(jī)戀”。
十年以來(lái),這部電影里的科幻場(chǎng)景不斷照進(jìn)現(xiàn)實(shí),各種語(yǔ)音交互產(chǎn)品和技術(shù)持續(xù)迭代,豐富著用戶的語(yǔ)音交互體驗(yàn)。
不過(guò),很多用戶還是感覺跟想象中的體驗(yàn)有落差。因?yàn)槭忻嫔险Z(yǔ)音交互技術(shù)普遍存在痛點(diǎn),包括響應(yīng)遲鈍、難以共情、個(gè)性化不足、端點(diǎn)檢測(cè)困難等問(wèn)題。
簡(jiǎn)而言之,現(xiàn)在許多語(yǔ)音交互技術(shù)機(jī)器的味道還是太重,擬人的感覺不足,沒能提供足夠的情緒價(jià)值。這一方面導(dǎo)致用戶體驗(yàn)不佳,另一方面阻礙了行業(yè)發(fā)展,需要有企業(yè)來(lái)破除痛點(diǎn),充當(dāng)行業(yè)發(fā)展的推手。
目前來(lái)看,科大訊飛就是一個(gè)重要的推手。其推出的星火極速超擬人交互技術(shù)在四個(gè)方面極大提升了用戶體驗(yàn)——“響應(yīng)和打斷速度、情緒感知情感共鳴、語(yǔ)音可控表達(dá)、人設(shè)扮演”,總結(jié)下來(lái)就是:
不僅在響應(yīng)上有速度,而且在情感上有溫度,能夠提供更多的情緒價(jià)值。
1、響應(yīng)上的速度
用戶進(jìn)行語(yǔ)音交互的過(guò)程中,都想獲得更快的響應(yīng),達(dá)到“召之即來(lái)”的效果。并且在中途頻繁打斷的情況下,希望能夠迅速重新響應(yīng)。
然而,目前主流的語(yǔ)音交互應(yīng)用中,從用戶提出問(wèn)題到應(yīng)用響應(yīng)大多需要2-2.5秒,會(huì)明顯感覺到停頓,中途打斷后響應(yīng)的時(shí)間更長(zhǎng),這就會(huì)影響用戶的交互節(jié)奏和智能體驗(yàn)。
而星火極速超擬人交互技術(shù)帶給人的首個(gè)感受就是“快”,其讓響應(yīng)時(shí)間縮短到了0.9秒,幾乎感覺不到停頓。另外,用戶還可以隨時(shí)打斷、插話,它依然能做到迅速響應(yīng)。
這意味著,通過(guò)星火極速超擬人交互技術(shù),用戶可以獲得更加貼近日常對(duì)話的現(xiàn)實(shí)體驗(yàn)。
2、情感上的溫度
在語(yǔ)音交互過(guò)程中,如果能夠及時(shí)響應(yīng),但回應(yīng)的卻是冷冰冰的話語(yǔ),用戶的交互欲望和熱情必然會(huì)降低,因?yàn)闆]有人愿意面對(duì)一個(gè)沒有溫度的機(jī)器。
傳統(tǒng)指令型語(yǔ)音技術(shù),只能通過(guò)對(duì)某些特定發(fā)音的識(shí)別給出響應(yīng),情緒感知能力不足,而星火極速超擬人交互技術(shù)進(jìn)行了明顯的提升。其不僅能夠根據(jù)語(yǔ)音判斷用戶情緒,包括高興、悲傷、生氣、害怕等等,還能識(shí)別咳嗽、寵物叫聲等非語(yǔ)言信號(hào),跟用戶之間產(chǎn)生更深層次的情感共鳴。
如果只能分別情緒,不能情緒化地回應(yīng),用戶的感知度也不會(huì)很明顯。星火極速超擬人交互技術(shù)在表達(dá)方式上更加靈活,可以根據(jù)用戶的指令控制數(shù)十種情感、風(fēng)格、方言,甚至自動(dòng)調(diào)節(jié)語(yǔ)速、語(yǔ)氣和情緒,讓對(duì)話更有溫度從而直入人心。
另外,星火極速超擬人交互還有一個(gè)優(yōu)勢(shì)就是能夠“選角色”,其支持多種人設(shè)的任意切換,用戶可以與孫悟空、蠟筆小新、小豬佩奇等角色進(jìn)行互動(dòng),感受到跟不同角色對(duì)話的樂(lè)趣。
可以說(shuō),以往的語(yǔ)音交互技術(shù)體驗(yàn)起來(lái)更像機(jī)器,而星火極速超擬人交互更像人類,大大提升了用戶體驗(yàn)。這種進(jìn)化背后,在于科大訊飛進(jìn)行了長(zhǎng)期的技術(shù)研發(fā)和積累。
語(yǔ)音交互進(jìn)化史:技術(shù)才是硬道理
語(yǔ)音交互進(jìn)化史,就是一部技術(shù)迭代史。
最早的語(yǔ)音交互技術(shù),可以追溯到上世紀(jì)60年代。當(dāng)時(shí)的語(yǔ)音交互技術(shù)主要基于規(guī)則,也就是將語(yǔ)音按照語(yǔ)法等規(guī)則進(jìn)行分析和生成,然后根據(jù)設(shè)定好的語(yǔ)句進(jìn)行回應(yīng)。
這種方法的智能度和靈活度都很低,只能進(jìn)行某些特定任務(wù),比如查詢天氣、訂票等,稍微復(fù)雜一些的指令就無(wú)法操作。
上世紀(jì)90年代,語(yǔ)音交互技術(shù)進(jìn)入新的階段,也就是基于統(tǒng)計(jì)模型。這種方法不再依賴于固定規(guī)則,而是利用概率論建立交互模型,根據(jù)上下文生成最合適的回應(yīng)。這種方法相對(duì)可以處理更多指令,也能適應(yīng)不同的場(chǎng)景需求。
2006年,隨著深度學(xué)習(xí)技術(shù)興起,語(yǔ)音交互技術(shù)有了質(zhì)的飛躍,可以自動(dòng)學(xué)習(xí)語(yǔ)音信號(hào)的復(fù)雜特征,從而進(jìn)入DNN(深度神經(jīng)網(wǎng)絡(luò))時(shí)代。比如,RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))是一種能夠處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。它具有長(zhǎng)期記憶能力,可以用于處理連續(xù)的語(yǔ)音特征,從而提高識(shí)別準(zhǔn)確率。
此后,語(yǔ)音交互技術(shù)在持續(xù)進(jìn)化,比如CNN(卷積神經(jīng)網(wǎng)絡(luò))、DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡(luò))等等,用戶體驗(yàn)也在持續(xù)升級(jí)。在技術(shù)進(jìn)化浪潮中,科大訊飛一直站在潮頭浪尖。
早在2012年,科大訊飛就將BN-feature和NDD-HMM兩套深度學(xué)習(xí)方案上線了訊飛輸入法和語(yǔ)音開放平臺(tái),由此成為國(guó)內(nèi)首個(gè)上線深度學(xué)習(xí)語(yǔ)音識(shí)別商業(yè)系統(tǒng)的機(jī)構(gòu),將實(shí)際場(chǎng)景中語(yǔ)音識(shí)別的準(zhǔn)確率從60%提升到了88%左右。
到現(xiàn)在,星火極速超擬人交互采用的是統(tǒng)一神經(jīng)網(wǎng)絡(luò),直接實(shí)現(xiàn)語(yǔ)音到語(yǔ)音端到端建模,這是一種被驗(yàn)證為能力更強(qiáng)的技術(shù)方案。
因?yàn)閭鹘y(tǒng)的語(yǔ)音識(shí)別系統(tǒng)一般由多個(gè)模塊組成,包括聲學(xué)模型、語(yǔ)言模型和發(fā)音詞典等。而端到端建模將這些模塊合并為一個(gè)整體,實(shí)現(xiàn)了原始語(yǔ)音信號(hào)到最終文本的直接映射,這就給語(yǔ)音交互帶來(lái)了許多提升。
首先,端到端建模簡(jiǎn)化了傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的復(fù)雜度、減少了模塊之間的集成難度。其次,它可以更好地外理語(yǔ)音信號(hào)中的噪聲和變異,提高了系統(tǒng)的魯棒性,即抵御外界干擾和保持穩(wěn)定的能力。此外,它還具有更快的訓(xùn)練和推理速度,適用于實(shí)時(shí)場(chǎng)景。
星火極速超擬人交互的技術(shù)優(yōu)勢(shì)背后,在于科大訊飛持續(xù)進(jìn)行研發(fā)投入和積累。
根據(jù)科大訊飛最新發(fā)布的2024年上半年財(cái)報(bào),報(bào)告期內(nèi)其營(yíng)收93.25億元,比上年同期增長(zhǎng)18.91%。值得注意的是,公司研發(fā)投入21.9億元,同比增長(zhǎng)32.23%,占營(yíng)收比重達(dá)23.5%。
在企業(yè)發(fā)展因子中,營(yíng)銷、宣傳等淺層次的是“快變量”。短期內(nèi),它們能夠發(fā)揮一時(shí)的成效,但也會(huì)呈現(xiàn)不穩(wěn)定和低門檻的特征。
深層次則是“慢變量”,比如技術(shù)、研發(fā)等等。它們前期需要大量的投入,就像推動(dòng)一個(gè)靜止的輪子,投入到一定程度后輪子會(huì)越轉(zhuǎn)越快,從而迸發(fā)出“飛輪效應(yīng)”,最終轉(zhuǎn)化為出色的技術(shù)和產(chǎn)品以及堅(jiān)固的護(hù)城河。此次,科大訊飛推出星火極速超擬人交互技術(shù)就是一個(gè)典型。有時(shí)候,“慢”反而意味著“快”。
其實(shí),星火極速超擬人交互技術(shù)背后的大模型能力,同樣具備龐大的想象空間。
眺望未來(lái):大模型重塑語(yǔ)音產(chǎn)業(yè)
如今,“大模型+”就像當(dāng)年的“互聯(lián)網(wǎng)+”給與市場(chǎng)無(wú)限想象力。
在大模型的熱風(fēng)之下,許多產(chǎn)業(yè)都值得被重塑一遍,其中就包括汽車、機(jī)器人、消費(fèi)電子、家電等領(lǐng)域。在大模型落地方面,科大訊飛通過(guò)星火大模型云邊端一體化、軟硬件一體化的全場(chǎng)景布局,這讓其能夠滿足多個(gè)復(fù)雜場(chǎng)景對(duì)大模型的需求,進(jìn)而摘取多元的產(chǎn)業(yè)紅利。
先說(shuō)汽車領(lǐng)域。今年上半年,中國(guó)汽車產(chǎn)銷量分別達(dá)1389.1萬(wàn)輛和1404.7萬(wàn)輛,依然保持全球第一。出口總量達(dá)348萬(wàn)輛,同比增長(zhǎng)25%,火熱態(tài)勢(shì)依舊。目前,中國(guó)汽車出海十強(qiáng)企業(yè)中,有8家企業(yè)和科大訊飛合作。未來(lái),汽車的趨勢(shì)必然是智能化。而大模型的賦能,可以提升智能座艙、智能駕駛等多個(gè)方面的用戶體驗(yàn),助力中國(guó)汽車產(chǎn)業(yè)的增長(zhǎng)。
比如,自2011年科大訊飛率先完成汽車語(yǔ)音國(guó)產(chǎn)化,車載語(yǔ)音已經(jīng)成為中國(guó)汽車市場(chǎng)的標(biāo)配,但在海外仍受制于單一語(yǔ)種的制約。今年星火語(yǔ)音大模型發(fā)布72個(gè)語(yǔ)種/方言免切換對(duì)話,并通過(guò)云邊端及軟硬一體化解決方案可以大大提升智能座艙體驗(yàn)。另外,科大訊飛還研發(fā)出基于星火大模型的用車助手,能夠?qū)崟r(shí)監(jiān)測(cè)理解車輛狀況,精準(zhǔn)解答用戶對(duì)用車的問(wèn)題。
科大訊飛方面透露,公司汽車智能化產(chǎn)品合作已覆蓋90%以上的中國(guó)主流自主品牌和合資品牌車廠。最新財(cái)報(bào)顯示,科大訊飛汽車業(yè)務(wù)也延續(xù)了強(qiáng)勁的增長(zhǎng)勢(shì)頭,上半年實(shí)現(xiàn)營(yíng)收3.5億元,同比增長(zhǎng)65.49%。
跟汽車一樣,機(jī)器人同樣是未來(lái)的重要趨勢(shì)。
尤其是人形機(jī)器人的前景非?捎^,據(jù)《人形機(jī)器人產(chǎn)業(yè)研究報(bào)告》預(yù)測(cè),2024年中國(guó)人形機(jī)器人市場(chǎng)規(guī)模將達(dá)到約27.6億元,到2029年達(dá)到750億元,將占世界總量的32.7%,占比位居世界第一。
大模型的思維鏈推理能力,能夠明顯提升機(jī)器人對(duì)于復(fù)雜任務(wù)的理解能力,并提供符合常識(shí)的任務(wù)拆解與規(guī)劃。尤其是具身感知模型與具身決策模型的結(jié)合,能夠進(jìn)一步提升人形機(jī)器人在真實(shí)場(chǎng)景下的多模態(tài)感知與理解能力。
在復(fù)雜任務(wù)拆解、開放場(chǎng)景物體識(shí)別、多模態(tài)感知與理解等方面,星火大模型明顯提升了人形機(jī)器人的智能水平。在最近的在2024世界機(jī)器人大會(huì),科大訊飛亮相了“大模型+具身智能”的人形機(jī)器人最新進(jìn)展:
整體運(yùn)動(dòng)性能提升2倍,復(fù)雜任務(wù)拆解成功率超過(guò)95%,交互能力、運(yùn)動(dòng)性能進(jìn)一步提升。
另外在產(chǎn)業(yè)賦能上,訊飛機(jī)器人超腦平臺(tái)已賦能420家機(jī)器人企業(yè),深度鏈接1.5萬(wàn)機(jī)器人開發(fā)者,與優(yōu)必選、宇樹科技、智元機(jī)器人、銀河通用等人形機(jī)器人企業(yè)形成廣泛合作,未來(lái)預(yù)計(jì)有著充足的想象空間和強(qiáng)勁的產(chǎn)業(yè)推動(dòng)力。
除了機(jī)器人,大模型浪潮也正在向消費(fèi)電子終端和家電領(lǐng)域蔓延。
包括智能手機(jī)、智能辦公本、學(xué)習(xí)機(jī)等在內(nèi)的消費(fèi)電子終端的規(guī)模非常龐大,《2024年數(shù)字經(jīng)濟(jì)報(bào)告》顯示到2029年全球物聯(lián)網(wǎng)設(shè)備數(shù)量將增至390億部。如果用大模型讓每臺(tái)終端都變得更智能,從而提升用戶體驗(yàn),也能創(chuàng)造更大的市場(chǎng)空間。中商產(chǎn)業(yè)研究院預(yù)測(cè),2023年中國(guó)智能硬件市場(chǎng)規(guī)模將達(dá)到14031億元,預(yù)計(jì)2024年增至達(dá)15033億元。
以科大訊飛智能辦公本X3為例,其搭載了最新的訊飛星火智能技術(shù),實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文字、智能筆記整理、多語(yǔ)種翻譯等高效辦公功能。用戶只需簡(jiǎn)單操作,就能將會(huì)議內(nèi)容、演講要點(diǎn)等語(yǔ)音信息實(shí)時(shí)轉(zhuǎn)化為文字記錄。這不僅大大提高了用戶工作效率,也助力了科大訊飛智能硬件業(yè)務(wù)的增長(zhǎng)。根據(jù)最新發(fā)布的2024年半年報(bào),科大訊飛智能硬件業(yè)務(wù)實(shí)現(xiàn)營(yíng)收9億元,同比增長(zhǎng)56.61%,增速遠(yuǎn)超行業(yè)平均水平。
隨著新一輪以舊換新熱潮來(lái)襲,家電市場(chǎng)也迎來(lái)新的市場(chǎng)增量。而家電與大模型的結(jié)合,能夠?yàn)橛脩魟?chuàng)造更智慧的家居生活,也能為家電廠商、技術(shù)提供商帶來(lái)新的增長(zhǎng)點(diǎn)。
比如,搭載訊飛星火認(rèn)知大模型的電視語(yǔ)音助手將升級(jí)為全能的家庭中心,能夠輕松應(yīng)對(duì)日程管理、智能家居控制等操作,也能讓孩子跟電視語(yǔ)音助手直接對(duì)話,練習(xí)口語(yǔ)、獲取知識(shí)等等,打造出新的教育場(chǎng)景。三星就結(jié)合訊飛星火認(rèn)知大模型的能力,讓電視語(yǔ)音助手具備深層次理解、內(nèi)容生成和知識(shí)問(wèn)答等能力,極大提升了用戶體驗(yàn)。
如今,星火大模型正成為教育、醫(yī)療、能源、汽車、家電、機(jī)器人等多個(gè)重要領(lǐng)域落地的首選。其不僅為AI時(shí)代的入口探索出更多可能性,也在結(jié)合實(shí)際場(chǎng)景進(jìn)行應(yīng)用落地,為用戶真正帶來(lái)技術(shù)紅利,為企業(yè)創(chuàng)造經(jīng)濟(jì)效益,其本身也能夠獲得發(fā)展動(dòng)能。
結(jié)語(yǔ)
《底層邏輯》一書中提出“戰(zhàn)略勢(shì)能”的概念,形象地說(shuō)把一塊石頭抬到較高的山頂上就儲(chǔ)備了勢(shì)能。石頭向下滾動(dòng)時(shí),勢(shì)能就轉(zhuǎn)化為了動(dòng)能。
現(xiàn)在的科大訊飛,正處在積蓄戰(zhàn)略勢(shì)能的時(shí)候,需要克服困難大量投入。隨著各項(xiàng)技術(shù)的深入和落地,戰(zhàn)略勢(shì)能將持續(xù)轉(zhuǎn)化為發(fā)展動(dòng)能,其未來(lái)是值得期待的。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。