GGII:預(yù)計(jì)2024年中國工業(yè)機(jī)器人全年銷量約30萬臺(tái),同比下滑5%左右冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺(tái)灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點(diǎn)京東iPhone 16系列年底大放價(jià)!至高補(bǔ)貼1200元價(jià)格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動(dòng)“萬象分區(qū)”引領(lǐng)電視行業(yè)新潮流,TCL這步棋下得著實(shí)漂亮!百度職業(yè)院校專屬項(xiàng)目“大國智匠”引領(lǐng)職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設(shè)計(jì)大賽,全國高校學(xué)子展現(xiàn)卓越編程實(shí)力碼蹄杯人物特寫:四位編程少年的追夢(mèng)之旅金倉數(shù)據(jù)庫四項(xiàng)成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會(huì) CTO歐陽曄博士等做主題演講用專業(yè)贏得信賴 美好蘊(yùn)育潤康引領(lǐng)孕產(chǎn)營養(yǎng)新風(fēng)尚解鎖新成就!愛企查“度秘書”粉絲突破10萬!英特爾終止x86S架構(gòu)計(jì)劃:純64位設(shè)計(jì)再度戛然而止豆包大模型全面升級(jí),相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達(dá)發(fā)布 11 月簡報(bào):快遞業(yè)務(wù)量、收入均同比增長,單票收入均下降SensorTower發(fā)11月中國手游全球收入排行榜 庫洛入榜“YO!原”千里來相會(huì) 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認(rèn)并調(diào)查Microsoft 365 應(yīng)用出現(xiàn)“產(chǎn)品已停用”錯(cuò)誤
  • 首頁 > 云計(jì)算頻道 > 大模型

    換了30多種方言,我們竟然沒能考倒中國電信的語音大模型

    2024年05月27日 16:23:28   來源:機(jī)器之心公眾號(hào)

      不管你來自哪個(gè)城市,相信在你的記憶中,都有自己的「家鄉(xiāng)話」:吳語柔軟細(xì)膩、關(guān)中方言質(zhì)樸厚重、四川方言幽默詼諧、粵語古雅瀟灑……

      某種意義上說,方言不只是一種語言習(xí)慣,也是一種情感連接、一種文化認(rèn)同。我們「上網(wǎng)沖浪」遇到的新鮮詞匯中,有不少就是來自各地方言。

      當(dāng)然,有些時(shí)候,方言也是一種交流「壁壘」。

      在現(xiàn)實(shí)生活中,我們經(jīng)常會(huì)看到方言導(dǎo)致的「雞同鴨講」,比如這個(gè):

      如果你關(guān)注最近科技圈的動(dòng)態(tài)就會(huì)知道,當(dāng)前的 AI 語音助手已經(jīng)能達(dá)到「實(shí)時(shí)回復(fù)」的水準(zhǔn),甚至比人類反應(yīng)還快。而且,AI 已經(jīng)能夠充分理解人類的情感,自己也能表現(xiàn)出各種感情。

      在這樣的基礎(chǔ)上,如果語音助手能夠識(shí)別并理解每一種方言,就能徹底擊破溝通壁壘,與任何群體無障礙進(jìn)行語言溝通。

      實(shí)際上,這件事已經(jīng)有人做了:近日,中國電信人工智能研究院(TeleAI)發(fā)布了業(yè)內(nèi)首個(gè)支持30種方言自由混說的「星辰超多方言語音識(shí)別大模型」,可同時(shí)識(shí)別理解粵語、上海話、四川話、溫州話等各地方言,是國內(nèi)支持最多方言的語音識(shí)別大模型。

      比如在以下這個(gè)會(huì)議場景中,面對(duì)多種方言的輸入,星辰超多方言語音識(shí)別大模型的識(shí)別準(zhǔn)確率達(dá)到業(yè)界領(lǐng)先。

      首先是來自廣東公司的代表,使用了粵語發(fā)言:

      很突然,下一位發(fā)言人就切換到了上海話:

      而在接下來的四川方言和山西方言的對(duì)話中,星辰超多方言語音識(shí)別大模型也能準(zhǔn)確識(shí)別并轉(zhuǎn)換為文字記錄:

      與語音助手對(duì)話過的人都知道,針對(duì)普通話的語音識(shí)別準(zhǔn)確率是相當(dāng)不錯(cuò)的,但當(dāng)面對(duì)重口音或者方言的時(shí)候,識(shí)別準(zhǔn)確率會(huì)大幅下降,甚至「張冠李戴」。

      為了解決這個(gè)問題,傳統(tǒng)語音識(shí)別模型的處理方式是針對(duì)每種方言單獨(dú)訓(xùn)練一個(gè)方言模型,這導(dǎo)致了同一個(gè)應(yīng)用背后需要維護(hù)多個(gè)方言模型,且無法通過一個(gè)模型識(shí)別多種方言。然而后者恰恰是現(xiàn)實(shí)落地場景中最需要的。

      一直以來深耕語音賽道的中國電信,決定挑戰(zhàn)這一命題:打造一個(gè)更加「通用」的語音識(shí)別大模型。

      30多種方言,大模型如何拿下?

      讓大模型一口氣學(xué)會(huì)30幾種方言,并沒有想象中的簡單 —— 挑戰(zhàn)同樣存在于數(shù)據(jù)、算法、算力方面。

      一方面,因?yàn)?strong>方言數(shù)據(jù)量的稀疏,不利用其他方言數(shù)據(jù)中的共有信息而單獨(dú)訓(xùn)練某個(gè)方言模型,效果往往不盡人意。

      經(jīng)過在語音領(lǐng)域多年的積累,TeleAI已經(jīng)構(gòu)建了超30種、超30萬小時(shí)的高質(zhì)量方言數(shù)據(jù)庫,方言數(shù)據(jù)庫在豐富性和高質(zhì)量等層面均居于業(yè)內(nèi)前列。高質(zhì)量語音數(shù)據(jù)對(duì)研究者而言是一大利好,能夠讓模型更高效、系統(tǒng)地對(duì)方言進(jìn)行整理歸納。更長遠(yuǎn)地看,構(gòu)建高質(zhì)量方言數(shù)據(jù)庫,也是方言保護(hù)和研究的基礎(chǔ)。

      另一方面的挑戰(zhàn)來自于語音識(shí)別技術(shù)。如何讓用戶與大模型對(duì)話就像和家人講話一樣自然,無需刻意切換普通話,無需提高音量、放慢語速,是工業(yè)界當(dāng)前追求的新目標(biāo)。

      在中國電信 CTO、人工智能研究院院長李學(xué)龍帶領(lǐng)下,TeleAI 自主研發(fā)了星辰語音識(shí)別大模型。團(tuán)隊(duì)首創(chuàng)「蒸餾 + 膨脹」聯(lián)合訓(xùn)練算法,解決了超大規(guī)模多場景數(shù)據(jù)集和大規(guī)模參數(shù)條件下預(yù)訓(xùn)練坍縮的問題,實(shí)現(xiàn)80層模型穩(wěn)定訓(xùn)練。同時(shí),通過超大規(guī)模語音預(yù)訓(xùn)練和多方言聯(lián)合建模,實(shí)現(xiàn)了單一模型支持30種方言自由混說語音識(shí)別。

      星辰語音識(shí)別大模型也是業(yè)內(nèi)首個(gè)開源的基于離散語音表征的語音識(shí)別大模型,通過「從語音到 token 再到文本」的建模新范式,將推理時(shí)語音傳輸比特率降低了數(shù)十倍。

      憑借絕對(duì)領(lǐng)先的性能,星辰語音識(shí)別大模型此前已經(jīng)在國際上斬獲了多個(gè)國際權(quán)威賽事冠軍。

      比如,在權(quán)威國際語音頂會(huì) Interspeech2024離散語音單元建模挑戰(zhàn)賽的 ASR 賽道(Automatic Speech Recognition,自動(dòng)語音識(shí)別)中,星辰語音識(shí)別大模型團(tuán)隊(duì)領(lǐng)先于約翰霍普金斯大學(xué)、卡內(nèi)基梅隆大學(xué)、英偉達(dá)等國內(nèi)外知名高校與企業(yè),一舉拿下賽道冠軍。

      團(tuán)隊(duì)在這場比賽中提出的系統(tǒng)方案極具特色:在訓(xùn)練時(shí)采用了「三段式」設(shè)計(jì),包括前端預(yù)訓(xùn)練模型表征調(diào)整策略(Frontend Model)、表征提取與離散化過程(Dsicrete Token Process)以及多語種識(shí)別模型訓(xùn)練過程(Discrete ASR Model),而在推理階段僅使用后兩段過程。

      其中的表征離散化方法,可以讓模型在保留語音中任務(wù)相關(guān)信息的同時(shí),去除其余不相關(guān)信息,達(dá)到降低語音推理傳輸比特率、減少內(nèi)存使用、提升訓(xùn)練效率的目的,同時(shí)也為語音多任務(wù)(如 ASR、TTS、說話人識(shí)別等)統(tǒng)一模型構(gòu)建、多模態(tài)模型建模、說話人隱私保護(hù)等方向提供了可能的解決方案。

      在業(yè)內(nèi)知名的多方言語音識(shí)別數(shù)據(jù)集 KeSpeech 任務(wù)上,星辰語音識(shí)別大模型以領(lǐng)先之前最優(yōu)結(jié)果20% 的成績打破紀(jì)錄,實(shí)現(xiàn)了92.97% 的字準(zhǔn)確率。在 NIST(美國國家標(biāo)準(zhǔn)與技術(shù)研究院)舉辦的低資源粵語電話 Babel 語音識(shí)別任務(wù)上,星辰語音識(shí)別大模型也取得了業(yè)內(nèi)最優(yōu)結(jié)果。

      在常見的算力挑戰(zhàn)方面,星辰語音識(shí)別大模型的研發(fā)團(tuán)隊(duì)同樣具備優(yōu)勢(shì)。中國電信是國內(nèi)最早進(jìn)入云計(jì)算領(lǐng)域的運(yùn)營商,積累了大量算力建設(shè)和算力調(diào)度的核心技術(shù)。此外,中國電信陸續(xù)投產(chǎn)了京津冀智算中心、中南智算中心等多個(gè)滿足大模型訓(xùn)練的公共智算中心。

      基于這些優(yōu)勢(shì)條件,星辰超多方言語音識(shí)別大模型橫空出世,打破了單一模型只能識(shí)別特定單一方言的困境。在多項(xiàng)基準(zhǔn)測試中,星辰超多方言語音識(shí)別大模型表現(xiàn)出了極其優(yōu)秀的能力:

      理解方言,對(duì)答如流

      這才是合格的語音助手

      在大模型技術(shù)興起之前就廣泛應(yīng)用的語音助手、智能設(shè)備和客服系統(tǒng),其用戶體驗(yàn)高度依賴語音識(shí)別系統(tǒng)的準(zhǔn)確率。很多海內(nèi)外廠商都在這一賽道發(fā)力,但大家也會(huì)發(fā)現(xiàn),在主流語種之外,使用人口達(dá)數(shù)億級(jí)的中國方言卻沒有得到應(yīng)有的關(guān)注,其場景價(jià)值被嚴(yán)重低估了。

      長遠(yuǎn)來看,星辰超多方言語音識(shí)別大模型的超多方言能力可在非常廣泛的社會(huì)生活場景中發(fā)揮價(jià)值。以語音交互頻率較高的智能座艙場景為例,擅長各種方言的星辰超多方言語音識(shí)別大模型能夠使系統(tǒng)更準(zhǔn)確地識(shí)別和轉(zhuǎn)錄各種方言的語音輸入,帶來更自然流暢的交互體驗(yàn),特別是在方言使用較為普遍的地區(qū),減少「雞同鴨講」的誤會(huì)。

      從情感陪伴的角度看,大模型對(duì)方言的理解和精通,能夠極大提升對(duì)話機(jī)器人類產(chǎn)品的陪伴質(zhì)量,有效解決普通話不熟練的老年人等群體無法觸達(dá)信息服務(wù)的問題。如同科幻電影《Her》中的情節(jié),AI 能夠給予人類超越真實(shí)世界中人際關(guān)系的高質(zhì)量關(guān)懷。

      電信智科,贊44

      目前,星辰超多方言語音識(shí)別大模型已經(jīng)在開始融入各行各業(yè),積極探索新興的應(yīng)用場景。比如,星辰超多方言語音識(shí)別大模型已在福建、江西、廣西、北京、內(nèi)蒙等地的中國電信萬號(hào)智能客服系統(tǒng)試點(diǎn)應(yīng)用,接入星辰超多方言語音識(shí)別大模型以后,萬號(hào)智能客服秒懂30種方言,實(shí)現(xiàn)了日均處理約200萬通電話;智能客服翼聲平臺(tái)接入星辰超多方言語音識(shí)別大模型的語音理解和分析能力,實(shí)現(xiàn)31省全覆蓋,每天可處理125萬通客服電話。

      對(duì)于中國電信來說,還有一個(gè)非常重要的出發(fā)點(diǎn):2023年之前,當(dāng)人們談大模型技術(shù)時(shí),公益價(jià)值很少會(huì)被提及。但在2024年,這一價(jià)值越來越多地「被看見」。

      大模型技術(shù)的應(yīng)用將很大程度上推動(dòng)對(duì)方言文化的保護(hù)。在我國的130多種語言中,有68種使用人口在萬人以下,有48種使用人口在5000人以下,有25種使用人口不足千人,有的語言只剩下十幾個(gè)人甚至幾個(gè)人會(huì)說。語音大模型的參與,能夠幫助記錄和保護(hù)瀕危方言,促進(jìn)方言的傳承和學(xué)習(xí)。對(duì)于包含大量方言內(nèi)容的歷史文獻(xiàn)和檔案,方言大模型還可以輔助進(jìn)行數(shù)字化和整理工作,防止文化遺產(chǎn)的流失。

      「語音助手」全面開卷

      中國電信如何領(lǐng)跑大模型落地之戰(zhàn)?

      大模型之戰(zhàn)已經(jīng)持續(xù)一年半之久,行業(yè)目前有一個(gè)共識(shí):隨著大模型推理成本的大幅度下降,人們將迎來大模型應(yīng)用的井噴期。

      在海內(nèi)外眾多的大模型玩家中,中國電信是很特別的一位。在這個(gè)新階段,相比于我們熟悉的科技企業(yè),像中國電信這樣的運(yùn)營商在資源優(yōu)勢(shì)和業(yè)務(wù)方面更具優(yōu)勢(shì)。

      一方面,運(yùn)營商有豐富的網(wǎng)絡(luò)和算力資源,相對(duì)來說訓(xùn)練、推理成本更低。尤其在大模型的建設(shè)方面,更容易發(fā)揮規(guī)模的優(yōu)勢(shì)。另一方面,中國電信有龐大的客戶群體,以及豐富的2C、2H、2B 的信息服務(wù)業(yè)務(wù),能夠更快地推動(dòng)人工智能大模型在各個(gè)領(lǐng)域的落地,形成新的經(jīng)濟(jì)增長點(diǎn)。這些優(yōu)勢(shì)使運(yùn)營商有動(dòng)力在人工智能領(lǐng)域加大投入,驅(qū)動(dòng)技術(shù)進(jìn)步。

      在國內(nèi)運(yùn)營商中,中國電信是最早布局 AI 領(lǐng)域的一家,且堅(jiān)持走科技創(chuàng)新、核心能力自主研發(fā)的發(fā)展路線。去年至今,從星辰語義大模型到星辰多模態(tài)大模型和星辰語音識(shí)別大模型,中國電信旗下的大模型始終保持著快速迭代,且完成了語義、語音、視覺、多模態(tài)的全模態(tài)大模型布局。

      更讓人打破對(duì)央企傳統(tǒng)印象的是,中國電信還是大模型開源領(lǐng)域的重量級(jí)玩家。今年,TeleAI 陸續(xù)開源了7B、12B、52B 的星辰語義大模型。今年內(nèi),千億級(jí)星辰語義大模型也將正式開源。

      沿著近年來人工智能的技術(shù)發(fā)展趨勢(shì),我們可以看到,在實(shí)現(xiàn)通用人工智能的過程中,語音是關(guān)鍵的一部分,而語音識(shí)別是其中非常重要的一環(huán)。

      但我們同樣意識(shí)到,語音合成技術(shù)的成熟,將成為重塑各個(gè)語音助手場景的關(guān)鍵。據(jù)了解,TeleAI 還同步研發(fā)了讓擬人更真人的超自然語音生成大模型,實(shí)現(xiàn)零樣本聲音復(fù)刻和擬人度對(duì)齊 GPT-4o,將在語音識(shí)別和生成應(yīng)用水平上進(jìn)一步突破,加速通用 AI 語音助手的落地應(yīng)用。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。