據(jù)“晚點(diǎn) Auto”昨晚報(bào)道,微軟亞洲研究院前首席研究經(jīng)理譚旭于 8 月加入大模型創(chuàng)業(yè)公司月之暗面,主要負(fù)責(zé)研發(fā)端到端語音模型。
報(bào)道稱,月之暗面的整個(gè)多模態(tài)研究早在去年 10 月就已開始。接近該公司人士稱,目前正有 10 人左右的團(tuán)隊(duì)在研發(fā)視頻模型,為確保產(chǎn)品更具差異性,對(duì)外發(fā)布計(jì)劃仍在推遲。
資料顯示,譚旭在離開微軟研究院前擔(dān)任首席研究經(jīng)理,方向是生成式 AI、語音 / 音頻 / 視頻內(nèi)容生成,論文引用量達(dá)上萬次,他也曾擔(dān)任 NeurIPS 等學(xué)術(shù)會(huì)議期刊的審稿人;其多項(xiàng)語言、語音、音樂、視頻生成成果已應(yīng)用在 Azure、Bing 等微軟的產(chǎn)品與服務(wù)中。
譚旭加入月之暗面后的主要目標(biāo)之一,可能即是幫助月之暗面打造“類似 GPT-4o”的語音體驗(yàn)。
此前,主流的語音方案是 ASR(自動(dòng)語音識(shí)別)+LLM(大語言模型)+TTS(語音合成):輸入端識(shí)別語音、轉(zhuǎn)化成文本;大模型處理內(nèi)容生成新文本;文本合成為語音、最終輸出。
但上述方案的不足在于機(jī)器響應(yīng)時(shí)間較長、人類無法隨時(shí)打斷,與人類的自然聊天狀態(tài)存在差距。相比之下,端到端省去了“語音轉(zhuǎn)文字再轉(zhuǎn)語音”的中間過程,可以壓縮機(jī)器響應(yīng)時(shí)間,人類也可隨時(shí)打斷機(jī)器。同時(shí),端到端還可幫助改善“幻覺”:用戶可立即打斷輸出并給出新的提示詞。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(tái)(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費(fèi)前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。