中國品牌,讓東南亞感受“消費(fèi)升級”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運(yùn)行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 企業(yè)IT頻道 > ARVRMR

    回顧微軟30年沉浸式3D音頻、聲學(xué)領(lǐng)域的研究歷程

    2020年08月20日 09:13:32   來源:映維網(wǎng)

      對于自然用戶界面,游戲,虛擬現(xiàn)實和混合現(xiàn)實,以及普適計算(ubiquitous computing)而言,獲取正確的聲音是一個關(guān)鍵因素。音頻在盲人或低視力人群的輔助技術(shù)中同樣扮演著重要的角色。盡管過去數(shù)十年間的計算機(jī)已經(jīng)能夠播放和處理高保真音頻,但語言或沉浸式聲場的計算識別、分析和渲染方面依然存在一系列有待探索的前言。

    15.jpg

      自微軟研究院于1991年成立以來,音頻一直是團(tuán)隊重要的研究領(lǐng)域。在成立的第一年里,研究人員就利用音頻數(shù)據(jù)和其他線索探索視聽演示文稿的自動摘要。

      多年來,微軟研究院在語音識別、自然用戶界面、捕捉和再現(xiàn)聲音、空間音頻、聲學(xué)模擬和音頻分析等方面都取得了穩(wěn)定而顯著的進(jìn)展,而且大部分都有應(yīng)用于諸如Windows10、Kinect、HoloLens和Teams的微軟產(chǎn)品和服務(wù),以及福特的同步車載信息娛樂系統(tǒng),Polycom的視頻會議設(shè)備,諸如《戰(zhàn)爭機(jī)器》和《盜賊之!返扔螒。

      在下面的時間線里,微軟將與我們回顧團(tuán)隊在音頻和聲學(xué)研究方面的歷史進(jìn)程:

      1. 語言識別和自然用戶界面

      2002年:微軟的研究人員建立了“Sound Capture and Speech Enhancement/聲音捕捉和語音增強(qiáng)”項目,并開始始探索諸如減少回聲、麥克風(fēng)陣列處理和降噪等領(lǐng)域。

      相關(guān)論文:Gain Self-Calibration Procedure for Microphone Arrays

      相關(guān)論文:A New Beamformer Design Algorithm for Microphone Arrays

      相關(guān)論文:Reverberation Reduction for Better Speech Recognition

      相關(guān)論文:Microphone Array Post-Processor Using Instantaneous Direction of Arrival

      2007年:福特發(fā)布了第一個版本的車內(nèi)信息娛樂系統(tǒng)SYNC,其中語音增強(qiáng)音頻管道最初是由微軟的研究人員設(shè)計。

      相關(guān)視頻:Natural Language Moves In-Car Infotainment Forward

      相關(guān)論文:Unified Framework for Single Channel Speech Enhancement

      2007年:Windows增加對麥克風(fēng)陣列的支持。微軟發(fā)布了WindowsVista,包括對四種預(yù)選麥克風(fēng)陣列幾何結(jié)構(gòu)的支持,以及對USB麥克風(fēng)陣列的標(biāo)準(zhǔn)化支持。之后,Windows 10已經(jīng)能夠支持任意幾何形狀的麥克風(fēng)陣列。

      相關(guān)論文:Sound Capture and Processing: Practical Approaches

      2010年:微軟為Xbox360發(fā)布了Kinect,其中包括首個免手操作開放式麥克風(fēng)命令和帶有環(huán)繞聲回音消除功能的控制產(chǎn)品。

      相關(guān)論文:Beamformer Design Using Measured Microphone Directivity Patterns: Robustness to Modelling Error

      相關(guān)論文:Optimal 3D Beamforming Using Measured Microphone Directivity Patterns

      相關(guān)論文:Data Driven Suppression Rule for Speech Enhancement

      相關(guān)論文:Kinect Development Kit: A Toolkit for Gesture- and Speech-Based Human-Machine Interaction

      2016年:微軟在這一年發(fā)布了HoloLens,它包含一個四元麥克風(fēng)陣列和一個復(fù)雜的聲音捕捉和語音增強(qiáng)系統(tǒng),可用于捕捉用戶的聲音和周圍的環(huán)境聲音。

      2017年:研究人員開始探索用于語音增強(qiáng)的神經(jīng)網(wǎng)絡(luò)。微軟在這一年建立了“Neural Networks-Based Speech Enhancement/基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)”項目,并旨在實現(xiàn)更精確、更可靠的語音處理,尤其是在移動設(shè)備、可穿戴設(shè)備、智能家居和物聯(lián)網(wǎng)設(shè)備。與以前的設(shè)備不同,所述設(shè)備帶來了全新的挑戰(zhàn),如噪音更大的背景環(huán)境,更大的揚(yáng)聲器與麥克風(fēng)距離,以及有限的邊緣處理能力。

      相關(guān)論文:A Causal Speech Enhancement Approach Combining Data-driven Learning and Suppression Rule Estimation

      相關(guān)論文:A Hybrid Approach to Combining Conventional and Deep Learning Techniques for Single-channel Speech Enhancement and Recognition

      相關(guān)論文:Convolutional-Recurrent Neural Networks for Speech Enhancement

      相關(guān)論文:Constrained Convolutional-recurrent Networks to Improve Speech Quality with Low Impact on Recognition Accuracy

      相關(guān)論文:Limiting Numerical Precision of Neural Networks to Achieve Real-time Voice Activity Detection

      2019年:微軟發(fā)布HoloLens 2。這款設(shè)備包含一個五元麥克風(fēng)陣列和復(fù)雜的聲音捕捉和語音增強(qiáng)系統(tǒng)。同時,研究人員在2020年初開始探索其語音增強(qiáng)技術(shù)的關(guān)鍵組件。

      相關(guān)論文:Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement

      相關(guān)論文:Acoustic Localization using Spatial Probability in Noisy and Reverberant Environments

      2020年:Microfoft Teams的語音增強(qiáng)。微軟首席執(zhí)行官薩蒂亞·納德拉(Satya Nadell)在這一年宣布,Microfoft Teams的優(yōu)化將包括基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法。

      2. 支持協(xié)作和生產(chǎn)力的音頻

      1991年:微軟的研究人員發(fā)表了第一篇與音頻相關(guān)的論文,其主要是關(guān)于多媒體演示文稿的自動摘要。

      相關(guān)論文:Auto-Summarization of Audio-Video Presentations

      1996年:微軟的研究人員探索了在交互式環(huán)境中使用視覺數(shù)據(jù)捕捉和渲染聲音的方法。

      相關(guān)論文:Vision-Steered Audio for Interactive Environments

      1999年:在這一年里,微軟團(tuán)隊在音頻檢測和分類方面取得了長足的進(jìn)步。

      相關(guān)論文:Detection of target speakers in audio databases

      相關(guān)論文:A Robust Audio Classification and Segmentation Method

      2001年:微軟在這一年建立了RingCam項目,并旨在探索360度視頻會議。

      相關(guān)論文:Distributed Meetings: A Meeting Capture and Broadcasting System

      2007年:微軟RoundTable在這一年提供了揚(yáng)聲器檢測技術(shù),由微軟研究人員開發(fā)的言語檢測技術(shù)成為了微軟RoundTable系統(tǒng)的一部分。這項技術(shù)后來賣給了Polycom,并作為Polycom CX5000的一部分發(fā)布。

      3. 捕捉和再現(xiàn)聲音

      1998年:微軟研究人員開始試驗麥克風(fēng)陣列,他們建造了第一個麥克風(fēng)陣列。

      2005年:微軟的研究人員建立了“Audio Devices /音頻設(shè)備”項目,并構(gòu)建和評估了兩個USB麥克風(fēng)陣列原型:一個四元線性陣列和一個八元圓形陣列。

      2007年:微軟雷德蒙德研究中心搬進(jìn)了Building 99的新家。這個建筑包括公司的第一個消聲室。

      相關(guān)論文:Robust Design of Wideband Loudspeaker Arrays

      相關(guān)論文:Sound Capture System and Spatial Filter for Small Devices

      2009年:團(tuán)隊對Building 99的消聲室進(jìn)行了改造,使其可以自動測量3D方向性和輻射模式,包括人類的空間聽覺。它使用亞毫米精度的三維掃描儀測量頭部和軀干。除此之外,這使得能夠?qū)崿F(xiàn)更逼真空間音頻的頭相關(guān)傳遞函數(shù)(HRTFs)的開發(fā)成為可能。

      2012年:為了使用球形和圓柱形函數(shù)來研究聲場,微軟研究人員建立了一個16通道球形麥克風(fēng)陣列和一個16通道圓柱形麥克風(fēng)陣列。值得一提的是,團(tuán)隊在2016年構(gòu)建了一個64通道球形麥克風(fēng)陣列。

      2017年:微軟研究人員提出了一種使用超聲波來進(jìn)行手勢識別的新方法。這種方法的功耗顯著低于光學(xué)系統(tǒng)。

      相關(guān)論文:Ultrasound-based Gesture Recognition

      相關(guān)論文:Hardware and Algorithms for Ultrasonic Depth Imaging

      相關(guān)論文:Multimodal Gesture Recognition

      2018年:微軟研究人員開始探索實況360度音頻和視頻流式傳輸。

      相關(guān)視頻:Live 360 audio and video streaming

      2019年:微軟的研究人員建立了Denmark項目,其旨在利用由諸如智能手機(jī)和筆記本電腦等普通消費(fèi)者設(shè)備成的虛擬麥克風(fēng)陣列來實現(xiàn)會議對話的高質(zhì)量捕捉。

      4. 空間音頻

      2012年:微軟的研究人員開始探索空間音頻的新方向,開始研究與頭相關(guān)傳遞函數(shù)(HRTFs)的新方法。這項工作的一個潛在成果是實現(xiàn)更為真實的空間音頻。

      相關(guān)論文:HRTF Magnitude Modeling Using a Non-Regularized Least-Squares Fit of Spherical Harmonics Coefficients on Incomplete Data

      相關(guān)論文:HRTF Magnitude Synthesis via Sparse Representation of Anthropometric Features

      相關(guān)論文:HRTF Phase Synthesis via Sparse Representation of Anthropometric Features

      相關(guān)博文:Microsoft 3D audio tech makes virtual sounds sound real

      相關(guān)視頻:3-D Audio Demo

      2015年:微軟發(fā)布了支持虛擬環(huán)繞聲的Windows 10:Windows Sonic。這個空間音頻渲染系統(tǒng)后來集成到HoloLens之中。

      相關(guān)論文:Estimation of Multipath Propagation Delays and Interaural Time Differences from 3-D Head Scans

      相關(guān)論文:Applications of 3D Spherical Transforms To Personalization Of Head-Related Transfer Functions

      2016年:微軟發(fā)布了HoloLens。這個設(shè)備配備了一個音頻渲染系統(tǒng),可對用戶的空間聽覺進(jìn)行動態(tài)個性化設(shè)置。

      2016年:微軟發(fā)布Windows Mixed Reality平臺。Windows10支持其他公司生產(chǎn)的虛擬現(xiàn)實頭顯和混合現(xiàn)實頭顯。這個平臺包含空間音頻引擎的擴(kuò)展和改進(jìn)版本。

      相關(guān)論文:Head-related transfer function personalization for the needs of spatial audio in mixed and virtual reality

      2017年:微軟發(fā)布了Soundscape(與Guide Dogs U合作),這是一個針對視力受損人群的輔助應(yīng)用程序,其包括一個空間音頻渲染系統(tǒng)。

      相關(guān)論文:Blind reverberation time estimation using a convolutional neural network

      相關(guān)項目:Project Soundscape

      相關(guān)視頻:Microsoft Soundscape: A Map Delivered in 3D Sound

      2018年:Ivan Tashev博士通過播客概述了對更好的聲音處理和語音增強(qiáng)技術(shù)的追求,并描述了3D音頻的最新創(chuàng)新。他同時解釋了為什么由于人類感知能力的變化,音頻處理技術(shù)背后的研究是科學(xué)、藝術(shù)和工藝的平衡整合。

      相關(guān)播客:Podcast: Hearing in 3D with Dr. Ivan Tashev

      2018年:微軟研究團(tuán)隊在這一年發(fā)布了一系列的重要論文。

      相關(guān)論文:A Sparsity Measure for Echo Density Growth in General Environments

      相關(guān)論文:Blind Room Volume Estimation from Single-channel Noisy Speech

      相關(guān)論文:Capture, representation, and rendering of 3D audio for virtual and augmented reality

      相關(guān)論文:Improving Binaural Ambisonics Decoding by Spherical Harmonics Domain Tapering and Coloration Compensation

      相關(guān)論文:Spectral manipulation improves elevation perception with non-individualized head-related transfer functions

      5. 聲學(xué)模擬

      2010年:在2010年之前,交互式音頻的一個關(guān)鍵挑戰(zhàn)是在復(fù)雜的游戲場景中快速建模波浪效果。在2010年,微軟的研究人員提出了預(yù)先計算物理精確的波形模擬的概念,并證明這是交互式音頻和游戲的可行途徑。

      Triton項目探索了一種基于物理的虛擬環(huán)境建模方法,其旨在實現(xiàn)更為真實的游戲內(nèi)音頻。

      相關(guān)論文:Precomputed Wave Simulation for Real-Time Sound Propagation of Dynamic Sources in Complex Scenes

      相關(guān)項目:Project Triton

      2012年:微軟研究人員開始與游戲工作室合作。如與The Coalition Studio 合作,并將上述的聲學(xué)模擬研究納入《戰(zhàn)爭機(jī)器》。通過這樣的方式,團(tuán)隊開始從探索性研究過渡到注重性能和靈活性的重新設(shè)計。

      2013年:Project Triton的首個工作原型在內(nèi)部演示。

      2014年:團(tuán)隊發(fā)布了一份描述了Triton項目的核心設(shè)計的論文,以及如何將感知編碼、空間壓縮和參數(shù)化繪制相結(jié)合。所述設(shè)計解決了系統(tǒng)資源的使用問題,并能方便地集成到現(xiàn)有的音頻工具中。后來的研究正是建立在這個核心設(shè)計之上,并進(jìn)行了各種改進(jìn)。

      相關(guān)論文:Parametric Wave Field Coding for Precomputed Sound Propagation

      2015年:微軟研究院的暑期實習(xí)生研究了一種新的自適應(yīng)采樣方法,并旨在解決Triton項目中的一個關(guān)鍵魯棒性問題。

      相關(guān)論文:Adaptive Sampling For Sound Propagation

      2016年:Project Triton成為《戰(zhàn)爭機(jī)器4》的一部分。這是由精確基物模擬提供的首個游戲聲學(xué)實例。

      相關(guān)視頻:GDC 2017 talk on Gears of War integration

      2017年:Project Triton開始支持混合現(xiàn)實體驗,并作為Windows10 Fall Creator更新的一部分。它在“懸崖屋”空間中提供了一種自然的聲學(xué)體驗,包含新的定向聲學(xué)特性。這一體驗同時結(jié)合了前面所述的HRTFs進(jìn)步。

      2018年,Project Triton成為《盜賊之!返囊徊糠,這是第二款采用這項技術(shù)的游戲。

      相關(guān)論文:Parametric Directional Coding for Precomputed Sound Propagation

      2019年:Nikunj Raghuvanshi博士通過播客介紹了聲音是如何傳播,以及Project Triton的相關(guān)事項。

      相關(guān)播客:Podcast: Project Triton and the Physics of Sound with Dr. Nikunj Raghuvanshi

      2019年:Project Triton作為Project Acoustics向所有開發(fā)者開放,其包括Unity和Unreal插件,以便開發(fā)者輕松將其集成到游戲和研究原型中。

      相關(guān)視頻:Project Acoustics: Making Waves with Triton

      相關(guān)視頻:Project Acoustics | Game Developers Conference 2019

      2019年:《無主之地 3》發(fā)行。這是微軟之外第一家使用Project Triton的游戲工作室。

      2020年:Project Triton集成到HoloLens。這一里程碑標(biāo)志著物理聲學(xué)在增強(qiáng)現(xiàn)實中的首次演示。

      相關(guān)視頻:Using Project Acoustics with HoloLens 2

      相關(guān)論文:Cloud-Enabled Interactive Sound Propagation for Untethered Mixed Reality

      2020年:微軟首席研究員Nikunj Raghuvanshi博士在網(wǎng)絡(luò)研討會中介紹了創(chuàng)建實用、高質(zhì)量聲音模擬的來龍去脈。它包括聲音模擬的三個組成部分:合成、傳播和空間化。對于每一個問題,他將回顧基礎(chǔ)物理,研究技術(shù),實際考慮,和開放的研究問題。

      相關(guān)視頻:Interactive Sound Simulation:Rendering immersive soundscapes in games and virtual reality

      6. 音頻分析

      2010年:微軟研究人員建立了“Audio Analytics/音頻分析”項目,并旨在探索從人類語音中提取非語言線索,檢測特定的音頻事件和背景噪聲,以及音頻搜索和檢索等主題。這項技術(shù)的潛在應(yīng)用包括客服電話的客戶滿意度分析、媒體內(nèi)容分析和檢索、醫(yī)療診斷輔助設(shè)備和患者監(jiān)控、聽力障礙患者輔助技術(shù)以及公共安全音頻分析等等。

      相關(guān)論文:A New Speaker Identification Algorithm for Gaming Scenarios

      相關(guān)論文:Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine

      相關(guān)論文:High-level Feature Representation using Recurrent Neural Network for Speech Emotion Recognition

      2015年:“Hey, Cortana”支持人話識別。微軟發(fā)布了包含揚(yáng)聲器識別功能的Windows10,并將其作為“Hey, Cortana”喚醒功能的一部分。

      相關(guān)論文:Learning Utterance-level Representations for Speech Emotion and Age/Gender Recognition Using Deep Neural Networks

      相關(guān)論文:A Cross-modal Audio Search Engine based on Joint Audio-Text Embeddings

      相關(guān)論文:Supervised Deep Hashing for Efficient Audio Event Retrieval

      原文鏈接:https://yivian.com/news/77116.html

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。