回顧微軟30年沉浸式3D音頻、聲學(xué)領(lǐng)域的研究歷程

2020年08月20日 09:13:32 顏昳華 來源：映維網(wǎng)

　　對于自然用戶界面，游戲，虛擬現(xiàn)實和混合現(xiàn)實，以及普適計算(ubiquitous computing)而言，獲取正確的聲音是一個關(guān)鍵因素。音頻在盲人或低視力人群的輔助技術(shù)中同樣扮演著重要的角色。盡管過去數(shù)十年間的計算機(jī)已經(jīng)能夠播放和處理高保真音頻，但語言或沉浸式聲場的計算識別、分析和渲染方面依然存在一系列有待探索的前言。

　　自微軟研究院于1991年成立以來，音頻一直是團(tuán)隊重要的研究領(lǐng)域。在成立的第一年里，研究人員就利用音頻數(shù)據(jù)和其他線索探索視聽演示文稿的自動摘要。

　　多年來，微軟研究院在語音識別、自然用戶界面、捕捉和再現(xiàn)聲音、空間音頻、聲學(xué)模擬和音頻分析等方面都取得了穩(wěn)定而顯著的進(jìn)展，而且大部分都有應(yīng)用于諸如Windows10、Kinect、HoloLens和Teams的微軟產(chǎn)品和服務(wù)，以及福特的同步車載信息娛樂系統(tǒng)，Polycom的視頻會議設(shè)備，諸如《戰(zhàn)爭機(jī)器》和《盜賊之�！返扔螒�。

　　在下面的時間線里，微軟將與我們回顧團(tuán)隊在音頻和聲學(xué)研究方面的歷史進(jìn)程：

　　1. 語言識別和自然用戶界面

　　2002年：微軟的研究人員建立了“Sound Capture and Speech Enhancement/聲音捕捉和語音增強(qiáng)”項目，并開始始探索諸如減少回聲、麥克風(fēng)陣列處理和降噪等領(lǐng)域。

　　相關(guān)論文：Gain Self-Calibration Procedure for Microphone Arrays

　　相關(guān)論文：A New Beamformer Design Algorithm for Microphone Arrays

　　相關(guān)論文：Reverberation Reduction for Better Speech Recognition

　　相關(guān)論文：Microphone Array Post-Processor Using Instantaneous Direction of Arrival

　　2007年：福特發(fā)布了第一個版本的車內(nèi)信息娛樂系統(tǒng)SYNC，其中語音增強(qiáng)音頻管道最初是由微軟的研究人員設(shè)計。

　　相關(guān)視頻：Natural Language Moves In-Car Infotainment Forward

　　相關(guān)論文：Unified Framework for Single Channel Speech Enhancement

　　2007年：Windows增加對麥克風(fēng)陣列的支持。微軟發(fā)布了WindowsVista，包括對四種預(yù)選麥克風(fēng)陣列幾何結(jié)構(gòu)的支持，以及對USB麥克風(fēng)陣列的標(biāo)準(zhǔn)化支持。之后，Windows 10已經(jīng)能夠支持任意幾何形狀的麥克風(fēng)陣列。

　　相關(guān)論文：Sound Capture and Processing: Practical Approaches

　　2010年：微軟為Xbox360發(fā)布了Kinect，其中包括首個免手操作開放式麥克風(fēng)命令和帶有環(huán)繞聲回音消除功能的控制產(chǎn)品。

　　相關(guān)論文：Beamformer Design Using Measured Microphone Directivity Patterns: Robustness to Modelling Error

　　相關(guān)論文：Optimal 3D Beamforming Using Measured Microphone Directivity Patterns

　　相關(guān)論文：Data Driven Suppression Rule for Speech Enhancement

　　相關(guān)論文：Kinect Development Kit: A Toolkit for Gesture- and Speech-Based Human-Machine Interaction

　　2016年：微軟在這一年發(fā)布了HoloLens，它包含一個四元麥克風(fēng)陣列和一個復(fù)雜的聲音捕捉和語音增強(qiáng)系統(tǒng)，可用于捕捉用戶的聲音和周圍的環(huán)境聲音。

　　2017年：研究人員開始探索用于語音增強(qiáng)的神經(jīng)網(wǎng)絡(luò)。微軟在這一年建立了“Neural Networks-Based Speech Enhancement/基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)”項目，并旨在實現(xiàn)更精確、更可靠的語音處理，尤其是在移動設(shè)備、可穿戴設(shè)備、智能家居和物聯(lián)網(wǎng)設(shè)備。與以前的設(shè)備不同，所述設(shè)備帶來了全新的挑戰(zhàn)，如噪音更大的背景環(huán)境，更大的揚(yáng)聲器與麥克風(fēng)距離，以及有限的邊緣處理能力。

　　相關(guān)論文：A Causal Speech Enhancement Approach Combining Data-driven Learning and Suppression Rule Estimation

　　相關(guān)論文：A Hybrid Approach to Combining Conventional and Deep Learning Techniques for Single-channel Speech Enhancement and Recognition

　　相關(guān)論文：Convolutional-Recurrent Neural Networks for Speech Enhancement

　　相關(guān)論文：Constrained Convolutional-recurrent Networks to Improve Speech Quality with Low Impact on Recognition Accuracy

　　相關(guān)論文：Limiting Numerical Precision of Neural Networks to Achieve Real-time Voice Activity Detection

　　2019年：微軟發(fā)布HoloLens 2。這款設(shè)備包含一個五元麥克風(fēng)陣列和復(fù)雜的聲音捕捉和語音增強(qiáng)系統(tǒng)。同時，研究人員在2020年初開始探索其語音增強(qiáng)技術(shù)的關(guān)鍵組件。

　　相關(guān)論文：Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement

　　相關(guān)論文：Acoustic Localization using Spatial Probability in Noisy and Reverberant Environments

　　2020年：Microfoft Teams的語音增強(qiáng)。微軟首席執(zhí)行官薩蒂亞·納德拉(Satya Nadell)在這一年宣布，Microfoft Teams的優(yōu)化將包括基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法。

　　2. 支持協(xié)作和生產(chǎn)力的音頻

　　1991年：微軟的研究人員發(fā)表了第一篇與音頻相關(guān)的論文，其主要是關(guān)于多媒體演示文稿的自動摘要。

　　相關(guān)論文：Auto-Summarization of Audio-Video Presentations

　　1996年：微軟的研究人員探索了在交互式環(huán)境中使用視覺數(shù)據(jù)捕捉和渲染聲音的方法。

　　相關(guān)論文：Vision-Steered Audio for Interactive Environments

　　1999年：在這一年里，微軟團(tuán)隊在音頻檢測和分類方面取得了長足的進(jìn)步。

　　相關(guān)論文：Detection of target speakers in audio databases

　　相關(guān)論文：A Robust Audio Classification and Segmentation Method

　　2001年：微軟在這一年建立了RingCam項目，并旨在探索360度視頻會議。

　　相關(guān)論文：Distributed Meetings: A Meeting Capture and Broadcasting System

　　2007年：微軟RoundTable在這一年提供了揚(yáng)聲器檢測技術(shù)，由微軟研究人員開發(fā)的言語檢測技術(shù)成為了微軟RoundTable系統(tǒng)的一部分。這項技術(shù)后來賣給了Polycom，并作為Polycom CX5000的一部分發(fā)布。

　　3. 捕捉和再現(xiàn)聲音

　　1998年：微軟研究人員開始試驗麥克風(fēng)陣列，他們建造了第一個麥克風(fēng)陣列。

　　2005年：微軟的研究人員建立了“Audio Devices /音頻設(shè)備”項目，并構(gòu)建和評估了兩個USB麥克風(fēng)陣列原型：一個四元線性陣列和一個八元圓形陣列。

　　2007年：微軟雷德蒙德研究中心搬進(jìn)了Building 99的新家。這個建筑包括公司的第一個消聲室。

　　相關(guān)論文：Robust Design of Wideband Loudspeaker Arrays

　　相關(guān)論文：Sound Capture System and Spatial Filter for Small Devices

　　2009年：團(tuán)隊對Building 99的消聲室進(jìn)行了改造，使其可以自動測量3D方向性和輻射模式，包括人類的空間聽覺。它使用亞毫米精度的三維掃描儀測量頭部和軀干。除此之外，這使得能夠?qū)崿F(xiàn)更逼真空間音頻的頭相關(guān)傳遞函數(shù)(HRTFs)的開發(fā)成為可能。

　　2012年：為了使用球形和圓柱形函數(shù)來研究聲場，微軟研究人員建立了一個16通道球形麥克風(fēng)陣列和一個16通道圓柱形麥克風(fēng)陣列。值得一提的是，團(tuán)隊在2016年構(gòu)建了一個64通道球形麥克風(fēng)陣列。

　　2017年：微軟研究人員提出了一種使用超聲波來進(jìn)行手勢識別的新方法。這種方法的功耗顯著低于光學(xué)系統(tǒng)。

　　相關(guān)論文：Ultrasound-based Gesture Recognition

　　相關(guān)論文：Hardware and Algorithms for Ultrasonic Depth Imaging

　　相關(guān)論文：Multimodal Gesture Recognition

　　2018年：微軟研究人員開始探索實況360度音頻和視頻流式傳輸。

　　相關(guān)視頻：Live 360 audio and video streaming

　　2019年：微軟的研究人員建立了Denmark項目，其旨在利用由諸如智能手機(jī)和筆記本電腦等普通消費(fèi)者設(shè)備成的虛擬麥克風(fēng)陣列來實現(xiàn)會議對話的高質(zhì)量捕捉。

　　4. 空間音頻

　　2012年：微軟的研究人員開始探索空間音頻的新方向，開始研究與頭相關(guān)傳遞函數(shù)(HRTFs)的新方法。這項工作的一個潛在成果是實現(xiàn)更為真實的空間音頻。

　　相關(guān)論文：HRTF Magnitude Modeling Using a Non-Regularized Least-Squares Fit of Spherical Harmonics Coefficients on Incomplete Data

　　相關(guān)論文：HRTF Magnitude Synthesis via Sparse Representation of Anthropometric Features

　　相關(guān)論文：HRTF Phase Synthesis via Sparse Representation of Anthropometric Features

　　相關(guān)博文：Microsoft 3D audio tech makes virtual sounds sound real

　　相關(guān)視頻：3-D Audio Demo

　　2015年：微軟發(fā)布了支持虛擬環(huán)繞聲的Windows 10：Windows Sonic。這個空間音頻渲染系統(tǒng)后來集成到HoloLens之中。

　　相關(guān)論文：Estimation of Multipath Propagation Delays and Interaural Time Differences from 3-D Head Scans

　　相關(guān)論文：Applications of 3D Spherical Transforms To Personalization Of Head-Related Transfer Functions

　　2016年：微軟發(fā)布了HoloLens。這個設(shè)備配備了一個音頻渲染系統(tǒng)，可對用戶的空間聽覺進(jìn)行動態(tài)個性化設(shè)置。

　　2016年：微軟發(fā)布Windows Mixed Reality平臺。Windows10支持其他公司生產(chǎn)的虛擬現(xiàn)實頭顯和混合現(xiàn)實頭顯。這個平臺包含空間音頻引擎的擴(kuò)展和改進(jìn)版本。

　　相關(guān)論文：Head-related transfer function personalization for the needs of spatial audio in mixed and virtual reality

　　2017年：微軟發(fā)布了Soundscape(與Guide Dogs U合作)，這是一個針對視力受損人群的輔助應(yīng)用程序，其包括一個空間音頻渲染系統(tǒng)。

　　相關(guān)論文：Blind reverberation time estimation using a convolutional neural network

　　相關(guān)項目：Project Soundscape

　　相關(guān)視頻：Microsoft Soundscape: A Map Delivered in 3D Sound

　　2018年：Ivan Tashev博士通過播客概述了對更好的聲音處理和語音增強(qiáng)技術(shù)的追求，并描述了3D音頻的最新創(chuàng)新。他同時解釋了為什么由于人類感知能力的變化，音頻處理技術(shù)背后的研究是科學(xué)、藝術(shù)和工藝的平衡整合。

　　相關(guān)播客：Podcast: Hearing in 3D with Dr. Ivan Tashev

　　2018年：微軟研究團(tuán)隊在這一年發(fā)布了一系列的重要論文。

　　相關(guān)論文：A Sparsity Measure for Echo Density Growth in General Environments

　　相關(guān)論文：Blind Room Volume Estimation from Single-channel Noisy Speech

　　相關(guān)論文：Capture, representation, and rendering of 3D audio for virtual and augmented reality

　　相關(guān)論文：Improving Binaural Ambisonics Decoding by Spherical Harmonics Domain Tapering and Coloration Compensation

　　相關(guān)論文：Spectral manipulation improves elevation perception with non-individualized head-related transfer functions

　　5. 聲學(xué)模擬

　　2010年：在2010年之前，交互式音頻的一個關(guān)鍵挑戰(zhàn)是在復(fù)雜的游戲場景中快速建模波浪效果。在2010年，微軟的研究人員提出了預(yù)先計算物理精確的波形模擬的概念，并證明這是交互式音頻和游戲的可行途徑。

　　Triton項目探索了一種基于物理的虛擬環(huán)境建模方法，其旨在實現(xiàn)更為真實的游戲內(nèi)音頻。

　　相關(guān)論文：Precomputed Wave Simulation for Real-Time Sound Propagation of Dynamic Sources in Complex Scenes

　　相關(guān)項目：Project Triton

　　2012年：微軟研究人員開始與游戲工作室合作。如與The Coalition Studio 合作，并將上述的聲學(xué)模擬研究納入《戰(zhàn)爭機(jī)器》。通過這樣的方式，團(tuán)隊開始從探索性研究過渡到注重性能和靈活性的重新設(shè)計。

　　2013年：Project Triton的首個工作原型在內(nèi)部演示。

　　2014年：團(tuán)隊發(fā)布了一份描述了Triton項目的核心設(shè)計的論文，以及如何將感知編碼、空間壓縮和參數(shù)化繪制相結(jié)合。所述設(shè)計解決了系統(tǒng)資源的使用問題，并能方便地集成到現(xiàn)有的音頻工具中。后來的研究正是建立在這個核心設(shè)計之上，并進(jìn)行了各種改進(jìn)。

　　相關(guān)論文：Parametric Wave Field Coding for Precomputed Sound Propagation

　　2015年：微軟研究院的暑期實習(xí)生研究了一種新的自適應(yīng)采樣方法，并旨在解決Triton項目中的一個關(guān)鍵魯棒性問題。

　　相關(guān)論文：Adaptive Sampling For Sound Propagation

　　2016年：Project Triton成為《戰(zhàn)爭機(jī)器4》的一部分。這是由精確基物模擬提供的首個游戲聲學(xué)實例。

　　相關(guān)視頻：GDC 2017 talk on Gears of War integration

　　2017年：Project Triton開始支持混合現(xiàn)實體驗，并作為Windows10 Fall Creator更新的一部分。它在“懸崖屋”空間中提供了一種自然的聲學(xué)體驗，包含新的定向聲學(xué)特性。這一體驗同時結(jié)合了前面所述的HRTFs進(jìn)步。

　　2018年，Project Triton成為《盜賊之�！返囊徊糠�，這是第二款采用這項技術(shù)的游戲。

　　相關(guān)論文：Parametric Directional Coding for Precomputed Sound Propagation

　　2019年：Nikunj Raghuvanshi博士通過播客介紹了聲音是如何傳播，以及Project Triton的相關(guān)事項。

　　相關(guān)播客：Podcast: Project Triton and the Physics of Sound with Dr. Nikunj Raghuvanshi

　　2019年：Project Triton作為Project Acoustics向所有開發(fā)者開放，其包括Unity和Unreal插件，以便開發(fā)者輕松將其集成到游戲和研究原型中。

　　相關(guān)視頻：Project Acoustics: Making Waves with Triton

　　相關(guān)視頻：Project Acoustics | Game Developers Conference 2019

　　2019年：《無主之地 3》發(fā)行。這是微軟之外第一家使用Project Triton的游戲工作室。

　　2020年：Project Triton集成到HoloLens。這一里程碑標(biāo)志著物理聲學(xué)在增強(qiáng)現(xiàn)實中的首次演示。

　　相關(guān)視頻：Using Project Acoustics with HoloLens 2

　　相關(guān)論文：Cloud-Enabled Interactive Sound Propagation for Untethered Mixed Reality

　　2020年：微軟首席研究員Nikunj Raghuvanshi博士在網(wǎng)絡(luò)研討會中介紹了創(chuàng)建實用、高質(zhì)量聲音模擬的來龍去脈。它包括聲音模擬的三個組成部分：合成、傳播和空間化。對于每一個問題，他將回顧基礎(chǔ)物理，研究技術(shù)，實際考慮，和開放的研究問題。

　　相關(guān)視頻：Interactive Sound Simulation：Rendering immersive soundscapes in games and virtual reality

　　6. 音頻分析

　　2010年：微軟研究人員建立了“Audio Analytics/音頻分析”項目，并旨在探索從人類語音中提取非語言線索，檢測特定的音頻事件和背景噪聲，以及音頻搜索和檢索等主題。這項技術(shù)的潛在應(yīng)用包括客服電話的客戶滿意度分析、媒體內(nèi)容分析和檢索、醫(yī)療診斷輔助設(shè)備和患者監(jiān)控、聽力障礙患者輔助技術(shù)以及公共安全音頻分析等等。

　　相關(guān)論文：A New Speaker Identification Algorithm for Gaming Scenarios

　　相關(guān)論文：Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine

　　相關(guān)論文：High-level Feature Representation using Recurrent Neural Network for Speech Emotion Recognition

　　2015年：“Hey, Cortana”支持人話識別。微軟發(fā)布了包含揚(yáng)聲器識別功能的Windows10，并將其作為“Hey, Cortana”喚醒功能的一部分。

　　相關(guān)論文：Learning Utterance-level Representations for Speech Emotion and Age/Gender Recognition Using Deep Neural Networks

　　相關(guān)論文：A Cross-modal Audio Search Engine based on Joint Audio-Text Embeddings

　　相關(guān)論文：Supervised Deep Hashing for Efficient Audio Event Retrieval

　　原文鏈接：https://yivian.com/news/77116.html

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

TCL實業(yè)榮獲IFA2024多項大獎，展示全球科技創(chuàng)新力量

近日，德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎，有力證明了其在全球市場的強(qiáng)大影響力。

服貿(mào)會高通展示開放創(chuàng)新生態(tài)，以5G、AI等技術(shù)促進(jìn)合作共贏

OPPO續(xù)約歐洲冠軍聯(lián)賽未來三季再續(xù)輝煌

新聞

敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

近日，中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

回顧微軟30年沉浸式3D音頻、聲學(xué)領(lǐng)域的研究歷程

擴(kuò)展閱讀

回顧微軟30年沉浸式3D音頻、聲學(xué)領(lǐng)域的研究歷程