微軟研究團隊分享：增加面部landmark數(shù)量實現(xiàn)更精確3D面部重建

2022年10月26日 14:23:26 來源：映維網(wǎng)

　　計算機視覺是計算機科學中最引人注目的領域之一。它的發(fā)展速度非常迅速，并且有望顯著影響人們的生活和工作方式。近年來，機器學習和計算機視覺的融合交叉進展正在加速，并為眾多領域帶來了重大進展，包括醫(yī)療保健、機器人、汽車工業(yè)和增強現(xiàn)實。

　　為了幫助人們實現(xiàn)更多目標，微軟研究人員一直在與所述領域的學者和專家合作，共同開展一系列的計算機視覺項目。一個例子是PeopleLens。這款以HoloLens作為靈感的頭戴式設備可以通過空間化音頻識別周圍的人員，從而幫助失明人士或視力低下人士在社交場合進行互動。另一個例子是Swin Transformer。這個計算機視覺架構在目標檢測中實現(xiàn)了高精度，并提供了將計算機視覺和自然語言處理(NLP)架構統(tǒng)一的機遇。

　　在日前舉行的2022年歐洲計算機視覺大會(ECCV)，微軟介紹了團隊在計算機領域的最新成果。下面將重點與混合現(xiàn)實相關的兩份研究論文。第一篇是通過增加面部landmark的數(shù)量來實現(xiàn)更精確的3D面部重建，在降低所需計算能力的同時獲得最先進的結果。另一篇主要涉及一個利用AR設備對真實世界進行視覺定位和映射的數(shù)據(jù)集。以下是第一篇“3D face reconstruction with dense landmarks”的分享。

　　1. 方法介紹

　　Landmark通常在人臉分析中起著關鍵作用，但關于身份或表情的眾多方面無法僅用稀疏Landmark來進行表示。為了更精確地重建人臉，行業(yè)通常將Landmark與深度圖像等附加信號或微分渲染等技術相結合。

　　通常，從業(yè)者用來訓練ML模型的公共數(shù)據(jù)集包含68個面部Landmark的注釋。然而，人臉并不能僅用68個Landmark來精確地表示，需要額外的方法來補充Landmark檢測，而這增加了訓練工作的復雜性，并增加了所需的計算能力。

　　所以，研究人員好奇的一個問題是：為了進一步簡化流程和優(yōu)化資源利用，是否可以單純依靠(密集)Landmark來實現(xiàn)逼真的人臉重建呢?

　　為了實現(xiàn)準確的3D人臉重建，微軟提出了自己的解決方案：單純依靠密集Landmark來實現(xiàn)逼真人臉重建。其中，團隊表示相關方法可以準確預測十倍于平常的Landmark，覆蓋整個頭部，包括眼睛和牙齒。

　　正如前面所述，微軟表示他們的方法可以準確預測十倍于平常的Landmark，覆蓋整個頭部，包括眼睛和牙齒，如圖1所示。簡單來說，這是通過使用合成訓練數(shù)據(jù)來實現(xiàn)，從而保證了完美的Landmark標注。

　　概括而言，團隊的方法主要包括兩步：首先預測概率密集Landmark L，每個Landmark都具有位置µ和確定性σ。然后，研究人員將3D人臉模型擬合到L，通過優(yōu)化模型參數(shù)Φ最小化能量E

　　值得注意的是，盡管人類可能會始終使用68個Landmark標記圖像，但手動使用密集Landmark標注圖像是不可能的。為了保證完美的Landmark標注，微軟使用人臉合成系統(tǒng)渲染了100000張合成訓練圖像。團隊指出，沒有合成數(shù)據(jù)提供的完美注釋，密集地標預測是不可能的。

　　通過將可變形模型擬合到密集Landmark，研究人員實現(xiàn)了自然場景下最先進的單目3D人臉重建結果。通過在單目和多視圖場景中展示準確和富有表現(xiàn)力的面部表現(xiàn)捕捉，團隊表明密集的Landmark是跨幀整合面部形狀信息的理想信號。實驗比較證明了所述方法的高效性：可以預測密集Landmark，并在單個CPU線程以超過150FPS的速度擬合3D人臉模型。

　　2. 使用合成數(shù)據(jù)提高隱私、公平和效率

　　在計算機視覺領域，尤其是人臉重建領域，在訓練ML模型時對匿名性的擔憂可以理解，因為訓練數(shù)據(jù)通常來自真人。微軟提出的方法顯著減少了隱私問題，因為它只使用合成數(shù)據(jù)來訓練ML模型，不使用真人的圖像。換句話說，當建立合成數(shù)據(jù)管道時，微軟非常注重保護用戶的隱私，并且獲得了數(shù)百名被試的同意。團隊指出：“如果我們要使用真實數(shù)據(jù)，這是必要的環(huán)節(jié)。”

　　使用合成數(shù)據(jù)有助于保護數(shù)據(jù)主體的隱私，以及攝影師和內容創(chuàng)作者的權利。微軟強調，他們都是以符合道德和負責任的方式來構建技術。另外，由于數(shù)據(jù)集中不包括用戶的私人信息，如果ML模型受到攻擊，只有合成數(shù)據(jù)會受到損害。

　　合成數(shù)據(jù)同時為解決包容性和公平性問題提供了機會。這主要是因為數(shù)據(jù)的分布完全受控，ML從業(yè)者可以通過在數(shù)據(jù)集中包含不同的樣本來管理表示的公平性，并且所有需要這樣做的數(shù)據(jù)都會被完美地標記

　　使用合成數(shù)據(jù)訓練ML模型同時存在其他優(yōu)點。例如，模型需要大量的數(shù)據(jù)，而這給從業(yè)者獲取數(shù)據(jù)帶來了諸多困難，例如找到所需人數(shù)的后勤、在實驗室安排時間，以及設置多個攝像頭以捕捉人臉的不同角度。合成數(shù)據(jù)大大減少了所述方面的擔憂。

　　另外，由于數(shù)據(jù)不需要來自真人，所以提高3D人臉重建質量的迭代速度非常高，從而創(chuàng)建了一個穩(wěn)健的工作流程。當使用合成數(shù)據(jù)時，沒有必要對每個Landmark的圖像應用QA過程，這是另一個節(jié)省成本和時間的優(yōu)勢。另一點是這增加了Landmark數(shù)據(jù)的精度、速度和成本效益。因為要求某人在一組圖像中一致地標記703個Landmark幾乎不可能實現(xiàn)。

　　微軟總結道：“人臉分析是眾多ML系統(tǒng)的基礎，例如人臉識別和控制Avatar。使用一種既能提供精度和效率，又能解決隱私和公平問題的方法打破了現(xiàn)有技術的界限。使用密集Landmark和合成數(shù)據(jù)實現(xiàn)3D人臉重建的能力有可能真正改變ML。”

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信

即時

TCL實業(yè)榮獲IFA2024多項大獎，展示全球科技創(chuàng)新力量

近日，德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革，全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎，有力證明了其在全球市場的強大影響力。

服貿會高通展示開放創(chuàng)新生態(tài)，以5G、AI等技術促進合作共贏

OPPO續(xù)約歐洲冠軍聯(lián)賽未來三季再續(xù)輝煌

新聞

敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

近日，中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相，以敢為精神勇闖技術無人區(qū)，斬獲四項AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應用，“區(qū)塊鏈+政務服務”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

3C消費

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計算學術年會

返回主頁 ┊ 關于我們 ┊ 內容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

微軟研究團隊分享：增加面部landmark數(shù)量實現(xiàn)更精確3D面部重建

擴展閱讀