• 首頁 > 企業(yè)IT頻道 > ARVRMR

    微軟研究團隊分享:增加面部landmark數(shù)量實現(xiàn)更精確3D面部重建

    2022年10月26日 14:23:26   來源:映維網(wǎng)

      計算機視覺是計算機科學中最引人注目的領域之一。它的發(fā)展速度非常迅速,并且有望顯著影響人們的生活和工作方式。近年來,機器學習和計算機視覺的融合交叉進展正在加速,并為眾多領域帶來了重大進展,包括醫(yī)療保健、機器人、汽車工業(yè)和增強現(xiàn)實。

      為了幫助人們實現(xiàn)更多目標,微軟研究人員一直在與所述領域的學者和專家合作,共同開展一系列的計算機視覺項目。一個例子是PeopleLens。這款以HoloLens作為靈感的頭戴式設備可以通過空間化音頻識別周圍的人員,從而幫助失明人士或視力低下人士在社交場合進行互動。另一個例子是Swin Transformer。這個計算機視覺架構在目標檢測中實現(xiàn)了高精度,并提供了將計算機視覺和自然語言處理(NLP)架構統(tǒng)一的機遇。

      在日前舉行的2022年歐洲計算機視覺大會(ECCV),微軟介紹了團隊在計算機領域的最新成果。下面將重點與混合現(xiàn)實相關的兩份研究論文。第一篇是通過增加面部landmark的數(shù)量來實現(xiàn)更精確的3D面部重建,在降低所需計算能力的同時獲得最先進的結果。另一篇主要涉及一個利用AR設備對真實世界進行視覺定位和映射的數(shù)據(jù)集。以下是第一篇“3D face reconstruction with dense landmarks”的分享。

      1. 方法介紹

      Landmark通常在人臉分析中起著關鍵作用,但關于身份或表情的眾多方面無法僅用稀疏Landmark來進行表示。為了更精確地重建人臉,行業(yè)通常將Landmark與深度圖像等附加信號或微分渲染等技術相結合。

      通常,從業(yè)者用來訓練ML模型的公共數(shù)據(jù)集包含68個面部Landmark的注釋。然而,人臉并不能僅用68個Landmark來精確地表示,需要額外的方法來補充Landmark檢測,而這增加了訓練工作的復雜性,并增加了所需的計算能力。

      所以,研究人員好奇的一個問題是:為了進一步簡化流程和優(yōu)化資源利用,是否可以單純依靠(密集)Landmark來實現(xiàn)逼真的人臉重建呢?

      為了實現(xiàn)準確的3D人臉重建,微軟提出了自己的解決方案:單純依靠密集Landmark來實現(xiàn)逼真人臉重建。其中,團隊表示相關方法可以準確預測十倍于平常的Landmark,覆蓋整個頭部,包括眼睛和牙齒。

      正如前面所述,微軟表示他們的方法可以準確預測十倍于平常的Landmark,覆蓋整個頭部,包括眼睛和牙齒,如圖1所示。簡單來說,這是通過使用合成訓練數(shù)據(jù)來實現(xiàn),從而保證了完美的Landmark標注。

      概括而言,團隊的方法主要包括兩步:首先預測概率密集Landmark L,每個Landmark都具有位置µ和確定性σ。 然后,研究人員將3D人臉模型擬合到L,通過優(yōu)化模型參數(shù)Φ最小化能量E

      值得注意的是,盡管人類可能會始終使用68個Landmark標記圖像,但手動使用密集Landmark標注圖像是不可能的。為了保證完美的Landmark標注,微軟使用人臉合成系統(tǒng)渲染了100000張合成訓練圖像。團隊指出,沒有合成數(shù)據(jù)提供的完美注釋,密集地標預測是不可能的。

      通過將可變形模型擬合到密集Landmark,研究人員實現(xiàn)了自然場景下最先進的單目3D人臉重建結果。通過在單目和多視圖場景中展示準確和富有表現(xiàn)力的面部表現(xiàn)捕捉,團隊表明密集的Landmark是跨幀整合面部形狀信息的理想信號。實驗比較證明了所述方法的高效性:可以預測密集Landmark,并在單個CPU線程以超過150FPS的速度擬合3D人臉模型。

      2. 使用合成數(shù)據(jù)提高隱私、公平和效率

      在計算機視覺領域,尤其是人臉重建領域,在訓練ML模型時對匿名性的擔憂可以理解,因為訓練數(shù)據(jù)通常來自真人。微軟提出的方法顯著減少了隱私問題,因為它只使用合成數(shù)據(jù)來訓練ML模型,不使用真人的圖像。換句話說,當建立合成數(shù)據(jù)管道時,微軟非常注重保護用戶的隱私,并且獲得了數(shù)百名被試的同意。團隊指出:“如果我們要使用真實數(shù)據(jù),這是必要的環(huán)節(jié)。”

      使用合成數(shù)據(jù)有助于保護數(shù)據(jù)主體的隱私,以及攝影師和內容創(chuàng)作者的權利。微軟強調,他們都是以符合道德和負責任的方式來構建技術。另外,由于數(shù)據(jù)集中不包括用戶的私人信息,如果ML模型受到攻擊,只有合成數(shù)據(jù)會受到損害。

      合成數(shù)據(jù)同時為解決包容性和公平性問題提供了機會。這主要是因為數(shù)據(jù)的分布完全受控,ML從業(yè)者可以通過在數(shù)據(jù)集中包含不同的樣本來管理表示的公平性,并且所有需要這樣做的數(shù)據(jù)都會被完美地標記

      使用合成數(shù)據(jù)訓練ML模型同時存在其他優(yōu)點。例如,模型需要大量的數(shù)據(jù),而這給從業(yè)者獲取數(shù)據(jù)帶來了諸多困難,例如找到所需人數(shù)的后勤、在實驗室安排時間,以及設置多個攝像頭以捕捉人臉的不同角度。合成數(shù)據(jù)大大減少了所述方面的擔憂。

      另外,由于數(shù)據(jù)不需要來自真人,所以提高3D人臉重建質量的迭代速度非常高,從而創(chuàng)建了一個穩(wěn)健的工作流程。當使用合成數(shù)據(jù)時,沒有必要對每個Landmark的圖像應用QA過程,這是另一個節(jié)省成本和時間的優(yōu)勢。另一點是這增加了Landmark數(shù)據(jù)的精度、速度和成本效益。因為要求某人在一組圖像中一致地標記703個Landmark幾乎不可能實現(xiàn)。

      微軟總結道:“人臉分析是眾多ML系統(tǒng)的基礎,例如人臉識別和控制Avatar。使用一種既能提供精度和效率,又能解決隱私和公平問題的方法打破了現(xiàn)有技術的界限。使用密集Landmark和合成數(shù)據(jù)實現(xiàn)3D人臉重建的能力有可能真正改變ML。”

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。