合合信息:破解大模型語料庫難題的引領(lǐng)者核聚變2024北京站高能開幕,ROG電競顯示器強(qiáng)勢助力游戲狂歡華為企業(yè)客戶支持圓桌會議成功舉辦,共筑ICT基礎(chǔ)設(shè)施維護(hù)新未來66元搶爆款A(yù)R眼鏡!京東AR眼鏡超級新品日30天無憂適用等你來攜手共進(jìn),智啟未來 —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實(shí)驗合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預(yù)售中國品牌,讓東南亞感受“消費(fèi)升級”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    無人車的眼睛、UP主的生產(chǎn)力工具,都藏在百度CVPR的這十個冠軍里

    2021年07月06日 18:58:57   來源:中文科技資訊

      CVPR 上誕生的技術(shù)正在逐漸「出圈」。

      啤酒、燒烤、歐洲杯是很多球迷今年夏天的消暑利器。但你可能想不到的是,那些精彩的進(jìn)球集錦、球星慢動作回放說不定是 AI 做的。

      在今年的 CVPR 大會上,百度向我們確認(rèn)了這一點(diǎn)。

      他們的 AI 可以在無人工介入的條件下,精準(zhǔn)、實(shí)時地切分出進(jìn)球、射門、犯規(guī)等動作片段;诖隧椖芰Γ瑘F(tuán)隊開發(fā)出了一系列應(yīng)用工具并成功落地,包括:

      1. 自定義足球精彩集錦生成工具。只需輸入球員并選定比賽場次,AI 就能自動生成這個球員的精彩瞬間視頻集錦以及慢動作回放。相關(guān)產(chǎn)品已經(jīng)在百度百科 400 多個足球球員和球隊頁面落地。

    微信圖片_20210702173342

      2. 足球圖文戰(zhàn)報一鍵轉(zhuǎn)換視頻平臺。只需要輸入文字直播內(nèi)容或者直播間地址,AI 就能智能聚合生成對應(yīng)的視頻內(nèi)容。

    微信圖片_20210702173345

      3. 基于圖像場景識別的智能視頻生產(chǎn)線。該生產(chǎn)線可以快速理解上傳的長視頻,檢測是否有進(jìn)球、精準(zhǔn)定位視頻中的進(jìn)球瞬間,并完成自動剪輯。

    微信圖片_20210702173348

      最近,這些技術(shù)還幫他們拿到了一個重量級賽事的雙料冠軍。

      在剛剛閉幕的 CVPR 2021 大會上,百度取得了 SoccerNet-v2 足球視頻理解競賽的全部兩項任務(wù)的冠軍,這是全球首個以足球比賽視頻的全方位理解為目標(biāo)的競賽。

      而且,這還只是百度今年 CVPR 成績單的一部分。

      作為「中國軍團(tuán)」多年出征 AI 頂會的一員「老兵」,百度在今年的 CVPR 上再次創(chuàng)下新紀(jì)錄:不僅入選了 22 篇優(yōu)質(zhì)論文,還連獲 10 個挑戰(zhàn)賽冠軍,在去年 8 個冠軍基礎(chǔ)上實(shí)現(xiàn)新突破

      此外,百度還主辦了一場重量級學(xué)術(shù) Workshop 和一場 Tutorial,并受邀在大會上做同聲傳譯特邀報告和 PaddleCV 技術(shù)分享演講

      這種全方位的發(fā)聲方式不僅讓我們看到了百度在 CV 領(lǐng)域的研究、落地成果,還展示了該公司在 NLP、AutoDL 等領(lǐng)域的前沿探索以及多個領(lǐng)域的融合創(chuàng)新。

      在這篇文章中,我們就來盤點(diǎn)一下這些內(nèi)容。

      十項 CV 冠軍,聚焦自動駕駛、智能交通、智慧城市、智能創(chuàng)作等多個賽道

      CVPR 2021 覆蓋了計算機(jī)視覺多個細(xì)分領(lǐng)域,百度此次參與并獲得了七項挑戰(zhàn)賽的十個冠軍。其中,六項冠軍成果可加速自動駕駛、智能交通、智慧城市等落地和應(yīng)用,部分成果可助力智能創(chuàng)作工具的打造。

    微信圖片_20210702174512

      六項冠軍助力自動駕駛、智能交通、智慧城市應(yīng)用落地

    微信圖片_20210702174516

      對于百度來說,自動駕駛可以說是 CVPR 舞臺上的一項「傳統(tǒng)藝能」了。早在 2018 年,百度 Apollo 就占據(jù)了 CVPR 自動駕駛的主場;2019 年,Apollo 又在 CVPR 上公開了國內(nèi)唯一的自動駕駛純視覺城市道路閉環(huán)解決方案——Apollo Lite。這些高光時刻在今年的多項競賽中得到了延續(xù)。

      在今年取得的十項冠軍中,「語義分割、高分辨率人體解析、霧天環(huán)境檢測」賽道的三項冠軍或?qū)Π俣葟?qiáng)化自動駕駛能力有直接的助力。

      以 AutoNUE 2021 挑戰(zhàn)賽的語義分割賽道為例,該賽道聚焦街景圖像的語義分割。與普通語義分割數(shù)據(jù)集不同,街景數(shù)據(jù)集物體更多,場景更為復(fù)雜。針對該賽道的問題,百度提出了基于 CNN 和 Transformer 的融合算法策略,通過異構(gòu)模型互補(bǔ)方式,實(shí)現(xiàn)了駕駛場景特征的更強(qiáng)表達(dá)能力,從而提升了分割性能。針對密集目標(biāo),百度提出了區(qū)域遞進(jìn)算法,將稠密任務(wù)切分為若干稀疏子任務(wù),降低了模型復(fù)雜度,加速了模型收斂,提升了測試精度。最終,百度以三項測評指標(biāo)均第一的優(yōu)勢超越其他參賽機(jī)構(gòu)獲得冠軍。比賽代碼也計劃不久后開源:https://github.com/PaddlePaddle/PaddleSeg

    微信圖片_20210702173530

      除了復(fù)雜的街景,霧霾等極端天氣也是阻礙自動駕駛落地的一大難題。本屆 CVPR 就有一個專門針對霧霾天氣的檢測競賽——UG2+ (SEMI-)SUPERVISED OBJECT DETECTION IN HAZE CONDITIONS。

      在這場競賽中,百度使用最新的 Swin Transformer 模型配合 cascade-rcnn 結(jié)構(gòu)作為基礎(chǔ)模型并針對任務(wù)特點(diǎn)優(yōu)化了 anchor 選擇以提高模型的識別能力,同時使用去霧和非去霧的數(shù)據(jù)組合進(jìn)行訓(xùn)練,提升了模型的泛化性能。另外,針對樣本不平衡問題,團(tuán)隊使用了基于樣本分布的采樣平衡方法,有效提升了模型性能。

    微信圖片_20210702173558

      上述競賽展現(xiàn)的技術(shù)能力或已逐漸在百度自動駕駛落地過程中得以展現(xiàn)。目前,在早晚高峰交通流密集路口左轉(zhuǎn)禮讓行人,車輛視覺盲區(qū)突然竄出行人、車輛等一系列長尾場景中,百度 Apollo 自動駕駛車均能進(jìn)行良好處置。4 月 13 日,百度 Apollo 拿到了北京市頒發(fā)的中國首批夜間及特殊天氣測試資質(zhì),機(jī)器之心也在上個月冒雨體驗了一次 Apollo GO 自動駕駛車的夜間試乘。

      Apollo 車輛平緩?fù)ㄟ^車流密集的路口。

      除了自動駕駛,百度在智能交通、智慧城市方向的技術(shù)進(jìn)展更多地在第五屆 AI CITY 智慧城市挑戰(zhàn)賽中得以展現(xiàn)。AI CITY 聚焦交通相關(guān)的車流統(tǒng)計、再識別、異常事件分析等應(yīng)用場景,一共 5 個賽道,是百度多次奪冠的「自留地」,今年百度也在車流統(tǒng)計、異常事件檢測兩個賽道拿到冠軍。

      在車流統(tǒng)計任務(wù)中,比賽要求在端上設(shè)備上實(shí)現(xiàn)整體技術(shù)方案,并對端上的速度與效果指標(biāo)進(jìn)行綜合打分。百度基于復(fù)雜場景下路口車輛多目標(biāo)檢測、跟蹤技術(shù),實(shí)現(xiàn)了分車道的車流統(tǒng)計,并通過模型小型化以及流水線并行化處理流程,實(shí)現(xiàn)了性能 + 效果綜合提升,最終取得冠軍。

    微信圖片_20210702173833

      在異常事件檢測賽道中,百度使用雙向多粒度融合的異常檢測算法,配合視頻穩(wěn)像、區(qū)域特取、背景建模等預(yù)處理,經(jīng)過車輛檢測及后續(xù)跟蹤判斷異常,并融合撞車判斷邏輯找到準(zhǔn)確的異常開始時間,最終取得第一。

    微信圖片_20210702173844

      百度表示,此次獲得 AI CITY 挑戰(zhàn)賽冠軍的技術(shù)已應(yīng)用于百度自研的智能交通和智慧城市系統(tǒng)中,系統(tǒng)整合了檢測、跟蹤、3D 定位、分割、身份重識別、事件分析在內(nèi)的多項視覺技術(shù),是保障業(yè)務(wù)落地的堅實(shí)基礎(chǔ)。

      SoccerNet-v2 挑戰(zhàn)賽冠軍支持足球視頻創(chuàng)作

      前段時間,百度智能云曾攜云智一體的智能媒體產(chǎn)品和方案亮相第 28 屆中國國際廣播電視信息網(wǎng)絡(luò)展覽會(CCBN 2021),展現(xiàn)了一站式智能創(chuàng)作平臺等媒體智能化解決方案和創(chuàng)新應(yīng)用。百度的智能創(chuàng)作平臺基于自然語言處理、知識圖譜、視覺、語音的整合技術(shù)能力,為創(chuàng)作者提供多項能力,助力新聞資訊生產(chǎn)的策、采、編、審、發(fā)全流程。在今年 CVPR 的 SoccerNet-v2 足球視頻理解競賽上,該平臺的相關(guān)技術(shù)再次亮相。

      SoccerNet-v2 下設(shè)事件定位(action spotting)和回放溯源(replay grounding)兩個任務(wù)。事件定位的難點(diǎn)在于有些事件難以分辨(如犯規(guī)、越位、射正、射偏),還有一部分事件并未被直接拍攝到,需要根據(jù)上下文來推測;胤潘菰吹碾y點(diǎn)則在于回放和原始事件之間可能會相隔長達(dá)上百秒,拍攝視角也經(jīng)常不同,因此不容易匹配。

      為了解決這些難題,百度研究院圖文轉(zhuǎn)視頻 VidPress 團(tuán)隊設(shè)計了一個兩階段的系統(tǒng):首先讓特征提取器提取足球視頻特征,再將提取出的特征作為第二階段具體任務(wù)模塊的輸入,進(jìn)行事件定位或者回放溯源。其中,事件定位和回放溯源階段采用了 Transformer 架構(gòu)。該架構(gòu)在兩個任務(wù)中體現(xiàn)了對視覺語義特征的精確的時序處理能力,優(yōu)于基線算法中 Siamese 網(wǎng)絡(luò)的學(xué)習(xí)能力和訓(xùn)練速度。

    微信圖片_20210702173931

      基于 SoccerNet-v2 挑戰(zhàn)賽拿下雙料冠軍的 AI 技術(shù)能力,百度已支持開頭提到的自定義足球精彩集錦生成、足球圖文戰(zhàn)報一鍵轉(zhuǎn)換視頻等應(yīng)用工具。這項技術(shù)能力也已基于智能創(chuàng)作平臺進(jìn)行落地。

      PaddleCV:優(yōu)秀方案都到碗里來

      作為中國人工智能的「頭雁」,百度的計算機(jī)視覺方向技術(shù)研究早在十一年前成立多媒體部時就已經(jīng)開始了。這幫助百度積累了全方位的技術(shù)能力,也為飛槳視覺模型庫 PaddleCV 提供了強(qiáng)大的核心動力。

      PaddleCV 中,既包含經(jīng)過產(chǎn)業(yè)實(shí)踐長期打磨的主流模型,也包含百度在國際競賽中的奪冠模型。在 CVPR 2021 的一場技術(shù)分享中,百度資深算法工程師為參會者詳細(xì)分享了 PaddleCV 的技術(shù)報告。PaddleCV 作為飛槳重點(diǎn)研發(fā)的視覺模型庫,為開發(fā)者提供了面向圖像分類(PaddleClas)、目標(biāo)檢測(PaddleDetection)、圖像分割(PaddleSeg)、文本識別(PaddleOCR)、圖像生成(PaddleGAN)等視覺場景的多種端到端開發(fā)套件和海量視覺方向模型,其中 PaddleOCR 和 PaddleDetection 開發(fā)套件更是在能源、金融、工業(yè)、農(nóng)業(yè)能眾多領(lǐng)域被企業(yè)廣泛使用。本屆 CVPR 各項比賽結(jié)束后,部分成果也將在 PaddleCV 中開源。

    微信圖片_20210702174817

      飛槳全景圖與 PaddleCV

      演講、Workshop、Tutorial,全方位展示 AI 前沿探索

      作為計算機(jī)視覺和模式識別領(lǐng)域的世界級學(xué)術(shù)頂會,CVPR 不僅是業(yè)界展示領(lǐng)先科技成果的平臺,也是探索學(xué)術(shù)前沿的平臺。在 CVPR 舉辦的同時,百度不僅積極參與了各項競賽,還主辦了一場重量級學(xué)術(shù) Workshop 和一場 Tutorial,并受邀在大會上做同聲傳譯特邀報告。

      Workshop 的主題是 AutoDL 的核心方向——NAS(神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索)。在之前的 WAVE SUMMIT 2019 深度學(xué)習(xí)開發(fā)者峰會上,百度曾為在內(nèi)存緊張、功耗受限、存儲有限的設(shè)備上進(jìn)行深度學(xué)習(xí)研究的開發(fā)者提供了一份重磅驚喜——一個名為 PaddleSlim 的開源模型壓縮工具庫。除了支持傳統(tǒng)的網(wǎng)絡(luò)剪枝、參數(shù)量化和知識蒸餾等方法外,PaddleSlim 還可以通過 NAS + 蒸餾 + 量化一站式模型壓縮產(chǎn)出業(yè)界領(lǐng)先的小模型。這些創(chuàng)新方法囊括了很多百度自研的 NAS 算法。借助這些方法,百度視覺團(tuán)隊近兩年先后七次在 CVPR 與 ECCV 等國際比賽中奪得世界冠軍,并全線應(yīng)用在各條業(yè)務(wù)上。這體現(xiàn)了 NAS 這一方向的研究價值。

      為了推動 NAS 的進(jìn)一步發(fā)展,百度聯(lián)合悉尼科技大學(xué)和美國北卡羅來大學(xué)舉辦了 CVPR 2021 NAS workshop,還舉辦了首屆輕量級 NAS 國際競賽,探討了 NAS 的現(xiàn)狀和未來。大賽從 NAS 研究的關(guān)鍵問題出發(fā),設(shè)置了超網(wǎng)絡(luò)一致性、模型性能預(yù)測、未知數(shù)據(jù)三大賽道,吸引了全球 59 個國家和地區(qū)、超過 600 支隊伍在 AI Studio 上參賽。比賽征集到眾多優(yōu)質(zhì)的 NAS 解決方案,其中,清華大學(xué)基于飛槳的方案已在 AI Studio 和 GitHub 平臺開源。本次 workshop 不僅有獲勝隊伍宣講技術(shù)方案,還邀請了馬毅、紀(jì)榮嶸、黃高、徐暢、Alan Yullie 和 Sara Sabour 等國內(nèi)外著名學(xué)者進(jìn)行演講,分享了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù)(NAS)領(lǐng)域最新進(jìn)展和未來動向。

    微信圖片_20210702174139

      來自百度的 CVPR 2021 NAS workshop 主席開場致辭

      Tutorial 的主題是「基于能量的生成模型的理論與應(yīng)用」。提到生成式建模,我們總是第一時間想到生成對抗網(wǎng)絡(luò)。但近年來,人們對 ConvNet-parametrized EBM(基于能量的生成模型)越來越感興趣。該框架解決了生成模型在表示、生成、效率和可伸縮性方面的需求。具體來說,與當(dāng)前流行的生成模型(如生成對抗網(wǎng)絡(luò)、變分自動編碼器)不同,基于能量的生成模型可以將自下而上的表示和自上而下的生成統(tǒng)一為一個框架,并可以通過「analysis by synthesis」進(jìn)行訓(xùn)練,不需要引入額外的輔助模型。這使得其在算法上更容易直接優(yōu)化。在這些優(yōu)勢的加持下,該框架已被應(yīng)用于許多計算機(jī)視覺任務(wù)中。

      這場 Tutorial 由百度美國研究院認(rèn)知計算實(shí)驗室主辦,并邀請加州大學(xué)洛杉磯分校統(tǒng)計學(xué)系教授 Ying Nian Wu 共同主講,全面介紹了計算機(jī)視覺中基于能量的生成式建模和學(xué)習(xí),還列出了基于能量的生成框架所成功解決的不同類型的計算機(jī)視覺任務(wù),旨在幫助研究人員將基于能量的學(xué)習(xí)原理應(yīng)用于計算機(jī)視覺的其他環(huán)境。

    微信圖片_20210702174156

      Tutorial 目錄。地址:https://energy-based-models.github.io/

      同聲傳譯特邀報告的主講人是百度美國研究院深度學(xué)習(xí)實(shí)驗室主任黃亮。報告的內(nèi)容來源于他在 ACL 2019 大會上作的同名主題報告,其核心是百度研究院在 2018 年取得的同聲傳譯重大突破。這個突破使得低延遲、高質(zhì)量的同傳第一次成為可能,并將同傳從一個冷門難題變成了自然語言處理中的一大熱門課題。在這次的演講中,黃亮教授介紹了他所在的團(tuán)隊在此基礎(chǔ)上取得的新的進(jìn)展。

    微信圖片_20210702174227

      演講地址:https://www.youtube.com/watch?v=QojanA1pZ1o

      如今,CVPR 2021 已經(jīng)正式落下帷幕,會議中誕生的 idea 也在陸續(xù)走進(jìn)現(xiàn)實(shí)世界。百度表示,在修煉好 AI 技術(shù)「內(nèi)功」的同時,他們將通過搭建起的飛槳和智能云為代表的 AI 平臺不斷向各行業(yè)場景輸出技術(shù)能力與解決方案,進(jìn)一步推動產(chǎn)業(yè)智能化升級發(fā)展,在中國乃至全球 AI 領(lǐng)域持續(xù)領(lǐng)跑。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    [No. S049]
    分享到微信

    即時

    TCL實(shí)業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。