2018 全球人工智能與機(jī)器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機(jī)學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實力的跨界交流合作平臺。
6月30日,2018 全球人工智能與機(jī)器人峰會(CCF-GAIR)繼續(xù)進(jìn)行。在上午的計算機(jī)視覺專場中,臻識科技聯(lián)合創(chuàng)始人兼CEO任鵬發(fā)展了主題為《邊緣計算賦能智慧城市》的主題演講。
依托自身在嵌入式成像系統(tǒng)設(shè)計技術(shù)上的優(yōu)勢經(jīng)驗以及多年在AI算法的耕耘積累,通過邊緣計算技術(shù)的產(chǎn)品轉(zhuǎn)化(智能相機(jī)),臻識科技致力于為智慧城市體系中的各大垂直應(yīng)用領(lǐng)域:智能交通(ITS)、智能安防(IVS)、智慧商業(yè)、智能制造(FA)提供更加智能化的前端成像設(shè)備及解決方案。
在演講中,任鵬介紹了臻識科技的智能相機(jī)。什么是全智能相機(jī)?任鵬認(rèn)為,不同行業(yè)對于智能相機(jī)的要求多種多樣,滿足一個場景應(yīng)用感知需要的相機(jī)才是全智能的相機(jī)。為了能夠打造全智能相機(jī),這其中也會遇到很多的困難,任鵬概括為成像、算法、制造三大方面。
在成像方面,任鵬認(rèn)為,比較難的問題是智能相機(jī)的成像評測缺乏標(biāo)準(zhǔn),但是成像一定要滿足算法的需要,其次再來滿足人的感官需要。
在算法方面,臻識科技的做法是先明確需求,確定數(shù)據(jù)集、性能指標(biāo)、成本指標(biāo),同時進(jìn)行嵌入式平臺的方案選型和評估,接下來進(jìn)行PC的仿真、算法的實現(xiàn),最后是嵌入式平臺的移植優(yōu)化以及算法落地。
在制造方面,臻識科技通過視覺和控制的結(jié)合,用“智能”制造“智能相機(jī)”,F(xiàn)在,臻識科技的相機(jī)生產(chǎn)線上已經(jīng)實現(xiàn)部分自動化,任鵬表示,今后將會在這方面繼續(xù)投入精力。
以下為任鵬的現(xiàn)場演講文稿,
任鵬:大家上午好!今天主要跟大家探討我們在做一款智能相機(jī)的過程中碰到的困難以及嘗試。
我們的產(chǎn)品很簡單,就是智能相機(jī)。可能在座的都用過我們的產(chǎn)品。我們的產(chǎn)品雖然很小,但是分布在整個城市的各個區(qū)域,改善了人們停車的體驗,讓整個停車的過程變得更加便捷,這也符合智慧城市的理念,就是以人為本。
但是如何從一個概念變成落地的東西呢?這就需要感知能力的提升,這也就有了云計算和邊緣計算的概念。前端的智能相機(jī)是邊緣計算里面的一個重要存在。
什么才是智能相機(jī)呢?有一個提法是我們的相機(jī)在不同的場景里都可以用,在我們的理解里,這可能是理想的狀態(tài),它并不符合整個行業(yè)路徑發(fā)展的需要。
比如說在智能交通領(lǐng)域,停車場需要的相機(jī)是什么樣的?它可能需要對車輛身份接近99.9%的準(zhǔn)確度,因為它涉及到支付,所以對識別率的要求比較高,對車速限制比較高?ǹ趧t相反,對識別率的要求要低一點,而對車速限制比較低。對交通的流量控制、信號燈的規(guī)劃等等,這些領(lǐng)域?qū)囕v的識別又有另外的需求。所以單從交通領(lǐng)域,它就已經(jīng)細(xì)分出很多場景。
再比如說安防領(lǐng)域,像平安城市、雪亮工程、社區(qū)樓宇、工地、校園、醫(yī)院等等場景,其實每一個場景對于相機(jī)的需求是不一樣的。所以我們的定義里面,滿足一個場景應(yīng)用感知需要的相機(jī)才是全智能的相機(jī),這里的感知主要描述的是它能去達(dá)到或者超越人的需求。
這里有一個金字塔的描述,最底層是像素,中間層是對象,再上一層是行為。
目前在智慧城市領(lǐng)域,大部分的應(yīng)用都還停留在中間這一層,就是對象層,而且很多場景里面底層的應(yīng)用(像素層)問題都還沒有完全解決。以前面幾位嘉賓舉的例子來說,比如說一個人臉前端抓拍、云端識別的應(yīng)用,如果我們前端抓到了人臉,它是不清楚的、模糊的,其實對這個系統(tǒng)的識別是非常有壓力的。比如說有的應(yīng)用是前端的人臉識別,云端根據(jù)識別的結(jié)果再來做決策,如果前端的識別老是出問題、有誤報,也會影響整個智慧城市運(yùn)作的效率以及決策的準(zhǔn)確度。
當(dāng)然要實現(xiàn)這樣一個全智能的相機(jī)有很多難點,從我們的經(jīng)驗出發(fā),從下面三個點展開:成像、算法、制造。
成像方面,比較難的問題是智能相機(jī)的成像評測是沒有標(biāo)準(zhǔn)的,如果有標(biāo)準(zhǔn)的話,大家工作的方式就是朝這個標(biāo)準(zhǔn)努力,比如說手機(jī)相機(jī)有一些專業(yè)的評測機(jī)構(gòu)定下了一些標(biāo)準(zhǔn),安防相機(jī)也會有一些指標(biāo),比如說解析度、灰階、白平衡等等。但是智能相機(jī)的標(biāo)準(zhǔn)是什么呢?我們的成像什么樣才算好的?最后我們定出了一個標(biāo)準(zhǔn),首先我的成像要滿足算法的需要,其次再來滿足人的感官需要。這是一個很主觀的概念。
在做一款相機(jī)的時候,我們先要解決它的硬件、結(jié)構(gòu)、熱設(shè)計、光學(xué)等等問題,當(dāng)解決完這些之后,相機(jī)的ISP是一個核心的問題,普通場景的ISP的核心是拍照或者攝影時,感知這個場景是什么就可以了,包括最近有一些手機(jī)廠家,他們的相機(jī)里加入了一些場景的識別功能。目的就是識別場景之后,能選擇一組更適合這個場景的ISP參數(shù),然后讓成像更好。
但是智能相機(jī)的目的是把這個場景里我所有關(guān)注的物體拍清楚,它基于的東西就是物體,所以智能相機(jī)的ISP的核心是基于物體的感知。這又變成了一個是先有雞還是先有蛋的問題。一個場景里只有一個物體還好,但如果有多個物體,對當(dāng)前很多ISP的架構(gòu)設(shè)計是需要有顛覆性的。
在安防場景下,很多應(yīng)用需要低快門的實現(xiàn),因為有運(yùn)動模糊的出現(xiàn),我們要拍出更清晰的目標(biāo),所以我們的快門限得比較低,很多時候會限定在5毫秒以下,有的場景甚至?xí)捎萌挚扉T的相機(jī)。在這種場景下,我們還要面對場景照度比較低,反差的場景比較大。其實這是很困難的,比如說我站在這里,我看門口,因為有強(qiáng)光打著我,其實我是看不到外面的情況,在相機(jī)上也是一樣。
所以我們現(xiàn)在解決這些問題的時候更多地是采用場景的細(xì)分、物體的識別,然后再通過經(jīng)驗上的東西指導(dǎo)ISP的設(shè)計,以達(dá)到理想的效果,這也是一個階段性平衡的效果。
上面一排是同一個場景,不同的相機(jī)不同的ISP調(diào)整出來的效果,下面這個是一個寬動態(tài)的場景抓拍的效果,這兩個場景快門都是在5毫秒以下,其實是很有挑戰(zhàn)的。
這是一個人臉抓拍的場景,人臉抓拍識別的難度是很大的。當(dāng)然剛才曠視和云從都講到了,他們的識別算法很厲害,但是對這種只有20到30像素,不同的光照下、不同姿態(tài)的識別是非常有挑戰(zhàn)的,整個系統(tǒng)的識別率其實并不高。這還是在白天,到了晚上,對這個場景的要求會更高一些。
如果我們的人臉抓拍的相機(jī)抓拍到的人臉圖片都像一寸標(biāo)準(zhǔn)證件照的圖片,其實這個識別問題會變得比較簡單。
這上面兩幅圖,大家感覺哪幅圖會好識別一些?可能大家認(rèn)為是左邊的圖好識一些,確實也是這樣,左邊的圖是我們產(chǎn)品的效果,通過我們的努力,我們在很多場景里面,通過我們相機(jī)抓拍的圖片,直接把人臉識別系統(tǒng)的識別率提升了5%到10%。當(dāng)然我們的相機(jī)也是全幀率、全畫幅。
講完了成像,再講講算法。算法不是面對所有場景的不同算法,我今天講的主要是在嵌入式設(shè)備上,智能相機(jī)的開發(fā)過程中算法要解決的一些問題。
首先是一個基本流程,我們在做智能相機(jī)的時候,首先會明確需求,確定數(shù)據(jù)集、性能指標(biāo)、成本指標(biāo),同時我們會做嵌入式平臺的方案選型和評估,接下來我們會做PC的仿真、算法的實現(xiàn),最后才是做嵌入式平臺的移植優(yōu)化以及算法落地,基本上都是這樣的套路。
難點有很多,首先是數(shù)據(jù),數(shù)據(jù)上面我們吃過的虧比較多。舉個例子,當(dāng)時我們在一款相機(jī)產(chǎn)品升級換代的時候,因為傳感器停產(chǎn)了,我們進(jìn)行了升級,傳感器的變更造成了ISP的變更,最后造成成像風(fēng)格的變化,最后造成整個系統(tǒng)識別率的下降,其實這也可以理解為是網(wǎng)絡(luò)過擬合造成的問題。
數(shù)據(jù)的多樣性、均衡性以及適應(yīng)場景的能力,以及它和硬件本身傳感器成像的關(guān)聯(lián)都是非常關(guān)鍵的。我們也提出一個論斷,一個公司本身的數(shù)據(jù)管理水平直接反映了算法水平,也反映了對場景的理解水平。
比如說像學(xué)術(shù)界的一些測試,數(shù)據(jù)集是定義清楚的,做起來比較容易,但是現(xiàn)實場景里面數(shù)據(jù)集是不確定的,在項目實施過程中它是在不斷變化的,因此也提出了更高的要求。
第二件事是方案選型。我們團(tuán)隊評測了市面上大概80%的芯片方案,我們對芯片方案的定義做了兩個界定:
一個是要滿足5瓦以下的功耗,功耗太高了不行,它對整個系統(tǒng)的熱設(shè)計有很大的挑戰(zhàn)。
第二,我們做的是實時的業(yè)務(wù)。今年市面上主流的芯片方案的算力大概是50到150GFLOPS,到明年我們預(yù)估這個指標(biāo)會達(dá)到200到500G。這和很多芯片廠家宣傳的不太一樣的,我們的研發(fā)同事也投訴的會比較多一些,因為芯片廠家宣傳芯片算力很強(qiáng),但是實際拿過來測試,發(fā)現(xiàn)效果并不令人滿意,這里面確實存在很多問題。
我們在做嵌入式落地的時候常用的套路,當(dāng)一個算法實現(xiàn)之后,我們要做上板的優(yōu)化,一般會先做算法的近似,然后做指令集的優(yōu)化,內(nèi)存、緩存的優(yōu)化等等。但是在深度學(xué)習(xí)這個領(lǐng)域,內(nèi)存的帶寬瓶頸是一個非常大的問題,如果沒有革命性的突破,芯片的發(fā)展還是符合一個摩爾定律規(guī)律的,能力不會一年翻10倍、20倍。
芯片廠家其實很難跟上算法廠家的節(jié)奏,比如算法廠家在做算法的時候,可能每個月算法都有一些變化,都有一些革新和嘗試,但是芯片是很難的,生產(chǎn)一個芯片的周期到正式量產(chǎn)、成熟的產(chǎn)品化可能需要一年的時間,周期是很長的,所以這是一個長期的瓶頸。
一個產(chǎn)品需要滿足行業(yè)普世的需要,它不會專門為你這個產(chǎn)品來做,所以很多獨特的網(wǎng)絡(luò)結(jié)構(gòu)上專門做優(yōu)化,它的性能會提升很多,這種性能提升可能在50%甚至到100%,但是在當(dāng)前的芯片上要實現(xiàn)這種靈活性的適應(yīng)是很難的。
有的提法是說數(shù)據(jù)越來越多,芯片的算力越來越強(qiáng),是不是產(chǎn)品做起來就越來越容易了?我們的判斷不是這樣。比如說當(dāng)我們的產(chǎn)品在一個場景落地之后,客戶的需求是在不斷升華、不斷細(xì)化的,當(dāng)然這也比較符合人性。在很長的一段時間內(nèi),算力還是不能滿足需求的增長。所以我們就會關(guān)注網(wǎng)絡(luò),當(dāng)然這里我不具體討論網(wǎng)絡(luò)的結(jié)構(gòu),我只提我們在做這種嵌入式產(chǎn)品時,對網(wǎng)絡(luò)的理解。
因為算力不夠,在有限的性能下,我們的假定有兩點:一是更好地學(xué)習(xí)和充分挖掘性能特征,并且在一個產(chǎn)品上,我們對這些特征在不同的環(huán)節(jié)更好地復(fù)用,可以大大降低計算的復(fù)雜度;二是非端到端的架構(gòu),在產(chǎn)品里面我們對每一步、每一個環(huán)節(jié)是可控的,在這個可控的基礎(chǔ)上一步步優(yōu)化和挖掘網(wǎng)絡(luò)性能的邊界。這是在算法上我們的一些嘗試和心得。
第三是如何制造。我們光把這個東西設(shè)計出來不行,我們還得把它造出來。
供應(yīng)鏈?zhǔn)且粋比較頭疼的問題,原來我們沒有進(jìn)行制造,做了之后我們也能深刻理解現(xiàn)在很多手機(jī)廠家所謂的饑餓營銷,其實也是身不由己。當(dāng)解決了一些供應(yīng)鏈的問題,然后就是如何把產(chǎn)品制造出來。
我們現(xiàn)在通過視覺和控制的結(jié)合,用“智能”制造“智能相機(jī)”。這是我們現(xiàn)在的相機(jī)生產(chǎn)線上的自動化流程,當(dāng)然整條流水線我們還沒有全部實現(xiàn)自動化,但是這是我們要努力的方向。
最后提一提未來的方向。
我們的判斷是,雙目的視覺會是一個非常重要的方向,這是我們2017年10月份安防展推出的一款用于停車停車場行業(yè)的“瞾”系列產(chǎn)品。這款產(chǎn)品的特點是將深度信息和物體的檢測結(jié)合,在停車場里達(dá)到了接近百分之百的車輛檢出率,這對行業(yè)是有顛覆意義的。
除了深度的應(yīng)用,當(dāng)前在安防上,我們也在嘗試通過多個傳感器的融合,來達(dá)到在很低照度下實現(xiàn)更好的成像效果,從而突破人的感知能力。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。