繼續(xù)見證5G+AI成長(zhǎng),進(jìn)博會(huì)全勤生高通確認(rèn)明年第八次參展來采銷直播間看京東11.11外設(shè)辦公總裁直播 11日14點(diǎn)準(zhǔn)時(shí)開播第七屆進(jìn)博會(huì)盤點(diǎn):高通攜手伙伴展示的驍龍8至尊版旗艦終端備受關(guān)注產(chǎn)業(yè)合作推動(dòng)AI發(fā)展 高通孟樸:攜手伙伴共抓5G+AI新機(jī)遇進(jìn)博會(huì)看技術(shù)變化,從5G手機(jī)到AI終端,高通技術(shù)支持行業(yè)拓展    高通獲頒“2024新消費(fèi)創(chuàng)新案例”,5G-A推動(dòng)數(shù)字消費(fèi)高質(zhì)量發(fā)展3G追趕,4G并行,5G趕超!高通孟樸進(jìn)博會(huì)談與中國伙伴合作歷程京東11.11巔峰28小時(shí)倒計(jì)時(shí) 爆款耳機(jī)音箱5折開搶手機(jī)內(nèi)卷下一站,AI Agent消息稱著名 AI 學(xué)者、天工智能首席科學(xué)家顏水成離開昆侖萬維昆侖萬維SkyReels AI短劇平臺(tái)將于12月10日在美國正式上線韓國今年進(jìn)口柴油車銷量預(yù)計(jì)跌破 1 萬輛,創(chuàng)近 17 年新低讓游戲黨一秒種草的大屏電視?海信這款百吋旗艦做到了!為用戶節(jié)省超120萬元 京東11.11攜手奔圖加速打印國產(chǎn)化進(jìn)程京東3C數(shù)碼“瘋狂星期一”驚喜放價(jià) TP-LINK攝像頭限時(shí)直降210元11月9日晚8點(diǎn)京東11.11火熱開啟!潮流配件9.9元起京東11.11最后一波Apple大放價(jià) iPhone 16 Pro系列持續(xù)加補(bǔ)1600元2024 ROG DAY狂歡啟航,ROG電競(jìng)顯示器助力三大戰(zhàn)車燃爆鄭州站!來京東11.11一次性搞定視頻、音頻等APP會(huì)員充值 省錢又省心歐萊雅中國"FUN YOUniverTH有意思青年"創(chuàng)變盛典耀動(dòng)進(jìn)博會(huì)
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    AI看圖猜位置,準(zhǔn)確率超90%!斯坦福最新PIGEON模型:40%預(yù)測(cè)誤差不到25公里

    2024年01月15日 10:17:24   來源:新智元

      隨手在網(wǎng)絡(luò)上發(fā)布的一張照片,能暴露多少信息?

      外國的一位博主@rainbolt就長(zhǎng)年接受這種「照片游戲」的挑戰(zhàn),網(wǎng)友提供照片,他來猜測(cè)照片的具體拍攝地,有些照片甚至還能猜到具體的航班細(xì)節(jié)。

      是不是細(xì)思極恐?

      但「照片挑戰(zhàn)」也同樣撫慰了很多人心中的遺憾,比如拿著一張父親年輕時(shí)候拍的照片,卻不知道在哪里,借助rainbolt和廣大網(wǎng)友的力量,最終完成了心愿。

      我花費(fèi)了6個(gè)月和300多個(gè)小時(shí)試圖找到一位粉絲父親生前照片的位置,但沒有結(jié)果,我放棄了;在發(fā)布到y(tǒng)outube上的一小時(shí)后,我們找到了。

      光是想想,就能知道「從照片猜位置」這個(gè)過程的艱辛和難度,其中涉及到大量的地理、歷史專業(yè)知識(shí),從路標(biāo)、交通方向、樹木種類、基礎(chǔ)設(shè)施等蛛絲馬跡中不斷找到真相。

      在計(jì)算機(jī)領(lǐng)域,這一任務(wù)也被稱為圖像地理定位(image geolocalization),目前大多數(shù)方法仍然是基于手工特征和檢索的方法,沒有使用Transformer等深度學(xué)習(xí)架構(gòu)。

      最近斯坦福大學(xué)的研究團(tuán)隊(duì)合作開發(fā)了一款A(yù)I工具PIGEON,將語義地理單元?jiǎng)?chuàng)建(semantic geocell creation)與標(biāo)簽平滑(label smoothing)相結(jié)合,對(duì)街景圖像進(jìn)行CLIP視覺轉(zhuǎn)換器的預(yù)訓(xùn)練,并使用ProtoNets在候選地理單元集上細(xì)化位置預(yù)測(cè)。

      論文鏈接:https://arxiv.org/abs/2307.05845

      PIGEON在「照片猜國家」的子任務(wù)上實(shí)現(xiàn)了91.96%的正確率,40.36%的猜測(cè)在距離目標(biāo)25公里以內(nèi),這也是過去五年來第一篇沒有軍事背景資助的、最先進(jìn)的圖像地理定位相關(guān)的論文。

      GeoGuessr是一個(gè)從街景圖像中猜測(cè)地理位置的游戲,全球擁有5000萬玩家,前面提到的rainbolt就是該游戲的忠實(shí)粉絲,也是公認(rèn)的最強(qiáng)玩家之一。

      而PIGEON模型在GeoGuessr中對(duì)人類玩家呈碾壓優(yōu)勢(shì),在六場(chǎng)比賽中連續(xù)擊敗rainbolt,全球排名前0.01%.

      PIGEON的進(jìn)步還啟發(fā)了開發(fā)人員創(chuàng)建另一個(gè)模型PIGEOTTO,使用Flickr和維基百科的400萬張圖像進(jìn)行訓(xùn)練,輸入任意圖像而非街景全景圖,就能定位出圖像的位置,功能更加強(qiáng)大。

      在此類任務(wù)的測(cè)試中,PIGEOTTO的性能最佳,將中位偏差降低了20%-50%,在城市粒度上的預(yù)測(cè)超過了之前的SOTA高達(dá)7.7個(gè)百分點(diǎn),在國家粒度上超過了38.8個(gè)百分點(diǎn)。

      2016 MediaEval數(shù)據(jù)集的樣本圖像用于訓(xùn)練PIGEOTTO

      從技術(shù)上來說,該工作的最重要的結(jié)果之一就是證明了預(yù)訓(xùn)練的CLIP模型StreetCLIP域泛化及其對(duì)分布變化的魯棒性,能夠以零樣本的方式將StreetCLIP應(yīng)用于分布外基準(zhǔn)數(shù)據(jù)集IM2GPS和IM2GPS3k,并取得了最先進(jìn)的結(jié)果,擊敗了在400多萬張分布內(nèi)(in-distributions)圖像上微調(diào)的模型。

      并且,實(shí)驗(yàn)結(jié)果也證明了對(duì)比預(yù)訓(xùn)練是一種有效的圖像地理定位元學(xué)習(xí)技術(shù),在StreetCLIP預(yù)訓(xùn)練中沒見過的國家預(yù)測(cè)上,準(zhǔn)確率比CLIP提高了10個(gè)百分點(diǎn)以上。

      由于圖像地理定位數(shù)據(jù)集在地理分布方面差異很大,結(jié)果也證明了將StreetCLIP應(yīng)用于任何地理定位和相關(guān)問題的有效性。

      由于這項(xiàng)技術(shù)目前仍然可以用于不良目的,所以開發(fā)人員決定暫時(shí)不公布模型權(quán)重。

      實(shí)驗(yàn)數(shù)據(jù)集

      雖然大多數(shù)圖像地理定位方法都依賴于公開的數(shù)據(jù)集,但目前還沒有公開的、全地球范圍下的街景(Street View)數(shù)據(jù)集。

      所以研究人員決定在原始數(shù)據(jù)集上創(chuàng)建,主動(dòng)聯(lián)系了Geoguessr的首席技術(shù)官Erland Ranvinge,獲得了該游戲中競(jìng)爭(zhēng)對(duì)決模式下使用的100萬個(gè)地點(diǎn)的數(shù)據(jù)集,再隨機(jī)采樣10%數(shù)據(jù)點(diǎn),對(duì)每個(gè)數(shù)據(jù)點(diǎn)下載4張圖片,最終獲得40萬張圖片。

      方法架構(gòu)

      1. Geocell Creation(地理單元生成)

      先前的研究嘗試過直接對(duì)輸入圖像來預(yù)測(cè)經(jīng)緯度,但結(jié)果證明無法取得sota性能,所以目前的方法大多依賴于生成geocells,把坐標(biāo)回歸問題離散化,再轉(zhuǎn)成分類問題,所以geocell的設(shè)計(jì)至關(guān)重要。

      這篇論文的一個(gè)創(chuàng)新點(diǎn)就是語義地理單元(semantic geocells),可以根據(jù)訓(xùn)練數(shù)據(jù)集樣本的地理分布自動(dòng)適應(yīng),因?yàn)閳D像中的視覺特征通常與國家(道路標(biāo)記)、地區(qū)(基礎(chǔ)設(shè)施質(zhì)量)或城市(街道標(biāo)志)有關(guān);并且國家或行政邊界往往遵循自然邊界,如河流或山脈的流動(dòng),這反過來又影響植被類型,土壤顏色等自然特征。

      研究人員設(shè)計(jì)的地理單元有三個(gè)級(jí)別:國家、admin 1、admin 2,從最細(xì)粒度級(jí)別(admin 2)開始,算法會(huì)逐步合并相鄰的admin 2級(jí)別多邊形,其中每個(gè)geocell包含至少30個(gè)訓(xùn)練樣本。

      2. 標(biāo)簽平滑(label smoothing)

      語義地理單元?jiǎng)?chuàng)建過程來離散化圖像地理定位問題,可以在粒度和預(yù)測(cè)準(zhǔn)確性之間尋求平衡:地理單元的粒度越大,預(yù)測(cè)就越精確,但由于基數(shù)(cardinality)更高,分類問題就會(huì)變得更加困難。

      為了解決這個(gè)問題,研究人員設(shè)計(jì)了一個(gè)損失函數(shù),基于預(yù)測(cè)的、到正確的地理單元之間的距離進(jìn)行懲罰,可以更高效地對(duì)模型進(jìn)行訓(xùn)練。

      使用兩點(diǎn)之間Haversine距離的一個(gè)優(yōu)勢(shì)是基于地球的球面幾何,能夠精確估計(jì)兩點(diǎn)之間的距離。

      3. Vision Transformer(CLIP)

      研究人員使用預(yù)訓(xùn)練的視覺Transformer,架構(gòu)為ViT-L/14,然后對(duì)預(yù)測(cè)header進(jìn)行了微調(diào),并且對(duì)最后一個(gè)視覺Transformer層進(jìn)行解凍。

      對(duì)于具有多個(gè)圖像輸入的模型版本,將四個(gè)圖像的embedding進(jìn)行平均;在實(shí)驗(yàn)中,平均embedding比通過多頭注意力或額外的Transformer層組合embedding表現(xiàn)得更好。

      基于先驗(yàn)知識(shí)和專業(yè)GeoGuessr玩家通常觀察到的策略,圖像定位任務(wù)有各種相關(guān)特征,例如,植被、道路標(biāo)記、路標(biāo)和建筑。

      多模態(tài)模型對(duì)圖像有更深語義理解的embedding,使其能夠?qū)W習(xí)這些特征,實(shí)驗(yàn)中也證明了,CLIP視覺Transformer比類似的ImageNet視覺Transformer有明顯的進(jìn)步,并且使用注意力map能夠以可解釋的方式展示模型學(xué)習(xí)到的策略。

      4. StreetCLIP對(duì)比預(yù)訓(xùn)練

      受CLIP對(duì)比預(yù)訓(xùn)練的啟發(fā),研究人員設(shè)計(jì)了一個(gè)對(duì)比預(yù)訓(xùn)練任務(wù),在學(xué)習(xí)geocell預(yù)測(cè)頭之前,也可以使用它來微調(diào)CLIP基礎(chǔ)模型。

      使用地理、人口統(tǒng)計(jì)和地質(zhì)輔助數(shù)據(jù)來增強(qiáng)街景數(shù)據(jù)集,使用基于規(guī)則的系統(tǒng)為每個(gè)圖像創(chuàng)建隨機(jī)描述,例如:

      地點(diǎn):南非東開普省地區(qū)的街景照片

      Location: A Street View photo in the region of Eastern Cape in South Africa.

      氣候:該地區(qū)為溫帶海洋性氣候。

      Climate: This location has a temperate oceanic climate.

      羅盤方向:這張照片是朝北的。

      Compass Direction: This photo is facing north.

      季節(jié):這張照片是在12月拍攝的。

      Season: This photo was taken in December.

      交通:在這個(gè)位置,人們?cè)诘缆返淖髠?cè)行駛。

      Traffic: In this location, people drive on the left side of the road.

      相當(dāng)于是一個(gè)隱式的多任務(wù),可以確保模型保持豐富的數(shù)據(jù)表示,同時(shí)調(diào)整街景圖像的分布并學(xué)習(xí)與地理位置相關(guān)的功能。

      5. 多任務(wù)學(xué)習(xí)

      研究人員還嘗試通過為輔助氣候變量、人口密度、海拔和一年中的月份(季節(jié))創(chuàng)建特定于任務(wù)的預(yù)測(cè)header來明確多任務(wù)設(shè)置。

      6. ProtoNet Refinement

      為了進(jìn)一步完善模型在geocell內(nèi)的猜測(cè)并提高街道和城市級(jí)別的性能,研究人員使用ProtoNets執(zhí)行g(shù)eocell內(nèi)的細(xì)化,將每個(gè)單元的單元內(nèi)細(xì)化作為一個(gè)單獨(dú)的few shot分類任務(wù)。

      再次使用OPTICS聚類算法,其中minsample參數(shù)為3,xi參數(shù)為0.15來聚類geocell內(nèi)的所有點(diǎn),從而提出在cell內(nèi)分類設(shè)置中學(xué)習(xí)的類別。

      每個(gè)聚類由至少三個(gè)訓(xùn)練樣本組成,形成一個(gè)原型,其表征通過對(duì)原型中所有圖像的embedding進(jìn)行平均來計(jì)算。

      大洛杉磯都市區(qū)的可視化ProtoNet集群

      為了計(jì)算原型embedding,使用與geocell預(yù)測(cè)任務(wù)相同的模型,但刪除預(yù)測(cè)header并凍結(jié)所有權(quán)重。

      在推理過程中,首先計(jì)算并平均新位置的嵌入,采用平均圖像嵌入與給定geocell內(nèi)的所有原型之間的歐幾里得距離,選擇具有最小歐幾里得圖像嵌入距離的原型位置作為最終的地理定位預(yù)測(cè)。

      實(shí)驗(yàn)結(jié)果

      性能最好的PIGEON模型實(shí)現(xiàn)了91.96%的國家準(zhǔn)確率(基于政治邊界),40.36%的猜測(cè)都在距離正確位置25公里以內(nèi),中位公里誤差為44.35公里,GeoGuessr平均得分為4525分。

      在增強(qiáng)數(shù)據(jù)集上的多任務(wù)模型的結(jié)果顯示,模型可以從街景圖像中推斷出地理、人口和地質(zhì)特征。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。