AI看圖猜位置，準(zhǔn)確率超90%！斯坦福最新PIGEON模型：40%預(yù)測誤差不到25公里

2024年01月15日 10:17:24 來源：新智元

　　隨手在網(wǎng)絡(luò)上發(fā)布的一張照片，能暴露多少信息?

　　外國的一位博主@rainbolt就長年接受這種「照片游戲」的挑戰(zhàn)，網(wǎng)友提供照片，他來猜測照片的具體拍攝地，有些照片甚至還能猜到具體的航班細節(jié)。

　　是不是細思極恐?

　　但「照片挑戰(zhàn)」也同樣撫慰了很多人心中的遺憾，比如拿著一張父親年輕時候拍的照片，卻不知道在哪里，借助rainbolt和廣大網(wǎng)友的力量，最終完成了心愿。

　　我花費了6個月和300多個小時試圖找到一位粉絲父親生前照片的位置，但沒有結(jié)果，我放棄了;在發(fā)布到y(tǒng)outube上的一小時后，我們找到了。

　　光是想想，就能知道「從照片猜位置」這個過程的艱辛和難度，其中涉及到大量的地理、歷史專業(yè)知識，從路標(biāo)、交通方向、樹木種類、基礎(chǔ)設(shè)施等蛛絲馬跡中不斷找到真相。

　　在計算機領(lǐng)域，這一任務(wù)也被稱為圖像地理定位(image geolocalization)，目前大多數(shù)方法仍然是基于手工特征和檢索的方法，沒有使用Transformer等深度學(xué)習(xí)架構(gòu)。

　　最近斯坦福大學(xué)的研究團隊合作開發(fā)了一款A(yù)I工具PIGEON，將語義地理單元創(chuàng)建(semantic geocell creation)與標(biāo)簽平滑(label smoothing)相結(jié)合，對街景圖像進行CLIP視覺轉(zhuǎn)換器的預(yù)訓(xùn)練，并使用ProtoNets在候選地理單元集上細化位置預(yù)測。

　　論文鏈接：https://arxiv.org/abs/2307.05845

　　PIGEON在「照片猜國家」的子任務(wù)上實現(xiàn)了91.96%的正確率，40.36%的猜測在距離目標(biāo)25公里以內(nèi)，這也是過去五年來第一篇沒有軍事背景資助的、最先進的圖像地理定位相關(guān)的論文。

　　GeoGuessr是一個從街景圖像中猜測地理位置的游戲，全球擁有5000萬玩家，前面提到的rainbolt就是該游戲的忠實粉絲，也是公認的最強玩家之一。

　　而PIGEON模型在GeoGuessr中對人類玩家呈碾壓優(yōu)勢，在六場比賽中連續(xù)擊敗rainbolt，全球排名前0.01%.

　　PIGEON的進步還啟發(fā)了開發(fā)人員創(chuàng)建另一個模型PIGEOTTO，使用Flickr和維基百科的400萬張圖像進行訓(xùn)練，輸入任意圖像而非街景全景圖，就能定位出圖像的位置，功能更加強大。

　　在此類任務(wù)的測試中，PIGEOTTO的性能最佳，將中位偏差降低了20%-50%，在城市粒度上的預(yù)測超過了之前的SOTA高達7.7個百分點，在國家粒度上超過了38.8個百分點。

　　2016 MediaEval數(shù)據(jù)集的樣本圖像用于訓(xùn)練PIGEOTTO

　　從技術(shù)上來說，該工作的最重要的結(jié)果之一就是證明了預(yù)訓(xùn)練的CLIP模型StreetCLIP域泛化及其對分布變化的魯棒性，能夠以零樣本的方式將StreetCLIP應(yīng)用于分布外基準(zhǔn)數(shù)據(jù)集IM2GPS和IM2GPS3k，并取得了最先進的結(jié)果，擊敗了在400多萬張分布內(nèi)(in-distributions)圖像上微調(diào)的模型。

　　并且，實驗結(jié)果也證明了對比預(yù)訓(xùn)練是一種有效的圖像地理定位元學(xué)習(xí)技術(shù)，在StreetCLIP預(yù)訓(xùn)練中沒見過的國家預(yù)測上，準(zhǔn)確率比CLIP提高了10個百分點以上。

　　由于圖像地理定位數(shù)據(jù)集在地理分布方面差異很大，結(jié)果也證明了將StreetCLIP應(yīng)用于任何地理定位和相關(guān)問題的有效性。

　　由于這項技術(shù)目前仍然可以用于不良目的，所以開發(fā)人員決定暫時不公布模型權(quán)重。

　　實驗數(shù)據(jù)集

　　雖然大多數(shù)圖像地理定位方法都依賴于公開的數(shù)據(jù)集，但目前還沒有公開的、全地球范圍下的街景(Street View)數(shù)據(jù)集。

　　所以研究人員決定在原始數(shù)據(jù)集上創(chuàng)建，主動聯(lián)系了Geoguessr的首席技術(shù)官Erland Ranvinge，獲得了該游戲中競爭對決模式下使用的100萬個地點的數(shù)據(jù)集，再隨機采樣10%數(shù)據(jù)點，對每個數(shù)據(jù)點下載4張圖片，最終獲得40萬張圖片。

　　方法架構(gòu)

　　1. Geocell Creation(地理單元生成)

　　先前的研究嘗試過直接對輸入圖像來預(yù)測經(jīng)緯度，但結(jié)果證明無法取得sota性能，所以目前的方法大多依賴于生成geocells，把坐標(biāo)回歸問題離散化，再轉(zhuǎn)成分類問題，所以geocell的設(shè)計至關(guān)重要。

　　這篇論文的一個創(chuàng)新點就是語義地理單元(semantic geocells)，可以根據(jù)訓(xùn)練數(shù)據(jù)集樣本的地理分布自動適應(yīng)，因為圖像中的視覺特征通常與國家(道路標(biāo)記)、地區(qū)(基礎(chǔ)設(shè)施質(zhì)量)或城市(街道標(biāo)志)有關(guān);并且國家或行政邊界往往遵循自然邊界，如河流或山脈的流動，這反過來又影響植被類型，土壤顏色等自然特征。

　　研究人員設(shè)計的地理單元有三個級別：國家、admin 1、admin 2，從最細粒度級別(admin 2)開始，算法會逐步合并相鄰的admin 2級別多邊形，其中每個geocell包含至少30個訓(xùn)練樣本。

　　2. 標(biāo)簽平滑(label smoothing)

　　語義地理單元創(chuàng)建過程來離散化圖像地理定位問題，可以在粒度和預(yù)測準(zhǔn)確性之間尋求平衡：地理單元的粒度越大，預(yù)測就越精確，但由于基數(shù)(cardinality)更高，分類問題就會變得更加困難。

　　為了解決這個問題，研究人員設(shè)計了一個損失函數(shù)，基于預(yù)測的、到正確的地理單元之間的距離進行懲罰，可以更高效地對模型進行訓(xùn)練。

　　使用兩點之間Haversine距離的一個優(yōu)勢是基于地球的球面幾何，能夠精確估計兩點之間的距離。

　　3. Vision Transformer(CLIP)

　　研究人員使用預(yù)訓(xùn)練的視覺Transformer，架構(gòu)為ViT-L/14，然后對預(yù)測header進行了微調(diào)，并且對最后一個視覺Transformer層進行解凍。

　　對于具有多個圖像輸入的模型版本，將四個圖像的embedding進行平均;在實驗中，平均embedding比通過多頭注意力或額外的Transformer層組合embedding表現(xiàn)得更好。

　　基于先驗知識和專業(yè)GeoGuessr玩家通常觀察到的策略，圖像定位任務(wù)有各種相關(guān)特征，例如，植被、道路標(biāo)記、路標(biāo)和建筑。

　　多模態(tài)模型對圖像有更深語義理解的embedding，使其能夠?qū)W習(xí)這些特征，實驗中也證明了，CLIP視覺Transformer比類似的ImageNet視覺Transformer有明顯的進步，并且使用注意力map能夠以可解釋的方式展示模型學(xué)習(xí)到的策略。

　　4. StreetCLIP對比預(yù)訓(xùn)練

　　受CLIP對比預(yù)訓(xùn)練的啟發(fā)，研究人員設(shè)計了一個對比預(yù)訓(xùn)練任務(wù)，在學(xué)習(xí)geocell預(yù)測頭之前，也可以使用它來微調(diào)CLIP基礎(chǔ)模型。

　　使用地理、人口統(tǒng)計和地質(zhì)輔助數(shù)據(jù)來增強街景數(shù)據(jù)集，使用基于規(guī)則的系統(tǒng)為每個圖像創(chuàng)建隨機描述，例如：

　　地點：南非東開普省地區(qū)的街景照片

　　Location: A Street View photo in the region of Eastern Cape in South Africa.

　　氣候：該地區(qū)為溫帶海洋性氣候。

　　Climate: This location has a temperate oceanic climate.

　　羅盤方向：這張照片是朝北的。

　　Compass Direction: This photo is facing north.

　　季節(jié)：這張照片是在12月拍攝的。

　　Season: This photo was taken in December.

　　交通：在這個位置，人們在道路的左側(cè)行駛。

　　Traffic: In this location, people drive on the left side of the road.

　　相當(dāng)于是一個隱式的多任務(wù)，可以確保模型保持豐富的數(shù)據(jù)表示，同時調(diào)整街景圖像的分布并學(xué)習(xí)與地理位置相關(guān)的功能。

　　5. 多任務(wù)學(xué)習(xí)

　　研究人員還嘗試通過為輔助氣候變量、人口密度、海拔和一年中的月份(季節(jié))創(chuàng)建特定于任務(wù)的預(yù)測header來明確多任務(wù)設(shè)置。

　　6. ProtoNet Refinement

　　為了進一步完善模型在geocell內(nèi)的猜測并提高街道和城市級別的性能，研究人員使用ProtoNets執(zhí)行g(shù)eocell內(nèi)的細化，將每個單元的單元內(nèi)細化作為一個單獨的few shot分類任務(wù)。

　　再次使用OPTICS聚類算法，其中minsample參數(shù)為3，xi參數(shù)為0.15來聚類geocell內(nèi)的所有點，從而提出在cell內(nèi)分類設(shè)置中學(xué)習(xí)的類別。

　　每個聚類由至少三個訓(xùn)練樣本組成，形成一個原型，其表征通過對原型中所有圖像的embedding進行平均來計算。

　　大洛杉磯都市區(qū)的可視化ProtoNet集群

　　為了計算原型embedding，使用與geocell預(yù)測任務(wù)相同的模型，但刪除預(yù)測header并凍結(jié)所有權(quán)重。

　　在推理過程中，首先計算并平均新位置的嵌入，采用平均圖像嵌入與給定geocell內(nèi)的所有原型之間的歐幾里得距離，選擇具有最小歐幾里得圖像嵌入距離的原型位置作為最終的地理定位預(yù)測。

　　實驗結(jié)果

　　性能最好的PIGEON模型實現(xiàn)了91.96%的國家準(zhǔn)確率(基于政治邊界)，40.36%的猜測都在距離正確位置25公里以內(nèi)，中位公里誤差為44.35公里，GeoGuessr平均得分為4525分。

　　在增強數(shù)據(jù)集上的多任務(wù)模型的結(jié)果顯示，模型可以從街景圖像中推斷出地理、人口和地質(zhì)特征。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

AI看圖猜位置，準(zhǔn)確率超90%！斯坦福最新PIGEON模型：40%預(yù)測誤差不到25公里

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

AI看圖猜位置，準(zhǔn)確率超90%！斯坦福最新PIGEON模型：40%預(yù)測誤差不到25公里

擴展閱讀

AI看圖猜位置，準(zhǔn)確率超90%！斯坦福最新PIGEON模型：40%預(yù)測誤差不到25公里