谷歌旗下Waymo利用Gemini模型提升無人駕駛技術(shù)

2024年10月31日 14:53:14 來源：AIbase基地

　　最近，Waymo 在自動駕駛領(lǐng)域又邁出了重要一步。這家公司一直以來都把與谷歌 DeepMind 的合作視作自己的競爭優(yōu)勢，如今，他們正在利用谷歌的多模態(tài)大型語言模型 Gemini 來提升其自動駕駛出租車的訓(xùn)練效果。

　　Waymo 發(fā)布了一篇新的研究論文，介紹了一種名為 EMMA 的 “端到端多模態(tài)模型”，該模型能夠處理傳感器數(shù)據(jù)，從而生成自動駕駛汽車的未來行駛軌跡。這意味著 Waymo 的無人駕駛車輛可以更智能地做出行駛決策，并能有效地避開障礙物。

　　這項新技術(shù)的重要性不僅在于它的創(chuàng)新，還因為它可能改變目前大多數(shù)大型語言模型的應(yīng)用范圍。Waymo 希望將 MLLM 視為其自動駕駛系統(tǒng)的 “一級公民”，這代表著未來的自動駕駛可能會與當(dāng)前的聊天機器人或圖像生成器有很大的不同。

　　在這篇論文中，Waymo 提到，傳統(tǒng)的自動駕駛系統(tǒng)通常會為各種功能開發(fā)特定的 “模塊”，包括感知、映射、預(yù)測和規(guī)劃等。雖然這種方法在過去幾年內(nèi)取得了一些進展，但它的局限性也顯而易見，尤其是在應(yīng)對新的復(fù)雜環(huán)境時。Waymo 認(rèn)為，像 Gemini 這樣的 MLLM 可以解決這些問題，因為它們具備廣泛的 “世界知識”，并且能夠進行 “鏈?zhǔn)剿季S推理”，模擬人類的邏輯推理。

　　EMMA 模型被開發(fā)出來是為了幫助 Waymo 的自動駕駛出租車在復(fù)雜環(huán)境中進行導(dǎo)航。比如，當(dāng)遇到動物或道路施工等情況時，EMMA 能夠幫助無人駕駛汽車找到最佳行駛路徑。不過，Waymo 也意識到 EMMA 還有一些局限性，例如目前無法處理來自激光雷達(dá)或雷達(dá)的3D 傳感器輸入。

　　Waymo 在這方面的研究還需要進一步深入，但他們希望這項成果能激勵更多的研究，以應(yīng)對目前存在的問題，推動自動駕駛技術(shù)的發(fā)展。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信