「自動駕駛」的上限有多高?
李想用一段視頻回答了這個問題。
在宣布三年高考…啊不是,在宣布“三年L4,明年L3”后,李想再度發(fā)聲談自動駕駛,分享了團(tuán)隊(duì)的新進(jìn)展,還特別強(qiáng)調(diào)了背后的技術(shù)范式:
端到端+VLM (視覺語言模型)。
暴雨測智駕,效果挺意外
剛剛,李想發(fā)布了一段理想測試智駕系統(tǒng)的視頻。
可以看到,即使在暴雨中,顯示的車道線仍然非常清晰,系統(tǒng)還對場景情況進(jìn)行了簡述。
駕駛決策也很果斷,嫌前車太慢,直接就是一個變道:
右轉(zhuǎn)過路口比較順暢,過彎就避讓:
車主一整個期待住了,求快更新:
在視頻中,測試者還特別強(qiáng)調(diào),“真的沒有用到圖”。
因此視頻所展示的,很可能就是還在內(nèi)測階段的理想無圖NOA,目前測試范圍擴(kuò)大至一萬人,預(yù)計(jì)將于今年三季度正式推送。
對此,有理想智駕團(tuán)隊(duì)成員轉(zhuǎn)發(fā)微博稱,理想端到端+VLM技術(shù)“超越無圖一個時代”。
很多網(wǎng)友也是對此表示震撼,點(diǎn)贊理想的智駕進(jìn)展:
實(shí)際落地,是否有網(wǎng)友們說的這么夸張,目前還不得而知。
但從公開成果來看,理想近期確實(shí)在智能駕駛方面,取得了一些不錯的進(jìn)展。
來,咱們一起扒一扒。
理想汽車近期的重要工作
理想汽車近期在智能駕駛方面有三項(xiàng)重要進(jìn)展,先來看感知層:
理想聯(lián)合中山大學(xué),提出了一個名為UA-Track的3D多對象跟蹤框架。
該框架主要是針對自動駕駛感知中的不確定性問題進(jìn)行了優(yōu)化,比如目標(biāo)對象尺寸過小,或是被遮擋,造成跟蹤不準(zhǔn)確。
框架主要包括三個關(guān)鍵組件:
不確定性感知概率解碼器(Uncertainty-aware Probabilistic Decoder), 簡稱UPD。引入了概率注意力機(jī)制,來捕獲目標(biāo)預(yù)測中的不確定性。
不確定性引導(dǎo)的查詢?nèi)ピ氩呗?Uncertainty-guided Query Denoising),簡稱UQD。在訓(xùn)練階段模仿實(shí)際跟蹤過程中,目標(biāo)可能會受到的遮擋和觀測誤差,增強(qiáng)模型對不確定性的魯棒性和收斂性。
不確定性降低的查詢初始化(Uncertainty-reduced Query Initialization),簡稱UQI。利用預(yù)測的2D對象位置和深度信息來減少查詢不確定性,提高初始對象定位的準(zhǔn)確性。
這三個模塊組成了一個端到端的系統(tǒng),從輸入圖像直接生成跟蹤結(jié)果。終整體還會平衡損失函數(shù),實(shí)現(xiàn)整體性能的優(yōu)化。
UA-Track在nuScenes(多模態(tài)3D自動駕駛數(shù)據(jù)集)基準(zhǔn)測試中取得了先進(jìn)的性能,測試集上的AMOTA(平均多目標(biāo)跟蹤精度)達(dá)到了66.3%,比之前好的端到端解決方案提高了8.9%。
這是理想在感知層取得的新成果,此外,理想還聯(lián)合清華大學(xué)等單位,進(jìn)行了TOD3Cap工作,提出了一種對象級的稠密圖文對數(shù)據(jù)的生成方案。
可以對3D場景下的每個對象,生成詳細(xì)的自然語言描述。同時還開源了一個室內(nèi)外數(shù)據(jù)集。
相比這兩項(xiàng)工作,可能另一項(xiàng)工作DriveVLM大家更熟悉些,也是理想和清華的合作成果。
李想近日在出席重慶論壇時提到過,將人類快慢思考引入到AI算法中,整個自動駕駛系統(tǒng)一分為二:
傳統(tǒng)的感知、預(yù)測、規(guī)劃,這種模塊化的范式對應(yīng)第一類系統(tǒng),是智能體基于人為手動寫好的規(guī)則,就像人根據(jù)直覺和應(yīng)急變化,做出快速反應(yīng)。
不需要復(fù)雜的過程,應(yīng)對常見場景沒問題,響應(yīng)迅速,需求算力也不高。
但是,很顯然解決不了無窮無盡的Corner Case,怎么辦?
這就需要借助第二類系統(tǒng)VLM,具備一定的通識能力,通過端到端的場景理解,識別物體和預(yù)測,進(jìn)行決策和軌跡規(guī)劃。
算力消耗大,需要更長的推理時間,好處是能夠處理復(fù)雜場景,以及從未見過的長尾場景。
這些重要工作,為理想實(shí)現(xiàn)智能駕駛突破,提供了技術(shù)底層支撐。
通過測試視頻,看起來理想下一階段的智駕能力很不錯。
當(dāng)全面推送后,考慮到理想汽車的保有量,想必能力也會較快速的迭代,更上一層樓。
當(dāng)然,具體能力會達(dá)到什么水平,還是要「上路見真章」。
什么時候,全國推送?
參考鏈接:
理想暴雨測智駕:https://weibo.com/1243861097/OiI9G30X8
清華MARS Lab解析DriveVLM:https://zhuanlan.zhihu.com/p/692173066?utm_psn=1784386450537615360
論文傳送門:
UA-Track: Uncertainty-Aware End-to-End 3D Multi-Object Trackinghttps://arxiv.org/pdf/2406.02147
TOD 3Cap: Towards 3D Dense Captioning in Outdoor Sceneshttps://arxiv.org/pdf/2403.19589
DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Modelshttps://arxiv.org/pdf/2402.12289
本文鏈接:http://www.zh1234.com/news3563.html官方稱“超越無圖一個時代” 理想暴雨測智駕 網(wǎng)友:碾壓華為