在GTC 2026大會上,理想汽車發(fā)布下一代自動駕駛基礎(chǔ)模型 MindVLA-o1,該模型通過統(tǒng)一視覺、語言與動作(VLA)的多模態(tài)架構(gòu),讓自動駕駛具備更強(qiáng)的空間理解、推理決策與行為執(zhí)行能力,是自動駕駛技術(shù)從單一感知與規(guī)則驅(qū)動,向具備思考與預(yù)測能力的智能體演進(jìn)。

MindVLA-o1圍繞五大技術(shù)創(chuàng)新構(gòu)建:3D空間理解、多模態(tài)思考、統(tǒng)一行為生成、閉環(huán)強(qiáng)化學(xué)習(xí)以及軟硬件協(xié)同設(shè)計。在感知層面,通過視覺模型結(jié)合激光雷達(dá)實(shí)現(xiàn)高質(zhì)量三維環(huán)境理解;在決策層面引入世界模型,可在隱空間中預(yù)測未來場景變化并進(jìn)行推理;在執(zhí)行層面則通過統(tǒng)一行為生成機(jī)制直接生成駕駛軌跡,實(shí)現(xiàn)更穩(wěn)定高效的駕駛決策。
為支持模型持續(xù)進(jìn)化,理想還構(gòu)建了完整的AI框架,包括 MindData(數(shù)據(jù)引擎)、MindVLA-o1(基礎(chǔ)模型)、MindSim(世界模型仿真系統(tǒng))以及RL Infra(強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施),形成從數(shù)據(jù)、訓(xùn)練到仿真的閉環(huán)體系,使自動駕駛能夠在真實(shí)與模擬環(huán)境中不斷學(xué)習(xí)與優(yōu)化。理想汽車認(rèn)為,汽車本質(zhì)是“最大的機(jī)器人”,自動駕駛只是物理AI的起點(diǎn)。未來,這套VLA基礎(chǔ)模型不僅可用于智能汽車,也有潛力擴(kuò)展到機(jī)器人及其他物理系統(tǒng),推動具身智能通用模型的發(fā)展。

CONTACT US
ICC APP