自动驾驶VLA再升级!博世IRL-VLA:打造全新闭环强化学习框架
自动驾驶VLA再升级!博世IRL-VLA:打造全新闭环强化学习框架
研究背景与挑战
自动驾驶VLA(Vision-Language-Action)技术自深入行业视野以来,一直面临着两个关键的技术挑战:
核心问题分析
1. 开环训练局限性
- 现有VLA架构基于开环设置中的模仿学习
- 倾向于复制数据集中的记录行为,性能存在天花板
- 无法充分利用大模型的真正潜力
2. 仿真环境依赖性
- 闭环训练严重依赖高保真传感器仿真
- 仿真与真实环境的domain gap问题
- 计算效率限制了大规模部署
技术突破方案
针对这些挑战,博世、上海大学、上海交大和清华AIR的联合研究团队提出了IRL-VLA——一个全新的闭环强化学习框架,通过逆向强化学习奖励世界模型结合专门设计的VLA方法。
IRL-VLA框架详解
三阶段训练范式
IRL-VLA采用创新的三阶段训练方法:
第一阶段:模仿策略学习
- 提出全新VLA架构
- 通过模仿学习对VLA策略进行预训练
- 建立基础的驾驶行为模式
第二阶段:逆向环境学习
- 构建轻量级奖励世界模型(RWM)
- 实现高效的闭环奖励计算
- 替代传统计算密集型仿真器
第三阶段:闭环强化学习
- 采用PPO(近端策略优化)算法
- 平衡安全事件、舒适驾驶和交通效率
- 实现策略的进一步优化
核心技术创新
1. VLA模型架构设计
语义推理模块
- 基于Senna-VLM框架构建
- 多图像编码策略和多视角提示机制
- 实现高效且全面的场景理解
3D推理模块
- BEV视觉编码器和适配器设计
- 多视角图像编码为BEV空间特征图
- 学习向量化的地图元素和智能体运动信息
统一扩散规划器
- 基于扩散的多样化轨迹生成
- 条件扩散模型学习强大的去噪机制
- 分层整合场景语义信息
2. 奖励世界模型(RWM)
设计理念
- 轻量级、数据驱动的仿真器替代方案
- 直接基于真实世界演示建模奖励结构
- 消除sim-to-real领域差距
评估指标体系 基于EPDMS(扩展预测驾驶员模型分数)的九个子分数:
- NC:无责碰撞
- DAC:可行驶区域合规性
- DDC:驾驶方向合规性
- TLC:交通灯合规性
- EP:自车进度
- TTC:碰撞时间
- LK:车道保持
- HC:历史舒适度
- EC:扩展舒适度
数据增强策略
- 记录扩散过程每一步的轨迹及对应EPDMS分数
- 使用K-means聚类采样多种轨迹模式(K值32-8192)
- 对每个场景应用多个自车姿态进行模拟
3. 基于RWM的强化学习
优化算法选择
- 采用PPO算法确保训练稳定性
- 截断参数ε=0.2,折扣因子γ=0.99
- 广义优势估计参数λ=0.95
策略优化过程
- 从VLA策略迭代采样轨迹
- 通过RWM进行实时评估
- 更新策略参数最大化累积奖励
损失函数设计 结合强化学习目标和行为克隆项:
L_total = L_RL + β·L_BC其中β=0.5实现最佳权衡。
实验结果与性能分析
基准测试表现
NAVSIM v2基准测试
- EPDMS得分:45.0(SOTA水平)
- CVPR2025自动驾驶大奖赛:亚军
- Navhard real基准:74.9分
与SOTA方法对比
| 方法 | EPDMS | NC | EP | EC |
|---|---|---|---|---|
| DiffusionDrive | 63.2 | - | - | - |
| WOTE | 66.7 | - | - | - |
| GTRS-Aug | 74.3 | 98.9 | 76.1 | 54.2 |
| IRL-VLA-PT | 74.4 | 98.3 | 83.9 | 76.0 |
消融实验洞察
分层推理模块效果
- 仅3D推理:EPDMS = 70.0
- 添加语义推理:EPDMS = 71.4(+1.4)
- 完整扩散规划器:EPDMS = 74.4(+3.0)
损失权重优化
- β=0.5时达到最佳性能(EPDMS = 74.9)
- β过大导致训练崩溃
- β过小影响收敛稳定性
技术优势与创新点
1. 首创性突破
- 业界首个:不依赖仿真器的闭环VLA强化学习方法
- 端到端训练:包含完整传感器输入的闭环训练框架
- 模型泛化:在模仿学习和强化学习设置下均表现优异
2. 效率优势
- 计算效率:消除传感器渲染和物理仿真需求
- 可扩展性:支持大规模真实世界数据训练
- 成本效益:显著降低训练成本和时间
3. 性能平衡
- 安全性保障:保持接近SOTA的碰撞避免性能
- 舒适性提升:显著改善驾驶舒适度指标
- 多目标优化:平衡安全、效率和舒适性要求
实现细节与配置
模型配置
- 主干网络:V2-99架构
- 输入分辨率:256×704多视角相机图像
- 训练设备:8块NVIDIA A100 GPU
训练参数
- 模仿学习阶段:AdamW优化器,lr=10⁻⁴,100个epoch
- 奖励模型训练:针对不同指标使用相应损失函数
- 强化学习阶段:PPO算法,批量大小32
行业影响与发展前景
技术影响
- 范式转变:从开环模仿学习向闭环强化学习转型
- 效率革命:大幅降低自动驾驶AI训练门槛
- 性能突破:为VLA技术在自动驾驶领域的应用开辟新路径
应用前景
- 商业化加速:降低自动驾驶系统开发成本
- 技术民主化:中小型公司也能参与高端自动驾驶技术开发
- 创新催化:为更多创新性VLA应用提供技术基础
未来发展方向
- 多模态融合:结合更多传感器模态的VLA框架
- 实时部署:优化模型推理速度适应车载环境
- 标准化推广:建立行业标准化的VLA训练框架
总结与展望
IRL-VLA框架代表了自动驾驶VLA技术的重大突破,通过巧妙的三阶段训练范式和创新的奖励世界模型设计,成功解决了传统方法面临的开环训练局限性和仿真依赖性问题。
这一成果不仅在学术界获得认可(CVPR2025自动驾驶大奖赛亚军),更重要的是为自动驾驶行业提供了一个可扩展、高效率的VLA训练解决方案。随着技术的进一步成熟和优化,IRL-VLA有望成为下一代自动驾驶系统的核心技术基础,推动整个行业向更智能、更安全的方向发展。
对于从事自动驾驶技术研发的工程师和研究人员来说,IRL-VLA框架不仅提供了新的技术思路,更重要的是验证了通过创新训练范式来突破现有技术瓶颈的可行性。这种”以问题为导向、以创新为驱动”的研究思路,值得整个行业深入学习和借鉴。
