Home
avatar

taoleb

自动驾驶VLA再升级!博世IRL-VLA:打造全新闭环强化学习框架

自动驾驶VLA再升级!博世IRL-VLA:打造全新闭环强化学习框架

研究背景与挑战

自动驾驶VLA(Vision-Language-Action)技术自深入行业视野以来,一直面临着两个关键的技术挑战:

核心问题分析

1. 开环训练局限性

  • 现有VLA架构基于开环设置中的模仿学习
  • 倾向于复制数据集中的记录行为,性能存在天花板
  • 无法充分利用大模型的真正潜力

2. 仿真环境依赖性

  • 闭环训练严重依赖高保真传感器仿真
  • 仿真与真实环境的domain gap问题
  • 计算效率限制了大规模部署

技术突破方案

针对这些挑战,博世、上海大学、上海交大和清华AIR的联合研究团队提出了IRL-VLA——一个全新的闭环强化学习框架,通过逆向强化学习奖励世界模型结合专门设计的VLA方法。

IRL-VLA框架详解

三阶段训练范式

IRL-VLA采用创新的三阶段训练方法:

第一阶段:模仿策略学习

  • 提出全新VLA架构
  • 通过模仿学习对VLA策略进行预训练
  • 建立基础的驾驶行为模式

第二阶段:逆向环境学习

  • 构建轻量级奖励世界模型(RWM)
  • 实现高效的闭环奖励计算
  • 替代传统计算密集型仿真器

第三阶段:闭环强化学习

  • 采用PPO(近端策略优化)算法
  • 平衡安全事件、舒适驾驶和交通效率
  • 实现策略的进一步优化

核心技术创新

1. VLA模型架构设计

语义推理模块

  • 基于Senna-VLM框架构建
  • 多图像编码策略和多视角提示机制
  • 实现高效且全面的场景理解

3D推理模块

  • BEV视觉编码器和适配器设计
  • 多视角图像编码为BEV空间特征图
  • 学习向量化的地图元素和智能体运动信息

统一扩散规划器

  • 基于扩散的多样化轨迹生成
  • 条件扩散模型学习强大的去噪机制
  • 分层整合场景语义信息

2. 奖励世界模型(RWM)

设计理念

  • 轻量级、数据驱动的仿真器替代方案
  • 直接基于真实世界演示建模奖励结构
  • 消除sim-to-real领域差距

评估指标体系 基于EPDMS(扩展预测驾驶员模型分数)的九个子分数:

  • NC:无责碰撞
  • DAC:可行驶区域合规性
  • DDC:驾驶方向合规性
  • TLC:交通灯合规性
  • EP:自车进度
  • TTC:碰撞时间
  • LK:车道保持
  • HC:历史舒适度
  • EC:扩展舒适度

数据增强策略

  1. 记录扩散过程每一步的轨迹及对应EPDMS分数
  2. 使用K-means聚类采样多种轨迹模式(K值32-8192)
  3. 对每个场景应用多个自车姿态进行模拟

3. 基于RWM的强化学习

优化算法选择

  • 采用PPO算法确保训练稳定性
  • 截断参数ε=0.2,折扣因子γ=0.99
  • 广义优势估计参数λ=0.95

策略优化过程

  • 从VLA策略迭代采样轨迹
  • 通过RWM进行实时评估
  • 更新策略参数最大化累积奖励

损失函数设计 结合强化学习目标和行为克隆项:

L_total = L_RL + β·L_BC

其中β=0.5实现最佳权衡。

实验结果与性能分析

基准测试表现

NAVSIM v2基准测试

  • EPDMS得分:45.0(SOTA水平)
  • CVPR2025自动驾驶大奖赛:亚军
  • Navhard real基准:74.9分

与SOTA方法对比

方法EPDMSNCEPEC
DiffusionDrive63.2---
WOTE66.7---
GTRS-Aug74.398.976.154.2
IRL-VLA-PT74.498.383.976.0

消融实验洞察

分层推理模块效果

  • 仅3D推理:EPDMS = 70.0
  • 添加语义推理:EPDMS = 71.4(+1.4)
  • 完整扩散规划器:EPDMS = 74.4(+3.0)

损失权重优化

  • β=0.5时达到最佳性能(EPDMS = 74.9)
  • β过大导致训练崩溃
  • β过小影响收敛稳定性

技术优势与创新点

1. 首创性突破

  • 业界首个:不依赖仿真器的闭环VLA强化学习方法
  • 端到端训练:包含完整传感器输入的闭环训练框架
  • 模型泛化:在模仿学习和强化学习设置下均表现优异

2. 效率优势

  • 计算效率:消除传感器渲染和物理仿真需求
  • 可扩展性:支持大规模真实世界数据训练
  • 成本效益:显著降低训练成本和时间

3. 性能平衡

  • 安全性保障:保持接近SOTA的碰撞避免性能
  • 舒适性提升:显著改善驾驶舒适度指标
  • 多目标优化:平衡安全、效率和舒适性要求

实现细节与配置

模型配置

  • 主干网络:V2-99架构
  • 输入分辨率:256×704多视角相机图像
  • 训练设备:8块NVIDIA A100 GPU

训练参数

  • 模仿学习阶段:AdamW优化器,lr=10⁻⁴,100个epoch
  • 奖励模型训练:针对不同指标使用相应损失函数
  • 强化学习阶段:PPO算法,批量大小32

行业影响与发展前景

技术影响

  1. 范式转变:从开环模仿学习向闭环强化学习转型
  2. 效率革命:大幅降低自动驾驶AI训练门槛
  3. 性能突破:为VLA技术在自动驾驶领域的应用开辟新路径

应用前景

  • 商业化加速:降低自动驾驶系统开发成本
  • 技术民主化:中小型公司也能参与高端自动驾驶技术开发
  • 创新催化:为更多创新性VLA应用提供技术基础

未来发展方向

  1. 多模态融合:结合更多传感器模态的VLA框架
  2. 实时部署:优化模型推理速度适应车载环境
  3. 标准化推广:建立行业标准化的VLA训练框架

总结与展望

IRL-VLA框架代表了自动驾驶VLA技术的重大突破,通过巧妙的三阶段训练范式和创新的奖励世界模型设计,成功解决了传统方法面临的开环训练局限性和仿真依赖性问题。

这一成果不仅在学术界获得认可(CVPR2025自动驾驶大奖赛亚军),更重要的是为自动驾驶行业提供了一个可扩展、高效率的VLA训练解决方案。随着技术的进一步成熟和优化,IRL-VLA有望成为下一代自动驾驶系统的核心技术基础,推动整个行业向更智能、更安全的方向发展。

对于从事自动驾驶技术研发的工程师和研究人员来说,IRL-VLA框架不仅提供了新的技术思路,更重要的是验证了通过创新训练范式来突破现有技术瓶颈的可行性。这种”以问题为导向、以创新为驱动”的研究思路,值得整个行业深入学习和借鉴。

自动驾驶 VLA 强化学习 博世 清华 视觉语言模型 端到端 世界模型