OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Paper ID: 2604.18486 • 65 Upvotes

Autonomous Driving VLA Latent Reasoning World Model Real-time AI Agent Reasoning Vision Benchmark Inference Optimization

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

📝 핵심 요약

자율주행 VLA 모델의 추론 속도 문제를 해결하기 위해, 언어와 시각적 세계 모델을 동시에 활용하여 잠재 공간을 학습시키는 OneVL이 명시적 CoT를 능가하는 성능과 실시간에 가까운 추론 속도를 달성했습니다.

📖 상세 내용

Chain-of-Thought(CoT) 추론은 VLA 기반 자율주행에서 강력하지만, 순차적 특성으로 인해 실시간 배포에 제약이 있습니다. 기존 잠재 CoT 방식은 언어적 표현에만 의존하여 명시적 CoT에 미치지 못하는 한계가 있었습니다. 본 연구는 OneVL을 제안하며, 이는 언어 디코더와 미래 프레임 토큰을 예측하는 시각적 세계 모델 디코더를 통해 잠재 토큰을 감독하는 통합 VLA 및 세계 모델 프레임워크입니다. 3단계 훈련 파이프라인을 통해 잠재 공간이 궤적, 언어, 시각적 목표에 정렬되며, 추론 시에는 보조 디코더 없이 단일 병렬 패스로 빠른 속도를 제공합니다. OneVL은 4가지 벤치마크에서 최초로 명시적 CoT를 능가하며, 답변만 예측하는 속도로 최첨단 정확도를 달성했습니다.

🔑 주요 내용 (Key Points)

최초로 명시적 CoT(Chain-of-Thought)를 능가하는 잠재 CoT 방법론 제시
언어 디코더와 시각적 세계 모델 디코더를 활용한 듀얼 보조 디코더 감독 방식 도입
인과적 동역학을 내재화하는 통합 VLA 및 세계 모델 프레임워크 제안

💡 실무적 가치 (Relevance)

자율주행 시스템의 의사결정 속도와 정확도를 동시에 향상시켜, 실시간 반응이 필수적인 환경에서 VLA 모델의 적용 가능성을 크게 확장합니다.

✅ 추천 액션 (Actionable Items)

자사 자율주행 시뮬레이션 환경에서 OneVL의 추론 지연 시간 및 예측 정확도를 평가해보기
OneVL의 듀얼 디코더 잠재 공간 학습 방식을 다른 실시간 VLA 기반 로봇 제어 또는 비전-언어 이해 태스크에 적용 가능성 탐색
세계 모델 디코더의 시각적 표현(예: 미래 프레임 토큰)이 자율주행 의사결정에 미치는 영향 분석 및 다른 형태의 세계 모델 통합 실험

View on Hugging Face View PDF (arXiv)