ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

Paper ID: 2606.19531 • 8 Upvotes

Robot Control Diffusion Models World Models Efficiency Vision Video Inference

ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

📝 핵심 요약

비디오 생성 대신 사전 학습된 이미지 편집 모델을 활용하여 연산 효율과 제어 정확도를 동시에 높인 로봇 행동 모델(WAM) 프레임워크

📖 상세 내용

기존의 World Action Models(WAMs)는 비디오 생성을 통해 미래를 예측하려 하지만, 과도한 연산 비용과 불필요한 디테일 생성, 장기 예측 시 발생하는 오류 등의 문제를 안고 있습니다. 본 논문은 비디오 생성 대신 이미지 편집 모델을 활용하는 ImageWAM 프레임워크를 제안합니다. 이미지 편집은 동작과 관련된 시각적 변화에만 집중하며, 작업 지시를 국소적인 시각적 변화로 매핑하는 데 유리한 사전 학습된 지식을 제공합니다. 추론 시에는 타겟 프레임을 직접 생성하지 않고, 이미지 편집 디노이징 과정에서 생성된 KV 캐시를 Flow-matching 기반 액션 전문가 모델의 컨텍스트로 활용합니다. 실험 결과, ImageWAM은 기존 VLA 및 경쟁 모델 대비 뛰어난 성능을 보이면서도 연산량(FLOPs)과 지연 시간(Latency)을 획기적으로 줄였습니다.

🔑 주요 내용 (Key Points)

비디오 생성 대신 이미지 편집 모델의 사전 학습된 지식을 활용하여 동작 관련 시각적 변화에 집중
이미지 편집 과정의 KV 캐시를 액션 전문가 모델의 컨텍스트로 사용하여 추론 효율 극대화
기존 비디오 기반 WAM 대비 연산량 1/6, 지연 시간 1/4 수준으로 대폭 절감

💡 실무적 가치 (Relevance)

로봇 제어 모델에서 무거운 비디오 생성 과정을 생략하고 KV 캐시만 활용함으로써, 실시간성이 중요한 로봇 시스템에 적용 가능한 효율적인 아키텍처를 제시합니다.

✅ 추천 액션 (Actionable Items)

사전 학습된 Diffusion 기반 이미지 편집 모델의 KV 캐시 추출 로직 구현 테스트
Flow-matching 기반 액션 헤드와 이미지 편집 모델 간의 정렬(Alignment) 실험
다양한 시뮬레이션 환경에서의 지연 시간 및 추론 속도 벤치마크 수행

View on Hugging Face View PDF (arXiv)