EasyVideoR1: Easier RL for Video Understanding

Paper ID: 2604.16893 • 32 Upvotes

Reinforcement Learning Video Understanding Vision-Language Model Reasoning Multimodal Vision Video Benchmark Evaluation

EasyVideoR1: Easier RL for Video Understanding

📝 핵심 요약

비디오 이해를 위한 강화 학습 파이프라인 EasyVideoR1은 효율적인 비디오 처리, 다양한 보상 시스템, 혼합 데이터 학습, 이미지-비디오 공동 학습, 비동기 평가를 제공하여 모델 성능 향상 및 개발 편의성을 높임.

📖 상세 내용

최근 대규모 언어 모델의 추론 능력 향상에 강화 학습이 효과적인 것으로 나타났지만, 비디오 이해 분야에서는 다양한 태스크 유형, 높은 계산 비용, 재현 가능한 평가의 어려움 등으로 인해 연구가 미흡했다. 기존 RL 프레임워크는 텍스트 및 이미지에 최적화되어 비디오에는 적합하지 않았다. EasyVideoR1은 비디오 이해 태스크를 위한 완전하고 효율적인 강화 학습 프레임워크를 제공한다. 이 프레임워크는 오프라인 전처리 및 텐서 캐싱을 통해 비디오 디코딩의 중복을 제거하고 처리량을 1.47배 향상시키며, 다양한 비디오 및 이미지 문제 유형을 포괄하는 보상 시스템을 제공한다. 또한, 큐레이션된 고품질 데이터와 온라인 탐색을 결합한 혼합 학습 방식을 사용하고, 이미지와 비디오를 함께 학습하여 서로 강화하도록 설계되었으며, 22개의 비디오 이해 벤치마크를 평가할 수 있는 비동기 평가 프레임워크를 제공한다.

🔑 주요 내용 (Key Points)

비디오 디코딩 최적화를 통해 1.47배 처리량 향상
11가지 비디오/이미지 문제 유형을 포괄하는 통합 보상 시스템 제공
오프라인 및 온라인 데이터를 결합한 혼합 학습 방식 적용

💡 실무적 가치 (Relevance)

비디오 이해 모델 개발 시 강화 학습을 더 쉽게 적용하고 성능을 향상시킬 수 있도록, 효율적인 파이프라인과 다양한 기능을 제공하여 개발 생산성을 높일 수 있다.

✅ 추천 액션 (Actionable Items)

EasyVideoR1 프레임워크를 사용하여 기존 비디오 이해 모델에 강화 학습 적용 실험
자체 비디오 데이터셋에 EasyVideoR1의 혼합 학습 방식 적용 실험
EasyVideoR1의 보상 시스템을 확장하여 새로운 비디오 이해 태스크에 적용 실험

View on Hugging Face View PDF (arXiv)