EasyVideoR1: Easier RL for Video Understanding
Paper ID: 2604.16893 β’ 32 Upvotes
Reinforcement Learning Video Understanding Vision-Language Model Reasoning Multimodal Vision Video Benchmark Evaluation
π ν΅μ¬ μμ½
λΉλμ€ μ΄ν΄λ₯Ό μν κ°ν νμ΅ νμ΄νλΌμΈ EasyVideoR1μ ν¨μ¨μ μΈ λΉλμ€ μ²λ¦¬, λ€μν 보μ μμ€ν
, νΌν© λ°μ΄ν° νμ΅, μ΄λ―Έμ§-λΉλμ€ κ³΅λ νμ΅, λΉλκΈ° νκ°λ₯Ό μ 곡νμ¬ λͺ¨λΈ μ±λ₯ ν₯μ λ° κ°λ° νΈμμ±μ λμ.
π μμΈ λ΄μ©
μ΅κ·Ό λκ·λͺ¨ μΈμ΄ λͺ¨λΈμ μΆλ‘ λ₯λ ₯ ν₯μμ κ°ν νμ΅μ΄ ν¨κ³Όμ μΈ κ²μΌλ‘ λνλ¬μ§λ§, λΉλμ€ μ΄ν΄ λΆμΌμμλ λ€μν νμ€ν¬ μ ν, λμ κ³μ° λΉμ©, μ¬ν κ°λ₯ν νκ°μ μ΄λ €μ λ±μΌλ‘ μΈν΄ μ°κ΅¬κ° λ―Έν‘νλ€. κΈ°μ‘΄ RL νλ μμν¬λ ν
μ€νΈ λ° μ΄λ―Έμ§μ μ΅μ νλμ΄ λΉλμ€μλ μ ν©νμ§ μμλ€. EasyVideoR1μ λΉλμ€ μ΄ν΄ νμ€ν¬λ₯Ό μν μμ νκ³ ν¨μ¨μ μΈ κ°ν νμ΅ νλ μμν¬λ₯Ό μ 곡νλ€. μ΄ νλ μμν¬λ μ€νλΌμΈ μ μ²λ¦¬ λ° ν
μ μΊμ±μ ν΅ν΄ λΉλμ€ λμ½λ©μ μ€λ³΅μ μ κ±°νκ³ μ²λ¦¬λμ 1.47λ°° ν₯μμν€λ©°, λ€μν λΉλμ€ λ° μ΄λ―Έμ§ λ¬Έμ μ νμ ν¬κ΄νλ 보μ μμ€ν
μ μ 곡νλ€. λν, νλ μ΄μ
λ κ³ νμ§ λ°μ΄ν°μ μ¨λΌμΈ νμμ κ²°ν©ν νΌν© νμ΅ λ°©μμ μ¬μ©νκ³ , μ΄λ―Έμ§μ λΉλμ€λ₯Ό ν¨κ» νμ΅νμ¬ μλ‘ κ°ννλλ‘ μ€κ³λμμΌλ©°, 22κ°μ λΉλμ€ μ΄ν΄ λ²€μΉλ§ν¬λ₯Ό νκ°ν μ μλ λΉλκΈ° νκ° νλ μμν¬λ₯Ό μ 곡νλ€.
π μ£Όμ λ΄μ© (Key Points)
- λΉλμ€ λμ½λ© μ΅μ νλ₯Ό ν΅ν΄ 1.47λ°° μ²λ¦¬λ ν₯μ
- 11κ°μ§ λΉλμ€/μ΄λ―Έμ§ λ¬Έμ μ νμ ν¬κ΄νλ ν΅ν© 보μ μμ€ν μ 곡
- μ€νλΌμΈ λ° μ¨λΌμΈ λ°μ΄ν°λ₯Ό κ²°ν©ν νΌν© νμ΅ λ°©μ μ μ©
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
λΉλμ€ μ΄ν΄ λͺ¨λΈ κ°λ° μ κ°ν νμ΅μ λ μ½κ² μ μ©νκ³ μ±λ₯μ ν₯μμν¬ μ μλλ‘, ν¨μ¨μ μΈ νμ΄νλΌμΈκ³Ό λ€μν κΈ°λ₯μ μ 곡νμ¬ κ°λ° μμ°μ±μ λμΌ μ μλ€.
β μΆμ² μ‘μ (Actionable Items)
- EasyVideoR1 νλ μμν¬λ₯Ό μ¬μ©νμ¬ κΈ°μ‘΄ λΉλμ€ μ΄ν΄ λͺ¨λΈμ κ°ν νμ΅ μ μ© μ€ν
- μ체 λΉλμ€ λ°μ΄ν°μ μ EasyVideoR1μ νΌν© νμ΅ λ°©μ μ μ© μ€ν
- EasyVideoR1μ 보μ μμ€ν μ νμ₯νμ¬ μλ‘μ΄ λΉλμ€ μ΄ν΄ νμ€ν¬μ μ μ© μ€ν