LooseControlVideo: Directorial Video Control using Spatial Blocking
Paper ID: 2606.19495 β’ 1 Upvotes
Video-Generation 3D-Control Computer-Vision Generative-AI Agent RAG Video Benchmark Evaluation
π ν΅μ¬ μμ½
ν¬μν 3D λ°μ€ μ 보λ§μΌλ‘ 볡μ‘ν λ©ν° κ°μ²΄ μμμ λ μ΄μμκ³Ό μμ§μμ μ μ΄νλ μλ‘μ΄ λΉλμ€ μμ± νλ μμν¬
π μμΈ λ΄μ©
κΈ°μ‘΄μ ν
μ€νΈ-λΉλμ€ μμ± κΈ°μ μ λ©ν° κ°μ²΄ μ₯λ©΄μμ μλ―Έμ λ μ΄μμκ³Ό μκ°μ μλμ±μ λΆλ¦¬νμ¬ μ μ΄νλ λ° μ΄λ €μμ΄ μμμ΅λλ€. νΉν μ λ°ν 3D ꡬ쑰λ₯Ό μν΄ νλ μλ§λ€ λ°μ§λ κ°μ΄λλ₯Ό μ 곡ν΄μΌ νλ μμ
λΆν λ¬Έμ κ° μ‘΄μ¬νμ΅λλ€. λ³Έ λ
Όλ¬Έμ ν¬μνκ³ λ°©ν₯μ±μ΄ μλ 3D λ°μ€λ₯Ό 'λΈλ‘νΉ(blocking)' νλ‘μλ‘ μ¬μ©νλ LooseControlVideo νλ μμν¬λ₯Ό μ μν©λλ€. μ΄λ₯Ό μν΄ 3D ν¬κΈ°, λ°©ν₯, νμ(occlusion) μμλ₯Ό μΈμ½λ©νλ DNOCS λ°μ΄ν°μ
μ νμ©νμ¬ Wan 2.2 λ°±λ³Έμ λ―ΈμΈ μ‘°μ νμ΅λλ€. μ€ν κ²°κ³Ό, κΈ°μ‘΄ 2D λ°μ€ λ° νλ‘μ° κΈ°λ° λ°©μλ³΄λ€ κΆ€μ μ νλμ κ°μ²΄ μ΄λ μΌκ΄μ±, νμ μ νλ λ©΄μμ λ°μ΄λ μ±λ₯μ μ
μ¦νμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- ν¬μν 3D λ°μ€(Sparse 3D boxes)λ₯Ό νμ©ν μ§κ΄μ μΈ λΉλμ€ λ μ΄μμ λ° κΆ€μ μ μ΄
- 3D ν¬κΈ°, λ°©ν₯, κΉμ΄ μμ κΈ°λ° νμ μ 보λ₯Ό ν¬ν¨νλ μλ‘μ΄ μΈμ½λ© λ°©μ(DNOCS) λμ
- κΈλ‘λ² μ»¨ν μ€νΈλ₯Ό μ μ§νλ©΄μ νΉμ κ°μ²΄μ μμ§μμ΄λ μνΈμμ©λ§ μμ κ°λ₯ν κ΅μμ μ λ° μ μ΄ κΈ°λ₯
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
볡μ‘ν 3D κ°μ΄λ μμ΄λ μ΅μνμ λ°μ€ μ 보λ§μΌλ‘ μ κ΅ν 물리μ μνΈμμ©μ΄ ν¬ν¨λ λΉλμ€λ₯Ό μμ±ν μ μμ΄, μμ μ μ μν¬νλ‘μ°μ ν¨μ¨μ±μ ν¬κ² λμΌ μ μμ΅λλ€.
β μΆμ² μ‘μ (Actionable Items)
- Wan 2.2 λͺ¨λΈκ³Ό DNOCS λ°μ΄ν°μ μ νΈνμ± λ° νμ΅ λ¦¬μμ€ νμΈ
- μ 곡λ 3D λ°μ€ κ°μ΄λκ° λ³΅μ‘ν λΉμ ν κ°μ²΄(μ: μ¬λμ μμ§μ)μ μΌλ§λ μ μ μ©λλμ§ ν μ€νΈ
- κΈ°μ‘΄ 2D κΈ°λ° μ μ΄ λ°©μκ³Όμ μμ± νμ§ λ° μμ μκ° λΉκ΅ μ€ν