LiveEdit: Towards Real-Time Diffusion-Based Streaming Video Editing
Paper ID: 2606.26740 β’ 67 Upvotes
Video Editing Diffusion Models Real-time Inference Augmented Reality Video Benchmark Evaluation Inference Distillation
π ν΅μ¬ μμ½
μ€μκ° μνΈμμ©μ μν΄ λ°°κ²½ μ μ§μ μ μ§μ°μ±μ λμμ ν΄κ²°ν μ€νΈλ¦¬λ° λΉλμ€ νΈμ§ νλ μμν¬
π μμΈ λ΄μ©
κΈ°μ‘΄ μ€νΈλ¦¬λ° λΉλμ€ νΈμ§μ λ°°κ²½ μμ μ± μ μ§μ μ€μκ° μλ΅μ± ν보λΌλ λ κ°μ§ ν΅μ¬ κ³Όμ μ μ§λ©΄ν΄ μμ΅λλ€. νΉν κΈ°μ‘΄ μμ± λͺ¨λΈμ νΈμ§ μ νμν μμλ³ μ μ΄μ μ½ν
μΈ λ³΄μ‘΄ λ₯λ ₯μ΄ λΆμ‘±νμ¬ μ€μκ° νΈμ§μ μ μ©νκΈ° μ΄λ ΅μ΅λλ€. λ³Έ λ
Όλ¬Έμ μΈκ³Όμ (causal) νλ μ λ¨μ νΈμ§μ μ§μνλ©°, κ°λ ₯ν μ½ν
μΈ λ³΄μ‘΄κ³Ό μ€μκ°μ±μ λμμ λ¬μ±νλ μλ‘μ΄ νλ μμν¬λ₯Ό μ μν©λλ€. μ΄λ₯Ό μν΄ μλ°©ν₯ λͺ¨λΈμ λ₯λ ₯μ λ¨λ°©ν₯ μ€νΈλ¦¬λ° λͺ¨λΈλ‘ μ μ΄νλ 3λ¨κ³ μ¦λ₯(distillation) νμ΄νλΌμΈμ μ€κ³νμ΅λλ€. λν, AR νκ²½μ κ³ λ €ν λ§μ€ν¬ μΊμ(mask cache)λ₯Ό λμ
νμ¬ μ€λ³΅ μ°μ°μ μ€μ΄κ³ μΆλ‘ μλλ₯Ό κ·Ήλννμ΅λλ€. μ€ν κ²°κ³Ό, λμ μκ°μ νμ§μ μ μ§νλ©΄μλ 12.66 FPSμ λΉ λ₯Έ μλλ₯Ό λ¬μ±νμ¬ μ€μκ° μΈν°λν°λΈ μ ν리μΌμ΄μ
μ μ ν©ν¨μ μ
μ¦νμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- μλ°©ν₯ λͺ¨λΈμ νΈμ§ λ₯λ ₯μ λ¨λ°©ν₯ λͺ¨λΈλ‘ μ μ΄νλ 3λ¨κ³ μ¦λ₯ νμ΄νλΌμΈ μ€κ³
- AR νκ²½μ μ΅μ νλ λ§μ€ν¬ μΊμλ₯Ό ν΅ν μ°μ° ν¨μ¨μ± λ° μΆλ‘ μλ ν₯μ
- μ₯κΈ°μ μΈ νΈμ§ κ³Όμ μμλ λ°°κ²½κ³Ό λΉνΈμ§ μμμ μμ μ μΌλ‘ μ μ§νλ κΈ°μ
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
μ€μκ° λΉλμ€ νΈμ§ λ° AR/VR νκ²½μμ μ§μ° μκ° μμ΄ κ³ νμ§ νΈμ§ κΈ°λ₯μ ꡬνν μ μλ κΈ°μ μ ν λλ₯Ό μ 곡ν©λλ€.
β μΆμ² μ‘μ (Actionable Items)
- μ μλ 3λ¨κ³ μ¦λ₯ νμ΄νλΌμΈμ νμ΅ μμ μ± λ° μλ ΄ μλ κ²μ¦
- λ€μν ν΄μλ λ° λ³΅μ‘ν λ°°κ²½ νκ²½μμμ λ§μ€ν¬ μΊμ ν¨μ¨μ± ν μ€νΈ
- κΈ°μ‘΄ μ€μκ° μμ± λͺ¨λΈκ³Όμ FPS λ° μκ°μ νμ§ λΉκ΅ μ€ν