DanceOPD: On-Policy Generative Field Distillation
Paper ID: 2606.27377 β’ 69 Upvotes
Generative AI Diffusion Models Knowledge Distillation Image Editing Vision Distillation
π ν΅μ¬ μμ½
λ€μν μ΄λ―Έμ§ μμ± κΈ°λ₯(T2I, νΈμ§ λ±) κ°μ μΆ©λμ ν΄κ²°νκΈ° μν΄ μ¨ν΄λ¦¬μ(On-policy) νλ μ¦λ₯ κΈ°λ²μ μ μ©ν Flow-matching λͺ¨λΈ νμ΅ νλ μμν¬
π μμΈ λ΄μ©
μ΅κ·Ό μ΄λ―Έμ§ μμ± λͺ¨λΈμ ν
μ€νΈ-μ΄λ―Έμ§ μμ±(T2I)κ³Ό λ‘컬/κΈλ‘λ² νΈμ§ κΈ°λ₯μ λμμ μꡬνμ§λ§, κ° κΈ°λ₯ κ°μ μμΆ©νλ νΉμ±μΌλ‘ μΈν΄ μ±λ₯ μ νκ° λ°μνλ λ¬Έμ κ° μμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ λ³Έ λ
Όλ¬Έμ DanceOPDλΌλ μ¨ν΄λ¦¬μ μμ± νλ μ¦λ₯ νλ μμν¬λ₯Ό μ μν©λλ€. μ΄ λ°©μμ κ° μνμ νΉμ κΈ°λ₯ νλλ‘ λΌμ°ν
νκ³ , νμ λͺ¨λΈμ μ체 λ‘€μμ μνμμ 쿼리λ μνλ₯Ό ν΅ν΄ νμ΅νλ ꡬ쑰λ₯Ό κ°μ§λλ€. κ° κΈ°λ₯μ 곡μ λ νλ‘μ° μν 곡κ°μμμ μλμ₯(velocity field)μΌλ‘ μ μλμ΄, 볡ν©μ μΈ κΈ°λ₯λ€μ μμ°μ€λ½κ² ν΅ν©ν©λλ€. μ€ν κ²°κ³Ό, κΈ°μ‘΄μ μμ± νμ§μ μ μ§νλ©΄μλ λ€μν νΈμ§ λ° μμ± κΈ°λ₯μ μ‘°νλ‘μ΄ κ²°ν©μ΄ κ°λ₯ν¨μ μ
μ¦νμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- On-policy generative field distillationμ ν΅ν λ€μ€ κΈ°λ₯(T2I, Editing)μ μΆ©λ λ°©μ§
- κ° κΈ°λ₯μ 곡μ λ νλ‘μ° μν κ³΅κ° λ΄μ μλμ₯(velocity field)μΌλ‘ μ μνμ¬ ν΅ν©
- CFG(Classifier-free guidance)μ κ°μ μ°μ°μ μ μ νλκΉμ§ ν‘μ κ°λ₯ν λ²μ©μ μ€κ³
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
νλμ λͺ¨λΈμ μ¬λ¬ νΈμ§ λ° μμ± κΈ°λ₯μ λ£μ λ λ°μνλ μ±λ₯ μ ν λ¬Έμ λ₯Ό ν΄κ²°νλ μ€μ©μ μΈ νμ΅ λ°©λ²λ‘ μ μ μν©λλ€.
β μΆμ² μ‘μ (Actionable Items)
- Flow-matching κΈ°λ° λͺ¨λΈ(μ: Stable Diffusion 3 λ±)μ ν΄λΉ μ¦λ₯ νλ μμν¬ μ μ© ν μ€νΈ
- νΉμ κΈ°λ₯(μ: νΈμ§) κ°ν μ κΈ°λ³Έ μμ± νμ§(T2I)μ΄ μΌλ§λ μ μ§λλμ§ λ²€μΉλ§ν¬ μν
- CFG λ± κΈ°μ‘΄ κ°μ΄λμ€ κΈ°λ²κ³Ό κ²°ν© μμ μλ ΄ μμ μ± νμΈ