PyoSignal Logo
PyoSignal
Back to Research

DanceOPD: On-Policy Generative Field Distillation

Paper ID: 2606.27377 β€’ 69 Upvotes
Generative AI Diffusion Models Knowledge Distillation Image Editing Vision Distillation
DanceOPD: On-Policy Generative Field Distillation

πŸ“ 핡심 μš”μ•½

λ‹€μ–‘ν•œ 이미지 생성 κΈ°λŠ₯(T2I, νŽΈμ§‘ λ“±) κ°„μ˜ μΆ©λŒμ„ ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ˜¨ν΄λ¦¬μ‹œ(On-policy) ν•„λ“œ 증λ₯˜ 기법을 μ μš©ν•œ Flow-matching λͺ¨λΈ ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬

πŸ“– 상세 λ‚΄μš©

졜근 이미지 생성 λͺ¨λΈμ€ ν…μŠ€νŠΈ-이미지 생성(T2I)κ³Ό 둜컬/κΈ€λ‘œλ²Œ νŽΈμ§‘ κΈ°λŠ₯을 λ™μ‹œμ— μš”κ΅¬ν•˜μ§€λ§Œ, 각 κΈ°λŠ₯ κ°„μ˜ μƒμΆ©ν•˜λŠ” νŠΉμ„±μœΌλ‘œ 인해 μ„±λŠ₯ μ €ν•˜κ°€ λ°œμƒν•˜λŠ” λ¬Έμ œκ°€ μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λ³Έ 논문은 DanceOPDλΌλŠ” μ˜¨ν΄λ¦¬μ‹œ 생성 ν•„λ“œ 증λ₯˜ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 방식은 각 μƒ˜ν”Œμ„ νŠΉμ • κΈ°λŠ₯ ν•„λ“œλ‘œ λΌμš°νŒ…ν•˜κ³ , 학생 λͺ¨λΈμ˜ 자체 둀아웃 μƒνƒœμ—μ„œ 쿼리된 μƒνƒœλ₯Ό 톡해 ν•™μŠ΅ν•˜λŠ” ꡬ쑰λ₯Ό κ°€μ§‘λ‹ˆλ‹€. 각 κΈ°λŠ₯은 곡유된 ν”Œλ‘œμš° μƒνƒœ κ³΅κ°„μ—μ„œμ˜ 속도μž₯(velocity field)으둜 μ •μ˜λ˜μ–΄, 볡합적인 κΈ°λŠ₯듀을 μžμ—°μŠ€λŸ½κ²Œ ν†΅ν•©ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, 기쑴의 생성 ν’ˆμ§ˆμ„ μœ μ§€ν•˜λ©΄μ„œλ„ λ‹€μ–‘ν•œ νŽΈμ§‘ 및 생성 κΈ°λŠ₯의 μ‘°ν™”λ‘œμš΄ 결합이 κ°€λŠ₯함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ£Όμš” λ‚΄μš© (Key Points)

  • On-policy generative field distillation을 ν†΅ν•œ 닀쀑 κΈ°λŠ₯(T2I, Editing)의 좩돌 λ°©μ§€
  • 각 κΈ°λŠ₯을 곡유된 ν”Œλ‘œμš° μƒνƒœ 곡간 λ‚΄μ˜ 속도μž₯(velocity field)으둜 μ •μ˜ν•˜μ—¬ 톡합
  • CFG(Classifier-free guidance)와 같은 μ—°μ‚°μž μ •μ˜ ν•„λ“œκΉŒμ§€ 흑수 κ°€λŠ₯ν•œ λ²”μš©μ  섀계

πŸ’‘ 싀무적 κ°€μΉ˜ (Relevance)

ν•˜λ‚˜μ˜ λͺ¨λΈμ— μ—¬λŸ¬ νŽΈμ§‘ 및 생성 κΈ°λŠ₯을 넣을 λ•Œ λ°œμƒν•˜λŠ” μ„±λŠ₯ μ €ν•˜ 문제λ₯Ό ν•΄κ²°ν•˜λŠ” μ‹€μš©μ μΈ ν•™μŠ΅ 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.

βœ… μΆ”μ²œ μ•‘μ…˜ (Actionable Items)

  • Flow-matching 기반 λͺ¨λΈ(예: Stable Diffusion 3 λ“±)에 ν•΄λ‹Ή 증λ₯˜ ν”„λ ˆμž„μ›Œν¬ 적용 ν…ŒμŠ€νŠΈ
  • νŠΉμ • κΈ°λŠ₯(예: νŽΈμ§‘) κ°•ν™” μ‹œ κΈ°λ³Έ 생성 ν’ˆμ§ˆ(T2I)이 μ–Όλ§ˆλ‚˜ μœ μ§€λ˜λŠ”μ§€ 벀치마크 μˆ˜ν–‰
  • CFG λ“± κΈ°μ‘΄ κ°€μ΄λ˜μŠ€ 기법과 κ²°ν•© μ‹œμ˜ 수렴 μ•ˆμ •μ„± 확인