PyoSignal Logo
PyoSignal
Back to Research

DOPD: Dual On-policy Distillation

Paper ID: 2606.30626 β€’ 75 Upvotes
Knowledge Distillation LLM VLM On-policy Learning Vision Distillation
DOPD: Dual On-policy Distillation

πŸ“ 핡심 μš”μ•½

특ꢌ μ •λ³΄λ‘œ μΈν•œ μ„±λŠ₯ μ™œκ³‘(Privilege Illusion)을 λ°©μ§€ν•˜κΈ° μœ„ν•΄ ꡐ사와 학생 κ°„μ˜ 이득 차이λ₯Ό κ³ λ €ν•˜μ—¬ ν† ν°λ³„λ‘œ 감독 μ‹ ν˜Έλ₯Ό λ™μ μœΌλ‘œ λ°°λΆ„ν•˜λŠ” 이쀑 증λ₯˜ 기법

πŸ“– 상세 λ‚΄μš©

On-policy distillation(OPD)은 학생 λͺ¨λΈμ΄ μƒμ„±ν•œ ꢀ적에 λ°€μ§‘λœ 토큰 λ‹¨μœ„ μ‹ ν˜Έλ₯Ό μ œκ³΅ν•˜μ—¬ μš°μˆ˜ν•œ 지식 전이λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€. ν•˜μ§€λ§Œ κ΅μ‚¬λ‚˜ ν•™μƒμ—κ²Œ 특ꢌ 정보(privileged information)λ₯Ό μ£Όμž…ν•  경우, 학생이 ν•™μŠ΅ν•΄μ•Ό ν•  λŠ₯λ ₯ 차이와 λ‹¨μˆœνžˆ λͺ¨λ°©λ§Œ κ°€λŠ₯ν•œ 정보 λΉ„λŒ€μΉ­μ„ ν˜Όλ™ν•˜λŠ” 'Privilege Illusion' λ¬Έμ œκ°€ λ°œμƒν•©λ‹ˆλ‹€. λ˜ν•œ λͺ¨λ“  토큰이 λ™μΌν•œ μ€‘μš”λ„λ₯Ό κ°–μ§€ μ•ŠλŠ” 비균일성 λ¬Έμ œλ„ μ‘΄μž¬ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λ³Έ 논문은 Advantage Gapκ³Ό μƒλŒ€μ  ν™•λ₯ μ— 따라 ꡐ사와 학생 쀑 λˆ„κ΅¬λ‘œλΆ€ν„° 감독을 받을지 λ™μ μœΌλ‘œ κ²°μ •ν•˜λŠ” DOPD ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 각 토큰은 상황에 따라 μ„œλ‘œ λ‹€λ₯Έ 강도와 μ „λž΅μ˜ 감독을 λ°›μœΌλ©°, 이λ₯Ό 톡해 μ‹ λ’°ν•  수 μžˆλŠ” λŠ₯λ ₯ 전이와 보쑰 μ‹ ν˜Έ νšλ“μ„ λ™μ‹œμ— λ‹¬μ„±ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό LLM 및 VLM ν™˜κ²½μ—μ„œ κΈ°μ‘΄ OPD λŒ€λΉ„ λ›°μ–΄λ‚œ μ„±λŠ₯κ³Ό μ•ˆμ •μ„±, 강건성을 μž…μ¦ν•˜μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ£Όμš” λ‚΄μš© (Key Points)

  • Privilege Illusion: 특ꢌ 정보 μ£Όμž… μ‹œ λ°œμƒν•˜λŠ” λŠ₯λ ₯ 차이와 정보 λΉ„λŒ€μΉ­μ˜ ν˜Όλ™ 문제 μ •μ˜
  • DOPD: Advantage-aware dual distillation을 ν†΅ν•œ 토큰별 동적 감독 λΌμš°νŒ… λ©”μ»€λ‹ˆμ¦˜
  • Token-level Granularity: 토큰별 μ€‘μš”λ„μ™€ μ •μ±… 차이λ₯Ό κ³ λ €ν•œ μ μ‘ν˜• 지식 전이

πŸ’‘ 싀무적 κ°€μΉ˜ (Relevance)

λͺ¨λΈ κ²½λŸ‰ν™”λ‚˜ 지식 증λ₯˜ μ‹œ, μ™ΈλΆ€ λ°μ΄ν„°λ‚˜ μΆ”κ°€ 정보λ₯Ό ν™œμš©ν•  λ•Œ λ°œμƒν•˜λŠ” μ„±λŠ₯ μ™œκ³‘μ„ λ§‰λŠ” μ •κ΅ν•œ ν•™μŠ΅ μ „λž΅μ„ μ œκ³΅ν•©λ‹ˆλ‹€.

βœ… μΆ”μ²œ μ•‘μ…˜ (Actionable Items)

  • 특ꢌ 정보(예: Ground Truth, Chain-of-Thought)λ₯Ό ν¬ν•¨ν•œ λ°μ΄ν„°μ…‹μ—μ„œ κΈ°μ‘΄ OPD와 DOPD의 μ„±λŠ₯ 비ꡐ μ‹€ν—˜
  • 토큰별 μ€‘μš”λ„(Advantage) 계산 둜직이 μ‹€μ œ ν•™μŠ΅ μ•ˆμ •μ„±μ— λ―ΈμΉ˜λŠ” 영ν–₯ 뢄석
  • LLMκ³Ό VLM ν™˜κ²½μ—μ„œμ˜ λ²”μš©μ„± 검증