DOPD: Dual On-policy Distillation
Paper ID: 2606.30626 β’ 75 Upvotes
Knowledge Distillation LLM VLM On-policy Learning Vision Distillation
π ν΅μ¬ μμ½
νΉκΆ μ λ³΄λ‘ μΈν μ±λ₯ μ곑(Privilege Illusion)μ λ°©μ§νκΈ° μν΄ κ΅μ¬μ νμ κ°μ μ΄λ μ°¨μ΄λ₯Ό κ³ λ €νμ¬ ν ν°λ³λ‘ κ°λ
μ νΈλ₯Ό λμ μΌλ‘ λ°°λΆνλ μ΄μ€ μ¦λ₯ κΈ°λ²
π μμΈ λ΄μ©
On-policy distillation(OPD)μ νμ λͺ¨λΈμ΄ μμ±ν κΆ€μ μ λ°μ§λ ν ν° λ¨μ μ νΈλ₯Ό μ 곡νμ¬ μ°μν μ§μ μ μ΄λ₯Ό κ°λ₯νκ² ν©λλ€. νμ§λ§ κ΅μ¬λ νμμκ² νΉκΆ μ 보(privileged information)λ₯Ό μ£Όμ
ν κ²½μ°, νμμ΄ νμ΅ν΄μΌ ν λ₯λ ₯ μ°¨μ΄μ λ¨μν λͺ¨λ°©λ§ κ°λ₯ν μ 보 λΉλμΉμ νΌλνλ 'Privilege Illusion' λ¬Έμ κ° λ°μν©λλ€. λν λͺ¨λ ν ν°μ΄ λμΌν μ€μλλ₯Ό κ°μ§ μλ λΉκ· μΌμ± λ¬Έμ λ μ‘΄μ¬ν©λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ λ³Έ λ
Όλ¬Έμ Advantage Gapκ³Ό μλμ νλ₯ μ λ°λΌ κ΅μ¬μ νμ μ€ λꡬλ‘λΆν° κ°λ
μ λ°μμ§ λμ μΌλ‘ κ²°μ νλ DOPD νλ μμν¬λ₯Ό μ μν©λλ€. κ° ν ν°μ μν©μ λ°λΌ μλ‘ λ€λ₯Έ κ°λμ μ λ΅μ κ°λ
μ λ°μΌλ©°, μ΄λ₯Ό ν΅ν΄ μ λ’°ν μ μλ λ₯λ ₯ μ μ΄μ 보쑰 μ νΈ νλμ λμμ λ¬μ±ν©λλ€. μ€ν κ²°κ³Ό LLM λ° VLM νκ²½μμ κΈ°μ‘΄ OPD λλΉ λ°μ΄λ μ±λ₯κ³Ό μμ μ±, κ°κ±΄μ±μ μ
μ¦νμμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- Privilege Illusion: νΉκΆ μ 보 μ£Όμ μ λ°μνλ λ₯λ ₯ μ°¨μ΄μ μ 보 λΉλμΉμ νΌλ λ¬Έμ μ μ
- DOPD: Advantage-aware dual distillationμ ν΅ν ν ν°λ³ λμ κ°λ λΌμ°ν λ©μ»€λμ¦
- Token-level Granularity: ν ν°λ³ μ€μλμ μ μ± μ°¨μ΄λ₯Ό κ³ λ €ν μ μν μ§μ μ μ΄
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
λͺ¨λΈ κ²½λνλ μ§μ μ¦λ₯ μ, μΈλΆ λ°μ΄ν°λ μΆκ° μ 보λ₯Ό νμ©ν λ λ°μνλ μ±λ₯ μ곑μ λ§λ μ κ΅ν νμ΅ μ λ΅μ μ 곡ν©λλ€.
β μΆμ² μ‘μ (Actionable Items)
- νΉκΆ μ 보(μ: Ground Truth, Chain-of-Thought)λ₯Ό ν¬ν¨ν λ°μ΄ν°μ μμ κΈ°μ‘΄ OPDμ DOPDμ μ±λ₯ λΉκ΅ μ€ν
- ν ν°λ³ μ€μλ(Advantage) κ³μ° λ‘μ§μ΄ μ€μ νμ΅ μμ μ±μ λ―ΈμΉλ μν₯ λΆμ
- LLMκ³Ό VLM νκ²½μμμ λ²μ©μ± κ²μ¦