DOPD: Dual On-policy Distillation

Paper ID: 2606.30626 • 75 Upvotes

Knowledge Distillation LLM VLM On-policy Learning Vision Distillation

📝 핵심 요약

특권 정보로 인한 성능 왜곡(Privilege Illusion)을 방지하기 위해 교사와 학생 간의 이득 차이를 고려하여 토큰별로 감독 신호를 동적으로 배분하는 이중 증류 기법

📖 상세 내용

On-policy distillation(OPD)은 학생 모델이 생성한 궤적에 밀집된 토큰 단위 신호를 제공하여 우수한 지식 전이를 가능하게 합니다. 하지만 교사나 학생에게 특권 정보(privileged information)를 주입할 경우, 학생이 학습해야 할 능력 차이와 단순히 모방만 가능한 정보 비대칭을 혼동하는 'Privilege Illusion' 문제가 발생합니다. 또한 모든 토큰이 동일한 중요도를 갖지 않는 비균일성 문제도 존재합니다. 이를 해결하기 위해 본 논문은 Advantage Gap과 상대적 확률에 따라 교사와 학생 중 누구로부터 감독을 받을지 동적으로 결정하는 DOPD 프레임워크를 제안합니다. 각 토큰은 상황에 따라 서로 다른 강도와 전략의 감독을 받으며, 이를 통해 신뢰할 수 있는 능력 전이와 보조 신호 획득을 동시에 달성합니다. 실험 결과 LLM 및 VLM 환경에서 기존 OPD 대비 뛰어난 성능과 안정성, 강건성을 입증하였습니다.

🔑 주요 내용 (Key Points)

Privilege Illusion: 특권 정보 주입 시 발생하는 능력 차이와 정보 비대칭의 혼동 문제 정의
DOPD: Advantage-aware dual distillation을 통한 토큰별 동적 감독 라우팅 메커니즘
Token-level Granularity: 토큰별 중요도와 정책 차이를 고려한 적응형 지식 전이

💡 실무적 가치 (Relevance)

모델 경량화나 지식 증류 시, 외부 데이터나 추가 정보를 활용할 때 발생하는 성능 왜곡을 막는 정교한 학습 전략을 제공합니다.

✅ 추천 액션 (Actionable Items)

특권 정보(예: Ground Truth, Chain-of-Thought)를 포함한 데이터셋에서 기존 OPD와 DOPD의 성능 비교 실험
토큰별 중요도(Advantage) 계산 로직이 실제 학습 안정성에 미치는 영향 분석
LLM과 VLM 환경에서의 범용성 검증

View on Hugging Face View PDF (arXiv)