GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Paper ID: 2604.14258 • 19 Upvotes

LLM Fine-tuning Reinforcement Learning SFT Post-training Vision

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

📝 핵심 요약

LLM 후처리 과정에서 SFT의 한계를 극복하고 RL과의 통합을 강화하여 더 안정적이고 일반화 성능이 뛰어난 모델을 만드는 새로운 미세 조정 프레임워크.

📖 상세 내용

대규모 언어 모델(LLM)은 주로 SFT(지도 미세 조정)와 RL(강화 학습)을 통해 후처리되지만, 효율적인 지식 주입과 강력한 일반화를 동시에 달성하는 것은 어렵습니다. 본 연구는 SFT가 희소한 암묵적 보상과 불안정한 역확률 가중치로 인해 단일 경로 의존성, 엔트로피 붕괴, 기울기 폭발을 겪는다는 훈련 역학 분석을 제시합니다. 이러한 문제 진단에 기반하여, 우리는 Group Advantage Learning(다양한 응답 그룹 구성 및 정규화된 대비 감독)과 Dynamic Coefficient Rectification(역확률 가중치 적응적 제한)이라는 두 가지 메커니즘을 통해 SFT의 내재적 한계를 해결하는 통합 후처리 프레임워크인 GFT를 제안합니다. 실험 결과, GFT는 SFT 기반 방법들을 일관되게 능가하며, 후속 RL 훈련과 더 원활하게 통합되는 정책을 생성함을 보여줍니다.

🔑 주요 내용 (Key Points)

SFT의 훈련 역학 분석을 통해 희소한 보상, 불안정한 가중치, 엔트로피 붕괴 등의 근본적인 문제점 진단.
다양한 응답 그룹을 구성하고 정규화된 대비 감독을 활용하여 보상 희소성을 완화하는 Group Advantage Learning 제안.
역확률 가중치를 적응적으로 제한하여 최적화를 안정화하고 효율적인 지식 주입을 유지하는 Dynamic Coefficient Rectification 제안.

💡 실무적 가치 (Relevance)

개발자 관점에서 GFT는 기존 SFT의 불안정성과 한계를 극복하고, RLHF와 같은 강화 학습 단계와의 연계를 더욱 부드럽게 만들어 LLM의 성능과 안정성을 전반적으로 향상시킬 수 있는 실용적인 대안을 제공합니다. 이는 더 강력하고 일반화 능력이 뛰어난 LLM을 구축하는 데 기여할 수 있습니다.

✅ 추천 액션 (Actionable Items)

현재 사용 중인 SFT 기반 LLM 미세 조정 파이프라인에 GFT를 적용하여 기존 SFT 대비 성능 향상 및 안정성 개선 여부 검증.
GFT로 사전 학습된 모델을 RLHF(Reinforcement Learning from Human Feedback)와 같은 강화 학습 환경에 연결하여 RL 훈련의 효율성과 최종 모델의 품질 변화를 평가.
다양한 도메인(예: 코드 생성, 요약, 대화) 및 태스크에서 GFT의 일반화 성능과 특정 태스크에 대한 적합성을 실험.

View on Hugging Face View PDF (arXiv)