When Can LLMs Learn to Reason with Weak Supervision?

Paper ID: 2604.18574 • 18 Upvotes

LLM Reasoning Weak Supervision Reinforcement Learning Generalization Vision

When Can LLMs Learn to Reason with Weak Supervision?

📝 핵심 요약

약한 지도학습 환경에서 LLM이 추론 능력을 학습할 수 있는 조건을 밝히고, 이를 통해 실제 LLM의 성능을 개선할 수 있는 방법을 제시합니다.

📖 상세 내용

LLM은 강화학습을 통해 추론 능력이 향상되었지만, 고품질 보상 신호 구축의 어려움이 있습니다. 본 연구는 희소 데이터, 잡음 섞인 보상, 자기 지도 학습 프록시 보상 등 약한 지도학습 환경에서 LLM의 추론 능력 학습 가능성을 체계적으로 분석합니다. 학습 보상 포화 현상이 일반화 성능을 좌우하며, 추론 충실도가 중요한 사전 조건임을 밝힙니다. 명시적 추론 과정을 활용한 지도 학습 미세 조정(SFT)과 도메인 데이터 기반 지속적 사전 학습을 통해 Llama3.2-3B-Base 모델의 일반화 성능을 향상시켰습니다.

🔑 주요 내용 (Key Points)

약한 지도학습 환경에서 LLM 추론 능력 학습 조건 분석
학습 보상 포화 현상이 일반화 성능에 미치는 영향 규명
추론 충실도가 LLM 일반화 성능의 주요 예측 변수임을 제시

💡 실무적 가치 (Relevance)

LLM을 활용한 서비스 개발 시, 적은 데이터나 노이즈가 많은 환경에서도 효과적인 추론 능력을 확보할 수 있는 방법을 제시하여 실제 개발 환경에서의 활용도가 높습니다.

✅ 추천 액션 (Actionable Items)

LLM 학습 시 추론 충실도를 높이는 방향으로 데이터 구축
약한 지도학습 환경에서 SFT와 지속적 사전 학습 병행 실험
학습 보상 포화 시점을 모니터링하여 학습 전략 조정

View on Hugging Face View PDF (arXiv)