PyoSignal Logo
PyoSignal
Back to Research

When Can LLMs Learn to Reason with Weak Supervision?

Paper ID: 2604.18574 β€’ 18 Upvotes
LLM Reasoning Weak Supervision Reinforcement Learning Generalization Vision
When Can LLMs Learn to Reason with Weak Supervision?

πŸ“ 핡심 μš”μ•½

μ•½ν•œ μ§€λ„ν•™μŠ΅ ν™˜κ²½μ—μ„œ LLM이 μΆ”λ‘  λŠ₯λ ₯을 ν•™μŠ΅ν•  수 μžˆλŠ” 쑰건을 밝히고, 이λ₯Ό 톡해 μ‹€μ œ LLM의 μ„±λŠ₯을 κ°œμ„ ν•  수 μžˆλŠ” 방법을 μ œμ‹œν•©λ‹ˆλ‹€.

πŸ“– 상세 λ‚΄μš©

LLM은 κ°•ν™”ν•™μŠ΅μ„ 톡해 μΆ”λ‘  λŠ₯λ ₯이 ν–₯μƒλ˜μ—ˆμ§€λ§Œ, κ³ ν’ˆμ§ˆ 보상 μ‹ ν˜Έ κ΅¬μΆ•μ˜ 어렀움이 μžˆμŠ΅λ‹ˆλ‹€. λ³Έ μ—°κ΅¬λŠ” ν¬μ†Œ 데이터, 작음 μ„žμΈ 보상, 자기 지도 ν•™μŠ΅ ν”„λ‘μ‹œ 보상 λ“± μ•½ν•œ μ§€λ„ν•™μŠ΅ ν™˜κ²½μ—μ„œ LLM의 μΆ”λ‘  λŠ₯λ ₯ ν•™μŠ΅ κ°€λŠ₯성을 μ²΄κ³„μ μœΌλ‘œ λΆ„μ„ν•©λ‹ˆλ‹€. ν•™μŠ΅ 보상 포화 ν˜„μƒμ΄ μΌλ°˜ν™” μ„±λŠ₯을 μ’Œμš°ν•˜λ©°, μΆ”λ‘  좩싀도가 μ€‘μš”ν•œ 사전 μ‘°κ±΄μž„μ„ λ°νž™λ‹ˆλ‹€. λͺ…μ‹œμ  μΆ”λ‘  과정을 ν™œμš©ν•œ 지도 ν•™μŠ΅ λ―Έμ„Έ μ‘°μ •(SFT)κ³Ό 도메인 데이터 기반 지속적 사전 ν•™μŠ΅μ„ 톡해 Llama3.2-3B-Base λͺ¨λΈμ˜ μΌλ°˜ν™” μ„±λŠ₯을 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ£Όμš” λ‚΄μš© (Key Points)

  • μ•½ν•œ μ§€λ„ν•™μŠ΅ ν™˜κ²½μ—μ„œ LLM μΆ”λ‘  λŠ₯λ ₯ ν•™μŠ΅ 쑰건 뢄석
  • ν•™μŠ΅ 보상 포화 ν˜„μƒμ΄ μΌλ°˜ν™” μ„±λŠ₯에 λ―ΈμΉ˜λŠ” 영ν–₯ 규λͺ…
  • μΆ”λ‘  좩싀도가 LLM μΌλ°˜ν™” μ„±λŠ₯의 μ£Όμš” 예츑 λ³€μˆ˜μž„μ„ μ œμ‹œ

πŸ’‘ 싀무적 κ°€μΉ˜ (Relevance)

LLM을 ν™œμš©ν•œ μ„œλΉ„μŠ€ 개발 μ‹œ, 적은 λ°μ΄ν„°λ‚˜ λ…Έμ΄μ¦ˆκ°€ λ§Žμ€ ν™˜κ²½μ—μ„œλ„ 효과적인 μΆ”λ‘  λŠ₯λ ₯을 확보할 수 μžˆλŠ” 방법을 μ œμ‹œν•˜μ—¬ μ‹€μ œ 개발 ν™˜κ²½μ—μ„œμ˜ ν™œμš©λ„κ°€ λ†’μŠ΅λ‹ˆλ‹€.

βœ… μΆ”μ²œ μ•‘μ…˜ (Actionable Items)

  • LLM ν•™μŠ΅ μ‹œ μΆ”λ‘  좩싀도λ₯Ό λ†’μ΄λŠ” λ°©ν–₯으둜 데이터 ꡬ좕
  • μ•½ν•œ μ§€λ„ν•™μŠ΅ ν™˜κ²½μ—μ„œ SFT와 지속적 사전 ν•™μŠ΅ 병행 μ‹€ν—˜
  • ν•™μŠ΅ 보상 포화 μ‹œμ μ„ λͺ¨λ‹ˆν„°λ§ν•˜μ—¬ ν•™μŠ΅ μ „λž΅ μ‘°μ •