When Can LLMs Learn to Reason with Weak Supervision?
Paper ID: 2604.18574 β’ 18 Upvotes
LLM Reasoning Weak Supervision Reinforcement Learning Generalization Vision
π ν΅μ¬ μμ½
μ½ν μ§λνμ΅ νκ²½μμ LLMμ΄ μΆλ‘ λ₯λ ₯μ νμ΅ν μ μλ 쑰건μ λ°νκ³ , μ΄λ₯Ό ν΅ν΄ μ€μ LLMμ μ±λ₯μ κ°μ ν μ μλ λ°©λ²μ μ μν©λλ€.
π μμΈ λ΄μ©
LLMμ κ°ννμ΅μ ν΅ν΄ μΆλ‘ λ₯λ ₯μ΄ ν₯μλμμ§λ§, κ³ νμ§ λ³΄μ μ νΈ κ΅¬μΆμ μ΄λ €μμ΄ μμ΅λλ€. λ³Έ μ°κ΅¬λ ν¬μ λ°μ΄ν°, μ‘μ μμΈ λ³΄μ, μκΈ° μ§λ νμ΅ νλ‘μ 보μ λ± μ½ν μ§λνμ΅ νκ²½μμ LLMμ μΆλ‘ λ₯λ ₯ νμ΅ κ°λ₯μ±μ 체κ³μ μΌλ‘ λΆμν©λλ€. νμ΅ λ³΄μ ν¬ν νμμ΄ μΌλ°ν μ±λ₯μ μ’μ°νλ©°, μΆλ‘ μΆ©μ€λκ° μ€μν μ¬μ 쑰건μμ λ°νλλ€. λͺ
μμ μΆλ‘ κ³Όμ μ νμ©ν μ§λ νμ΅ λ―ΈμΈ μ‘°μ (SFT)κ³Ό λλ©μΈ λ°μ΄ν° κΈ°λ° μ§μμ μ¬μ νμ΅μ ν΅ν΄ Llama3.2-3B-Base λͺ¨λΈμ μΌλ°ν μ±λ₯μ ν₯μμμΌ°μ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- μ½ν μ§λνμ΅ νκ²½μμ LLM μΆλ‘ λ₯λ ₯ νμ΅ μ‘°κ±΄ λΆμ
- νμ΅ λ³΄μ ν¬ν νμμ΄ μΌλ°ν μ±λ₯μ λ―ΈμΉλ μν₯ κ·λͺ
- μΆλ‘ μΆ©μ€λκ° LLM μΌλ°ν μ±λ₯μ μ£Όμ μμΈ‘ λ³μμμ μ μ
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
LLMμ νμ©ν μλΉμ€ κ°λ° μ, μ μ λ°μ΄ν°λ λ
Έμ΄μ¦κ° λ§μ νκ²½μμλ ν¨κ³Όμ μΈ μΆλ‘ λ₯λ ₯μ ν보ν μ μλ λ°©λ²μ μ μνμ¬ μ€μ κ°λ° νκ²½μμμ νμ©λκ° λμ΅λλ€.
β μΆμ² μ‘μ (Actionable Items)
- LLM νμ΅ μ μΆλ‘ μΆ©μ€λλ₯Ό λμ΄λ λ°©ν₯μΌλ‘ λ°μ΄ν° ꡬμΆ
- μ½ν μ§λνμ΅ νκ²½μμ SFTμ μ§μμ μ¬μ νμ΅ λ³ν μ€ν
- νμ΅ λ³΄μ ν¬ν μμ μ λͺ¨λν°λ§νμ¬ νμ΅ μ λ΅ μ‘°μ