Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora
Paper ID: 2604.24819 β’ 69 Upvotes
LLM Fine-tuning Data Engineering Software Engineering Debugging Reasoning Benchmark Evaluation
π ν΅μ¬ μμ½
LLM νμ΅ λ°μ΄ν° μμ§λμ΄λ§μ μννΈμ¨μ΄ κ°λ°μ²λΌ 체κ³ννμ¬ λͺ¨λΈ μ±λ₯μ μ§λ¨νκ³ κ°μ νλ μλ‘μ΄ ν¨λ¬λ€μ μ μ.
π μμΈ λ΄μ©
μΈκ³΅μ§λ₯ λΆμΌμμ μ λ¬Έ μ§μμ ν
μ€νΈμμ LLMμΌλ‘ μμ μ μΌλ‘ μ΄μ νλ κ²μ μ¬μ ν μ΄λ €μ΄ κ³Όμ μ
λλ€. κΈ°μ‘΄ λ―ΈμΈ μ‘°μ (fine-tuning)μ μ±λ₯ ν₯μμ κ°μ Έμ€μ§λ§, λͺ¨λΈ μ€ν¨ μ νλ ¨ λ°μ΄ν°μ λ¬Έμ μ μ μ§λ¨ν νΌλλ°±μ΄ μμ΄ λ¬΄μμ λ°μ΄ν°λ₯Ό μΆκ°νλ λ°©μμ μμ‘΄νμ΅λλ€. μ΄ μ°κ΅¬λ ꡬ쑰νλ μ§μ ννμ νλ ¨ λ°μ΄ν°μ νκ°μ κ³΅ν΅ κΈ°λ°μΌλ‘ νμ©νμ¬, λ°μ΄ν° μμ§λμ΄λ§ μλͺ
μ£ΌκΈ°λ₯Ό μννΈμ¨μ΄ κ°λ° μλͺ
μ£ΌκΈ°μ μ νν μΌμΉμν€λ 'λ°μ΄ν°λ₯Ό ν΅ν νλ‘κ·Έλλ°(Programming with Data)' μμΉμ μ μν©λλ€. μ΄ λ°©λ²λ‘ μ λͺ¨λΈ μ€ν¨λ₯Ό λ°μ΄ν° κ²°ν¨μΌλ‘ μΆμ νκ³ νμ ν¨μΉλ₯Ό ν΅ν΄ μ리ν μ μκ² νλ©°, λͺ¨λΈ κ·λͺ¨μ μν€ν
μ²μ κ΄κ³μμ΄ μΌκ΄λ κ°μ μ κ°μ Έμ€κ³ μΌλ°μ μΈ λ₯λ ₯μ μ νμν€μ§ μμμ 16κ° λΆμΌμμ μ
μ¦νμ΅λλ€. μ΄ μμ
μ LLMμ μΈκ° μ λ¬Έ μ§μμ μμ μ μΌλ‘ μμ§λμ΄λ§νκΈ° μν μμΉμ μΈ κΈ°λ°μ λ§λ ¨ν©λλ€.
π μ£Όμ λ΄μ© (Key Points)
- LLM νλ ¨ λ°μ΄ν° μμ§λμ΄λ§μ μννΈμ¨μ΄ κ°λ° μλͺ μ£ΌκΈ°(SDLC)μ λ§€ννλ μλ‘μ΄ ν¨λ¬λ€μ μ μ.
- λͺ¨λΈ μ€ν¨λ₯Ό λ°μ΄ν° κ²°ν¨μΌλ‘ μ§λ¨νκ³ , μ΄λ₯Ό κΈ°λ°μΌλ‘ νλ ¨ λ°μ΄ν°λ₯Ό 체κ³μ μΌλ‘ μμ νλ λ°©λ²λ‘ ν립.
- 'Programming with Data' μμΉμ μ 립νκ³ , λ€μν κ³Όν λ° κ³΅ν λΆμΌμμ κ·Έ ν¨κ³Όμ νμ₯μ±μ μ μ¦.
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
κ°λ°μλ€μ LLM λ―ΈμΈ μ‘°μ μ 'λ°μ΄ν° λλ²κΉ
'μ΄λΌλ ꡬ체μ μΈ λ°©λ²μ ν΅ν΄ λͺ¨λΈ μ±λ₯ λ¬Έμ λ₯Ό ν΄κ²°νκ³ , λ°μ΄ν° μΆκ° μμ΄λ ν¨μ¨μ μΌλ‘ λͺ¨λΈμ κ°μ ν μ μλ 체κ³μ μΈ μ κ·Ό λ°©μμ μ»κ² λ©λλ€. μ΄λ LLM κ°λ°μ μμΈ‘ κ°λ₯μ±κ³Ό μ λ’°μ±μ ν¬κ² λμΌ μ μμ΅λλ€.
β μΆμ² μ‘μ (Actionable Items)
- νμ¬ LLM λ―ΈμΈ μ‘°μ νλ‘μ νΈμ μννΈμ¨μ΄ κ°λ° μλͺ μ£ΌκΈ°(SDLC)μ κ°λ (μ: λ¨μ ν μ€νΈ, λλ²κΉ )μ μ μ©ν΄ λ³Ό λ°©λ²μ λͺ¨μ.
- νΉμ λλ©μΈμ μ§μμ ꡬ쑰νλ ννλ‘ νννκ³ , μ΄λ₯Ό LLM νλ ¨ λ°μ΄ν° μμ± λ° νκ° λ²€μΉλ§ν¬ ꡬμΆμ νμ©νλ PoC(κ°λ μ¦λͺ ) μ§ν.
- λͺ¨λΈμ νΉμ μ€ν¨ μ¬λ‘λ₯Ό λΆμνμ¬ νλ ¨ λ°μ΄ν°μ μ΄λ€ λΆλΆμ΄ λΆμ‘±νλμ§ μ§λ¨νκ³ , ν΄λΉ λΆλΆμ 보μνλ λ°μ΄ν° ν¨μΉλ₯Ό μ μ©νλ μ€ν μν.