Dockerless: Environment-Free Program Verifier for Coding Agents
Paper ID: 2606.28436 β’ 83 Upvotes
AI Agent Code Verification Reinforcement Learning Software Engineering Agent Vision Benchmark Evaluation
π ν΅μ¬ μμ½
μ½λ μ€ν μμ΄ μμ΄μ νΈμ μ μ₯μ νμ λ₯λ ₯μ νμ©νμ¬ μ½λ ν¨μΉλ₯Ό κ²μ¦νλ νκ²½ λ
립μ (Environment-free) κ²μ¦ νλ μμν¬
π μμΈ λ΄μ©
μ½λ© μμ΄μ νΈ νμ΅μ μν νλ‘κ·Έλ¨ κ²μ¦μ μΌλ°μ μΌλ‘ Dockerμ κ°μ 격리λ μ€ν νκ²½μ νμλ‘ νλ©°, μ΄λ λ§λν μ€μ λΉμ©μ λ°μμν΅λλ€. λ³Έ λ
Όλ¬Έμ μ½λλ₯Ό μ§μ μ€ννμ§ μκ³ λ ν¨μΉμ μ λ΅ μ¬λΆλ₯Ό νλ¨νλ 'Dockerless'λ₯Ό μ μν©λλ€. Dockerlessλ λ¨μν μ°Έμ‘° μ½λμ λΉκ΅νλ λμ , μμ΄μ νΈκ° μ μ₯μλ₯Ό νμνλ©° μμ§ν μ¦κ±°λ₯Ό λ°νμΌλ‘ ν¨μΉμ μ νμ±μ νλ¨ν©λλ€. λ²€μΉλ§ν¬ κ²°κ³Ό, Dockerlessλ κΈ°μ‘΄ μ€νμμ€ κ²μ¦κΈ°λ³΄λ€ 14.3 AUCλ§νΌ λμ μ±λ₯μ 보μμ΅λλ€. μ΄λ₯Ό SFT νν° λ° RL 보μ λͺ¨λΈλ‘ νμ©ν κ²°κ³Ό, νκ²½ κ΅¬μΆ μμ΄λ κΈ°μ‘΄ μ€ν κΈ°λ° λ°©μμ νμ νλ λμ SWE-bench ν΄κ²° λ₯λ ₯μ λ¬λ¦¬κΈ°νμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- μ€ν νκ²½(Docker λ±) μμ΄ μ½λ ν¨μΉμ μ λ΅ μ¬λΆλ₯Ό νλ¨νλ νκ²½ λ 립μ κ²μ¦ λ°©μ μ μ
- μμ΄μ νΈμ μ μ₯μ νμ(Exploration)μ ν΅ν΄ μμ§λ μ¦κ±°λ₯Ό κΈ°λ°μΌλ‘ ν μ§λ₯μ κ²μ¦ λ©μ»€λμ¦
- SFT λ°μ΄ν° νν°λ§ λ° RL 보μ λͺ¨λΈλ‘ νμ© κ°λ₯ν ν¨μ¨μ μΈ ν¬μ€νΈ νΈλ μ΄λ νμ΄νλΌμΈ ꡬμΆ
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
μ½λ μ€ν νκ²½ ꡬμΆμ λλ λ§λν μ»΄ν¨ν
μμκ³Ό μκ°μ μ μ½νλ©΄μλ, λμ μμ€μ μ½λ κ²μ¦ λ° λͺ¨λΈ νμ΅μ΄ κ°λ₯ν΄μ§λλ€.
β μΆμ² μ‘μ (Actionable Items)
- μμ΄μ νΈ κΈ°λ° μ½λ νμ λ‘μ§μ΄ μ€μ 볡μ‘ν μμ‘΄μ±μ κ°μ§ νλ‘μ νΈμμ μ ν¨νμ§ ν μ€νΈ
- μ€ν κΈ°λ° κ²μ¦κΈ°μ Dockerless κ°μ κ²μ¦ μΌμΉμ¨(Agreement rate) λΉκ΅ μ€ν
- SFT λ°μ΄ν°μ μ μ μ Dockerlessλ₯Ό νν°λ‘ μ μ©νμ¬ λ°μ΄ν° νμ§ λ³ν κ΄μ°°