Dockerless: Environment-Free Program Verifier for Coding Agents

Paper ID: 2606.28436 • 83 Upvotes

AI Agent Code Verification Reinforcement Learning Software Engineering Agent Vision Benchmark Evaluation

Dockerless: Environment-Free Program Verifier for Coding Agents

📝 핵심 요약

코드 실행 없이 에이전트의 저장소 탐색 능력을 활용하여 코드 패치를 검증하는 환경 독립적(Environment-free) 검증 프레임워크

📖 상세 내용

코딩 에이전트 학습을 위한 프로그램 검증은 일반적으로 Docker와 같은 격리된 실행 환경을 필요로 하며, 이는 막대한 설정 비용을 발생시킵니다. 본 논문은 코드를 직접 실행하지 않고도 패치의 정답 여부를 판단하는 'Dockerless'를 제안합니다. Dockerless는 단순히 참조 코드와 비교하는 대신, 에이전트가 저장소를 탐색하며 수집한 증거를 바탕으로 패치의 정확성을 판단합니다. 벤치마크 결과, Dockerless는 기존 오픈소스 검증기보다 14.3 AUC만큼 높은 성능을 보였습니다. 이를 SFT 필터 및 RL 보상 모델로 활용한 결과, 환경 구축 없이도 기존 실행 기반 방식에 필적하는 높은 SWE-bench 해결 능력을 달리기했습니다.

🔑 주요 내용 (Key Points)

실행 환경(Docker 등) 없이 코드 패치의 정답 여부를 판단하는 환경 독립적 검증 방식 제안
에이전트의 저장소 탐색(Exploration)을 통해 수집된 증거를 기반으로 한 지능적 검증 메커니즘
SFT 데이터 필터링 및 RL 보상 모델로 활용 가능한 효율적인 포스트 트레이닝 파이프라인 구축

💡 실무적 가치 (Relevance)

코드 실행 환경 구축에 드는 막대한 컴퓨팅 자원과 시간을 절약하면서도, 높은 수준의 코드 검증 및 모델 학습이 가능해집니다.

✅ 추천 액션 (Actionable Items)

에이전트 기반 코드 탐색 로직이 실제 복잡한 의존성을 가진 프로젝트에서 유효한지 테스트
실행 기반 검증기와 Dockerless 간의 검증 일치율(Agreement rate) 비교 실험
SFT 데이터셋 정제 시 Dockerless를 필터로 적용하여 데이터 품질 변화 관찰

View on Hugging Face View PDF (arXiv)