DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Paper ID: 2604.19859 • 37 Upvotes

Agent Reinforcement Learning Small Language Model Vision Benchmark Inference

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

📝 핵심 요약

10K개의 적은 데이터로도 강력한 4B 규모의 엣지 기반 연구 에이전트를 만들 수 있는 방법론(DR-Venus)을 제시, 특히 데이터 품질 및 활용도 향상에 초점을 맞춤.

📖 상세 내용

엣지 환경에서 실행 가능한 작은 언어 모델 기반의 연구 에이전트는 비용, 지연 시간, 개인 정보 보호 측면에서 유리하다. 본 연구에서는 제한된 공개 데이터만으로 강력한 소형 연구 에이전트를 훈련하는 방법을 연구한다. 데이터 품질과 활용도를 개선하기 위해, agentic SFT와 강화 학습(RL)을 결합한 DR-Venus를 제안한다. Agentic SFT 단계에서는 데이터 정제 및 장기 trajectory 리샘플링을 통해 데이터 품질과 활용도를 높인다. 강화 학습 단계에서는 정보 획득 및 형식 인식 정규화를 기반으로 턴 레벨 보상을 설계하여 학습 효율성을 개선한다. 10K개의 데이터만으로 훈련된 DR-Venus-4B는 기존 9B 모델을 능가하며, 30B 모델과의 격차를 좁혔다.

🔑 주요 내용 (Key Points)

Agentic SFT를 통한 데이터 품질 및 활용도 향상
정보 획득 및 형식 인식 정규화를 활용한 강화 학습
10K 데이터만으로 4B 모델이 기존 9B 모델 능가

💡 실무적 가치 (Relevance)

적은 데이터와 작은 모델로도 충분히 강력한 연구 에이전트를 구축할 수 있음을 보여주므로, 리소스 제약이 있는 환경에서 특정 연구 task 자동화를 위한 agent 개발에 유용하다.

✅ 추천 액션 (Actionable Items)

DR-Venus 학습 레시피를 기반으로 자체 데이터셋에 적용해보기
정보 획득 기반 보상 함수 및 형식 인식 정규화 실험해보기
Test-time scaling을 통해 성능 향상 가능성 확인해보기

View on Hugging Face View PDF (arXiv)