DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams

Paper ID: 2606.21337 • 65 Upvotes

Agentic Data Multimodal Data Augmentation Reinforcement Learning Agent Video Benchmark Evaluation Safety

DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams

📝 핵심 요약

에이전트 기반 데이터 정제 기술을 통해 원시 멀티모달 스트림에서 고밀도 학습 데이터를 자동 생성하는 프레임워크

📖 상세 내용

방대한 비정형 멀티모달 데이터는 높은 엔트로피로 인해 인간의 지식 습득과 AI 학습 효율을 저해합니다. 기존의 수동적 주석 방식은 비용이 높고 데이터 내의 복잡한 절차적 논리를 추출하는 데 한계가 있습니다. 이를 해결하기 위해 사용자 의도에 맞춰 데이터를 능동적으로 정제하는 'Agentic Data Tailoring' 패러다임을 제안합니다. 사실적 앵커(Factual Anchors)를 기반으로 생성적 의미 합성을 수행하는 2단계 파이프라인을 통해 대규모 데이터셋을 구축했습니다. 이를 학습한 DataClaw_0-9B 모델은 SFT와 GRPO를 결합하여 복잡한 정제 작업에서 높은 성능을 보입니다. 최종적으로 비디오 생성, VQA, GUI 탐색 등 다양한 다운스트림 작업에서 적은 데이터로도 효율적인 모델 적응이 가능함을 입증했습니다.

🔑 주요 내용 (Key Points)

Agentic Data Tailoring: 사용자 의도에 맞춰 데이터를 능동적으로 정제하는 새로운 패러다임 제안
Two-stage Pipeline: 사실적 앵커를 활용한 생성적 의미 합성으로 고품질 대규모 데이터셋 구축
DataClaw_0-9B: SFT와 GRPO를 결합하여 정제 및 맞춤형 데이터 생성 역량 최적화

💡 실무적 가치 (Relevance)

데이터 부족 상황에서 고품질의 학습 데이터를 효율적으로 생성/정제하여 모델의 다운스트림 성능을 극대화할 수 있는 방법론을 제시합니다.

✅ 추천 액션 (Actionable Items)

제공된 데이터셋을 활용하여 특정 도메인(예: GUI, 로봇 제어)의 미세 조정 실험 수행
GRPO와 같은 강화학습 기법을 데이터 정제 에이전트에 적용하는 워크플로우 테스트
기존 수동 레이블링 데이터와 DataClaw 생성 데이터의 성능 차이 비교

View on Hugging Face View PDF (arXiv)