PyoSignal Logo
PyoSignal
Back to Research

DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams

Paper ID: 2606.21337 β€’ 65 Upvotes
Agentic Data Multimodal Data Augmentation Reinforcement Learning Agent Video Benchmark Evaluation Safety
DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams

πŸ“ 핡심 μš”μ•½

μ—μ΄μ „νŠΈ 기반 데이터 μ •μ œ κΈ°μˆ μ„ 톡해 μ›μ‹œ λ©€ν‹°λͺ¨λ‹¬ μŠ€νŠΈλ¦Όμ—μ„œ 고밀도 ν•™μŠ΅ 데이터λ₯Ό μžλ™ μƒμ„±ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬

πŸ“– 상세 λ‚΄μš©

λ°©λŒ€ν•œ λΉ„μ •ν˜• λ©€ν‹°λͺ¨λ‹¬ λ°μ΄ν„°λŠ” 높은 μ—”νŠΈλ‘œν”Όλ‘œ 인해 μΈκ°„μ˜ 지식 μŠ΅λ“κ³Ό AI ν•™μŠ΅ νš¨μœ¨μ„ μ €ν•΄ν•©λ‹ˆλ‹€. 기쑴의 μˆ˜λ™μ  주석 방식은 λΉ„μš©μ΄ λ†’κ³  데이터 λ‚΄μ˜ λ³΅μž‘ν•œ 절차적 논리λ₯Ό μΆ”μΆœν•˜λŠ” 데 ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ‚¬μš©μž μ˜λ„μ— 맞좰 데이터λ₯Ό λŠ₯λ™μ μœΌλ‘œ μ •μ œν•˜λŠ” 'Agentic Data Tailoring' νŒ¨λŸ¬λ‹€μž„μ„ μ œμ•ˆν•©λ‹ˆλ‹€. 사싀적 액컀(Factual Anchors)λ₯Ό 기반으둜 생성적 의미 합성을 μˆ˜ν–‰ν•˜λŠ” 2단계 νŒŒμ΄ν”„λΌμΈμ„ 톡해 λŒ€κ·œλͺ¨ 데이터셋을 κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•™μŠ΅ν•œ DataClaw_0-9B λͺ¨λΈμ€ SFT와 GRPOλ₯Ό κ²°ν•©ν•˜μ—¬ λ³΅μž‘ν•œ μ •μ œ μž‘μ—…μ—μ„œ 높은 μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€. μ΅œμ’…μ μœΌλ‘œ λΉ„λ””μ˜€ 생성, VQA, GUI 탐색 λ“± λ‹€μ–‘ν•œ λ‹€μš΄μŠ€νŠΈλ¦Ό μž‘μ—…μ—μ„œ 적은 λ°μ΄ν„°λ‘œλ„ 효율적인 λͺ¨λΈ 적응이 κ°€λŠ₯함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ£Όμš” λ‚΄μš© (Key Points)

  • Agentic Data Tailoring: μ‚¬μš©μž μ˜λ„μ— 맞좰 데이터λ₯Ό λŠ₯λ™μ μœΌλ‘œ μ •μ œν•˜λŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„ μ œμ•ˆ
  • Two-stage Pipeline: 사싀적 액컀λ₯Ό ν™œμš©ν•œ 생성적 의미 ν•©μ„±μœΌλ‘œ κ³ ν’ˆμ§ˆ λŒ€κ·œλͺ¨ 데이터셋 ꡬ좕
  • DataClaw_0-9B: SFT와 GRPOλ₯Ό κ²°ν•©ν•˜μ—¬ μ •μ œ 및 λ§žμΆ€ν˜• 데이터 생성 μ—­λŸ‰ μ΅œμ ν™”

πŸ’‘ 싀무적 κ°€μΉ˜ (Relevance)

데이터 λΆ€μ‘± μƒν™©μ—μ„œ κ³ ν’ˆμ§ˆμ˜ ν•™μŠ΅ 데이터λ₯Ό 효율적으둜 생성/μ •μ œν•˜μ—¬ λͺ¨λΈμ˜ λ‹€μš΄μŠ€νŠΈλ¦Ό μ„±λŠ₯을 κ·ΉλŒ€ν™”ν•  수 μžˆλŠ” 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.

βœ… μΆ”μ²œ μ•‘μ…˜ (Actionable Items)

  • 제곡된 데이터셋을 ν™œμš©ν•˜μ—¬ νŠΉμ • 도메인(예: GUI, λ‘œλ΄‡ μ œμ–΄)의 λ―Έμ„Έ μ‘°μ • μ‹€ν—˜ μˆ˜ν–‰
  • GRPO와 같은 κ°•ν™”ν•™μŠ΅ 기법을 데이터 μ •μ œ μ—μ΄μ „νŠΈμ— μ μš©ν•˜λŠ” μ›Œν¬ν”Œλ‘œμš° ν…ŒμŠ€νŠΈ
  • κΈ°μ‘΄ μˆ˜λ™ λ ˆμ΄λΈ”λ§ 데이터와 DataClaw 생성 λ°μ΄ν„°μ˜ μ„±λŠ₯ 차이 비ꡐ