DataClaw0: Agentic Tailoring Multimodal Data from Raw Streams
Paper ID: 2606.21337 β’ 65 Upvotes
Agentic Data Multimodal Data Augmentation Reinforcement Learning Agent Video Benchmark Evaluation Safety
π ν΅μ¬ μμ½
μμ΄μ νΈ κΈ°λ° λ°μ΄ν° μ μ κΈ°μ μ ν΅ν΄ μμ λ©ν°λͺ¨λ¬ μ€νΈλ¦Όμμ κ³ λ°λ νμ΅ λ°μ΄ν°λ₯Ό μλ μμ±νλ νλ μμν¬
π μμΈ λ΄μ©
λ°©λν λΉμ ν λ©ν°λͺ¨λ¬ λ°μ΄ν°λ λμ μνΈλ‘νΌλ‘ μΈν΄ μΈκ°μ μ§μ μ΅λκ³Ό AI νμ΅ ν¨μ¨μ μ ν΄ν©λλ€. κΈ°μ‘΄μ μλμ μ£Όμ λ°©μμ λΉμ©μ΄ λκ³ λ°μ΄ν° λ΄μ 볡μ‘ν μ μ°¨μ λ
Όλ¦¬λ₯Ό μΆμΆνλ λ° νκ³κ° μμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μ¬μ©μ μλμ λ§μΆ° λ°μ΄ν°λ₯Ό λ₯λμ μΌλ‘ μ μ νλ 'Agentic Data Tailoring' ν¨λ¬λ€μμ μ μν©λλ€. μ¬μ€μ μ΅μ»€(Factual Anchors)λ₯Ό κΈ°λ°μΌλ‘ μμ±μ μλ―Έ ν©μ±μ μννλ 2λ¨κ³ νμ΄νλΌμΈμ ν΅ν΄ λκ·λͺ¨ λ°μ΄ν°μ
μ ꡬμΆνμ΅λλ€. μ΄λ₯Ό νμ΅ν DataClaw_0-9B λͺ¨λΈμ SFTμ GRPOλ₯Ό κ²°ν©νμ¬ λ³΅μ‘ν μ μ μμ
μμ λμ μ±λ₯μ 보μ
λλ€. μ΅μ’
μ μΌλ‘ λΉλμ€ μμ±, VQA, GUI νμ λ± λ€μν λ€μ΄μ€νΈλ¦Ό μμ
μμ μ μ λ°μ΄ν°λ‘λ ν¨μ¨μ μΈ λͺ¨λΈ μ μμ΄ κ°λ₯ν¨μ μ
μ¦νμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- Agentic Data Tailoring: μ¬μ©μ μλμ λ§μΆ° λ°μ΄ν°λ₯Ό λ₯λμ μΌλ‘ μ μ νλ μλ‘μ΄ ν¨λ¬λ€μ μ μ
- Two-stage Pipeline: μ¬μ€μ μ΅μ»€λ₯Ό νμ©ν μμ±μ μλ―Έ ν©μ±μΌλ‘ κ³ νμ§ λκ·λͺ¨ λ°μ΄ν°μ ꡬμΆ
- DataClaw_0-9B: SFTμ GRPOλ₯Ό κ²°ν©νμ¬ μ μ λ° λ§μΆ€ν λ°μ΄ν° μμ± μλ μ΅μ ν
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
λ°μ΄ν° λΆμ‘± μν©μμ κ³ νμ§μ νμ΅ λ°μ΄ν°λ₯Ό ν¨μ¨μ μΌλ‘ μμ±/μ μ νμ¬ λͺ¨λΈμ λ€μ΄μ€νΈλ¦Ό μ±λ₯μ κ·Ήλνν μ μλ λ°©λ²λ‘ μ μ μν©λλ€.
β μΆμ² μ‘μ (Actionable Items)
- μ 곡λ λ°μ΄ν°μ μ νμ©νμ¬ νΉμ λλ©μΈ(μ: GUI, λ‘λ΄ μ μ΄)μ λ―ΈμΈ μ‘°μ μ€ν μν
- GRPOμ κ°μ κ°ννμ΅ κΈ°λ²μ λ°μ΄ν° μ μ μμ΄μ νΈμ μ μ©νλ μν¬νλ‘μ° ν μ€νΈ
- κΈ°μ‘΄ μλ λ μ΄λΈλ§ λ°μ΄ν°μ DataClaw μμ± λ°μ΄ν°μ μ±λ₯ μ°¨μ΄ λΉκ΅