HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining
Paper ID: 2606.20521 β’ 3 Upvotes
Embodied AI Foundation Models Egocentric Vision Robot Learning RAG Vision Video Safety
π ν΅μ¬ μμ½
μκ³ μΌνΈλ¦(Egocentric) μΈκ° μμ λ°μ΄ν°κ° μ λ°ν λ‘λ΄ λ°μ΄ν°λ³΄λ€ λ ν¨μ¨μ μΈ μλ°λλ(Embodied) μ¬μ νμ΅ μμ€κ° λ μ μμμ μ
μ¦ν¨
π μμΈ λ΄μ©
μλ°λλ νμ΄λ°μ΄μ
λͺ¨λΈμ λ°μ μ μν΄μλ λ°μ΄ν° μ€μΌμΌλ§μ΄ νμμ μ΄μ§λ§, κΈ°μ‘΄μ ν
λ μ€νΌλ μ΄μ
κΈ°λ° λ‘λ΄ λ°μ΄ν°λ μμ§ λΉμ©κ³Ό λ€μμ± μΈ‘λ©΄μμ νκ³κ° μμ΅λλ€. μ΄μ μ°κ΅¬μ§μ λμμΌλ‘ μκ³ μΌνΈλ¦ μΈκ° μμμ νμ©ν μ¬μ νμ΅μ ν¨κ³Όλ₯Ό 체κ³μ μΌλ‘ λΉκ΅ λΆμνμ΅λλ€. μ€ν κ²°κ³Ό, μ κ΅ν νν°λ§ λ° λΌλ²¨λ§ νμ΄νλΌμΈμ κ±°μΉ μκ³ μΌνΈλ¦ λ°μ΄ν°λ λμΌ λ°μ΄ν° μ λλΉ λ‘λ΄ μμ
μ±κ³΅λ₯ μμ μλμ μΈ μ±λ₯μ 보μμ΅λλ€. νΉν λΆν¬ μΈ(OOD) μμ
μμλ λμ μ±κ³΅λ₯ μ κΈ°λ‘νλ©° λ°μ΄ν°μ λ²μ©μ±μ μ¦λͺ
νμ΅λλ€. κ²°λ‘ μ μΌλ‘ μκ³ μΌνΈλ¦ μμμΌλ‘ μΈκ³ λͺ¨λΈμ νμ΅μν¨ ν, μλμ λ‘λ΄ λ°μ΄ν°λ‘ μ‘μ
곡κ°μ μ λ ¬νλ μλ‘μ΄ νμ΅ ν¨λ¬λ€μμ μ μν©λλ€.
π μ£Όμ λ΄μ© (Key Points)
- μκ³ μΌνΈλ¦ μΈκ° μμμ΄ λ‘λ΄ λ°μ΄ν°μ μ€μΌμΌλ§ λ¬Έμ λ₯Ό ν΄κ²°ν μ μλ κ°λ ₯ν λμμμ μ μ¦
- μ κ΅ν νν°λ§/λΌλ²¨λ§μ ν΅ν΄ μκ³ μΌνΈλ¦ λ°μ΄ν°κ° λ‘λ΄ λ°μ΄ν°λ³΄λ€ λμ μΌλ°ν μ±λ₯μ κ°μ§ μ μμμ νμΈ
- μκ³ μΌνΈλ¦ μ¬μ νμ΅ ν μλμ λ‘λ΄ λ°μ΄ν°λ‘ λ―ΈμΈ μ‘°μ (Fine-tuning)νλ ν¨μ¨μ μΈ νμ΅ μν¬νλ‘μ° μ μ
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
κ³ λΉμ©μ λ‘λ΄ λ°μ΄ν° μμ§ λμ λκ·λͺ¨ μΈκ° μμ λ°μ΄ν°λ₯Ό νμ©νμ¬ κ°λ ₯ν μλ λͺ¨λΈμ ꡬμΆν μ μλ μ λ΅μ λ°©ν₯μ±μ μ 곡ν©λλ€.
β μΆμ² μ‘μ (Actionable Items)
- κΈ°μ‘΄ λ‘λ΄ λ°μ΄ν°μ κ³Ό 곡κ°λ μκ³ μΌνΈλ¦ λ°μ΄ν°μ (Ego4D λ±) κ°μ μ±λ₯ λΉκ΅ μ€ν
- μκ³ μΌνΈλ¦ μμμμ λ‘λ΄ μ‘μ μ μΆμΆνκΈ° μν νν°λ§ λ° λΌλ²¨λ§ νμ΄νλΌμΈ μ€κ³
- μ¬μ νμ΅λ λΉμ λͺ¨λΈμ μ€μ λ‘λ΄ μ μ΄ νμ€ν¬λ‘ μ μ΄ νμ΅(Transfer Learning)νλ μ€ν