HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Paper ID: 2606.20521 • 3 Upvotes

Embodied AI Foundation Models Egocentric Vision Robot Learning RAG Vision Video Safety

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

📝 핵심 요약

에고센트릭(Egocentric) 인간 영상 데이터가 정밀한 로봇 데이터보다 더 효율적인 임바디드(Embodied) 사전 학습 소스가 될 수 있음을 입증함

📖 상세 내용

임바디드 파운데이션 모델의 발전을 위해서는 데이터 스케일링이 필수적이지만, 기존의 텔레오퍼레이션 기반 로봇 데이터는 수집 비용과 다양성 측면에서 한계가 있습니다. 이에 연구진은 대안으로 에고센트릭 인간 영상을 활용한 사전 학습의 효과를 체계적으로 비교 분석했습니다. 실험 결과, 정교한 필터링 및 라벨링 파이프라인을 거친 에고센트릭 데이터는 동일 데이터 양 대비 로봇 작업 성공률에서 압도적인 성능을 보였습니다. 특히 분포 외(OOD) 작업에서도 높은 성공률을 기록하며 데이터의 범용성을 증명했습니다. 결론적으로 에고센트릭 영상으로 세계 모델을 학습시킨 후, 소량의 로봇 데이터로 액션 공간을 정렬하는 새로운 학습 패러다임을 제시합니다.

🔑 주요 내용 (Key Points)

에고센트릭 인간 영상이 로봇 데이터의 스케일링 문제를 해결할 수 있는 강력한 대안임을 입증
정교한 필터링/라벨링을 통해 에고센트릭 데이터가 로봇 데이터보다 높은 일반화 성능을 가질 수 있음을 확인
에고센트릭 사전 학습 후 소량의 로봇 데이터로 미세 조정(Fine-tuning)하는 효율적인 학습 워크플로우 제안

💡 실무적 가치 (Relevance)

고비용의 로봇 데이터 수집 대신 대규모 인간 영상 데이터를 활용하여 강력한 월드 모델을 구축할 수 있는 전략적 방향성을 제공합니다.

✅ 추천 액션 (Actionable Items)

기존 로봇 데이터셋과 공개된 에고센트릭 데이터셋(Ego4D 등) 간의 성능 비교 실험
에고센트릭 영상에서 로봇 액션을 추출하기 위한 필터링 및 라벨링 파이프라인 설계
사전 학습된 비전 모델을 실제 로봇 제어 태스크로 전이 학습(Transfer Learning)하는 실험

View on Hugging Face View PDF (arXiv)