PyoSignal Logo
PyoSignal
Back to Research

HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Paper ID: 2606.20521 β€’ 3 Upvotes
Embodied AI Foundation Models Egocentric Vision Robot Learning RAG Vision Video Safety
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

πŸ“ 핡심 μš”μ•½

μ—κ³ μ„ΌνŠΈλ¦­(Egocentric) 인간 μ˜μƒ 데이터가 μ •λ°€ν•œ λ‘œλ΄‡ 데이터보닀 더 효율적인 μž„λ°”λ””λ“œ(Embodied) 사전 ν•™μŠ΅ μ†ŒμŠ€κ°€ 될 수 μžˆμŒμ„ μž…μ¦ν•¨

πŸ“– 상세 λ‚΄μš©

μž„λ°”λ””λ“œ νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ˜ λ°œμ „μ„ μœ„ν•΄μ„œλŠ” 데이터 μŠ€μΌ€μΌλ§μ΄ ν•„μˆ˜μ μ΄μ§€λ§Œ, 기쑴의 ν…”λ ˆμ˜€νΌλ ˆμ΄μ…˜ 기반 λ‘œλ΄‡ λ°μ΄ν„°λŠ” μˆ˜μ§‘ λΉ„μš©κ³Ό λ‹€μ–‘μ„± μΈ‘λ©΄μ—μ„œ ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€. 이에 연ꡬ진은 λŒ€μ•ˆμœΌλ‘œ μ—κ³ μ„ΌνŠΈλ¦­ 인간 μ˜μƒμ„ ν™œμš©ν•œ 사전 ν•™μŠ΅μ˜ 효과λ₯Ό μ²΄κ³„μ μœΌλ‘œ 비ꡐ λΆ„μ„ν–ˆμŠ΅λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, μ •κ΅ν•œ 필터링 및 라벨링 νŒŒμ΄ν”„λΌμΈμ„ 거친 μ—κ³ μ„ΌνŠΈλ¦­ λ°μ΄ν„°λŠ” 동일 데이터 μ–‘ λŒ€λΉ„ λ‘œλ΄‡ μž‘μ—… 성곡λ₯ μ—μ„œ 압도적인 μ„±λŠ₯을 λ³΄μ˜€μŠ΅λ‹ˆλ‹€. 특히 뢄포 μ™Έ(OOD) μž‘μ—…μ—μ„œλ„ 높은 성곡λ₯ μ„ κΈ°λ‘ν•˜λ©° λ°μ΄ν„°μ˜ λ²”μš©μ„±μ„ 증λͺ…ν–ˆμŠ΅λ‹ˆλ‹€. 결둠적으둜 μ—κ³ μ„ΌνŠΈλ¦­ μ˜μƒμœΌλ‘œ 세계 λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚¨ ν›„, μ†ŒλŸ‰μ˜ λ‘œλ΄‡ λ°μ΄ν„°λ‘œ μ•‘μ…˜ 곡간을 μ •λ ¬ν•˜λŠ” μƒˆλ‘œμš΄ ν•™μŠ΅ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ‹œν•©λ‹ˆλ‹€.

πŸ”‘ μ£Όμš” λ‚΄μš© (Key Points)

  • μ—κ³ μ„ΌνŠΈλ¦­ 인간 μ˜μƒμ΄ λ‘œλ΄‡ λ°μ΄ν„°μ˜ μŠ€μΌ€μΌλ§ 문제λ₯Ό ν•΄κ²°ν•  수 μžˆλŠ” κ°•λ ₯ν•œ λŒ€μ•ˆμž„μ„ μž…μ¦
  • μ •κ΅ν•œ 필터링/라벨링을 톡해 μ—κ³ μ„ΌνŠΈλ¦­ 데이터가 λ‘œλ΄‡ 데이터보닀 높은 μΌλ°˜ν™” μ„±λŠ₯을 κ°€μ§ˆ 수 μžˆμŒμ„ 확인
  • μ—κ³ μ„ΌνŠΈλ¦­ 사전 ν•™μŠ΅ ν›„ μ†ŒλŸ‰μ˜ λ‘œλ΄‡ λ°μ΄ν„°λ‘œ λ―Έμ„Έ μ‘°μ •(Fine-tuning)ν•˜λŠ” 효율적인 ν•™μŠ΅ μ›Œν¬ν”Œλ‘œμš° μ œμ•ˆ

πŸ’‘ 싀무적 κ°€μΉ˜ (Relevance)

κ³ λΉ„μš©μ˜ λ‘œλ΄‡ 데이터 μˆ˜μ§‘ λŒ€μ‹  λŒ€κ·œλͺ¨ 인간 μ˜μƒ 데이터λ₯Ό ν™œμš©ν•˜μ—¬ κ°•λ ₯ν•œ μ›”λ“œ λͺ¨λΈμ„ ꡬ좕할 수 μžˆλŠ” μ „λž΅μ  λ°©ν–₯성을 μ œκ³΅ν•©λ‹ˆλ‹€.

βœ… μΆ”μ²œ μ•‘μ…˜ (Actionable Items)

  • κΈ°μ‘΄ λ‘œλ΄‡ 데이터셋과 곡개된 μ—κ³ μ„ΌνŠΈλ¦­ 데이터셋(Ego4D λ“±) κ°„μ˜ μ„±λŠ₯ 비ꡐ μ‹€ν—˜
  • μ—κ³ μ„ΌνŠΈλ¦­ μ˜μƒμ—μ„œ λ‘œλ΄‡ μ•‘μ…˜μ„ μΆ”μΆœν•˜κΈ° μœ„ν•œ 필터링 및 라벨링 νŒŒμ΄ν”„λΌμΈ 섀계
  • 사전 ν•™μŠ΅λœ λΉ„μ „ λͺ¨λΈμ„ μ‹€μ œ λ‘œλ΄‡ μ œμ–΄ νƒœμŠ€ν¬λ‘œ 전이 ν•™μŠ΅(Transfer Learning)ν•˜λŠ” μ‹€ν—˜