UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling
Paper ID: 2604.19734 โข 27 Upvotes
Robotics Humanoid Transfer Learning World Modeling RAG Vision Video Benchmark Distillation Safety
๐ ํต์ฌ ์์ฝ
UniT๋ ์ธ๊ฐ์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ํจ๊ณผ์ ์ผ๋ก ์ ๋ฌํ์ฌ ๋ก๋ด ํ์ต ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ์ค์ ๋ก๋ด ์ ์ด ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํ๋ค.
๐ ์์ธ ๋ด์ฉ
ํด๋จธ๋
ธ์ด๋ ๋ก๋ด์ ๊ธฐ์ด ๋ชจ๋ธ ํ์ต์ ๋ก๋ด ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋๊ท๋ชจ ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ๋ฐฉ๋ฒ์ด ์์ง๋ง, ์ธ๊ฐ๊ณผ ๋ก๋ด์ ์ ์ฒด ๊ตฌ์กฐ ์ฐจ์ด๋ก ์ธํด ์ง์ ์ ์ธ ์ ์ฉ์ด ์ด๋ ต๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ์๊ฐ์ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ธ๊ฐ๊ณผ ๋ก๋ด์ ํ๋์ ์ฐ๊ฒฐํ๋ UniT ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. UniT๋ ํ๋๊ณผ ์๊ฐ ์ ๋ณด ๊ฐ์ ์ํธ ์ฌ๊ตฌ์ฑ์ ํตํด ์ ์ฒด ๊ตฌ์กฐ์ ๋
๋ฆฝ์ ์ธ ํ๋ ํํ์ ํ์ตํ๊ณ , ์ด๋ฅผ ํตํด ์ธ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๋ก๋ด ์ ์ฑ
ํ์ต ๋ฐ ์ธ๊ณ ๋ชจ๋ธ๋ง์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์คํ ๊ฒฐ๊ณผ, UniT๋ ํด๋จธ๋
ธ์ด๋ ์๋ฎฌ๋ ์ด์
๋ฐ ์ค์ ๋ก๋ด ํ๊ฒฝ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ธ๊ฐ์ ํ๋์ ๋ก๋ด ์ ์ด์ ํจ๊ณผ์ ์ผ๋ก ์ด์ ํ ์ ์์์ ์
์ฆํ๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ์ธ๊ฐ ํ๋ ๋ฐ์ดํฐ์ ๋ก๋ด ํ๋ ๋ฐ์ดํฐ ๊ฐ์ ๊ฐ๊ทน์ ํด์ํ๋ ์๋ก์ด ํ๋ ์์ํฌ UniT ์ ์
- ์๊ฐ์ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ์ ์ฒด ๊ตฌ์กฐ์ ๋ ๋ฆฝ์ ์ธ ํ๋ ํํ ํ์ต
- ์ ์ฑ ํ์ต ๋ฐ ์ธ๊ณ ๋ชจ๋ธ๋ง์ ํตํด ํด๋จธ๋ ธ์ด๋ ๋ก๋ด์ ์ ์ด ์ฑ๋ฅ ํฅ์
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋ก๋ด ์ ์ด ์์คํ
๊ฐ๋ฐ ์, ์ธ๊ฐ์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ก๋ด์ ํ์ต ํจ์จ์ฑ์ ๋์ด๊ณ , ์๋ก์ด ๋์์ ๋น ๋ฅด๊ฒ ํ์ต์ํค๋ ๋ฐ ํ์ฉํ ์ ์๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- UniT ํ๋ ์์ํฌ๋ฅผ ํ์ฉํ์ฌ ์์ฒด ๋ก๋ด ํ๋ซํผ์ ์ธ๊ฐ ํ๋ ๋ฐ์ดํฐ ์ ์ฉ ์คํ
- UniT๋ฅผ ํ์ฉํ ๋ก๋ด ์ ์ฑ ํ์ต ๋ฐ ์ธ๊ณ ๋ชจ๋ธ๋ง ์ฑ๋ฅ ๋น๊ต ๋ถ์
- ๋ค์ํ ์๊ฐ์ ํน์ง ์ถ์ถ ๋ฐฉ๋ฒ์ UniT์ ์ ์ฉํ์ฌ ์ฑ๋ฅ ํฅ์ ๊ฐ๋ฅ์ฑ ํ์