ENPIRE: Agentic Robot Policy Self-Improvement in the Real World
Paper ID: 2606.19980 โข 7 Upvotes
Agentic Workflow Robotics Automated ML Closed-loop Control Agent Vision Evaluation
๐ ํต์ฌ ์์ฝ
์ฝ๋ฉ ์์ด์ ํธ๊ฐ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ์ ํผ๋๋ฐฑ์ ํตํด ์ค์ค๋ก ๋ก๋ด ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ ํ๋ ํ์ ๋ฃจํ(Closed-loop) ํ๋ ์์ํฌ ์ ์
๐ ์์ธ ๋ด์ฉ
๋ก๋ด์ ์ ๊ตํ ์กฐ์ ๊ธฐ์ ์ ์ฌ์ ํ ์ธ๊ฐ์ ๊ฐ์
๊ณผ ์๊ณ ๋ฆฌ์ฆ ์์ง๋์ด๋ง์ ํฌ๊ฒ ์์กดํ๊ณ ์์ด ๋ฒ์ฉ ๋ฌผ๋ฆฌ ์ง๋ฅ ๊ตฌํ์ ๋ณ๋ชฉ์ด ๋๊ณ ์์ต๋๋ค. ๊ธฐ์กด ์ฝ๋ฉ ์์ด์ ํธ๋ ๋์งํธ ํ๊ฒฝ์ ๊ตญํ๋์ด ์์ด, ์ค์ ๋ฌผ๋ฆฌ ํ๊ฒฝ์์์ ๋ฐ๋ณต์ ์ธ ์คํ๊ณผ ๊ฐ์ ๋ฃจํ๋ฅผ ์๋ํํ๋ ๊ฒ์ด ํ์์ ์
๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ํ๊ฒฝ ๋ฆฌ์
, ์ ์ฑ
์คํ, ๊ฒฐ๊ณผ ๊ฒ์ฆ, ์๊ณ ๋ฆฌ์ฆ ๊ฐ์ ์ด ์ ๊ธฐ์ ์ผ๋ก ์ฐ๊ฒฐ๋ ENPIRE ํ๋ ์์ํฌ๋ฅผ ์๊ฐํฉ๋๋ค. ์ด ์์คํ
์ ์ฝ๋ฉ ์์ด์ ํธ๊ฐ ๋ก๊ทธ ๋ถ์๊ณผ ๋ฌธํ ์กฐ์ฌ๋ฅผ ํตํด ์ค์ค๋ก ํ์ต ์ธํ๋ผ์ ์ฝ๋๋ฅผ ์์ ํ๋ฉฐ ์ ์ฑ
์ ์ต์ ํํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์์ด์ ํธ๋ ํ ๋ฐ์ค ์ ๋ฆฌ๋ ๋๊ตฌ ์ฌ์ฉ๊ณผ ๊ฐ์ ๊ณ ๋๋ ์์
์์ 99%์ ์ฑ๊ณต๋ฅ ์ ๋ฌํ๋ ์ ์ฑ
์ ์์จ์ ์ผ๋ก ํ์ตํ์ต๋๋ค. ์ด๋ ๋ก๋ด ์ฐ๊ตฌ ํ๋ก์ธ์ค๋ฅผ ์๋ํ ๊ฐ๋ฅํ ์ต์ ํ ๋ฌธ์ ๋ก ์ ํํ์ฌ ์ธ๊ฐ์ ๊ฐ์
์ ์ต์ํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ๋ฌผ๋ฆฌ์ ํผ๋๋ฐฑ ๋ฃจํ(Reset-Execute-Verify-Refine)๋ฅผ ์๋ํํ๋ ENPIRE ํ๋ ์์ํฌ ๊ฐ๋ฐ
- ์ฝ๋ฉ ์์ด์ ํธ๊ฐ ๋ก๊ทธ ๋ถ์ ๋ฐ ๋ฌธํ ์กฐ์ฌ๋ฅผ ํตํด ์๊ณ ๋ฆฌ์ฆ๊ณผ ํ์ต ์ธํ๋ผ๋ฅผ ์ง์ ๊ฐ์ ํ๋ Evolution ๋ชจ๋ ๋์
- ๋ฉํฐ ๋ก๋ด ํ๊ฒฝ์์ ์์ด์ ํธ ํ์ ์ด์ฉํ์ฌ ํ์ต ์๋๋ฅผ ๊ฐ์ํํ๋ ํ์ฅ์ฑ ํ๋ณด
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋ก๋ด ์ ์ด ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ ์ ๋ฐ๋ณต๋๋ ์คํ-์์ ๊ณผ์ ์ ์๋ํํ์ฌ ์์ง๋์ด์ ์๋ ๊ฐ์
์ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์์ด์ ํธ๊ฐ ์์ฑํ ์ฝ๋๊ฐ ๋ฌผ๋ฆฌ์ ํ๋์จ์ด์ ์์ ๊ฐ์ด๋๋ผ์ธ์ ์ค์ํ๋์ง ๊ฒ์ฆํ๋ ์๋๋ฐ์ค ๊ตฌ์ถ
- ์ค์ ๋ก๋ด ํ๊ฒฝ๊ณผ ์ ์ฌํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ENPIRE์ ํผ๋๋ฐฑ ๋ฃจํ ์ฑ๋ฅ ํ ์คํธ
- ์คํจ ๋ก๊ทธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ด์ ํธ๊ฐ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์กฐ์ ํ๋ ๋ก์ง์ ์ ํจ์ฑ ๊ฒ์ฆ