ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?
Paper ID: 2606.19531 โข 8 Upvotes
Robot Control Diffusion Models World Models Efficiency Vision Video Inference
๐ ํต์ฌ ์์ฝ
๋น๋์ค ์์ฑ ๋์ ์ฌ์ ํ์ต๋ ์ด๋ฏธ์ง ํธ์ง ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ฐ์ฐ ํจ์จ๊ณผ ์ ์ด ์ ํ๋๋ฅผ ๋์์ ๋์ธ ๋ก๋ด ํ๋ ๋ชจ๋ธ(WAM) ํ๋ ์์ํฌ
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด์ World Action Models(WAMs)๋ ๋น๋์ค ์์ฑ์ ํตํด ๋ฏธ๋๋ฅผ ์์ธกํ๋ ค ํ์ง๋ง, ๊ณผ๋ํ ์ฐ์ฐ ๋น์ฉ๊ณผ ๋ถํ์ํ ๋ํ
์ผ ์์ฑ, ์ฅ๊ธฐ ์์ธก ์ ๋ฐ์ํ๋ ์ค๋ฅ ๋ฑ์ ๋ฌธ์ ๋ฅผ ์๊ณ ์์ต๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๋น๋์ค ์์ฑ ๋์ ์ด๋ฏธ์ง ํธ์ง ๋ชจ๋ธ์ ํ์ฉํ๋ ImageWAM ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฏธ์ง ํธ์ง์ ๋์๊ณผ ๊ด๋ จ๋ ์๊ฐ์ ๋ณํ์๋ง ์ง์คํ๋ฉฐ, ์์
์ง์๋ฅผ ๊ตญ์์ ์ธ ์๊ฐ์ ๋ณํ๋ก ๋งคํํ๋ ๋ฐ ์ ๋ฆฌํ ์ฌ์ ํ์ต๋ ์ง์์ ์ ๊ณตํฉ๋๋ค. ์ถ๋ก ์์๋ ํ๊ฒ ํ๋ ์์ ์ง์ ์์ฑํ์ง ์๊ณ , ์ด๋ฏธ์ง ํธ์ง ๋๋
ธ์ด์ง ๊ณผ์ ์์ ์์ฑ๋ KV ์บ์๋ฅผ Flow-matching ๊ธฐ๋ฐ ์ก์
์ ๋ฌธ๊ฐ ๋ชจ๋ธ์ ์ปจํ
์คํธ๋ก ํ์ฉํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ImageWAM์ ๊ธฐ์กด VLA ๋ฐ ๊ฒฝ์ ๋ชจ๋ธ ๋๋น ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉด์๋ ์ฐ์ฐ๋(FLOPs)๊ณผ ์ง์ฐ ์๊ฐ(Latency)์ ํ๊ธฐ์ ์ผ๋ก ์ค์์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ๋น๋์ค ์์ฑ ๋์ ์ด๋ฏธ์ง ํธ์ง ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ ์ง์์ ํ์ฉํ์ฌ ๋์ ๊ด๋ จ ์๊ฐ์ ๋ณํ์ ์ง์ค
- ์ด๋ฏธ์ง ํธ์ง ๊ณผ์ ์ KV ์บ์๋ฅผ ์ก์ ์ ๋ฌธ๊ฐ ๋ชจ๋ธ์ ์ปจํ ์คํธ๋ก ์ฌ์ฉํ์ฌ ์ถ๋ก ํจ์จ ๊ทน๋ํ
- ๊ธฐ์กด ๋น๋์ค ๊ธฐ๋ฐ WAM ๋๋น ์ฐ์ฐ๋ 1/6, ์ง์ฐ ์๊ฐ 1/4 ์์ค์ผ๋ก ๋ํญ ์ ๊ฐ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋ก๋ด ์ ์ด ๋ชจ๋ธ์์ ๋ฌด๊ฑฐ์ด ๋น๋์ค ์์ฑ ๊ณผ์ ์ ์๋ตํ๊ณ KV ์บ์๋ง ํ์ฉํจ์ผ๋ก์จ, ์ค์๊ฐ์ฑ์ด ์ค์ํ ๋ก๋ด ์์คํ
์ ์ ์ฉ ๊ฐ๋ฅํ ํจ์จ์ ์ธ ์ํคํ
์ฒ๋ฅผ ์ ์ํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ฌ์ ํ์ต๋ Diffusion ๊ธฐ๋ฐ ์ด๋ฏธ์ง ํธ์ง ๋ชจ๋ธ์ KV ์บ์ ์ถ์ถ ๋ก์ง ๊ตฌํ ํ ์คํธ
- Flow-matching ๊ธฐ๋ฐ ์ก์ ํค๋์ ์ด๋ฏธ์ง ํธ์ง ๋ชจ๋ธ ๊ฐ์ ์ ๋ ฌ(Alignment) ์คํ
- ๋ค์ํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์์ ์ง์ฐ ์๊ฐ ๋ฐ ์ถ๋ก ์๋ ๋ฒค์น๋งํฌ ์ํ