Holo-World: Unified Camera, Object and Weather Control for Video World Model
Paper ID: 2606.20083 โข 3 Upvotes
Video Generation World Model Controllable AI Computer Vision Vision Video
๐ ํต์ฌ ์์ฝ
๋จ์ผ ์ด๋ฏธ์ง๋ก๋ถํฐ ์นด๋ฉ๋ผ, ๊ฐ์ฒด ์์ง์, ๋ ์จ ๋ณํ๋ฅผ ๋์์ ์ ์ดํ์ฌ ์ผ๊ด๋ ๋น๋์ค๋ฅผ ์์ฑํ๋ ํตํฉ ์๋ ๋ชจ๋ธ
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด ๋น๋์ค ์๋ ๋ชจ๋ธ์ ์นด๋ฉ๋ผ ๋ฐ ๊ฐ์ฒด ์ ์ด์ ํ๊ฒฝ(๋ ์จ) ๋ณํ๊ฐ ๋ถ๋ฆฌ๋์ด ์์ผ๋ฉฐ, ๋ ์จ ์์ฑ ์ ๋ฏธ๋ ๊ตฌ์กฐ์ ์์กดํ๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๋จ์ผ ํ๋ ์์์ ์์ํ์ฌ ์นด๋ฉ๋ผ, ๊ฐ์ฒด, ๋ ์จ๋ฅผ ๋์์ ์ ์ดํ๋ 'source-to-state' ์ค์ ์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋ค์ํ ๋น๋์ค๋ฅผ ํตํฉ ์ ์ด ์ํ๋ก ๋ณํํ HoloStateData ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ์ต๋๋ค. ๋ชจ๋ธ ๊ตฌ์กฐ๋ก๋ ๊ตฌ์กฐ ์ ์ง์ ๋ ์จ ์ ์ด๋ฅผ ๋ถ๋ฆฌํ๋ Unified Scene Adapter์ ์์ฐจ๋ฅผ ๊ฐ๋ณ ์ ์ดํ๋ Scene-Weather Decomposed CFG๋ฅผ ๋์
ํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, Holo-World๋ ์ฅ๋ฉด ๊ตฌ์กฐ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์๋ ์ ๋ฐํ ์ ์ด์ ์์ฐ์ค๋ฌ์ด ๋ ์จ ๋ณํ๋ฅผ ๋์์ ๋ฌ์ฑํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- HoloStateData: ์นด๋ฉ๋ผ, ๊ฐ์ฒด, ๋ ์จ ์ ์ด๋ฅผ ์ํ ํตํฉ ์ํ ๋น๋์ค ๋ฐ์ดํฐ์ ๊ตฌ์ถ
- Unified Scene Adapter: ๋ฐฐ๊ฒฝ/๊ธฐํํ ๋ฒํผ์ ๊ฐ์ฒด ์ ์ด๋ฅผ ๋ถ๋ฆฌํ์ฌ ๊ตฌ์กฐ์ ์ผ๊ด์ฑ ์ ์ง
- Scene-Weather Decomposed CFG: ์ฅ๋ฉด ๊ตฌ์กฐ์ ๋ ์จ ํจ๊ณผ๋ฅผ ๋ถ๋ฆฌ ๊ฐ์ด๋ํ์ฌ ์ ์ด ์ ๋ฐ๋ ํฅ์
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋จ์ผ ์ด๋ฏธ์ง๋ก ์ ๊ตํ ์นด๋ฉ๋ผ ์ํน๊ณผ ๋ ์จ ๋ณํ๊ฐ ํฌํจ๋ ๊ณ ํ์ง ๋น๋์ค๋ฅผ ์์ฑํ ์ ์์ด, ๊ฒ์ ์์
์ ์ ๋ฐ ์๊ฐ ํจ๊ณผ(VFX) ํ์ดํ๋ผ์ธ ์๋ํ์ ์ ์ฉํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ ๊ณต๋ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ ์ปค์คํ ํ๊ฒฝ ์ ์ด ํ์ต ์คํ
- Unified Scene Adapter์ ํ๋ผ๋ฏธํฐ ๋ถ๋ฆฌ ํจ์จ์ฑ ๊ฒ์ฆ
- ๊ธฐ์กด ๋น๋์ค ํธ์ง ๋ชจ๋ธ๊ณผ์ ์ ์ด ์ ๋ฐ๋ ๋น๊ต ํ ์คํธ