CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation
Paper ID: 2604.19636 โข 58 Upvotes
Diffusion Model Video Synthesis HOI Transformer Vision Video Audio Inference
๐ ํต์ฌ ์์ฝ
CoInteract๋ Diffusion Transformer ๊ธฐ๋ฐ์ผ๋ก ์ฌ๋-๊ฐ์ฒด ์ํธ์์ฉ ๋น๋์ค ์์ฑ ์ ์๊ณผ ์ผ๊ตด์ ๊ตฌ์กฐ์ ์์ ์ฑ ๋ฐ ๋ฌผ๋ฆฌ์ ํ์ค๊ฐ์ ํฅ์์ํค๋ ์๋ก์ด ํ๋ ์์ํฌ์
๋๋ค.
๐ ์์ธ ๋ด์ฉ
์ฌ๋-๊ฐ์ฒด ์ํธ์์ฉ(HOI) ๋น๋์ค ํฉ์ฑ์ ์ ์ ์๊ฑฐ๋, ๋์งํธ ๊ด๊ณ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ค์ํ์ง๋ง, ๊ธฐ์กด diffusion ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ์์ ์ฑ๊ณผ ๋ฌผ๋ฆฌ์ ํ์ค๊ฐ ์ธก๋ฉด์์ ํ๊ณ๋ฅผ ๋ณด์
๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด CoInteract๋ ์ฌ๋ ์ฐธ์กฐ ์ด๋ฏธ์ง, ์ ํ ์ฐธ์กฐ ์ด๋ฏธ์ง, ํ
์คํธ ํ๋กฌํํธ, ์์ฑ ์ค๋์ค๋ฅผ ์กฐ๊ฑด์ผ๋ก HOI ๋น๋์ค๋ฅผ ์์ฑํ๋ ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. CoInteract๋ Human-Aware MoE๋ฅผ ํตํด ์์ญ๋ณ ์ ๋ฌธ๊ฐ์๊ฒ ํ ํฐ์ ๋ผ์ฐํ
ํ์ฌ ๊ตฌ์กฐ์ ์ ํ๋๋ฅผ ๋์ด๊ณ , Spatially-Structured Co-Generation์ ํตํด RGB ์คํธ๋ฆผ๊ณผ HOI ๊ตฌ์กฐ ์คํธ๋ฆผ์ ๊ณต๋์ผ๋ก ๋ชจ๋ธ๋งํ์ฌ ์ํธ์์ฉ ๊ธฐํํ์ ์ฌ์ ์ ๋ณด๋ฅผ ์ฃผ์
ํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, CoInteract๋ ๊ตฌ์กฐ์ ์์ ์ฑ, ๋
ผ๋ฆฌ์ ์ผ๊ด์ฑ, ์ํธ์์ฉ ํ์ค๊ฐ ์ธก๋ฉด์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- Human-Aware Mixture-of-Experts (MoE)๋ฅผ ํตํด ์์ญ๋ณ ํนํ๋ ์ ๋ฌธ๊ฐ ํ์ฉ
- Spatially-Structured Co-Generation์ ํตํด RGB์ HOI ๊ตฌ์กฐ ์คํธ๋ฆผ ๊ณต๋ ๋ชจ๋ธ๋ง
- HOI ์คํธ๋ฆผ์ ํ์ต ์์๋ง ์ฌ์ฉํ์ฌ ์ถ๋ก ์ ์ค๋ฒํค๋ ์์
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
HOI ๋น๋์ค ์์ฑ ์ ๊ตฌ์กฐ์ ์์ ์ฑ๊ณผ ๋ฌผ๋ฆฌ์ ํ์ค๊ฐ์ ๋์ฌ, ๋ณด๋ค ์์ฐ์ค๋ฝ๊ณ ํ์ค์ ์ธ ๊ฐ์ ํ๊ฒฝ ๊ตฌ์ถ ๋ฐ ์ฝํ
์ธ ์ ์์ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ ๊ณต๋๋ ๋ฐ๋ชจ ๋น๋์ค๋ฅผ ํตํด CoInteract์ ์ฑ๋ฅ ์ง์ ํ์ธ
- Human-Aware MoE ๋ฐ Spatially-Structured Co-Generation์ ๊ตฌํ ๋ฐฉ์ ์์ธ ๋ถ์
- ์์ฒด ๋ฐ์ดํฐ์ ์ CoInteract ์ ์ฉํ์ฌ ์ฑ๋ฅ ๊ฐ์ ๊ฐ๋ฅ์ฑ ๊ฒํ