LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
Paper ID: 2604.20796 โข 207 Upvotes
Diffusion Model Multimodal Image Generation LLM Reasoning Vision Inference Distillation
๐ ํต์ฌ ์์ฝ
LLaDA2.0-Uni๋ ํ
์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํตํฉ์ ์ผ๋ก ์ดํดํ๊ณ ์์ฑํ๋ diffusion LLM์ผ๋ก, ์ฐจ์ธ๋ ํตํฉ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ๊ฐ๋ฅ์ฑ์ ์ ์ํ๋ฉฐ, ํนํ ์ด๋ฏธ์ง ์์ฑ ๋ฐ ํธ์ง ์์
์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด์ VLM์ ๋ฉํฐ๋ชจ๋ฌ ์ดํด์ ์์ฑ์ ํตํฉ์ ์ผ๋ก ์ง์ํ๋ ๋ฐ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด LLaDA2.0-Uni๋ discrete diffusion LLM์ ์ฌ์ฉํ์ฌ ํ
์คํธ์ ์ด๋ฏธ์ง ์
๋ ฅ์ ๋์์ ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ด ๋ชจ๋ธ์ semantic discrete tokenizer, MoE ๊ธฐ๋ฐ dLLM ๋ฐฑ๋ณธ, diffusion ๋์ฝ๋๋ฅผ ๊ฒฐํฉํ์ฌ ๊ณ ํ์ง ์ด๋ฏธ์ง ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๋ง์ถคํ ํ์ต ํ์ดํ๋ผ์ธ์ ํตํด LLaDA2.0-Uni๋ ๋ฉํฐ๋ชจ๋ฌ ์ดํด๋ ๋ฌผ๋ก ์ด๋ฏธ์ง ์์ฑ ๋ฐ ํธ์ง์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ์ด ๋ชจ๋ธ์ interleaved ์์ฑ ๋ฐ ์ถ๋ก ์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ง์ํ์ฌ ์ฐจ์ธ๋ ํตํฉ ํ์ด๋ฐ์ด์
๋ชจ๋ธ์ ์ํ ํ์ฅ ๊ฐ๋ฅํ ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ํ ์คํธ์ ์ด๋ฏธ์ง์ ํตํฉ์ ์ดํด ๋ฐ ์์ฑ์ ์ํ dLLM ๊ตฌ์กฐ ์ ์
- SigLIP-VQ๋ฅผ ํตํ ์๊ฐ์ ์ ๋ ฅ์ ์ด์ฐํ ๋ฐ diffusion decoder๋ฅผ ํตํ ๊ณ ํ์ง ์ด๋ฏธ์ง ๋ณต์
- prefix-aware ์ต์ ํ ๋ฐ few-step distillation์ ํตํ ์ถ๋ก ํจ์จ์ฑ ํฅ์
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
LLaDA2.0-Uni๋ ์ด๋ฏธ์ง ์์ฑ, ํธ์ง, ๊ทธ๋ฆฌ๊ณ ํ
์คํธ์ ์ด๋ฏธ์ง๊ฐ ํผํฉ๋ ์ฝํ
์ธ ๋ฅผ ๋ค๋ฃจ๋ ๊ฐ๋ฐ์์๊ฒ ์ ์ฉํ๋ฉฐ, ํนํ ๋ณต์กํ ๋ฉํฐ๋ชจ๋ฌ ์์
์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ๊ณตํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ ๊ณต๋ GitHub ์ ์ฅ์์์ ๋ชจ๋ธ ๋ฐ ์ฝ๋ ํ์ธ
- ์ด๋ฏธ์ง ์์ฑ ๋ฐ ํธ์ง ๊ด๋ จ task์ ์ ์ฉํด๋ณด๊ณ ์ฑ๋ฅ ํ ์คํธ
- ๋ชจ๋ธ ๊ตฌ์กฐ ๋ฐ ํ์ต ํ์ดํ๋ผ์ธ์ ๋ถ์ํ์ฌ ํน์ ์ฌ์ฉ ์ฌ๋ก์ ๋ง๊ฒ ์กฐ์