Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation
Paper ID: 2604.18168 โข 86 Upvotes
Vision Generative AI Diffusion Models Text-to-Image LLM RAG
๐ ํต์ฌ ์์ฝ
ํด๋์ค ๋ ์ด๋ธ ๊ธฐ๋ฐ์ 1๋จ๊ณ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ(MeanFlow)์ ํ
์คํธ ๊ธฐ๋ฐ์ผ๋ก ํ์ฅํ์ฌ, ํจ์จ์ ์ด๋ฉด์๋ ์ ์ฐํ ์ด๋ฏธ์ง ์์ฑ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ํต์ฌ ๊ธฐ์ ์ ์ ์ํฉ๋๋ค.
๐ ์์ธ ๋ด์ฉ
MeanFlow์ ๊ฐ์ 1๋จ๊ณ ์์ฑ ๋ฐฉ์์ ํด๋์ค ๋ ์ด๋ธ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์์ฑ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ์ ์ฐํ ํ
์คํธ ์
๋ ฅ์ผ๋ก์ ํ์ฅ์ ๋ฏธ๊ฐ์ฒ ๋ถ์ผ์์ต๋๋ค. ๊ธฐ์กด์ ๊ฐ๋ ฅํ LLM ๊ธฐ๋ฐ ํ
์คํธ ์ธ์ฝ๋๋ฅผ ๋จ์ํ ํตํฉํ๋ ๋ฐฉ์์ผ๋ก๋ 1๋จ๊ณ ์์ฑ์ ํน์ฑ์ ํ
์คํธ ํน์ง์ ํ๋ณ๋ ฅ์ด ๋ถ์กฑํ์ฌ ๋ง์กฑ์ค๋ฌ์ด ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ด๋ ค์ ์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ 1๋จ๊ณ ์์ฑ์์ ํ
์คํธ ํน์ง์ ๋์ ํ๋ณ๋ ฅ์ด ํ์์ ์์ ๋ฐํ๋ด๊ณ , ์ด๋ฅผ ๋ง์กฑํ๋ LLM ๊ธฐ๋ฐ ํ
์คํธ ์ธ์ฝ๋๋ฅผ MeanFlow ํ๋ ์์ํฌ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, ์ต์ด๋ก ํจ์จ์ ์ธ ํ
์คํธ ์กฐ๊ฑด๋ถ ์ด๋ฏธ์ง ํฉ์ฑ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํ์ฐ ๋ชจ๋ธ์์๋ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ฒ์ฆํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- 1๋จ๊ณ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ(MeanFlow)์ ํด๋์ค ๋ ์ด๋ธ์์ ํ ์คํธ ์กฐ๊ฑด๋ถ ์์ฑ์ผ๋ก ํ์ฅ
- 1๋จ๊ณ ์์ฑ์์ ํ ์คํธ ํน์ง์ '๋์ ํ๋ณ๋ ฅ'์ด ํต์ฌ์ ์ธ ์ฑ๊ณต ์์ธ์์ ๊ท๋ช
- ๊ฐ๋ ฅํ LLM ๊ธฐ๋ฐ ํ ์คํธ ์ธ์ฝ๋๋ฅผ MeanFlow์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ์ฌ ํ ์คํธ ์กฐ๊ฑด๋ถ ํฉ์ฑ ์ฑ๋ฅ ํฅ์
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๊ฐ๋ฐ์๋ ์ด ์ฐ๊ตฌ๋ฅผ ํตํด ์ ์ ๋จ๊ณ๋ง์ผ๋ก๋ ์ ์ฐํ ํ
์คํธ ์
๋ ฅ์ผ๋ก๋ถํฐ ๊ณ ํ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๊ฒ ๋์ด, ์ด๋ฏธ์ง ์์ฑ ์ ํ๋ฆฌ์ผ์ด์
์ ํจ์จ์ฑ๊ณผ ํ์ฉ๋๋ฅผ ํฌ๊ฒ ๋์ผ ์ ์์ต๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ ๊ณต๋ ์ฝ๋๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ ํ ์คํธ ํ๋กฌํํธ๋ก ์ด๋ฏธ์ง ์์ฑ ํ์ง ๋ฐ ์๋ ํ ์คํธ
- ๊ธฐ์กด์ ๋ค๋จ๊ณ ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ๊ณผ ๋ณธ ๋ฐฉ์์ ์์ฑ ๊ฒฐ๊ณผ๋ฌผ ํ์ง ๋ฐ ์ถ๋ก ์๋๋ฅผ ๋น๊ต ๋ถ์
- ๋ค๋ฅธ LLM ๊ธฐ๋ฐ ํ ์คํธ ์ธ์ฝ๋๋ฅผ ์ ์ฉํ์ฌ ํ ์คํธ ํน์ง์ ํ๋ณ๋ ฅ๊ณผ ์ต์ข ์ด๋ฏธ์ง ์์ฑ ์ฑ๋ฅ ๋ณํ๋ฅผ ์คํ