Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
Paper ID: 2606.19195 โข 95 Upvotes
Image Inpainting Model Compression Diffusion Models Efficiency Vision Benchmark Inference Distillation Optimization Safety
๐ ํต์ฌ ์์ฝ
0.2B ๊ท๋ชจ์ ์ด๊ฒฝ๋ ํ๋ผ๋ฏธํฐ๋ก 10B๊ธ ์ฑ๋ฅ์ ๊ตฌํํ ๊ณ ํจ์จ ์ด๋ฏธ์ง ์ธํ์ธํ
ํ๋ ์์ํฌ
๐ ์์ธ ๋ด์ฉ
์ต๊ทผ 10B ์ด์์ ๊ฑฐ๋ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง ์ธํ์ธํ
์ฑ๋ฅ์ ๋์์ผ๋, ๋ง๋ํ ์ฐ์ฐ ๋น์ฉ์ผ๋ก ์ธํด ์ค๋ฌด ๋ฐฐํฌ์ ์ด๋ ค์์ด ์์ต๋๋ค. ๋ชจ๋ธ์ ์์ถํ ๊ฒฝ์ฐ ๋ฐ์ํ๋ ํํ๋ ฅ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Moebius ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ํต์ฌ ๊ธฐ์ ๋ก ๊ณต๊ฐ ์ปจํ
์คํธ์ ๊ธ๋ก๋ฒ ์๋ฏธ๋ฅผ ๊ณ ์ ํฌ๊ธฐ ํ๋ ฌ๋ก ์์ฝํ๋ LฮปMI ๋ธ๋ก์ ๋์
ํ์ฌ ํ๋ผ๋ฏธํฐ๋ฅผ ํ๊ธฐ์ ์ผ๋ก ์ค์์ต๋๋ค. ์ฌ๊ธฐ์ ์ ์ฌ ๊ณต๊ฐ ๋ด์์ ๋ค์ค ๊ทธ๋๋์ธํธ ์์ค์ ์กฐ์ ํ๋ ์ ์ํ ๋ค์ค ์
๋ ์ฆ๋ฅ(Multi-granularity Distillation) ์ ๋ต์ ๊ฒฐํฉํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, Moebius๋ ๊ธฐ์กด ๊ฑฐ๋ ๋ชจ๋ธ ๋๋น 2% ๋ฏธ๋ง์ ํ๋ผ๋ฏธํฐ๋ง ์ฌ์ฉํ๋ฉด์๋ ๋๋ฑํ๊ฑฐ๋ ๋ ๋ฐ์ด๋ ์์ฑ ํ์ง์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- LฮปMI(Local-ฮป Mix Interaction) ๋ธ๋ก์ ํตํ ํจ์จ์ ์ธ ๊ณต๊ฐ ๋ฐ ๊ธ๋ก๋ฒ ์ ๋ณด ์์ฝ
- ์ ์ฌ ๊ณต๊ฐ ๋ด์์ ์ํ๋๋ ์ ์ํ ๋ค์ค ์ ๋ ์ฆ๋ฅ(Multi-granularity Distillation) ์ ๋ต
- ๊ฑฐ๋ ๋ชจ๋ธ(FLUX.1-Fill-Dev) ๋๋น ์๋์ ์ธ ์ถ๋ก ์๋ ๋ฐ ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ ํ๋ณด
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
์ฃ์ง ๋๋ฐ์ด์ค๋ ์ค์๊ฐ ์๋น์ค ํ๊ฒฝ์์ ๊ณ ์ฑ๋ฅ ์ธํ์ธํ
๊ธฐ๋ฅ์ ์ ๋น์ฉยท๊ณ ์์ผ๋ก ๊ตฌํํ ์ ์๋ ์ค์ง์ ์ธ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ ์๋ LฮปMI ๋ธ๋ก ๊ตฌ์กฐ๋ฅผ ๊ธฐ์กด ๊ฒฝ๋ Diffusion ๋ชจ๋ธ์ ์ด์ํ์ฌ ์ฑ๋ฅ ๋ณํ ํ์ธ
- ๋ค์ํ ํด์๋ ํ๊ฒฝ์์ ์ ์ฌ ๊ณต๊ฐ ๊ธฐ๋ฐ ์ฆ๋ฅ ์ ๋ต์ ์์ ์ฑ ํ ์คํธ
- ์ค์ ํ๋ก๋์ ํ๊ฒฝ์์์ ์ถ๋ก ์๋(Latency)์ ๋ฉ๋ชจ๋ฆฌ ์ ์ ์จ ๋ฒค์น๋งํฌ