Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

Paper ID: 2604.18168 • 86 Upvotes

Vision Generative AI Diffusion Models Text-to-Image LLM RAG

Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation

📝 핵심 요약

클래스 레이블 기반의 1단계 이미지 생성 모델(MeanFlow)을 텍스트 기반으로 확장하여, 효율적이면서도 유연한 이미지 생성을 가능하게 하는 핵심 기술을 제시합니다.

📖 상세 내용

MeanFlow와 같은 1단계 생성 방식은 클래스 레이블 기반 이미지 생성에서 뛰어난 성능을 보였지만, 유연한 텍스트 입력으로의 확장은 미개척 분야였습니다. 기존의 강력한 LLM 기반 텍스트 인코더를 단순히 통합하는 방식으로는 1단계 생성의 특성상 텍스트 특징의 판별력이 부족하여 만족스러운 결과를 얻기 어려웠습니다. 본 연구는 1단계 생성에서 텍스트 특징의 높은 판별력이 필수적임을 밝혀내고, 이를 만족하는 LLM 기반 텍스트 인코더를 MeanFlow 프레임워크에 효과적으로 통합하는 방법을 제안합니다. 그 결과, 최초로 효율적인 텍스트 조건부 이미지 합성을 달성했으며, 확산 모델에서도 상당한 성능 향상을 검증했습니다.

🔑 주요 내용 (Key Points)

1단계 이미지 생성 모델(MeanFlow)을 클래스 레이블에서 텍스트 조건부 생성으로 확장
1단계 생성에서 텍스트 특징의 '높은 판별력'이 핵심적인 성공 요인임을 규명
강력한 LLM 기반 텍스트 인코더를 MeanFlow에 효과적으로 통합하여 텍스트 조건부 합성 성능 향상

💡 실무적 가치 (Relevance)

개발자는 이 연구를 통해 적은 단계만으로도 유연한 텍스트 입력으로부터 고품질 이미지를 생성할 수 있게 되어, 이미지 생성 애플리케이션의 효율성과 활용도를 크게 높일 수 있습니다.

✅ 추천 액션 (Actionable Items)

제공된 코드를 활용하여 다양한 텍스트 프롬프트로 이미지 생성 품질 및 속도 테스트
기존의 다단계 텍스트-이미지 생성 모델과 본 방식의 생성 결과물 품질 및 추론 속도를 비교 분석
다른 LLM 기반 텍스트 인코더를 적용하여 텍스트 특징의 판별력과 최종 이미지 생성 성능 변화를 실험

View on Hugging Face View PDF (arXiv)