DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

Paper ID: 2606.26058 • 55 Upvotes

Video-Generation Diffusion-Models Personalization Computer-Vision Vision Video

DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation

📝 핵심 요약

In-domain의 높은 재현율과 Cross-domain의 유연성을 동시에 확보한 오픈 도메인 대상 기반 텍스트-비디오 생성 기술

📖 상세 내용

최근 오픈 도메인 대상 기반 텍스트-비디오(S2V) 생성 기술이 주목받고 있으나, 기존 방식은 대상의 특징을 유지하는 데만 집중하여 스타일 변경이나 의미적 결합 같은 크로스 도메인 시나리오에서의 유연성이 부족했습니다. 본 연구에서는 대상의 정체성을 유지하면서도 도메인 간 전환이 자유로운 DomainShuttle을 제안합니다. 이를 위해 비디오와 참조 특징을 분리하고 도메인별 모델링을 지원하는 Domain-MoT와, 참조 이미지와 비디오 토큰을 분리된 공간에서 처리하는 Video-Reference DualRoPE를 도입했습니다. 또한, 불필요한 특징에 영향을 받지 않는 핵심 특징 추출을 위해 Cross-Pair Consistent Loss를 적용했습니다. 실험 결과, 제안 방식은 높은 대상 재현율과 생성 유연성을 동시에 달성하며 기존 모델 대비 뛰어난 성능을 입증했습니다.

🔑 주요 내용 (Key Points)

Domain-MoT: 비디오와 참조 특징을 분리하고 도메인 인식 AdaLN을 통해 정교한 모델링 수행
Video-Reference DualRoPE: 참조 이미지와 비디오 토큰을 별도의 RoPE 공간에 배치하여 정밀한 공간 모델링 구현
Cross-Pair Consistent Loss: 대상의 본질적 특징만 추출하여 도메인 변화에도 일관된 정체성 유지

💡 실무적 가치 (Relevance)

특정 캐릭터나 사물을 유지하면서도 배경, 스타일, 환경을 자유롭게 바꾸는 고품질 비디오 생성 파이프라인 구축이 가능해집니다.

✅ 추천 액션 (Actionable Items)

제안된 DualRoPE 구조가 기존 DiT(Diffusion Transformer) 구조와 어떻게 호환되는지 분석
다양한 스타일(애니메이션, 실사 등)로의 크로스 도메인 전환 성능 테스트
복잡한 배경 속에서도 대상의 특징이 왜곡되지 않는지 정성적 평가 수행

View on Hugging Face View PDF (arXiv)