CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Paper ID: 2604.19636 • 58 Upvotes

Diffusion Model Video Synthesis HOI Transformer Vision Video Audio Inference

CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

📝 핵심 요약

CoInteract는 Diffusion Transformer 기반으로 사람-객체 상호작용 비디오 생성 시 손과 얼굴의 구조적 안정성 및 물리적 현실감을 향상시키는 새로운 프레임워크입니다.

📖 상세 내용

사람-객체 상호작용(HOI) 비디오 합성은 전자 상거래, 디지털 광고 등 다양한 분야에서 중요하지만, 기존 diffusion 모델은 구조적 안정성과 물리적 현실감 측면에서 한계를 보입니다. 이러한 문제를 해결하기 위해 CoInteract는 사람 참조 이미지, 제품 참조 이미지, 텍스트 프롬프트, 음성 오디오를 조건으로 HOI 비디오를 생성하는 프레임워크를 제안합니다. CoInteract는 Human-Aware MoE를 통해 영역별 전문가에게 토큰을 라우팅하여 구조적 정확도를 높이고, Spatially-Structured Co-Generation을 통해 RGB 스트림과 HOI 구조 스트림을 공동으로 모델링하여 상호작용 기하학적 사전 정보를 주입합니다. 실험 결과, CoInteract는 구조적 안정성, 논리적 일관성, 상호작용 현실감 측면에서 기존 방법보다 우수한 성능을 보였습니다.

🔑 주요 내용 (Key Points)

Human-Aware Mixture-of-Experts (MoE)를 통해 영역별 특화된 전문가 활용
Spatially-Structured Co-Generation을 통해 RGB와 HOI 구조 스트림 공동 모델링
HOI 스트림을 학습 시에만 사용하여 추론 시 오버헤드 없음

💡 실무적 가치 (Relevance)

HOI 비디오 생성 시 구조적 안정성과 물리적 현실감을 높여, 보다 자연스럽고 현실적인 가상 환경 구축 및 콘텐츠 제작에 기여할 수 있습니다.

✅ 추천 액션 (Actionable Items)

제공되는 데모 비디오를 통해 CoInteract의 성능 직접 확인
Human-Aware MoE 및 Spatially-Structured Co-Generation의 구현 방식 상세 분석
자체 데이터셋에 CoInteract 적용하여 성능 개선 가능성 검토

View on Hugging Face View PDF (arXiv)