PyoSignal Logo
PyoSignal
Back to Research

The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

Paper ID: 2606.20536 β€’ 2 Upvotes
Generative Models Evaluation Metric Reproducibility Computer Vision Vision Evaluation
The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

πŸ“ 핡심 μš”μ•½

FID μˆ˜μΉ˜λŠ” λͺ¨λΈμ˜ μ„±λŠ₯뿐만 μ•„λ‹ˆλΌ ν•™μŠ΅/μƒ˜ν”Œλ§ μ‹œμ˜ λ¬΄μž‘μœ„μ„±μ— 크게 μ˜μ‘΄ν•˜λ―€λ‘œ, 단일 수치 보고가 μ•„λ‹Œ 였차 λ²”μœ„λ₯Ό ν¬ν•¨ν•œ 평가 ν”„λ‘œν† μ½œμ΄ ν•„μš”ν•©λ‹ˆλ‹€.

πŸ“– 상세 λ‚΄μš©

이미지 생성 λͺ¨λΈ ν‰κ°€μ˜ ν‘œμ€€μΈ FIDλŠ” λŒ€κ°œ 단일 λͺ¨λΈκ³Ό 단일 μ‹œλ“œμ— λŒ€ν•œ 수치둜만 λ³΄κ³ λ˜μ–΄ μž¬ν˜„μ„± λ¬Έμ œκ°€ μ‘΄μž¬ν•©λ‹ˆλ‹€. λ³Έ 논문은 FIDλ₯Ό ν•™μŠ΅ μ‹œλ“œμ™€ 생성 μ‹œλ“œλΌλŠ” 두 좕을 κ°€μ§„ ν™•λ₯  λ³€μˆ˜λ‘œ μ·¨κΈ‰ν•˜μ—¬ 수백 개의 SiT λ„€νŠΈμ›Œν¬λ₯Ό 톡해 변동성을 μ •λŸ‰ν™”ν–ˆμŠ΅λ‹ˆλ‹€. 연ꡬ κ²°κ³Ό, λͺ¨λΈ μž¬ν•™μŠ΅μ— λ”°λ₯Έ FID λ³€ν™”κ°€ λ‹¨μˆœ μƒ˜ν”Œ μž¬μΆ”μΆœλ³΄λ‹€ 훨씬 크며, μ΄λŠ” μ΄ˆκΈ°ν™”, 데이터 μˆœμ„œ, ν•™μŠ΅ λ…Έμ΄μ¦ˆμ— μ˜ν•΄ λ°œμƒν•¨μ„ λ°ν˜€λƒˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ λͺ¨λΈ 크기λ₯Ό ν‚€μ›Œλ„ FID의 변동 κ³„μˆ˜(CoV)λŠ” 일정 μˆ˜μ€€ μœ μ§€λ˜λ©°, 운 쒋은 μ‹œλ“œκ°€ 훨씬 적은 μ—°μ‚°μœΌλ‘œλ„ 높은 μ„±λŠ₯을 λ‚Ό 수 μžˆμŒμ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό λ°”νƒ•μœΌλ‘œ μ €μžλ“€μ€ 였차 λ²”μœ„λ₯Ό ν¬ν•¨ν•œ μƒˆλ‘œμš΄ FID 평가 ν”„λ‘œν† μ½œμ„ μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ£Όμš” λ‚΄μš© (Key Points)

  • λͺ¨λΈ μž¬ν•™μŠ΅ μ‹œ λ°œμƒν•˜λŠ” FID 변동성이 μƒ˜ν”Œλ§ μ‹œμ˜ 변동성보닀 μ•½ 3.2λ°° 더 큼
  • λͺ¨λΈ 크기 증가가 FID의 μƒλŒ€μ  변동성(CoV)을 획기적으둜 쀄이지 λͺ»ν•¨
  • ν•™μŠ΅ μ‹œλ“œ(μ΄ˆκΈ°ν™”, 데이터 μˆœμ„œ λ“±)에 λ”°λ₯Έ μ„±λŠ₯ νŽΈμ°¨κ°€ μƒλ‹Ήν•˜λ©° μ΄λŠ” μ—°μ‚° νš¨μœ¨μ— 영ν–₯을 λ―ΈμΉ¨

πŸ’‘ 싀무적 κ°€μΉ˜ (Relevance)

λͺ¨λΈ μ„±λŠ₯ 비ꡐ μ‹œ 단일 FID μˆ˜μΉ˜μ— λ§€λͺ°λ˜μ§€ 말고, μž¬ν˜„μ„±μ„ μœ„ν•΄ μ—¬λŸ¬ μ‹œλ“œμ— λŒ€ν•œ 톡계적 μœ μ˜μ„±μ„ 확인해야 함을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.

βœ… μΆ”μ²œ μ•‘μ…˜ (Actionable Items)

  • λͺ¨λΈ μ„±λŠ₯ 비ꡐ μ‹œ 단일 μˆ˜μΉ˜κ°€ μ•„λ‹Œ μ—¬λŸ¬ μ‹œλ“œμ— λŒ€ν•œ 평균과 ν‘œμ€€νŽΈμ°¨(Error Bar)λ₯Ό ν•¨κ»˜ κΈ°λ‘ν•˜κΈ°
  • 두 λͺ¨λΈ κ°„μ˜ FID 차이가 μ‹€ν—˜μ  변동성 λ²”μœ„(μ•½ 1.3% CoV) 내에 μžˆλ‹€λ©΄ μ„±λŠ₯ 차이가 μ—†λŠ” κ²ƒμœΌλ‘œ κ°„μ£Όν•˜κΈ°
  • 졜적의 μ„±λŠ₯을 μœ„ν•΄ Classifier-Free Guidance(CFG) νŠœλ‹μ„ ν¬ν•¨ν•œ 평가 ν”„λ‘œν† μ½œ μ μš©ν•˜κΈ°