Selective Synergistic Learning for Video Object-Centric Learning
Paper ID: 2606.15527 β’ 2 Upvotes
Video Understanding Object-Centric Learning Self-Supervised Learning Efficiency RAG Video Distillation Safety
π ν΅μ¬ μμ½
λΆνμν μ 보 μ λ ¬μ λ°°μ νκ³ μΈμ½λμ λμ½λμ κ°μ λ§ μ νμ μΌλ‘ κ²°ν©νμ¬ λΉλμ€ κ°μ²΄ λΆν μ±λ₯κ³Ό ν¨μ¨μ±μ λμΈ νμ΅ νλ μμν¬
π μμΈ λ΄μ©
κΈ°μ‘΄μ λΉλμ€ κ°μ²΄ μ€μ¬ νμ΅(VOCL)μ μΈμ½λμ μ΄ν
μ
λ§΅κ³Ό λμ½λμ κ°μ²΄ λ§΅ μ¬μ΄μ μ λ ¬μ μλνμ§λ§, λͺ¨λ ν¨μΉλ₯Ό μΌκ΄μ μΌλ‘ μ λ ¬νλ λ°©μμ λ
Έμ΄μ¦ μ νμ μ°μ°λ κΈμ¦ λ¬Έμ λ₯Ό μΌκΈ°ν©λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μ μλ SSyncλ λͺ¨λ ν¨μΉλ₯Ό λΉκ΅νλ λμ , μΈμ½λλ κ²½κ³ μ λ°νμ, λμ½λλ λ΄λΆ λ
Έμ΄μ¦ μ κ±°μλ§ μ§μ€νλλ‘ μ νμ μ¦λ₯(Selective Distillation)λ₯Ό μνν©λλ€. λν, μ€λ³΅λ μ¬λ‘― λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μ곡κ°μ νμ±ν μΌκ΄μ±μ κΈ°λ°μΌλ‘ ν μ μ΄μ μμ¬ λΌλ²¨ λ³ν©(Transitive Pseudo-label Merging) κΈ°λ²μ λμ
νμ΅λλ€. κ²°κ³Όμ μΌλ‘ SSyncλ μ ν 볡μ‘λλ‘ μ°μ° ν¨μ¨μ ν보νλ©΄μλ κ°μ²΄ λΆν΄ νμ§μ ν¬κ² ν₯μμμΌ°μ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- μ νμ μ¦λ₯(Selective Distillation): μΈμ½λ(κ²½κ³)μ λμ½λ(λ΄λΆ)μ κ°μ λ§μ νμ©νμ¬ μ€λ₯ μ ν λ°©μ§
- μ ν 볡μ‘λ ꡬν: λͺ¨λ ν¨μΉ κ° λΉκ΅κ° μλ μμ¬ λΌλ²¨λ§μ ν΅ν΄ μ°μ° λΉμ©μ νκΈ°μ μΌλ‘ μ κ°
- μ μ΄μ μμ¬ λΌλ²¨ λ³ν©: μ€λ³΅λ μ¬λ‘―μ ν΅ν©νμ¬ κ°μ²΄ λΆν΄μ μ νλμ κ²¬κ³ ν¨ ν보
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
κΈ°μ‘΄μ μ°μ° μ§μ½μ μΈ λ°μ§ μ λ ¬ λ°©μμμ λ²μ΄λ ν¨μ¨μ μΈ κ°μ²΄ λΆν μ΄ κ°λ₯νλ―λ‘, μ€μκ°μ±μ΄ μ€μν λΉλμ€ λΆμ νμ΄νλΌμΈμ νλ¬κ·ΈμΈ ννλ‘ μ μ©νκΈ° μ ν©ν©λλ€.
β μΆμ² μ‘μ (Actionable Items)
- κΈ°μ‘΄ Slot-based λͺ¨λΈμ SSyncμ μμ¬ λΌλ²¨λ§ λ‘μ§μ μ μ©νμ¬ μ±λ₯ λ³ν κ΄μ°°
- λ€μν ν΄μλ λ° νλ μ μ νκ²½μμ μ°μ°λ(Complexity) λ³ν ν μ€νΈ
- μ€λ³΅ μ¬λ‘― μ κ±°λ₯Ό μν λ³ν© μκ³ λ¦¬μ¦μ μκ³κ°(Threshold) μ΅μ ν μ€ν