PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models
Paper ID: 2606.19534 β’ 49 Upvotes
Vision Diffusion Efficiency Multimodal RAG Benchmark Evaluation Inference
π ν΅μ¬ μμ½
Diffusion Language Model(DLM)μ λ³λ ¬ λμ½λ© νΉμ±μ νμ©νμ¬ μ¬λ¬ μμμ λν μΊ‘μ
λμ λμμ μννλ κ³ ν¨μ¨ μκ° μΈμ λͺ¨λΈ μ μ
π μμΈ λ΄μ©
κΈ°μ‘΄μ λ©ν°λͺ¨λ¬ κ±°λμΈμ΄λͺ¨λΈ(MLLM)μ μκΈ°νκ·(Autoregressive) μμ± λ°©μμ μμ‘΄νμ¬ μ¬λ¬ μμμ μ€λͺ
ν λ μμ°¨μ μμ±μΌλ‘ μΈν ν¨μ¨μ± μ ν λ¬Έμ κ° μμμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ λ³Έ λ
Όλ¬Έμ Diffusion Language Model(DLM)μ λ³λ ¬ λμ½λ© κ°μ μ νμ©ν PerceptionDLMμ μ μν©λλ€. ν¨μ¨μ μΈ ν둬νν
κ³Ό ꡬ쑰νλ μ΄ν
μ
λ§μ€νΉ(Structured Attention Masking)μ λμ
νμ¬, μνμ€ λ° ν ν° μμ€μμ μ¬λ¬ λ§μ€νΉλ μμμ λμμ μΈμν μ μλλ‘ μ€κ³νμ΅λλ€. λν, λ³λ ¬ μΈμ λ₯λ ₯μ νκ°νκΈ° μν μλ‘μ΄ λ²€μΉλ§ν¬μΈ ParaDLC-Benchλ₯Ό ꡬμΆνμ΅λλ€. μ€ν κ²°κ³Ό, PerceptionDLMμ κΈ°μ‘΄ λ°©μ λλΉ μ±λ₯μ μ μ§νλ©΄μλ λ€μ€ μμ μΈμ μμ
μμ νκΈ°μ μΈ μΆλ‘ μλ ν₯μμ λ¬μ±νμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- DLMμ λ³λ ¬ λμ½λ© νΉμ±μ νμ©ν λ€μ€ μμ λμ μΊ‘μ λ κΈ°μ κ°λ°
- ν¨μ¨μ μΈ ν둬νν λ° κ΅¬μ‘°νλ μ΄ν μ λ§μ€νΉμ ν΅ν μνμ€/ν ν° λ¨μ λ³λ ¬ μ²λ¦¬
- λ³λ ¬ μΈμ μ±λ₯κ³Ό νμ§μ λμμ νκ°ν μ μλ ParaDLC-Bench λ²€μΉλ§ν¬ ꡬμΆ
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
μ¬λ¬ κ°μ²΄κ° ν¬ν¨λ μ΄λ―Έμ§μμ κ° μμμ κ°λ³μ μΌλ‘ μ€λͺ
ν΄μΌ νλ μμ
μ, μμ°¨μ μμ± λ°©μμ λ³λͺ© νμμ ν΄κ²°νμ¬ μΆλ‘ μλλ₯Ό ν¬κ² κ°μ ν μ μμ΅λλ€.
β μΆμ² μ‘μ (Actionable Items)
- κΈ°μ‘΄ Autoregressive MLLMκ³Ό PerceptionDLMμ μΆλ‘ μκ°(Latency) λΉκ΅ μ€ν
- λ€μ€ κ°μ²΄ νμ§ λ° μΊ‘μ λμ΄ νμν μ€μκ° λΉμ μλΉμ€μ μ μ© κ°λ₯μ± κ²ν
- μ 곡λ ParaDLC-Benchλ₯Ό νμ©ν λͺ¨λΈμ λ³λ ¬ μ²λ¦¬ ν¨μ¨μ± κ²μ¦