GUI Automation Agent Multi-Platform RL Tool-Calling Reasoning Benchmark
Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents
Paper ID: 2602.16855 β’ 18 Upvotes
π ν΅μ¬ μμ½
λ€μν νλ«νΌμμ GUI μλνλ₯Ό μν μμ΄μ νΈ λͺ¨λΈ GUI-Owl-1.5λ₯Ό 곡κ°, κ°λ°μλ€μ΄ UI μλν λ° ν
μ€νΈλ₯Ό ν¨μ¨μ μΌλ‘ μνν μ μλλ‘ λλλ€.
π μμΈ λ΄μ©
GUI μλνλ λ€μν νλ«νΌμμ μΌκ΄λ μ¬μ©μ κ²½νμ μ 곡νλ λ° μ€μν μν μ νμ§λ§, νλ«νΌλ³ νΈνμ± λ¬Έμ μ 볡μ‘ν UI κ΅¬μ‘°λ‘ μΈν΄ μ΄λ €μμ κ²ͺμ΅λλ€. μ΄ λ
Όλ¬Έμμλ λ°μ€ν¬ν, λͺ¨λ°μΌ, μΉ λ± λ€μν νλ«νΌμ μ§μνκ³ ν΄λΌμ°λ-μ£μ§ νμ
μ΄ κ°λ₯ν GUI μμ΄μ νΈ λͺ¨λΈ GUI-Owl-1.5λ₯Ό μκ°ν©λλ€. GUI-Owl-1.5λ νμ΄λΈλ¦¬λ λ°μ΄ν° νλΌμ΄ν , ν΅ν©λ μ¬κ³ ν©μ± νμ΄νλΌμΈ, λ€μ€ νλ«νΌ νκ²½ RL μ€μΌμΌλ§ κΈ°μ μ ν΅ν΄ GUI μλν, κ·ΈλΌμ΄λ©, ν΄ μ¬μ©, μ§μ μ΅λ λ₯λ ₯μ ν₯μμμΌ°μ΅λλ€. λ€μν GUI λ²€μΉλ§ν¬μμ μ΅μ²¨λ¨ μ±λ₯μ λ¬μ±νμΌλ©°, λͺ¨λΈκ³Ό λ°λͺ¨λ₯Ό μ€νμμ€λ‘ 곡κ°νμ¬ μ κ·Όμ±μ λμμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- λ€μν νλ«νΌ μ§μ (λ°μ€ν¬ν, λͺ¨λ°μΌ, μΉ)
- νμ΄λΈλ¦¬λ λ°μ΄ν° νλΌμ΄ν μ ν΅ν λ°μ΄ν° ν¨μ¨μ± λ° νμ§ ν₯μ
- MRPO μκ³ λ¦¬μ¦μ μ¬μ©ν λ€μ€ νλ«νΌ νκ²½μμμ RL μ€μΌμΌλ§
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
GUI-Owl-1.5λ κ°λ°μλ€μ΄ GUI μλν ν
μ€νΈ λ° UI κΈ°λ° μμ
μλνλ₯Ό λ μ½κ³ ν¨μ¨μ μΌλ‘ μνν μ μλλ‘ μ§μνλ©°, νΉν λ€μν νλ«νΌμ μ§μνλ―λ‘ ν¬λ‘μ€ νλ«νΌ μ± κ°λ°μ μ μ©νλ€.
β μΆμ² μ‘μ (Actionable Items)
- κΉνλΈμμ GUI-Owl-1.5 λͺ¨λΈ λ€μ΄λ‘λ λ° λ‘컬 νκ²½ ν μ€νΈ
- μ 곡λ ν΄λΌμ°λ-μλλ°μ€ λ°λͺ¨λ₯Ό ν΅ν΄ GUI-Owl-1.5μ κΈ°λ₯ μ§μ 체ν
- GUI μλν ν μ€νΈ νμ΄νλΌμΈμ GUI-Owl-1.5 ν΅ν© μλ