MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization
Paper ID: 2606.19930 β’ 34 Upvotes
Mobile-Agent Reinforcement-Learning GUI-Automation LLM-Adaptation Agent Vision Evaluation
π ν΅μ¬ μμ½
λ³λμ μλ λ μ΄λΈλ§ μμ΄ λͺ¨λ°μΌ μ± νκ²½μμ μ€μ€λ‘ νμ΅νμ¬ μ±λ₯μ μ΅μ ννλ μμ΄μ νΈ μ μ μμ€ν
π μμΈ λ΄μ©
μ΅κ·Ό MLLM κΈ°λ° λͺ¨λ°μΌ GUI μμ΄μ νΈκ° λ°μ νκ³ μμΌλ, λΉλ²ν μ± μ
λ°μ΄νΈμ λ°©λν νμ€ν¬λ‘ μΈν΄ μλ λ°μ΄ν° κ΅¬μΆ λΉμ©μ΄ λ§€μ° λμ΅λλ€. κΈ°μ‘΄μ λΉμ§λ νμ΅ λ°©μμ νμ, 컀리νλΌ μμ±, νΌλλ°± 루νκ° ν΅ν©λμ§ μμ μ λ’°ν μ μλ μ μ±
μ΅μ νκ° μ΄λ ΅λ€λ λ¬Έμ κ° μμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ MobileForgeλ μ€μκ° μ± μνΈμμ©μ ν΅ν νμ€ν¬ μμ± λ° νκ°λ₯Ό μ§μνλ MobileGymκ³Ό κ³μΈ΅μ νΌλλ°± κΈ°λ° μ μ±
μ΅μ ν(HiFPO)λ₯Ό μ μν©λλ€. HiFPOλ κ²°κ³ΌλΏλ§ μλλΌ λ¨κ³λ³ νΌλλ°±κ³Ό κ΅μ ννΈλ₯Ό νμ©νμ¬ GRPO λ°©μμΌλ‘ μ μ±
μ μ
λ°μ΄νΈν©λλ€. μ€ν κ²°κ³Ό, MobileForgeλ AndroidWorld λ²€μΉλ§ν¬μμ κ°λ ₯ν μ±λ₯μ 보μ΄λ©° μ€ν λ°μ΄ν° κΈ°λ° λͺ¨λ°μΌ GUI μμ΄μ νΈλ‘μ μ΅κ³ μμ€μ μ±λ₯μ μ
μ¦νμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- MobileGym: μ€μκ° μ± μνΈμμ©μ ν΅ν μλ νμ€ν¬ μμ± λ° λ‘€μμ νκ° νκ²½ ꡬμΆ
- HiFPO: κ²°κ³Ό(Outcome), λ¨κ³λ³ νΌλλ°±, κ΅μ ννΈλ₯Ό κ²°ν©ν κ³μΈ΅μ GRPO μ΅μ ν λ°©μ
- Annotation-Free: μλ λ°μ΄ν° μμ΄ μλ μμ±λ λ°μ΄ν°λ§μΌλ‘ νκ² μ±μ λν μμ΄μ νΈ μ μ κ°λ₯
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
μλ‘μ΄ μ±μ΄λ μ
λ°μ΄νΈλ UI νκ²½μ λμνκΈ° μν΄ λ§€λ² μ¬λμ΄ λ°μ΄ν°λ₯Ό λΌλ²¨λ§ν νμ μμ΄ μλνλ νμ΄νλΌμΈμΌλ‘ μμ΄μ νΈλ₯Ό νλν μ μμ΅λλ€.
β μΆμ² μ‘μ (Actionable Items)
- μ 곡λ MobileGym νκ²½μ νμ©ν μλ λ°μ΄ν° μμ± νμ΄νλΌμΈ ν μ€νΈ
- GRPO μκ³ λ¦¬μ¦μ νμ©ν λ¨κ³λ³ νΌλλ°±(Step-level feedback) μ μ© μ€ν
- νΉμ λλ©μΈ(μ: μΌν, λ°°λ¬) μ±μ λν Zero-shot vs MobileForge μ μ μ±λ₯ λΉκ΅