WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models
Paper ID: 2604.18224 β’ 18 Upvotes
Agent Multimodal Evaluation Web Development LLM Reasoning Vision Video Benchmark
π ν΅μ¬ μμ½
μΉ μ½λ© LLMμ μ€μ μ±λ₯μ μ’
ν©μ μΌλ‘ νκ°νκΈ° μν λ©ν°λͺ¨λ¬ λ²€μΉλ§ν¬λ₯Ό μ μνμ¬, μκ°μ μΆ©μ€λ, μνΈμμ©, μ½λλ² μ΄μ€ μΆλ‘ λ₯λ ₯κΉμ§ μΈ‘μ ν©λλ€.
π μμΈ λ΄μ©
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΉ μ½λ© μμ΄μ νΈλ‘ λΉ λ₯΄κ² λ°μ νκ³ μμ§λ§, κΈ°μ‘΄ λ²€μΉλ§ν¬λ μ μ μ νλμλ§ μ΄μ μ λ§μΆ° μκ°μ μΆ©μ€λ, μνΈμμ© νμ§, μ½λλ² μ΄μ€ μμ€μ μΆλ‘ λ₯λ ₯μ μ λλ‘ μΈ‘μ νμ§ λͺ»νμ΅λλ€. λ³Έ μ°κ΅¬λ μΉ μμ§λμ΄λ§ λ₯λ ₯μ ν΅ν©μ μΌλ‘ νκ°νλ λ©ν°λͺ¨λ¬ λ²€μΉλ§ν¬μΈ WebCompassλ₯Ό μκ°ν©λλ€. WebCompassλ ν
μ€νΈ, μ΄λ―Έμ§, λΉλμ€ μΈ κ°μ§ μ
λ ₯ μμκ³Ό μμ±, νΈμ§, μ리 μΈ κ°μ§ μμ
μ νμ ν¬κ΄νλ©°, LLM-as-a-Judge λ° Agent-as-a-Judge νλ‘ν μ½μ μ¬μ©νμ¬ μ€μ λΈλΌμ°μ μμ μΉμ¬μ΄νΈλ₯Ό μ€ννκ³ μνΈμμ©μ νμν©λλ€. νκ° κ²°κ³Ό, νμν λͺ¨λΈμ΄ ν¨μ¬ κ°λ ₯νκ³ κ· ν μ‘ν μ±λ₯μ 보μμΌλ©°, λ―Ένμ νμ§μ΄ νΉν μ€νμμ€ λͺ¨λΈμ κ°μ₯ ν° λ³λͺ© νμμΌλ‘ λνλ¬μ΅λλ€. λν, Vue νλ μμν¬κ° μΌκ΄λκ² μ΄λ €μμ κ²ͺλ λ°λ©΄ Reactμ Vanilla/HTMLμ μμ
μ νμ λ°λΌ λ λμ μ±λ₯μ 보μμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- μΉ μ½λ© LLMμ μκ°μ μΆ©μ€λ, μνΈμμ©, μ½λλ² μ΄μ€ μΆλ‘ μ μ’ ν©μ μΌλ‘ νκ°νλ λ©ν°λͺ¨λ¬ λ²€μΉλ§ν¬ WebCompass μ μ.
- μ€μ λΈλΌμ°μ μ€ν λ° μνΈμμ© νμμ ν¬ν¨νλ Agent-as-a-Judgeμ LLM-as-a-Judgeλ₯Ό ν΅ν μλ‘μ΄ νκ° νλ‘ν μ½ μ μ.
- λͺ¨λΈ μ ν, μμ μ ν, νλ μμν¬(Vue, React λ±)μ λ°λ₯Έ LLM μ±λ₯μ μμΈ λΆμ λ° μ£Όμ λ³λͺ© νμ(λ―Ένμ νμ§) μλ³.
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
κ°λ°μλ€μ μ΄ λ²€μΉλ§ν¬λ₯Ό ν΅ν΄ LLMμ΄ μ€μ μΉ κ°λ° μν¬νλ‘μ°(μμ±, νΈμ§, μ리)μμ μΌλ§λ μ μ©νλ©°, νΉν μκ°μ μμλ μνΈμμ© μΈ‘λ©΄μμ μ΄λ€ κ°μ κ³Ό μ½μ μ κ°μ§λμ§ μ΄ν΄νκ³ , λ λμ AI 보쑰 λꡬλ₯Ό μ ννκ±°λ κ°λ°νλ λ° νμ©ν μ μμ΅λλ€.
β μΆμ² μ‘μ (Actionable Items)
- LLMμ νμ©ν μΉ κ°λ° μ, λ¨μ μ½λ μμ±λΏ μλλΌ κΈ°μ‘΄ μ½λ νΈμ§ λ° λ²κ·Έ μ리 μμ μ λν λͺ¨λΈμ μ±λ₯μ μ§μ ν μ€νΈν΄ 보μΈμ.
- LLMμ΄ μμ±ν μΉ UIμ λ―Ένμ νμ§μ νΉν μ£Όμλ₯Ό κΈ°μΈμ΄κ³ , νμν κ²½μ° μΆκ°μ μΈ ν둬ννΈ μμ§λμ΄λ§μ΄λ μλ μμ μ κ³ λ €νμΈμ.
- νΉμ μΉ νλ μμν¬(μ: Vue)λ₯Ό μ¬μ©νλ νλ‘μ νΈμμλ LLMμ μ±λ₯μ΄ μ νλ μ μμμ μΈμ§νκ³ , νλ μμν¬λ³ LLM μ§μ νν©μ νμ νμ¬ μ μ ν νμ©νμΈμ.