PyoSignal Logo
PyoSignal
Back to Research

Context-Aware RL for Agentic and Multimodal LLMs

Paper ID: 2606.17053 โ€ข 4 Upvotes
Agent Reinforcement Learning Multimodal Reasoning RAG Vision Benchmark
Context-Aware RL for Agentic and Multimodal LLMs

๐Ÿ“ ํ•ต์‹ฌ ์š”์•ฝ

๋ณต์žกํ•œ ์ปจํ…์ŠคํŠธ ๋‚ด ๋ฏธ์„ธํ•œ ์ฆ๊ฑฐ๋ฅผ ์ฐพ๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด '์ปจํ…์ŠคํŠธ ์„ ํƒ'์„ ๋ณด์ƒ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด RL ๋ฐฉ๋ฒ•๋ก  ์ œ์•ˆ

๐Ÿ“– ์ƒ์„ธ ๋‚ด์šฉ

LLM์€ ๊ธด ์ปจํ…์ŠคํŠธ๋‚˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ๋‚ด์˜ ๊ฒฐ์ •์ ์ธ ๋‹จ์„œ๋ฅผ ์ฐพ๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ตœ์ข… ์ •๋‹ต๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ์ •๋‹ต์„ ๋’ท๋ฐ›์นจํ•˜๋Š” ์˜ฌ๋ฐ”๋ฅธ ์ปจํ…์ŠคํŠธ๋ฅผ ์„ ํƒํ•˜๋„๋ก ์œ ๋„ํ•˜๋Š” ContextRL ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ฝ”๋”ฉ ์—์ด์ „ํŠธ์˜ ํŠธ๋ ˆ์ด์Šค ๋ฐ์ดํ„ฐ์™€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด ๋Œ€์กฐ์  ์ปจํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, ์ œ์•ˆ๋œ ๋ฐฉ์‹์€ ๊ธฐ์กด GRPO ๋Œ€๋น„ ๋กฑ-ํ˜ธ๋ผ์ด์ฆŒ ์ถ”๋ก  ๋ฐ ์‹œ๊ฐ์  ์งˆ์˜์‘๋‹ต ์„ฑ๋Šฅ์„ ๋ชจ๋‘ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹จ์ˆœ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์ด ์•„๋‹Œ, ์ปจํ…์ŠคํŠธ ์„ ํƒ์ด๋ผ๋Š” ๋ณด์ƒ ์„ค๊ณ„ ์ž์ฒด๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ํ•ต์‹ฌ์ž„์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์ฃผ์š” ๋‚ด์šฉ (Key Points)

  • ๊ฐ„์ ‘์  ๋ณด์ƒ ์„ค๊ณ„๋ฅผ ํ†ตํ•œ ๋ฏธ์„ธํ•œ ๊ทผ๊ฑฐ ํƒ์ƒ‰(Fine-grained grounding) ๋Šฅ๋ ฅ ๊ฐ•ํ™”
  • ์ฝ”๋”ฉ ํŠธ๋ ˆ์ด์Šค ๋ฐ ์ด๋ฏธ์ง€ ํŽธ์ง‘์„ ํ™œ์šฉํ•œ ๋Œ€์กฐ์  ์ปจํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•
  • ๋‹จ์ˆœ ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•๊ณผ ์ฐจ๋ณ„ํ™”๋˜๋Š” ์ปจํ…์ŠคํŠธ ์„ ํƒ ๋ชฉ์  ํ•จ์ˆ˜(Objective)์˜ ํšจ๊ณผ ์ž…์ฆ

๐Ÿ’ก ์‹ค๋ฌด์  ๊ฐ€์น˜ (Relevance)

์—์ด์ „ํŠธ๊ฐ€ ๊ธด ๋กœ๊ทธ๋‚˜ ๋ณต์žกํ•œ ์ด๋ฏธ์ง€ ์†์—์„œ ํ•ต์‹ฌ ์ •๋ณด๋ฅผ ๋†“์น˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” RL ํ•™์Šต ์ „๋žต์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

โœ… ์ถ”์ฒœ ์•ก์…˜ (Actionable Items)

  • ์—์ด์ „ํŠธ์˜ ์ž‘์—… ๋กœ๊ทธ(Trace)๋ฅผ ํ™œ์šฉํ•œ ๋Œ€์กฐ์  ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ์‹คํ—˜
  • ๊ธฐ์กด RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์— '์ปจํ…์ŠคํŠธ ์„ ํƒ' ๋ณด์ƒ ํ•ญ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์„ฑ๋Šฅ ๋ณ€ํ™” ๊ด€์ฐฐ
  • RAG ์‹œ์Šคํ…œ์˜ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ ์ •ํ•ฉ์„ฑ ํ–ฅ์ƒ์„ ์œ„ํ•œ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ˜• ์ ์šฉ