Context-Aware RL for Agentic and Multimodal LLMs
Paper ID: 2606.17053 โข 4 Upvotes
Agent Reinforcement Learning Multimodal Reasoning RAG Vision Benchmark
๐ ํต์ฌ ์์ฝ
๋ณต์กํ ์ปจํ
์คํธ ๋ด ๋ฏธ์ธํ ์ฆ๊ฑฐ๋ฅผ ์ฐพ๋ ๋ฅ๋ ฅ์ ๊ฐํํ๊ธฐ ์ํด '์ปจํ
์คํธ ์ ํ'์ ๋ณด์์ผ๋ก ํ์ฉํ๋ ์๋ก์ด RL ๋ฐฉ๋ฒ๋ก ์ ์
๐ ์์ธ ๋ด์ฉ
LLM์ ๊ธด ์ปจํ
์คํธ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ๋ด์ ๊ฒฐ์ ์ ์ธ ๋จ์๋ฅผ ์ฐพ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ต์ข
์ ๋ต๋ฟ๋ง ์๋๋ผ, ์ ๋ต์ ๋ท๋ฐ์นจํ๋ ์ฌ๋ฐ๋ฅธ ์ปจํ
์คํธ๋ฅผ ์ ํํ๋๋ก ์ ๋ํ๋ ContextRL ๋ฐฉ์์ ์ ์ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์ฝ๋ฉ ์์ด์ ํธ์ ํธ๋ ์ด์ค ๋ฐ์ดํฐ์ ๋ฉํฐ๋ชจ๋ฌ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋์กฐ์ ์ปจํ
์คํธ ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ ์๋ ๋ฐฉ์์ ๊ธฐ์กด GRPO ๋๋น ๋กฑ-ํธ๋ผ์ด์ฆ ์ถ๋ก ๋ฐ ์๊ฐ์ ์ง์์๋ต ์ฑ๋ฅ์ ๋ชจ๋ ํฅ์์์ผฐ์ต๋๋ค. ํนํ ๋จ์ ๋ฐ์ดํฐ ์ฆ๊ฐ์ด ์๋, ์ปจํ
์คํธ ์ ํ์ด๋ผ๋ ๋ณด์ ์ค๊ณ ์์ฒด๊ฐ ์ฑ๋ฅ ํฅ์์ ํต์ฌ์์ ์
์ฆํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ๊ฐ์ ์ ๋ณด์ ์ค๊ณ๋ฅผ ํตํ ๋ฏธ์ธํ ๊ทผ๊ฑฐ ํ์(Fine-grained grounding) ๋ฅ๋ ฅ ๊ฐํ
- ์ฝ๋ฉ ํธ๋ ์ด์ค ๋ฐ ์ด๋ฏธ์ง ํธ์ง์ ํ์ฉํ ๋์กฐ์ ์ปจํ ์คํธ ๋ฐ์ดํฐ ๊ตฌ์ถ
- ๋จ์ ๋ฐ์ดํฐ ์ฆ๊ฐ๊ณผ ์ฐจ๋ณํ๋๋ ์ปจํ ์คํธ ์ ํ ๋ชฉ์ ํจ์(Objective)์ ํจ๊ณผ ์ ์ฆ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
์์ด์ ํธ๊ฐ ๊ธด ๋ก๊ทธ๋ ๋ณต์กํ ์ด๋ฏธ์ง ์์์ ํต์ฌ ์ ๋ณด๋ฅผ ๋์น๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ RL ํ์ต ์ ๋ต์ ์ ๊ณตํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์์ด์ ํธ์ ์์ ๋ก๊ทธ(Trace)๋ฅผ ํ์ฉํ ๋์กฐ์ ๋ฐ์ดํฐ์ ๊ตฌ์ถ ์คํ
- ๊ธฐ์กด RL ์๊ณ ๋ฆฌ์ฆ์ '์ปจํ ์คํธ ์ ํ' ๋ณด์ ํญ์ ์ถ๊ฐํ์ฌ ์ฑ๋ฅ ๋ณํ ๊ด์ฐฐ
- RAG ์์คํ ์ ๊ฒ์ ๊ฒฐ๊ณผ ์ ํฉ์ฑ ํฅ์์ ์ํ ํ์ต ๋ฐ์ดํฐ๋ก ๋ณํ ์ ์ฉ