Context-Aware RL for Agentic and Multimodal LLMs

Paper ID: 2606.17053 • 4 Upvotes

Agent Reinforcement Learning Multimodal Reasoning RAG Vision Benchmark

Context-Aware RL for Agentic and Multimodal LLMs

📝 핵심 요약

복잡한 컨텍스트 내 미세한 증거를 찾는 능력을 강화하기 위해 '컨텍스트 선택'을 보상으로 활용하는 새로운 RL 방법론 제안

📖 상세 내용

LLM은 긴 컨텍스트나 멀티모달 데이터 내의 결정적인 단서를 찾는 데 어려움을 겪는 경우가 많습니다. 이를 해결하기 위해 최종 정답뿐만 아니라, 정답을 뒷받침하는 올바른 컨텍스트를 선택하도록 유도하는 ContextRL 방식을 제안합니다. 연구진은 코딩 에이전트의 트레이스 데이터와 멀티모달 이미지 데이터를 활용해 대조적 컨텍스트 데이터셋을 구축했습니다. 실험 결과, 제안된 방식은 기존 GRPO 대비 롱-호라이즌 추론 및 시각적 질의응답 성능을 모두 향상시켰습니다. 특히 단순 데이터 증강이 아닌, 컨텍스트 선택이라는 보상 설계 자체가 성능 향상의 핵심임을 입증했습니다.

🔑 주요 내용 (Key Points)

간접적 보상 설계를 통한 미세한 근거 탐색(Fine-grained grounding) 능력 강화
코딩 트레이스 및 이미지 편집을 활용한 대조적 컨텍스트 데이터 구축
단순 데이터 증강과 차별화되는 컨텍스트 선택 목적 함수(Objective)의 효과 입증

💡 실무적 가치 (Relevance)

에이전트가 긴 로그나 복잡한 이미지 속에서 핵심 정보를 놓치는 문제를 해결할 수 있는 RL 학습 전략을 제공합니다.

✅ 추천 액션 (Actionable Items)

에이전트의 작업 로그(Trace)를 활용한 대조적 데이터셋 구축 실험
기존 RL 알고리즘에 '컨텍스트 선택' 보상 항을 추가하여 성능 변화 관찰
RAG 시스템의 검색 결과 정합성 향상을 위한 학습 데이터로 변형 적용

View on Hugging Face View PDF (arXiv)