PyoSignal Logo
PyoSignal
Back to Research

Near-Future Policy Optimization

Paper ID: 2604.20733 โ€ข 43 Upvotes
Reinforcement Learning Policy Optimization LLM Training Agent RAG
Near-Future Policy Optimization

๐Ÿ“ ํ•ต์‹ฌ ์š”์•ฝ

์ •์ฑ…์˜ ๋ฏธ๋ž˜ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ฐ•ํ™”ํ•™์Šต(RLVR) ํ›ˆ๋ จ์„ ๊ฐ€์†ํ™”ํ•˜๊ณ  ์ตœ์ข… ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ƒˆ๋กœ์šด ์ •์ฑ… ์ตœ์ ํ™” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

๐Ÿ“– ์ƒ์„ธ ๋‚ด์šฉ

๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ๋ณด์ƒ ๊ฐ•ํ™”ํ•™์Šต(RLVR)์€ ํ›ˆ๋ จ ํ›„ ํ•ต์‹ฌ ๋ ˆ์‹œํ”ผ๊ฐ€ ๋˜์—ˆ์œผ๋ฉฐ, ์˜คํ”„-์ •์ฑ… ๊ถค์ ์„ ์˜จ-์ •์ฑ… ํƒ์ƒ‰์— ๋„์ž…ํ•˜๋ฉด ์ˆ˜๋ ด์„ ๊ฐ€์†ํ™”ํ•˜๊ณ  ์„ฑ๋Šฅ์„ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ ํ•ฉํ•œ ๊ถค์  ์†Œ์Šค๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ์ฃผ์š” ๊ณผ์ œ์ธ๋ฐ, ๊ธฐ์กด ๋ฐฉ์‹๋“ค์€ '์ถฉ๋ถ„ํžˆ ๊ฐ•ํ•˜๊ณ (๋†’์€ Q)' '์ถฉ๋ถ„ํžˆ ๊ฐ€๊นŒ์šด(๋‚ฎ์€ V)' ์กฐ๊ฑด์„ ๋™์‹œ์— ๋งŒ์กฑ์‹œํ‚ค์ง€ ๋ชปํ•ด ํ•™์Šต ์‹ ํ˜ธ S=Q/V๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ ์ •์ฑ… ์ž์‹ ์˜ ๊ฐ€๊นŒ์šด ๋ฏธ๋ž˜ ์‹œ์ (๋™์ผ ํ›ˆ๋ จ ์‹คํ–‰์˜ ๋‚˜์ค‘ ์ฒดํฌํฌ์ธํŠธ)์„ ๋ณด์กฐ ๊ถค์  ์†Œ์Šค๋กœ ํ™œ์šฉํ•˜๋Š” NPO(Near-Future Policy Optimization)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ถค์  ํ’ˆ์งˆ๊ณผ ๋ถ„์‚ฐ ๋น„์šฉ์˜ ๊ท ํ˜•์„ ๋งž์ถ”๋ฉฐ, ์ž๋™ ๊ฐœ์ž… ๋ฐ ์ตœ์  ์ฒดํฌํฌ์ธํŠธ ์„ ํƒ์„ ์œ„ํ•œ ์ ์‘ํ˜• AutoNPO๋„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. Qwen3-VL-8B-Instruct ๋ชจ๋ธ์— GRPO์™€ ํ•จ๊ป˜ ์ ์šฉํ•œ ๊ฒฐ๊ณผ, NPO๋Š” ํ‰๊ท  ์„ฑ๋Šฅ์„ 57.88์—์„œ 62.84๋กœ, AutoNPO๋Š” 63.15๋กœ ํ–ฅ์ƒ์‹œ์ผœ ์ˆ˜๋ ด์„ ๊ฐ€์†ํ™”ํ•˜๊ณ  ์ตœ์ข… ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ๋†’์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์ฃผ์š” ๋‚ด์šฉ (Key Points)

  • ์ •์ฑ… ์ž์‹ ์˜ '๊ฐ€๊นŒ์šด ๋ฏธ๋ž˜' ์ฒดํฌํฌ์ธํŠธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์˜คํ”„-์ •์ฑ… ๊ถค์ ์„ ์ƒ์„ฑํ•˜๋Š” NPO ๊ธฐ๋ฒ• ์ œ์•ˆ
  • ๊ถค์  ํ’ˆ์งˆ(๋†’์€ Q)๊ณผ ํก์ˆ˜ ์šฉ์ด์„ฑ(๋‚ฎ์€ V)์˜ ๊ท ํ˜•์„ ๋งž์ถฐ ํ•™์Šต ์‹ ํ˜ธ S=Q/V๋ฅผ ๊ทน๋Œ€ํ™”
  • ์˜จ๋ผ์ธ ํ›ˆ๋ จ ์‹ ํ˜ธ๋ฅผ ํ†ตํ•ด ๊ฐœ์ž… ์‹œ์ ๊ณผ ๊ฐ€์ด๋“œ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์ž๋™์œผ๋กœ ์„ ํƒํ•˜๋Š” ์ ์‘ํ˜• AutoNPO ์ œ์‹œ

๐Ÿ’ก ์‹ค๋ฌด์  ๊ฐ€์น˜ (Relevance)

๊ธฐ์กด RL ํ›ˆ๋ จ ํŒŒ์ดํ”„๋ผ์ธ์— ํฐ ๋ณ€๊ฒฝ ์—†์ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๊ณ  ํ›ˆ๋ จ ์‹œ๊ฐ„์„ ๋‹จ์ถ•ํ•  ์ˆ˜ ์žˆ๋Š” ์‹ค์šฉ์ ์ธ ๋ฐฉ๋ฒ•๋ก ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋‚˜ ๋ณต์žกํ•œ ๋ฆฌํ”Œ๋ ˆ์ด ๋ฒ„ํผ ์—†์ด๋„ ํšจ๊ณผ์ ์ธ ์˜คํ”„-์ •์ฑ… ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

โœ… ์ถ”์ฒœ ์•ก์…˜ (Actionable Items)

  • ํ˜„์žฌ RL ํŒŒ์ธํŠœ๋‹ ํŒŒ์ดํ”„๋ผ์ธ์— NPO๋ฅผ ์ ์šฉํ•˜์—ฌ ์ฒดํฌํฌ์ธํŠธ ๊ธฐ๋ฐ˜์˜ ์˜คํ”„-์ •์ฑ… ํ•™์Šต ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•ด ๋ณด์„ธ์š”.
  • AutoNPO์—์„œ ์ œ์•ˆํ•˜๋Š” S=Q/V ์ง€ํ‘œ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ตœ์ ์˜ '๋ฏธ๋ž˜' ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์ž๋™์œผ๋กœ ์„ ํƒํ•˜๋Š” ๋กœ์ง์„ ๊ตฌํ˜„ํ•ด ๋ณด์„ธ์š”.
  • ๋‹ค์–‘ํ•œ '๋ฏธ๋ž˜' ์ฒดํฌํฌ์ธํŠธ ๊ฐ„๊ฒฉ ๋ฐ ์„ ํƒ ์ „๋žต์ด ๋ชจ๋ธ ์„ฑ๋Šฅ๊ณผ ์ˆ˜๋ ด ์†๋„์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ์‹คํ—˜ํ•ด ๋ณด์„ธ์š”.