Near-Future Policy Optimization
Paper ID: 2604.20733 โข 43 Upvotes
Reinforcement Learning Policy Optimization LLM Training Agent RAG
๐ ํต์ฌ ์์ฝ
์ ์ฑ
์ ๋ฏธ๋ ์ฒดํฌํฌ์ธํธ๋ฅผ ํ์ฉํ์ฌ ๊ฐํํ์ต(RLVR) ํ๋ จ์ ๊ฐ์ํํ๊ณ ์ต์ข
์ฑ๋ฅ์ ํฅ์์ํค๋ ์๋ก์ด ์ ์ฑ
์ต์ ํ ๊ธฐ๋ฒ์
๋๋ค.
๐ ์์ธ ๋ด์ฉ
๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์ ๊ฐํํ์ต(RLVR)์ ํ๋ จ ํ ํต์ฌ ๋ ์ํผ๊ฐ ๋์์ผ๋ฉฐ, ์คํ-์ ์ฑ
๊ถค์ ์ ์จ-์ ์ฑ
ํ์์ ๋์
ํ๋ฉด ์๋ ด์ ๊ฐ์ํํ๊ณ ์ฑ๋ฅ์ ๋์ผ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ํฉํ ๊ถค์ ์์ค๋ฅผ ์ฐพ๋ ๊ฒ์ด ์ฃผ์ ๊ณผ์ ์ธ๋ฐ, ๊ธฐ์กด ๋ฐฉ์๋ค์ '์ถฉ๋ถํ ๊ฐํ๊ณ (๋์ Q)' '์ถฉ๋ถํ ๊ฐ๊น์ด(๋ฎ์ V)' ์กฐ๊ฑด์ ๋์์ ๋ง์กฑ์ํค์ง ๋ชปํด ํ์ต ์ ํธ S=Q/V๋ฅผ ๊ทน๋ํํ์ง ๋ชปํฉ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ์ ์ฑ
์์ ์ ๊ฐ๊น์ด ๋ฏธ๋ ์์ (๋์ผ ํ๋ จ ์คํ์ ๋์ค ์ฒดํฌํฌ์ธํธ)์ ๋ณด์กฐ ๊ถค์ ์์ค๋ก ํ์ฉํ๋ NPO(Near-Future Policy Optimization)๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ ๊ถค์ ํ์ง๊ณผ ๋ถ์ฐ ๋น์ฉ์ ๊ท ํ์ ๋ง์ถ๋ฉฐ, ์๋ ๊ฐ์
๋ฐ ์ต์ ์ฒดํฌํฌ์ธํธ ์ ํ์ ์ํ ์ ์ํ AutoNPO๋ ์ ์ํฉ๋๋ค. Qwen3-VL-8B-Instruct ๋ชจ๋ธ์ GRPO์ ํจ๊ป ์ ์ฉํ ๊ฒฐ๊ณผ, NPO๋ ํ๊ท ์ฑ๋ฅ์ 57.88์์ 62.84๋ก, AutoNPO๋ 63.15๋ก ํฅ์์์ผ ์๋ ด์ ๊ฐ์ํํ๊ณ ์ต์ข
์ฑ๋ฅ ํ๊ณ๋ฅผ ๋์์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ์ ์ฑ ์์ ์ '๊ฐ๊น์ด ๋ฏธ๋' ์ฒดํฌํฌ์ธํธ๋ฅผ ํ์ฉํ์ฌ ์คํ-์ ์ฑ ๊ถค์ ์ ์์ฑํ๋ NPO ๊ธฐ๋ฒ ์ ์
- ๊ถค์ ํ์ง(๋์ Q)๊ณผ ํก์ ์ฉ์ด์ฑ(๋ฎ์ V)์ ๊ท ํ์ ๋ง์ถฐ ํ์ต ์ ํธ S=Q/V๋ฅผ ๊ทน๋ํ
- ์จ๋ผ์ธ ํ๋ จ ์ ํธ๋ฅผ ํตํด ๊ฐ์ ์์ ๊ณผ ๊ฐ์ด๋ ์ฒดํฌํฌ์ธํธ๋ฅผ ์๋์ผ๋ก ์ ํํ๋ ์ ์ํ AutoNPO ์ ์
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๊ธฐ์กด RL ํ๋ จ ํ์ดํ๋ผ์ธ์ ํฐ ๋ณ๊ฒฝ ์์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ด๊ณ ํ๋ จ ์๊ฐ์ ๋จ์ถํ ์ ์๋ ์ค์ฉ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํฉ๋๋ค. ์ธ๋ถ ๋ฐ์ดํฐ๋ ๋ณต์กํ ๋ฆฌํ๋ ์ด ๋ฒํผ ์์ด๋ ํจ๊ณผ์ ์ธ ์คํ-์ ์ฑ
ํ์ต์ด ๊ฐ๋ฅํด์ง๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ํ์ฌ RL ํ์ธํ๋ ํ์ดํ๋ผ์ธ์ NPO๋ฅผ ์ ์ฉํ์ฌ ์ฒดํฌํฌ์ธํธ ๊ธฐ๋ฐ์ ์คํ-์ ์ฑ ํ์ต ํจ๊ณผ๋ฅผ ๊ฒ์ฆํด ๋ณด์ธ์.
- AutoNPO์์ ์ ์ํ๋ S=Q/V ์งํ๋ฅผ ํ์ฉํ์ฌ ์ต์ ์ '๋ฏธ๋' ์ฒดํฌํฌ์ธํธ๋ฅผ ์๋์ผ๋ก ์ ํํ๋ ๋ก์ง์ ๊ตฌํํด ๋ณด์ธ์.
- ๋ค์ํ '๋ฏธ๋' ์ฒดํฌํฌ์ธํธ ๊ฐ๊ฒฉ ๋ฐ ์ ํ ์ ๋ต์ด ๋ชจ๋ธ ์ฑ๋ฅ๊ณผ ์๋ ด ์๋์ ๋ฏธ์น๋ ์ํฅ์ ์คํํด ๋ณด์ธ์.