GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
Paper ID: 2604.14258 โข 19 Upvotes
LLM Fine-tuning Reinforcement Learning SFT Post-training Vision
๐ ํต์ฌ ์์ฝ
LLM ํ์ฒ๋ฆฌ ๊ณผ์ ์์ SFT์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ RL๊ณผ์ ํตํฉ์ ๊ฐํํ์ฌ ๋ ์์ ์ ์ด๊ณ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๋ชจ๋ธ์ ๋ง๋๋ ์๋ก์ด ๋ฏธ์ธ ์กฐ์ ํ๋ ์์ํฌ.
๐ ์์ธ ๋ด์ฉ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฃผ๋ก SFT(์ง๋ ๋ฏธ์ธ ์กฐ์ )์ RL(๊ฐํ ํ์ต)์ ํตํด ํ์ฒ๋ฆฌ๋์ง๋ง, ํจ์จ์ ์ธ ์ง์ ์ฃผ์
๊ณผ ๊ฐ๋ ฅํ ์ผ๋ฐํ๋ฅผ ๋์์ ๋ฌ์ฑํ๋ ๊ฒ์ ์ด๋ ต์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ SFT๊ฐ ํฌ์ํ ์๋ฌต์ ๋ณด์๊ณผ ๋ถ์์ ํ ์ญํ๋ฅ ๊ฐ์ค์น๋ก ์ธํด ๋จ์ผ ๊ฒฝ๋ก ์์กด์ฑ, ์ํธ๋กํผ ๋ถ๊ดด, ๊ธฐ์ธ๊ธฐ ํญ๋ฐ์ ๊ฒช๋๋ค๋ ํ๋ จ ์ญํ ๋ถ์์ ์ ์ํฉ๋๋ค. ์ด๋ฌํ ๋ฌธ์ ์ง๋จ์ ๊ธฐ๋ฐํ์ฌ, ์ฐ๋ฆฌ๋ Group Advantage Learning(๋ค์ํ ์๋ต ๊ทธ๋ฃน ๊ตฌ์ฑ ๋ฐ ์ ๊ทํ๋ ๋๋น ๊ฐ๋
)๊ณผ Dynamic Coefficient Rectification(์ญํ๋ฅ ๊ฐ์ค์น ์ ์์ ์ ํ)์ด๋ผ๋ ๋ ๊ฐ์ง ๋ฉ์ปค๋์ฆ์ ํตํด SFT์ ๋ด์ฌ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๋ ํตํฉ ํ์ฒ๋ฆฌ ํ๋ ์์ํฌ์ธ GFT๋ฅผ ์ ์ํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, GFT๋ SFT ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ์ผ๊ด๋๊ฒ ๋ฅ๊ฐํ๋ฉฐ, ํ์ RL ํ๋ จ๊ณผ ๋ ์ํํ๊ฒ ํตํฉ๋๋ ์ ์ฑ
์ ์์ฑํจ์ ๋ณด์ฌ์ค๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- SFT์ ํ๋ จ ์ญํ ๋ถ์์ ํตํด ํฌ์ํ ๋ณด์, ๋ถ์์ ํ ๊ฐ์ค์น, ์ํธ๋กํผ ๋ถ๊ดด ๋ฑ์ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ ์ ์ง๋จ.
- ๋ค์ํ ์๋ต ๊ทธ๋ฃน์ ๊ตฌ์ฑํ๊ณ ์ ๊ทํ๋ ๋๋น ๊ฐ๋ ์ ํ์ฉํ์ฌ ๋ณด์ ํฌ์์ฑ์ ์ํํ๋ Group Advantage Learning ์ ์.
- ์ญํ๋ฅ ๊ฐ์ค์น๋ฅผ ์ ์์ ์ผ๋ก ์ ํํ์ฌ ์ต์ ํ๋ฅผ ์์ ํํ๊ณ ํจ์จ์ ์ธ ์ง์ ์ฃผ์ ์ ์ ์งํ๋ Dynamic Coefficient Rectification ์ ์.
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๊ฐ๋ฐ์ ๊ด์ ์์ GFT๋ ๊ธฐ์กด SFT์ ๋ถ์์ ์ฑ๊ณผ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , RLHF์ ๊ฐ์ ๊ฐํ ํ์ต ๋จ๊ณ์์ ์ฐ๊ณ๋ฅผ ๋์ฑ ๋ถ๋๋ฝ๊ฒ ๋ง๋ค์ด LLM์ ์ฑ๋ฅ๊ณผ ์์ ์ฑ์ ์ ๋ฐ์ ์ผ๋ก ํฅ์์ํฌ ์ ์๋ ์ค์ฉ์ ์ธ ๋์์ ์ ๊ณตํฉ๋๋ค. ์ด๋ ๋ ๊ฐ๋ ฅํ๊ณ ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋ LLM์ ๊ตฌ์ถํ๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ํ์ฌ ์ฌ์ฉ ์ค์ธ SFT ๊ธฐ๋ฐ LLM ๋ฏธ์ธ ์กฐ์ ํ์ดํ๋ผ์ธ์ GFT๋ฅผ ์ ์ฉํ์ฌ ๊ธฐ์กด SFT ๋๋น ์ฑ๋ฅ ํฅ์ ๋ฐ ์์ ์ฑ ๊ฐ์ ์ฌ๋ถ ๊ฒ์ฆ.
- GFT๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ RLHF(Reinforcement Learning from Human Feedback)์ ๊ฐ์ ๊ฐํ ํ์ต ํ๊ฒฝ์ ์ฐ๊ฒฐํ์ฌ RL ํ๋ จ์ ํจ์จ์ฑ๊ณผ ์ต์ข ๋ชจ๋ธ์ ํ์ง ๋ณํ๋ฅผ ํ๊ฐ.
- ๋ค์ํ ๋๋ฉ์ธ(์: ์ฝ๋ ์์ฑ, ์์ฝ, ๋ํ) ๋ฐ ํ์คํฌ์์ GFT์ ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ ํน์ ํ์คํฌ์ ๋ํ ์ ํฉ์ฑ์ ์คํ.