AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents
Paper ID: 2607.02255 โข 39 Upvotes
LLM-Agent Memory-Management Long-Horizon Evaluation-Framework Agent RAG Benchmark Evaluation
๐ ํต์ฌ ์์ฝ
์ฅ๊ธฐ ์์ฌ๊ฒฐ์ ์์ด์ ํธ์ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๊ฒฉ๋ฆฌ ๋ฐ ์ ์ด ๊ฐ๋ฅํ ํํ๋ก ์ค๊ณํ ์๋ก์ด ํ
์คํธ๋ฒ ๋ ์ ์
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด์ LLM ์์ด์ ํธ๋ ๊ณผ๊ฑฐ์ ๋ชจ๋ ๊ธฐ๋ก์ ํ๋กฌํํธ์ ๋จ์ํ ์ถ๊ฐํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ, ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์ฑ ์์ ๊ฐ์ ํจ๊ณผ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ๊ฒ์ฆํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ๋
ผ๋ฌธ์ ๋ชจ๋ ์์ฌ๊ฒฐ์ ์ด ์ ํํ๋ ๊ฒ์(typed retrieval)์ ํตํด ์กฐ๋ฆฝ๋ ์๋ก์ด ๋ฉ์์ง๋ก๋ถํฐ ์ด๋ฃจ์ด์ง๋ '๊ฒฝ๊ณ๊ฐ ์๋ ๋ฉ๋ชจ๋ฆฌ(bounded-memory)' ๊ณ์ฝ ๋ฐฉ์์ ๋์
ํฉ๋๋ค. ์ด ๋ฐฉ์์ ํ๋กฌํํธ ๊ธธ์ด๋ฅผ ์ผ์ ํ๊ฒ ์ ์งํ๋ฉด์ ํน์ ๋ฉ๋ชจ๋ฆฌ ๋ ์ด์ด์ ํจ๊ณผ๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ๋ถ์ํ ์ ์๊ฒ ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์ด๋ฅผ ๋ณต์กํ ์ ๋ต์ด ํ์ํ ๊ฒ์์ธ 'Slay the Spire 2' ํ๊ฒฝ์์ ๊ฒ์ฆํ์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ ๋ต์ ์คํฌ ๋ ์ด์ด๋ฅผ ํ์ฑํํ์ ๋ ์น๋ฅ ์ด ์ ์๋ฏธํ๊ฒ ํฅ์๋จ์ ํ์ธํ์ต๋๋ค. ์ต์ข
์ ์ผ๋ก ์์ด์ ํธ ์ค๊ณ์ ๋ฐฉ๋ฒ๋ก ๊ฒ์ฆ์ ์ํ ์ฌํ ๊ฐ๋ฅํ ๋ฐ์ดํฐ์
๊ณผ ๋ถ์ ์คํฌ๋ฆฝํธ๋ฅผ ๊ณต๊ฐํฉ๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ๊ณผ๊ฑฐ ๊ธฐ๋ก์ ๋ฌด๋ถ๋ณํ๊ฒ ์๋ ๋์ , ์ ํํ๋ ๊ฒ์์ ํตํด ํ๋กฌํํธ๋ฅผ ์ฌ๊ตฌ์ฑํ๋ 'Bounded-Memory' ๊ณ์ฝ ๋ฐฉ์ ์ ์
- ํ๋กฌํํธ ๊ธธ์ด๋ฅผ ์ผ์ ํ๊ฒ ์ ์งํ์ฌ ์ฅ๊ธฐ ์คํ ์์๋ ๋ฉ๋ชจ๋ฆฌ ๋ ์ด์ด๋ณ ๋ ๋ฆฝ์ ๋ถ์(Ablation)์ด ๊ฐ๋ฅํ๋๋ก ์ค๊ณ
- ๋ณต์กํ ์ ๋ต์ ์์ฌ๊ฒฐ์ ์ด ํ์ํ ๊ฒ์ ํ๊ฒฝ์ ํตํ ์์ด์ ํธ ์ฑ๋ฅ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ๊ตฌ์กฐ ๊ฒ์ฆ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
์์ด์ ํธ์ ์ปจํ
์คํธ๊ฐ ๊ธธ์ด์ง ๋ ๋ฐ์ํ๋ ์ฑ๋ฅ ์ ํ์ ํผ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ ๊ตฌ์กฐ๋ฅผ ์ด๋ป๊ฒ ๋ชจ๋ํํ๊ณ ์ ์ดํด์ผ ํ๋์ง์ ๋ํ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์์ด์ ํธ ๊ฐ๋ฐ ์ ๋ชจ๋ ํ์คํ ๋ฆฌ๋ฅผ ๋ฃ๋ ๋์ , ํน์ ์ ๋ณด๋ง ์ถ์ถํ์ฌ ํ๋กฌํํธ๋ฅผ ์ฌ๊ตฌ์ฑํ๋ ๊ตฌ์กฐ ์ ์ฉํด๋ณด๊ธฐ
- ๋ฉ๋ชจ๋ฆฌ ๋ ์ด์ด(๊ธฐ๋ก, ์์ฝ, ์คํฌ ๋ฑ)๋ฅผ ๋ถ๋ฆฌํ์ฌ ๊ฐ ์์๊ฐ ์์ฌ๊ฒฐ์ ์ ๋ฏธ์น๋ ์ํฅ๋ ฅ์ ์ธก์ ํ๋ ์คํ ์ค๊ณ
- ์ฅ๊ธฐ ์์ (Long-horizon) ํ๊ฒฝ์์ ํ๋กฌํํธ ํ ํฐ ์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐ์ดํฐ ์ ์ ์ ๋ต ์๋ฆฝ