AgentSPEX: An Agent SPecification and EXecution Language
Paper ID: 2604.13346 โข 49 Upvotes
Agent LLM Workflow DSL Orchestration Reasoning Benchmark Evaluation
๐ ํต์ฌ ์์ฝ
LLM ์์ด์ ํธ์ ๋ณต์กํ ์ํฌํ๋ก์ฐ๋ฅผ ๋ช
์์ ์ ์ด ํ๋ฆ๊ณผ ๋ชจ๋์ ๊ตฌ์กฐ๋ก ์ ์ํ์ฌ ๊ฐ๋ฐ ๋ฐ ์ ์ง๋ณด์๋ฅผ ์ฉ์ดํ๊ฒ ํ๋ ์๋ก์ด ์ธ์ด AgentSPEX๋ฅผ ์ ์ํฉ๋๋ค.
๐ ์์ธ ๋ด์ฉ
ํ์ฌ LLM ์์ด์ ํธ ์์คํ
์ ๋ฐ์ํ ํ๋กฌํํ
์ ์์กดํ๊ฑฐ๋ ํ์ด์ฌ์ ๊ฐํ๊ฒ ๊ฒฐํฉ๋ ์ค์ผ์คํธ๋ ์ด์
ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ ์์ด์ ํธ์ ์ ์ด ํ๋ฆ๊ณผ ์ค๊ฐ ์ํ๋ฅผ ๋ถ๋ถ๋ช
ํ๊ฒ ๋ง๋ค๊ณ , ํ๋ ์ ์ด๋ฅผ ์ด๋ ต๊ฒ ํ๋ฉฐ, ์ ์ง๋ณด์ ๋ฐ ์์ ์ ์ด๋ ค์์ ์ด๋ํฉ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๋ช
์์ ์ธ ์ ์ด ํ๋ฆ๊ณผ ๋ชจ๋์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง LLM ์์ด์ ํธ ์ํฌํ๋ก์ฐ๋ฅผ ์ํ AgentSPEX๋ผ๋ ์๋ก์ด ๋ช
์ธ ๋ฐ ์คํ ์ธ์ด๋ฅผ ์๊ฐํฉ๋๋ค. AgentSPEX๋ ํ์
์คํ
, ๋ถ๊ธฐ, ๋ฃจํ, ๋ณ๋ ฌ ์คํ, ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ์๋ธ๋ชจ๋, ๋ช
์์ ์ํ ๊ด๋ฆฌ๋ฅผ ์ง์ํ๋ฉฐ, ๋๊ตฌ ์ ๊ทผ, ์๋๋ฐ์ค ํ๊ฒฝ, ์ฒดํฌํฌ์ธํ
, ๊ฒ์ฆ, ๋ก๊น
์ ์ ๊ณตํ๋ ์์ด์ ํธ ํ๋ค์ค ๋ด์์ ์คํ๋ฉ๋๋ค. ๋ํ, ์๊ฐ์ ํธ์ง๊ธฐ๋ ์ ๊ณต๋ฉ๋๋ค. AgentSPEX๋ 7๊ฐ์ง ๋ฒค์น๋งํฌ์์ ํ๊ฐ๋์์ผ๋ฉฐ, ์ฌ์ฉ์ ์ฐ๊ตฌ๋ฅผ ํตํด ๊ธฐ์กด ์ธ๊ธฐ ์์ด์ ํธ ํ๋ ์์ํฌ๋ณด๋ค ๋ ํด์ ๊ฐ๋ฅํ๊ณ ์ ๊ทผํ๊ธฐ ์ฌ์ด ์ํฌํ๋ก์ฐ ์์ฑ ํจ๋ฌ๋ค์์ ์ ๊ณตํจ์ ์
์ฆํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- LLM ์์ด์ ํธ ์ํฌํ๋ก์ฐ๋ฅผ ์ํ ๋ช ์์ ์ ์ด ํ๋ฆ๊ณผ ๋ชจ๋์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์๋ก์ด ์ธ์ด AgentSPEX ์ ์.
- ํ์ ์คํ , ๋ถ๊ธฐ, ๋ฃจํ, ๋ณ๋ ฌ ์คํ, ์ฌ์ฌ์ฉ ๊ฐ๋ฅํ ์๋ธ๋ชจ๋, ๋ช ์์ ์ํ ๊ด๋ฆฌ ๋ฑ ๊ณ ๊ธ ์ํฌํ๋ก์ฐ ๊ธฐ๋ฅ ์ง์.
- ๋๊ตฌ ์ ๊ทผ, ์๋๋ฐ์ค, ์ฒดํฌํฌ์ธํ , ๊ฒ์ฆ, ๋ก๊น ์ ํฌํจํ๋ ์ฌ์ฉ์ ์ ์ ๊ฐ๋ฅํ ์์ด์ ํธ ์คํ ํ๋ค์ค ์ ๊ณต.
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๊ธฐ์กด LLM ์์ด์ ํธ ๊ฐ๋ฐ์ ๊ณ ์ง์ ์ธ ๋ฌธ์ ์ธ ์ ์ด์ ์ด๋ ค์๊ณผ ์ ์ง๋ณด์ ๋ณต์ก์ฑ์ ํด๊ฒฐํ์ฌ, ๊ฐ๋ฐ์๋ค์ด ๋์ฑ ์์ ์ ์ด๊ณ ์์ธก ๊ฐ๋ฅํ ์์ด์ ํธ ์์คํ
์ ๊ตฌ์ถํ๊ณ ๊ด๋ฆฌํ ์ ์๋๋ก ๋์ต๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ๋ณต์กํ ์ ์ด ํ๋ฆ์ด ํ์ํ ์๋ก์ด LLM ์์ด์ ํธ ํ๋ก์ ํธ์ AgentSPEX ๋์ ์ ๊ฒํ .
- ๊ธฐ์กด์ ๋ฐ์ํ ํ๋กฌํํ ๊ธฐ๋ฐ ์์ด์ ํธ๋ ํ์ด์ฌ ๊ฒฐํฉ ์ํฌํ๋ก์ฐ๋ฅผ AgentSPEX๋ก ์ ํํ์ฌ ์ ์ง๋ณด์์ฑ ๊ฐ์ ๊ฐ๋ฅ์ฑ ํ๊ฐ.
- AgentSPEX์ ์๊ฐ์ ํธ์ง๊ธฐ๋ฅผ ํ์ฉํ์ฌ ์์ด์ ํธ ์ํฌํ๋ก์ฐ๋ฅผ ์ค๊ณํ๊ณ ํ ๋ด ํ์ ํจ์จ์ฑ ์ฆ๋.