Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
Paper ID: 2606.20517 โข 23 Upvotes
LLM-Evaluation Code-Generation Benchmark Multi-Language Reasoning Evaluation
๐ ํต์ฌ ์์ฝ
Python์ ๊ตญํ๋ ๊ธฐ์กด LCB ๋ฒค์น๋งํฌ๋ฅผ 12๊ฐ ์ธ์ด๋ก ํ์ฅํ์ฌ LLM์ ์ง์ ํ ๋ค๊ตญ์ด ์ฝ๋ฉ ๋ฅ๋ ฅ์ ๊ฒ์ฆํ๋ Multi-LCB ์ ์
๐ ์์ธ ๋ด์ฉ
์ต๊ทผ ๋๋ฆฌ ์ฐ์ด๋ LiveCodeBench(LCB)๋ ๋ฐ์ดํฐ ์ค์ผ ๋ฐฉ์ง์ ํ์ํ์ง๋ง, ํ๊ฐ ์ธ์ด๊ฐ Python์๋ง ๊ตญํ๋์ด ์ค๋ฌด์ ์ธ ๋ค๊ตญ์ด ์ฝ๋ฉ ๋ฅ๋ ฅ์ ์ธก์ ํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฐ๊ตฌ์ง์ LCB์ ํ๊ฐ ํ๋กํ ์ฝ๊ณผ ์ค์ผ ๋ฐฉ์ง ๋ฉ์ปค๋์ฆ์ ์ ์งํ๋ฉด์ 12๊ฐ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ก ํ์ฅํ Multi-LCB๋ฅผ ๋์
ํ์ต๋๋ค. Multi-LCB๋ ๊ธฐ์กด Python ํ์คํฌ๋ฅผ ๋ค๋ฅธ ์ธ์ด๋ก ๋ณํํ์ฌ LCB์ ์
๋ฐ์ดํธ๋ฅผ ์๋์ผ๋ก ์ถ์ ํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. 24๊ฐ์ LLM์ ๋์์ผ๋ก ์คํํ ๊ฒฐ๊ณผ, ๋ชจ๋ธ๋ค์ด Python์ ๊ณผ์ ํฉ๋์ด ์๊ฑฐ๋ ์ธ์ด๋ณ ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ํฌ๋ค๋ ์ ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก Multi-LCB๋ ๋ชจ๋ธ์ ๋ฒ์ฉ์ ์ฝ๋ฉ ์ญ๋์ ํ๊ฐํ๋ ์๊ฒฉํ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํฉ๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- LCB์ ์ค์ผ ๋ฐฉ์ง ๋ฉ์ปค๋์ฆ์ ์ ์งํ๋ฉฐ 12๊ฐ ์ธ์ด๋ก ํ์ฅํ Multi-LCB ๋ฒค์น๋งํฌ ๊ฐ๋ฐ
- Python ์ค์ฌ์ ๋ชจ๋ธ ํ์ต์ด ์ด๋ํ๋ ์ธ์ด๋ณ ์ฑ๋ฅ ๋ถ๊ท ํ ๋ฐ ๊ณผ์ ํฉ ๋ฌธ์ ์๋ณ
- ๊ธฐ์กด LCB ํฌ๋งท๊ณผ์ ํธํ์ฑ์ ํตํด ์ง์์ ์ธ ๋ฒค์น๋งํฌ ์ ๋ฐ์ดํธ ๋ฐ ์ถ์ ๊ฐ๋ฅ์ฑ ํ๋ณด
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
์ค๋ฌด์์๋ Python ์ธ ๋ค์ํ ์ธ์ด๋ฅผ ์ฌ์ฉํ๋ฏ๋ก, ํน์ ์ธ์ด์ ํธํฅ๋์ง ์์ ๋ฒ์ฉ์ ์ธ ์ฝ๋ฉ ๋ชจ๋ธ์ ์ ํํ๋ ๋ฐ ์ค์ํ ๊ธฐ์ค์ด ๋ฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ฌ์ฉ ์ค์ธ LLM์ Multi-LCB๋ฅผ ํตํด ๋ค์ํ ์ธ์ด ํ๊ฒฝ์์ ์ฑ๋ฅ ํ ์คํธํ๊ธฐ
- ๋ชจ๋ธ์ด ํน์ ์ธ์ด(Python)์ ๊ณผ์ ํฉ๋์ด ๋ค๋ฅธ ์ธ์ด์์ ์ฑ๋ฅ์ด ๊ธ๋ฝํ๋์ง ํ์ธํ๊ธฐ
- ๋ฉํฐ ์ธ์ด ์ฝ๋ฉ ์์ ํฌ์ ์ , ๋ชจ๋ธ์ ์ธ์ด ๊ฐ ์ฑ๋ฅ ๊ฒฉ์ฐจ(Disparity) ์ธก์ ํ๊ธฐ