OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
Paper ID: 2604.18486 โข 65 Upvotes
Autonomous Driving VLA Latent Reasoning World Model Real-time AI Agent Reasoning Vision Benchmark Inference Optimization
๐ ํต์ฌ ์์ฝ
์์จ์ฃผํ VLA ๋ชจ๋ธ์ ์ถ๋ก ์๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ธ์ด์ ์๊ฐ์ ์ธ๊ณ ๋ชจ๋ธ์ ๋์์ ํ์ฉํ์ฌ ์ ์ฌ ๊ณต๊ฐ์ ํ์ต์ํค๋ OneVL์ด ๋ช
์์ CoT๋ฅผ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ๊ณผ ์ค์๊ฐ์ ๊ฐ๊น์ด ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
๐ ์์ธ ๋ด์ฉ
Chain-of-Thought(CoT) ์ถ๋ก ์ VLA ๊ธฐ๋ฐ ์์จ์ฃผํ์์ ๊ฐ๋ ฅํ์ง๋ง, ์์ฐจ์ ํน์ฑ์ผ๋ก ์ธํด ์ค์๊ฐ ๋ฐฐํฌ์ ์ ์ฝ์ด ์์ต๋๋ค. ๊ธฐ์กด ์ ์ฌ CoT ๋ฐฉ์์ ์ธ์ด์ ํํ์๋ง ์์กดํ์ฌ ๋ช
์์ CoT์ ๋ฏธ์น์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ OneVL์ ์ ์ํ๋ฉฐ, ์ด๋ ์ธ์ด ๋์ฝ๋์ ๋ฏธ๋ ํ๋ ์ ํ ํฐ์ ์์ธกํ๋ ์๊ฐ์ ์ธ๊ณ ๋ชจ๋ธ ๋์ฝ๋๋ฅผ ํตํด ์ ์ฌ ํ ํฐ์ ๊ฐ๋
ํ๋ ํตํฉ VLA ๋ฐ ์ธ๊ณ ๋ชจ๋ธ ํ๋ ์์ํฌ์
๋๋ค. 3๋จ๊ณ ํ๋ จ ํ์ดํ๋ผ์ธ์ ํตํด ์ ์ฌ ๊ณต๊ฐ์ด ๊ถค์ , ์ธ์ด, ์๊ฐ์ ๋ชฉํ์ ์ ๋ ฌ๋๋ฉฐ, ์ถ๋ก ์์๋ ๋ณด์กฐ ๋์ฝ๋ ์์ด ๋จ์ผ ๋ณ๋ ฌ ํจ์ค๋ก ๋น ๋ฅธ ์๋๋ฅผ ์ ๊ณตํฉ๋๋ค. OneVL์ 4๊ฐ์ง ๋ฒค์น๋งํฌ์์ ์ต์ด๋ก ๋ช
์์ CoT๋ฅผ ๋ฅ๊ฐํ๋ฉฐ, ๋ต๋ณ๋ง ์์ธกํ๋ ์๋๋ก ์ต์ฒจ๋จ ์ ํ๋๋ฅผ ๋ฌ์ฑํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ์ต์ด๋ก ๋ช ์์ CoT(Chain-of-Thought)๋ฅผ ๋ฅ๊ฐํ๋ ์ ์ฌ CoT ๋ฐฉ๋ฒ๋ก ์ ์
- ์ธ์ด ๋์ฝ๋์ ์๊ฐ์ ์ธ๊ณ ๋ชจ๋ธ ๋์ฝ๋๋ฅผ ํ์ฉํ ๋์ผ ๋ณด์กฐ ๋์ฝ๋ ๊ฐ๋ ๋ฐฉ์ ๋์
- ์ธ๊ณผ์ ๋์ญํ์ ๋ด์ฌํํ๋ ํตํฉ VLA ๋ฐ ์ธ๊ณ ๋ชจ๋ธ ํ๋ ์์ํฌ ์ ์
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
์์จ์ฃผํ ์์คํ
์ ์์ฌ๊ฒฐ์ ์๋์ ์ ํ๋๋ฅผ ๋์์ ํฅ์์์ผ, ์ค์๊ฐ ๋ฐ์์ด ํ์์ ์ธ ํ๊ฒฝ์์ VLA ๋ชจ๋ธ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํฌ๊ฒ ํ์ฅํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์์ฌ ์์จ์ฃผํ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ OneVL์ ์ถ๋ก ์ง์ฐ ์๊ฐ ๋ฐ ์์ธก ์ ํ๋๋ฅผ ํ๊ฐํด๋ณด๊ธฐ
- OneVL์ ๋์ผ ๋์ฝ๋ ์ ์ฌ ๊ณต๊ฐ ํ์ต ๋ฐฉ์์ ๋ค๋ฅธ ์ค์๊ฐ VLA ๊ธฐ๋ฐ ๋ก๋ด ์ ์ด ๋๋ ๋น์ -์ธ์ด ์ดํด ํ์คํฌ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ํ์
- ์ธ๊ณ ๋ชจ๋ธ ๋์ฝ๋์ ์๊ฐ์ ํํ(์: ๋ฏธ๋ ํ๋ ์ ํ ํฐ)์ด ์์จ์ฃผํ ์์ฌ๊ฒฐ์ ์ ๋ฏธ์น๋ ์ํฅ ๋ถ์ ๋ฐ ๋ค๋ฅธ ํํ์ ์ธ๊ณ ๋ชจ๋ธ ํตํฉ ์คํ