๐ค Reddit
r/Singularity
Taalas: LLMs baked into hardware. No HBM, weights and model architecture in silicon -> 16.000 tokens/second
๐ AI Summary
Taalas๋ผ๋ ํ์ฌ๊ฐ ๋ชจ๋ธ ์ํคํ
์ฒ์ ๊ฐ์ค์น๋ฅผ ์ค๋ฆฌ์ฝ ์นฉ์ ์ง์ ์๊ฒจ ๋ฃ์ด 16,000 ํ ํฐ/์ด์ ์๋๋ฅผ ๋ด๋ LLM ํ๋์จ์ด๋ฅผ ๊ฐ๋ฐํ๋ค๊ณ ํฉ๋๋ค. ์ฌ์ฉ์๋ค์ ์ฆ๊ฐ์ ์ธ ์๋ต ์๋์ ๊ฐํํ๋ฉฐ, ํนํ ๋ก๋ด ๊ณตํ ๋ถ์ผ์์์ ์ ์ฌ๋ ฅ์ ์ฃผ๋ชฉํ๊ณ ์์ต๋๋ค.
๐ Key Discussion Points
- โข Taalas๋ HBM ์์ด ๋ชจ๋ธ๊ณผ ๊ฐ์ค์น๋ฅผ ์ค๋ฆฌ์ฝ์ ์ง์ ํตํฉํ์ฌ 1ms ๋ฏธ๋ง์ ์ง์ฐ ์๊ฐ๊ณผ ์ฌ์ฉ์๋น 17,000 ํ ํฐ/์ด ์ด์์ ์๋๋ฅผ ๋ฌ์ฑํ๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ๋ํ ์์ฐ ๋น์ฉ์ด 20๋ฐฐ ์ ๋ ดํ๊ณ ์ ๋ ฅ ํจ์จ์ฑ์ด 10๋ฐฐ ๋๋ค๊ณ ํฉ๋๋ค.
- โข ์ด๋ค์ ๋ชจ๋ธ์ ASIC๋ก ๋ณํํ๋ ๋ฐ 60์ผ๋ฐ์ ๊ฑธ๋ฆฌ์ง ์์ผ๋ฉฐ, LoRA ๋ฏธ์ธ ์กฐ์ ๋ ์ง์ํฉ๋๋ค. ๋ฐ๋ชจ๋ Llama 3.1 8B ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉฐ, ์ค์๊ฐ ์์ฑ ๋ชจ๋ธ, ์๋ฐํ ์์ฑ, ์ปดํจํฐ ๋น์ ๋ฑ ์ง์ฐ ์๊ฐ์ด ์ค์ํ ๋ถ์ผ์ ์ ํฉํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
- โข ์ปค๋ฎค๋ํฐ์์๋ ์ด ๊ธฐ์ ์ด ๋ก๋ด ๊ณตํ ๋ฐ์ ์ ๊ธฐ์ฌํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๊ณ ํ๊ฐํ๋ฉฐ, ์ฆ๊ฐ์ ์ธ ์๋ต ์๋์ ๊น์ ์ธ์์ ๋ฐ์์ต๋๋ค. ํนํ ๋ ๋ฐ์ ๋ ๋ชจ๋ธ์ ์ ์ฉ๋ ๊ฒฝ์ฐ์ ์ ์ฌ๋ ฅ์ ๋ํ ๊ธฐ๋๊ฐ์ด ๋์ต๋๋ค.