🤖 Reddit r/Singularity

Taalas: LLMs baked into hardware. No HBM, weights and model architecture in silicon -> 16.000 tokens/second

781 upvotes 306 comments Read on Reddit

📝 AI Summary

Taalas라는 회사가 모델 아키텍처와 가중치를 실리콘 칩에 직접 새겨 넣어 16,000 토큰/초의 속도를 내는 LLM 하드웨어를 개발했다고 합니다. 사용자들은 즉각적인 응답 속도에 감탄하며, 특히 로봇 공학 분야에서의 잠재력에 주목하고 있습니다.

• Taalas는 HBM 없이 모델과 가중치를 실리콘에 직접 통합하여 1ms 미만의 지연 시간과 사용자당 17,000 토큰/초 이상의 속도를 달성했다고 주장합니다. 또한 생산 비용이 20배 저렴하고 전력 효율성이 10배 높다고 합니다.
• 이들은 모델을 ASIC로 변환하는 데 60일밖에 걸리지 않으며, LoRA 미세 조정도 지원합니다. 데모는 Llama 3.1 8B 모델을 사용하며, 실시간 음성 모델, 아바타 생성, 컴퓨터 비전 등 지연 시간이 중요한 분야에 적합할 것으로 예상됩니다.
• 커뮤니티에서는 이 기술이 로봇 공학 발전에 기여할 가능성이 높다고 평가하며, 즉각적인 응답 속도에 깊은 인상을 받았습니다. 특히 더 발전된 모델에 적용될 경우의 잠재력에 대한 기대감이 높습니다.