OpenAI AI & LLM
OpenAI and Broadcom unveil LLM-optimized inference chip - OpenAI
2026년 6월 24일 오후 01:05
원문 보기
Inference Chip LLM ASIC AI Broadcom
📝 한국어 요약
OpenAI와 Broadcom이 LLM(Large Language Model) 추론에 최적화된 전용 가속기 'Jalapeño'를 공동 발표하며, 모델부터 칩 아키텍처까지 아우르는 풀스택 인프라 전략을 공개했습니다. 이 칩은 범용 가속기가 아닌 차세대 LLM의 커널, 메모리 이동, 네트워킹 패턴에 맞춘 맞춤형 설계로, 2026년 말 대규모 데이터 센터 배포를 목표로 합니다.
🧠 기술적 의미
Jalapeño는 데이터 이동을 최소화하고 연산(Compute), 메모리(Memory), 네트워킹(Networking) 자원의 균형을 맞추어 이론적 피크 성능에 근접한 실질 활용도를 달성하도록 설계되었습니다. 초기 테스트 결과, GPT-5.3-Codex-Spark와 같은 최첨단 모델을 구동하며 기존 SOTA(State-of-the-art) 대비 압도적인 전성비(Performance per Watt)를 입증했습니다. 특히 Broadcom의 Tomahawk 네트워킹 실리콘 기술과 결합하여 기가와트(GW)급 데이터 센터 규모의 확장성을 확보한 것이 특징입니다.
🔑 핵심 포인트
- • LLM 추론 특화 아키텍처: 범용 GPU가 아닌 LLM의 커널 및 서빙 패턴에 최적화된 'Blank-slate' 설계를 통해 지연 시간(Latency)을 극단적으로 낮췄습니다.
- • 풀스택 최적화 전략: 모델 설계, 커널, 메모리 시스템, 네트워킹, 스케줄링을 통합 제어하여 인프라 효율성을 극대화하는 플라이휠(Flywheel) 구조를 구축합니다.
- • 초고속 개발 사이클: AI 모델을 활용한 설계 최적화 과정을 통해 설계부터 테이프아웃(Tape-out)까지 단 9개월 만에 완료하는 혁신적인 ASIC 개발 프로세스를 보여주었습니다.
- • 차세대 컴퓨팅 플랫폼: Broadcom(실리콘/네트워킹) 및 Celestica(랙/시스템 통합)와의 협업을 통해 2026년부터 본격적인 멀티 제너레이션 컴퓨팅 플랫폼을 가동할 예정입니다.