삼바노바, AI 추론 속도 GPU 압도!

Share

삼바노바, DeepSeek-R1 LLM 추론 속도 GPU 압도! 차세대 AI 칩 SN40L 공개

인공지능(AI) 분야의 혁신적인 발전을 이끌고 있는 삼바노바 시스템즈(SambaNova Systems)가 DeepSeek-R1 거대 언어 모델(LLM)의 추론 속도를 획기적으로 향상시킨 기술을 발표하며 AI 업계를 놀라게 했습니다. 기존 GPU 기반 시스템을 압도하는 성능과 효율성을 자랑하는 삼바노바의 새로운 솔루션은 AI 모델 활용 방식을 근본적으로 변화시킬 잠재력을 지니고 있습니다.

DeepSeek-R1, 삼바노바의 새로운 칩으로 날개를 달다

중국 AI 스타트업 DeepSeek는 2025년 최첨단 추론 능력을 갖춘 오픈소스 언어 모델 R1을 공개하며 빠르게 명성을 얻었습니다. R1은 기존 최고 성능의 모델에 버금가는 성능을 보이면서도 비용 효율성이 뛰어나다는 평가를 받았습니다. 삼바노바는 자체 개발한 SN40L RDU 칩 16개만을 사용하여 DeepSeek-R1 671B LLM을 초당 198 토큰으로 처리하는 데 성공했습니다. 이는 일반적으로 필요한 엔비디아 GPU 320개가 탑재된 랙 40개 분량의 장비를 대체하는 놀라운 성과입니다.

GPU를 뛰어넘는 성능과 효율성

삼바노바는 SN40L RDU 칩이 기존 GPU 대비 3배 빠른 속도와 5배 높은 효율성을 제공한다고 주장합니다. 특히 주목할 만한 점은, 추론 속도를 5배 향상시키고 연말까지 용량을 100배 늘릴 계획이라는 점입니다. AI 평가 회사인 Artificial Analysis의 공동 창립자 George Cameron은 독립적인 벤치마크 테스트를 통해 삼바노바의 클라우드 환경에서 DeepSeek-R1 모델이 초당 195개 이상의 토큰을 생성하는 것을 확인했습니다. 이는 DeepSeek-R1 모델에 대한 측정 사상 가장 빠른 속도입니다.

재구성 가능한 데이터 흐름 아키텍처의 강점

엔비디아 GPU가 AI 워크로드에서 강력한 성능을 발휘해 왔지만, 삼바노바는 자사의 재구성 가능한 데이터 흐름 아키텍처가 더 효율적인 솔루션을 제공한다고 강조합니다. DeepSeek-R1의 강력한 추론 능력을 유지하면서도 기존 GPU 대비 훨씬 뛰어난 속도와 효율성을 제공한다는 것입니다. 삼바노바의 CEO인 Rodrigo Liang은 "DeepSeek-R1은 가장 발전된 AI 모델 중 하나이지만, GPU의 비효율성으로 인해 잠재력이 제한되어 있었습니다. 하지만 이제 상황이 달라졌습니다. 추론 비용을 획기적으로 줄이고 하드웨어 요구 사항을 40개 랙에서 단 1개 랙으로 줄여 DeepSeek-R1을 가장 빠른 속도로 효율적으로 제공할 수 있게 되었습니다."라고 밝혔습니다.

지연 시간에 민감한 사용 사례에 적합

Artificial Analysis의 George Cameron은 "높은 출력 속도는 추론 모델의 응답 품질을 향상시키는 데 매우 중요합니다. 삼바노바의 빠른 출력 속도는 지연 시간에 민감한 사용 사례에서 추론 모델을 효과적으로 활용할 수 있도록 지원할 것입니다."라고 덧붙였습니다. 삼바노바 클라우드에서 DeepSeek-R1 671B를 사용할 수 있으며, 일부 사용자는 API를 통해 접근할 수 있습니다. 삼바노바는 빠른 속도로 용량을 확장하여 가까운 미래에 랙 처리량을 초당 20,000 토큰까지 늘릴 계획입니다.

결론

삼바노바의 DeepSeek-R1 LLM 추론 속도 향상 기술은 AI 분야에 큰 파장을 일으킬 것으로 예상됩니다. GPU를 능가하는 성능과 효율성을 바탕으로 AI 모델의 활용 범위를 넓히고, 다양한 산업 분야에서 혁신을 가속화할 수 있을 것으로 기대됩니다. 삼바노바의 지속적인 기술 혁신이 AI 생태계에 어떠한 변화를 가져올지 주목할 필요가 있습니다.

You may also like...