생성형 AI 시대, 데이터 센터는 과부하? OpenAI와 Google의 고군분투
최근 Google과 OpenAI가 발표한 새로운 생성형 AI(genAI) 모델들이 데이터 센터에 큰 부담을 주고 있으며, 두 회사 모두 폭증하는 수요에 대응하기 위해 노력하고 있습니다. ChatGPT의 이미지 생성 서비스에 대한 폭발적인 수요로 인해 OpenAI의 CEO 샘 알트만은 GPU 사용을 일시적으로 제한한다고 발표했습니다. 이는 OpenAI가 새로운 이미지 생성 도구 4o를 출시한 지 하루 만에 나온 조치입니다.
GPU 품귀 현상, 왜 발생했을까?
알트만은 X(구 트위터)에 "ChatGPT에서 이미지를 좋아하는 사람들을 보는 것은 정말 즐겁습니다. 하지만 우리 GPU가 녹아내리고 있습니다."라고 게시했습니다. OpenAI는 ChatGPT 서비스 구동에 주로 Nvidia GPU를 사용하며, 과거에도 AI 인프라 과부하 문제에 직면한 적이 있습니다. 알트만은 시스템 효율성이 향상될 때까지 AI 생성에 대한 GPU 사용을 제한하는 비율 제한을 도입할 것이라고 밝혔습니다.
Google도 예외는 아니다
Google 역시 Gemini 2.5 AI 모델에 대한 수요 급증에 대처하고 있습니다. Google의 AI Studio 개발 도구 제품 책임자인 로건 킬패트릭은 X에 "현재 Gemini 2.5 Pro에 대한 엄청난 수요가 있으며, 가능한 한 빨리 개발자들에게 더 높은 비율 제한을 제공하는 데 집중하고 있습니다."라고 게시했습니다. Google은 Gemini 실행에 최적화된 맞춤형 칩인 자체 TPU(Tensor Processing Units)를 기반으로 AI 인프라를 구축했습니다.
기업의 안정적인 컴퓨팅 용량 확보가 중요
Tirias Research의 수석 분석가인 짐 맥그리거는 급증하는 수요 문제는 기업이 AI 가동 중단을 방지하기 위해 안정적인 컴퓨팅 용량을 확보해야 한다는 점을 상기시켜 준다고 말했습니다. 그는 "이미지, 비디오, 에이전트 등으로의 전환은 예측 가능한 미래에 더 많은 AI 컴퓨팅 자원에 대한 수요를 촉진할 것입니다."라고 덧붙였습니다. OpenAI와 Google은 개인과 기업 모두에게 널리 사용되고 있습니다.
하드웨어 발전 속도, 소프트웨어 따라가지 못해
일반적으로 하드웨어가 새로운 AI 소프트웨어를 효율적으로 운영할 수 있을 만큼 발전하는 데는 시간이 걸리며, 예기치 않은 중단은 기업의 생산성에 영향을 미칠 수 있다고 분석가들은 말합니다. 반도체 컨설팅 회사 SemiAnalysis의 설립자인 딜런 파텔은 OpenAI는 새로운 모델이 출시될 때마다 항상 용량 문제가 있었다고 지적합니다. 그는 "AI에 대한 수요는 끝이 없습니다."라고 강조했습니다.
이미지 생성, 텍스트 생성보다 더 많은 연산 능력 요구
Technalysis의 수석 분석가인 밥 오도넬은 OpenAI의 이미지 생성 도구가 텍스트 생성보다 더 많은 연산 능력을 필요로 하며, GPU로부터 더 많은 컴퓨팅 파워를 요구한다고 설명합니다. 그는 "이는 전형적인 시스템 과부하입니다."라고 덧붙였습니다. Nvidia의 GPU는 막대한 양의 전력을 소비하며, 과부하되거나 과열되면 성능이 저하될 수 있습니다. GPU는 또한 더 낮은 온도에서 작동하므로 성능에 영향을 미칩니다.
대안은 없을까?
Nvidia GPU에서 AI 서비스를 제공하는 CentML은 특히 새로운 모델을 지원할 때 수요가 크게 급증하는 것을 경험했습니다. CentML의 CEO인 겐나디 페히멘코는 올해 초 출시된 DeepSeek 서비스를 시작한 후 며칠 만에 가입자 수가 급증했다고 밝혔습니다. CentML은 가동 시간, 예약된 인스턴스 및 보장된 출력을 보장하는 계획을 갖추고 있으며, 이는 모두 서비스 수준 계약의 일부입니다.
모델 크기 축소, 코드 최적화 등 다양한 해결책 존재
토론토 대학의 컴퓨터 과학 부교수이기도 한 페히멘코는 OpenAI가 수요를 따라잡기 위해 모델 크기를 줄이거나 코드를 최적화하는 등 할 수 있는 일이 많다고 말합니다. 그는 일부 상업적 사용 사례의 경우 OpenAI와 Google Gemini에서 사용하는 대규모 언어 모델(LLM)이 너무 무거울 수 있으며, 더 적은 컴퓨팅 자원을 필요로 하고 비용이 저렴한 소규모 또는 오픈 소스 언어 모델로도 충분할 수 있다고 설명합니다.
클라우드 벤더를 통한 컴퓨팅 용량 확보도 방법
페히멘코는 또한 기업이 다양한 회사에서 genAI 컴퓨팅 용량을 구매하여 업계 거물의 가동 중단으로부터 보호받을 수 있다고 말합니다. CentML은 주요 클라우드 벤더로부터 컴퓨팅 용량을 확보할 수 있는 옵션도 제공합니다. 하지만 GPU 부족으로 AI 확장이 어려웠던 이전과는 달리 컴퓨팅 용량이 부족하지는 않다고 페히멘코는 덧붙였습니다.
OpenAI, 자체 데이터 센터 구축 고려 중?
트럼프 미국 대통령은 최근 OpenAI, SoftBank, Oracle을 포함한 기업들의 AI 인프라 구축을 위한 5천억 달러의 민간 투자에 대해 언급했습니다. 하지만 중국의 DeepSeek 모델 출시로 AI가 소프트웨어 최적화를 통해 보다 합리적인 비용으로도 가능하다는 것이 입증되었습니다. 이는 AI 확장에 항상 더 많은 하드웨어가 필요한 것은 아니라는 개념을 약화시킵니다. 최근 보고서에 따르면 OpenAI는 Microsoft가 미국과 유럽에서 데이터 센터 프로젝트를 철수함에 따라 자체 데이터 센터 구축을 고려하고 있는 것으로 알려졌습니다. 이는 AI 컴퓨팅 용량의 잠재적인 과잉 공급을 시사합니다.
결론
생성형 AI 모델의 급격한 발전은 데이터 센터에 큰 부담을 주고 있지만, 다양한 기술적, 사업적 해결책들이 제시되고 있습니다. 기업들은 안정적인 컴퓨팅 용량 확보를 통해 AI 서비스를 원활하게 운영하고, AI 시대의 경쟁력을 강화해야 할 것입니다.