KT가 국내 중소기업과 손잡고 클라우드 기반 그래픽처리장치(GPU) 기술 개발에 박차를 가하고 있다. 인공지능(AI) 활성화를 위해선 가성비와 효율성이 좋은 GPU가 필요한데 현재 이 시장은 글로벌 '최강자' 엔비디아가 90%가량의 점유율을 차지하며 버티고 있다. KT는 GPU 기술의 완전 국산화를 추진하면서 오는 2024년부터 엔비디아가 장악하고 있는 글로벌 시장을 본격 공략할 계획이다.
'글로벌 최초' GPU 종량제 서비스
28일 KT는 클라우드 기반의 GPU 인프라 제공 서비스인 '하이퍼스케일 AI 컴퓨팅'(이하 HAC)을 출시한다고 밝혔다. KT와 AI 인프라 솔루션 전문기업 모레(Moreh)가 지난해 상반기부터 공동 협력·개발을 통해 거둔 성과물이다.
AI 데이터 분석·모델 학습을 위해선 높은 연산능력을 가진 GPU가 필수다. 기업들은 서버 및 운영시설을 자체적으로 구축하거나, 외부 클라우드 업체로부터 시설을 빌리는 방식으로 운영하고 있다.
그러나 현재 GPU 시장은 엔비디아의 독과점으로 비용이 높게 형성돼 있어 기업에 만만찮은 부담이 되고 있다. 외부로부터 시설을 빌리는 고정할당 방식 서비스는 GPU를 사용하지 않는 기간에도 이용료를 계속 지불해야 하는 문제가 있다. AI 개발과정에서 GPU는 개발기간 전체에 필요하지 않고 데이터 분석, 모델 학습 등에만 필요하다.
KT는 이러한 문제점에 착안해 HAC 개발에 나섰다. HAC는 실사용량에 기반한 종량제 서비스라 비용이 합리적이라는 설명이다. 클라우드의 본질인 '사용한 만큼 지불한다'는 개념을 GPU에 적용한 것이다. 즉 연산을 실행할 때만 과금하는 '동적할당' 구조를 적용했다. GPU를 종량제로 서비스하는 것은 글로벌 최초다.
김주성 KT 클라우드 사업 담당 상무는 "기업이 GPU를 구매했을 때 실제 활용성이 25~40% 수준에 불과해 (HAC를 사용할 경우) 단순히 1대 1 비교만 해도 50%가량의 비용 합리화가 가능하다"며 "최종 목표치는 70% 할인이 되도록 요금을 만들려고 한다"고 말했다.
2024년 글로벌 시장서 엔비디아와 경쟁
HAC의 확장성은 크다. 지금까지는 하나의 물리 서버에 8개의 GPU가 장착되면 클라우드로 가상화된 AI 모델 개발환경에서 할당받는 GPU도 최대 8개로 한정됐다. HAC는 물리 서버에서 구동할 수 있는 최대 수량 한계를 넘어서는 GPU를 연산에 활용할 수 있게 했다. 현재 기준 100여개까지 할당 가능하다.
개발환경도 편리하게 구성했다. 원래 1개 GPU를 사용하는 개발환경을 2개 이상의 멀티 GPU 환경에서 구동하려면 개발환경을 재설계해야 한다. HAC는 모델 프로그래밍 호환성을 갖춰 기존 소스코드를 별도로 수정할 필요 없이 멀티 GPU 개발환경을 이용하도록 했다. 개발 단계마다 필요한 자원을 연속적으로 확대하거나 축소할 수 있어 서비스 중단도 최소화했다.
KT의 궁극적인 목표는 GPU 기술의 국산화를 추진하고 글로벌 시장에 진출하는 것이다. 내년까지 대규모 GPU 팜을 구축하는 데 주력하고 2023년에는 전용 AI 반도체 칩을 제작해 AI 클라우드 인프라를 위한 종합 '풀 스택(Full Stack)' 제품 공급자로 자리잡을 계획이다.
오는 2024년에는 해외 시장에 뛰어들어 엔비디아와 경쟁 관계를 구축하겠다는 의지를 가지고 있다. 김주성 상무는 "글로벌 시장의 90%를 엔비디아가 독점 중이므로 점유율의 일정 부분을 엔비디아와 경쟁하며 만들어내는 게 목표"라며 "AI 메이저 기업들에 가성비 좋고 효율 좋다고 어필하면서 확장하는 게 맞지 않나 생각하고 있다"고 말했다.
정부에서도 HAC 기술에 많은 관심을 기울이고 있다. 김 상무는 "엔비디아의 AI GPU 독점 문제를 정부에서 인지하고 있고 연간 3000억원 정도를 이 분야 기술개발 투자금으로 쓰고 있다"며 "GPU 기술 국산화를 위한 국가 R&D존을 제안했고 제도적 협의 중에 있다"고 말했다.