인공지능(AI) 반도체 스타트업 하이퍼엑셀(대표 김주영)은 챗GPT에 사용되는 고성능 GPU 서버를 대체할 저비용고효율 가속 서버 '오리온'을 출시했다고 3일 밝혔다.
생성형 AI 기술은 거대 언어 모델을 기반으로 한다. 오픈AI뿐만 아니라 구글의 'Bard', 메타의 'Llama' 등 글로벌 빅테크 기업들이 적극적으로 투자하고 있다. 하지만 이러한 모델들은 수천억 개에 달하는 매개변수를 가지고 있어 이를 서비스하기 위해 수많은 고성능 GPU가 필요하다. 천문학적 컴퓨팅 비용이 든다는 문제점이 있다.
하이퍼엑셀은 지난 7월 AI 반도체 'LPU(Latency Processing Unit)'를 개발해 챗GPT의 거대 언어 모델(LLM) 연산에서 고성능 GPU보다 2.4배 가격 효율성 높은 것을 입증한바 있다.
이번에 출시한 오리온은 자사 LPU를 8개 탑재했다. 오픈AI GPT와 메타 OPT, Llama 모델 포함 다양한 거대 언어 모델을 효율적으로 수행할 수 있으며 서버당 최대 66B(매개변수 660억개) 크기의 모델까지 처리 가능하다. 특허 출원 중인 모델 병렬화 기술 및 확장 네트워크 기술을 활용, GPU 플랫폼과는 다르게 가속기 개수에 비례해 성능이 좋아지는 우수한 성능 확장성을 갖추고 있다. 메타의 최신 모델인 Llama2 7B 모델 기준 초당 174 토큰, OPT 66B 모델 기준 초당 23 토큰 등 실시간 토큰 생성이 가능하다.
김주영 대표는 “최근 공급망 문제와 높은 비용 문제를 가지고 있는 GPU 서버를 하이퍼엑셀 오리온 서버가 앞으로 대체할 것”이라며 “GPU 서버 대비 낮은 가격과 높은 전력 효율성으로 데이터센터 운영비용을 획기적으로 낮출 것”이라고 말했다.
하이퍼엑셀은 현재 오리온 서버를 이용해 다양한 기업에서 개발하고 있는 자체 생성형 AI를 위한 데이터센터 규모의 서버 클러스터를 개발 중이다. 최근 주목받고 있는 엣지 시장을 위한 생성형 AI(매개변수 200억 개 이하)를 효율적으로 처리할 수 있는 엣지 서버도 출시 예정이다.
한편, 하이퍼엑셀은 생성형 AI의 컴퓨팅 비용 문제를 해결하기 위하여 김주영 KAIST 전기및전자공학부 교수가 지난 1월에 창업했다. 지난 7월 트랜스포머 기반 거대 언어 모델에 특화된 AI 반도체인 LPU를 개발했고, 거대 언어 모델을 여러 개의 LPU로 효율적으로 분산할 수 있는 모델 병렬화 기술과 LPU 간의 데이터 동기화를 위한 자체 네트워킹 기술도 개발했다.
정재훈 기자 jhoon@etnews.com