AI 기술 가속하는 머신러닝 최적화된 IPU

발행일 : 2021-08-20 00:00

[AI∙빅데이터 솔루션] 머신러닝에 최적화된 AI 프로세서, 그래프코어 IPU

지난 몇 년간, 인공지능(AI)은 4차 산업혁명의 핵심 기술로 전세계적으로 서 국내외 불문, 업계 내 가장 ‘핫한’ 주제로 거론되고 있다. 정부에서도 향후 2030년까지 2000여개의 AI 스마트 공장을 구축목표와 AI를 통한 지능화 경제효과를 최대 455조 창출할 것으로 국가차원의 ‘AI 국가 전략’을 최근 발표하면서 인공지능 산업 육성에 적극 나서고 있다.

그런데 AI 관련 기업들이 넘어서야 할 장벽은 컴퓨팅이다. 인간의 학습능력과 추론능력, 지각능력, 자연언어의 이행능력 등을 실현해내는 AI 기술은 많은 데이터를 빠르게 처리해 기존의 컴퓨팅보다 전력 소모가 크다. 초기 AI 학습과 추론에는 기성 컴퓨터의 중앙처리장치(CPU)나 그래픽처리장치(GPU)가 쓰였지만, 그 효율성은 이미 한계에 도달했다. 전례 없는 워크로드를 효과적으로 지원하기 위해 AI에 특화된 프로세서가 그 대안으로서 등장했다.

AI 워크로드 한계를 넘는 지능형 처리장치 IPU

영국의 AI 반도체 스타트업 그래프코어가 개발한 지능형 처리장치 IPU(Intelligence Processing Unit)에 기업들이 주목하고 있다. IPU는 CPU나 GPU의 한계를 구조적으로 해결한 칩이다. IPU는 코어와 램을 하나의 프로세서에 탑재하는 ‘온칩’ 설계로, 코어와 램 사이의 거리가 있는 GPU와 달리 데이터 전달 속도가 빨라져 연산 지연에 대한 문제점을 해소한다. 램의 개수도 대폭 늘렸으며, IPU 코어는 1대1로 매칭된 램에서 대량의 데이터를 빠르게 받아 연산을 처리할 수 있다.

그래프코어 IPU는 빠르게 급증하고 있는 AI 연산의 요구사항에 구조적으로 특화됐다. 많은 양의 연산을 동반하는 AI 모델에 필수적인 높은 병렬처리 능력, 희소 연산 추세의 오늘날 AI 모델을 위한 효율적인 희소 연산 처리 능력, 저정밀도의 부동소수점 연산, 고대역폭 메모리852가 내장됐다. 그리고 파이토치(PyTorch), 텐서플로우(Tensorflow) 등 범용 프레임워크를 지원하는 소프트웨어 등 모든 것을 갖추고 AI 연산에서 높은 성능을 내고 있다.

최근 발표된 MLPerf 벤치마킹 결과에서 그래프코어의 IPU-POD64는 9분이 조금 넘는 BERT 훈련 소요 시간과 14.5분의 ResNet-50 훈련 소요 시간을 내며 슈퍼 컴퓨터 수준의 AI 성능을 나타냈다. MLPerf 결과에 따르면 그래프코어 시스템은 경쟁사의 최신 시스템보다 ResNet-50에서 1.6배, BERT에서는 1.3배 더 향상된 성능을 구현하는 것으로 나타났다.

높은 성능으로 희소 연산 연구 분야와 다양한 산업에 각광

높은 성능의 IPU는 다양한 분야에서 활용되고 있으며, 특히 AI 연구에 채택이 늘고 있다. 최신 AI 모델은 점차 희소하고 효율적인 연산이 요구되고 있어 그래프코어는 희소 연산이 활용되는 연구에 활발하게 활용되고 있다.

양적 분석에 기반한 주식 거래 전략인 알고리즘 트레이딩(Algorithmic trading)에도 IPU가 적용되고 있다. 주식이나 채권 거래는 밀리초(㎳) 단위로 가격이 변하고 거래가 성사되는 만큼 많은 양의 데이터를 빠르게 분석해야 할 필요성이 크기 때문에 병렬 연산에 최적화된 IPU가 사용되는 것이다.

영국 옥스포드 대학교 산학협력 연구소 Oxford-Man Institute of Quantitative Finance(OMI)는IPU를 활용해 고급 가격 예측 모델의 훈련 속도를 대폭 개선했다. 금융시장 내 입찰가/호가 수준의 기록과도 같은 지정가 주문(LOB) 시스템은 수백만 건의 매수/매도 주문에 나타난 트레이더의 여론을 실시간으로 보여주는데, 인공지능은 LOB 데이터를 수동 분석이나 기존의 연산보다 훨씬 더 복잡한 차원에서 분석해 더욱 정확한 결과를 제공할 수 있다.

일반적으로 이 분야에서 AI를 활용하려는 노력은 특정 입찰가/호가와 이 결과에 해당하는, 미리 지정한 미래 시점(또는 전망)의 시장가 간 관계를 파악하는 단일 전망 예측에 집중되어 있었다. 단일 전망 예측의 목적은 특정 시점에 지정가 주문의 매수가/매도가와 이로 인한 시장가 사이의 관계를 파악하는 것인데, 시장가에 영향을 미치는 요인이 워낙 다양하고 유용한 신호의 비율은 상대적으로 낮기 때문에 장기 예측 경로의 추론에는 다중 전망 예측이 사용되고 있다.

다중 전망 예측 기법 중 한 가지는 시퀀스-투-시퀀스 모델(Seq2Seq Model) 및 어텐션 모델(Attention Model)을 활용하는 것이다. 시퀀스-투-시퀀스 인코더는 과거의 시계열 정보를 요약하며, 디코더는 숨겨진 상태를 미래의 알려진 입력과 조합해 예측을 생성한다. 어텐션 모델은 긴 시퀀스를 처리하지 못하는 시퀀스-투-시퀀스 모델의 한계를 극복하는 데 일조한다. 하지만 모델의 반복 구조가 GPU와 같은 프로세서 아키텍처의 병렬 처리에 맞지 않아 전자 거래의 높은 LOB 데이터 생산 비율을 감안했을 때 문제가 되며 CPU 및 GPU의 느린 학습 속도로 인해 유용성이 낮다고 평가받아 왔다.

그래프코어는 시퀀스-투-시퀀스/어텐션 조합의 반복 구조가 과거 정보를 요약해 차후 타임스탬프로 전파할 수 있어 다중 전망 예측의 시계열 특성에 적합하다고 판단했다. IPU의 아키텍처가 다중 전망 예측에서 사용되는 반복 신경망(neural) 레이어에 훨씬 더 적합하며 연산 병목 현상이 발생하지 않아 이 방식의 실용화를 위해 그래프코어의 기술을 차용했다. 이 결과 DeepLOB-Seq2Seq와 DeepLOB-Attention을 포함한 다양한 모델에서IPU는 비교 대상인 GPU에 비해 학습 시간에서 압도적인 성능을 보였다. 또 새로운 모델들은 단기 뿐 아니라 장기적인 전망에서도 더욱 높은 예측 정확도를 보였다.

최근 각광을 받고 있는 고성능 컴퓨팅 HPC 분야에서도 IPU를 사용한 연구 시도가 있었다. 영국 브리스틀 대학교(University of Bristol) HPC 그룹은 롤스로이스(Rolls-Royce)의 가스 터빈 엔진을 물리학적으로 시뮬레이션하는 데 필요한 기술을 개발하고 있는데, 입자물리학에 쓰이는 연산에 IPU를 적용해 결론 도출에 소요되는 시간을 절약했다.

AI 맞춤형으로 국내 시장 확대 박차

그래프코어는 2020년 1월 한국에 진출한 이후, NHN, KT 등 국내 IT 대기업들과 협업하며 AI 솔루션을 개발하고 있다. 메가존클라우드와 총판 계약을 체결하고 그래프코어가 독자적으로 만든 AI에 최적화된 IPU를 국내 및 아시아 시장을 확대하는 데 메가존클라우드와 긴밀한 협력을 맺고 있다.

다양한 분야의 국내 기업, 연구소, 교육기관들이 그래프코어의 AI 기반 맞춤형 기술을 활용할 수 있게 됐으며, 메가존클라우드와의 파트너십 체결로 많은 기업들이 그래프코어의 AI 컴퓨팅 기술을 비즈니스 경쟁력 강화에 활용할 수 있게 됐다. 메가존클라우드는 향후 그래프코어 솔루션의 국내 시장 확대를 위한 전문 리셀러 및 기술 협력 파트너를 육성하고 지원프로그램을 운영할 계획이다.