[GIST, AI 트리플 악셀 선도] 김종원 교수 “데이터센터 효율성 극대화해야”

발행일 : 2019-07-16 17:00 지면 : 2019-07-17 17면

인간이 관여하는 모든 생산과 소비활동으로 급속히 파급되는 AI를 유연하게 지원하기 위해서는 엔진 역할을 하는 컴퓨팅 클러스터에 질 좋은 방대한 데이터 연료를 상황에 맞춰 수시로 투입하면서 최적의 출력으로 운영할 수 있어야 한다.

세계적으로 보다 큰 AI 컴퓨팅용 엔진을 설비하는 경쟁이 벌어지고 있으며, 현재 추진되는 대부분의 사례에서 AI 특화 또는 겸용을 기본 구축 방식으로 채택하고 있다. 일본과 대만에서도 작년부터 AI 특화 컴퓨팅 인프라가 가동 중이다. 우리나라도 CPU에 특화된 한국과학기술정보연구원(KISTI)의 누리온과 직접 연동해 산학연에 그래픽처리장치(GPU) 중심의 초고성능컴퓨팅을 지원하는 새로운 인프라를 구축하는 것이 시급하다.

AI 클라우드 데이터센터는 인터넷으로 연결되는 클라우드 컴퓨팅 방식으로 데이터 계산·저장 서비스를 제공하는 형태로 실현해야 한다. 개발자 맞춤형 데이터 가공 서비스를 클라우드 방식으로 편리하고 경제적으로 제공하는 최신형 '구름 속의 데이터 공장'이 돼야 한다.

또한 데이터 레이크(Data Lake) 라고 불리는 미래형 데이터 저장소를 100페타바이트(PB·DVD 100만장 수준) 이상 준비해 다양하고 충분한 분량의 데이터 원재료를 확보해 채워가면서 국내 산학연 개발자들을 위해 제공해야 한다. 고품질 AI 모델(원액)을 추출하도록 최소 5000개 GPU 수준의 초대형 엔진을 설비해 소규모로는 가공이 불가능한 수 페타바이트 규모의 데이터를 일괄 처리해야 한다. 그리고 소량 다품종의 처리를 효과적으로 병행해 최대 수준의 실효 가동률을 유지하는 것이 좋다. 최적의 냉각 효율을 자랑하는 그린 데이터센터로 설비하고, 100% 자동화된 소프트웨어(SW) 중심의 운영이 가능하도록 최적화해 AI 클라우드 데이터센터의 효율성을 극대화해야 한다.

이와 함께 선택과 집중의 원칙에 따른 특화된 AI 분야로의 집중이 무엇보다 중요하다. 즉 에너지, 자동차, 헬스케어 3대 분야에 특화된 살아있는 데이터를 수집하고 처리하면서 미래형 AI 실증 서비스를 위한 테스트베드로 사용해야 한다. 이를 위해 클라우드 기반 오픈 API들을 맞춤형으로 준비해 100% SW 중심으로 활용하도록 구축하는 동시에 5G에 기반한 에지 및 코어 클라우드 방식으로 3대 실증분야의 장비들과 직결되는 데이터 파이프라인을 완비하는 것도 필요하다. 3대 분야를 중심으로 연동된 AI 실증환경을 조성해 데이터 레이크에 고품질의 차별화된 데이터를 채우기 시작하고, 이들이 다시 새로운 데이터를 창출하고 유입시키도록 선순환의 데이터 라이프사이클의 원동력을 준비하는 것이 바람직하다.

마지막으로 과학기술정보통신부와 광주시를 필두로 GIST 등 학계의 AI 연합, 초고성능컴퓨팅 인프라 관련 연구소, 국내 민간 클라우드 운영 및 솔루션 업체, 특화분야 주요 데이터 보유 기관 등의 학연산관 융합체계를 개방형으로 조성하는 민간공공협력(PPP) 방식으로 추진하는 방안을 고려해야 한다. '한국형 AI 클라우드 데이터센터'의 조속한 구축과 운영을 위해서는 소규모의 검증용 HW에 SW를 점진적으로 통합·성숙시켜 데이터센터 건축과 동시에 대규모로 확대하는 전략도 필수적이다.

김종원 GIST 전기전자컴퓨터공학부 교수

경제 과학기술 데이터센터 인터넷 컴퓨팅 클라우드 한국과학기술정보연구원 CPU DVD GIS