클라우드 네이티브 및 AI플랫폼 전문기업 아이엔소프트(대표 황광익)는 RUN:ai와 손잡고 ML Ops 시장을 공략한다고 밝혔다.
AI 개발은 대량의 데이터 처리와 복잡한 모델 학습 등에 많은 컴퓨팅 파워가 필요하다. 이에 따라 많은 기업들이 GPU 리소스를 활용해 AI 개발을 수행하고 있다. 그러나, 기업들은 이러한 GPU 인프라를 구성하고 효율적으로 이용하는데 많은 어려움을 느끼고 있다. 이러한 GPU 리소스를 효율적으로 활용하기 위해서는 여러 사용자가 동시에 사용할 수 있어야 하며, 이런 다중 사용자 환경에서도 각각의 작업이 원활하게 실행되어야 한다.
Run:ai는 이러한 문제점을 해결하기 위한 최적의 플랫폼이다. Run:ai는 다중 사용자 환경에서의 작업 효율성을 높이기 위해 GPU 추상화를 통해 GPU 분할(Fractional GPU), 동적 GPU 할당 (Dynamic MIG), Job Swapping 등의 혁신적인 기능을 제공한다. 이를 통해 여러 작업이 동시에 실행될 때 메모리 오버플로우나 처리 충돌 없이 단일 GPU를 공유할 수 있으며, GPU 리소스를 효율적으로 활용할 수 있다.
또한 Run:ai는 Fair-share Scheduler 라는 혁신적인 기능을 제공한다. 이 기능은 다양한 우선순위와 정책을 설정해 작업(Task)을 자동으로 스케줄링하고, 여러 대의 서버에서 작업을 분산 처리함으로써 전체 시스템의 성능을 극대화한다. 이를 통해 사용자는 여러 클러스터에 분산되어 있는 GPU 리소스를 자동으로 쉽고 빠르게 할당 받아 사용할 수 있다.
특히, Run:ai는 멀티 노드 상에서 분산학습 (Distributed Training on Multi-Node)을 지원함으로써, ChatGPT에서 이용되는 막대한 계산양이 필요한 LLM (Large Language Model)을 위한 빠르고 최적화된 AI 개발 환경을 제공한다.
Run:ai는 또한 DS/MLOps 도구 및 모델 서빙 도구를 지원하여, 사용자가 AI 모델 개발 환경 구축(Building), 학습(Training) 및 배포(Deployment)를 보다 쉽게 수행할 수 있도록 한다. 그리고 Workload, resource 상태 정보 및 사용률 등을 시각화 하여 제공하여, 전체 GPU 시스템(Cluster)의 생산성을 극대화시킨다.
Run:ai는 다양한 클라우드 및 컨테이너 오케스트레이션 플랫폼과 통합되어 있기 때문에, 사용자는 자신들이 사용하는 Kubernetes 클러스터에서 Run:ai를 쉽게 구축하고 사용할 수 있다. 이를 통해 사용자는 GPU Cluster 들을 보다 효율적으로 활용하고 비용을 절감할 수 있으며, AI 개발, 훈련 및 배포에 필요한 인프라를 보다 쉽게 관리할 수 있다.
황광익 아이엔소프트 대표는 “Run:ai의 보급을 통해 국내 AI개발자들이 보다 쉽고 빠르게 AI인프라 및 클라우드 환경을 구축하고 데이터모델과 서비스 개발에 집중할 수 있도록 지원하고 자사 클라우드 CMP솔루션과의 통합을 통해 명실상부한 최고의 통합 AI 컴퓨팅 개발 플랫폼 환경을 제공할 것”이라고 전했다.
전자신문인터넷 서희원 기자 shw@etnews.com
-
서희원 기자기사 더보기