
'많은 그랙픽처리장치(GPU)·고성능컴퓨팅(HPC)·인공지능(AI) 스케줄링 시스템과 비교했을 때 쿠버네티스(Kubernetes) 컨테이너 엔진을 기반으로 한 AI 스테이션(Station)은 사용자인터페이스(UI) 디자인 방면에서 기존 존재하는 시스템보다 압도적이다.'
중국 서버기업 인스퍼(Inspur)는 최근 해외 전문 평가 기관인 STH(ServeTheHome)가 엔터프라이즈급 인공지능(AI) 개발 플랫폼 'AI 스테이션' 성능을 시험한 결과, 이같은 호평을 받았다고 전했다.
STH는 관리자와 사용자 두 가지 점에서 AI 스테이션 성능을 시험했다. 관리자 모드에선 클러스터 관리, 유저 생성, 리소스 할당, 리소스 모니터링 등 기능을 시험했다. 사용자 모드에선 트레이닝, 태스크 생성, 태스크 시작 및 완료까지 모든 프로세스를 평가했다.
STH는 이번 시험 평가에서 AI 클러스터 운영을 잘하는 것이 딥 러닝 문제를 해결하는 새로운 방법을 찾는 것만큼 중요하지는 않지만 그룹 내에서의 공유 리소스를 확장하는 것이 필수적이라고 지적했다.
【STH AIStation 평가】 사용자 시스템을 이해하기 전에 먼저 관리자시스템을 시험했다. 기존에 존재하는 많은 GPU·HPC·AI 스케줄링 시스템과 비교했을 때 쿠베르네티스 컨테이너 엔진을 기반으로하는 AI스테이션은 인터페이스 디자인 방면에서 기존 존재하는 시스템 보다 압도적인 것으로 평가했다. STH는 관리자 관점(Admin View), 사용자 관점(User View) 등 측면에서 AI스테이션 성능을 시험했다.
STH는 소규모 회사일 경우에는 인스퍼의 AI스테이션이 필요하지 않지만 대규모 회사는 AI 스테이션을 사용할수 있고 쿠베르네티스를 기반으로 한다는 점에서 차세대 서비스라고 평가했다.
또 “조직내부의 클러스터가 커짐에 따라 리소스 스케줄링과 관리가 더 어려워질 수 있기 때문에 인스퍼는 AI스테이션을 통해 엔터프라이즈급 기업이 안고있는 숙제를 해결할 수 있다”고 덧붙였다.
◇관리점 관점(Admin View)

△백 엔드(Back-End) 관리:AI스테이션이 백그라운드에서 실행되면 대부분의 일상적인 관리 작업은 스크립트 또는 웹 GUI를 통해 수행 할 수 있다. 관리자는 각 노드의 부하 및 하드웨어 구성을 체크할 수 있으며 사용자 모드에서 컨테이너, 하드웨어 및 단일 GPU까지 전체 프로세스 추적도 가능하다.
△리소스 그룹 생성:테스트한 클러스터에는 노드가 몇개밖에 없었다. 하지만 AI스테이션은 수백 개의 노드와 수천 개의 노드로 구성된 클러스터를 이미 배포했다는 사례가 있다. 노드 수가 증가함에 따라 리소스 그룹 생성이 더 중요해지기 때문에 AI스테이션은 여러 리소스 그룹을 생성해 개발, 트레이닝 또는 범용 용도로 지정한다. 또한 해당 그룹에 대한 상위 수준의 관리 및 예약 권한을 설정 할 수도 있다.
△사용자·사용자 그룹 생성:

리소스 그룹 생성 외에도 사용자 및 사용자그룹 생성도 매우 중요하다. AI스테이션은 사용자를 생성하거나 기존 사용자 디렉터리를 툴로 통합 한 다음 사용자에게 서로 다른 리소스, 스토리지, GPU 리소스, 할당량 등에 대해 엑세스 권한을 부여한다.
예를 들면 한 회사는 사원이 전체 클러스터 리소스를 사용하거나 민감한 트레이닝 데이터·모델에 액세스 할수 있게 해선 안된다. 딥 러닝 전문가로 구성된 내부 컨설팅 그룹에 먼저 우선 순위가 부여돼야한다. AI스테이션 가치는 단일 시스템을 통한 통합 관리이다.
△관리자 기타 권한:관리자는 권한에 따라 전체 클러스터에 액세스 할 수 있다. 예를 들어 느린 태스크의 경우 관리자는 모니터링 도구를 사용해 태스크 문제를 발생시키는 컨테이너를 찾고 하드웨어 방면으로 직접 엑세스해 잠재적인 하드웨어 문제가 있는지 확인할 수 있다.
AI스테이션엔 클러스터를 모니터링 하기위한 전체적인 가시화 인터페이스가 있다. 인터페이스에서 CPU, GPU 및 메모리 사용량과 같은 정보를 볼 수 있다. 클러스터 라이프사이클 관리 유형의 데이터에서는 관리자가 리소스 할당 및 시스템 용량을 보는 데 도움이 될 수 있다. .
◇사용자 관점(User View)

관리자 기능 외에도 또 한가지의 중요한 기능은 사용자 시스템의 리소스를 관리하는 것이다. 사용자가 AI스테이션에 로그인하면 다양한 인터페이스를 볼 수 있다. 이러한 여러가지의 사용자 관리화 기능은 관리 섹션에 표시된 사용자, 그룹 및 리소스 그룹 할달량에 의해 정의된다. 각 사용자는 일련의 리소스에 접근 할 수 있다.
△이미지 파일:

개발자가 트레이닝 태스크를 시작하는 경우 트레이닝이 가능한 이미지를 볼 수 있다. 해당 이미지는 시스템에서 작업을 생성 할 때 사용되는 이미지 파일이다. 해당 이미지 파일은 NVIDIA GPU 클라우드 이미지일 수도 있고 표준 이미지 일 수 있다. AI스테이션엔 그룹 이미지 파일 및 사용자 이미지 등을 선택할수 있는 기능도 있기 때문에 사용자가 컨테이너 이미지를 보다 쉽게 선택 할 수 있다.
사용자는 개인, 그룹 및 공용 이미지를 볼 수 있다. 관리자는 이미지를 개인 이미지 또는 공용 미러로 정의 할 수 있고 민감한 이미지 파일 등을 권한으로 설정해 특정 그룹 또는 직원만 엑세스 가능할수 있게 제한 할 수도 있다
△프레임 선택 및 태스크 설정:인스퍼 AI스테이션은 여러 프레임 워크를 지원한다. 따라서 사용자는 tensorflow, pytorch, paddlepaddle 또는 기타 프레임 워크를 사용할 수 있다.
△데이터 관리:

AI 클러스터에서 데이터 관리는 매우 중요하기 때문에 AI스테이션은 데이터 세트를 정의하고 저장할 수 있다. 사용자는 사용 가능한 데이터 세트를 볼 수 있을 뿐 아니라 컨테이너 이미지, 노드·물리적 리소스 및 트레이닝 데이터를 선택할 수 있다.
관리자는 이러한 데이터 세트에 대한 권한을 설정할 수 있다. 일부 데이터 세트는 지정된 사용자만 보고, 사용하고, 다운로드 할 수 있기 때문에 해당 기능은 매우 중요하다.
△가시화:태스크를 실행한 후 AI 스테이션 플랫폼은 많은 시각화 툴을 통합해 보여준다. 예를 들면 Tensorboard, Visdom, Netscope 등과 같은 툴로 시작해 드롭 다운 메뉴에서 시각화 효과를 표시 할 수 있다. 사용자는 웹 GUI에서 컨테이너의 터미널을 직접 입력 할 수 있다
트레이닝 태스크는 몇 시간 또는 며칠이 걸릴 수 있고 사용자는 언제든지 현재 태스크 진행 상태, 상황, 검사 결과, 보류중인 태스크 및 기록을 볼 수 있다. AI스테이션은 회사내에서 여러 세대의 GPU와 많은 사용자들이 동시에 여러 노드의 사용을 가능하게 하도록 설계됐다.
안수민기자 smahn@etnews.com