빅데이터 시대가 열리며 최근 데이터 분석 MOOC 강좌가 주목을 받고 있다. 존스홉킨스대학은 데이터 과학과목과 관련한 아홉개 코스와 데이터 분석 특별 과정을 추가적으로 신설했다. 수학생은 제시된 데이터 분석 코스 로드맵에 따라 학습할 수 있다. 대학 수업 이상의 수업을 공짜로 들을 수 있는 기회다.
지난달 4일 존스홉킨스대학의 데이터 분석 특별과정 중 두 번째 강좌인 ‘R프로그래밍’이 개강했다. R언어는 통계 소프트웨어 개발과 자료 분석에 널리 사용되고 있는 프로그래밍 언어다. 통계학자 사이에서 통계 소프트웨어 개발에 주로 사용된다. R로 프로그래밍 하는 법을 배우고, 데이터 분석에 R를 어떻게 효과적으로 이용할 수 있는지 가르친다. 강좌는 존스홉킨스 대학의 로저드 D.펭 교수, 제프릭 교수, 브라이언 카포 교수 세 명이 지도한다.
4주간 강도 높게 진행되는 강의는 R로 어떻게 프로그래밍을 하는지, R를 데이터 분석에 효과적으로 사용하는 방법을 배우게 된다. 학생은 통계 프로그래밍 환경에 필요한 소프트웨어를 설치하고 환경을 설정하는 기초적인 부분부터 일반적인 프로그래밍 언어의 개념까지 차근차근 배울 수 있다. 강좌는 R을 포함한 통계학적인 컴퓨터 사용, R로 데이터를 읽어 들이는 법, R 패키지 접근법, R 함수 사용법, 디버깅, R코드 자료 정보 수집과 R코드를 만들어내고 평가까지 다양하다.
통계적 데이터 분석에 관한 자료는 예제와 함께 제공돼 보다 심화된 학습을 할 수 있다. 1주차에는 R개관, R데이터의 종류와 자료, 데이터 판독과 데이터 작성 기초를 배운다. 2주차에는 구조 제어와 기능, 규칙 살펴보기, 날짜와 시간 처리 방법을 배운다. 3주차에는 루프 함수와 디버깅 도구, 4주차에는 시뮬레이션, 코드 자료 수집을 배우며 통계적 추론의 기본적 지식뿐만 아니라 프로그래밍의 개념에 대해서 심도 있는 지식을 습득할 수 있다.
학생은 매주 동영상 강의를 보고 난 후, 퀴즈와 각 프로그래밍 과제를 수행해야 한다. 모든 수강생들은 오픈 소스 개발자 커뮤니티인 ‘깃허브(GitHub)’ 계정을 만들어 자신이 만든 코드를 공유해야 한다. 특히 코세라의 존스홉킨스의 데이터 사이언스 모든 과정은 깃허브를 이용해 동료평가를 한다.
대학 수준 이상의 강의인 만큼 학생은 본 강의를 수강하기 전, 코세라에 개설된 ‘데이터 과학자의 도구(The Data Scientist`s Toolbox)’를 선수강해 배경지식을 가지고 있어야 한다. 공인 수료증을 취득하고 싶은 학생은 49달러를 지불하면 된다. 데이터 과학 특별과정의 총 비용은 449달러다.
이수진 숙명여대 디지털휴머니티즈 센터 연구원 sujin@kc4dh.com