미디어그룹사람과숲(이하 사람과숲)은 공공 부문 인공지능(AI) 학습용 데이터 구축과 거대언어모델(LLM) 파인튜닝 기술을 선도하는 기업이다.
공공 부문 AI 학습용 데이터 구축 사업을 국내에서 가장 많이 수행한 기업으로 공공 데이터 관리 노하우와 기술을 보유했다.
사람과숲은 1999년 창업, 역사문화 데이터 프로젝트를 이끌며 데이터 거버넌스 전문 기업으로 성장해왔다. 데이터 기획부터 생성, 관리 운영까지 데이터 생명주기 전 과정에 높은 전문성과 다양한 경험을 축적했다.
2003년 문화체육관광부 국가문화유산종합정보시스템 구축을 시작으로 국가 주도 공공데이터와 개방체계 구축사업을 연달아 수주했다. 특히 아날로그 문화유산을 비주얼 데이터로 디지털라이징하고 아카이브 시스템을 개발 구축하는데 두각을 나타냈다.
외규장각의궤, 곤여만국전도 등 다루기 까다로운 고전 자료 스캔·촬영뿐만 아니라 3D 스캔·가상현실(VR)·증강현실(AR) 등 다양한 형태의 데이터와 콘텐츠 구현에도 탁월한 역량을 보였다.
2018년에는 민간 기업 처음으로 자율주행을 위한 AI 학습용 영상 데이터 구축 사업을 주관하고 자율주행 관련 데이터셋 구축에 앞장서왔다.
사람과숲은 자율주행 등 모빌리티 부문 학습 데이터 구축 경험을 바탕으로 자동차의 성능평가 정보를 제공하는 서비스를 기획하고 있다.
나아가 메타버스와 LLM을 연결해 융합·발전하는 미래를 모색 중이다. 교육 플랫폼 비즈니스와 AI NPC(Non-Player Character)의 결합이 골자다. 가상환경 내 캐릭터인 NPC에 LLM 언어모델을 학습시키고, 실제 사람과 같은 NPC가 등장하는 몰입도 높은 메타버스 세계를 준비하고 있다.
〈인터뷰〉한윤기 미디어그룹사람과숲 대표 “DX부터 AI모델까지 원스톱 서비스”
사람과숲은 다양한 공공 부문 데이터 구축 경험을 바탕으로 아날로그 데이터의 디지털 전환부터 AI모델, 머신러닝운영(MLOps)까지 원스톱 서비스 제공이 가능하다.
한윤기 사람과숲 대표는 올해 역점 사업으로 LLM 학습용 데이터 구축 사업과 공공 LLM 관련 사업을 꼽았다. 이 분야 선두기업 자리를 굳히며, 모빌리티와 메타버스 등 관련 서비스 확대를 준비한다.
한 대표는 “사람과숲은 2023년 한국어 오픈 LLM 리더보드에서 가장 오랫동안 1위를 지킨 기업”이라며 “가장 대표적 글로벌 오픈소스 LLM인 라마(Llama)-2 모델을 한국어 LLM로 튜닝하는 기술 역시 국내 최고”라고 강조했다.
지난해에는 행정안전부 주관 '2023 AI 공문서 서비스 시범개발을 위한 공문서 개방' 사업에 참여했다. 공공기관 공문서를 LLM 학습용 데이터로 가공한 후 오픈소스 LLM을 파인튜닝해 모델 성능 향상 가능성을 점검하는 사업이다. 사람과숲의 기술로 파인튜닝한 LLM은 기존 LLM 답변 정확도보다 7% 이상 향상된 결과를 얻었다.
한 대표는 “사람과숲은 LLM을 넘어서 공공 업무에 최적화된 '검색증강생성(RAG)' 기술 개발과 이를 활용한 AI 서비스에 집중하고 있다”며 “공공 데이터에 대한 최적화된 AI 능력을 바탕으로 공공기관이나 부서마다 사용하는 목적에 맞춰 정확하고 편리한 서비스를 제공하겠다”고 말했다.
김명희 기자 noprint@etnews.com