세계에서 생성형 인공지능(AI) 각축전이 펼쳐지고 있다. 국내외 주요 정보통신기술 기업과 통신사, 게임사 등을 필두로 대규모 언어 모델(LLM)을 활용한 AI 서비스 개발과 상용화에 열을 올리고 있다.
상반기 퍼블릭 LLM이 화제였다면 하반기엔 보안과 커스터마이제이션 측면에서 프라이빗 LLM 방식이 주목받고 있다. 퍼블릭 LLM은 기업 내부 정보 반영이 어렵고 민감정보 유출의 우려가 있다. 반면, 프라이빗 LLM은 기업별 목적과 특성, 내부 데이터를 기반으로 맞춤 구축해 데이터를 효과적으로 보호하면서 활용도를 높일 수 있어, 많은 조직이 프라이빗 LLM 활용을 검토하는 추세다.
그런데 비싸고 좋다는 프라이빗 LLM을 도입하면 누구나 취지에 맞는 결과를 얻을 수 있을까?
물론 아니다. AI 활용 성과를 높이려면 기본 준비가 필요하다. 그 중에서도 조직 내 데이터 관리 역량은 단연 우선순위로 꼽히는 필수 조건이다. 생성형 AI는 학습 데이터 수준이 결과물 품질을 좌우한다. 학습 데이터는 기업이 보유한 문서형 데이터가 기반이 되기에, 결국 AI 학습 데이터가 되는 사내 문서를 얼마나 잘 관리했느냐가 AI 수준을 결정하게 된다.
그렇다면 성공적인 AI 활용에 필요한 데이터 관리 역량은 어떤 것일까. 먼저, 조직이 보유한 모든 데이터를 자산화하는 것이 시작이자 기본이다. 임직원이 생성하고 공유하고 저장하고 수정한 모든 문서를 누락없이 조직이 확보하고 있어야 한다.
문서자산화가 돼야 비로소 문서 가치나 보안의 경중을 구분하고, 폐기나 보관 등 조처가 가능해진다. 이는 AI 활용 뿐만 아니라 기업이 경쟁력을 유지하는 데 중요하다. 각자 문서를 관리하면 서로 필요한 문서를 찾기 어려울 뿐 아니라 업무 변경이나 퇴사시 중요 정보가 누락되기도 한다. 존재조차 모르는 문서에서 기밀 정보가 유출될 위험도 있다.
다음으로, 데이터의 신뢰성을 확보하고 AI 학습 효율성을 높이기 위해서 데이터 '질'을 높여야 한다. 체계적 버전 관리를 통해 최종 혹은 최신 데이터의 정확한 정보를 제공할 수 있어야 결과물의 신뢰도와 효용도를 높일 수 있다.
중복문서 관리도 필요하다. 문서자산화를 한다고 문서를 단순히 모아놓기만 하면 ROT(Redundant, Obsolete, Trivial·중복되고, 오래되고, 중요하지 않은) 데이터가 넘쳐나기 쉽다. ROT 데이터는 AI 학습 시간과 소요 비용을 기하급수적으로 증가시키며, 데이터 신뢰도 또한 크게 떨어뜨린다. 현실적으로 대부분 기업이 불필요한 문서를 관리하지 못하고 있다는 점에서 가장 시급하게 해결해야 할 사항 중 하나다.
보안도 매우 중요하다. 외부 유출 방지는 물론 내부에서도 부서 또는 사용자별로 데이터 접근 권한을 통제할 수 있어야 한다. 급여 정보 같은 특정 데이터는 해당 부서 외의 접근을 허용해선 안 되는 것처럼, 데이터별 접근 권한을 부여하고 관리해 생성형 AI를 통한 정보 유출을 통제할 수 있어야 한다.
문서자산화와 버전 및 중복 문서 관리, 보안이라는 중요 요소를 모두 충족시키는 것이 까다로워 보인다면 문서가상화 기술을 활용해 해결할 수 있다. 문서가상화(Virtual Content Infrastructure)는 문서가 생성되면 고유 ID를 부여하고 중앙에 저장해 모든 문서를 자산화한다. 분산저장해도 하나의 문서로 관리돼 ROT 문서를 최소화한다. 사용자가 편집 후 저장하면 문서를 소유한 다수 사용자가 어디에 저장했든 최신 버전으로 자동동기화하며, 모든 버전정보를 제공해 버전관리도 간편하다. 문서가상화를 기반으로 암호화와 권한 통제 기능을 더해 모든 문서를 암호화하고 권한에 따라 사용을 통제하면 보안 문제도 해결된다.
데이터 관리는 단순한 내부 프로세스 개선을 넘어 미래를 준비하는 핵심 요소 중 하나다. 생성형 AI를 활용해 경쟁력을 확보하고 혁신적 서비스를 도입하기 위한 필수 준비 과정이다. AI 시대가 열리는 지금, 당장 데이터 관리 역량부터 점검해야 하는 이유다.
고동현 파수 상무 dhgo@fasoo.com