최근 초거대 인공지능(AI) 기술의 발달은 다양한 산업 분야에서 혁신을 이끌고 있다. 많은 기업과 기관이 AI 기술을 도입해 혁신을 이루고 높은 성과를 달성하고자 한다. 그러나 모든 조직이 초거대 AI를 자유롭게 활용할 수 있는 것은 아니다. 특히 보안상의 이유로 내부 자료를 외부로 유출할 수 없는 조직은 초거대 AI 모델을 효과적으로 활용하기 어렵다.
이러한 이유로, 조직 내에 축적된 디지털 문서를 기반으로 특정 분야나 업무에 최적화된 AI를 개발하려면 sLLM(small Large Language Model)이 더 적합하다. sLLM은 초거대 AI보다는 작지만, 특정 분야에 특화된 정보를 학습하고 조직의 특수한 요구에 맞춰 최적화할 수 있는 장점이 있다.
성공적인 sLLM 구축을 위해서는 양질의 데이터를 학습시키는 것이 가장 중요하다. 첫 번째로 해결해야 할 과제는 축적된 디지털 문서를 체계적으로 관리하여 학습에 사용할 문서를 신중하게 선별하는 일이다. 대부분의 기업과 기관은 PDF, HWP, MS 오피스 등 다양한 형식의 디지털 문서로 정보를 관리하고 있다. 하지만 이러한 문서에는 중복되거나 불필요한 정보가 포함되어 있을 가능성이 높다. 중복 데이터는 AI 모델의 학습 과정에서 불필요한 자원을 소모하게 하고, 잘못된 정보는 모델의 성능을 저하시킨다.
다음으로, 선별된 디지털 문서를 AI가 효과적으로 학습할 수 있도록 청크 단위로 구분한다. 이를 위해서는 문서의 구조를 분석하고, 제목, 문단, 표, 이미지 등 의미 있는 데이터를 식별한 후 구조화된 형태로 변환하는 작업이 필요하다. 이때 사용되는 구조화된 파일 포맷으로는 Markdown, XML 등이 있다. 이렇게 청크 단위로 구분된 디지털 문서는 AI 학습에 용이할 뿐만 아니라, RAG 기술을 통해 AI 답변의 정확도를 높이는 데도 유용하게 활용된다.
다음 단계는 문서 데이터를 분류하고 적절한 메타데이터를 부여하는 태깅 작업이다. 이를 통해 sLLM이 학습할 때 더 정확하고 유의미한 결과를 도출할 수 있다.
마지막으로, sLLM 구축의 성공을 위해서는 데이터 보안과 개인정보 보호가 중요한 전제조건이다. 기업과 기관이 다루는 문서 데이터에는 민감한 정보가 포함될 수 있으므로, 데이터 익명화와 접근 권한 관리 등 보안 기술의 적용이 필수적이다.
현재 sLLM의 발전 속도는 매우 빠르다. 새로운 모델이 주기적으로 등장해 기존 모델을 빠르게 대체한다. 그렇기 때문에, 어떤 sLLM을 선택할 것인지보다 중요한 것은, 각 기업과 기관이 보유한 디지털 문서를 자산화해 새롭고 더 나은 sLLM에 대응할 수 있는 능력을 갖추는 것이다. 많은 조직이 sLLM을 도입하기 전에 디지털 문서 자산화를 우선적으로 수행하고 있는 것도 그 이유다.
결론적으로, sLLM의 성공적인 구축을 위해서는 축적된 디지털 문서를 체계적으로 관리하고, 양질의 데이터를 선별하고 정제하는 작업이 필수적이다. 이를 통해 AI 학습을 위한 데이터를 구조화하고 분류하는 과정에서 효율성을 높여 AI 성능을 극대화할 수 있다. 데이터 보안과 개인정보 보호를 철저히 준수하면서 디지털 문서 자산화를 실현하는 기업과 기관만이 sLLM 도입의 성공을 기대할 수 있을 것이다.
전경헌 사이냅소프트 대표이사 allen@synapsoft.co.kr