[디지털문서 인사이트] 도메인 특화 AI 구축:디지털 문서에서 LLM까지

유석 유니닥스 AI사업본부 상무
유석 유니닥스 AI사업본부 상무

디지털 문서는 아날로그 문서에 비해 뚜렷한 장점을 제공한다. 정확도와 접근성이 크게 향상되고, 업무 효율성이 증대되며, 데이터 통합과 분석이 용이하다. 또 장기적 관점에서 보관 및 관리 비용이 절감되고, 접근 권한 관리를 통한 보안 강화 효과도 얻을 수 있다. 이러한 디지털 문서는 조직의 중요한 자산으로서, 텍스트와 이미지 정보를 체계적으로 추출해 인공지능(AI) 활용을 위한 양질의 빅데이터를 구성할 수 있다.

조직 내 디지털 문서에서 추출된 텍스트는 도메인 특화 말뭉치 구성에 활용되며, 이는 소형언어모델(small Large Language Model:sLLM) 구축을 위한 핵심 학습데이터가 된다. 일반적인 거대언어모델(LLM)은 특정 산업이나 전문 분야의 용어를 정확하게 이해하고 처리하는 데 한계가 있기 때문에, 산업별 맞춤형 sLLM 구축에는 이러한 도메인 특화 말뭉치가 필수적이다.

조직에서 상용 LLM을 활용할 때는 데이터 공개에 따른 잠재적 위험성을 반드시 검토해야 한다. 조직의 중요정보를 보호하고 개인정보를 비식별화하는 작업에는 상당한 시간과 인력 투입이 필요하다. 또 보안을 위해 폐쇄망 내에 LLM을 구축하려는 경우, 막대한 인프라 비용과 자연어 처리 전문 인력 확보의 어려움으로 인해 실질적으로 구현이 어렵다. 이러한 한계를 극복하기 위해 많은 조직들이 특정 도메인에 특화된 sLLM 도입을 적극적으로 검토하고 있다.

sLLM을 도입할 때는 환각현상을 최소화하기 위한 지속적인 품질관리가 필요하다. 시스템이 생성하는 부정확한 응답을 체계적으로 수집하고, 이에 대한 정확한 답변을 생성해 추가적인 미세조정을 수행하는 등의 개선 작업이 꾸준히 이뤄져야 한다. 특히 헬스케어와 같이 인간생명 및 개인정보와 직결되는 민감영역에서는 개인정보 보호, 데이터 보안, 법적 책임, 규제 준수, 윤리적 사용, 지식재산권 등을 종합적으로 검토하고 관리해야 한다.

현재 AI 분야에서 텍스트 기반의 LLM이 주된 관심을 받고 있지만, 글로벌 빅테크 기업들은 이미지, 동영상, 음성 등 다양한 형태의 데이터를 결합한 멀티모달 모델(Large Multimodal Models)을 경쟁적으로 개발하고 있다. 이러한 멀티모달 기술은 이미지를 단순 설명하는 수준을 넘어 복잡한 시각정보에 대한 심층적 질의 및 응답이 가능한 수준으로 발전하고 있으며, 산업전반에 혁신적 변화를 가져올 것으로 전망된다.

국내에서도 한국지능정보사회진흥원이 추진하는 초거대 AI 확산 생태계 조성사업을 통해 멀티모달 데이터 구축이 활발히 진행 중으로, 이는 국내 AI 산업발전의 새로운 전환점이 될 것으로 기대된다.

디지털시대의 조직이 지속가능한 경쟁력 확보를 위해서는 우선 업무가 디지털 방식으로 완전히 전환되어야 하며 단순히 텍스트 정보뿐만 아니라 다양한 형태의 데이터를 통합적으로 활용할 수 있어야 한다고 생각된다. 기업에서는 다가올 디지털 시대를 대비하고 새로운 비즈니스 기회를 선점하기 위해서는 보다 장기적인 안목과 전략적 접근이 그 어느 때보다 중요하다고 하겠다. 또 정부에서는 이러한 디지털 전환의 흐름을 이해하고 이를 지원하기 위한 다양한 정책을 마련할 때라고 생각한다.

유석 유니닥스 AI사업본부 상무 tobewiseys@unidocs.co.kr