[디지털문서 인사이트] AI-디지털문서 융합 비즈니스모델의 핵심 기술 RAG

이영곤 국제전자문서학회 학회장·한국공학대 교수
이영곤 국제전자문서학회 학회장·한국공학대 교수

IBM에서 2023년에 발표한 자료에 따르면 기업에서 이미 인공지능(AI)을 사용하고 있거나 적극 도입 예정인 기업이 80%를 넘어서고 있고, 업무 효율 향상에 대한 기대치는 85%를 넘어서고 있다. 이러한 추세 속에서 AI 기술, 특히 거대언어모델(LLM)의 도입과 활용은 기업의 핵심 과제로 떠오르고 있으며, 현재 비용 효율성과 데이터의 정확성을 동시에 해결할 수 있는 기술로 RAG(Retrieval-Augmented Generation)가 기업들에 각광받고 있다.

RAG는 대규모 언어 모델의 출력을 최적화해 응답을 생성하기 전에 학습 데이터 소스 외부의 신뢰할 수 있는 지식 베이스를 참조하도록 하는 프로세스로서, AI 답변의 정확성과 신뢰성에 해당하는 문제를 해결하기 위한 솔루션으로 제시됐다. LLM 기술의 한계를 극복하고, LLM 기술의 폭넓은 활용을 위해 RAG는 필수불가결한 요소로 자리매김하고 있지만, 현재 많은 디지털 문서들이 비정형적이거나 다양한 포맷으로 산재되어 있어 RAG 기술의 활용에 어려움이 있는 것은 사실이다. 또, RAG 데이터 소스의 신뢰성과 품질이 떨어지는 경우가 많아, 부정확하거나 편향된 결과를 초래할 위험이 있고, 보안과 관련해서도, 민감한 정보를 다루는 과정에서 데이터 유출이나 악용 가능성이 커지고 있다. 그 외에도, RAG 기술의 구현과 관리에는 높은 기술적 전문성과 자원이 요구되어, 중소기업이나 개인 사용자가 접근하기 어려운 한계도 존재한다.

따라서, RAG를 통해 LLM 기술 확산과 시장확대를 위해 디지털 문서 분야의 기업들은 다음 세 가지 기술력 향상에 집중할 필요가 있다. 첫째, RAG 기술을 내재화한 RAG 지식베이스 서비스 기술 개발이다. 거의 대부분의 기업들이 정보시스템을 클라우드 기반으로 운영하고 있으며, 이 정보를 RAG 형태의 정보로 변환 및 제공할 수 있는 서비스형소프트웨어(SaaS)가 개발된다면 그 수요와 활용처는 급증하리라고 예상된다. 둘째, RAG로 인해 유출될 수 있는 개인정보 혹은 민감정보 데이터 필터링 기술의 개발이 필요하다. 벡터화된 정보를 이용해 응답을 만들 때 개인정보 혹은 민감정보는 사용자 요청에 의거해 걸러낼 수 있는 기술개발이 필요하다. 셋째, RAG 지식베이스에 최적화된 검색 기술개발이 필요하다. RAG 지식베이스의 크기는 시간이 지날수록 급증할 것이라 예상되며, 이를 벡터화하고 활용하는 과정에서 검색속도를 높일 수 있는 첨단 검색기술개발이 필요하다.

이러한 기술적 진보는 단순히 RAG 기술의 성능을 높이는 것을 넘어, 디지털 문서 생태계 전반의 효율성과 활용도를 극대화할 것이다. 더 나아가 이는 디지털문서 이용기업의 생산성 향상과 새로운 비즈니스 기회를 창출하는 데도 크게 기여할 것이다.

디지털 시대에 문서는 단순한 기록 매체의 역할을 넘어, 데이터의 근본적인 자원으로 자리 잡고 있다. 디지털 문서의 구조화와 처리 기술을 강화하는 것은 RAG 기술 발전을 지원할 뿐만 아니라, 데이터 중심 사회로의 전환을 가속화하는 핵심 요소가 될 것이다. 디지털 문서 처리 기업들의 적극적인 기술 투자 및 혁신이 요구되고 정부에서도 이를 위한 지원 정책이 필요한 시점이다.

이영곤 국제전자문서학회 학회장·한국공학대 교수 yklee2002@gmail.com