[IT리더스포럼]배경훈 LG AI연구원장 “생성형 AI 고도화...쓸만한 DB부터 확보해야”

고신뢰성 생성형 인공지능(AI) 엔진을 구축하기 위해서는 딥러닝용 데이터 확보가 우선되어야 한다는 주장이 제기됐다. 어떤 상황에서든 결과물과 답변을 도출하는 AI 특성상 학습에 필요한 선별 데이터가 확보되어야 오류도 줄일 수 있다는 설명이다.

배경훈 LG AI연구원장은 18일 서울 JW메리어트호텔에서 열린 '한국IT리더스포럼(초거대 AI 시대, 기업의 대응 방향)' 강연 자리에서 LG AI 엑사원(EXAONE) 개발 과정을 소개하며 검증된 데이터의 중요성을 강조했다.

배경훈 LG AI연구원장이 18일 서울 반포동 JW메리어트호텔에서 열린 IT리더스 포럼을 통해 '초거대 AI와 기업의 대응 방향'을 발표하고 있다. 박지호기자 jihopress@etnews.com
배경훈 LG AI연구원장이 18일 서울 반포동 JW메리어트호텔에서 열린 IT리더스 포럼을 통해 '초거대 AI와 기업의 대응 방향'을 발표하고 있다. 박지호기자 jihopress@etnews.com

배 원장은 “엑사원 개발 당시 딥러닝에 필요한 데이터를 확보하는 데 많은 어려움을 겪었다. LG그룹 차원에서 보유한 데이터는 많았지만, 산업 현장의 문제를 풀어가는 과정에서 정작 필요한 데이터를 확보하는 것은 쉽지 않았다”라고 밝혔다.

배 원장은 검증되지 않은 데이터로 학습한 AI의 오류에 대해서도 경고했다. 구글 AI '바드'의 제임스웹 우주망원경 답변 오류로 128조원 시총이 한순간에 증발한 사례를 언급하며 '데이터의 양보다, 데이터의 질'이 중요하다는 점을 역설했다. 아울러 LG AI연구원이 엑사원 개발 과정에서 오류 데이터를 걷어내는 데에만 1년에 가까운 시간이 걸렸다는 경험도 소개했다.

배 원장은 AI 데이터 선별 이슈는 앞으로 더 중요해질 것이라고 전망했다. 답변의 신뢰성과 함께 학습 데이터 저작권과 개인정보보호 이슈까지 겹치면서 이를 모두 대응할 수 있는 데이터 확보는 더욱 어려워 질 것이라고 봤다. 이를 위해 정부의 산업계가 분야별로 AI 학습을 위한 데이터부터 모아야 할 것이라고 조언했다.

AI 시장 전망에 대해서는 오픈AI의 챗GPT, 구글의 바드와 같은 대규모 AI보다 전문 영역의 맞춤형 모델에 대한 관심이 커질 것으로 예상했다. 초기에는 대중적 관심으로 챗GPT 등 일반시장 대상 대형 AI에 관심을 갖지만, 사내 보안 이슈와 신뢰성 문제, 비용 문제 등을 따져 볼 때 '스탠포드 알파카' 등 경량화 AI 모델에 대한 관심이 커지고 있다는 분석이다.

배 원장은 “모든 AI 관계자의 꿈은 어디든 적용할 수 있는 제너럴 AI를 만드는 것이지만, 이를 산업현장에 적용하려면 수지타산이 맞지 않는다”라며 “사내 보안성 문제에서도 AI 클라우드 보다는 특정 고객에 맞춘 AI가 필요하다”고 말했다.

조정형 기자 jenie@etnews.com