4차 산업혁명은 인공지능(AI), 빅데이터, 사물인터넷 등 새로운 기술이 결합해 빠르게 진행되고 있다. AI는 4차 산업혁명 핵심 기술로 고도화될수록 대량의 데이터 확보가 중요하다. 데이터는 사람이나 기계가 상황에 적합한 의사결정을 하는 데 필수 불가결한 요소로, 4차 산업혁명에서 '쌀'이자 '석유'라고 불릴 만큼 중요하고 가치있는 자원이다.
국내외 빅테크 기업은 데이터의 독점적 가치경쟁력을 간파해 고객의 데이터를 수집, 분석 및 활용하는 내부 시스템을 폐쇄적 생태계로 구축해 빠르게 시장을 선점하고 있다. 다른 기관과 기업은 데이터 활용에 어려움을 겪을 수 밖에 없다. 이에 정부는 양질의 데이터 제공을 확대하고, 현장의 원활한 데이터 활용을 촉진하기 위해 마이데이터, 공공 데이터 개방 정책, 정부 발주 과제 등을 통해 서비스 데이터 기근에 대처하고 있다.
2018년부터 추진한 마이데이터는 2022년 금융 분야에서 처음으로 서비스가 시작됐고, 2023년 3월 '개인정보 이동권 도입'이 입법화되면서 전 산업 분야에 상용화가 가능하도록 길이 열렸다. 2013년부터 추진한 공공 데이터 개방 정책을 통해 데이터를 축적하는 곳간이 만들어졌고, 2025년까지 모든 데이터를 개방하는 국가중점데이터 개발 계획에 따라 곳간이 점차 채워지고 있다. 기업에서는 이러한 공공 데이터를 기반으로 서비스를 개발하고 있다.
정부와 기업의 데이터 확보 노력은 결국 신뢰도 높은 AI 시스템을 구축하기 위해서다. 이를 위해서는 양질의 데이터가 필수적이지만, AI 모델 훈련에 필요한 데이터 확보하는 데에는 비용이나 개인정보보호 및 저작권 문제 등 여러 장애물이 존재한다. 이에 대안으로 떠오른 것이 합성데이터다. 합성데이터는 30년 전부터 존재했지만, 최근 자율주행차 분야에서 이 기술이 채택되며 관심과 중요성이 커지고 있다.
학계에서는 1993년 하버드대 통계학과 도널드 루빈 교수가 합성데이터(Synthetic Data) 개념을 처음 제시한 이후 합성데이터를 시스템 데이터로 활용하려는 관련 연구가 증가하고 있다. 합성데이터는 실제 데이터의 통계적 특성을 기반으로 시뮬레이션, 통계 모델, 규칙과 제약사항 등을 통해 생성한 인공 데이터이다. 합성데이터는 HW·SW 개발시 테스트 데이터, 데모와 시뮬레이션용 데이터, AI 모델 훈련 데이터, 개인정보 보호로 제한된 데이터 접근 등 다양한 분야에서 사용될 수 있다.
데이터는 '세계에서 가장 가치 있는 자원'으로 평가받고 있다. 데이터를 양적·질적으로 고도화하기 위한 합성데이터 기술은 새로운 시장을 개척할 수 있는 잠재적 기술로 주목받고 있다. 가트너는 합성데이터에 대한 2021년 6월 보고서에서 2030년에 이르면 AI에 사용되는 데이터 대부분이 합성데이터를 사용하지 않고는 고품질의 고부가가치 AI 모델을 만들 수 없을 것으로 예측했다.
해외에서는 합성데이터의 미래 가치를 내다보고 스타트업에 직접 투자를 하거나 빅테크 기업과 M&A를 통해 규모를 키우고 있어, 성장 초기 단계를 지나 확장 단계에 진입하고 있다. 하지만, 국내는 겨우 10여 개 기업만이 소규모 스타트업 단계에 머물러 있어 합성데이터 산업 경쟁력 확보를 위해서는 규모 확대가 시급히 필요하다. AI 분야의 핵심 미래 변화는 합성데이터 발전에 달려있고, 무한한 기술 전쟁 시대에서 월등한 경쟁력을 갖기 위해선 정부의 과제 중심 소극적 지원을 넘어 직접적 기업 육성과 관련 연구의 적극적 촉진 정책이 필수다.
한국폴리텍대학 광명융합기술교육원 데이터분석과 장석주 교수 sjchang@kopo.ac.kr