[ET시론] '국가 데이터 인프라'로 AI강국 진입

황종성 한국지능정보사회진흥원(NIA) 원장
황종성 한국지능정보사회진흥원(NIA) 원장

◇AI가 무서운 진짜 이유

인공지능(AI)이 그 이전의 다른 기술들과 다른 점은 무엇일까? 구글의 최고경영자(CEO)를 역임한 에릭 슈미트는 지난 2월 포린어페어스(Foreign Affairs)에 기고한 글에서 '생성(generative) 능력'을 갖는 것이 AI의 가장 큰 특징이라고 했다. 그는 그 이전의 기술들은 증기기관이든, 반도체든 핵기술이든, 모두 특정한(singular) 속성과 능력으로 정의된다고 한다. 그래서 어떤 나라든 그 특정한 능력을 확보하면 그 기술을 보유한 것으로 간주된다. 예컨대 한번 핵 실험에 성공하면 핵 보유국이 되는 것이다. 반면에 AI는 특정 능력으로 정의되지 않고 계속 새로운 능력을 생성한다. 이 때문에 어떤 특정한 AI기술을 확보하는 것 자체는 큰 의미가 없다. 대신 끊임없이 한차원 높은 새로운 능력을 만들어 낼 수 있을 때 AI국가 혹은 기업으로 평가 받을 수 있다.

AI국가 혹은 기업이 되면 혁신의 속도가 기하급수적으로 빨라지는 효과를 누릴 수 있다. AI가 진정 무서운 이유는 그것이 더 좋은 서비스를 제공하기 때문이 아니라 기술 발전과 혁신의 속도를 점점 더 빠르게 하기 때문이다. 이미 AI는 지금까지 불가능하다고 여겨졌던 새로운 과학적 발견과 기술개발을 가능케 했다. 하지만 더 눈여겨 봐야 할 점은 AI가 발전할 수록 그 속도가 기하급수적으로 빨라지고 있다는 점이다. AI의 생성능력을 효과적으로 활용할 수 있는 나라와 기업은 'AI의 속도'로 발전할 수 있는 반면에 여기서 도태되면 '인간의 속도'로 따라 갈 수밖에 없다.

◇데이터의 힘, 데이터의 속도

우크라이나 전쟁은 데이터의 중요성을 여실히 보여줬다. 전쟁이 발발하자 마자 우크라이나는 정부의 핵심 데이터를 모두 클라우드에 올렸다. 러시아의 공격으로부터 데이터를 지키는 것이 국가기능을 지속하는 길이라 생각했기 때문이다. 결과적으로 수많은 정부기관과 공공시설이 파괴됐지만 정부는 효과적으로 기능할 수 있었다. 또 앞서 소개한 에릭 슈미트의 글에는 우크라이나가 전자정부 모바일 앱을 군사정보수집을 위한 오프소스 채널로 활용한 사례가 나온다. 시민들이 전자정부 앱을 통해 러시아 군의 움직임에 관한 각종 정보를 적극적으로 공유함으로써 우크라이나는 확실한 정보우위를 점할 수 있었다. 이미 데이터는 기업 경영에 불가결한 자원이 된지 오래다. 우크라이나 전쟁은 한 걸음 더 나아가 국가의 생존도 데이터에 의존하는 시대가 되었음을 보여준다.

데이터의 힘이 가장 극명하게 드러나는 영역은 역시 AI 분야이다. AI가 갖는 '생성 능력'은 결국 제공되는 데이터의 양과 범위, 그리고 품질에 달려 있다. 수년 전 앤드류 응은 AI 성능이 모델 보다 데이터에 의해 좌우된다는 것을 실증적으로 보여줬다. 딥러닝, 거대AI 등 개발모델의 발전도 중요하지만 궁극적으로 AI의 정확성을 높이는 길은 개발과정에 활용되는 데이터의 질을 높이는 것이라 한다. 그래서 그의 결론은 AI의 발전을 위해서는 '많은 데이터'(빅데이터) 보다 '좋은 데이터'를 확보하는 전략이 필요하다는 것이다.

하지만 데이터로 AI의 발전을 견인하는데 심각한 문제가 하나 있다. '좋은 데이터'를 확보하는데 많은 시간과 노력이 소요된다는 점이다. 보통 AI를 개발할 때, 데이터 준비에 70~80%의 시간과 노력이 들어가고, 정작 데이터 분석에는 20% 정도만 투입된다고 한다. 한마디로 '데이터의 속도'가 너무 느리다. 이런 상황에서 데이터의 속도를 높이려면 천문학적인 규모의 투자가 이루어져야 한다. 세계에서 자본력이 풍부한 소수 기업이나 국가만 할 수 있는 일이다. 따라서 어떤 나라가 AI 역량을 높이고자 한다면 우선적으로 사회 전반의 데이터 속도를 빠르게 할 방법을 강구해야 한다. 예컨대 어떤 나라가 '데이터 준비'와 '데이터 활용'에 들어가는 노력과 시간을 80대20에서 20대80으로 바꿀수만 있다면 그 나라는 분명 AI의 최강국에 등극하게 될 것이다.

[ET시론] '국가 데이터 인프라'로 AI강국 진입

◇국가 데이터 인프라의 필요성

데이터의 속도가 느린 이유는 데이터를 수집, 공유, 활용하기 위한 프로세스가 없기 때문이다. 오늘날 많은 기업이 데이터 거버넌스에 공을 들이는 것도 기업 내에서 데이터를 공유하고 활용하기 위한 프로세스가 필요하다는 것을 절감했기 때문이다. 이런 프로세스가 없다면 같은 기업 내에서조차 어떤 데이터가 어디에 있는지 찾기 힘들게 된다. 하지만 기업을 넘어 국가 차원으로 눈을 돌리면 데이터를 공유, 활용하기 위한 프로세스를 갖춘 나라는 찾아보기 힘들다.

물론 공공데이터의 경우, 대부분의 나라가 이를 공유하기 위한 정책과 프로그램을 운영하고 있다. 하지만 실제 공유되는 데이터는 극히 일부에 국한되고 공유채널도 제대로 정비되지 않았다. 우리의 경우를 보면 '버스승객 데이터'를 필요로 할 때, 단순히 검색만 해보아도 서울열린데이터광장, 교통카드 빅데이터 시스템, 공공데이터포털, 국가 교통데이터 오픈마켓 등 수많은 데이터 플랫폼이 뜬다. 이용자 입장에서는 어떤 사이트에 접속해야 내가 원하는 데이터를 구할 수 있을지 잘 알 수 없기 때문에 일일이 들어가서 확인하는데 상당한 시간과 노력이 들어간다. 더욱이 대부분의 데이터는 생성단계부터 공유와 활용을 전제로 하지 않았기 때문에 이를 제대로 활용하기 위해서는 준비과정에 많은 시간과 노력을 들여야 한다. 민간데이터의 경우에는 상황이 더 안 좋다. 데이터 수요자가 일일이 데이터의 소재를 파악하고 제공동의를 얻어야 하며 수집된 데이터를 처음부터 다시 손을 봐야 한다.

국가 차원에서 데이터의 속도를 빠르게 하려면 데이터의 생성에서부터 활용, 폐기에 이르는 전체 사이클을 효과적으로 지원하는 '데이터 인프라'가 필요하다. 마치 정보화시대에 인터넷 같은 정보통신인프라가 한 사회의 모든 부분을 서로 연결하는 역할을 했듯이, AI데이터 시대는 수없이 다양한 데이터들을 유기적으로 연계, 융합할 수 있는 인프라가 필요하다. 데이터의 소유자와 수요자를 효율적, 효과적으로 연결해 주고, 데이터의 품질과 상호운용성을 보장하며, 데이터 활용에 따른 이익과 책임을 관리하고, 데이터와 관련된 분쟁을 효과적으로 조정할 수 있는 공통기반과 프로세스가 있어야 한다.

특히 앞으로 사회는 AI의 보편적 확산에 힘입어 소위 '데이터기반 사회'로 발전할 것으로 전망된다. 현재의 데이터 경제는 데이터를 특정 기업과 서비스 차원에서 이용하는데 주력한다. 따라서 데이터의 공급과 활용에 문제가 생기더라도 그 여파는 특정 기업과 서비스에 국한된다. 반면 AI의 보편화는 한 사회의 모든 분야와 활동을 데이터에 의존하도록 만든다. 이 경우 데이터 공급에 문제가 생기면 사회 기능이 마비될 수 밖에 없다. 이런 측면에서 데이터 인프라는 단지 데이터의 속도를 올리는 것 뿐 아니라 데이터 기반 사회의 존립을 위해서도 꼭 필요한 요소라 할 수 있다.

◇데이터 인프라의 사례

데이터 인프라를 구축하는데 가장 열심인 나라는 유럽연합(EU)이다. EU가 4대 데이터 전략의 하나로 삼고있는 데이터 스페이스가 바로 '유럽 데이터 인프라' 구축을 지향하는 것이다. 공공·민간 부문의 데이터를 상호 연결하여 자유로운 공유를 촉진하는 것을 목표로 한다. 이를 위해 EU는 주요 9개 분야(제조업, 에너지 등)를 중심으로 데이터 접근성 및 품질, 상호운용성 등을 종합적으로 고려하여 데이터 인프라를 구축하고 있다. 이것의 핵심은 데이터가 특정 플랫폼에 종속되지 않고 플랫폼 간 상호운용성이 확보되어 데이터와 서비스가 자유롭게 흐를 수 있게 설계되어 있다는 것이다.

대표적 사례가 관광 분야의 데이터 스페이스인 EONA-X이다. 한마디로 관광 분야의 데이터를 누구든 정당한 참여자들이 안전하게 공유하고 활용할 수 있는 플랫폼(엄밀하게 플랫폼들의 플랫폼)이다. 관광과 관련된 다양한 기관 또는 업체들, 예컨대 공항, 식당, 지하철역, 주요 관광지 등이 데이터 제공과 활용을 위한 파트너십을 맺고, 다양한 플랫폼을 상호연계한 데이터 스페이스 상에서 각종 관광 분야 데이터를 실시간 공유한다. 예컨대 다양한 관광 및 운송 업체가 실시간으로 공유하는 데이터를 바탕으로 공항에서 터미널, 짐 보관소, 차량 이동 등 고객에게 최적의 여행 경로를 안내한다. 데이터 제공자가 제공하는 연합 데이터 카탈로그를 통해 데이터 접근이 가능하며 데이터는 실시간으로 업데이트된다. 이를 통해 관광 수요나 패턴 등을 파악하여 예측할 수 있고 미래의 관광 산업동향도 전망할 수 있다.

◇한국형 데이터 인프라

우리나라도 이미 공공과 민간에서 140개 이상의 다양한 데이터 플랫폼을 구축하여 데이터 개방·유통을 위한 인프라를 마련했다. 하지만 플랫폼별로 데이터가 분산·저장돼 있어 통합관리와 활용이 어려운 환경이다. 또한 기관과 기업은 데이터 권한 등의 문제 발생 위험으로 양질의 데이터 제공에 소극적이며 데이터 공유·활용 관점에 맞는 관리체계도 부재한 상황이다. 현재 문제점을 극복하기 위해서는 몇 가지 과제가 필요하다.

첫째, 국가 차원에서 그간 구축한 데이터를 잘 연계해 활용할 수 있는 기반을 만들어야 한다. 기존 정보시스템 구축이 특정 목적을 지향했다면, 앞으로는 여러 용도에 사용될 수 있는 공통의 데이터 활용 기반조성이 필요하다. 여러 플랫폼을 연결한 플랫폼들의 플랫폼(platform of platforms)을 활용하여 개방적이고 상호연계된 서비스-데이터-인프라 생태계를 구축해 데이터와 서비스가 특정 클라우드에 종속되지 않고 자유롭게 흐를 수 있는 환경을 마련해야 한다.

둘째, 공공·민간이 양질의 데이터를 공급·개방할 수 있도록 자생적인 인센티브 제공과 데이터 주권(Data Sovereignty) 지원방안이 필요하다. 현재 데이터 공유방식은 여러 데이터를 한곳에 모으는 중앙집중 방식을 따르는 경우가 많다. 이 경우 데이터 소유자는 자신의 데이터를 제3자에게 넘기고 자기 데이터에 대한 통제권을 상실하는 문제가 발생한다. 데이터를 수집한 기관들은 데이터에 대한 이해도가 떨어지고 실시간 업데이트 등 매우 높은 관리비용을 지불해야 한다. 앞으로 한국의 데이터 인프라는 데이터를 소유자가 보유하는 분산적 체계 위해서 데이터 소유자와 사용자의 이익을 높이는 새로운 방식을 강구해야 한다.

마지막으로 컴플라이언스의 마련도 중요하다. 서비스, 데이터, 인프라 연계 기준 및 상호운용성 확보를 위한 표준, 품질기준, 공통 보안규격 등 체계를 확립해야 한다. 각 분야의 민간 개발자와 전문기업들이 참여하는 협력체계를 마련해 공공과 민간 서비스 구축에 필요한 공통 기능 등을 표준화하는 과정이 필요하다. 이를 통해 데이터를 쉽고 빠르게 찾아서 활용할 수 있는 국가 차원의 공통 데이터 프로세스를 정립할 수 있을 것이다.

국가 데이터 인프라 구축에는 기술력뿐만 아니라 국가 전략과 정책, 그리고 국민적 지원이 중요하다. 이 부분에서 한국의 잠재력은 뛰어나다고 생각한다. 한국이 국가 데이터 인프라를 통해 다른 어느 나라보다 데이터를 생산, 공유, 활용하기에 유리한 환경을 조성하고 데이터를 활용한 각종 서비스가 먼저 구현돼 데이터 시대의 강국이 되길 기대한다.

[ET시론] '국가 데이터 인프라'로 AI강국 진입

○황종성 NIA 원장은...

황 원장은 연세대 정치외교학과를 졸업하고 1995년 NIA에 입사해 전략개발부장, 정보화평가부장, 정보화기획단장, 정책본부장 등을 역임했다. 세계도시 전자정부 협의체 사무국장, 서울시 정보화기획단장, 부산 에코 델타시티 총괄계획가 등을 역임한 국내 최고 스마트시티·지능정보화 분야 전문가로 손꼽힌다.

황종성 한국지능정보사회진흥원 원장 js.hwang@nia.or.kr