알파고 등장 이후 우리나라에서는 인공지능(AI) 관심이 매우 높아졌다. 그러나 AI 쓰임새가 아직은 매우 단순한 응용에 불과하다고 여겨져 관심이 식은 편이다. 꽤 시간이 흐른 지금 AI가 다시 주목을 받는 것은 컴퓨터 기술의 비약적 발전으로 아주 전문적인 영역의 문제를 풀 수 있게 되었을 뿐만 아니라, 인간 생활의 다양한 영역에서 실질적 기여를 할 수 있는 가능성이 보이기 때문으로 보인다.
◇AI를 가능하게 하는 기반은 하드웨어와 데이터
AI가 다시 주목을 받게 된 것은 AI 알고리즘의 발전도 있었지만, 컴퓨터 핵심 부품인 데이터 저장장치와 처리장치가 과거에 비해서 비약적으로 발전했을 뿐만 아니라 인터넷 속도도 크게 빨라졌기 때문이다. 데이터 저장장치 발전은 방대한 학습 데이터를 적은 비용으로도 저장할 수 있게 하고, 데이터 처리장치와 인터넷 속도 발전은 실시간에 가까운 응답을 가능하게 한다.
그런데 사실은 데이터가 있어야 이 모든 것이 의미가 있다. 데이터가 없다면 아무리 대용량 저장장치와 초고속 처리장치, 인터넷이 있어도 무용지물일 뿐이다. 지금 시대는 빅데이터 시대가 되어 데이터가 곳곳에서 차고 넘쳐 데이터 저장장치와 처리장치, 그리고 인터넷이 그 어느 때보다 바쁘게 움직이고 있다. 하지만 모든 데이터가 유효하지는 않다. 데이터는 디지털화되어야 하고, 신뢰할만해야 하며, 충분한 양이 있어야 한다.
◇AI를 뒷받침하는 데이터의 특별한 속성
먼저 데이터가 디지털화되어야 하는 이유는 그래야만 컴퓨터가 읽을 수 있기 때문이다. 종이 매체에 기록된 데이터는 컴퓨터로 입력해야 하기 때문에 많은 비용이 든다. 요즘은 신문 기사나 학술 논문도 아예 처음부터 디지털화하기 때문에 이러한 측면에서 큰 도움이 된다. 또한 사물인터넷(IoT)이 확산되면, 수많은 디지털 데이터를 손쉽게 모을 수 있게 된다.
그렇지만 이러한 데이터는 신뢰할 수 있어야 한다. AI에 활용되는 데이터에 오류 데이터, 가짜 데이터, 위험 데이터가 들어가게 되면 그 결과는 많은 문제를 야기할 수 있기 때문이다. 마치 수돗물을 사람이 먹을 수 있도록 품질관리를 하듯이 데이터도 AI가 오답을 내지 않도록 품질 관리가 꼭 필요하다. 더 나아가 원유가 정제될수록 고급 제품으로 비싸게 팔리듯, 데이터도 적절한 큐레이션을 통해서 그 가치를 배가할 수 있다.
마지막으로 AI가 정확한 답을 내기 위해 필요한 충분한 양의 데이터가 필요하다. 그러기 위해서는 필요한 데이터가 모두 공개돼야 한다. 그런데, 여러 가지 이유로 데이터 공개가 안 되고 있다. 저작권 있는 데이터, 민감한 데이터, 보안 데이터 등이 있는데, 이러한 데이터를 AI에 활용할 수 있는 방안 마련이 시급하다. 이를 위해서 정부에서는 오픈 데이터 정책을 제도화하고, 데이터 공개를 위한 다양한 사업을 시행하고 있다.
글: 서태설 한국과학기술정보연구원(KISTI) 학술정보공유센터장