`데이터는 살아 움직이는 유기체`라는 속설이 있다.
데이터가 수집·이동·복제·저장 등 프로세스 과정을 거치면서 긍정·부정적 데이터 변형이 일어난다. 이렇기 때문에 데이터가 살아 있다고 표현한다.
문한성 코리아크레딧뷰로 데이터관리팀장은 “최근 데이터는 빅데이터, 핀테크 등과 맞물려 중요성이 커졌다”면서 “그렇지만 데이터 품질 관심은 그렇지 못하다”고 말했다.
통상 데이터 품질 이슈가 되는 순간은 저장된 데이터를 활용 분석하는 단계다. 대부분 데이터품질관리는 분석대상 데이터(정보계 등)에 집중됐다. 주요 품질관리 활동도 기술적 품질관리(포멧 오류 등)에 초점이 맞춰졌다.
과거에는 데이터 생성·저장·분석 과정이 시차를 가지고 이뤄졌다. 때문에 최종 단계에서 데이터를 클렌징하고 사용해도 충분했다. 문 팀장은 “최근 빅데이터는 대규모 데이터가 시차를 가지지 않고 생성·저장·분석이 동시에 실시간으로 이뤄진다”면서 “정보계 중심 빅뱅 방식의 데이터 품질관리는 실시간 빅데이터 품질관리를 수행하기에 한계가 있다”고 지적했다.
데이터 수집, 이동, 복제, 저장 단계 모든 프로세스를 하나의 체인으로 연결·관리해야 한다. 품질관리가 성공적으로 수행되기 위해 단순 기술적 관리 중심에서 벗어나야 한다. 해당 비즈니스 프로세스 이해가 수반된 품질 관리가 병행돼야 한다.
문 팀장은 “과거 빅뱅 방식의 품질관리에서 프로세스 체인 방식의 실시간 품질관리 방식으로의 전환해야 한다”고 강조했다.
신혜권 SW/IT서비스 전문기자 hkshin@etnews.com