[테마특강]레퍼런스 인포메이션과 아카이빙 기술

관련 통계자료 다운로드 정보의 진화

 ◆전완택 레가토시스템즈코리아 사장 

 정보의 디지털화가 급속도로 진전되면서 우리 주변의 디지털 정보량은 급팽창하고 있다. 2000년 말 캘리포니아대학의 조사에 따르면 새로 생성되는 정보의 93%가 디지털 정보며 매년 두배 이상 폭증하고 있다.그림1참조

 지구상에서 개개인이 만들어낸 정보가 대략 250Mb며 매년 새로운 정보가 1∼2EB(exabyte는 100만테라바이트며 10억기가바이트에 해당됨) 생성되고 있다고 한다.

 이러한 디지털 정보 중 특히 자주, 적극적으로 조회하거나 저장가치가 높아 안정적으로 보관해야 할 디지털 자산을 레퍼런스 인포메이션(reference information)이라 한다. 레퍼런스 인포메이션은 현재 새로 생성되는 기업 및 정부기관 정보의 51%를 차지하고 있으며 2005년까지 전체 정보의 54%가 될 것으로 전망되는 등 성장속도가 매우 빠르다.그림2참조

 레퍼런스 인포메이션은 전자문서뿐 아니라 계약서, 캐드 디자인, 웹 콘텐츠, 역사적 문서, 의료영상 이미지, 위성정보, 비디오, 사진, 음성데이터, 심지어 e메일 및 e메일 첨부문서 등 거의 모든 디지털화된 정보를 포함한다.

 레퍼런스 인포메이션은 디지털 혁명의 부산물로서 차세대 정보의 물결이며 역사를 다시 쓸 만한 파워를 가지고 있다. 오늘날 우리는 레퍼런스 인포메이션 속에 살고 있다고 해도 과장이 아니다.

 예를 들면 가족이나 연인과의 즐거운 시간을 디지털 사진과 비디오로 촬영해 저장하고 인터넷에 공유하며, e메일로 전자문서 및 이미지를 전송받고 보내는 모든 순간이 모두 레퍼런스 인포메이션 속의 삶인 것이다.

 직장에 있는 컴퓨터로 새로운 노래파일을 MP3 플레이어에 다운로드하고, 그것을 자신의 e메일로 전송한 다음 집에서 e메일로 받은 노래파일을 CD로 구워서 듣는 것을 생각해 보자. 우리는 다운로드한 그 노래 한곡을 이미 네 곳의 다른 장소에 레퍼런스 인포메이션으로 저장하고 있는 것이다.

 레퍼런스 인포메이션은 이러한 우리의 일상적인 삶 외에도 기업과 정부, 사회 곳곳에서 생성되고 있다. 최근 끝난 이라크 전쟁에서도 레퍼런스 인포메이션은 끊임없이 생성되고 이용됐다. 현대전은 전투병의 숫자는 과거보다 적지만 각종 첨단 무기와 정보로 잘 무장된 이른바 정보전쟁이다. 지상의 전투병과 전쟁터 상공을 비행중인 전투기 간의 실시간 정보교류는 오늘날 매우 흔한 광경이며 그 정교함은 더욱 커지고 있다. 지상의 전투병들은 위성원격측정기를 사용해 개별 건물의 위치를 정확히 파악할 수 있으며 타깃의 위치를 적외선 스캐닝을 하고 있다.

 이러한 전투병들의 정보는 거의 실시간으로 전투기로 전송되고 전투기는 이 정보와 위성이미지를 활용, 레이저 조준으로 실수없이 목표물을 파괴할 수 있다.

 레퍼런스 인포메이션은 이러한 GPS 및 원격측정 데이터에서부터 타깃을 명확하게 확보하는 위성 이미지, 미사일을 의도한 목적지로 안전하게 안내하는 레이더 이미지까지 모든 이미지를 포함하고 있다. 이와 함께 전쟁과 관련한 수많은 장면들이 비디오 파일 형태의 레퍼런스 인포메이션으로 저장, 전송돼 TV를 통해 방영되고 있다.

 또 많은 기업에서는 생산성을 향상시키고 비용은 감소시키며 기업 메시징의 일관성을 보장하기 위해 오디오, 비디오, 텍스트, 그래픽 이미지를 온라인 러닝툴로 통합해가는 e러닝 애플리케이션을 설치하고 있다.

 특히 기업 내외부 간에 실시간 정보 및 콘텐츠를 교환하도록 하기 위해 CRM, BI, SCM 등 기업 비즈니스 애플리케이션들을 구축하고 있으며 이러한 기업의 비즈니스 애플리케이션들이 바로 또하나의 레퍼런스 인포메이션이 되고 있다.

 그밖에 도서관에 보관된 많은 서적과 고문서가 디지털화되는 과정에 있고 방송의 디지털화로 수많은 방송이미지와 비디오 등 각종 이미지 자료들이 디지털화돼 보관중이며 그 필요성은 급증하고 있다.

 마지막으로 정부 및 업계의 규제와 법규화가 레퍼런스 인포메이션의 성장을 촉진하고 있다.

 국내의 경우 활발히 진행되고 있는 의료분야의 원격의료 및 전자의무기록(EMR) 도입을 들 수 있다.

 원격진료 허용과 전자의무기록, 전자서명 인정 등을 담은 보건복지부의 의료법 시행령 및 시행규칙이 4월 1일부터 시행되면서 전자의무기록을 도입하는 의료기관들은 기록의 안전한 관리, 보존 및 개인정보 누출, 변조, 훼손방지를 위한 제도적 장치와 전자매체, 서명기록 저장장치, 입력, 수정 및 확인장치 등은 물론 네트워크에 연결되지 않은 별도의 백업저장시스템을 반드시 갖춰야 한다.

 아울러 복지부는 진료에 관한 전자의무기록도 진료기록부 10년, 처방전 2년 등 기존의 종이의무기록과 동일한 보존기간을 적용키로 했다. 따라서 이제는 환자력, 가족력, 각종 검사결과 등의 의료정보(문서) 및 이미지를 일정기간 관리·보존해야 한다.

 미국의 경우에는 의료부문뿐 아니라 재무분야와 관련, 현재 e메일 기록 및 관리감독에 대한 규정(NASD·SEC Rule)을 법률로 제정해 일정기간 e메일 기록 및 첨부파일을 보관·저장하도록 규정하고 있으며 e메일 기반의 사업을 하는 기업은 반드시 이 규정을 만족해야만 한다.

 우리나라의 경우 아직 이러한 법규는 없지만 오늘날 개개인의 e메일 및 메신저 교류량은 피부로 느낄 정도로 늘어나고 있다. 현재 e메일 메시지와 첨부파일로 인해 기업의 메일박스 크기는 매년 40%씩 커지고 있으며, IT관리자는 e메일 사용자의 수가 2배 증가할 때마다 e메일 데이터의 백업·복구에 25% 이상의 시간을 소비하고 있다고 한다.

 이러한 레퍼런스 인포메이션은 △평균 파일용량보다 크고 △금융서비스, 의료, 정부기관 등에서 요구하듯 10년 정도의 보유기간을 가지며 △잦은 파일접근과 협업을 위해 안정적이고 통합적인 정보관리가 이루어져야 하고 △온라인 접근이 쉽고 빨라야 하며 △운용비용이 높지 않아야 하고 △인덱스화로 빠른시간에 탐색과 호출이 가능해야만 한다.그림3참조

 즉 레퍼런스 인포메이션은 전통적인 스토리지로는 충족되지 않는 조건을 가지고 있다.

 예를 들어 인터넷에서 신곡 한곡을 다운로드해 저장하자면 거의 150페이지짜리 텍스트를 저장할 수 있는 스토리지와 맞먹는 용량을 필요로 하고 고양이를 찍은 디지털 사진 한장보다 5배가 많은 스토리지를 소비하게 된다. 만약 MTV에서 새로운 신곡의 비디오 클립을 다운로드하고자 한다면 그 비디오 클립은 텍스트로 된 문서의 700페이지에 달하는 용량을 차지한다고 한다.

 이미 사회, 기업, 공공 각 부문에서는 폭증하고 있는 디지털 정보를 안정적으로 보관하면서 언제, 어디서든 접근 가능토록 만들고 싶어하는 욕구가 커지고 있다. 데이터는 증가하고 사용하는 애플리케이션도 지속적으로 늘어남에 따라 데이터 저장을 위한 스토리지 용량을 계속 키워나가야 하지만 비용적인 부담이 크기 때문에 한계에 부딪히고 있다.

 따라서 정보를 저장할 스토리지의 추가 구매비용은 최소화하면서 데이터를 안정적으로 보관하는 방법을 모색해야 하는 시점에 와 있는 것이다. 레퍼런스 인포메이션의 경우 또 그 특성에 맞는 다른 형태의 스토리지 방법이 요구된다.

 이러한 배경에서 출발한 기술이 바로 아카이브와 계층적저장관리(HSM:Hierarchical Storage Management) 기술이다.

 아카이브는 디스크나 테이프 라이브러리 같은 보조기억장치에 데이터를 장기간 안정적으로 보관하기 위해 데이터를 하나 또는 여러 개의 파일로 묶어 훨씬 작은 크기로 압축시켜 저장하는 방식을 가리킨다.

 다시 말하면 온라인 디스크에 있는 데이터를 세컨더리 디스크나 테이프로 이관하면서 이관된 데이터에 대해서도 디스크에 저장된 데이터와 동일한 접근이 가능하도록 하는 기술을 뜻한다.

 한편 계층적저장관리는 아카이브와 개념은 비슷하지만 파일호출도가 높고 변경이 잦은 정보관리에 사용된다.

 아카이브와 계층적저장관리 기술은 원칙적으로 스토리지의 효율적 관리를 위해 중요한 정보는 1차 스토리지에, 중요도가 떨어지는 정보는 2차 및 3차 스토리지 저장이 그 목적이나 차이점은 사용목적이 다르다는 데 있다.

 아카이브의 경우 데이터의 변경 없이, 즉 엑세스 가능성이 낮고 장기간 안정적으로 보관해야만 할 때 데이터를 세컨더리 디스크나 테이프 라이브러리에 저장함으로써 관리비용을 줄이고자 사용된다.

 예를 들면 의료영상저장전송시스템(PACS)에서 사용될 수 있으며 의료법상 관련 이미지를 변경없는 파일 형태로 5년 내지 10년 동안 보관해야 하는 경우, e메일 및 e메일 첨부문서를 그대로 몇 년간 보관해야 하는 경우, 방송사의 오래된 이미지 파일들을 저장하는 경우에 적합하다.

 그러나 계층적저장관리의 경우는 수시로 데이터를 불러서 변경하고 저장하는 경우, 즉 액세스 가능성이 상당히 높은 데이터에 사용되며 건물도면이라든가 자동차 설계도면 정보 등의 저장을 효율적으로 하고자 할 때 적합하다. 특히 데이터베이스가 읽기 전용(read only)성격이 강한 데이터웨어하우징(DW)의 경우 대부분의 데이터를 2차 저장장치에 보관하고 1차 저장장치에는 DB파일에 대한 포인터 및 현재 작업에 필요한 DB파일만을 저장함으로써 스토리지의 비용적인 측면뿐만 아니라 성능개선 면에서도 적합한 기술이다.

 이 두가지 기술 모두 정보가 저장된 위치는 다르지만 사용자 입장에서 언제든 파일을 볼 수 있고 접근이 가능하다는 장점을 가지고 있다.

 아카이빙 및 계층적저장관리 솔루션은 레퍼런스 인포메이션의 특성상 평균 이상의 용량을 가진 파일이 정부규제 및 법규로 10년 정도의 장기간의 정보보관이 불가피한 경우 그러한 정보를 안정적이면서 효율적인 비용으로 보관하고 언제든지 온라인으로 접근하기 위해 가장 적합한 기술이다.

 이러한 레퍼런스 인포메이션에 적합한 스토리지 솔루션을 기업 및 공공기관, 정부가 깨닫는 순간 레퍼런스 인포메이션 시장과 아카이브 기술은 기대했던 것 이상의 잠재력을 보일 것이라 예상된다.  

 rjun@legato.com

 약력

1963년 서울 출생

1981년 서울 대일고등학교 졸업

1985년 서강대 경영학과 졸업

1986년 현대전자 미국법인 재무담당 매니저

1988년 새너제이주립대 MBA

1990년 미국 TDI 대표

2000년 레가토시스템즈코리아 대표