▲물리적 데이터 레이크와 데이터 가상화의 구조와 특징 비교 / 자료=엔코아
소비자 분석을 통한 판매 확대, 제조 혁신을 통한 생산성 향상 등을 위한 디지털 전환의 필요성이 커지면서 기업이 다뤄야 할 데이터가 빠르게 방대해졌다. 이 같은 상황에서 데이터 레이크(data lake)에 이어 데이터 가상화(data virtualization)가 주목받고 있다. 특히 데이터 가상화는 데이터 레이크의 단점으로 지적되는 과도한 비용과 잠재적 보안 문제를 해결해 기업의 데이터 활용을 가속화할 든든한 무기라는 점에서 관심이 커지고 있다.
■빅데이터 시대, 데이터 레이크의 부상=빅데이터 시대가 도래하고 다양한 형태의 방대한 데이터를 분석해 새로운 인사이트를 도출해야 한다는 요구가 커지면서 이를 위한 적절한 대안으로 각광받은 것이 데이터 레이크다. 2010년대 초반 처음 개념이 소개된 데이터 레이크는 기업의 각 사업부문에서 쌓아놓은 정형·반정형·비정형 데이터를 날 것(raw data) 그대로 하나의 물리적 저장소에 모으는 방식이다. 데이터 레이크는 정형 데이터를 대상으로 하고 잘 짜여진 구조를 갖춘 데이터웨어하우스(DW)와 데이터마트(DM)에 비해 목적성이 덜 분명한 것이 특징이다. 일단 쌓아놓고 다양한 분석을 통해 인사이트를 발굴하는 것이다.
사업부문별로 활용되던 데이터를 한 곳에 모음으로써 서로 연관성을 갖지 못했던 기업 내 다양한 데이터에 쉽게 접근해 조합, 분석해 인사이트를 얻어낼 수 있다는 것이 데이터 레이크의 기본 개념이자 주목받은 가장 큰 이유다.
국내에서도 일부 대기업이 구축하고 있고, 정부도 디지털 플랫폼 구현을 위한 방안의 하나로 데이터 레이크를 염두에 두고 있다.
■효과만큼 뚜렷한 데이터 레이크의 한계=하지만, 데이터 레이크는 효과만큼이나 한계가 뚜렷하다는 지적이 나오고 있다.
우선 인사이트를 도출하기까지 필요한 투자와 노력이 지나치게 크다는 것이 문제다. 데이터 레이크에 대한 투자는 최초 구축에 그치지 않고 이를 유지하는 한 끊임없이 필요하다는 것이 전문가들의 지적이다. 분산된 대용량의 원천 데이터를 물리적 저장소로 이동한 뒤 각 사업부문의 원천 데이터와 저장소 안의 데이터를 동기화하는데 지속적으로 많은 시간과 솔루션 비용이 필요하다.
또 데이터 레이크에 유사한 데이터가 많고, 오래돼 효용성이 크게 떨어지는 데이터도 많지만, 이를 함부로 삭제하기 어려워 데이터의 정합성, 품질, 중복 이슈가 계속될 수밖에 없다. 또 이렇게 쌓인, 이른바 ‘쓰레기 데이터’가 저장소를 채우면서 클라우드 스토리지 서비스 등을 위해 지불해야 하는 비용만 커지는 결과를 초래하기 쉽다.
■우려 큰 데이터 레이크 보안 이슈=보안 문제는 데이터 레이크의 핵심적인 이슈다. 개인정보보호법, 개인정보보호지침, 의료정보보호법 등 관련 법령에 대상이 되는 기업이나 기관은 원천 데이터 소스에 대해 DB 암호화, DB 접근제어 등 기술적 조치를 해야 한다.
그런데 데이터 레이크에서는 사용자 인증만 한 상태에서 복호화된 데이터를 분석한다는 지적이 나오고 있다. 주민등록번호 등 민감한 개인정보를 대체 키와 결합한 뒤 분석해야 하는데, 이러한 과정이 생략된 채 복호화된 상태에서 분석을 하는 경우가 많다는 것이다.
▲데이터 가상화 플랫폼을 통한 신속한 데이터 분석 및 활용 통합환경 구성 개념도 / 자료=엔코아
■해결사로 등장한 데이터 가상화…데이터 레이크와 보완관계=데이터 레이크의 과도한 비용과 보안 문제를 해결할 수 있는 대안으로 주목받고 있는 것이 데이터 가상화다. 데이터 가상화는 분산돼 있는 데이터를 필요할 때마다 별도의 메모리 공간에 가상 데이터 레이어로 통합해 실시간으로 최신 데이터를 활용하는 개념이다.
전문가들은 데이터 가상화가 데이터 물리적 이동과 동기화, 민감정보 복호화 이슈 등 데이터 레이크의 문제를 해결하지만, 데이터 레이크의 완전한 대체보다 상호 보완 측면에서 큰 가치를 갖는다고 강조한다.
김범 엔코아 전략사업본부장은 “데이터 레이크와 데이터 가상화의 관계는 대체재가 아닌 보완재 개념으로 접근해야 효과적으로 데이터를 분석, 활용할 수 있다”고 말했다.
김범 전략사업본부장은 이어 “자주 바뀌지 않고 민감도가 낮은 데이터는 데이터 레이크에 넣고, 자주 바뀌거나 민감한 데이터는 가상화를 통해 처리하는 식으로 상호 보완할 수 있다”며 “데이터 소스 측면에서 보면, 기간계의 원천 데이터도 가져오지만 데이터 레이크에 저장된 데이터를 가져올 수도 있다. 데이터 가상화 공간에서 이 모든 데이터를 다 볼 수 있다”고 설명했다.
또 이미 데이터 레이크를 구성했다면, 데이터 가상화를 적용해 자주 바뀌지 않는 데이터만 선택적으로 데이터 레이크에 남기는 방식으로 데이터 이동과 동기화에 필요한 비용과 저장공간 비용을 줄일 수 있다. 데이터를 레이크에 넣기 전에 가상화를 통해 사전 확인하는 절차를 거치면 오류를 크게 줄이는 효과도 얻을 수 있다.
■주목받는 데이터 가상화 솔루션=최근 데이터 가상화에 대한 관심과 요구가 커지면서 IBM, 디노도, 팁코 등 여러 기업이 관련 솔루션을 선보이고 있다.
국내 기업 중에는 엔코아가 대표적이다. 데이터 비즈니스 전문기업 엔코아는 2020년 6월 국내 최초로 데이터 가상화 솔루션을 선보였다.
엔코아의 데이터 가상화 솔루션 ‘데이터웨어 디브이샵(DATAWARE DV#)’은 기업의 다양한 시스템에 분산된 데이터베이스, 파일, 빅데이터를 별도의 메모리 공간에 가상 데이터 레이어로 통합해 최신 데이터를 실시간으로 활용할 수 있는 유연한 환경을 제공한다. 물리적인 데이터베이스 통합에 비해 구현기간을 줄이고 리소스도 크게 절감할 수 있다.
김범 본부장은 “데이터 가상화 솔루션을 선택할 때는 솔루션 공급기업이 수요기업의 데이터 관련 이슈와 고민을 정확히 파악하고 데이터 가상화를 통해 이를 해결할 수 있는 방법을 제시할 수 있는 데이터 전문성을 갖췄는지를 봐야 한다”고 언급했다.
김 본부장은 이어 “25년동안 오직 데이터만 고민해온 엔코아는 데이터 관리와 활용에 대해 국내에서 가장 많은 경험을 축적한 곳으로, 만족스러운 데이터 활용을 위해 필요한 서비스를 A부터 Z까지 모두 제시하고 있다”고 강조했다.
강동식 기자 lavita@datanews.co.kr
[ⓒ데이터저널리즘의 중심 데이터뉴스 - 무단전재 & 재배포 금지]