데이터 익명화(혹은 비식별화)는 데이터의 주체를 누구인지 알 수 없도록 데이터를 가공하는 일련의 작업을 의미한다. 이 작업은 현재 우리가 살고 있는 빅데이터 시대 이전에도 존재하였던 개념이다. 그러나 근래에 들어 데이터의 대량 생산 및 활용, 컴퓨터 기술의 발달 등에 의해 기존에 생각하지 못했던 문제들이 발생하였고, 그 문제의 사회적 파급 효과 역시 이전과는 비교할 수 없을 만큼 커지고 있다는데 주목하여야 한다. 빅데이터 시대에서 빅데이터를 활용하고 분석하는 산업의 중요성은 이론의 여지가 없지만, 빅데이터 속에 포함되어 있는 개인들의 사생활 정보에 대한 적절한 보호 역시 간과할 수 없다. 이러한 ‘빅데이터 활용’과 ‘개인정보보호’라는 서로 상충될 수 있는 두 가지 목적을 달성하는 기술이 데이터 익명화라고 볼 수 있다.
머리말
빅데이터, 인공지능, 4차 산업혁명과 같은 용어들이 세간의 화두가 되고 있는 시대에 살고 있다. 그리고 이런 기술들의 근간에는 데이터라는 연료가 필요하다. 문제는 이 데이터 중에는 우리 인간들의 정보를 나타내는 것이 많이 포함된다는 점이다. 인간/개인의 정보를 표현하는 데이터는 그 정보 주체의 사생활을 드러내게 마련이다. 가령, 개인의 의료 정보로부터 병명이 드러나거나 신용 정보로부터 개인의 재산 및 신용등급이 드러나는 등의 문제가 발생할 수 있다는 의미이다. 사람의 데이터를 생성, 저장, 처리하는 과정에서 발생할 수 있는 개인의 프라이버시 침해 문제를 다루는 공학 연구 분야를 데이터 프라이버시(data privacy) 혹은 데이터베이스 프라이버시(database privacy)라고 한다. 일반 대중들에게는 데이터 익명화 혹은 데이터 비식별화라는 용어로 널리 알려져 있다.
데이터 익명화(혹은 비식별화)는 데이터의 주체를 누구인지 알 수 없도록 데이터를 가공하는 일련의 작업을 의미한다. 이 작업은 현재 우리가 살고 있는 빅데이터 시대 이전에도 존재하였던 개념이다. 그러나 근래에 들어 데이터의 대량 생산 및 활용, 컴퓨터 기술의 발달 등에 의해 기존에 생각하지 못했던 문제들이 발생하였고, 그 문제의 사회적 파급 효과 역시 이전과는 비교할 수 없을 만큼 커지고 있다는데 주목하여야 한다. 빅데이터 시대에서 빅데이터를 활용하고 분석하는 산업의 중요성은 이론의 여지가 없지만, 빅데이터 속에 포함되어 있는 개인들의 사생활 정보에 대한 적절한 보호 역시 간과할 수 없다. 이러한 ‘빅데이터 활용’과 ‘개인정보보호’라는 서로 상충될 수 있는 두 가지 목적을 달성하는 기술이 데이터 익명화라고 볼 수 있다.
우리나라에서 ‘데이터 익명화(비식별화)’라는 용어가 일반인들에게 대두된 시기는 불과 5년 전이다. 개인정보보호를 담당하는 정부부처인 행정안전부 및 방송통신위원회에서 데이터 산업 활성화를 위해 논의를 시작하였고, 이후 많은 언론과 시민 사회단체들로부터 논란을 야기하고 있다. 인터넷 포털 사이트를 방문하여 ‘익명화’ 혹은 ‘비식별화’라는 단어로 기사를 검색하면 지금도 많은 기사들이 지속적으로 발견된다. 그런데 정부 기관이 발간한 기술적인 문서나 각종 언론에서 발표되는 기사들 중에서 매우 많은 비율은 (데이터 익명화에 대한 찬반을 떠나) 기술적으로 잘못된 내용을 이야기 하고 있다. 그리고 그 내용이 확대 재생산되고 있다.
이 책은 지금 우리나라에서 논의되고 있는 데이터 익명화에 대한 기술적 오해를 없애고자 현재까지 공학/전산학 분야에서 연구되어 온 데이터 프라이버시 기술들을 정리하고 소개하는데 목적이 있다. 기술적으로 올바른 이해를 바탕으로 최근 대두되고 있는 개인정보보호법 개정을 통한 데이터 산업의 활성화와 개인정보보호에 대한 사회적 합의 도출 시도가 잘 이루어지기를 희망한다.
이 책의 구성은 다음과 같다. 먼저 1장은 우리나라의 개인정보보호에 관련한 제도적-법적 배경과 현황에 대해 설명한다. 여기에는 현재 우리의 법제도가 지니는 특성과 그에 따른 문제점이나 한계점이 기술되어 있다. 2장부터 6장까지는 데이터 익명화 기술들에 대해, 데이터의 형태나 익명화 처리 환경에 따라 구분하여 설명한다. 2장과 3장은 가장 널리 사용되는 관계형 데이터에 대한 익명화 기술들을 설명하고, 4장은 비관계형 데이터에 대한 익명화, 위치 데이터에 대한 익명화, 그리고 스트림 환경에서 적용하는 익명화 기술에 대해 설명한다. 5장은 관계형 데이터에서 도출된 통계 정보로부터 발생할 수 있는 개인의 프라이버시 침해를 대비하는, 통계적 프라이버시 보호 개념에 대해 소개한다. 6장은 데이터의 수집 단계에서 사용자가 직접 익명화를 진행하여, 데이터 수집가 조차도 사용자의 원본 데이터를 보유하지 않는 기술에 대해 설명한다. 사용자가 직접 자신의 데이터를 익명화하므로, 이론적으로 사용자의 동의가 필요 없는 방법이 될 수 있다. 7장부터 9장은 앞서 설명하였던 익명화 기술들을 실제 데이터를 가지고 적용한 예시들을 소개한다. 실제 어떤 익명화 기술들이, 어떤 응용 분야에서 사용되는지, 그리고 개인의 프라이버시 보호가 어떤 수준으로 이루어지는지 살펴보는데 도움이 될 것이다.
마지막으로 이 책을 집필하는데 직간접적으로 많은 도움을 준 고려대학교 데이터베이스 연구실 재학생 및 졸업생들에게 감사를 드린다.
2018년 1월 31일
저자일동
정보제공 :