최근 인공지능(AI) 시대로의 전환이 가속화되면서, AI 학습용 데이터 개방 요구가 증가하고 있다. 개인 및 사업체 단위의 상세한 통계 자료 제공 요구가 늘어나는 가운데, 국가통계작성기관들은 마이크로데이터 전면 개방의 가장 큰 걸림돌로 개인정보 노출 위험을 지목해왔다. 제공되는 자료가 상세해질수록 유용성은 높아지지만, 동시에 개인정보가 노출될 위험 또한 함께 증가하는 딜레마에 직면해 있었던 것이다.
이러한 문제점을 해결하기 위해 통계청은 개인정보 노출 위험을 평가하고 특정 개인이나 사업체를 식별할 수 없도록 처리하는 프로그램인 ‘KOSTAT-Did (De-identification)’를 개발했다. 통계청은 2023년 ‘통계작성 및 통계자료 제공을 위한 비식별화 가이드라인’을 배포하며 개인 및 단체의 기밀 보호와 통계적 유용성 간의 균형을 권고한 바 있다. 이에 이어 2024년에는 담당자들이 수작업으로 처리해왔던 비식별화 업무를 지원하고자 엑셀 기반의 자동 프로그램인 KOSTAT-Did를 선보였다. 이 프로그램은 통계청 및 외부 기관 실무자와 전문가의 테스트를 거쳐 최종 확정되었으며, 9월 4일(목)부터 국가통계작성기관을 대상으로 통계정책관리시스템(www.narastat.kr/pms/index.do)을 통해 서비스된다. 또한, 10월부터는 맞춤형 사용자 교육도 실시할 예정이다.
KOSTAT-Did는 통계자료의 특성을 반영하여 마스킹, 범주화, 통계적 잡음(노이즈) 첨가, 자료 교환(스와핑) 등 총 15종의 비식별화 기법을 지원한다. 예를 들어, 마스킹은 ‘김OO’와 같이 기호를 사용하여 일부를 가리는 방식이며, 범주화는 유일한 속성으로 인해 개체가 식별될 위험이 있는 경우, 보다 큰 범주의 값으로 대체하는 방식이다. 구체적으로 초고령자의 경우 ‘102세’를 ‘100세 이상’으로 범주화하는 등의 처리가 가능하다. 이 프로그램은 마이크로데이터의 비식별화 처리가 완료되면 표준화된 평가 보고서를 자동 생성하며, 처리 전후의 정보 손실도 및 노출 위험도를 시각화된 그래프와 정량화된 지표로 비교 분석할 수 있도록 지원한다. 이를 통해 통계담당자는 통계자료의 객관적인 정보보호 수준을 측정하고 평가할 수 있으며, 기관 차원에서는 최적의 마이크로데이터 공개 범위를 설정하는 데 활용할 수 있다.
안형준 통계청장은 이번 프로그램 보급에 대해 정부가 AI 대전환을 통한 세계 3대 AI 강국 도약을 목표로 하고 있음을 언급하며, 이를 위해서는 양질의 데이터인 국가통계를 안전하게 개방할 수 있는 인프라 지원이 필수적이기 때문이라고 밝혔다. 통계청이 통계자료 개방 관련 지침이나 가이드라인 제공을 넘어 실무에 적용 가능한 자동 프로그램을 보급한 것은 이번이 처음이다. 통계청은 이번 비식별화 프로그램 보급을 계기로 최신 정보보호 신기술 연구와 인프라 확충에 힘쓰고, 437개 국가통계작성기관 전체가 보다 많은 데이터를 손쉽고 안전하게 개방할 수 있도록 적극 지원해 나갈 방침이다.